Web Scraping Para Análise de Dados Por Grimaldo Oliveira

A análise de dados vive seu grande apogeu neste século: nunca se obteve tantos dados quanto agora. Milhares de dados são despejados na Internet a cada dia podendo ser visto pelos analistas de dados como uma grande aflição no tratamento de tanto conteúdo, bem como uma oportunidade na melhoria de suas análises. Neste dilema aparece um ator para jogar mais "lenha nesta fogueira", o que denominamos de Web Scraping.

 

Conhecida por extração de dados da Web, ela é utilizada para coletar dados em sites e repositórios espalhados pelo ciberespaço diretamente usando o Protocolo de Transferência de Hipertexto ou através de um navegador da Web. Geralmente todo o processo de captura dos dados é realizado por ferramentas automatizadas, utilizando rastreadores ou bots (robôs) que realizam a busca dos dados. Então são copiados da web para bases de dados ou arquivos em servidores locais, gerando silos de dados sobre a informação que se deseja.

Não importa onde estejam armazenados os dados na web, seja em formato de tabelas ou que necessite de consultas em aplicações, basta possuir o caminho exato de sua localização. Um exemplo típico do uso de Web Scraping é a captura de dados sobre empresas no site da receita federal, onde o bot (robô) entrará com o CNPJ da empresa, responderá o captcha e acessará os dados. Em seguida os dados serão persistidos em uma base local.  

Esta demanda pelo uso do Web Scraping vem crescendo a cada dia, principalmente para quem necessita de dados para incrementar seu Data Lake ou hub de dados. Outro ponto relevante para admissão desta abordagem é a grande dificuldade na busca, por exemplo, de dados abertos que estão espalhados em diversos sites mundo afora, acarretando geralmente baixa de arquivos em formato “xls”, “json” com certa frequência de forma manual ou programada.

 

As ferramentas de Data Discovery como Tableau e Power Bi já estão se preparando para esta nova fase na busca por dados na web. Ambas implementaram componentes que fazem a captura de dados e armazenam de forma amigável em tabelas de dados para a leitura.

 

No Tableau esta tarefa é possível, por exemplo, importando planilhas do Google. O Tableau conecta ao Google planilhas e importa os dados. A grande facilidade está na função IMPORTHTML do Google que irá ler dados de um site por meio da URL.

 

Veja abaixo um exemplo de importação de dados de um site sobre avistamento de OVNIS:

 

Função no Google Planilhas:

 

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_reported_UFO_sightings";"table";8)

Tableau:

Com isso, a cada atualização da página HTML, o TABLEAU pode também atualizar seus dashboards, provando que a leitura dos dados pode ser oriunda de qualquer meio físico.

 

Web Scraping é mais uma função a ser incorporada pelos analistas de dados que buscam por melhorias na qualidade e no incremento da informação ao ponto de decisão das empresas. Devem se preparar para o futuro, já que nunca se obteve tantos dados quanto agora, e nem se obterá tanto quanto amanhã.

Cadastre-se agora mesmo e continue acompanhando os próximos artigos! Inscreva-se AQUIVeja outros artigos na seção ARTIGOS. Qualquer dúvida ou comentário, utilize a área de CONTATO.

Até a próxima!

© Copyright 2019 - Todos os direitos reservados.