Buscar

Desvendando 'Data Scraping' Entenda como raspar dados pode facilitar o trabalho jornalístico Knight Center for Journalism in the Americas


Prévia do material em texto

Tweetar 6ShareShare
Search for: 
(/)
(/en/blog/00-9676-unraveling-data-scraping-understanding-how-scrape-data-can-facilitate-journalists-work) (/es/blog
/00-9692-descifrando-el-data-scraping-herramientas-para-raspar-datos-que-facilitan-el-trabajo-de) (/pt-br/blog/00-9586-
desvendando-o-data-scraping-entenda-como-raspar-dados-pode-facilitar-o-trabalho-jornali)
Blog JORNALISMO NAS AMERICAS
(http://feeds.feedburner.com
/kcblogpt-br)
Início (/pt-br) › Jornalismo nas Américas (/pt-br/blog)
Desvendando 'Data Scraping': Entenda
como raspar dados pode facilitar o trabalho jornalístico
Por Eric Andriolo (/pt-br/users/eric-andriolo)
Read in English (/blog/00-9676-unraveling-data-scraping-understanding-how-scrape-data-can-facilitate-journalists-work) Lea en Español (/es/blog/00-9692-
descifrando-el-data-scraping-herramientas-para-raspar-datos-que-facilitan-el-trabajo-de)
23 (#) (#)
Você já ouviu falar em 'data scraping (http://en.wikipedia.org/wiki/Data_scraping)' ou raspagem de dados? O termo pode até parecer novo, mas a técnica é usada
por programadores há bastante tempo e agora vem atraindo a atenção de jornalistas que precisam acessar e organizar dados para reportagens
(https://knightcenter.utexas.edu/pt-br/blog/jornalismo-de-dados-recursos-para-ajudar-reporteres-coletar-organizar-e-analisar-dados).
Scraping é a atividade de extrair dados de sites e transportá-los para um formato mais simples e maleável para que possam ser analisados e cruzados com mais
facilidade. Muitas vezes a informação necessária para reforçar uma história está disponível, mas em sites de navegabilidade ruim ou em bancos de dados difíceis
de manipular. Para coletar automaticamente e visualizar essas informações, recorre-se a softwares conhecidos como scrapers.
Apesar de parecer coisa de 'geek', não é preciso perseguir cursos avançados de programação e conhecer linguagens complicadas para raspar dados. Segundo
o webativista Pedro Markun (http://twitter.com/#!/markun), animador de diversas oficinas de scraping na Casa de Cultura Digital
(http://www.casadaculturadigital.com.br/), em São Paulo, o nível de conhecimento necessário para aproveitar a técnica é "muito básico".
“Scrapers são programas simples de lidar, o grande desafio e o exercício constante é encontrar um padrão nos dados das páginas web - algumas páginas são
bem simples, outras são uma dor de cabeça sem fim”, explicou ao Centro Knight para o Jornalismo nas Américas.
Markun possui um perfil público (https://scraperwiki.com/profiles/markun/) no site Scraperwiki (https://scraperwiki.com/), que permite escrever uma raspagem
online ou acessar as de outras pessoas.
Assim como o Scraperwiki, existem outras ferramentas online que facilitam a raspagem de dados, como o Mozenda (http://www.mozenda.com/), um software de
interface simples que automatiza boa parte do trabalho, e o Screen Scraper (http://www.screen-scraper.com/), uma ferramenta mais complexa, que trabalha com
diversas linguagens de programação para extrair dados da Web. Outro software útil nesse sentido é o Firebug (http://getfirebug.com/) (para Firefox).
O Google disponibiliza o Google Refine (http://code.google.com/p/google-refine/) para manipular dados confusos e transportá-los para formatos maleáveis.
Também é possível fazer download gratuito de Ruby (http://www.ruby-lang.org/en/), uma linguagem de programação simples e eficiente, que pode ser rodada no
Nokogiri (http://nokogiri.org/) para fazer raspagem de documentos e sites.
Nem sempre os dados estão em formatos abertos e fáceis de scrapear. Documentos escaneados, por exemplo, precisam ser convertidos antes em texto. Essa
função pode ser encontrada no Tesseract (http://code.google.com/p/tesseract-ocr/), uma ferramenta OCR (Reconhecimento Ótico de Caracteres) do Google que
“lê” textos escaneados e os converte em texto virtual, para ser interpretado pelo computador.
Informações e manuais sobre o uso dessas ferramentas estão disponíveis em sites como o Propublica (http://www.propublica.org/nerds/item/the-coders-cause-
in-dollars-for-docs), um portal que oferece diversos artigos e tutoriais de ferramentas de raspagem para jornalismo, e em vídeos no YouTube
(http://www.youtube.com/watch?v=G1uL_0Nakok).
Mesmo que você seja adepto da filosofia hacker, na qual leitura de tutorial e mão na massa costumam ser o caminho do aprendizado, pode acontecer de
persistirem algumas dúvidas e dificuldades no uso dessas ferramentas. Uma boa opção é entrar em contato com programadores mais experientes em grupos de
discussão como o Thackday (https://groups.google.com/group/thackday?hl=pt) e a Comunidade do Scraperwiki (http://groups.google.com/group
/scraperwiki?hl=en), que conta com alternativas pagas e gratuitas para encontrar alguém que ajude a fazer o scraping.
Lidar com dados pode até ser old school para jornalistas, mas saber como extraí-los e organizá-los ganhou outra importância na passagem da era da escassez
para a da abundância de informação. Por isso, aproveite as dicas e boa raspagem!
Publicado 2012-04-09 11:00
33GostoGosto
INíCIO (/pt-br)
TREINAMENTO (/pt-br/training)
BLOGS (/pt-br/blog)
NOSSAS NOTÍCIAS (/pt-br/knightcenternews)
FÓRUM DE AUSTIN (/pt-br/austinforum)
QUEM SOMOS (/pt-br/aboutus)
Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data...
1 of 4 21/05/2016 02:26
Temas: bases de dados (/pt-br/category/temas-blog-pt-br/bases-de-dados) futuro do jornalismo (/pt-br/taxonomy/term/110) jornalismo de dados (/pt-br
/category/temas-blog-pt-br/jornalismo-de-dados)
Similar entries
Jornalistas brasileiros dão dicas de ferramentas úteis para o trabalho investigativo com dados (/pt-br/blog/00-10312-jornalistas-brasileiros-dao-dicas-
de-ferramentas-uteis-para-o-trabalho-investigativo-c)
Especialista em Reportagem com Auxílio do Computador destaca três ferramentas inovadoras para jornalistas (VÍDEO) (/pt-br/blog/especialista-
em-reportagem-com-auxilio-do-computador-destaca-tres-ferramentas-inovadoras-para-j)
Jornalistas e programadores se encontrarão na primeira maratona hacker promovida por um jornal brasileiro (Entrevista) (/pt-br/blog/00-10457-
jornalistas-e-programadores-se-encontrarao-na-primeira-maratona-hacker-promovida-por-u)
Jornalismo de dados: Recursos para ajudar repórteres a coletar, organizar e analisar dados (/pt-br/blog/jornalismo-de-dados-recursos-para-ajudar-
reporteres-coletar-organizar-e-analisar-dados)
6 ferramentas digitais para incluir no seu kit de jornalismo de dados (/pt-br/blog/00-14172-6-ferramentas-digitais-para-incluir-no-seu-kit-de-jornalismo-
de-dados)
No comments
Comentar
Seu nome: *
Email: *
O conteúdo deste campo é privado não será exibido ao público.
Sua página:
Assunto:
Comentário: *
Formato de entrada
 Filtered HTML
Não é permitida nenhuma tag HTML
Quebras de linhas e parágrafos são feitos automaticamente.
Tags HTML permitidas: <a> <blockquote> <br> <cite> <code> <dd> <div> <dl> <dt> <em> <li> <ol> <p> <span> <strong> <ul>
 Full HTML
Endereços de páginas de internet e emails viram links automaticamente.
Quebras de linhas e parágrafos são feitos automaticamente.
Mais informações sobre as opções de formatação (/pt-br/filter/tips)
By submitting this form, you accept the Mollom privacy policy (http://mollom.com/web-service-privacy-policy).
Manchetes do nosso blog:
JORNALISMO
NAS AMERICAS
(http://knightcenter.utexas.edu/pt-br/blog)
"Tuitômetro" do Fundamedios monitora discurso oficial contra a imprensa no Equador (/pt-br/blog/00-17128-tuitometro-do-fundamedios-monitora-
discurso-oficial-contra-imprensa-no-equador) May 18
Site mexicano Aristegui Noticias leva o prêmio Knight International Journalism Award (/pt-br/blog/00-17125-site-mexicano-aristegui-noticias-leva-o-
Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data...2 of 4 21/05/2016 02:26
premio-knight-international-journalism-award) May 18
Repórteres chilenos lançam rede de jornalistas investigativos em meio a protestos contra a "Lei da Mordaça" (/pt-br/blog/00-17124-reporteres-
chilenos-lancam-rede-de-jornalistas-investigativos-em-meio-protestos-contra) May 18
CPJ lança plataforma digital segura para receber denúncias de ataques a jornalistas e à liberdade de imprensa (/pt-br/blog/00-17120-cpj-lanca-
plataforma-digital-segura-para-receber-denuncias-de-ataques-jornalistas-e-li) May 17
Relatório aponta diminuição de casos de ameaça à liberdade de expressão no Uruguai (/pt-br/blog/00-17118-relatorio-aponta-diminuicao-de-casos-
de-ameaca-liberdade-de-expressao-no-uruguai) May 17
Jornalistas cobram investigação após outra morte de profissional da mídia em Veracruz, no Mexico (/pt-br/blog/00-17115-journalistas-cobram-
investigacao-apos-outra-morte-de-profissional-da-midia-em-veracruz) May 16
Jornalistas precisam aprender a usar ferramentas de segurança digital para enfrentar situações de risco, aponta relatório (/pt-br/blog/00-17111-
jornalistas-precisam-aprender-usar-ferramentas-de-seguranca-digital-para-enfrentar-sit) May 16
Mais manchetes (http://knightcenter.utexas.edu/pt-br/blog?page=1)
(https://knightcenter.utexas.edu/pt-br/doacoes)
(https://twitter.com/utcentroknight)
Incorporar Ver no Twitter
Tweets por @utcentroknight
7h
"Tuitômetro" do Fundamedios 
monitora discurso oficial contra a 
imprensa no Equador 
knightcenter.utexas.edu/pt-br/blog/00-
…
UT Centro Knight
@utcentroknight
Facebook
email marketing
(http://www.activecampaign.com/)
by activecampaign
Assine aqui a nossa
newsletter semanal!
Nome Completo
Email *
Selecione as listas que deseja
subscrever
 Boletim Semanal (Português)
 Boletín Semanal (Español)
 Weekly Newsletter (English)
Assine
Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data...
3 of 4 21/05/2016 02:26
Tag Cloud
justiça (/pt-br/taxonomy/term/160) Argentina (/pt-br/taxonomy/term/84) Honduras (/pt-br/taxonomy/term/186) Peru (/pt-br/taxonomy/term/282) redes sociais
(/pt-br/taxonomy/term/132) jornalismo online (/pt-br/taxonomy/term/125) violência contra jornalistas (/pt-br/category/temas-blog-pt-br/violencia-
contra-jornalistas) processo judicial (/pt-br/category/temas-blog-pt-br/processo-judicial) futuro do jornalismo (/pt-br/taxonomy/term/110) ataques
contra jornalistas (/pt-br/category/temas-blog-pt-br/ataques-contra-jornalistas) censura (/pt-br/category/temas-blog-pt-br/censura)
jornalismo digital (/pt-br/taxonomy/term/92) Colômbia (/pt-br/taxonomy/term/284) jornalismo investigativo (/pt-br/taxonomy/term/80) ataques
a jornalistas (/pt-br/category/temas-blog-pt-br/ataques-jornalistas) assassinato (/pt-br/taxonomy/term/256) acesso à informação
pública (/pt-br/category/temas-blog-pt-br/acesso-informacao-publica) ameaças contra jornalistas (/pt-br/category/temas-blog-pt-
br/ameacas-contra-jornalistas) liberdade de expressão (/pt-br/taxonomy/term/97) agressão (/pt-br
/category/temas-blog-pt-br/agressao) impunidade (/pt-br/taxonomy/term/177) Venezuela (/pt-br/taxonomy/term/104) México (/pt-br
/taxonomy/term/77) prisão (/pt-br/category/temas-blog-pt-br/prisao) violência (/pt-br/taxonomy/term/233) Equador (/pt-br/taxonomy/term/358)
relação com a mídia (/pt-br/taxonomy/term/103) liberdade de imprensa (/pt-br/taxonomy/term/98)
Brasil (/pt-br/taxonomy/term/158) EUA (/pt-br/taxonomy/term/119)
more tags (/pt-br/tagadelic/chunk/3)
Comentários recentes
Boas dicas! Tem que prestar (/pt-br/blog/seguranca-online-15-dicas-de-protecao-para-o-uso-da-internet-e-das-redes-sociais-por-jornalista#comment-14702)
35 semanas 3 dias atrás
curso sobre técnicas de jornalismo de dados (/pt-br/blog/00-16179-incricoes-abertas-para-curso-online-gratuito-em-portugues-sobre-tecnicas-
do-jornalismo#comment-14369)
43 semanas 6 dias atrás
Curso Infografia (/pt-br/blog/00-15720-alunos-de-mooc-sobre-infografia-participam-do-congresso-brasileiro-de-jornais-e-visita#comment-12834)
1 ano 7 semanas atrás
Interessante (/pt-br/blog/00-15915-aprenda-promover-e-rentabilizar-projetos-online-no-novo-curso-em-espanhol-do-centro-kn#comment-12584)
1 ano 13 semanas atrás
Cadastro de links (/pt-br/blog/00-15300-com-apoio-do-google-anj-e-centro-knight-lancam-curso-massivo-online-sobre-visualizacao#comment-9908)
1 ano 51 semanas atrás
(http://journalism.utexas.edu/) (http://moody.utexas.edu/)
(http://utexas.edu)
CONTACT US (http://knightcenter.utexas.edu/aboutus#contactus) • STAFF (http://knightcenter.utexas.edu/aboutus#staff)
Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data...
4 of 4 21/05/2016 02:26