Prévia do material em texto
Tweetar 6ShareShare Search for: (/) (/en/blog/00-9676-unraveling-data-scraping-understanding-how-scrape-data-can-facilitate-journalists-work) (/es/blog /00-9692-descifrando-el-data-scraping-herramientas-para-raspar-datos-que-facilitan-el-trabajo-de) (/pt-br/blog/00-9586- desvendando-o-data-scraping-entenda-como-raspar-dados-pode-facilitar-o-trabalho-jornali) Blog JORNALISMO NAS AMERICAS (http://feeds.feedburner.com /kcblogpt-br) Início (/pt-br) › Jornalismo nas Américas (/pt-br/blog) Desvendando 'Data Scraping': Entenda como raspar dados pode facilitar o trabalho jornalístico Por Eric Andriolo (/pt-br/users/eric-andriolo) Read in English (/blog/00-9676-unraveling-data-scraping-understanding-how-scrape-data-can-facilitate-journalists-work) Lea en Español (/es/blog/00-9692- descifrando-el-data-scraping-herramientas-para-raspar-datos-que-facilitan-el-trabajo-de) 23 (#) (#) Você já ouviu falar em 'data scraping (http://en.wikipedia.org/wiki/Data_scraping)' ou raspagem de dados? O termo pode até parecer novo, mas a técnica é usada por programadores há bastante tempo e agora vem atraindo a atenção de jornalistas que precisam acessar e organizar dados para reportagens (https://knightcenter.utexas.edu/pt-br/blog/jornalismo-de-dados-recursos-para-ajudar-reporteres-coletar-organizar-e-analisar-dados). Scraping é a atividade de extrair dados de sites e transportá-los para um formato mais simples e maleável para que possam ser analisados e cruzados com mais facilidade. Muitas vezes a informação necessária para reforçar uma história está disponível, mas em sites de navegabilidade ruim ou em bancos de dados difíceis de manipular. Para coletar automaticamente e visualizar essas informações, recorre-se a softwares conhecidos como scrapers. Apesar de parecer coisa de 'geek', não é preciso perseguir cursos avançados de programação e conhecer linguagens complicadas para raspar dados. Segundo o webativista Pedro Markun (http://twitter.com/#!/markun), animador de diversas oficinas de scraping na Casa de Cultura Digital (http://www.casadaculturadigital.com.br/), em São Paulo, o nível de conhecimento necessário para aproveitar a técnica é "muito básico". “Scrapers são programas simples de lidar, o grande desafio e o exercício constante é encontrar um padrão nos dados das páginas web - algumas páginas são bem simples, outras são uma dor de cabeça sem fim”, explicou ao Centro Knight para o Jornalismo nas Américas. Markun possui um perfil público (https://scraperwiki.com/profiles/markun/) no site Scraperwiki (https://scraperwiki.com/), que permite escrever uma raspagem online ou acessar as de outras pessoas. Assim como o Scraperwiki, existem outras ferramentas online que facilitam a raspagem de dados, como o Mozenda (http://www.mozenda.com/), um software de interface simples que automatiza boa parte do trabalho, e o Screen Scraper (http://www.screen-scraper.com/), uma ferramenta mais complexa, que trabalha com diversas linguagens de programação para extrair dados da Web. Outro software útil nesse sentido é o Firebug (http://getfirebug.com/) (para Firefox). O Google disponibiliza o Google Refine (http://code.google.com/p/google-refine/) para manipular dados confusos e transportá-los para formatos maleáveis. Também é possível fazer download gratuito de Ruby (http://www.ruby-lang.org/en/), uma linguagem de programação simples e eficiente, que pode ser rodada no Nokogiri (http://nokogiri.org/) para fazer raspagem de documentos e sites. Nem sempre os dados estão em formatos abertos e fáceis de scrapear. Documentos escaneados, por exemplo, precisam ser convertidos antes em texto. Essa função pode ser encontrada no Tesseract (http://code.google.com/p/tesseract-ocr/), uma ferramenta OCR (Reconhecimento Ótico de Caracteres) do Google que “lê” textos escaneados e os converte em texto virtual, para ser interpretado pelo computador. Informações e manuais sobre o uso dessas ferramentas estão disponíveis em sites como o Propublica (http://www.propublica.org/nerds/item/the-coders-cause- in-dollars-for-docs), um portal que oferece diversos artigos e tutoriais de ferramentas de raspagem para jornalismo, e em vídeos no YouTube (http://www.youtube.com/watch?v=G1uL_0Nakok). Mesmo que você seja adepto da filosofia hacker, na qual leitura de tutorial e mão na massa costumam ser o caminho do aprendizado, pode acontecer de persistirem algumas dúvidas e dificuldades no uso dessas ferramentas. Uma boa opção é entrar em contato com programadores mais experientes em grupos de discussão como o Thackday (https://groups.google.com/group/thackday?hl=pt) e a Comunidade do Scraperwiki (http://groups.google.com/group /scraperwiki?hl=en), que conta com alternativas pagas e gratuitas para encontrar alguém que ajude a fazer o scraping. Lidar com dados pode até ser old school para jornalistas, mas saber como extraí-los e organizá-los ganhou outra importância na passagem da era da escassez para a da abundância de informação. Por isso, aproveite as dicas e boa raspagem! Publicado 2012-04-09 11:00 33GostoGosto INíCIO (/pt-br) TREINAMENTO (/pt-br/training) BLOGS (/pt-br/blog) NOSSAS NOTÍCIAS (/pt-br/knightcenternews) FÓRUM DE AUSTIN (/pt-br/austinforum) QUEM SOMOS (/pt-br/aboutus) Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data... 1 of 4 21/05/2016 02:26 Temas: bases de dados (/pt-br/category/temas-blog-pt-br/bases-de-dados) futuro do jornalismo (/pt-br/taxonomy/term/110) jornalismo de dados (/pt-br /category/temas-blog-pt-br/jornalismo-de-dados) Similar entries Jornalistas brasileiros dão dicas de ferramentas úteis para o trabalho investigativo com dados (/pt-br/blog/00-10312-jornalistas-brasileiros-dao-dicas- de-ferramentas-uteis-para-o-trabalho-investigativo-c) Especialista em Reportagem com Auxílio do Computador destaca três ferramentas inovadoras para jornalistas (VÍDEO) (/pt-br/blog/especialista- em-reportagem-com-auxilio-do-computador-destaca-tres-ferramentas-inovadoras-para-j) Jornalistas e programadores se encontrarão na primeira maratona hacker promovida por um jornal brasileiro (Entrevista) (/pt-br/blog/00-10457- jornalistas-e-programadores-se-encontrarao-na-primeira-maratona-hacker-promovida-por-u) Jornalismo de dados: Recursos para ajudar repórteres a coletar, organizar e analisar dados (/pt-br/blog/jornalismo-de-dados-recursos-para-ajudar- reporteres-coletar-organizar-e-analisar-dados) 6 ferramentas digitais para incluir no seu kit de jornalismo de dados (/pt-br/blog/00-14172-6-ferramentas-digitais-para-incluir-no-seu-kit-de-jornalismo- de-dados) No comments Comentar Seu nome: * Email: * O conteúdo deste campo é privado não será exibido ao público. Sua página: Assunto: Comentário: * Formato de entrada Filtered HTML Não é permitida nenhuma tag HTML Quebras de linhas e parágrafos são feitos automaticamente. Tags HTML permitidas: <a> <blockquote> <br> <cite> <code> <dd> <div> <dl> <dt> <em> <li> <ol> <p> <span> <strong> <ul> Full HTML Endereços de páginas de internet e emails viram links automaticamente. Quebras de linhas e parágrafos são feitos automaticamente. Mais informações sobre as opções de formatação (/pt-br/filter/tips) By submitting this form, you accept the Mollom privacy policy (http://mollom.com/web-service-privacy-policy). Manchetes do nosso blog: JORNALISMO NAS AMERICAS (http://knightcenter.utexas.edu/pt-br/blog) "Tuitômetro" do Fundamedios monitora discurso oficial contra a imprensa no Equador (/pt-br/blog/00-17128-tuitometro-do-fundamedios-monitora- discurso-oficial-contra-imprensa-no-equador) May 18 Site mexicano Aristegui Noticias leva o prêmio Knight International Journalism Award (/pt-br/blog/00-17125-site-mexicano-aristegui-noticias-leva-o- Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data...2 of 4 21/05/2016 02:26 premio-knight-international-journalism-award) May 18 Repórteres chilenos lançam rede de jornalistas investigativos em meio a protestos contra a "Lei da Mordaça" (/pt-br/blog/00-17124-reporteres- chilenos-lancam-rede-de-jornalistas-investigativos-em-meio-protestos-contra) May 18 CPJ lança plataforma digital segura para receber denúncias de ataques a jornalistas e à liberdade de imprensa (/pt-br/blog/00-17120-cpj-lanca- plataforma-digital-segura-para-receber-denuncias-de-ataques-jornalistas-e-li) May 17 Relatório aponta diminuição de casos de ameaça à liberdade de expressão no Uruguai (/pt-br/blog/00-17118-relatorio-aponta-diminuicao-de-casos- de-ameaca-liberdade-de-expressao-no-uruguai) May 17 Jornalistas cobram investigação após outra morte de profissional da mídia em Veracruz, no Mexico (/pt-br/blog/00-17115-journalistas-cobram- investigacao-apos-outra-morte-de-profissional-da-midia-em-veracruz) May 16 Jornalistas precisam aprender a usar ferramentas de segurança digital para enfrentar situações de risco, aponta relatório (/pt-br/blog/00-17111- jornalistas-precisam-aprender-usar-ferramentas-de-seguranca-digital-para-enfrentar-sit) May 16 Mais manchetes (http://knightcenter.utexas.edu/pt-br/blog?page=1) (https://knightcenter.utexas.edu/pt-br/doacoes) (https://twitter.com/utcentroknight) Incorporar Ver no Twitter Tweets por @utcentroknight 7h "Tuitômetro" do Fundamedios monitora discurso oficial contra a imprensa no Equador knightcenter.utexas.edu/pt-br/blog/00- … UT Centro Knight @utcentroknight Facebook email marketing (http://www.activecampaign.com/) by activecampaign Assine aqui a nossa newsletter semanal! Nome Completo Email * Selecione as listas que deseja subscrever Boletim Semanal (Português) Boletín Semanal (Español) Weekly Newsletter (English) Assine Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data... 3 of 4 21/05/2016 02:26 Tag Cloud justiça (/pt-br/taxonomy/term/160) Argentina (/pt-br/taxonomy/term/84) Honduras (/pt-br/taxonomy/term/186) Peru (/pt-br/taxonomy/term/282) redes sociais (/pt-br/taxonomy/term/132) jornalismo online (/pt-br/taxonomy/term/125) violência contra jornalistas (/pt-br/category/temas-blog-pt-br/violencia- contra-jornalistas) processo judicial (/pt-br/category/temas-blog-pt-br/processo-judicial) futuro do jornalismo (/pt-br/taxonomy/term/110) ataques contra jornalistas (/pt-br/category/temas-blog-pt-br/ataques-contra-jornalistas) censura (/pt-br/category/temas-blog-pt-br/censura) jornalismo digital (/pt-br/taxonomy/term/92) Colômbia (/pt-br/taxonomy/term/284) jornalismo investigativo (/pt-br/taxonomy/term/80) ataques a jornalistas (/pt-br/category/temas-blog-pt-br/ataques-jornalistas) assassinato (/pt-br/taxonomy/term/256) acesso à informação pública (/pt-br/category/temas-blog-pt-br/acesso-informacao-publica) ameaças contra jornalistas (/pt-br/category/temas-blog-pt- br/ameacas-contra-jornalistas) liberdade de expressão (/pt-br/taxonomy/term/97) agressão (/pt-br /category/temas-blog-pt-br/agressao) impunidade (/pt-br/taxonomy/term/177) Venezuela (/pt-br/taxonomy/term/104) México (/pt-br /taxonomy/term/77) prisão (/pt-br/category/temas-blog-pt-br/prisao) violência (/pt-br/taxonomy/term/233) Equador (/pt-br/taxonomy/term/358) relação com a mídia (/pt-br/taxonomy/term/103) liberdade de imprensa (/pt-br/taxonomy/term/98) Brasil (/pt-br/taxonomy/term/158) EUA (/pt-br/taxonomy/term/119) more tags (/pt-br/tagadelic/chunk/3) Comentários recentes Boas dicas! Tem que prestar (/pt-br/blog/seguranca-online-15-dicas-de-protecao-para-o-uso-da-internet-e-das-redes-sociais-por-jornalista#comment-14702) 35 semanas 3 dias atrás curso sobre técnicas de jornalismo de dados (/pt-br/blog/00-16179-incricoes-abertas-para-curso-online-gratuito-em-portugues-sobre-tecnicas- do-jornalismo#comment-14369) 43 semanas 6 dias atrás Curso Infografia (/pt-br/blog/00-15720-alunos-de-mooc-sobre-infografia-participam-do-congresso-brasileiro-de-jornais-e-visita#comment-12834) 1 ano 7 semanas atrás Interessante (/pt-br/blog/00-15915-aprenda-promover-e-rentabilizar-projetos-online-no-novo-curso-em-espanhol-do-centro-kn#comment-12584) 1 ano 13 semanas atrás Cadastro de links (/pt-br/blog/00-15300-com-apoio-do-google-anj-e-centro-knight-lancam-curso-massivo-online-sobre-visualizacao#comment-9908) 1 ano 51 semanas atrás (http://journalism.utexas.edu/) (http://moody.utexas.edu/) (http://utexas.edu) CONTACT US (http://knightcenter.utexas.edu/aboutus#contactus) • STAFF (http://knightcenter.utexas.edu/aboutus#staff) Desvendando 'Data Scraping': Entenda como raspar dados pode facilita... https://knightcenter.utexas.edu/pt-br/blog/00-9586-desvendando-o-data... 4 of 4 21/05/2016 02:26