Prévia do material em texto
Introdução Cristiano Carvalho Trabalhando com dados da Web Web A Web ▪ Bilhões de páginas Web (veja +) ▪ Centenas de milhões de tweets diários (veja +) ▪ Bilhões de consultas realizadas no Google diariamente ▪ Milhões de servidores e petabytes de dados http://worldwidewebsize.com http://www.internetlivestats.com Web A Web Bilhões de páginas Web (veja +) Centenas de milhões de tweets diários (veja +) Bilhões de consultas realizadas no Google diariamente Milhões de servidores e petabytes de dados Experimento: busque pelo termo “a” no Google e observe o número de respostas http://worldwidewebsize.com http://www.internetlivestats.com Informação não estruturada Por que minerar grandes volumes de texto? ▪ Minimizar o esforço humano (em consumir esses dados) ▪ Busca por padrões e informações relevantes ▪ Fornecer conhecimento para tomadas de decisão otimizadas Exemplos de aplicações Diretórios da Web, clipping de notícias, bibliotecas digitais, busca de documentos, monitoramento de marca ... Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining by Chengxiang Zhai, Sean Massung Mineração de Texto Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining by Chengxiang Zhai, Sean Massung Mineração de Texto Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining by Chengxiang Zhai, Sean Massung Mineração de Texto Text Retrieval and Mining Network Mining Referências Imagem Web Autor: http://www.a3data.com.br Imagens sobre Mineração de Texto Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining by Chengxiang Zhai, Sean Massung http://www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=24&product s_id=954 Autor: http://czhai.cs.illinois.edu Imagens sobre Escopo da Disciplina Autor: http://cristianocarvalho.cc http://www.a3data.com.br http://www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=24&products_id=954 http://czhai.cs.illinois.edu http://cristianocarvalho.cc Introdução Cristiano Carvalho Processamento de Linguagem Natural (NLP) NLP - Processamento de linguagem natural ● NLP é a base para mineração de texto ● Computadores estão muito longe de serem capazes de entender linguagem natural ○ É preciso escalar computacionalmente e em cobertura, o que dificulta o uso de métodos muito profundos e limitados a certos domínios NLP - Processamento de linguagem natural Na prática são utilizados métodos (rasos) estatísticos de NLP como base, enquanto humanos fornecem ajuda quando necessário. “O cachorro está perseguindo o garoto no playground“ Estruturando o Texto “O cachorro está perseguindo o garoto no playground“ Representação em strings de caracteres ● Representa qualquer tipo de texto ou linguagem ● Não é possível realizar análise semântica ○ Não estamos reconhecendo nem ao menos as palavras ● Considera todos os espaços e símbolos STRING 1 “犬は遊び場で子供を追いかけている。“ Representação em strings de caracteres STRING 1 ● Representa qualquer tipo de texto ou linguagem ● Não é possível realizar análise semântica ○ Não estamos reconhecendo nem ao menos as palavras ● Considera todos os espaços e símbolos “Der Hund jagt das Kind auf dem Spielplatz“ Representação em strings de caracteres STRING 1 ● Representa qualquer tipo de texto ou linguagem ● Não é possível realizar análise semântica ○ Não estamos reconhecendo nem ao menos as palavras ● Considera todos os espaços e símbolos “O cachorro está perseguindo o garoto no playground“ Segmentação de palavras STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7 ● Representa mesmo texto porém em forma de sequência de palavras. ● Palavras são as unidades básicas da comunicação humana ● Permite contagem de palavras mais frequentes “O cachorro está perseguindo o garoto no playground“ Segmentação de palavras STR 1 STRING 2 STRING 4 STRING 6 STRING 8STR 3 S5 S7 ● Permite formar tópicos a partir da conexão entre as palavras ● Se algumas palavras são positivas e outras são negativas podemos realizar análise semântica (sentimento) Segmentação de palavras STRING ?? STRING ?? ?? ??STR ?? ? ? ● Generaliza menos que a representação por caracteres ○ Em algumas linguagens torna-se difícil identificar palavras “犬は遊び場で子供を追いかけている。“ Cristiano Carvalho Conhecimento, Colaboração e Marketing Mundo Social Por que ficar atento a Web e às mídias sociais? Cada vez mais pessoas usam regularmente as mídias sociais Mundo Social Link Link https://rafaeldelazari.jusbrasil.com.br/artigos/121943825/islandia-uma-experiencia-constitucional-para-o-brasil https://super.abril.com.br/comportamento/cutucaram-a-constituicao/ Arte de “João Montanaro” Mundo Social Por que ficar atento a Web e às mídias sociais? Através da web buscam manter e ampliar o relacionamento com empresas e entidades públicas (fanpages, follow de perfis, comentários em páginas, assinatura de feeds rss) Marketing orgânico Mundo Social Alguns cuidados... Pode haver viés de disponibilidade Algorítmos e reforço do viés de julgamento Mundo Social Fonte http://revistagalileu.globo.com/Revista/noticia/2015/06/bem-vindos-zuckernet-os-efeitos-de-conhecer-o-mundo-atraves-de-uma-unica-rede-social.html Por que ficar atento a Web e às mídias sociais? Perfis públicos, de uma forma ou de outra, estão sendo comentados nas mídias sociais e a polaridade das discussões pode ser positiva ou negativa Não há controle sobre essas interações, apenas influência. Não participar das conversas pode significar que a empresa endossa o que é dito, seja positiva ou negativamente Lembra do caso? Pois é ... Mundo Social Fonte https://epoca.globo.com/vida/experiencias-digitais/noticia/2016/09/o-silencio-e-pior-estrategia-para-bel-pesce.html “... a mesma dinâmica das redes sociais que a colocou no olimpo do empreendedorismo do Brasil pode tirá-la de lá… ” ÉPOCA Como utilizar as mídias sociais? Lançamento e divulgação de produtos Análise do comportamento dos consumidores, tendências e oportunidades Monitoramento da marca para gestão estratégica Como utilizar as mídias sociais? Comunicação, suporte e relacionamento com o cliente Gasta-se muito em pesquisas de mercado e sistemas de qualidade. Mas e a voz que vem da Web? Atenção!! Uma vez na Web… Riscos? Fonte https://www.dailydot.com/debug/lg-twitter-iphone-6/ Planejamento O Refletir sobre a maneira mais adequada de entrar nas redes e se preparar Estabelecer objetivos e metas Alocar pessoas e recursos Preparar as pessoas e as regras a serem respeitadas (políticas de uso) Referências Constituição Islândia https://super.abril.com.br/comportamento/cutucaram-a-constituicao/ https://rafaeldelazari.jusbrasil.com.br/artigos/121943825/islandia-uma-experiencia- constitucional-para-o-brasil Arte de João Montanaro https://noticias.bol.uol.com.br/fotos/entretenimento/2014/08/25/os-quadrinhos-de-joao- montanaro-na-folha-de-s-paulo.htm Poema Cliente Bradesco https://www.facebook.com/Bradesco/posts/279431488756318 https://exame.abril.com.br/marketing/bradesco-responde-pedido-de-cliente-com-poema-no- facebook/ https://super.abril.com.br/comportamento/cutucaram-a-constituicao/ https://rafaeldelazari.jusbrasil.com.br/artigos/121943825/islandia-uma-experiencia-constitucional-para-o-brasil https://noticias.bol.uol.com.br/fotos/entretenimento/2014/08/25/os-quadrinhos-de-joao-montanaro-na-folha-de-s-paulo.htm https://www.facebook.com/Bradesco/posts/279431488756318 https://exame.abril.com.br/marketing/bradesco-responde-pedido-de-cliente-com-poema-no-facebook/ Referências Matéria "Bem-vindos à Zuckernet: os efeitos de conhecer o mundo através de uma única rede social" https://revistagalileu.globo.com/Revista/noticia/2015/06/bem-vindos-zuckernet-os-efeitos-de- conhecer-o-mundo-atraves-de-uma-unica-rede-social.htmlMatéria "O silêncio é a pior estratégia para Bel Pesce" https://epoca.globo.com/vida/experiencias-digitais/noticia/2016/09/o-silencio-e-pior- estrategia-para-bel-pesce.html Matéria "LG just used an iPhone to post a tweet mocking the iPhone" https://www.dailydot.com/debug/lg-twitter-iphone-6/ https://revistagalileu.globo.com/Revista/noticia/2015/06/bem-vindos-zuckernet-os-efeitos-de-conhecer-o-mundo-atraves-de-uma-unica-rede-social.html https://epoca.globo.com/vida/experiencias-digitais/noticia/2016/09/o-silencio-e-pior-estrategia-para-bel-pesce.html https://www.dailydot.com/debug/lg-twitter-iphone-6/ Cristiano Carvalho Conhecimento, Colaboração e Marketing Monitoramento Marketing Social e Monitoramento Diagnóstico: Saber o quê, por quê, quem, quando, quanto, onde, como estão falando da sua marca, empresa ou assunto de interesse e qual será seu plano de ação seguinte. image url https://4.bp.blogspot.com/-j3oAcnw_LdE/U5dXZboIbbI/AAAAAAAABAs/7wCMVfALJcU/s1600/O-que-quando-quem-porque.jpg Tesla's Case Monitoramento Fonte https://officechai.com/news/elon-musk-receives-product-suggestion-twitter-tesla-implements-6-days-later/#sthash.dSJuc1Nu.luaRj0wv.dpbs Região Engenharia de Atributos Fonte https://officechai.com/news/elon-musk-receives-product-suggestion-twitter-tesla-implements-6-days-later/#sthash.dSJuc1Nu.luaRj0wv.dpbs Palavras-chave Engenharia de Atributos Fonte https://officechai.com/news/elon-musk-receives-product-suggestion-twitter-tesla-implements-6-days-later/#sthash.dSJuc1Nu.luaRj0wv.dpbs Polaridade Engenharia de Atributos Fonte https://officechai.com/news/elon-musk-receives-product-suggestion-twitter-tesla-implements-6-days-later/#sthash.dSJuc1Nu.luaRj0wv.dpbs Entidade Engenharia de Atributos Fonte https://officechai.com/news/elon-musk-receives-product-suggestion-twitter-tesla-implements-6-days-later/#sthash.dSJuc1Nu.luaRj0wv.dpbs Entidade Pois é.... Fonte Fonte https://www.b9.com.br/63059/elon-musk-vira-policial-civil-em-outdoor-no-mato-grosso-do-sul/ https://twitter.com/elonmusk/status/695666033676328960 Referências Imagem “O quê, quando, onde...” https://4.bp.blogspot.com/- j3oAcnw_LdE/U5dXZboIbbI/AAAAAAAABAs/7wCMVfALJcU/s1600/O-que-quando-quem- porque.jpg Matéria "Elon Musk Receives Product Suggestion On Twitter, Tesla Implements It 6 Days Later" https://officechai.com/news/elon-musk-receives-product-suggestion-twitter-tesla-implements- 6-days-later/ Matéria “Elon Musk vira policial civil em outdoor no Mato Grosso do Sul” https://www.b9.com.br/63059/elon-musk-vira-policial-civil-em-outdoor-no-mato-grosso-do- sul/ Elon Tweet https://twitter.com/elonmusk/status/695666033676328960 https://4.bp.blogspot.com/-j3oAcnw_LdE/U5dXZboIbbI/AAAAAAAABAs/7wCMVfALJcU/s1600/O-que-quando-quem-porque.jpg https://officechai.com/news/elon-musk-receives-product-suggestion-twitter-tesla-implements-6-days-later/ https://www.b9.com.br/63059/elon-musk-vira-policial-civil-em-outdoor-no-mato-grosso-do-sul/ https://twitter.com/elonmusk/status/695666033676328960 Cristiano Carvalho Recuperação da Informação (RI) O que é RI? Recuperação da Informação Recuperação da informação é uma subárea da ciência da computação que trata da recuperação automática da informação Recuperação da Informação ● Surgiu na década de 60 Principal objetivo era automatizar o acesso a informação em bibliotecas ● Principais focos até final dos anos 80: catálogos de bibliotecas, jornais, revistas, enciclopédias eletrônicas e bases de dados de empresas (veja +) https://ciir-publications.cs.umass.edu/getpdf.php?id=1066 Recuperação da Informação Foco mais recente na Web: ● Abundância de informação não estruturada ● Publicação sem controle central e diversidade ● Dificuldade na busca de informação específica, normalmente contida em documentos Recuperação da Informação Documentos: Fazem o papel de registros de dados Normalmente são compostos de textos em linguagem natural Podem conter qualquer tipo de mídia (texto, imagem, som) Recuperação da Informação Podemos ter informação textual associada a outros tipos de dados Ex: Google Imagens Recuperação de Dados Recuperação de Informação Tarefas precisas Tarefas imprecisas Sistemas não visam incorporar o significado do que está sendo buscado Sistemas tentam modelar o significado do que está sendo buscado Respostas devem ser corretas Objetivo é trazer as melhores respostas. Normalmente não há o conceito de resposta correta Recuperação de Dados Recuperação de Informação Uma busca por documentos que contém a palavra Belo Horizonte Uma busca por bons documentos que falam sobre a cidade de Belo Horizonte Recuperação da Informação Ranking: Ordem por relevância R E L E V Â N C IA Sistema de Busca Consultas Respostas Sistema de Filtragem Entrega Recuperação da Informação “o algoritmo deles mostrou que os filmes do Kevin Spacey eram muito vistos, assim como os dirigidos por David Fincher, e que uma série britânica dos anos 90 sobre os bastidores sujos do Parlamento tinha uma interessante legião de seguidores…” Fonte http://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity.html Fonte https://www.linkedin.com/pulse/seria-stranger-things-uma-obra-de-arte-do-algoritmo-da-gustavo-miller ● Classificação de documentos ● Detecção de duplicatas Recuperação da Informação ● Coleta de dados na web ● Geração de resumos/extração informação em texto ● Problemas de agrupamento (clustering) ● Detecção de fraudes, plágio, fake news ● ... Referências Robot with a bunch of books in the workshop of its creator Imagens Sistema de Busca Imagens Sistema de Filtragem https://www.shutterstock.com Print Screen de serviços https://news.google.com.br https://images.google.com https://www.amazon.com.br https://www.netflix.com https://www.shutterstock.com Referências Matéria "Giving Viewers What They Want" https://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to- guarantee-its-popularity.html Texto "Seria Stranger Things uma obra de arte do algoritmo da Netflix?" https://www.linkedin.com/pulse/seria-stranger-things-uma-obra-de-arte-do-algoritmo-da- gustavo-miller/ Ferramenta Prática Cristiano Carvalho KNIME KNIME Criado em 2004, a Universidade de Constança, Alemanha Livre (open source) Baixa curva de aprendizado KNIME Uma das poucas ferramentas que tem mecanismos de Text Mining eficientes Aplicações reais: não é meramente educativa. Se você não for o analista, pode ser o profissional que vai desenvolver o fluxo para o analista. Líder entre plataformas de #DataScience e #MachineLearning ! Link https://www.forestgt.com.au/latest-news/2018/3/2/knime-2018-gartner-magic-quadrant-market-leader Fluxos Ágeis Análise de dados ágil com workflows Componentes modulares facilitam a criação, modificação e manutenção dos fluxos de análise Programadores? Requer o mínimo de programação (embora programadores possam construir módulos personalizados, incluindo outras linguagens como R, Python, Java) Opções de importação/exportação de dados e conexões com outros sistemas Referências KNIME - 2018 Gartner Magic Quadrant Market Leader https://www.forestgt.com.au/latest-news/2018/3/2/knime-2018- gartner-magic-quadrant-market-leader https://www.forestgt.com.au/latest-news/2018/3/2/knime-2018-gartner-magic-quadrant-market-leader Exemplos de Projetos Cristiano Carvalho O Boticário No próximo slide: Do que se trata o conjunto de documentos recuperados da Web? Do que se trata? O que mais chamou a atenção e qual o clima da discussão? O que mais chamou a atenção? Qual o clima da discussão? O que mais chamou a atenção? Qual o clima da discussão? Vídeo O que mais chamou a atenção? Qual o clima da discussão? https://www.youtube.com/watch?v=p4b8BMnolDI&feature=youtu.be Alguma entidade detectada? Figuras importantes na discussãoBusca <> Mineração Itaipava? Faz sentido? Fonte http://economia.ig.com.br/2015-06-18/conar-recomenda-suspensao-de-pecas-publicitarias-da-itaipava.html Algum movimento ou amplificador? Algum movimento/amplificador? E o sentimento? Sentimento Sentimento Quem seriam os influentes? Influentes Outros Trabalhos Opcional: Documento Extra Link https://paper.dropbox.com/doc/EAD-RI-PUCMINAS--AM4fYxeP5H7MVtGG3NhS9pslAg-OORhMJJkMCkUWrNYcoLEw Referências Documento Compartilhado (Opcional) :) https://paper.dropbox.com/doc/EAD-RI-PUCMINAS-- AM4fYxeP5H7MVtGG3NhS9pslAQ-OORhMJJkMCkUWrNYcoLEw https://paper.dropbox.com/doc/EAD-RI-PUCMINAS--AM4fYxeP5H7MVtGG3NhS9pslAQ-OORhMJJkMCkUWrNYcoLEw