Baixe o app para aproveitar ainda mais
Prévia do material em texto
Fundamentos em Análise de Dados Capítulo 1. Conceitos fundamentais em Análise de Dados Profª. Fernanda Farinelli Fundamentos em Análise de Dados Aula 1.1. Dados, fontes de dados e tipos de dados Profª. Fernanda Farinelli Nesta aula ❑ Entender alguns conceito fundamentais. Dado, informação e conhecimento. ❑ Conhecer as diferentes tipos de dados. ❑ Conhecer as diferentes fontes de dados. Dado Representações de fatos sobre o mundo real. Informação Dados dotados de relevância e propósito. Conhecimento Informações contextualizadas pela experiência. Tipos de dados Estruturado Estrutura pré-definida, prescritiva. Estrutura independente dos dados. Fracamente evolutiva. Semiestruturado Esquema heterogêneo, nem sempre pré-definido, descritiva. Estrutura embutida nos dados. Favorável a evolução. Não estruturado Sem esquema pré-definido, descritiva, nem sempre presente. Indefinição do que é dado e estrutura. Fortemente evolutiva. Fontes de Dados Redes sociais Artigos e jornais Bancos de Dados Documentos oficiais Dados abertos Arquivos de Integração Planilhas Áudio e vídeo Websites Sistemas de Informação Web de dados e LODInternet das coisas (IoT) Conclusão ✔ Entendemos o conceito de dado, informação e conhecimento. ✔ Conhecemos os diferentes tipo de dados: Estruturados, semiestruturados e não estruturados. ✔ Entendemos o que são fontes de dados e conhecemos algumas destas fontes. Próxima aula ❑ Entender o que o termo Big Data significa e conhecer as características que envolvem este termo. Fundamentos em Análise de Dados Aula 1.2. Conceito e características de Big Data Profª. Fernanda Farinelli Nesta aula ❑ Entender o significado do termo Big Data. ❑ Discutir as principais características do Big Data. Datificação Dados Digitalização Datafication (Datificação ou dataficação) ❑ Tudo se torna dado… Palavras, localizações, Compromissos, Diversão, Imagens, Vídeos, Interações, Compras, Tempo, … Transformar as informações sobre todas as coisas em dados, em um formato que o torne possível de ser quantificado, permitindo assim monitoramento e análise. Human Bits Big data Quantidade Massiva de Dados Big Data remete ao... … problema ou desafio de… processar volumes de dados cada vez maiores, produzidos em múltiplos formatos (vídeo, imagem, texto etc.), e em velocidades na casa dos segundos, além de apresentar respostas em tempo real. Características do Big Data Variedade Velocidade Volume Veracidade Valor Visualização Virulência Viscosidade Big Data Big Data versus Small Data Dados gerados aleatoriamente Fontes de dados desconhecidas Dados não amigáveis Validade ou veracidade questionável Conclusão ✔ Entendemos o que é e o que não é Big Data. ✔ Conhecemos as principais características do Big Data. ✔ Entendemos os desafios computacionais para lidar com dados. Próxima aula ❑ Entender o que é a Web Semântica e liked open data. Fundamentos em Análise de Dados Aula 1.3. Web semântica e dados abertos interligados Profª. Fernanda Farinelli Nesta aula ❑ Entender a evolução da World Wide Web. ❑ Explorar o que é a web semântica. ❑ Entender o que são dados abertos e dados interligados. ❑ Entender a relação dados abertos X dados interligados. Evolução da World Wide Web Web 1.0 Web 2.0 Web 3.0 Web 4.0 web unidirecional “empurrada” web bidirecional “compartilhada” web colaborativa tempo real Web cognitiva (inteligência artificial, aprendizado de máquina, …) Web Semântica (web 3.0 ou web de dados) Hendler, J., Lassila, O., & Berners-Lee, T. (2001). The semantic web. Scientific American, 284(5), 34-43. “A Web Semântica não é uma Web separada, mas sim uma extensão da Web atual onde à informação é atribuído significado bem definido, permitindo que pessoas e computadores trabalhem em cooperação”. Web semântica Semântica: representa o estudo do significado. Conjunto de dados inter-relacionados semanticamente. Visa interligar os significados das palavras, tornando perceptível tanto aos humanos quanto às máquinas. Tanque Web Semântica estrutura significado Disponibilidade e acesso Reutilização e redistribuição Participação universal Dados abertos (open data) Conteúdo aberto Disponível Disponível para todos Dados abertos ❑ Dados abertos são dados que podem ser usados livremente, reutilizados e redistribuídos por qualquer pessoa - sujeitos, no máximo, à exigência de atribuição da fonte e compartilhamento pelas mesmas regras. ❑ Se você está se perguntando por que é tão importante ser claro no que significa aberto e por que essa definição é usada, a resposta é simples: interoperabilidade. Interoperabilidade significa a capacidade de diversos sistemas e organizações trabalharem juntos (interoperar). Neste caso, trata-se da capacidade de interoperar - ou combinar - diferentes conjuntos de dados. Fonte: https://opendatahandbook.org/guide/pt_BR/what-is-open-data/ https://opendatahandbook.org/guide/pt_BR/what-is-open-data/ Dados abertos ❑ Disponibilidade e acesso: os dados devem estar disponíveis como um todo e sob custo não maior que um custo razoável de reprodução, preferencialmente possíveis de serem baixados pela internet. Os dados devem também estar disponíveis de uma forma conveniente e modificável. ❑ Reutilização e redistribuição: os dados devem ser fornecidos sob termos que permitam a reutilização e a redistribuição, inclusive a combinação com outros conjuntos de dados. ❑ Participação universal: todos devem ser capazes de usar, reutilizar e redistribuir, não deve haver discriminação contra áreas de atuação ou contra pessoas e grupos. Por exemplo, restrições de uso ‘não-comercial’, que impediriam o uso ‘comercial’, ou restrições de uso para certos fins (ex.: somente educativos) excluem determinados dados do conceito de ‘abertos’. Fonte: https://opendatahandbook.org/guide/pt_BR/what-is-open-data/ https://opendatahandbook.org/guide/pt_BR/what-is-open-data/ Dados abertos ❑ Regulamentações: Lei de Acesso à Informação. Lei Geral de Proteção de Dados Pessoais (LGPDP). Regulamento Geral sobre a Proteção de Dados (GDRP). ❑ Portal Brasileiro de Dados Abertos: http://dados.gov.br ❑ Portal da Transparência: http://www.portaltransparencia.gov.br/download-de-dados ❑ Portal Dados Abertos Dataprev: https://dadosabertos.dataprev.gov.br/dataset ❑ Dados abertos DATASUS: http://www2.datasus.gov.br/DATASUS/index.php ❑ Portal Dados Abertos CVM: http://dados.cvm.gov.br/ ❑ Global Open Data Index: https://index.okfn.org/dataset/. Portais de dados abertos http://dados.gov.br/ http://www.portaltransparencia.gov.br/download-de-dados https://dadosabertos.dataprev.gov.br/dataset http://www2.datasus.gov.br/DATASUS/index.php http://dados.cvm.gov.br/ https://index.okfn.org/dataset/ Dados interligados (linked data) Maria João Itália Espanha Países da comunidade européiaConhece Nasceu Visitou Trabalha Conjunto de práticas para publicar e conectar (interligar) dados na web de forma tão fácil quanto o compartilhamento de documentos. Ligar dados (semântica) e não documentos (estrutura). Projeto aberto comunitário mundial, iniciado em 2007, que visa a publicação de vários conjuntos de dados (datasets) , de forma que as ligações sejam possíveis entre eles. Construir uma rede de informações onde os nós (itens de diferentes fontes de dados) estejam semanticamente ligados, formando um grande grafo global. Quanto mais um dado for interligado com outros dados, maior é o seu valor e sua utilidade. Dados abertos ligados (linked open data) Nuvem do linked open data Fonte: https://lod-cloud.net/ https://lod-cloud.net/ Linked open data (contexto brasileiro) Como publicar LOD 1. Analisar seus dados, selecionado aqueles que são úteis para serem publicados. 2. Limpar e formatar os dados,visto que uma vez que dados podem vir de várias fontes, alguns podem vir com informação a mais (desnecessária) para a publicação. 3. Modelar seus dados para convertê-los facilmente para RDF e criar URIs para cada objeto. 4. Escolher ou criar um vocabulário RDF apropriado. 5. Escolher ou criar sob qual licença ficarão os dados. 6. Converter os dados para RDF. 7. Ligar dados a outros dados antes de publicá-los. 8. Publicar e promover seu conjunto de dados. Fonte: Floorian Bauer & Martin Kaltenböck. Linked Open Data: The Essentials https://www.reeep.org/LOD-the-Essentials.pdf (pag. 33-35) https://www.reeep.org/sites/default/files/LOD-TheEssentials2016.pdf (pag. 38-44) Conclusão ✔ Entendemos o que é a Web Semântica e suas principais características. ✔ Conhecemos o que são dados abertos, dados interligados e dados abertos interligados (linked open data). Próxima aula ❑ Conhecer o que são ontologias. Fundamentos em Análise de Dados Aula 1.4. Ontologias Profª. Fernanda Farinelli Nesta aula ❑ Entender o que são ontologias. ❑ Conhecer os tipos de ontologias. O que são ontologias? Ontologia como disciplina ▪ “Filosofia Primeira" de Aristóteles. ▪ Ciência do ser e das relações da existência. (Ser/Ente é tudo o que é.) ▪ Estudo da natureza e organização da realidade. ▪ Objeto de pesquisa é o ser enquanto tal. Ontologia como artefato ▪ Sistemas de organização do conhecimento (CI e CC). ▪ Artefato de informação que visa representar algum domínio do conhecimento. ▪ Pela natureza filosófica, garante significado semântico uniforme. ▪ As formais viabilizam as inferências. Ontologia como disciplina ▪ “Filosofia Primeira" de Aristóteles. ▪ Ciência do ser e das relações da existência. (Ser/Ente é tudo o que é.) ▪ Estudo da natureza e organização da realidade. ▪ Objeto de pesquisa é o ser enquanto tal. Ontologia como artefato ▪ Sistemas de organização do conhecimento (CI e CC). ▪ Artefato de informação que visa representar algum domínio do conhecimento. ▪ Pela natureza filosófica, garante significado semântico uniforme. ▪ As formais viabilizam as inferências. Ontologia como disciplina ❑ Origem na filosofia 🡪 “Filosofia Primeira" de Aristóteles. ❑ Objeto de pesquisa o ser enquanto tal. Ser/Ente é tudo o que é. Diz respeito aquilo que existe: Ontos (ser) + logia (conhecimento). ❑ Ciência do ser e das relações da existência. Estudo da natureza e organização da realidade. “Ontologia é a ciência do que é, dos tipos e estruturas de objetos, propriedades, eventos, processos e relações em todas as áreas da realidade (SMITH, 2003)". Ontologia como artefato representacional ❑ Ontologia usada para: Representação do conhecimento. Permitir o raciocínio computacional (Lógica descritiva/axiomas). Permitir a integração da informação (relações entre os entes). Garantir significado semântico (interoperabilidade semântica). Promover aplicações de processamento de linguagem natural. Expressividade dos artefatos Fonte: Almeida, Souza e Fonseca (2011) Ontologias realistas e não realistas ❑ Não-realismo: representação de conceitos, interpretações ou representações mentais das pessoas. ❑ Realismo: entidades da realidade e não interpretação ou representações mentais das pessoas. Animal é um é um é um é um Universais e Particulares ❑ Particulares ou indivíduos: ocorrências únicas de algo existente na realidade. Exemplo: Cada um de nós é uma única ocorrência ou indivíduo de um "homo sapiens". ❑ Universais ou tipos: entidades reais que generalizam os particulares existentes no mundo. Existe apenas se existir pelo menos um particular desse universal. Exemplo: "homo sapiens“ é uma entidade geral ou universal referente aos particulares que cada um de nós é. Universais e Particulares Classificação das ontologias Classificação das ontologias D om ín io E sp ec ífi co D om ín io ne ut ro Auguste Rodin esculpindo La Danaïde La Danaïde de Auguste Rodin (1889) Auguste Rodin Pa rt ic ul ar es U ni ve rs ai s entidade objeto processo pessoa escultura esculpir Classificação das ontologias Ontologia de alto nível Ontologia de referência Ontologia de domínio Baixo Alto A co pl am en to a o do m ín io Alta Baixa R eu sa bi lid ad e Canônico Específico P ro pó si to d e re pr es en ta çã o Amplo Restrito E sc op o de u so Classificação das ontologias Classificação de ontologias entity continuant Independent continuant Material entity organism Homo sapiens Viruses coronavirus Immaterial entity site medical intervention site injection site occurrent process diagnostic process coronavirus disease diagnostic process immune response coronaviral process to host coronavirus entry to cell coronavirus replication inside cell Ontologia de alto nível Ontologia de referência Ontologia de domínio Ontologia de alto-nível Especificação completa: https://github.com/BFO-ontology/BFO/raw/master/docs/bfo2-reference/BFO2-Reference.pdf Basic Formal Ontology - BFO v 2.0 Padrão internacional ISO/IEC 21838-2.3 Categorias básicas de modelagem Entidade (Ente) Continuante Continuante independente Continuante dependente Ocorrente Cor vermelha da maçã Processo de digestão da maçã Categorias básicas de modelagem Entidade (Ente) Continuante Continuante independente Continuante dependente Ocorrente dependem de outras para existir entidades que mantém identidade ao longo do tempo Exemplo: pessoas, árvores, etc. entidades que se alteram ao longo do tempo Exemplo: Infância, Processo de digestão, etc. maçã vermelho da maçã Exemplos de ontologia de referência ❑ Ontology for General Medical Science (OGMS) Ontologia para representar o tratamento de doenças e diagnóstico. Exemplos: Disease (doença), Symptom (Sintoma), diagnosis (diagnóstico), health care process (processo de cuidados de saúde). ❑ Ontology of Medically Related Social Entities (OMRSE) Abrange o domínio de entidades sociais relacionadas à assistência à saúde. Exemplos: Patient role (paciente), health care encounter (Encontro de cuidados de saúde - "consulta"), hospital facility (instalação hospitalar - "Hospital") ❑ Uberon multi-species anatomy ontology (UBERON) Abrange anatomia dos seres vivos. Exemplos de ontologia de domínio ❑ Obstetric and Neonatal Ontology (ONTONEO) Representação dos dados dos prontuários eletrônicos de saúde (EHRs) envolvidos no atendimento à gestante e ao bebê. Exemplo: prenatal encounter (Consulta prenatal), pregnant woman (grávida). Elementos de uma ontologia Entidade Atributos Instância ou indivíduos Relacionamento Cardinalidade Axioma IRI Elementos de uma ontologia rdfs:label Entidade Atributos Instância ou indivíduos Relacionamento Cardinalidade Axioma Elementos de uma ontologia Entidade Atributos Instância ou indivíduos Relacionamento Cardinalidade Axioma Elementos de uma ontologia ❑ Entidades: É algo que você deseja representar em um domínio particular. Qualquer coisa que exista, existiu ou irá existir. Ex.: eventos, processos, objetos inanimados ou vivos, etc. ❑ Classes: Representam as entidades do domínio. O organizam as entidades de um domínio em uma taxonomia. Universais. ❑ Atributos de classe: Propriedades relevantes da classe que ajudam a descrevê-la. Elementos de uma ontologia ❑ Instância: Representam uma unidade de objetos específicos de uma entidade, ou seja, indivíduos de um determinado universal. ❑ Atributos da instância: Essas são propriedades relevantes que descrevem as instâncias de uma entidade. ❑ Relacionamento: Descreve o tipo de interação entre duas classes, duas instâncias ou uma classe e uma instância. ❑ Cardinalidade: Uma medida do número de ocorrências de uma entidade associada a um número de ocorrências em outra. Elementos de uma ontologia ❑ Axioma: Uma declaração ou proposição representada em um padrão lógico que é consideradoverdadeiro. Restringem a interpretação e o uso das classes envolvidas na ontologia. Exemplo: E e instanceOf Onde: • e , E são variáveis para instância e classe • inst, p , u são funções para instância, particular e universal • o símbolo ∧ significa conjunção • o símbolo ∀ é o quantificador universal • o símbolo → é uma implicação Representação gráfica Sujeito ObjetoPredicado Conclusão ✔ Entendemos o que são ontologias e conhecemos os tipos de ontologias. ✔ Conhecemos os principais elementos que fazem parte de uma ontologia. Próxima aula ❑ Entender o que são organizações orientadas por dados. Fundamentos em Análise de Dados Aula 1.5. Organizações orientadas por dados Profª. Fernanda Farinelli Nesta aula ❑ Entender o que são organizações orientadas por dados. ❑ Mercado organizado para negociação de ações de sociedades de capital aberto (públicas ou privadas) e outros valores mobiliários. Preços das ações indicam o valor de mercado das empresas. O valor de mercado sobre influência de diversas fontes: • Taxa Selic, e outras taxas. • Dados governamentais. • Resultados financeiros da empresa. • Mercado externo. • Questões políticas e legislação. Bolsa de Valores Orientação a dados (data-driven) A forma como uma atividade ou processo acontece depende dos dados que servem de entrada para que ela ocorra. ❑ United Parcel Service (UPS) 🡪 empresa de logística, distribuindo diariamente mais de 19 milhões de encomendas em mais de 100 países. ❑ A empresa economiza milhões de litros de combustível anualmente, e reduziu a emissão de gases poluentes apenas orientando seus motoristas a sempre virar a direita. Motoristas da UPS raramente viram à esquerda Data-driven organization Organização que se baseia nas análises de dados para apoiar e balizar a gestão e suas decisões, visando atingir os objetivos estratégicos do negócio. “Ser orientado a dados é, antes de mais nada, ter como meta nas decisões corporativas a objetividade e estar sempre baseado em evidências” (Kirk Borne). Organização orientada a dados Os dados norteiam, definem, permitem análise e possibilitam previsões. Experiência anterior, vivência de negócio, tendências e padrões observados. Incrementam as decisões que uma organização pode tomar, agregando maior valor ao negócio. Organização orientada a dados ❑ Organizações orientada a dados desenvolvem uma cultura orientada por dados (data-driven culture). Utilizam os dados gerados pela organização em todos os seus processos, como insumo para suas decisões. Compartilham conhecimento. Cultura orientada a dados Dados Processos Pessoas Ativos Cultura orientada por dados Cultura orientada a dados • Pessoas: • É preciso ter pessoas qualificadas para ajudar nesta transformação. Algumas profissões em alta para este tipo de tarefa como, por exemplo: o “cientistas de dados” (data Scientist) e o diretor de dados (CDO- Chief Data Officer). • Processos: • Empresas Data-driven possuem seus dados armazenados em repositório comum, nunca isolados. Como, por exemplo, o armazenamento em nuvem, permitindo que um mesmo relatório possa ser acessado de forma on-line por departamentos diferentes. O objetivo desta distribuição de acesso aos dados é trazer a inteligência coletiva para o negócio. Os insights podem vir de qualquer lugar. Oportunidade de abertura de novos negócios. Redução de custos e melhoria na produtividade Melhor relacionamento com o cliente e funcionários. Otimização de processos, receitas e despesas. Melhor definição de preços e produtos/serviços oferecidos. Envolvimento da equipe na estratégia organizacional. Assertividade, agilidade e facilidade no processo de tomada de decisão, respaldados pelo monitoramento de indicadores. Vantagens da cultura orientada a dados DMBok 2.0 Framework de apoio ❑ DMBoK – Data Management Body of Knowledge DAMA – Data Management Association DMBok 1.0 “In God we trust. All others must bring data” (Edwards Deming) “Em Deus nós confiamos. Todos os outros devem apresentar dados.” Tomada de decisões orientada por dados Conclusão ✔ Conhecemos o que é uma organização orientada por dados e o que e a tomada de decisão baseada em dados. ✔ Entendemos as vantagens de adotar uma cultura orientada por dados. Próxima aula ❑ Metodologias de mineração de dados. Fundamentos em Análise de Dados Aula 1.6. Metodologias de mineração de dados Profª. Fernanda Farinelli Nesta aula ❑ Conhecer as principais metodologias de mineração de dados. Mineração de Dados ConhecimentoDados Transformar ❑ KDD - Knowledge Discovery in Databases ❑ SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess ❑ CRISP-DM - Cross Industry Standard Process for Data Mining Metodologias de Data Mining Dados Conhecimento KDD - Knowledge Discovery in Databases Etapas gerais do processo KDD Preparação Análise Interpretação Especialistas do domínio Especialista em KDD Interação Iteração Descoberta de conhecimento em bases de dados KDD envolve Problema Especialistas do domínio Conjunto de dados Objetivos da aplicação Recursos Especialista em KDD Plataforma computacional Algoritmos e técnicas Resultados Modelos KDD Modelos Visualização KDD - Knowledge Discovery in Databases Dados Transformados Dados alvo Dados pré-processados Padrões Conhecimento Sele ção Pré- proc essa men to Tran sform açã o Mine raçã o de dado s Inter preta ção e Av aliaç ão Usuários Visualiza ção Usuários Dados das aplicações KDD - Knowledge Discovery in Databases Dados Transformados Dados alvo Dados pré-processados Padrões Conhecimento Sele ção Pré-p roce ssam ento Tran sform açã o Mine raçã o de dado s Inter preta ção e Av aliaç ão Dados das aplicações Prep araçã o Descoberta de conhecimento em bases de dados ❑ KDD - Knowledge Discovery in Databases ❑ “É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados.” • (FAYYAD et al., 1996) Etapas do KDD ❑ As etapas do KDD são: • Seleção: considerada como a primeira etapa, nesta instância é criado um conjunto ou subconjunto de dados que será o foco da descoberta de novos conhecimentos. Ele deve conter as informações necessárias para que os algoritmos de mineração possam alcançar o objetivo do pesquisador. • Pré-processamento: momento em que os dados passam por uma limpeza ou eliminação de ruídos, e que inclui operações básicas para remoção de inconsistências. • Transformação: etapa da formatação necessária para agregar valor semântico às informações ou características úteis para representar os dados da base. • Mineração de dados: aplicação das técnicas de MD usando algoritmos para alcançar os objetos definidos na etapa da seleção. • Interpretação e avaliação: compreensão dos padrões obtidos, incluindo a visualização dos modelos que resumem a estrutura e as informações presentes nos dados juntamente com as medidas técnicas que avaliam. Metodologia SEMMA Etapas SEMMA ❑ Sample: seleção dos dados que se pretende minerar, obtendo uma amostra representativa do problema ou caso o conjunto de dados inicial seja menor que a totalidade dos dados. A especificação recomenda a divisão em conjunto de teste, validação e treino. ❑ Explore: exploração dos dados para encontrar padrões ou anomalias que possam mostrar um claro entendimento do conjunto de dados. Caso não seja possível encontrar padrões, então aplicam-se algoritmos de mineração para tentar encontrar uma relação. ❑ Modify: criação, transformação e seleção de características para modelar o conjunto de dados, agrupando e eliminando características. Pode-se, nesta fase, encontrar outliers e fazer a sua remoção, caso seja interessante. O processo de mineração é iterativo. Esta fase pode ser repetida sempre que osresultados não forem satisfatórios. ❑ Model: criação de um modelo utilizando um ou mais algoritmos de mineração de dados, incluindo ajustes nos parâmetros de configuração dos algoritmos. ❑ Assess: verificação dos resultados obtidos e teste do modelo para visualização dos resultados e das métricas de teste. Se não for satisfatório, deve-se retornar ao passo Modify. Metodologia CRISP-DM Cross Industry Standard Process for Data Mining CRISP-DM ❑ As fases desse processo são: 1. Entendimento do negócio (business understanding): visa o entendimento dos objetivos e requisitos do projeto, do ponto de vista do negócio. Baseado no conhecimento adquirido, o problema de mineração de dados é definido e um plano preliminar é projetado para alcançar os objetivos. 2. Entendimento dos dados (data understanding): inicia com uma coleção de dados e prossegue com atividades que visam buscar familiaridade, identificar problemas de qualidade, descobrir os primeiros discernimentos nos dados ou detectar subconjuntos interessantes para formar hipóteses da informação escondida. 3. Preparação dos dados (data preparation): cobre todas as atividades de construção do dataset final. As tarefas de preparação de dados são, provavelmente, desempenhadas várias vezes e sem qualquer ordem prescrita. Essas tarefas incluem a seleção de tabelas, registros e atributos, bem como a transformação e limpeza dos dados para as ferramentas de modelagem. CRISP-DM 4. Modelagem (modelling): várias técnicas de modelagem são selecionadas e aplicadas, e seus parâmetros são ajustados para valores ótimos. Geralmente existem várias técnicas para o mesmo tipo de problema de mineração de dados. Algumas delas têm requisitos específicos na formação de dados. Portanto, retornar à fase de preparação de dados é frequentemente necessário. 5. Avaliação (evaluation): o modelo (ou modelos), construído na fase anterior, é avaliado e os passos executados na sua construção são revistos, para se certificar que o modelo representa os objetivos do negócio. Seu principal objetivo é determinar se existe alguma questão de negócio importante que não foi suficientemente considerada. Nesta fase, uma decisão sobre o uso dos resultados de mineração de dados deverá ser obtida. 6. Implementação do modelo (deployment): após a construção e avaliação do modelo (ou modelos), ele pode ser utilizado de duas formas: em uma, o analista pode recomendar ações a serem tomadas baseando-se, simplesmente, na visão do modelo e de seus resultados; na outra, o modelo pode ser aplicado aos diferentes conjuntos de dados. Conclusão ✔ Conhecemos algumas metodologias de referência para Mineração de Dados. • KDD - Knowledge Discovery in Databases. • SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess. • CRISP-DM - Cross Industry Standard Process for Data Mining. Próxima aula ❑ Conhecer a cadeia de valor do Big Data. Fundamentos em Análise de Dados Aula 1.7. Cadeia de valor do Big Data Profª. Fernanda Farinelli Nesta aula ❑ Entender as etapas básicas existentes no pipeline de Big Data. ❑ KDD - Knowledge Discovery in Databases ❑ SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess ❑ CRISP-DM - Cross Industry Standard Process for Data Mining Metodologias de Data Mining Cadeia de Valor do Big Data Curry E. (2016) The Big Data Value Chain: Definitions, Concepts, and Theoretical Approaches. In: Cavanillas J., Curry E., Wahlster W. (eds) New Horizons for a Data-Driven Economy. Springer, Cham Aquisição Análise Curadoria Armazenamento Uso Coleta de dados Modelagem de dados (design) Armazenamento de dados Pré-processamento Integração de dados Análise de dados (processamento) Visualização de dados Coleta de dados Fontes de dados Tipos de dados API’s Crawler Scraper SQL Aplicações Data ingestion Data acquisition Data extraction Data collection Criar um modelo que explique as características de funcionamento e comportamento dos dados em um determinado sistema ou aplicação. O modelo de dados visa facilitar o entendimento sobre os dados e o projeto de dados, ao representarem suas características principais. Modelagem de dados Armazenamento de dados Sistemas de arquivos distribuídos SGBDs (SQL, NoSQL, NewSQL) Persistência poliglota Data Warehouse, Data Lake Distribuição, escalabilidade, armazenamento na nuvem Preparação de dados Limpeza Enriquecimento Integração Transformação Combinação Padronização e normalização Visualização de dados Representação gráfica de informações e dados. Forma simplificada e direta de ver e entender exceções, tendências e padrões nos dados. Elementos visuais: diagramas, gráficos e mapas. Dashhboard Conclusão ✔ Conhecemos a cadeia de valor do big data. Próxima aula ❑ Conhecer tecnologias envolvidas na análise de dados. Fundamentos em Análise de Dados Capítulo 2. Tecnologias aplicadas à análise de dados Profª. Fernanda Farinelli Fundamentos em Análise de Dados Aula 2.1. Fundamentos de Bancos de Dados Profª. Fernanda Farinelli Nesta aula ❑ Entender o que são sistemas gerenciadores de bancos de dados. Usuários Software e hardware Banco de dados SGBD Banco de dados Sistemas de banco de dados Sistema Gerenciadores de Banco de Dados Conjunto de dados armazenados (persistidos) e inter-relacionados. Promove a abstração de dados e a independência dos dados em relação às aplicações, à estratégia de acesso e à forma de armazenamento. Sistemas utilizados para gerir os bancos de dados: manter bases de dados e dados; garantir a segurança de acesso aos dados, integridade de dados, controle de concorrência e tolerância a falhas. Sistemas gerenciadores de banco de dados Bancos de dados relacionais Bancos de dados NoSQL (Not Only SQL) Bancos de dados NewSQL SGBDs Relacionais Chave-valor (key-value) Colunar Orientado a documentos Orientados por grafos Categorias de Bancos de Dados NoSQL Se u es qu em a nã o é or ie nt ad os a ta be la s SGBDs NoSQL ❑ Chave-valor ❑ Orientado a documentos ❑ Colunar ❑ Orientado a grafos SGBDs NewSQL Conclusão ✔ Entendemos o que são bancos de dados e sistemas gerenciadores de bancos de dados. ✔ Conhecemos os principais paradigmas tecnológicos dos sistemas gerenciadores de bancos de dados. Próxima aula ❑ Entender o que são APIs de coleta de dados. Fundamentos em Análise de Dados Aula 2.2.1. APIs de coleta de dados (Parte 1) Profª. Fernanda Farinelli Nesta aula ❑ Entender o que são APIs e para que servem as API’s de coleta de dados. ❑ Conhecer exemplos de API’s de coleta de dados. O que são API’s? ❑ API – Application Programming Interface. Interface de Programação de Aplicações. ❑ Pacote que consiste em um conjunto de definições e protocolos usado no desenvolvimento e na integração de software de aplicações. Requisição/Request Resposta/Reply Requisição/Request Resposta/Reply API Sistema/App Sistema/Serviço ❑ Twitter - https://developer.twitter.com/en ❑ LinkedIn - https://www.linkedin.com/developers/apps ❑ Facebook - https://developers.facebook.com/docs/graph-api?locale=pt_BR ❑ Instagram - https://www.instagram.com/developer/register/ Necessário ter uma conta para criar aplicativos e chaves de acesso. Principais API’s para redes sociais https://developer.twitter.com/en https://www.linkedin.com/developers/apps https://developers.facebook.com/docs/graph-api?locale=pt_BR https://www.instagram.com/developer/register/ API’s Governo ❑ API de serviços do Portal da Transparência do Governo Federal: http://api.portaldatransparencia.gov.br/swagger-ui.html Cadastro de um e-mail: ❑ http://portaldatransparencia.gov.br/api-de-dados/cadastrar-email ❑ Conecta - APIs de Governo para Governo https://www.gov.br/conecta/catalogo/ ❑ APIs IBGE https://servicodados.ibge.gov.br/api/docs/ http://api.portaldatransparencia.gov.br/swagger-ui.html http://portaldatransparencia.gov.br/api-de-dados/cadastrar-emailhttps://www.gov.br/conecta/catalogo/ https://servicodados.ibge.gov.br/api/docs/ ❑ The New York Times: https://developer.nytimes.com/ Exemplos de uso: ▪ https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metad ata--cms-27894 ▪ https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any- period-of-time-3e365504004 ❑ Google Data API - https://developers.google.com/gdata/docs/directory ❑ API do Portal Pubmed - https://www.ncbi.nlm.nih.gov/home/develop/api/ API’s diversas https://developer.nytimes.com/ https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metadata--cms-27894 https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metadata--cms-27894 https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-period-of-time-3e365504004 https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-period-of-time-3e365504004 https://developers.google.com/gdata/docs/directory https://www.ncbi.nlm.nih.gov/home/develop/api/ Conclusão ✔ Entendemos o que são APIs e conhecemos alguns exemplos. Próxima aula ❑ Conhecer a API de acesso e coleta de dados do Twitter. Fundamentos em Análise de Dados Aula 2.2.2. APIs de coleta de dados (Parte 2) Profª. Fernanda Farinelli Nesta aula ❑ Vamos conhecer a API do Twitter e aprender a como obter o acesso para utilizá-la. ❑Necessário ter uma conta no Twitter. https://apps.twitter.com/ ❑Cadastrar como desenvolvedor (estudante). https://developer.twitter.com/en ❑Dashboard Twitter Dev https://developer.twitter.com/en/portal/dashboard Criar uma aplicação e obter as chaves de acesso. Exemplo: API do Twitter https://apps.twitter.com/ https://developer.twitter.com/en https://developer.twitter.com/en/portal/dashboard Twitter API: Cadastro https://developer.twitter.com/en Leitura recomendada: Como criar Apps e obter os tokens necessários para coletar dados do Twitter, Instagram, Linkedin e Facebook Disponível em: https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagra m-linkedin-e-8f36602ea92a - Acesso em: 12/04/2020 https://developer.twitter.com/en https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagram-linkedin-e-8f36602ea92a https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagram-linkedin-e-8f36602ea92a Twitter API: Dashboard Twitter Dev https://developer.twitter.com/en/portal/dashboard https://developer.twitter.com/en/portal/dashboard https://developer.twitter.com/en/portal/dashboard https://developer.twitter.com/en/portal/dashboard Twitter API: Criar app Twitter API: Criar app Twitter API: Criar app Twitter API: Criar app C ha ve s de ac es so (S al ve e st es va lo re s) Twitter API: Criar app Twitter API: Dados de acesso Se não salvou as chaves, pode gerar novamente. Gere os tokens de acesso Conclusão ✔ Aprendemos como realizar o cadastro para utilizar a API do Twitter. ✔ Aprendemos a gerar a aplicação do Twitter para usarmos na nossa coleta de dados. Próxima aula ❑ Apresentar algumas das tecnologias aplicadas na análise de dados. Fundamentos em Análise de Dados Aula 2.3. Visão geral de ferramentas para análise de dados Profª. Fernanda Farinelli Nesta aula ❑ Apresentar algumas das tecnologias aplicadas na análise de dados. MS Excel Open Refine ❑ Ferramenta que permite o tratamento e a manipulação de dados desorganizados ou com inconsistências. ❑ Permite executar tarefas como limpeza, transformação e formatação de dados para torná-los mais adequados para análise e exploração. ❑ Permite recuperação de dados em serviços da Web. ❑ Ele suporta arquivos SV, CSV, Microsoft Excel (.xls e .xlsx), JSON, XML, RDF, XML e documentos do Google Data, e oferece como opção para exportação os formatos TSV, CSV, Microsoft Excel e HTML. ❑ Disponível em: http://openrefine.org/ http://openrefine.org/ Orange ❑ Ferramenta de análise e visualização de dados de código aberto desenvolvida na Universidade de Ljubljana, na Eslovênia. ❑ Funcionalidades de Aprendizado de Máquina e Visualização de Dados, além da construção de Fluxos de trabalho (Pipelines, workflows). ❑ Permite realizar análise exploratória de dados sem necessidade de codificação, e execução de processamento de linguagem natural, mineração de texto, mineração de dados e outros. ❑ Disponível em: https://orange.biolab.si/ ❑ Exemplo: https://minerandodados.com.br/agrupamento-de-dados-orange/ Acesso em 01/04/2021 https://orange.biolab.si/ https://minerandodados.com.br/agrupamento-de-dados-orange/ ❑ Ferramenta de análise e visualização de dados que permite publicar dados via dashboards e data storytelling. ❑ Permite limpeza e preparação de dados sem necessidade de codificação. ❑ Suporta a coleta de dados em Planilhas Google, Microsoft Excel, arquivos CSV, arquivos JSON e bancos de dados. ❑ Disponível em: https://www.tableau.com/pt-br/products/desktop ❑ Exemplo: https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-starte d-tutorial-home.htm Tableau https://www.tableau.com/pt-br/products/desktop https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-started-tutorial-home.htm https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-started-tutorial-home.htm Ferramenta WEKA ❑ Waikato Environment for Knowledge Analysis (WEKA) ❑ Desenvolvida pela Universidade de Waikato, NZ. ❑ Usa a GNU General Public License (GPL). ❑ Ferramenta para mineração de dados sem a necessidade de codificação e também trabalha com o conceito de workflow. ❑ Coleção de algoritmos de aprendizado de máquina de última geração e ferramentas de processamento de dados. ❑ Muito usada nos meios acadêmicos. ❑ Ferramenta projetada para coleta, manipulação, análise e modelagem de pipelines de dados por meio de programação visual. ❑ Permite análises preditivas com técnicas de aprendizado de máquina. ❑ Oferece vários exemplos prontos para uso que podem ser facilmente parametrizados. ❑ Suporta a combinação de dados entre arquivos de texto simples, bancos de dados, documentos, imagens, redes e dados baseados no Hadoop em um único fluxo de trabalho visual. ❑ Disponível em: https://www.knime.com/knime-analytics-platform KNIME Analytics Platform https://www.knime.com/knime-analytics-platform Linguagem ❑ Foi criada em 1995 por estatísticos a partir da linguagem S da Bell Labs (Lucent Technologies). ❑ É uma linguagem simples que permite escrever programas para realizar tarefas computacionalmente complexas derivadas da estatística e análises gráfica . Fornece uma grande variedade de estatísticas (modelagem linear e não-linear, testes estatísticos clássicos, análise de séries temporais, classificação, agrupamento,…) e técnicas gráficas. ❑ Vem se especializando na manipulação, análise e visualização de dados. ❑ É de distribuição gratuita disponível na página do projeto: R-Project http://www.r-project.org http://www.r-project.org/ Outras ferramentas ❑ RapidMiner ❑ DataMelt ❑ Power BI ❑ Google Analytics ❑ Watson Analytics (IBM) ❑ QlikView ❑ SAS ❑ Matlab ❑ Minitab e SPSS Conclusão ✔ Conhecemos algumas ferramentas que podem ser usadas para fazer análise de dados e dashboards. Próxima aula ❑ Conhecer a Plataforma Knime Analytics. Análise Exploratória de Dados ❑ Aula 1.7.1 - Plataforma Knime Analytics (Parte 1) 16:03 ❑ Aula 1.7.2 - Plataforma Knime Analytics (Parte 2) 22:16 ❑ Aula 1.7.3 - Plataforma Knime Analytics (Parte 3) 18:19 ❑ Aula 1.7.4 - Plataforma Knime Analytics (Parte 4) 6:29 Fundamentos em Análise de Dados Aula 2.4.1. Knime Analytics Platform (Parte 1) Profª. Fernanda Farinelli Nesta aula ❑ Conhecer a plataforma KNIME Analytics. ❑ Aprender comoinstalar o Knime. KNIME Analytics Platform ❑ Plataforma de código aberto para análise, relatórios e integração de dados. ❑ Integra vários componentes para aprendizagem de máquinas e mineração de dados através do conceito de pipelining de dados modular. ❑ Sua interface gráfica permite a montagem de pipelines de processamento de dados (ETL) para análise e visualização de dados. ❑ Oferece vários exemplos prontos para uso que podem ser facilmente parametrizados. ❑ Suporta diversos formatos de dados e coleta dados de diferentes fontes de dados. ❑ O conceito de pipelining de dados modular: KNIME Analytics Platform ❑ Link para download: https://www.knime.com/downloads ❑ Vídeo com tutorial de como instalar (vídeo em Inglês): https://www.youtube.com/watch?v=yeHblDxakLk ❑ Tutorial de instalação (em inglês): ❑ https://docs.knime.com/latest/analytics_platform_installation_guide/index.html Knime: Download e Instalação https://www.knime.com/downloads https://www.youtube.com/watch?v=yeHblDxakLk https://docs.knime.com/latest/analytics_platform_installation_guide/index.html Demonstração prática KNIME Analytics Platform ✔ Conhecemos a Plataforme Knime Analytics em detalhes. ✔ Aprendemos como instalar a Plataforme Knime Analytics no sistema operacional Windows. Conclusão Próxima aula ❑ Aprender a instalar as extensões e integrações na Plataforma Knime Analytics. ❑ Conhecer algumas funcionalidades existentes na plataforma. Fundamentos em Análise de Dados Aula 2.4.2. Knime Analytics Platform (Parte 2) Profª. Fernanda Farinelli Nesta aula ❑ Aprender a instalar as extensões e integrações na Plataforma Knime Analytics. ❑ Conhecer algumas funcionalidades existentes na plataforma. ❑ As extensões e integração são funcionalidades criadas que podem ser acopladas ao Knime para incorporar novas funcionalidades. Extensões open source. Extensões da comunidade. Extensões de parceiros. ❑ Como realizar a instalação das extensões e integração? Knime: Extensões e Integrações Demonstração prática ✔ Aprendemos a instalar as extensões e integração na Plataforma Knime Analytics. ✔ Conhecemos os exemplos disponíveis na plataforma. Conclusão Próxima aula ❑ Criar nosso primeiro workflow utilizando a Plataforma Knime Analytics. Fundamentos em Análise de Dados Aula 2.4.3. Knime Analytics Platform (Parte 3) Profª. Fernanda Farinelli ❑ Criar nosso primeiro workflow utilizando a Plataforma Knime Analytics. Nesta aula Demonstração prática ✔ Criamos um pipeline simples para análise de dados na Plataforma Knime Analytics. Conclusão Próxima aula ❑ Criar um workflow na Plataforma Knime Analytics para coletar dados da rede social Twitter por meio de sua API. Fundamentos em Análise de Dados Aula 2.4.4. Knime Analytics Platform (Parte 4) Profª. Fernanda Farinelli ❑ Criar um workflow na Plataforma Knime Analytics para coletar dados da rede social Twitter por meio de sua API. Nesta aula Demonstração prática ✔ Criamos um workflow simples para coletar dados da rede social Twitter por meio de sua API utilizando a Plataforma Knime Analytics. Conclusão Próxima aula ❑ Conhecer o ambiente de trabalho da linguagem R. Fundamentos em Análise de Dados Aula 2.5.1. Linguagem R (Parte 1) Profª. Fernanda Farinelli ❑ Conhecer o ambiente de trabalho da linguagem R. Nesta aula Linguagem ❑ Utilizada para coleta, manipulação, análise e visualização de dados. ❑ Possui pacotes que lidam com técnicas estatísticas e gráficos. Vem se especializando na manipulação, análise e visualização de dados. ❑ Página do projeto R-Project: http://www.r-project.org ❑ O R possui código aberto e foi criado nos anos 90. ❑ É utilizada por cientistas, estatísticos, analistas e cientistas de dados como um meio conveniente para a análise exploratória de dados. http://www.r-project.org/ Linguagem ❑ Podemos utilizar o R de várias formas: RStudio é um software com uma interface amigável para desenvolvimento integrado com a linguagem R. Google Colaboratory, conhecido como Google Colab ou Colab, serviço em nuvem que pode ser usados para ler, desenvolver e executar programas nas linguagens R e Python. Framework Anaconda. ❑ Uso local: Para utilizar o R no seu desktop, faça o download da linguagem R: ▪ Acesse: https://cran.r-project.org/ Após instalação da linguagem R, faça download do instalador do RStudio: ▪ Acesse: https://www.rstudio.com/products/rstudio/download/ ❑ Uso em nuvem: Acesse o Google Colab: https://colab.to/r Download e Instalação https://cran.r-project.org/ https://www.rstudio.com/products/rstudio/download/ https://colab.to/r Interface de trabalho do R Studio Apresenta as variáveis e seus valores durante a execução de um código Área para escrita de código Console com a saída dos comandos executados Gráficos plotados Pacotes instalados Executa o(s) comando(s) selecionado(s Google Colab https://colab.research.google.com/#create=true&language=r ou https://colab.to/r https://colab.research.google.com/#create=true&language=r https://colab.to/r Conclusão ✔ Conhecemos as possibilidades de ambiente de trabalho da Linguagem R. Próxima aula ❑ Coleta de dados no Twitter utilizando a API e a Linguagem R. Fundamentos em Análise de Dados Aula 2.5.2. Linguagem R (Parte 2) Profª. Fernanda Farinelli ❑ Conhecer um exemplo de como coletar dados no Twitter utilizando a API e a Linguagem R. Nesta aula ❑ As informações que serão necessárias para a autorização na utilização da API do Twitter são: Consumer Key (API Key) Consumer Secret (API Secret) Access Token Access Token Secret ❑ Estas informações não devem ser disponibilizadas a terceiros. ❑ A versão grátis da API impõe limitações, como, por exemplo, o número de tweets que pode ser recuperados por chamada e dentro de 15 minutos, só buscamos tweets por palavra chave dos últimos 7 dias. Credenciais da API do Twitter ❑ Existem 2 bibliotecas no R para isso: Rtweet: https://cran.r-project.org/web/packages/rtweet/index.html twitteR: https://cran.r-project.org/web/packages/twitteR/index.html • Está sendo descontinuado ❑ Instalar os pacotes no R Studio usando os comandos abaixo: install.packages("rtweet") install.packages("twitteR") Coleta de dados no Twitter com R https://cran.r-project.org/web/packages/rtweet/index.html https://cran.r-project.org/web/packages/twitteR/index.html Coleta de Dados no Twitter por usuário Coleta de Dados no Twitter por usuário Coleta de Dados no Twitter por hashtags Coleta de Dados no Twitter com R (por hashtags) ❑ Para mais detalhes, sugiro a leitura da seguinte série de posts: Conectando o R com o Twitter — Parte 1 — Instalando • https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610 a0f8aa Conectando o R com o Twitter — Parte 2— Funcionalidades do Pacote rtweet • https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do -pacote-5b6d8fe500ac Conectando o R com o Twitter — Parte 3 — Funcionalidades do pacote rtweet • https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do -pacote-rtweet-7d4ef7aafbe Conectando o R com o Twitter — Parte Final • https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-final-c2338b6d6e01 API Coleta de Dados – Twitter com R https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610a0f8aa https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610a0f8aa https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do-pacote-5b6d8fe500ac https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do-pacote-5b6d8fe500ac https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do-pacote-rtweet-7d4ef7aafbe https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do-pacote-rtweet-7d4ef7aafbehttps://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-final-c2338b6d6e01 Demonstração prática ✔ Aprendemos como coletar dados no Twitter utilizando a API e a Linguagem R. Conclusão Próxima aula ❑ Conhecer a Ferramenta WEKA. Fundamentos em Análise de Dados Aula 2.6.1. Ferramenta Weka (Parte 1) Profª. Fernanda Farinelli Nesta aula ❑ Conhecer a ferramenta Weka que é usada para análise de dados. Ferramenta WEKA ❑ Waikato Environment for Knowledge Analysis (WEKA) ❑ Coleção de algoritmos aplicáveis à mineração e processamento de dados. Não é necessário codificação; Possui uma funcionalidade para construção de workflows. ❑ Disponível em: http://www.cs.waikato.ac.nz/ml/weka/ http://www.cs.waikato.ac.nz/ml/weka/ ❑ Parametrização dos algoritmos por atributos e filtros. ❑ Permite consultar dados de diversas fontes de dados. ❑ Possui um conjunto de gráficos para visualização dos resultados. ❑ Algoritmos para preparação e transformação de dados. 49 opções de pré-processamento de dados. ❑ Algoritmos de mineração: 76 algoritmos de classificação / regressão; 8 algoritmos de clustering; 3 algoritmos para encontrar regras de associação; 15 avaliadores de atributo / subconjunto; 10 algoritmos de pesquisa para seleção de recursos. Funcionalidades WEKA Fonte de dados para o WEKA ❑ Arquivo local (formatos .arff, csv). ❑ Arquivo em URL (formatos .arff, csv). Viabiliza acesso direto aos Dados Abertos. ❑ Tabelas de Banco de Dados via JDBC. Exemplo de arquivo .arff https://www.cs.waikato.ac.nz/ml/weka/ https://www.cs.waikato.ac.nz/ml/weka/ Instalação do Weka ❑ Explorer: Trabalha de forma interativa, onde você pode explorar as funções da ferramenta. ❑ Experimenter: Automatização de processos. ❑ KnowledgeFlow: Criar workflows por uma interface baseada em fluxo de dados. ❑ Workbench: Console integrada, combina todas as outras aplicações. ❑ Simple CLI: é uma interface de linha de comando que permite criar scripts shell para usar a API do Weka. Ferramenta WEKA ✔ Conhecer a ferramenta Weka e suas principais características. ✔ Aprendemos a instalar a ferramenta. Conclusão Próxima aula ❑ Realizar uma prática na Ferramenta WEKA. Fundamentos em Análise de Dados Aula 2.6.2. Ferramenta Weka (Parte 2) Profª. Fernanda Farinelli Nesta aula ❑ Executar uma prática utilizando a ferramenta Weka. Ferramenta WEKA Ferramenta WEKA – Explorer Ferramenta WEKA – Explorer Ferramenta WEKA – Explorer - Classificação Ferramenta WEKA – KnowledgeFlow Demonstração prática ✔ Aprendemos como coletar, preparar e analisar dados usando a ferramenta WEKA. Conclusão Próxima aula ❑ Análise Exploratória de Dados. Fundamentos em Análise de Dados Capítulo 3. Análise exploratória de dados Profª. Fernanda Farinelli Fundamentos em Análise de Dados Aula 3.1. Fundamentos da Análise exploratória de dados Profª. Fernanda Farinelli Nesta aula ❑ Entender o que é a análise exploratória de dados. O que fazer com os dados coletados? Como são meus dados? • maximizar a percepção de um conjunto de dados • descobrir como é a estrutura dos seus dados • identificar e extrair variáveis importantes • detectar padrões • detectar outliers e anomalias • resumir a informação contida nos dados • testar e validar premissas • apresentar os resultados de modo conveniente e adequado. Analisar e entender um conjunto de dados visando Análise Exploratória de Dados Análise Exploratória de Dados ❑ Conjunto de técnicas aplicadas com o intuito de resumir e organizar os dados coletados através de tabelas, gráficos ou medidas numéricas, e, a partir dos dados resumidos, procurando interpretar os dados e identificar alguma regularidade ou padrão nas observações. Interesse tanto no comportamento individual das variáveis quanto no relacionamento entre variáveis. • População • Amostra • Variável • Tipos de variáveis • Escalas de mensuração Conceitos pré-liminares: Análise Exploratória de Dados População • Universo do estudo. • Conjunto de elementos que têm em comum determinada característica. • Conjunto global sobre o qual se deseja chegar a conclusões Amostra • Qualquer conjunto de elementos retirado da população, não vazio e tenha um menor número de elementos que a população. • Subconjunto finito de uma população sobre o qual são feitas observações. População e amostra Finita O número de elementos de um grupo não é muito grande. Exemplo: Todos os alunos de uma escola Infinita O número de elementos nesse caso é muito elevado Exemplo: População Brasileira População Amostra ❑ Por que estudar uma amostra, ao invés de toda a população? O tamanho de uma população é impossível ou impraticável estudá-la na sua totalidade. O custo envolver todos os elementos de uma população pode ser elevado e inviabilizar o trabalho. Nem todos elementos da população podem ser analisados. A técnica de análise empregada pode ser destruir ou corromper a população. Não-Probabilística Há uma escolha deliberada dos elementos da amostra. Os critérios dependem do pesquisador. Pode ser por acessibilidade ou conveniência; intencional; por cotas. Probabilística Seleção é aleatória onde cada elemento da população tem uma probabilidade conhecida de fazer parte da amostra. Segue métodos científicos: Aleatória Simples; Sistemática; Estratificada; por Conglomerados.. Amostragem Tamanho da Amostra ❑ Sofre influência de: Nível de confiança: quanto maior o nível de confiança, maior o tamanho da amostra. Erro máximo permitido: quanto menor o erro permitido, maior o tamanho da amostra. Variabilidade do fenômeno investigado: quanto maior a variabilidade, maior o tamanho da amostra. ❑ Qualquer característica de interesse associada aos elementos de uma população. Variável Va riá ve l Quantitativa Discreta Contínua Qualitativa Nominal Ordinal Variável Quantitativa (numéricos) Discreta • Apenas valores inteiros. • Exemplos: número de irmãos, número de passageiros Contínua • Qualquer valor no intervalo dos números reais. • Exemplo: peso, altura, pressão Variável Qualitativa (categóricos) Nominal • As categorias não possuem uma ordem natural. • Exemplos: nomes, cores, sexo Ordinal • As categorias podem ser ordenadas. • Exemplo: tamanho (pequeno, médio, grande), classe social, grau de instrução. Escalas de mensuração ••As variáveis são medidas em classes discretas, mas não é possível estabelecer ordem. ••Qualquer conjunto de números pode ser utilizado para substituir os “valores” originais, desde que se mantenha a relação unívoca entre os valores originais e os substitutos. ••Exemplo: 1-Masculino, 2-Feminino. Nominal ••As variáveis são medidas em classes discretas entre as quais é possível definir uma ordem, segundo uma relação descritível mas não quantificável. ••Qualquer conjunto numérico pode ser utilizado para substituir o conjunto original de valores associados a cada categoria, desde que a ordem original das categorias seja mantida. ••Exemplo: Tamanho: 1-Pequeno, 2-Médio, 3-Grande. Escolaridade: Sem Formação < Fundamental < Médio < Superior. Ordinal ••As variáveis assumem valores quantitativos, não possuem zero absoluto, ou seja, não possuem uma medida de ausência de atributo. Os dados não possuem um ponto inicial zero natural. ••Por exemplo, considere as escalas de mensuração de temperaturas Fahrenheit (F) e Centígrados (C). Uma temperatura de 0ºC não representa ausência de calor, ou seja, nessa escala não existe um zero absoluto (ou zero natural). Ademais, 0º na escala Centígrado corresponde a 32º na escala Fahrenheit Intervalar ••As variáveis assumem valores quantitativos, cuja relação exata entre estes é possível definir porque esta escala possui um zero absoluto. ••Como há um zero que indica nenhuma quantidade, é possível dizer que uma quantidade é maior que outra ••em X vezes (razões significativas). ••Por exemplo, 30 anos de idade é 6 vezesmaior do que 5 anos de idade. Razão Conclusão ✔ Entendemos o que é análise exploratória de dados. ✔ Conhecemos alguns conceitos fundamentais para entender como fazer uma análise exploratória de dados. Próxima aula ❑ Conhecer as medidas de resumo. Fundamentos em Análise de Dados Aula 3.2. Medidas de resumo Profª. Fernanda Farinelli Nesta aula ❑ Conhecer as principais medidas de resumos de dados usadas para melhor conhecer seus dados. Medidas de tendência central Média, Mediana, Moda Medidas de dispersão Desvio Padrão, Variância, Amplitude, intervalo interquartil Máximo, mínimo, Quartil, Decil, Percentil Medidas de posição Assimetria da distribuição e grau de achatamento Medidas de Assimetria e Curtose Medidas Medidas de tendência central • Calculada pela soma dos dados de uma variável, dividida pelo total de observações no banco. • Medida sensível aos valores da amostra, assim é mais adequada quando os dados são distribuídos de forma uniforme. Média aritmética • É o atributo do meio na distribuição, a qual deve estar ordenada pelos atributos observados. • Quando o número elementos de um conjunto é par, a mediana é encontrada pela média dos dois valores centrais. Mediana • É o valor em que a frequência dos seus dados é maior. • Pode ser bimodal quando apresenta duas modas, ou seja, dois valores são mais frequentes. Moda É um valor no centro, ou meio, do conjunto de dados. Medidas de Posição • O maior e o menor valor da observação no conjunto de dados. Máximo e Mínimo • Dividem um conjunto de dados em quatro partes iguais, isto é, 25% por parte.Quartis • Dividem o conjunto de dados em dez partes iguais, isto é, 10% por parte. Decis • Dividem o conjunto de dados em 100 partes, sendo e 1% em cada parte. Percentis Medidas de dispersão • Diferença entre o valor máximo e o valor mínimo. (A = Max – Min)Amplitude • É a diferença entre o terceiro quartil e o primeiro quartil (Q3 - Q1)Intervalo-Interquartil • Média dos quadrados dos desvios em relação à média aritméticaVariância • Mede a variabilidade independente do número de observações e com a mesma unidade de medida da média. É a raiz quadrada da variância.Desvio Padrão • Mede a variabilidade em relação à média.Coeficiente de Variação Visam encontrar um valor que resuma a variabilidade de um conjunto de dados. ❑ As medidas de assimetria possibilitam analisar uma distribuição de acordo com as relações entre suas medidas de moda, média e mediana, quando observadas graficamente ou analisando apenas os valores. Distribuição simétrica 🡪 o valor da moda = média = mediana. Distribuição assimétrica 🡪 quando essa igualdade não ocorre. Medidas de Assimetria Medidas de Assimetria ❑ Curtose é o grau de achatamento da distribuição. Ou o quanto uma curva de frequência será achatada em relação a uma curva normal de referência. Mesocúrtica: achatamento da curva normal, curtose = 0. Leptocúrtica: curva afilada, com pico elevado, curtose > 0. Platicúrtica: curva bem achatada, curtose < 0. Curtose Conclusão ✔ Conhecemos as principais medidas de resumo de dados usadas para melhor conhecer seus dados. ✔ Medidas tendência central ✔ Medidas de posição e dispersão ✔ Medidas de assimetria ✔ Grau de achatamento da frequência de distribuição. Próxima aula ❑ Entender o que é Análise univariada de dados. Fundamentos em Análise de Dados Aula 3.3. Análise univariada Profª. Fernanda Farinelli Nesta aula ❑ Entender o que é a análise univariada. Análise univariada ❑ Analisar cada uma das variáveis individualmente: Classificar a variável quanto a seu tipo: qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua). Obter tabelas, gráficos e/ou medidas que resumam a variável. ❑ Conhecer o comportamento dessa variável, analisando a ocorrência de seus possíveis valores. A distribuição de frequência é um dos principais recurso para resumir uma única variável. Fr eq uê nc ia Absoluta Relativa Percentual Distribuição de frequência Número total de elementos em cada ocorrência de valor. Contagem simples Razão entre cada valor da frequência absoluta e o total de observações. Frequência absoluta de cada ocorrência, dividida pelo total de ocorrências. Frequência relativa expressa em porcentagem variável qualitativa Dados de exemplo Classificação das variáveis ❑ "Estado civil" é uma variável qualitativa nominal. Tabela de frequências (absolutas e/ou relativas): ❑ Um gráfico de barras ou de setores: ❑ A “moda”, i.e. o valor que ocorre com maior frequência Análise univariada ❑ "Estado civil" é uma variável qualitativa nominal. Tabela de frequências (absolutas e/ou relativas): Um gráfico de barras ou de setores: Análise univariada A moda é a categoria de maior frequência ❑ “Instrução" é uma variável qualitativa ordinal. Tabela de frequências (absolutas e/ou relativas): Um gráfico de barras, o de setores não mostra a ordem: Análise univariada A moda é a categoria de maior frequência Fr eq uê nc ia Absoluta Acumulada Relativa Acumulada Percentual Distribuição de frequência Variável Quantitativa Soma das frequências simples de uma classe com a frequência simples da classe anterior Frequência acumulada da classe dividida pelo total de observações ❑ “Filhos" é uma variável quantitativa discreta. Tabela de frequências (absolutas e/ou relativas): Um gráfico tipo o de barras, mas com linhas: Análise univariada • Análise univariada • Análise univariada Menor ou igual ao valor mínimo Maior ou igual ao valor máximo ❑ “Salário" é uma variável quantitativa contínua. Tabela de frequências (absolutas e/ou relativas): Análise univariada ❑ “Salário" é uma variável quantitativa contínua. Gráficos para variáveis contínuas: o de dispersão e o histograma. Análise univariada Conclusão ✔ Entendemos o que é a análise univariada e aprendemos como fazer. Próxima aula ❑ Realizar uma análise univariada utilizando a linguagem R. Fundamentos em Análise de Dados Aula 3.4. Análise univariada com R Profª. Fernanda Farinelli Nesta aula ❑ Utilizar a linguagem R para realizar uma análise univariada. Demonstração prática Conclusão ✔ Aprendemos como realizar a análise univariada utilizando a linguagem R. Próxima aula ❑ Entender o que é Análise bivariada de dados. Fundamentos em Análise de Dados Aula 3.5. Análise bivariada Profª. Fernanda Farinelli Nesta aula ❑ Entender o que é a análise bivariada. Análise bivariada ❑ Permite observar como duas variáveis se comportam na presença uma da outra. ❑ Pode ser feita em termos de distribuição (para duas variáveis ordinais) ou em termos de frequências para variáveis nominais. ❑ Tipos de análises conforme a classificação das variáveis envolvidas: Qualitativa vs qualitativa Qualitativa vs quantitativa Quantitativa vs quantitativa Base de dados Qualitativa vs qualitativa ❑ "Estado civil" versus "grau de instrução" Qualitativa vs qualitativa ❑ "Estado civil" versus "grau de instrução" Qualitativa vs qualitativa ❑ "Estado civil" versus "grau de instrução" Qualitativa vs qualitativa ❑ "Estado civil" versus "grau de instrução" Qualitativa vs quantitativa ❑ "grau de instrução“ versus “salário” Gerar faixas de salários Qualitativa vs quantitativa ❑ "grau de instrução“ versus “salário” Qualitativa vs quantitativa ❑ "grau de instrução“ versus “salário” Qualitativa vs quantitativa ❑ "grau de instrução“ versus “salário” Quantitativa vs quantitativa ❑ “salário” versus “idade” é necessário agrupar as variáveis em classes Quantitativa vs quantitativa ❑ “salário” versus “idade” é necessário agrupar as variáveis em classes Quantitativa vs quantitativa ❑ “salário” versus “idade” Quantitativa vs quantitativa ❑ “salário” versus “idade” Conclusão ✔ Entendemos o que é a análise Bivariada e aprendemos como fazer. Próxima aula ❑ Realizar uma análiseBivariada utilizando a linguagem R. Fundamentos em Análise de Dados Aula 3.6. Análise Bivariada com R Profª. Fernanda Farinelli Nesta aula ❑ Utilizar a linguagem R para realizar uma análise Bivariada. Demonstração prática Conclusão ✔ Aprendemos como realizar a análise Bivariada utilizando a linguagem R. Próxima aula ❑ Realizar análises exploratória utilizando o Knime Analytics Platform. Fundamentos em Análise de Dados Aula 3.7. Análise exploratória de dados com Knime Profª. Fernanda Farinelli Nesta aula ❑ Utilizar o Knime para realizar análise exploratória de dados. Demonstração prática Conclusão ✔ Aprendemos como realizar a análise exploratória de dados no Knime. Próxima aula ❑ Fundamentos de Análise de dados. Fundamentos em Análise de Dados Capítulo 4. Fundamentos em análise de dados Profª. Fernanda Farinelli Fundamentos em Análise de Dados Aula 4.1. Visão geral dos principais tipos de análise de dados Profª. Fernanda Farinelli Nesta aula ❑ Entender os principais tipos de análise de dados. Análise de Dados Permite a extração de informações valiosas a partir dos dados. Estudar princípios, métodos e sistemas computacionais para extrair conhecimento de dados Identificar as possibilidades de converter dados brutos em conhecimento Visa encontrar um padrão (conhecimento) em grandes volumes de dados Aumentar a compreensão sobre o comportamento das pessoas e do negócio. Fomentar a identificação de novas oportunidades de negócio Análise descritiva Análise diagnóstica Análise preditiva Análise prescritiva Tipos de Análise de Dados O que aconteceu? Qual é a situação? Por que aconteceu? O que acontecerá? Se acontecer, o que devo fazer? Futuro Passado Análise descritiva Análise diagnóstica Análise preditiva Análise prescritiva VA LO R (R O I) COMPLEXIDADE R etro spe ctiv a Pre visã o Conclusão ✔ Entendemos a importância da análise de dados. ✔ Conhecemos os principais tipos de análise de dados. Próxima aula ❑ Entender o que é mineração de dados. Fundamentos em Análise de Dados Aula 4.2. Introdução à Mineração de Dados Profª. Fernanda Farinelli Nesta aula ❑ Entender o que é data mining ou mineração de dados. KDD - Knowledge Discovery in Databases Dados Transformados Dados alvo Dados pré-processados Padrões Conhecimento Sele ção Pré-p roce ssam ento Tran sform açã o Mine raçã o de dado s Inter preta ção e Av aliaç ão Dados das aplicações Prep araçã o Mineração de Dados (Data Mining) Frequentemente existe informação “escondida” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais. Mineração de dados visa identificar conhecimento novo escondido em grandes bases de dados. Consiste na aplicação de algoritmos de análise de dados que infere regras e descobrem padrões e/ou tendências significativas sobre os dados. Utiliza várias técnicas da estatística, recuperação de informação, inteligência artificial e reconhecimento de padrões. • Chamada de teste de hipótese, o usuário parte do princípio que existe uma hipótese, uma ideia pré-concebida e que mesmo deseja confirmá-la ou refutá-la. Abordagem top-down • Chamada de busca de conhecimento, o usuário inicia o processo de exploração dos dados na tentativa de descobrir alguma coisa que ainda não é de seu conhecimento Abordagem bottom-up Abordagens da Mineração de Dados Planejamento estratégico • Qual o objetivo da mineração de dados? • Que perguntas eu desejo responder? Seleção de dados • Quais dados e fontes podem trazer insumos para responder estas pergunta? Modelagem de dados • Definição e execução das técnicas de mineração de dados conforme a natureza da pergunta. Avaliação dos resultados • Considerando o objetivo, a pergunta, você obteve suas respostas? Processo de mineração de dados Técnicas de Mineração de dados Conclusão ✔ Entendemos a importância da mineração de dados. Próxima aula ❑ Entender o que é mineração de dados na web. Fundamentos em Análise de Dados Aula 4.3. Visão geral: Web mining Profª. Fernanda Farinelli Nesta aula ❑ Entender o que é a mineração de dados na web ou web mining. Dados Interligados Enorme volume de acesso Enorme quantidade de informação Documentos sem padronização Distribuído e em constante evolução Dados não estruturado e semiestruturado Web de dados Mineração de Dados na Web: Aplicação de técnicas de Mineração de Dados para descoberta de padrões na Web Web Mining Encontrar informação relevante Gerar novos conhecimentos Personalizar a informação Aprender sobre comportamento dos usuários Taxonomia do Web Mining Mineração de dados na Web Mineração de Conteúdo da Web Mineração de Conteúdo de Página da Web Mineração de Resultados da Pesquisa Mineração da estrutura da Web Mineração de uso da Web Mineração de Padrão de Acesso Geral Rastreamento de uso personalizado Abordagens de Web Mining Extração de conhecimento do conteúdo de páginas 🡪 informações contidas dentro dos documentos disponíveis na web.01 Mineração de conteúdo ❑ Exemplos de aplicação: Máquinas de busca (Google, Bing, etc.). Classificação de textos. Identificação de spams. Detecção e acompanhamento de evento. Extração de regras. Abordagens de Web Mining Obtenção de conhecimento a partir da organização da web, as informações contidas entre os documentos disponíveis na web.02 Mineração de estrutura ❑ Exemplo de informação extraída: Volume de links apontando para um documento podem indicar sua popularidade. Volume de links saindo de um documento podem indicar a riqueza ou variedade de tópicos tratados pelo documento. Autoridade de uma página. Ranking de páginas. Número de exibições ou retorno em buscas. Busca padrões relacionados ao uso e acesso, as informações contidas na utilização ou interação com documentos disponíveis na web.03 Mineração de uso Abordagens de Web Mining ❑ Fontes de dados para análises: Web server log, cookies, dados de consultas, dados do proxy. ❑ Exemplo de uso: Extração de padrão geral de acesso para descobrir padrões e tendências de acesso. Localizar pontos para propaganda mais efetiva. Direcionar campanhas específicas para usuários específicos. Customização ou personalização dinâmica da experiência do usuário. Conclusão ✔ Entendemos o que é Web mining e quais são seus subtipos. Próxima aula ❑ Entender o que é mineração de texto. Fundamentos em Análise de Dados Aula 4.4. Visão geral: Text mining Profª. Fernanda Farinelli Nesta aula ❑ Entender o que é mineração de texto ou text mining. Mineração de texto: Extrair informação relevante de uma grande base de dados textuais sem precisar de intervenção humana na leitura de cada documento. Text mining ❑ Trabalha com análise de dados não estruturados. Text mining Blogs e Microblogs Documentos Redes sociais Comentários e-commerce Conteúdo on-line Tipos de abordagens Extração de conhecimento morfológico, sintático, semântico, pragmático, do discurso e do mundo. Análise Semântica Aprendizado estatístico a partir de dados, codificação dos dados, estimativa dos dados e modelos de representação. Análise Estatística Exemplo: New York Times Exemplo Semântica É a mesma pessoa: • Diego Maradona • Mr. Maradona • He, His, Him Referência a pessoas: • Diego Maradona • Che Guevara • Fidel Castro Exemplo Semântica Mesmo significado: • Huge, biggest, vastly, most. Conteúdo informacional Exemplo Estatística Frequência de palavras: • He, Him, His: 8 • Maradona: 2 • Huge, biggest, vastly, most: 4 ❑ Considere o texto a seguir: José da Silva é funcionário da Empresa XYZ, mora na Rua X, número 31, tem 35 anos de idade, e ... ❑ Com a mineração semântica é possível identificar os seguintes dados: Exemplo de extração de conhecimento Nome José da Silva EmpresaXYZ Endereço Rua X, 31 Idade 35 anos • knowledge discovery in texts (KDT) Processo de descoberta de conhecimento em textos (KDT) 38 Fonte: https://www.devmedia.com.br/mineracao-de-texto-analise-comparativa-de-algoritmos-revista-sql-magazine-138/34013 Processo de Text Mining (simplificado) Escolha/definição dos documentos relevantes Transformar o documento no formato de análise Identificação de padrões nos documentos Utilização do conhecimento extraído ❑ Tem como objetivo formar a base de documentos (corpus) que irá ser analisada. ❑ A base pode ser adquirida de forma: Manual, realizada por um ser humano. Automática, por meio de API ou Web Crawler/Scrap: • Crawler (Rastreamento): Software que visa localização de informações na web. • Scraper (Raspagem): Software que coleta automaticamente os dados/documentos na web. Seleção ou Coleta de documentos (dados) ❑ Objetiva transformar os textos em uma representação estruturada adequada, aumentando sua qualidade. ❑ Consiste em um conjunto de transformações realizadas no texto para torná-lo apto a ser analisado. Pré-Processamento Indexação Normalização de sinônimos Normalização morfológica Limpeza do texto. Pré-processamento em text mining Remoção de caracteres especiais Remoção de stopwords (pontuação e palavras de ligação) Tokenization (Atomização) Identificação de Abreviações e acrônimos Correção Ortográfica (inserção, eliminação e substituição de caracteres) Redução do Léxico - Stemming (obtida a raiz do termo) Normalização - Lemmatization (forma primitiva da palavra) Identificação de Sinônimos, Hierarquias e Relacionamentos Associativos Etiquetagem POS (part of speech) - identificação sintática: verbos, substantivos, adjetivos, advérbios, pronomes, etc. Análise Sintática - Definição da estrutura observando a função sintática de cada token em uma sentença (Árvore de Derivação) Identificação de Palavras Combinadas (n-gramas) ❑ Organiza todos os termos para facilitar o acesso aos documentos ❑ Abordagens comuns: Representação de Documentos: • “saco de palavras” (do inglês, bag of words) 🡪 documento é visto como um container de tokens, Medidas de Similaridade entre Documentos: • dois documentos são idênticos se compartilham do mesmo conjunto de tokens Listas Invertidas (abordagem de máquinas de busca): • Tokens indicando (apontando) em quais documentos estes estão contidos, e não documentos apontando para tokens Indexação ❑ É uma representação simplificada usada no processamento de linguagem natural (PLN) e na recuperação de informações (RI). ❑ Neste modelo, um texto (como uma frase ou um documento) é representado como o saco (bag) de suas palavras, desconsiderando a gramática e mesmo a ordem das palavras, mas mantendo a multiplicidade. ❑ Um uso clássico do BoW é para filtragem de spam. Bag of Words (BOW) ❑ Considere os seguintes documentos: ❑ Cria-se, uma lista com as palavras que aparece no texto dos documentos. ❑ Calcula-se a frequência de aparecimento das palavras. Exemplo de Bag of Words José gosta de assistir filmes. Maria também gosta de filmes. José também gosta de assistir jogos de futebol. ❑ Conforme o objetivo, definir a técnica de mineração que será usada para extrair conhecimento dos textos pré-processados. ❑ Exemplos: Clusterização: identificar relacionamento entre documentos, conforme o grau de similaridade. Classificação: classificar em qual grupo o documento novo se encaixa. Associação: identificar tópicos correlatos. Mineração ❑ Latent Dirichlet Allocation (LDA) é o método padrão para modelagem de tópicos. ❑ Leva em consideração que: Cada documento é uma mistura de tópicos. Cada tópico é uma mistura de termos. ❑ Reorganiza a distribuição de tópicos nos documentos e a distribuição de palavras-chave nos tópicos para obter uma boa composição da distribuição de palavras-chave de tópico. Técnica: Modelagem de tópicos Latent Dirichlet Allocation (LDA) Tópicos Documentos Proporções da base de treinamento Inferindo tópicos a partir das palavras chave ❑ Cloud of words (Nuvem de palavras) Modelo de visualização Palavras usadas pela imprensa durante a campanha eleitoral Norte Americana de 2016 Conclusão ✔ Entendemos o que é Text mining e algumas de suas aplicações. Próxima aula ❑ Conhecer a Análise de Sentimentos. Fundamentos em Análise de Dados Aula 4.5. Análise de Sentimentos Profª. Fernanda Farinelli Nesta aula ❑ Entender o que é Análise de sentimentos. Por que saber a opinião das outras pessoas? Conhecer a satisfação dos clientes com o produtos/serviços adquiridos. Entender o comportamento de um determinado grupo. Conhecer crenças, valores, gostos, questões culturais e políticas. Análise de sentimentos Mineração da opinião Foco em relacionar as emoções ao assunto (ou tópico) de que se trata o documento. Visa estudar opiniões, sentimentos, avaliações e emoções que possam ser expressas em forma de texto. Análise de Sentimento Positivo •O produto X tem ótima qualidade. •Eu adorei o filme. Negativo •O produto X quebrou no primeiro uso. •Este filme não representa a essência do livro. Neutro •Vou pesquisar sobre o produto X depois. •Eu vi o trailer deste filme. Opinião Regular Direta Indireta Comparativa Opinião comum a um determinado alvo Possui relação de similaridade ou diferença entre dois ou mais alvos O vestido é lindo! Comecei a coçar depois que vesti o vestido Prefiro usar calça do que saia. ❑ Subjetividades das opiniões e sentimentos. ❑ Palavras com sentido adverso dependendo do contexto. ❑ Palavras com duplo sentido. ❑ Abreviações, erros ortográficos e gramaticais. ❑ Linguagem informal, gírias, hashtags e emoticons. Desafios da análise de sentimentos Fluxo de Análise de sentimentos Conclusão ✔ Entendemos o que é Análise de sentimentos e seus principais objetivos e desafios. Próxima aula ❑ Realizar prática de Análise de Sentimentos utilizando o Knime. Fundamentos em Análise de Dados Aula 4.6. Prática: Análise de Sentimentos utilizando o Knime Profª. Fernanda Farinelli Nesta aula ❑ Exemplo prático de Análise de sentimentos utilizando Knime. Exemplo de workflow Fonte: https://hub.knime.com/knime/spaces/Examples/latest/08_Other_Analytics_Types/01_Text_Processing/26_Sentiment _Analysis_Lexicon_Based_Approach~zp_hhUROHNXToZHX Demonstração prática Conclusão ✔ Aprendemos como fazer uma análise de sentimentos utilizando o Knime. Próxima aula ❑ Realizar prática utilizando a linguagem R para tratar partes da mineração de textos. Fundamentos em Análise de Dados Aula 4.7. Prática: Análise de textos utilizando a linguagem R Profª. Fernanda Farinelli Nesta aula ❑ Exemplo prático de Análise de textos utilizando a linguagem R. Demonstração prática Conclusão ✔ Aprendemos como fazer uma análise de textos utilizando a linguagem R. Próxima aula ❑ Conhecer as etapas de coleta e preparação de dados. Fundamentos em Análise de Dados Capítulo 5. Coleta e Preparação de dados Profª. Fernanda Farinelli Fundamentos em Análise de Dados Aula 5.1. Fundamentos em coleta de dados Profª. Fernanda Farinelli Nesta aula ❑ Entender os desafios da etapa de coleta de dados. Coleta de dados Obtenção (recuperação e extração) dos dados de diversas fontes e carga no conjunto de dados a ser analisado. Dados externos SGBDs relacionais DW & Data Lake SGBDs NoSQL Conjunto de dados Web de dados Documentos IOT E-commerce ❑ A base pode ser adquirida de forma: Manual, realizada por um ser humano. Automática o Acesso ao banco de dados, por exemplo, com linguagem SQL. o Via APIs, como por exemplo, API do Twitter. o Web Crawler/Scrap: • Crawler (Rastreamento): Software que visa localização de informações na web. • Scraper (Raspagem): Software que coleta automaticamente os dados/documentos
Compartilhar