Baixe o app para aproveitar ainda mais
Prévia do material em texto
12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 1/16 Neste roteiro de estudos, serão abordados os principais conceitos de mineração de dados, que é o principal fundamento da inteligência analítica e que nos possibilita realizar análises completas sobre os dados, com o objetivo de tomar decisões. Isso permitirá consolidar seus conhecimentos sobre essas ferramentas, conhecer aplicações e diferenciá-las. Caro(a) estudante, ao ler este roteiro você vai: compreender o conceito de mineração de dados; conhecer os processos de preparação de dados, tais como limpeza, redução, normalização e discretização; compreender os conceitos de análise descritiva e análise de grupos; compreender o processo de classi�car dados utilizando algoritmos como árvore de decisão, regras de classi�cação e Naive Bayes; conhecer a aplicabilidade do algoritmo Apriori no processo de mineração de dados; compreender os processos de detecção de anomalias em dados;utilizar os métodos paramétricos e não paramétricos para a detecção de anomalias. Introdução A mineração de dados é o principal fundamento da inteligência analítica para a leitura de dados, permitindo que os usuários visualizem dados de diversos ângulos, categorizem e Inteligência Analítica Roteiro deRoteiro de EstudosEstudos Autor: Me. Ariel da Silva Dias Revisor: Jaime Gross 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 2/16 sintetizem os relacionamentos identi�cados. O objetivo �nal da mineração de dados é a previsão e a descoberta. O processo procura padrões consistentes e relacionamentos sistemáticos entre variáveis e, em seguida, valida as descobertas ao aplicar os padrões a novos subconjuntos de dados. Para que seja possível realizar toda a análise, os dados necessitam estar agrupados ou categorizados, sem ruídos e completos, de modo que tenhamos a melhor resposta possível em relação a uma análise. Para isso, podemos utilizar diversos algoritmos e ferramentas da estatística a nosso favor. Todos esses conceitos, bem como aplicações, exemplos e algoritmos serão abordados na leitura deste roteiro. Introdução à Mineração de Dados e Pré-Processamento A mineração de dados é o processo de analisar dados de diferentes fontes e resumi-los em informações relevantes, as quais podem ser usadas para ajudar a aumentar a receita e diminuir os custos. Seu principal objetivo é encontrar correlações ou padrões entre dezenas de campos em grandes bancos de dados. (BRAGA, 2005) A mineração de dados consiste em cinco elementos principais: 1. extraia, transforme e carregue dados da transação no Data Warehouse; 2. armazene e gerencie os dados em um sistema de banco de dados multidimensional; 3. forneça acesso a dados para analistas de negócios e pro�ssionais de TI; 4. analise os dados por software aplicativo; 5. apresente os dados em um formato útil (grá�co, tabela, etc.). 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 3/16 A mineração de dados compreende um conjunto de técnicas para descrição e "predição" a partir de grandes massas de dados. Por este motivo, ela está geralmente associada a banco de dados especiais denominados data warehouse. Esses bancos de dados viabilizam a integração rápida de dados oriundos de diferentes fontes (BRAGA, 2005, p.12). O Data Warehouse armazena dados em arquivos ou pastas, o que ajuda a organizar e usar os dados para tomar decisões estratégicas. Esse sistema de armazenamento também oferece uma visão multidimensional dos dados atômicos e resumidos. As funções importantes que são necessárias para executar são: extração de dados; limpeza de dados; transformação de dados. LIVRO Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações Autores: Leandro Nunes de Castro e Daniel Gomes Ferrari Editora: Saraiva Ano: 2016 Comentário: a leitura do subcapítulo 1.2 ( e subcapítulos 1.2.1 e 1.2.2) irá ajudá-lo a compreender o conceito de mineração de dados, bem como as principais tarefas que podem ser descritivas e preditivas. Esse título está disponível na Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 4/16 Pré-Processamento O pré-processamento de dados é uma técnica de mineração de dados que envolve a transformação de dados brutos em um formato compreensível. Os dados do mundo real geralmente são incompletos, inconsistentes e/ou carecem de certos comportamentos ou tendências e provavelmente contêm muitos erros. O pré-processamento de dados, no entanto, é um método comprovado para resolver esses problemas. No mundo real, os dados geralmente são: Incompletos: sem valores de atributos, sem determinados atributos de interesse ou contendo apenas dados agregados; Ruidosos: contendo erros ou outliers. Inconsistente: contendo discrepâncias em códigos ou nomes. LIVRO Business Intelligence: tecnologias da informação na gestão do conhecimento Autoras: Maribel Santos e Isabel Ramos Editora: FCA Ano: 2006 Comentário: no Capítulo 5 desse livro, as autoras abordam os conceitos de Data Warehouse e Data Mart. A diferença entre esses dois tipos de armazenamento, bem como a aplicação, é uma necessidade para quem deseja trabalhar com inteligência analítica, a�nal, é a partir de um Data Mart ou de um Data Warehouse que a empresa irá gerar conhecimento. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 5/16 Após a leitura deste tópico, você conhecerá e compreenderá como a mineração de dados realiza a procura por padrões ocultos, válidos e potencialmente úteis em grandes conjuntos de dados. Análise Descritiva de Dados e Análise de Grupos As estatísticas descritivas são usadas para descrever os recursos básicos dos dados em um estudo. De acordo com Silvestre (2007, p.11), “na análise estatística descritiva está-se interessado na medida das características dos elementos de toda população”. Elas fornecem resumos simples sobre a amostra e as medidas e, juntamente com a análise grá�ca simples, eles formam a base de praticamente todas as análises quantitativas de dados. LIVRO Matemática discreta para ciência da computação Autores: Cli�ord Stein, Robert L. Drysdale e Kennetg Bogart Editora: Pearson Ano: 2013 Comentário: a leitura do livro irá ajudá-lo a compreender as etapas do pré-processamento de dados, como lidar com valores ausentes ou incompletos. Você aprenderá, ainda, sobre o processo de integração de dados e de transformação. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 6/16 Processo de Análise Descritiva e Agrupamento de Dados A função básica da ciência de dados é organizar e resumir dados. Os dados coletados em qualquer projeto de pesquisa são apresentados de forma bruta e desorganizada. Assim, possuem pouco (ou nenhum) signi�cado, a menos que sejam organizados ou agrupados para fornecer mais informações. Suponha que você está realizando um estudo para identi�car o nível de �delidade do cliente em sua empresa. Para coletar os dados, o entrevistador pode criar um questionário on-line e distribuí-lo aleatoriamente entre os clientes. Depois de coletados, haverá uma grande massa de dados que não faz sentido. Por isso, para descrever a lealdade do cliente, tirar conclusões ou inferir sobre a �delidade do entrevistado, é necessário organizar os dados de alguma maneira signi�cativa. O método mais conveniente de organizar dados é construir uma distribuição de frequência, pois ela informa o número de vezes que a observaçãode um dado ocorre. LIVRO Estatística Autora: Fernanda Cesar Bona�ni Editora: Pearson Ano: 2016 Comentário: na unidade 1, é apresentada uma introdução sobre o conceito de análise descritiva, trazendo uma base de dados que é utilizada como modelo no capítulo 3 (que será acompanhado no decorrer deste roteiro). Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 7/16 Processo de Agrupamento de Dados Classi�cação e agrupamento são os dois tipos de métodos de aprendizado que caracterizam objetos em grupos por um ou mais recursos. Esses processos parecem ser semelhantes, mas há uma diferença entre eles no contexto da mineração de dados. A diferença entre classi�cação e agrupamento (em alguns momentos você poderá encontrar esse termo como clustering) é que a classi�cação é usada na técnica de aprendizado supervisionado, em que rótulos prede�nidos são atribuídos às instâncias por propriedades; por outro lado, o agrupamento é usado no aprendizado não supervisionado em que instâncias semelhantes são agrupadas, com base em seus recursos ou propriedades. LIVRO Inteligência arti�cial aplicada: uma abordagem introdutória Autor: Luciano Frontino de Medeiros Editora: Intersaberes Ano: 2018 Comentário: esse livro contribuirá para o seu entendimento a respeito do processo de análise e agrupamento de dados. Desse modo, você terá acesso ao conteúdo sobre resolução de problemas por busca, sistemas especialistas e programação em lógica. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 8/16 Algoritmo K-médias O agrupamento K-médias é um dos algoritmos de aprendizado de máquina não supervisionados mais simples e populares. Normalmente, algoritmos não supervisionados fazem inferências a partir de conjuntos de dados usando apenas vetores de entrada sem se referir a resultados conhecidos ou rotulados. O objetivo do K-means é simples: agrupar pontos de dados semelhantes e descobrir padrões subjacentes. Para atingir esse objetivo, o K-means procura um número �xo (k) de clusters em um conjunto de dados. Algoritmo K-medoides O termo medoide refere-se a um objeto dentro de um agrupamento para o qual a diferença média entre ele e todos os outros membros do agrupamento é mínima. Corresponde ao ponto mais centralmente localizado no agrupamento. Esses objetos (um por agrupamento) podem ser considerados como um exemplo representativo dos membros desse agrupamento, o que LIVRO Inteligência arti�cial aplicada: uma abordagem introdutória Autor: Luciano Frontino de Medeiros Editora: Intersaberes Ano: 2018 Comentário: o capítulo 5 trata de um exemplo de redes neurais arti�ciais, o capítulo 6 traz uma introdução do modo de operação dos algoritmos genéticos, e, por �m, o capítulo 7 aborda as ontologias que representam a essência de um determinado conhecimento. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 9/16 pode ser útil em algumas situações. Lembre-se de que, no agrupamento k-média, o centro de um determinado agrupamento é calculado como o valor médio de todos os pontos de dados no agrupamento. O K-medoide é uma alternativa robusta ao agrupamento k-média. Isso signi�ca que o algoritmo é menos sensível a ruídos e outliers quando comparado ao k-médias, já que usa o medoides como centros de agrupamento em vez de média (usados em k-médias). Classi�cação e Estimação de Dados O aprendizado supervisionado é onde você tem variáveis de entrada (x) e uma variável de saída (Y), e usa um algoritmo para aprender a função de mapeamento da entrada para a saída, de modo a ter: Y = f (X) LIVRO Estatística Autora: Fernanda Cesar Bona�ni Editora: Pearson Ano: 2016 Comentário: na unidade 2, o livro destaca a probabilidade e as distribuições de probabilidade, descrevendo o uso do agrupamento estatístico entre objetos. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 10/16 O objetivo é aproximar tão bem a função de mapeamento que, quando você tiver novos dados de entrada (x), poderá prever as variáveis de saída (Y) para esses dados. É chamado de “aprendizado supervisionado”, porque o processo de um algoritmo aprendendo com o conjunto de dados de treinamento pode ser pensado como um professor supervisionando o processo de aprendizado. Conhecendo as respostas corretas, o algoritmo faz iterativamente previsões nos dados de treinamento e é corrigido pelo professor. O aprendizado é para quando o algoritmo atinge um nível aceitável de desempenho. Predição de Dados A análise preditiva usa os dados e algoritmos estatísticos para prever um futuro evento ou tendência de dados no futuro. O objetivo com a predição é muito além de apenas saber o que acontecerá no futuro, permitindo que cientistas de dados avaliem o que acontecerá no futuro e consiga tomar ações a partir desta predição. Embora a análise preditiva já exista há décadas, é uma tecnologia cuja hora e a vez chegaram. Mais e mais organizações estão recorrendo à análise preditiva para aumentar seus resultados �nanceiros e suas vantagens competitivas (PIERSON, 2019). LIVRO Estatística Autora: Fernanda Cesar Bona�ni Editora: Pearson Ano: 2016 Comentário: a leitura da unidade 2, “Probabilidade e distribuições de probabilidade”, permite compreender os conceitos de probabilidade normal e os tipos de erros associados. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 11/16 A análise preditiva era executada por matemáticos e estatísticos, devido à sua especi�cidade e complexidade. Entretanto, com o advento de ferramentas tecnológicas fáceis de usar e intuitivas, a análise preditiva começou a ser utilizada também por analistas de negócio. Algoritmos de Classi�cação O objetivo dos algoritmos de classi�cação é bastante simples: você prevê a classe de destino, analisando o conjunto de dados de treinamento. Esse é um dos conceitos mais importantes – se não o mais essencial – que você estuda quando aprende ciência de dados e inteligência analítica. Os principais algoritmos de classi�cação são: árvore de decisão, k-vizinhos, Naive Bayes e classi�cador one-ruler. LIVRO Big Data Autores: CEZAR TAURION Editora: Brasport Ano: 2013 Comentário: Na página 95 temos a exempli�cação de como as grandes empresas de tecnologias utilizam determinadas ferramentas e arquiteturas para realizar a predição de grande volume de dados. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 12/16 LIVRO Big Data Autores: CEZAR TAURION Editora: Brasport Ano: 2013 Comentário: Na página 114 temos o modelo de construção de aplicações para processamento de dados onde a arquitetura evolui de modo que se possa tanto acomodar a quantidade, natureza dos dados, como a distribuição da carga de trabalho associada aos so�sticados algoritmos necessários para a análise e classi�cação destes dados. Onde encontrar? Biblioteca Virtual da Laureate. LIVRO Big Data Autores: CEZAR TAURION Editora: Brasport Ano: 2013 Comentário: A leitura da página 100 evidencia os modelos de dados estruturados que utilizam tecnologia para processamento massivo de dados com paralelismo ou stream computing. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 13/16 Regras de Associação O aprendizado por regras de associação é um método de aprendizado de máquina baseado em regras para descobrir relações interessantes entre variáveis em grandes bancos de dados. Ele identi�ca associações se-então frequentes nas regras de associação, que consistem em um antecedente (se) e um consequente (então) (REZENDE, 2015). Por exemplo: “Se chá e leite e açúcar” (“Se chá e leite forem comprados, o açúcar também será comprado pelo cliente”). Antecedente: chá e leite. Consequente: açúcar. LIVRO Big Data Autores: CEZAR TAURION Editora: Brasport Ano: 2013 Comentário: Na página 57 é demonstrado um exemplo de técnica de mineração de dados para fazer correlações. Esta análise demonstra dezenas de combinações, pois é montada a partir de um grande volume de dados para que seja possível identi�car os relacionamentos que passariam despercebidos em pequena escala. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 14/16 Segundo Rezende (2015, p.105) na regra de associação “não existe uma de�nição explícita de classe e qualquer atributo (ou atributos) pode ser usado como parte da conclusão da regra”. O exemplo do chá e leite apresentado anteriormente também pode ser utilizado para exempli�car esta citação. Outro exemplo: “Se SIM e Masculino e serviço militar” (“Se SIM para maior de idade e do sexo masculino, a pessoa irá para o serviço militar”). Antecedente: SIM e Masculino. Consequente: serviço militar. Detecção de Anomalias Diversos autores chamam anomalias por outras designações, tais como anormalidades, contaminantes, desviantes, exceções, novidades, etc. Todos esses termos fazem referência a outliers. De acordo com Hawkins (1980, p. 1) uma anomalia ou outliers pode ser de�nida como “uma observação que desvia tanto das outras observações que levanta suspeita de que foi gerada por um mecanismo diferenciado”. Métodos Paramétricos e Não Paramétricos LIVRO Big Data Autores: Douglas Eduardo Basso Editora: Contentus Ano: 2020 Comentário: A leitura da página 46 traz um conteúdo complementar à leitura anterior, explicando os conceitos de preparação de dados para classi�cação. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 15/16 Existem algumas divisões de tópicos nas estatísticas. Uma divisão que vem à mente rapidamente é a diferenciação entre estatística descritiva e inferencial. Existem outras maneiras de separar a disciplina da estatística. Uma dessas maneiras é classi�car os métodos estatísticos como paramétricos ou não paramétricos. Na leitura sugerida a seguir, vamos descobrir qual a diferença entre métodos paramétricos e métodos não paramétricos. A maneira como faremos isso é comparar diferentes instâncias desses tipos de métodos. Conclusão A partir do nosso roteiro de estudos, pudemos trabalhar os principais assuntos relacionados à mineração de dados, que é um dos fundamentos da inteligência analítica. Vimos que a mineração de dados é um tema amplo e possui diversos métodos, por exemplo, a classi�cação e agrupamento. A título de recordação, vimos que a classi�cação e o agrupamento são os métodos usados para analisar os conjuntos de dados e dividi-los com base em algumas regras LIVRO Big Data Autores: Douglas Eduardo Basso Editora: Contentus Ano: 2020 Comentário: A leitura do capítulo 3 traz um conteúdo complementar à leitura anterior, explicando as boas práticas de uso de mineração de dados e big data para a preparação de dados para classi�cação. Onde encontrar? Biblioteca Virtual da Laureate. 12/05/2021 Roteiro de Estudos https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 16/16 de classi�cação especí�cas ou na associação entre objetos. A classi�cação categoriza os dados com a ajuda dos dados de treinamento fornecidos. Por outro lado, o agrupamento usa diferentes medidas de similaridade para categorizar os dados. Referências Bibliográ�cas AMARAL, F. Aprenda mineração de dados: teoria e prática. AltaBooks, 2016. AMARAL, F. Introdução à Ciência de Dados. Saraiva, 2016. BONAFINI, F. C. Estatística. São Paulo: Pearson, 2016. BRAGA, L. Introdução à mineração de dados. 2ª Edição. Rio de Janeiro: e-papers. 2005. BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. Rio de Janeiro: Alta Books. 2019. CASTRO, L.; FERRARI, D. Introdução à Mineração de Dados: conceitos básicos, algoritmos e aplicações. Saraiva, 2016. HAWKINS, D. Identi�cation of outliers. Dordrecht: Springer, 1980. MEDEIROS, L. F. de. Inteligência arti�cial aplicada: uma abordagem introdutória. Curitiba: Intersaberes, 2018. PIERSON, L. Data Science. 2. ed. Rio de Janeiro: Alta Books. 2019. REZENDE, S. Sistemas inteligentes. Barueri: Manoele, 2015. SANTOS, M; RAMOS, I. Business Intelligence: tecnologias da informação na gestão do conhecimento. São Paulo: FCA, 2016. SILVA, L.; PERES, S.; BOSCARIOLI, C. Introdução à Mineração de Dados: com aplicações em R. Elsevier, 2016. SILVESTRE, A. Análise de dados e estatística descritiva. [S. l.]: Escolar Editora. 2007. STEIN, C.; DRYSDALE, R. L.; BOGART, K. Matemática discreta para ciência da computação. São Paulo: Pearson, 2013.
Compartilhar