Baixe o app para aproveitar ainda mais
Prévia do material em texto
22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 1/33 MINERAÇÃO DE DADOSMINERAÇÃO DE DADOS MINERAÇÃO DE DADOS, SUASMINERAÇÃO DE DADOS, SUAS ABORDAGENS E FASESABORDAGENS E FASES Autor: Esp. Wesley Soares de Souza Revisor : Bruno Roberto Nepomuceno Matheus I N I C I A R 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 2/33 introdução Introdução Nos dias de hoje, di�cilmente uma empresa não possui seus dados armazenados digitalmente. A tecnologia tem-se mostrado cada vez ais presente e com um custo muito baixo, comparado a anos anteriores. Isso faz com que um amontoado de informações, que antes �cavam restritas a salas de arquivos, hoje se restrinjam a servidores. Esse volume desmedido de dados desconexos tem ganhado notoriedade na mídia e organizações, por vezes, trazendo fascínio e descon�ança (DAVENPORT, 2012) em pessoas que se envolvem diretamente com a gestão de informação. O homem não consegue chegar a resultados satisfatórios, em tempo hábil, sem a ajuda de ferramentas computacionais adequadas. Dessa forma, técnicas como a Mineração de Dados (Data Mining) fazem parte de uma das etapas da descoberta do conhecimento em Base de Dados (KDD). Nesta unidade, vamos compreender a mineração de dados e como podemos utilizar nos negócios. Segundo Thuraisingham (1999), a mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente, desconhecidas. Bons estudos! 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 3/33 O que é a mineração de dados? Em um primeiro momento, em nossa mente vem a ideia de um minerador de pedras preciosas em busca de ouro, diamante ou outros minérios raros. Na verdade, essa analogia não foge muito do conceito que iremos trabalhar. Quando falamos sobre o extenso volume de dados, por meio de determinadas ferramentas e técnicas, buscamos revelar estruturas que possam guiar nossas decisões dentro de uma organização. Nesse sentido, objetivou-se essa disciplina, agilizar o processo de decisão dentro da organização. Dados em grande escala não são sinônimos de tomada de decisão correta. Segundo Silveira, Marcolin e Freitas (2015), um fenômeno de destaque é o crescente aumento de fontes de informações exógenas às empresas, captadas por redes sociais, sensores em diversos produtos ou registros de tráfego de internet, entre outros, muitas vezes, caracterizado pela expressão Big Data. O termo surgiu em meados de 2010, segundo Chen e Zhang (2014), para designar a tendência tecnológica de gerar grandes quantidades de dados, de diferentes origens e formatos. Apresentação da Disciplina,Apresentação da Disciplina, De�nição de Mineração de DadosDe�nição de Mineração de Dados 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 4/33 Podemos classi�car os dados em três categorias, considerando sua origem. Segundo Galdino (2016, p. 3), “dados estruturados são pertencentes a um SGBD relacional bem organizado [...], dados semiestruturados, que são irregulares ou incompletos não necessariamente de acordo com um esquema padronizado.” O desa�o está nos dados não estruturados ou semiestruturados, pois eles são de difícil entendimento pelas pessoas, ou seja, só podem ser interpretados de forma e�ciente por máquinas. A intenção é conseguir analisar os dados independente da classi�cação e transformá-los em informações compreensíveis que tragam valor para a organização. Em meio a esse dinamismo tecnológico em que nos deparamos nos dias de hoje, o problema não é mais o armazenamento desses dados, mas a manipulação de algoritmos inteligentes que nada mais são do que sequências de instruções que nos levam a uma conclusão sobre qual ação devemos realizar. A cada dia surgem novas ferramentas, trazendo um ganho signi�cativo no desempenho do tratamento de dados, especialmente, se tratando do volume e tempo de processamento das informações (GOLDMAN et al., 2012). Esse volume de informações mostra a necessidade de fazê-las útil para que possa auxiliar as empresas e organizações na tomada de decisão, gerando 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 5/33 resultados positivos ao negócio. Para que isso ocorra, é necessário que esses dados sejam catalogados e organizados de forma que possamos transformar os dados gerados em conteúdos gerem valor. Segundo Laudon e Laudon (2011), um dos motivos para as empresas investirem em sistemas e tecnologias da informação está no fato de que eles se tornaram imprescindíveis à prática dos negócios. Observando o ambiente atual, chegamos a alguns empasses, como: “É possível trabalhar com todos esses dados?” e “Como estudar e compreender de maneira e�ciente todo esse volume de informações disponíveis em benefício das instituições?” Para atender a este novo contexto, surgiu uma nova área denominada Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases – KDD), que vem despertando grande interesse junto às comunidades cientí�ca e industrial (GOLDSCHMIDT; PASSOS, 2005). Para termos uma compreensão ampla do assunto, precisamos separar hierarquicamente conhecimento, informação e dados, conforme Figura 1.1. Segundo Rezende (2015), dados são registros soltos, aleatórios, sem qualquer análise. Conforme a Figura 1.1, podemos ver que os dados constituem a base para a formação do conhecimento. A informação é gerada a partir da organização desses dados, assim, disponíveis à assimilação crítica para a produção do conhecimento. Por �m, o conhecimento é a informação organizada e transformada em experiência, ou seja, resultados positivos ou 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 6/33 negativos que irão facilitar a tomada de decisão. Nesse contexto, compreendemos que os dados em conjunto formam informações coerentes de fatos, situações e movimentações, gerando o conhecimento a partir da junção dessas informações, daquilo que foi positivo ou negativa para a organização. A descoberta de conhecimento em Base de Dados (KDD) foi formalizado em 1989, e em 1996 um grupo de pesquisadores a de�niu de forma popular (FAYYAD et al., 1996). Essa base consiste em algumas etapas operacionais que são representadas pela Figura 1.2. Re�itareflita O Big Data vem com a ideia de um grande volume de dados descoordenados e sem uma estrutura prede�nida. Nesse sentido, poucas empresas utilizam esses dados na tomada de decisão a nível comercial, como você acha que poderia ser o comportamento das empresas, caso houvesse uma ferramenta que classi�casse os itens da web de forma que pudéssemos inseri-los na mineração de dados, como seria a tomada de decisão? Faria alguma diferença? Fonte: Elaborado pelo autor. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 7/33 O pré-processamento é a captação dos dados que serão utilizados no processo, captados, tratados e organizados para serem utilizados nos algoritmos de mineração de dados. Durante a mineração de dados, as informações são efetivamente transformadas em conhecimento que serão utilizados no contexto abordado. Já no pós-processamento é realizado o tratamento do conhecimento. Essa etapa nem sempre é utilizada, seu objetivo principal consiste em organizar a utilidade de todo o conhecimento adquirido na mineração de dados. O KDD é composto por várias etapas que são de�nidas como não triviais, interativas e iterativas. A etapa de�nida como não trivial consiste em um alerta ao nível de complexidade presenteno processo, determinando o grau de relevância do contexto em que os dados se encontram. No iterativo sugere a possibilidade de repetições integrais ou parciais do processo, buscando dados satisfatórios pelo re�namento ocasionado na repetição da ação. O interativo considera a atuação do homem como necessária e responsável por controlar o processo durante a execução. Essas etapas permitem a identi�cação de alguns padrões que são compreensíveis, válidos, novos e potencialmente úteis, vindas de uma base de dados de grande volume. O conhecimento é gerado por meio de modelos que devem ser considerados a organização como compreensível e de possível interpretação pelo homem. A expressão pode ser válida quando o conhecimento é considerado adequado ao contexto da aplicação de KDD, o padrão é considerado novo 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 8/33 quando apresenta novos conhecimentos que podem ser adicionados ao contexto da aplicação. E, por �m, o conhecimento é útil quando pode ser aplicado, proporcionando benefícios ao a descoberta de conhecimento na base de dados. Na próxima seção, colocaremos esse conhecimento em prática por um modelo que podemos utilizar a mineração de dados. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175_… 9/33 atividade Atividade Um fenômeno de destaque é o crescente aumento de fontes de informações exógenas às empresas, captadas por redes sociais, sensores em diversos produtos ou registros de tráfego de internet, entre outros, muitas vezes, caracterizado pela expressão Big Data (SILVEIRA et al., 2015). Considerando as etapas operacionais de KDD, assinale a alternativa correta. a) O KDD consiste em 3 etapas, pré-processamento, mineração de dados e pós-processamento. b) O pós-processamento é a etapa responsável pelo tratamento do conhecimento adquirido no processo. c) A mineração de dados é a etapa responsável pela catalogação dos dados, realizando a preparação deles. d) O pré-processamento é responsável por preparar a informação que se tornará conhecimento. e) O conhecimento é gerado pelos algoritmos, que possibilitará a tomada de decisão final. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 10/33 Para �ns ilustrativos, vamos considerar um restaurante, conforme demonstrado na Figura 1.3, em que cada ponto no plano cartesiano representa uma movimentação �nanceira durante o primeiro e segundo semestre do ano. O conjunto de pontos forma uma base de dados hipotética da movimentação referente ao ano anterior do ano de exercício atual. Para compreensão do problema e entendimento da importância da mineração de dados em uma empresa, foram utilizados apenas três fatores de referência: período, saldo �nanceiro e movimentações realizadas. O período foi dividido em 1º e 2º semestre, assim como o saldo formam os eixos do plano cartesiano. A movimentação da empresa está dividido em duas classes: X = gastos (despesas) e O = vendas (receitas). Exemplos de Aplicações deExemplos de Aplicações de Mineração de DadosMineração de Dados 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 11/33 De forma geral nosso problema envolve n elementos que estão sendo representados em um espaço n-dimensional. Neste modelo, é importante para a empresa distribuir suas receitas e despesas de forma uniforme para que o saldo se mantenha positivo durante o ano. Há várias formas de separar as despesas durante o ano, considerando que é possível planejar seus vencimentos de forma oposta as receitas que são aleatórias ao período, sendo necessário a criação de ações que possam estimular seu crescimento. A intenção é organizar as despesas para o próximo ano com base nos dados apresentados em períodos anteriores e, com isso, podemos gerar uma regra referente ao tempo. Podemos observar que as receitas são maiores no segundo semestre, portanto, podemos de�nir que: SE (receita > despesa) ENTÃO PERÍODO = distribuir despesa SENÃO PERÍODO = criar métodos para gerar receita A intenção é de se de�nir uma regra que seja compreensível pelo homem e possa ser trabalhada de forma inteligível. Embora o ideal seja uma uniformidade entre receitas e despesas no período, e sempre que possível uma sobreposição de receitas, percebemos que na prática não foi o que aconteceu com o ano tomado como base para nosso estudo. Podemos observar que no 1º semestre do ano tivemos despesas acima das receitas 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 12/33 geradas, e no 2º semestre ocorre o inverso, sendo as receitas muito acima das despesas. Para que possamos avaliar a regra adotada, precisamos veri�car o seu nível de con�ança ou precisão na apuração dos dados. Com isso, é possível notar a existência de casos que satisfazem a regra assim como sua negativa apurada na parte principal, não existem outros fatores que fujam dessas duas hipóteses. Então, podemos ressaltar que a nossa regra é linear obedecendo duas situações distintas, porém o problema em si não é linearmente separável em nosso diagrama, conforme demonstrado na Figura 1.4, ou seja, não podem ser separados por uma reta em duas regiões distintas e homogêneas. A descoberta de conhecimento efetuado nessa base de dados é multidisciplinar, nesse sentido, precisamos abordar conceitos que envolvem: Estatística �nanceira. Inteligência computacional. Reconhecimento de padrões uniformes de dados. Banco de dados. Com o propósito de melhor situar a área de KDD, a Figura 1.5 apresenta a taxonomia das atividades na área da Descoberta de Conhecimento em Base de Dados (GOLDSCHIMIDT; PASSOS, 2005). O qual aborda, principalmente, a diversidade de ações utilizadas pelo KDD. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 13/33 A estrutura das ações tomadas pelo KDD é dividida em três áreas, conforme demonstrado na Figura 1.5, que são o desenvolvimento tecnológico, execução, aplicação dos resultados, segundo Goldshmidt e Passos (2005). Veja no infográ�co a seguir as de�nições. Desenvolvimento Tecnológico Aplicação dos resultados Execução 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 14/33 De forma geral, podemos analisar que a fase de Descoberta Conhecimento em uma Base de Dados pode ser aplicada em qualquer ramo de atividade e que a única necessidade existente são dados históricos que podem se tornar a base para formação de uma estrutura que permita a mineração dos dados, permitindo uma tomada de decisão consciente. A seguir, analisaremos cada vez de forma mais técnica a abordagem realizada nesses dados. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 15/33 atividade Atividade O nível de precisão ou con�ança dos dados é de extrema importância para que possamos compreender a melhor forma possível de criarmos conhecimento. Por exemplo, em nosso restaurante vemos que os dados estão linearmente organizados, de forma que a movimentação gera uma receita ou uma despesa, porém, não é linearmente distribuída em nosso plano, sendo que no primeiro semestre é evidente a existência despesas bem acima das receitas. Assinale a alternativa correta. a) Para que a geração de conhecimento seja adequada é preciso que os dados estejam linearmente organizados e distribuídos. b) Os dados precisam ser de origem estruturada tabularmente, para que possam ser preparados para a mineração dos dados. c) A mineração de dados pode ocorrer independentedo ramo de atividade da empresa, desde que seja possível um levantamento de dados coerente para análise. d) Não é necessário se preocupar se houver desequilíbrio nos dados, pois eles serão equilibrados na fase de mineração de dados. e) Obrigatoriamente, os dados precisam estar linearmente estruturados, tendo os valores como verdadeiro ou falso para que a mineração dos dados possa seja possível. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 16/33 Conforme a primeira parte da unidade, o KDD se divide em três etapas que precisam se desenvolver para formação do conhecimento que, por sua vez, será importante na geração de um resultado consistente para a organização. De�nimos a fases de pré-processamento, mineração dos dados e pós- processamento que será tratado nos próximos tópicos, sendo que ele nem sempre é aplicado e envolve a análise do conhecimento gerado. Para uma melhor compreensão utilizaremos como exemplo o restaurante abordado no início da unidade. Pré-processamento Essa é a etapa mais importante a ser abordada, pois em todas as fases posteriores, o resultado �nal estão totalmente dependentes no tratamento dos dados realizado inicialmente. A descoberta do conhecimento por meio das bases de dados é o processo que precisa identi�car aquilo que não é trivial, que são padrões válidos a serem considerados e, potencialmente, úteis. Nessa etapa são de�nidas as perguntas e decisões que irão servir de guia. Nesse sentido, é importante manter o foco na estratégia utilizada, na Fases da Mineração de Dados eFases da Mineração de Dados e Desenvolvimento de Produtos deDesenvolvimento de Produtos de MineraçãoMineração 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 17/33 busca de determinado tipo de informação, assim como adaptação à realidade aplicada em cada grupo de usuários que analisará os resultados. Esta etapa também é conhecida como Preparação de Dados, e por envolver uma série de atividades até a sua �nalização, que envolve inclusive o estudo de processos, acaba se tornando a etapa que exige maior esforço dentro de um projeto de extração de conhecimento. (SHIBA, 2008, p. 36) Segundo Goldschmidt e Passos (2005), o problema encontrado no pré- processamento é caracterizado por três elementos: o conjunto de dados, o especialista do domínio da aplicação e objetivos da aplicação. O conjunto de dados, geralmente, não são originados de uma mesma base de dados, eles podem ser relacionados a diferentes áreas da empresa e até a �liais. Esses dados precisam ser reunidos e integrados para uma análise detalhada em uma estrutura tabular bidimensional. Nesse sentido, é importante destacar que o KDD não exige que os dados estejam reunidos em um Data Warehouse (veja essa expressão no item Saiba Mais). Porém, é essencial que os dados sejam reunidos em um ambiente desse tipo para facilitarem a catalogação. Utilizando os dados do restaurante, realizamos a estruturação em uma tabela modelo, conforme o Quadro 1.1 a seguir, que apresenta os dados relevantes captados no pré-processamento. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 18/33 Atributo Tipo de Dado Descrição do domínio Data_lancto Date Data de execução da movimentação Tipo Char(1) Tipo de conta R - Receita D - Despesa Origem Char(1) Origem da movimentação V - Venda à Vista P - Venda a prazo D - Despesa Valor Real Valor da movimentação Data_�nal Date Data vencimento da conta DD/MM/AAAA Pessoa_empresa Varchar(100) Nome da pessoa ou empresa envolvido na movimentação Plano_contas Char(1) Plano de contas envolvendo movimentação 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 19/33 Quadro 1.1 - Dados pré-processados estruturalmente Fonte: Elaborado pelo autor. Em conjunto com as informações geradas na estrutura do Quadro 1.1, a função gerada através dos dados selecionados em uma única estrutura tabular, recebem dois enfoques distintos: a seleção dos atributos, ou redução de dados verticais; e a seleção de registros, ou redução de dados horizontais. A redução de dados verticais consiste em uma análise mais ampla dos campos selecionados. Segundo Goldschmidt e Passos (2005), a redução de dados vertical, também denominada redução de dimensão, é implementada pela eliminação ou pela substituição dos atributos de um conjunto de dados. Dessa forma, a intenção é diminuir ao máximo os atributos sem perder a informação original. A redução de dados horizontais abrange o conjunto de dados coletados para geração da informação. Para isso, podemos fazer uma abordagem em um conjunto de dados aleatórios de um determinado período de amostragem, segmentação e agregação de informações no banco de dados. A eliminação de determinados casos para enxugar e permanecer mais focado na informação que precisa ser gerada. C - Venda consumidor �nal F - Gasto fornecedor D - Despesas diversas U - custo funcionários 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 20/33 Os especialistas no domínio da aplicação são formados por pessoas ou grupos que dominam o assunto e conhecem o ambiente em que o KDD fará a transformação dos dados em conhecimento. As informações geradas por essas pessoas são fundamentais no processo de avaliação dos resultados obtidos e na informação formada pela estruturação dos dados. Os objetivos da aplicação são as características esperadas no modelo de conhecimento gerado no �nal do processo. De forma geral, é um espelho do lugar que esperamos chegar ao �nal do KDD, a precisão mínima que a base de conhecimento gerada precisa ter. No exemplo do restaurante, podemos de�nir que as despesas não podem comprometer mais de 30% do saldo existente em caixa, isso é a previsão mínima adotada na hora de distribuir as despesas da empresa de forma aceitável. Para traçar esse tipo de objetivo, esperamos a posição dos especialistas no assunto abordado, porém eles não são absolutos do início ao �m do processo. Os objetivos podem ser re�nados ao longo do processo, podem ser um ou N objetivos. Mineração dos Dados Devemos analisar os recursos envolvidos no processo de mineração dos dados. Temos o especialista em KDD, ou seja, técnico no assunto e não saiba mais Saiba mais O que é Data Warehouse? Data Warehouse é a referência que fazemos a um depósito de dados orientado por assunto, integrado e relacionado ao tempo de forma não volátil. Sua principal função está em auxiliar o apoio à decisão gerencial. Fonte: Elaborado pelo autor. ACESSAR https://www.cetax.com.br/data-warehouse/ 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 21/33 especialista na área do problema. Sua obrigação no processo consiste em identi�car os problemas apontados e o conhecimento prévio para sua análise, validando quais ações devem ser tomadas e quais ferramentas serão melhores empregadas no processo, assim como validar os resultados obtidos. Nessa etapa, devem ser aplicados os algoritmos da mineração dos dados, que tem como função gerar modelos de conhecimento que dependem diretamente dos algoritmos de mineração que serão utilizados. Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é determinada pelo conjunto de dados utilizados para a avaliação. Na Figura 1.6, podemos observar a gestão �nanceira do restaurante, contendo no plano cartesiano os eixos que consistem no tempo e no saldo, cada ponto representa uma movimentação �nanceira. Entretanto, é necessário que os processos guiados pelo KDD gerem tarefas que levarão os especialistas do domínio da aplicação a criarem o modelo de conhecimentoque podem trazer diferentes tipos de padrões a serem analisados. Considere que o restaurante deseja fazer uma expansão e, para isso, terá um aumento de 10% nos gastos. Ele quer aplicar uma melhor estratégia para que os lucros acompanhem esse aumento e o saldo ainda consiga se manter positivo. Essa intenção nos leva a classi�cação das movimentações �nanceiras que veremos nas unidades posteriores. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 22/33 atividade Atividade Os dados coletados precisam ser distribuídos em uma estrutura de dados tabular e organizados de forma �nita, para que possa facilitar a geração de informações na base de conhecimento. Levando em consideração essa informação, assinale a alternativa correta. a) Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é determinada pelo conjunto de dados utilizados para a avaliação. b) Para a geração do modelo de conhecimento, inicialmente, não é necessária a utilização de algoritmos de mineração de dados. c) O especialista em KDD é necessário desde a fase de preparação dos dados até a mineração de dados, acompanhando o especialista na área. d) O especialista da área é desnecessário a partir da fase de mineração de dados, sendo importante somente após a mineração de dados ter ocorrido para avaliação dos resultados. e) O KDD exige que os dados estejam reunidos em um Data Warehouse. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 23/33 Essa é a fase do pós-processamento, em que o modelo de conhecimento é analisado e interpretado pelo especialista em KDD e o especialista do problema. Vamos analisar algumas operações importantes para a de�nição de regras e aprendizado por meio de redes neurais e algoritmos genéticos. Modelo de Conhecimento Simpli�icado Muitas vezes, o modelo de conhecimento gerado na mineração de dados, devido ao volume de informações que acarreta, pode se tornar complexo para um direcionamento pelos especialistas. Com isso, é necessária uma simpli�cação do conhecimento para uma melhor análise. Para melhor compreendermos, vamos analisar a seguinte regra X -> Y, onde as condições são lógicas. Para isso, temos como regras: Precisão da regra: é de�nida pelo percentual de registros que satisfazem ao antecedente e posteriormente ao consequente à regra. Abordagens de Mineração deAbordagens de Mineração de Dados - De�nição de Regras ouDados - De�nição de Regras ou AprendizagemAprendizagem 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 24/33 Abrangência da regra: é de�nida pelo percentual que satisfaz ao consequente e posteriormente ao antecedente à regra. O especialista de KDD deve estabelecer limites de precisão e abrangência, de forma que ao enxugar do modelo de conhecimento gerado, eliminando todas as regras que não satisfaçam os limites estabelecidos. Regras de Associação É a junção de objetos que tenham características e tendências semelhantes, gerando redes interconectadas de conhecimento adquirido. Segundo Côrtez et al. (2002), o banco de dados é visto como uma coleção de transação, cada uma envolvendo um conjunto de itens. Utilizando esse modelo simpli�camos a geração de conhecimento para o auxílio na tomada de decisão. Redes Neurais Consiste na aplicação digital das redes biológicas de neurônios, ou seja, utilizam a mesma regra. Denominados como RN (redes neurais), implementam detecções so�sticadas de padrões e algoritmos de aprendizado de máquina, para auxiliar a compreensão de grandes bases de dados. Uma rede neural é um processador maciçamente paralelamente distribuído constituído de unidades de processamento simples, que têm a propensão natural para armazenar conhecimento experimental e torná-lo disponível para uso. Assemelhando-se ao cérebro humano. (HAYKIN, 2001, p. 28) O conhecimento é assimilado pela rede a partir da formação do conhecimento, de forma a compreender esse conteúdo como aprendizado. E as conexões geradas por meio dos pesos sinápticos adquiridos, armazena o conhecimento. A Figura 1.7 mostra o modelo hipotético de uma rede neural e suas camadas intermediárias, que demonstram o nível de conhecimento adquirido. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 25/33 Algoritmos Genéticos Algoritmos genéticos são formados por algoritmos baseados na seleção natural e genética para otimização na busca por resultados que auxiliem a tomada de decisão de uma organização. Geralmente, considerando que uma busca ocorre de forma sequencial até conseguir alcançar o resultado esperado. Os algoritmos genéticos realizam a busca de possíveis soluções de forma simultânea em N bases de informação. Segundo Côrtez, Porcaro e Lifschitz (2002), algoritmos genéticos são aplicados com sucesso em campos diversi�cados como análise de imagens, escalonamento e projetos de engenharia. Sua principal função é resolver os problemas, assim como agrupá-los. Sua capacidade de trabalhar de forma paralela tem sido uma arma fantástica na mineração de dados, entretanto, isso exige uma demanda computacional considerável em sua utilização. Atualmente, várias outras técnicas estão à disposição da mineração de dados, como a lógica fuzzy, classi�cação bayesiana, entre outras que tem seu emprego conforme a necessidade da organização. Portanto, cabe a análise da situação de forma especí�ca para compreender qual melhor técnica para a ocasião. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 26/33 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 27/33 atividade Atividade Para que a mineração de dados seja mais efetiva com o passar do tempo, seu funcionamento é de extrema importância, o sistema utiliza o aprendizado por experiência, baseado no modelo de experiência gerado. Considerando essa a�rmação, assinale a alternativa correta. a) O aprendizado de máquina pode ser gerado utilizando algoritmos envolvidos em redes neurais ou algoritmos genéticos. b) Redes neurais se baseiam na linha evolutiva para formação dos algoritmos de aprendizado de máquina. c) Algoritmos genéticos se baseiam na estrutura de evolução da rede biológica neurológica. d) Algoritmos genéticos trabalham para facilitar o aprendizado de máquina, porém diferente das redes neurais não conseguem realizar buscas de forma paralela. e) A principal função dos algoritmos genéticos é resolver os problemas paralelamente de forma ágil, independente do volume de informações. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 28/33 indicações Material Complementar LIVRO Big Data: O futuro dos dados e aplicações Editora: Saraiva Autor: Felipe Nery Rodrigues Machado ISBN: 978-8536527000 Comentário: Este livro apresenta os principais fundamentos de Big Data, seu histórico e sua utilização. Explica as diferenças existentes entre ele e Business Intelligence (BI), e ainda, o que é Big Data Analytics e Análise Preditiva. 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 29/33 FILME The beauty of data visualization - David McCandless Ano: 2012 Comentário: David McCandless transforma conjuntos de dados complexos, como gastos militares em todo o mundo, novidades da mídia e atualizações de status do Facebook, em belos e simples diagramas que provocam padrões e conexões invisíveis. Ele sugere que um bom design é a melhor maneira de navegar pelo excesso de informações, e pode mudar a maneira como vemos o mundo. TR A I L E R 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 30/33 conclusão Conclusão Nesta unidade, vimos que não existe uma forma especí�ca de aplicação do conhecimento adquirido ao longo da unidade, não possui uma de�nição exata, muito menos qual seria a melhor técnica de mineração de dados ou descoberta de conhecimento a ser utilizada. Nesse sentido, podemos utilizar de árvores, regras, tabelas estruturadas ou semiestruturadas, cubos de dados, entre outros elementos possíveis. O que precisamos entender é qual o resultado esperado? Quais dados temos em mão e qual a maneira que eles se encontram distribuídos? Dessa maneira, conseguimos identi�car a técnica utilizada e quais algoritmos melhor se aplicam para alcançarmos os resultados esperados. referências Referências Bibliográ�cas CÔRTEZ, S. C.; PORCARO, R. M.; LIFSCHITZ, S. Mineração de dados: funcionalidades, técnicas e abordagens. PUC Rio Inf., 2002. COMSTOR, C. Fatos interessantes sobre o Big Data. Canal do Comstor, 2019. Disponível em: https://blogbrasil.comstor.com/fatos-interessantes-sobre-o- big-data. Acesso em: 6 dez. 2019. https://blogbrasil.comstor.com/fatos-interessantes-sobre-o-big-data 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 31/33 CHEN, C. P.; ZHANG, C. Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences, v. 275, p. 314- 347, 10 ago. 2014. DAVENPORT, T. H.; BARTH, P.; BEAN, R. How “big data” is di�erent. MIT: Sloan Management Review. MIT Sloan Management Review, v. 54, n. 1, 2012. FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: an overview. Menlo Park: AAAI Press, 1996. GALDINO, N. Big Data: Ferramentas e Aplicabilidade. In: SIMPÓSIO DE EXCELÊNCIA EM GESTÃO E TECNOLOGIA. 2016. Disponível em: https://www.aedb.br/seget/arquivos/artigos16/472427.pdf. Acesso em: 10 dez. 2019. GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. São Paulo: Elsevier Editora Ltda., 2005. GOLDMAN, A.; KON, F.; JUNIOR, F. P.; POLATO, I.; DE FÁTIMA PEREIRA, R. Apache Hadoop: Conceitos teóricos e práticos, evolução e novas possibilidades. In: JORNADAS DE ATUALIZAÇÕES E INFORMÁTICA, 31., 2012. Anais… Maceió: SBC, 2012. Disponível em: https://bit.ly/39aMzW3. Acesso em: 1 dez. 2019. HAYKIN, S. Redes Neurais: princípios e prática. 2. ed. Porto Alegre: Editora Bookman, 2001. REZENDE, E. Dados, informação e conhecimento. O que são? ER Consultoria, 2015. Disponível em: http://eliana-rezende.com.br/dados-informacao-e- conhecimento-o-que-sao/. Acesso em: 6 dez. 2019. SHIBA, S. K.; Modelagem de processo de extração de conhecimento em banco de dados para sistemas de suporte à decisão. Dissertação (Mestrado) - Escola Politécnica da Universidade de São Paulo. São Paulo. 2008. Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3142/tde- 02102008-173336/pt-br.php. Acesso em: 21 jan. 2020. https://www.aedb.br/seget/arquivos/artigos16/472427.pdf http://www2.sbc.org.br/csbc2012/anais_csbc/eventos/jai/artigos/JAI%20-%20Cap%203%20Apache%20Hadoop%20conceitos%20teoricos%20e%20praticos,%20evolucao%20e%20novas%20possibilidades.pdf http://eliana-rezende.com.br/dados-informacao-e-conhecimento-o-que-sao/ https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02102008-173336/pt-br.php 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 32/33 SILVEIRA, M.; MARCOLIN, C. B.; FREITAS, H. M. R. Big Data e seu uso corporativo: Uma revisão literária. In: SIMPÓSIO INTERNACIONAL DE GESTÃO DE PROJETOS, INOVAÇÃO E SUSTENTABILIDADE, 4., 2015. Anais… São Paulo: SIGEP, 2015. Disponível em: https://singep.org.br/4singep/resultado/245.pdf. Acesso em: 25 nov. 2019. LAUDON, K.; LAUDON, J. Sistemas de informações gerenciais. 9. ed. São Paulo: Pearson Education do Brasil, 2011. THURAISINGHAM, B. Data Mining: technologies, techniques, tools and trends. Washington: CRCPress, 1999. https://singep.org.br/4singep/resultado/245.pdf 22/04/2021 Ead.br https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_667175… 33/33
Compartilhar