Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE DE INFORMAÇÕES Sefaz-df Mineração de dados http://www.grancursosonline.com.br 2 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br SUMÁRIO Introdução ................................................................................................3 1. Noções de Mineração de Dados: Conceituação e Características ....................4 2. Modelo de Referência Crisp-DM .................................................................6 3. Técnicas para Pré-processamento de Dados ...............................................9 4. Técnicas e Tarefas de Mineração de Dados ...............................................15 5. Classificação ........................................................................................18 6. Regras de Associação ............................................................................19 7. Análise de Agrupamentos (Clusterização) .................................................20 8. Detecção de Anomalias ..........................................................................20 9. Modelagem Preditiva .............................................................................21 10. Aprendizado de Máquina ......................................................................23 11. Mineração de Texto .............................................................................24 Resumo ...................................................................................................30 Questões de Concurso ...............................................................................32 Gabarito ..................................................................................................42 Gabarito Comentado .................................................................................43 O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 3 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Introdução Conforme falamos anteriormente, o volume de dados não estruturados é imen- samente maior, se comparado ao de dados estruturados. Para se ter uma ideia, estudos dizem que o conteúdo digital dobra a cada dois anos no mundo. Sendo assim, o que devemos fazer para conseguir obter conhecimento desse volume imenso de dados? Afinal, isso não é tarefa trivial, pois o tratamento de dados não estruturados é imensamente mais complexo. Técnicas tradicionais não resolvem o problema. Para extrair conhecimento desse volume de dados é preciso fazer correlações, identificar padrões e descobrir tendências entre eles. Pensando nisso, foi proposta a Mineração de Dados (Data Mining, em inglês). Mas no que consiste o Data Mining? O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 4 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br 1. NOÇÕES DE MINERAÇÃO DE DADOS: CONCEITUAÇÃO E CARAC- TERÍSTICAS Alguns tratam como novidade, mas, na verdade, é um conjunto de tecnologias relativamente antigo, proposto lá pelo fim dos anos 80. Continua evoluindo até hoje, principalmente pela sua estreita relação com o Big Data (que será detalhada- mente abordado no próximo capítulo). A mineração de dados consiste no uso de tecnologias e técnicas que permitem explorar grandes volumes de dados (geralmente referentes a negócios, pesquisas científicas ou análises de mercados), procurando por padrões e tendências, utili- zando análises complexas. Ela utiliza algoritmos sofisticados para segmentar os dados e avaliar a probabilidade de ocorrência de determinados eventos. Ou seja, utilizando estatística, inteligência artificial e aprendizado de máquina, temos infini- tas possibilidades para o conhecimento extraído dessa massa de dados. A mineração de dados deve ser adotada para tornar mais eficiente o apoio à tomada de decisão. Os resultados das análises realizadas pelos processos de mi- neração agregam valor a decisões estratégicas, uma vez que permitem detectar antecipadamente tendências, problemas, anomalias, enfim, vários itens que não puderam ser detectados por um ser humano. Desse modo, as ferramentas de mi- neração analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, definindo um padrão de comportamento. Com base nesse resultado, aquele que for usufruir dessa análise precisará se preocupar apenas em como utilizá-lo da melhor forma possível, pois o trabalho de garimpar os dados já foi realizado pela ferramenta de mineração de dados. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 5 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br A ideia da mineração de dados é: em vez do usuário definir o problema, sele- cionar os dados e as ferramentas para analisar tais dados, o processo de minera- ção pesquisa automaticamente os mesmos a procura de anomalias e possíveis re- lacionamentos, identificando, assim, problemas que não tinham sido identificados pelo usuário. Suas principais propriedades são: • detecção automática de padrões; • predição de eventos; • geração de informação para ações práticas; • foco em grandes conjuntos e bancos de dados. Para se ter uma ideia da abrangência da aplicabilidade da mineração de dados, veja alguns exemplos em que ela pode ser utilizada nos mais diversos campos de atuação: • seguros: seguradoras podem resolver problemas complexos relativos à frau- de, conformidade, gerenciamento de riscos e atrito com os clientes, prevenir cancelamentos. • educação: através da análise dos dados da evolução dos alunos, educadores podem montar planos de aula mais assertivos para o melhor desenvolvimento da turma; • serviços financeiros: ajudar bancos a obter uma melhor visão dos riscos de mercado, detectar fraudes mais rápido, gerenciar obrigações de conformida- de regulatória e identificar padrões para auxiliar no gerenciamento de rela- cionamento com o cliente; • Governo: dispondo dos dados corretos, o setor público pode tomar decisões mais rápidas nas áreas de segurança e saúde, reduzir fraudes na previdência e otimizar a gestão dos recursos públicos; O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 6 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • assistência médica: as seguradoras de saúde podem reduzir as reclamações de fraudes, integridades de pagamentos, os prestadores de serviços hospita- lares podem prover diagnósticos mais precisos aos pacientes e os pacientes podem receber cuidados mais acessíveis e seguros; • cartão de crédito: identificar segmentos de mercado, identificar padrões de rotatividade; • medicina: indicação de diagnósticos mais precisos; • recursos humanos:identificação de competências em currículos; • tomada de decisão: filtrar as informações relevantes, fornecer indicadores de probabilidade. O uso da Mineração de Dados permite, por exemplo, que: • um supermercado melhore a disposição de seus produtos nas prateleiras, através do padrão de consumo de seus clientes; • uma companhia de marketing direcione o envio de mensagens promocionais, obtendo melhores retornos; • uma empresa aérea possa diferenciar seus serviços oferecendo um atendi- mento personalizado; • empresas planejem melhor a logística de distribuição dos seus produtos, pre- vendo picos nas vendas; • agências de viagens possam aumentar o volume de vendas direcionando seus pacotes a clientes com aquele perfil. 2. MODELO DE REFERÊNCIA CRISP-DM CRISP-DM é a abreviação de CRoss Industry Standard Process for Data Mining, que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de Dados. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 7 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br É um modelo de processo de mineração de dados que descreve abordagens comu- mente usadas por especialistas em mineração de dados para atacar problemas. O padrão CRISP foi concebido por volta de 1996 e não se restringe a uma ferra- menta ou tecnologia específica. Sua origem se deve principalmente à necessidade da geração de modelos com foco na qualidade através da padronização de concei- tos e técnicas na busca de informações para a tomada de decisões. Foi proposta uma metodologia que pudesse auxiliar os administradores e res- ponsáveis pelos processos de planejar e executar a mineração de dados, engloban- do desde a especificação do processo até a apresentação dos resultados obtidos. O processo CRISP-DM consiste em seis fases, que são organizadas de maneira cíclica. Repare na figura abaixo que o fluxo entre as fases não possui sentido único. Podemos avançar ou voltar entre as fases, caso necessário. Figura 1: Fases do padrão CRISP-DM O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 8 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br As fases do CRISP-DM são: 1. Entendimento do negócio: trata-se dos objetivos do projeto e requerimen- tos para a perspectiva do negócio. Aqui, o foco é entender qual o objetivo que se deseja atingir com a mineração de dados. Essa fase é essencial para as seguintes. 2. Entendimento dos dados: nesta fase, podemos ter várias fontes de dados armazenadas em locais distintos e com formatos diferentes. De posse dos dados a serem analisados, devemos buscar compreendê-los e organizá-los. Com base no que foi levantado na fase anterior, devemos identificar os dados relevantes para que nossos objetivos sejam alcançados. 3. Preparação dos dados: obviamente, os dados não entregarão facilmen- te as informações que buscamos para cumprirmos nossos objetivos. Afinal, eles vêm de fontes e locais distintos, impossibilitando que a mineração de dados pos- sa ser realizada. Não existe uma sequência de tarefas, nem um limite para que elas sejam exe- cutadas. Dependendo da qualidade desses dados, um processo de limpeza pode ser necessário e, geralmente, envolve filtrar, combinar e preencher valores vazios. 4. Modelagem: é nesta fase que as técnicas (algoritmos) de mineração são aplicadas. Você pode aplicar uma ou mais técnicas, tudo depende do objetivo a ser alcançado. Aqui são criados modelos (equações ou outros modelos lógicos) que se pode usar para dar suporte às decisões de negócios. 5. Avaliação: seria a validação do que foi feito até o momento. Antes de fina- lizarmos nosso projeto, é importante revisar o que foi feito até aqui para garantir que os objetivos levantados sejam atingidos. É nessa fase que descobrimos se os modelos são bons o suficiente. Veja novamente a figura e repare que a etapa de avaliação pode retornar para a etapa de entendimento do negócio, caso necessá- rio. Um levantamento mal feito pode resultar em perda de tempo que poderia até inviabilizar o projeto. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 9 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Diversas ferramentas gráficas são utilizadas para a visualização e análise dos resultados (modelos). Testes e validações, visando obter a confiabilidade nos mo- delos, devem ser executados; e indicadores para auxiliar a análise dos resultados precisam ser obtidos. 6. Implantação: fase onde ocorre a integração do modelo no dia a dia da em- presa. O conhecimento adquirido pelo modelo é organizado e apresentado de uma maneira que o cliente possa utilizar. A fase de implantação pode ser simples como gerar um relatório ou uma implementação complexa de um processo de Data Mining que possa ser repetido. E, assim, finalizamos um ciclo do CRISP-DM, que pode ser executado novamen- te, caso necessário. As 6 fases do CRISP-DM Entendimento do negócio Entender qual o objetivo a ser atingido Entendimento dos dados Compreender e organizar os dados Preparação dos dados Limpar os dados Modelagem Aplicação das técnicas de mineração Avaliação Verificar se o que foi feito até agora está certo Implantação Hora de colocar o modelo em produção 3. TÉCNICAS PARA PRÉ-PROCESSAMENTO DE DADOS A mineração de dados é uma tecnologia que é composta, basicamente, por três áreas: estatística, inteligência artificial e aprendizado de máquina. O que se espera com a Mineração de Dados é obter conhecimento, na forma de regras ou de estruturas equivalentes, que oriente uma decisão. Além disso, quando aplicado O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 10 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br de modo inteligente, esse conhecimento nos permite, conforme veremos de for- ma mais detalhada a seguir, fazer previsões, descobrir novas associações, refinar agrupamentos efetuados por critério de semelhança ou certificar-se de anomalias de comportamento. A mineração de dados é parte de um processo maior, conhecido como KDD (Knowledge Discovery in Databases) – em português, Descoberta de Conhecimen- to em Bases de Dados. A definição de KDD dada por FAYYAD et al. (1996) resume bem do que se trata: processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados. O processo KDD é constituído de várias etapas, que são executadas de forma interativa e iterativa. São interativas porque envolvem a cooperação da pessoa res- ponsável pela análise de dados, cujo conhecimento sobre o domínio orientará a exe- cução do processo. Por sua vez, a iteraçãodeve-se ao fato de que, com frequência, esse processo não é executado de forma sequencial, mas envolve repetidas sele- ções de parâmetros e conjunto de dados; aplicações das técnicas de mineração de dados e posterior análise dos resultados obtidos, a fim de refinar os conhecimentos extraídos. É importante destacar que cada técnica de mineração de dados utilizada para conduzir as operações adapta-se melhor a alguns problemas do que a outros, o que impossibilita a existência de um método universalmente melhor. Para cada proble- ma particular, tem-se uma técnica particular. Os desenvolvedores projetam as bases de dados, descrevem problemas e definem objetivos, enquanto os computadores processam os dados e procuram padrões que coincidam com os objetivos estabelecidos. Isto faz da KDD um pro- cesso cooperativo. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 11 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br O processo de busca de conhecimento contém uma série de passos: seleção, pré-processamento e limpeza, transformação, mineração de dados e interpretação/ avaliação. Simplificando: pode-se dizer que o processo de KDD compreende, na verdade, todo o ciclo que o dado percorre até virar informação, conforme pode ser visto na figura abaixo: Figura 2: Fases da Descoberta de Conhecimento em Bases de Dados Embora esses passos devam ser executados na ordem apresentada, o processo é interativo, pois o usuário pode (e muitas vezes necessita) continuamente inter- vir e controlar o curso das atividades, e iterativo, por ser uma sequência finita de operações em que o resultado de cada uma é dependente dos resultados das que a precedem. Abaixo temos um resumo sobre as fases do KDD: Seleção A fase de seleção de dados é a primeira no processo de descobrimento de in- formação e possui impacto significativo sobre a qualidade do resultado final. Nessa fase é escolhido o conjunto de dados contendo todas as possíveis variáveis (tam- bém chamadas de características ou atributos) e registros (também chamados de casos ou observações) que farão parte da análise. Normalmente, essa escolha dos dados fica a critério de um especialista do domínio, ou seja, alguém que realmente entende do assunto em questão. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 12 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br O processo de seleção é bastante complexo, uma vez que os dados podem vir de uma série de fontes e podem possuir os mais diversos formatos. É comum ocor- rer a necessidade de se criar uma rotina específica para a carga dos dados, já que nem sempre as ferramentas de carga existentes conseguem dar conta das peculia- ridades de cada aplicação. Pré-processamento e Limpeza O Pré-processamento e limpeza dos dados é uma parte crucial no processo de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nessa etapa deverão ser realizadas tarefas que eliminem dados redun- dantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao conjunto. O auxílio de um especialista do domínio é fundamental, pois, na maioria dos casos, apenas alguém que realmente entende do assunto é capaz de dizer se um dado realmente não pertence ao conjunto ou se é apenas um erro de digitação. Nessa fase também são utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando, com isso, melho- rar o desempenho do algoritmo de análise. A identificação de dados inapropriados dentro do conjunto selecionado é pro- blemática, e isso dificulta a automatização dessa fase. Definir um dado como “ruim” dentro do conjunto depende da estrutura dele e também de que aplicação é dada a ele. Um problema bastante comum nessa fase é a existência de registros com dados incompletos, seja por falhas no processo de seleção ou de revisão. O tratamento desses casos é necessário para que os resultados do processo de mineração sejam confiáveis. Podemos usar as seguintes soluções para tratarmos a ausência de dados: O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 13 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • fazer a previsão dos dados ausentes e completá-los individualmente; • substituir o valor faltante pela média aritmética da variável; • excluir o registro inteiro. Devemos também ficar atentos a situações em que os dados possuem valores extremos, atípicos ou com características bastante distintas dos demais registros. Eles são chamados de discrepantes, ou outliers. Normalmente, registros que contêm valores outliers são descartados da amos- tra, porém, isso só deve ocorrer quando o dado outlier representar um erro de ob- servação, de medida ou algum outro problema similar. O dado deve ser cuidadosamente analisado antes da exclusão, pois, embora atípico, o valor pode representar um dado verdadeiro. Outliers podem representar, por exemplo, um comportamento não usual, uma tendência ou ainda transações fraudulentas. Transformação dos Dados A Transformação do Dados é a fase do KDD que antecede a fase de Data Mining. Após serem selecionados, limpos e pré-processados, os dados necessitam ser ar- mazenados e formatados adequadamente para que os algoritmos possam ser apli- cados. Em grandes corporações é comum encontrar computadores rodando diferentes sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados (SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó- rio único. Além disso, nessa fase, se necessário, é possível obter dados faltantes através da transformação ou combinação de outros, são os chamados “dados derivados”. Um exemplo de um dado que pode ser calculado a partir de outro é a idade de O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 14 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br um indivíduo, que pode ser encontrada a partir de sua data de nascimento. Outro exemplo é o valor total de um financiamento, que pode ser calculado a partir da multiplicação do número de parcelas pelo valor da parcela. Após serem selecionados, limpos e pré-processados os dados necessitam ser armazenados e formatados adequadamente para que os algoritmos de aprendizado possam ser aplicados. Em grandes corporações é comum encontrar computadores rodando diferentes sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados (SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó- rio único. Mineração de Dados Todas as etapas do processo são importantes para o sucesso dele. Entretanto,é a etapa de Mineração de Dados que recebe o maior destaque na literatura (e a que mais nos interessa, nesse caso). Interpretação e Avaliação Consiste no tratamento (visualização, análise e interpretação) do conhecimento minerado. De forma geral, nessa etapa é que o especialista do domínio de aplicação e o engenheiro do conhecimento analisam os resultados abstraídos. Essa é mais uma fase que deve ser feita em conjunto com um ou mais espe- cialistas no assunto. O conhecimento adquirido através da técnica de data mining deve ser interpretado e avaliado para que o objetivo final seja alcançado. Caso o resultado não seja satisfatório, o que não é raro, o processo pode retor- nar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado, confor- me pode ser observado na Figura 3. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 15 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Figura 3: Fases do KDD Duas das ações mais comuns, caso o resultado não seja satisfatório são: modifi- car o conjunto de dados inicial e/ou trocar o algoritmo de data mining (ou ao menos alterar suas configurações de entrada). Repare que tanto no modelo CRISP-DM quanto no KDD as fases iniciais são extre- mamente importantes. Um levantamento mal executado pode implicar em retraba- lho (visto que fases terão que ser refeitas), retrocesso (pois precisaremos voltar na fase que ocorreu o problema) e, no pior dos cenários, cancelamento do projeto de Data Mining, por inviabilidade, seja de prazo ou custo. 4. TÉCNICAS E TAREFAS DE MINERAÇÃO DE DADOS Antes de mais nada, devemos esclarecer: qual a diferença entre tarefa e técnica de mineração? O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 16 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Tarefas de mineração consistem na especificação do que estamos querendo buscar nos dados, que tipo de regularidades ou categoria de padrões temos inte- resse em encontrar, ou que tipo de padrões poderiam nos surpreender. Estão rela- cionadas às perguntas feitas na etapa de seleção dos dados, ou seja, nessa fase, a preocupação é relacionar as perguntas feitas com o que se tem em mãos e, assim, determinar, pela tarefa a ser realizada, que técnica usar. Algumas tarefas de mineração serão mais detalhadas a seguir, mas antes de- vemos esclarecer uma forma pela qual elas podem ser divididas: podem ser de aprendizado supervisionado ou não supervisionado. No aprendizado supervisionado existe algum tipo de orientação que subsidia e norteia o funcionamento da técnica. A partir de exemplos, ele pode seguir e tomar decisões. A técnica de classificação seria desse tipo. Algoritmos de aprendizado supervisionado são treinados usando exemplos rotulados, como uma entrada onde a saída desejada é conhecida. O algoritmo de aprendizagem recebe um conjunto de entradas junto com as saídas corretas correspondentes, e o algoritmo aprende comparando a saída real com as saídas corretas para encontrar erros. Já no aprendizado não supervisionado o algoritmo tira suas próprias conclusões sem que tenha recebido nenhum tipo de exemplo prévio. O aprendizado não super- visionado é usado contra dados que não possuem rótulos históricos. O sistema não sabe a “resposta certa”. O algoritmo deve descobrir o que está sendo mostrado. O objetivo é explorar os dados e encontrar alguma estrutura neles. O aprendizado não supervisionado funciona bem em dados transacionais. Por exemplo: ele pode identificar segmentos de clientes com atributos semelhantes que podem ser trata- dos de modo semelhante em campanhas de marketing; ou ele pode encontrar os principais atributos que separam os segmentos de clientes uns dos outros. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 17 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Aprendizado supervisionado: existe algum exemplo ou orientação, um “professor” que indica como o algoritmo deve proceder. Aprendizado não supervisionado: não há o “professor”, o algoritmo aprende sozi- nho as relações, padrões, categorias etc. dos dados que são apresentados e emite suas próprias conclusões. Técnicas de mineração consistem na especificação de métodos que nos garan- tam como descobrir os padrões que nos interessam. O próximo passo agora é en- tender como saber que técnica escolher, dada uma determinada tarefa. Como já foi dito, a tarefa depende do objetivo a ser alcançado. Entre as várias técnicas de Mineração de Dados, podemos destacar: Árvore de Decisão, Redes Neurais, Indução de Regra, Visualização, Regressão, Análises de Séries Temporais e Algoritmo Genético. A seguir, serão descritas as três principais: Árvore de Decisão, Redes Neurais e Algoritmo Genético. • Árvore de Decisão: utilizam um tipo de algoritmo de aprendizado de máquina baseado na abordagem de dividir para conquistar. Uma árvore de decisão é um modelo de função discreta no qual é determinado o valor de uma variável. Com base nesse valor é executada alguma ação. • Redes Neurais: foram criadas com base no estudo do cérebro humano. Assim sendo, sua principal característica é dada pela capacidade de aprender, com base na exposição de exemplos, sendo que a construção de uma rede neural se constitui na configuração de sua arquitetura interna, ou seja, uma rede in- terligada de neurônios; e no treinamento dessa rede com base em exemplos, até que a rede consiga aprender como resolver o problema, melhorando, des- sa forma, seu desempenho. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 18 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • Algoritmos Genéticos: simulam o processo de seleção natural proposto por Charles Darwin, em 1859. De acordo com a teoria de Darwin, pode-se dizer que os organismos são equivalentes às estruturas de dados, enquanto os cro- mossomos são equivalentes às cadeias de bits, surgindo mais de um conjunto de considerações inteiramente diferentes que podem ser usados numa mes- ma solução do problema. Algoritmos genéticos são mais facilmente aplicados em problemas com muitas variáveis e restrições. 5. CLASSIFICAÇÃO Uma das tarefas mais comuns, a Classificação, visa identificar a qual classe um determinado registro pertence. Nessa tarefa, o modelo analisa o conjunto de regis- tros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de “aprender” como classificar um novo registro (aprendizado supervisionado). Por exemplo, categorizamos cada registro de um conjunto de dados contendo as informações sobre os colaboradores de uma empresa: Perfil Técnico, Perfil Negocial e PerfilGerencial. O modelo analisa os registros e então é capaz de dizer em qual categoria um novo colaborador se encaixa. A tarefa de classificação pode ser usada, por exem- plo, para: • determinar quando uma transação de cartão de crédito pode ser uma fraude; • identificar, em uma escola, qual a turma mais indicada para um determinado aluno; • diagnosticar onde uma determinada doença pode estar presente. A tarefa de classificação utiliza, comumente, a técnica conhecida como árvore de decisão que, basicamente, consiste num gráfico em forma de árvore, contendo as decisões a serem tomadas e suas possíveis consequências. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 19 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br 6. REGRAS DE ASSOCIAÇÃO Uma associação pode ser analisada da seguinte maneira: dado um conjunto de registros e uma coleção de itens, cada um deles identificados com alguns números de itens e de uma coleção, a função de associação retornará afinidades que existem na coleção de itens desse conjunto de registros. As afinidades podem ser expres- sas através de regras, por exemplo: 80% dos registros que contém os itens A e B também contém os C e D. Em um banco de dados podem ser encontradas várias regras de associação. Seu estudo tem como objetivo buscar correlação entre atributos, ou seja, en- contrar itens que impliquem na presença de outros na mesma transação. A análise associativa é uma metodologia bastante útil para descobrir relaciona- mentos que se mostrem interessantes em conjuntos de dados. Através dessa aná- lise podemos descobrir relações úteis que muitas vezes não são visíveis em uma visão mais superficial. Esses relacionamentos descobertos podem ser representa- dos por Regras de Associação que mostram itens que são mais frequentes nesse banco de dados. As Regras de Associação podem ser fracas e até absurdas. Um exemplo seria o caso de uma pessoa que vai a uma livraria para comprar um livro e, além do livro, ele pega um chocolate no caixa. Isso não poderia ser interpretado como uma regra absoluta para outros casos. O algoritmo Apriori é um dos algoritmos mais conhecidos para mineração por regras de associação. Ele afirma que, se um conjunto é frequente, então, todos os seus subconjuntos também devem ser. Por isso infere-se que a Análise Associativa pode ser útil para uma empresa que deseja melhorar as vendas, diagnósticos médicos, estudos científicos para compre- ender dados de natureza complexa etc. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 20 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br 7. ANÁLISE DE AGRUPAMENTOS (CLUSTERIZAÇÃO) A tarefa de agrupamento visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) é uma coleção de registros similares entre si, porém, diferentes dos outros registros nos demais agrupamentos. Essa tarefa difere da classificação, pois não necessita que os registros sejam previamente categorizados (aprendizado não supervisionado). Além disso, ela não tem a pretensão de classi- ficar, estimar ou predizer o valor de uma variável, apenas identifica os grupos de dados similares. Exemplos: • segmentação de mercado para um nicho de produtos; • para auditoria, separando comportamentos suspeitos; • reduzir para um conjunto de atributos similares registros com centenas de atributos. As aplicações das tarefas de agrupamento são as mais variadas possíveis: pes- quisa de mercado, reconhecimento de padrões, processamento de imagens, análi- se de dados, segmentação de mercado, taxonomia de plantas e animais, pesquisas geográficas, classificação de documentos da Web, detecção de comportamentos atípicos (fraudes), entre outros. Geralmente, a tarefa de agrupamento é combina- da com outras tarefas, além de serem usadas na fase de preparação dos dados. 8. DETECÇÃO DE ANOMALIAS É a tarefa de identificar registros que tenham características muito diferentes de outros registros do mesmo grupo. Desvios em dados são valores não condizentes com o padrão dos outros que es- tão na mesma categoria em um banco de dados. A análise de desvios consiste em identificar esses valores para auxílio na tomada de decisão. A tomada de decisão O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 21 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br mais comum é excluí-lo da base, já que ele é considerado discrepante em relação aos outros, sendo tratado, assim, como uma exceção. Porém, para algumas aplica- ções, essas exceções são bastante interessantes. Por exemplo: podemos citar uma empresa de cartões de crédito que deseja descobrir fraudes no uso dos seus car- tões por uso dos seus clientes. Valores discrepantes podem dar uma boa dica para identificar essas infrações. As técnicas utilizadas para isso podem ser, por exemplo, Árvores de Decisão ou redes neurais. 9. MODELAGEM PREDITIVA A análise preditiva é o uso de dados, algoritmos estatísticos e técnicas de machine learning (também conhecido como aprendizado de máquina. Será abor- dado no próximo tópico) para identificar a probabilidade de resultados futuros com base em dados históricos. O objetivo é ir além da estatística descritiva e dos relatórios sobre o que acon- teceu para fornecer uma melhor avaliação sobre o que vai acontecer no futuro. O resultado final é a simplificação da tomada de decisão e a geração de novos insights que levem a melhores ações. Os modelos preditivos utilizam os resultados conhecidos para desenvolver (ou treinar) um modelo que possa ser usado para prever valores para dados diferentes ou novos. Cada vez mais organizações estão se voltando para a análise preditiva, visando aumentar seu lucro e sua vantagem competitiva. Por que agora? • Crescentes volumes e tipos de dados e mais interesse na utilização de dados para produzir informações valiosas. • Computadores mais rápidos e mais baratos e softwares mais fáceis de usar. • Agravamento das condições econômicas e uma necessidade de diferenciação competitiva. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 22 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • Com o software interativo e fácil de usar se tornando cada vez mais predo- minante, a análise preditiva não é mais apenas o domínio de matemáticos e estatísticos. Os analistas de negócios e especialistas na linha de negócios também estão usando essas tecnologias. A análise preditiva é utilizada basicamente para realizar cinco tarefas: • identificar tendências; • entender os clientes; • melhorar o desempenho dos negócios; • promover a tomada de decisão estratégica; •prever o comportamento. Algumas das aplicações mais comuns das análises preditivas incluem: • detecção de fraude: pode ajudar a reduzir a ocorrência de perdas ocorridas por atividades fraudulentas antes que elas ocorram. • marketing: pode ajudar uma empresa a entender melhor seus clientes. A maioria das organizações modernas usa a análise de dados para determinar as respostas ou compras dos clientes, bem como para promover oportunida- des de vendas cruzadas. • operações: previsão de estoques e gerenciar os recursos das fábricas, poden- do ainda ser utilizada com finalidades ainda mais específicas. Para adotar a modelagem preditiva, antes de mais nada, é preciso saber qual o problema que se quer solucionar. Em seguida, deve-se verificar onde poderão ser obtidos os dados que irão subsidiar a solução desse problema. Deve-se levar em conta que a preparação dos dados deve ser bem executada, o que leva tempo. Além disso, uma preparação mal elaborada, acarretará em perda de tempo e retra- balho. A partir daí, começa a construção do modelo preditivo. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 23 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br A modelagem preditiva exige uma abordagem em equipe. São necessárias pes- soas que entendam do problema a ser resolvido, pessoas que saibam preparar os dados, construir e refinar os modelos. Modelagem preditiva está presente no nosso cotidiano, conforme podemos ver nos exemplos listados abaixo: • recomendações: capacidade de serviços de streaming de áudio e vídeo apren- derem com o que você ouve e assiste e sugerir novas opções de acordo com o seu gosto. • detecção de fraude: na execução de uma operação financeira, um modelo de risco calcula a probabilidade de que, dado o perfil informado, a pessoa seja fraudadora ou inadimplente. Existem tecnologias que utilizam diversas fontes de dados, como comportamento de navegação, redes sociais e histórico de transações. 10. APRENDIZADO DE MÁQUINA Machine Learning ou Aprendizado de Máquina é um método de análise de dados que automatiza o desenvolvimento de modelos analíticos. Usando algoritmos que aprendem interativamente a partir de dados, o aprendizado de máquinas permite que os computadores encontrem insights ocultos sem serem explicitamente pro- gramados para procurar algo específico. O aspecto interativo do aprendizado de máquinas é importante porque, confor- me os modelos são expostos a novos dados, eles são capazes de se adaptar de for- ma independente. Eles aprendem com os cálculos anteriores para produzir decisões e resultados confiáveis e reproduzíveis. Aqui estão alguns exemplos amplamente divulgados de aplicações do machine learning com os quais você pode já estar familiarizado: O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 24 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • carros autônomos que dirigem sozinhos. Puro aprendizado de máquina; • saber o que os clientes dizem sobre uma empresa nas redes sociais (Twitter, por exemplo). O interesse no aprendizado de máquina ressurgiu devido aos mesmos fatores que tornaram a mineração de dados mais popular do que nunca. Coisas como o crescente volume e variedade de dados disponíveis, o processamento computacio- nal que está mais barato e mais poderoso, e o armazenamento de dados de forma acessível. Tudo isso significa que é possível produzir, de forma rápida e automática, mode- los que permitam analisar dados maiores e mais complexos e fornecer resultados mais rápidos e mais precisos – mesmo em uma escala muito grande. O resultado? Previsões de alto valor que podem levar a melhores decisões e ações inteligentes em tempo real, sem a intervenção humana. 11. MINERAÇÃO DE TEXTO Anteriormente, vimos o processo de KDD, que é a busca por conhecimento em bases de dados. As bases de dados são estruturadas. Mas lembra quando falamos que a maioria da informação existente é não estruturada? Como podemos proceder com a busca por conhecimento nesse montante de informação? É aí que entra a mineração de texto. A mineração de texto é um processo que utiliza algoritmos capazes de analisar coleções de documentos texto, com o objetivo de extrair conhecimento. A análise de dados armazenados em formato não estruturado pode ser considerada uma ati- vidade mais complexa, se comparada à análise de dados estruturados, justamente pelo fato dos dados possuírem a característica da não estruturação. Logo, são ne- cessárias técnicas e ferramentas específicas para tratamento desse tipo de dados. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 25 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Esse conjunto de técnicas e ferramentas também fazem parte da área de recupera- ção de informações, mais especificamente da área conhecida como Descoberta de Conhecimento em Textos (Knowledge Discovery from Text - KDT). A ideia de buscar conhecimento nesse imenso volume de dados é extremamente interessante, porém, nada prática. Essa situação motivou o surgimento da minera- ção de texto, uma subárea da mineração de dados interessada no desenvolvimento de técnicas e processos para a descoberta automática de conhecimento valioso a partir de coleções de documentos texto. As etapas da metodologia de mineração de textos seriam: • coleta: etapa inicial e tem como objetivo formar uma base de dados textual. Pode se dar de várias maneiras, porém, todas necessitam de grande esforço, a fim de se conseguir material de qualidade e que sirva de matéria-prima para a aquisição de conhecimento. • pré-processamento: etapa executada imediatamente após a Coleta e tem como objetivo prover alguma formatação e representação da massa textual. É bastante onerosa, com a aplicação de diversos algoritmos que consomem boa parte do tempo do processo de extração de conhecimento. • indexação: é o processo que organiza todos os termos adquiridos a partir de fontes de dados, facilitando o seu acesso e recuperação. Uma boa estrutura de índices garante rapidez e agilidade ao processo, tal como funciona o índice de um livro. • mineração: é responsável pelo desenvolvimento de cálculos, inferências e algoritmos e que tem como objetivo a extração de conhecimento, descoberta de padrões e comportamentos. • análise: é a última etapa e deve ser executada por pessoas que, normalmen- te, estão interessadas no conhecimento extraído e que devem tomar algum tipo de decisão apoiada no processo de Mineração de Texto. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 26 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Algumasformas de descobrirmos conhecimento através da mineração de texto seriam: • Descoberta por Extração de passagens: busca encontrar informações especí- ficas, auxiliando usuários a encontrar detalhes, sem que ele precise ler todo texto. Entretanto, ainda assim, é necessário que o usuário leia e interprete as partes do texto que forem recuperadas para extrair a informação desejada. • Descoberta por Análise Linguística: informações e regras podem ser desco- bertas através de análises linguísticas em níveis léxico, morfológico, sintático e semântico. • Descoberta por Análise de Conteúdo: semelhante à descoberta por extração de passagens e à descoberta por análise linguística. Esse tipo de descoberta investiga linguisticamente os textos e apresenta ao seu usuário informações sobre o conteúdo dos textos, sendo que há um maior esforço no tratamento semântico dos textos e visa encontrar o significado do texto pretendido. • Descoberta por Dumarização: utiliza as técnicas de descoberta por extração de passagens, descoberta por análise de conteúdo e descoberta por análise linguística, com ênfase na produção de resumos ou sumários (abstração das partes mais importantes do conteúdo do texto) a partir de textos. • Descoberta por Associação entre Passagens: tem por objetivo encontrar au- tomaticamente conhecimento e informações relacionadas no mesmo texto ou em textos diferentes. • Descoberta por Listas de Conceitos-Chave: o objetivo desse tipo de descober- ta é apresentar uma lista com os conceitos principais de um único texto, uti- lizando técnicas que permitem extrair os termos mais frequentes dos textos. • Descoberta de Estruturas de Textos: esta técnica analisa as coesões léxicas de um texto, tendo como resultado cadeias de termos relacionados que con- tribuem para a continuidade do seu significado léxico. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 27 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • Descoberta por Recuperação de Informações: suas técnicas podem ajudar apresentando documentos com visão geral das informações ou assuntos, ou apresentando partes de documentos com detalhes de informações. • Descoberta Tradicional após Extração: é o tipo de descoberta mais simples. Nessa abordagem, os dados são extraídos dos textos e formatados em bases de dados estruturados com o auxílio de técnicas de Extração de Informações. Depois, são aplicadas técnicas e algoritmos de Mineração de Dados Estrutu- rados (KDD), no sentido de descobrir conhecimento útil para seus usuários. • Descoberta por Clusterização: auxilia o processo de descoberta de conhe- cimento, facilitando a identificação de padrões (características comuns dos elementos) nas classes. Essa técnica pode ser utilizada para estruturar e sintetizar o conhecimento quando este é incompleto ou quando há muitos atributos a ser considerados. • Descoberta por Descrição de Classes de Textos: dada uma classe de docu- mentos textuais e uma categoria associada a esta classe, esse tipo de des- coberta busca encontrar as características principais dessa classe, as quais possam identificá-la para os usuários e distingui-las das demais classes. • Descoberta por Associação entre Textos: procura relacionar descobertas pre- sentes em vários textos diferentes. As descobertas estão presentes no conte- údo ou significado dos textos. • Descoberta por Associação entre Características: esta abordagem procura relacionar tipos de informação (atributos) presentes em textos, aplicando a técnica de correlação ou associação tradicional em Mineração de Dados dire- tamente sobre partes do texto. • Uma das diferenças é que os valores para os atributos são partes do texto e não necessariamente dados extraídos por técnicas de extração de informações. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 28 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • Descoberta por Hipertextos: aqui a descoberta é exploratória e experimental, feita através de mecanismos de navegação. Com tais ferramentas, é possível expandir e comparar o conhecimento através dos links que relacionam as informações, funcionando de modo análogo à mente humana (memória as- sociativa). Tal abordagem é útil quando os problemas de falta de informação são mal definidos e quando se quer explorar novos domínios. • Descoberta por Manipulação de Formalismos: uma vez que é possível repre- sentar o conteúdo dos textos em formalismos, mecanismos de manipulação simbólica podem inferir novos conhecimentos, simplesmente por transforma- ções na forma. • Descoberta por Combinação de Representações: um caso especial da desco- berta por associação entre textos é a descoberta por combinação de repre- sentações. • A diferença é que os textos, antes de serem combinados, passam por um processo de representação interna. • Então, na verdade, não são os textos que são combinados, mas, sim, seus conteúdos, conforme o formalismo e as regras internas. • A combinação de representações diferentes permite que pontos de vista di- ferentes possam ser usados para criar novas representações e, consequente- mente, novo conhecimento. • Descoberta por Comparação de Modelos Mentais: procura representar docu- mentos textuais e o estado de conhecimento do usuário (modelo mental das informações) em um formalismo padrão para, após, compará-los. • Se for possível verificar o que há nos documentos que falta no estado mental do usuário, então um conhecimento novo foi descoberto. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 29 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • Descoberta por Análise de Sequências Temporais: esta técnica permite des- cobrir dependências entre conceitos que aparecem em textos dentro de uma mesma janela de tempo. • O objetivo é saber se um conceito condiciona a aparição de outro no futuro. Os textos a serem analisados nesse processo devem, obrigatoriamente, se- guir uma ordem cronológica, formando uma sequência temporal. Essas sequências podem ser independentes, não havendo relação explícita entre textos de uma sequência e de outra. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 30 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br RESUMO • Mineração de Dados (Data Mining): tecnologias e técnicas que permitem ex- plorar um grande volume de dados, utilizando algoritmos sofisticados e rea- lizando análises complexas. Os algoritmos segmentam os dados e avaliam a probabilidade de ocorrência de determinados eventos. • CRISP-DM: é um modelo padrão de mineração de dados que descreve as abordagens comuns usadas para resolverproblemas. É constituído de seis fases, é cíclico e é possível avançar e voltar entre as fases. • As seis fases do CRISP-DM: – entendimento do negócio; – entendimento dos dados; – preparação dos dados; – modelagem; – avaliação; – implantação; • KDD: busca de conhecimento em bases de dados. • Etapas KDD: – Seleção: identificação de quais dados serão trabalhados na base; – Pré-processamento e Limpeza: verificação de inconsistências nos dados que serão trabalhados; – Transformação: fase de organização e formatação dos dados para que os algoritmos de mineração funcionem adequadamente; – Mineração de Dados: onde é feita a busca por informações efetivamente úteis, aplicando-se algoritmos para extrair o conhecimento da base de dados; – Interpretação e avaliação: é onde o conhecimento adquirido é avaliado, verificando-se se o objetivo foi atingido. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 31 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br • Classificação: procura identificar a qual classe um registro pertence, com base em exemplos ou indicações (aprendizado supervisionado). • Regras de associação: buscam por similaridades, afinidades existentes em itens de um conjunto de registros. • Análise de agrupamentos (clusterização): procura identificar e agrupar regis- tros similares. Não precisa de classificação prévia (aprendizado não supervi- sionado). • Detecção de anomalias: identificar registros que tenham características muito diferentes de outros registros do mesmo grupo. • Modelagem preditiva: identificar a probabilidade de resultados futuros com base em dados históricos. • Aprendizado de máquina: método de análise de dados usando algoritmos que aprendem a partir dos dados que recebem, sem serem programados para procurar algo específico. • Mineração de texto: busca de conhecimento em dados não estruturados. Di- fere do KDD, que busca em bases de dados. • Etapas mineração de texto: – Coleta: etapa inicial e tem como objetivo formar uma base de dados textual; – Pré-processamento: visa prover alguma formatação e representação da massa textual; – Indexação: organização dos termos adquiridos das fontes de dados, facili- tando o seu acesso e recuperação. Associe ao índice de um livro. Você vai no índice e de lá consegue saber em que página está o que procura, sem precisar ler o livro inteiro; – Mineração: a mesma que tratamos no decorrer de todo o capítulo; – Análise: validação do conhecimento obtido na mineração de texto; O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 32 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br QUESTÕES DE CONCURSO 1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que: a) Refere-se à implementação de banco de dados paralelos. b) Consiste em armazenar o banco de dados em diversos computadores. c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes- mo intervalo de tempo. d) Permite-se distinguir várias entidades de um conjunto. e) Refere-se à busca de informações relevantes a partir de um grande volume de dados. 2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar: a) É o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas e matemáticas. b) Não requer interação com analistas humanos, pois os algoritmos utilizados con- seguem determinar de forma completa e eficiente o valor dos padrões encontrados. c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam sistematicamente “simplificados”, de forma a desconsiderar aquilo que é genérico e privilegiar aquilo que é específico. d) É um grande banco de dados voltado para dar suporte necessário nas decisões de usuários finais, geralmente gerentes e analistas de negócios. e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade, são consistentes e habilitam descobertas abrangentes e precisas. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 33 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br 3. (FCC/TRT 11/2017) Sistemas do tipo I e do tipo II realizam tarefas diferentes, porém complementares. O tipo I é adequado para atividades como indexação de dados, alocação de custos, análises de séries temporais e análises “what-if”. Po- rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências indutivas, processo que permite chegar a conclusões genéricas a partir de exem- plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas do tipo I fornecem uma visão multidimensional de dados, incluindo suporte a hie- rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza- ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en- contrar padrões e relações entre as informações disponíveis em bancos de dados. Os sistemas do tipo II podem encontrar informações ocultas nos dados disponíveis, mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a organização. Os sistemas do tipo I e II são, correta e respectivamente, a) Data Warehouse e Data Mining. b) Banco de Dados Multidimensional e Banco de Dados Relacional. c) Data Mining e Data Warehouse. d) OLAP e Data Mining. e) OLAP e Data Warehouse. 4. (CESPE/ANATEL/2014) A respeito de banco de dados, julgue os itens que se seguem. No processo de Data Mining (mineração de dados), é indispensável o uso de téc- nica conhecida como Data Warehousing, uma vez que a mineração de dados deve ocorrer necessariamente em estruturas não normalizadas (FN0). O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 34 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br 5. (CESPE/TJDFT/2015) Julgue o item a seguir, a respeito de Data Warehouse e de Data Mining. Em um processo de mineração, durante a etapa de preparação dos dados, são ana- lisados os requisitos de negócio para consolidar os dados. 6. (CESPE/TCE-SC/2016) Julgue os itens, acerca de mineração de dados. Para a realização de prognósticos por meio de técnicas de mineração de dados, par- te-se de uma série de valores existentes obtidos de dados históricos bem como de suposições controladas a respeito das condições futuras, para prever outros valores e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais. 7. (CESPE/TCE/2016) CRISP-DM é uma metodologiaproprietária que identifica as fases Business Understanding e Data Understanding na implantação de um projeto de Data Mining. 8. (FUNDATEC/SEFAZ-RS/2014) Há uma tecnologia que é empregada sobre gran- des volumes de dados para descobrir novas informações em função de regras e padrões existentes nesses dados. Normalmente, tais informações não são obtidas simplesmente consultando os dados armazenados em bancos de dados. Por exem- plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor- me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas de fraldas descartáveis, nas sextas-feiras, estava relacionada às vendas de cerveja, sendo que, geralmente, os compradores eram homens. Como oportunidade de ne- gócio, a rede varejista colocou os produtos lado a lado, resultando em um aumento expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa tecnologia usa diversas técnicas, tais como associação, classificação e predição, dentre outras. Nesse caso, essa tecnologia é chamada de: O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 35 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br a) Data Mart b) Data Mining c) Data Warehouse d) Business Intelligence e) OLAP 9. (CESPE/TCE/2016) Julgue os itens a seguir, em relação a data mining. No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste na extração não trivial de conhecimento previamente desconhe- cido e potencialmente útil. 10. (CESPE/TRT 8/2016) A respeito de sistemas de suporte a decisão, assinale a opção correta. As ferramentas de ETL têm como objetivo efetuar extração, transformação e carga de dados vindos de uma base transacional para um data warehouse (DW). No pro- cesso de extração, que é o mais demorado dos três, ocorre a limpeza dos dados, a fim de garantir a qualidade do que será posteriormente carregado na base do DW. Os operadores de navegação drill-down (navegam entre as hierarquias diminuindo o nível do detalhe, por exemplo: município > estado) e roll-up (navegam entre as hierarquias aumentando o nível do detalhe, por exemplo: estado > município) são considerados básicos e estão implementados em todas as ferramentas de OLAP. As bases de dados criadas para atender ao data warehouse (DW) são do modelo relacional (E/R), em que as tabelas representam dados e relacionamentos e são altamente normalizadas. Nos processos de análise de inferência, representados pelo data mining, ocorrem buscas de informação com base em algoritmos que objetivam o reconhecimento de padrões escondidos nos dados e não revelados por outras abordagens. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 36 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Em uma arquitetura de data warehouse (DW), os dados são coletados das fon- tes operacionais na fase de extração, trabalhados na fase de transformação (ou staging) e carregados no DW na fase de carga. Quando necessário, um banco de dados temporário, preparatório para a carga no DW, poderá ser criado na fase de extração, com características relacionais. 11. (CESPE/FUNPRESP/2016) Julgue os itens subsecutivos, referentes às tecnolo- gias de bancos de dados. Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi- ficação para atribuir informação de tipo. 12. (CESPE/PREVIC/2011) Julgue os itens a seguir, relativos aos sistemas de su- porte a decisão. Um banco de dados pode conter objetos de dados que não sigam o padrão dos dados armazenados. Nos métodos de mineração de dados, esses objetos de dados são tratados como exceção, para que não induzirem a erros na mineração. 13. (CESPE/MEC/2015) Julgue os itens seguintes, referentes a data mining. Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos de biologia evolutiva, como hereditariedade, recombinação, seleção natural e mu- tação, para solucionar e agrupar problemas. 14. (CESPE/TJ-CE/2014) Assinale a opção correta acerca de Data Mining. a) A informação acerca dos resultados obtidos no processo de mineração é apre- sentada apenas de forma gráfica. b) A classificação, uma das principais tecnologias da mineração de dados, caracte- riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada a um itemset. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 37 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br c) É possível realizar mineração de dados em documentos textuais como, por exemplo, uma página da Internet. d) A grande desvantagem de um Data Mining consiste no fato de que a identifi- cação de um padrão, para a geração do conhecimento, só é possível por meio da análise em pequenas quantidades de dados. e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é permitido um único tipo de padrão. 15. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL. O uso de agrupamento (clustering) em DataMining exige que os registros sejam previamente categorizados, tendo por finalidade aproximar registros similares para predizer valores de variáveis. 16. (CESPE/TC-DF/2014) Julgue os itens subsecutivos, com relação a Data Mining, desempenho de sistemas de bancos de dados e controle de concorrência. Com o uso da classificação como técnica de Data Mining, busca-se a identificação de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa- da em conjunto com outras técnicas de mineração de dados. 17. (CESPE/MC/2013) Com relação a soluções de suporte à decisão, julgue os itens subsecutivos. Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci- mento em base de dados. Eles são provenientes, automaticamente, do banco de dados e não há interação manual na descoberta de novos tipos de padrões. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 38 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br 18. (CESPE/MPU/2013) Julgue os próximos itens, acerca de sistemas de suporte à decisão. Em se tratando de mineração de dados, a técnica de agrupamento (clustering) permite a descoberta de dados por faixa de valores, por meio do exame de alguns atributos das entidades envolvidas. 19. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL. O processo de transformação de dados pode exigir que dados logicamente relacio- nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis- tros distintos ou até mesmo estejam em bancos de dados operacionais distintos. 20. (CESGRANRIO/EPE/2012) As técnicas de mineração dedados podem ser cate- gorizadas em supervisionadas e não supervisionadas. As técnicas de árvores de decisão, agrupamento e regras de associação são cate- gorizadas, respectivamente, como: a) não supervisionada, não supervisionada, não supervisionada b) não supervisionada, supervisionada e não supervisionada c) supervisionada, não supervisionada e não supervisionada d) supervisionada, não supervisionada e supervisionada e) supervisionada, supervisionada e supervisionada 21. (CESPE/TJ-AC/2012) No que diz respeito a sistemas de suporte a decisão, jul- gue os itens subsequentes. O data mining possibilita analisar dados para obtenção de resultados estatísticos que poderão gerar novas oportunidades ao negócio. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 39 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br 22. (CESPE/TJ-ES/2011) Julgue os itens a seguir, a respeito de administração de dados e de administração de banco de dados. Mineração de dados, em seu conceito pleno, consiste na realização, de forma ma- nual, de sucessivas consultas ao banco de dados com o objetivo de descobrir pa- drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão. 23. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma ou mais técnica de aprendizagem em computador para, automaticamente, analisar e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens seguintes, que versam sobre mineração de dados e KDD. O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re- visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida como uma etapa desse processo. 24. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma ou mais técnica de aprendizagem em computador para, automaticamente, analisar e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens seguintes, que versam sobre mineração de dados e KDD. A metodologia para a realização de tarefas de mineração de dados, prescrita pelo modelo de referência proposto pelo Consórcio CRISP/DM, consiste nas seguintes fases: entendimento do negócio (business understanding), entendimento dos da- dos (data understanding), pré-processamento dos dados (data preparation), mo- delagem (modeling), avaliação dos modelos (evaluation) e colocação do modelo selecionado em uso (deployment). 25. (CESPE/DATAPREV/2006) Julgue os seguintes itens, acerca de técnicas de mi- neração de dados. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 40 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Outliers são instâncias de dados (observações) atípicas porque se mantêm à dis- tância anormal das outras instâncias em uma amostra aleatória representativa da população de onde as instâncias foram extraídas. 26. (CESPE/ANATEL/2009) Data mining (mineração de dados) consiste na análise de grandes quantidades de dados a fim de encontrar padrões e regras que pos- sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sis- temáticos entre variáveis, detectando assim novos subconjuntos de dados. Utiliza várias técnicas da estatística, recuperação de informação, inteligência artificial e reconhecimento de padrões. 27. (CESPE/IPEA/2008) Com relação a BI (business inteligence), indicadores da produção, administração da produção, monitoração do ambiente operacional, jul- gue os próximos itens. O data mining é um processo utilizado para a extração de dados de grandes repo- sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados de um data warehouse. 28. (FEPESE/UFFS/2012) Identifique, dentre os itens abaixo, os que podem ser utilizadas por processos e sistemas de data mining: 1. Criptografia assíncrona 2. Inteligência artificial 3. Machine learning 4. Estatística 5. Algoritmos genéticos O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 41 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br Assinale a alternativa que indica todos os itens corretos. a) São corretos apenas os itens 2, 3 e 4. b) São corretos apenas os itens 2, 3 e 5. c) São corretos apenas os itens 1, 2, 3 e 5. d) São corretos apenas os itens 2, 3, 4 e 5. e) São corretos os itens 1, 2, 3, 4 e 5. 29. (CESPE/TCU/2007) Nos sistemas de suporte a decisão (SSD), os dados são coletados em data warehouses e a análise de dados pode ser realizada por meio de processamento analítico online (OLAP) e data mining. Julgue os itens seguintes, sobre SSD, OLAP e data mining. No data mining, o agrupamento e a classificação funcionam de maneira similar: o agrupamento reconhece os padrões que descrevem o grupo ao qual um item per- tence, examinando os itens existentes; a classificação é aplicada quando nenhum grupo foi ainda definido. O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 42 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br GABARITO 1. e 2. a 3. d 4. E 5. E 6. C 7. E 8. b 9. C 10. d 11. C 12. E 13. C 14. c 15. E 16. C 17. E 18. C 19. C 20. c 21. C 22. E 23. C 24. C 25. C 26. C 27. E 28. d 29. e O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. http://www.grancursosonline.com.br http://www.grancursosonline.com.br 43 de 57 ANÁLISE DE INFORMAÇÕES Mineração de Dados Profs. Rafael Faria e Celso Ângelo www.grancursosonline.com.br GABARITO COMENTADO 1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que: a) Refere-se à implementação de banco de dados paralelos. b) Consiste em armazenar o banco de dados em diversos computadores. c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes- mo intervalo de tempo. d) Permite-se distinguir várias entidades de um conjunto. e) Refere-se à busca de informações relevantes a partir de um grande volume de dados. Letra e. Uma simplificação do conceito de mineração de dados, mas, ainda assim, não deixa de estar correta. 2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar: a) É o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas
Compartilhar