Baixe o app para aproveitar ainda mais
Prévia do material em texto
2 ■ Mineração de Dados - Conceito 3 ■ É um processo onde o objetivo é revisar e processar grandes quantidades de dados com o intuito de descobrir padrões, descobrir algo que seja desconhecido ou correlações importantes que podem ser cruciais para as organizações. ■ As ferramentas de procuram aplicar técnicas relacionadas a estatísticas em grandes quantidades de dados armazenados, com o objetivo de procurar os padrões que citamos. ■ Mineração de Dados - Conceito 4 ■ O processo de minerar dados para descobrir conexões escondidas e prever tendências futuras tem uma longa história. ■ Sua base compreende três disciplinas científicas entrelaçadas que existem há tempos: ■ estatística (o estudo numérico das relações entre dados), inteligência artificial (inteligência exibida por softwares e/ou máquinas, que se assemelha à humana) e aprendizado de máquina (algoritmos que podem aprender com dados para realizar previsões). ■ Iremos conhecer três técnicas: KDD, CRISP-DM e SEMMA. ■ Mineração de Dados – Áreas Relacionadas 5 Data Mining Visualização Machine Learning/IA EstatísticaBanco de Dados ■ KDD 6 ■ Segundo Fayyad (1996), o processo de Descoberta de Conhecimento em Banco de Dados, do inglês Knowledge Discovery in Database (KDD), é definido como um processo não-trivial de identificação de padrões e válidos, novos, potencialmente úteis e compreensíveis a partir de dados. ■ Afinal, o que são padrões? 7 ■ Podemos definir um padrão como sendo uma unidade de informação que se repete, ou, uma sequência de informações que possuem uma estrutura que se repete. ■ KDD 8 ■ Agora que já temos nossos dados extraídos, transformados e carregados em Data Marts ou em Data Warehouses a próxima etapa é definir os tipos de tarefas e técnicas que serão utilizadas para extração de padrões, sempre considerando o objetivo do processo. ■ Neste ponto devemos utilizar as técnicas de Mineração de Dados, onde iremos explorar os dados que estão armazenados em nossos repositórios. ■ Com a técnica escolhida, vamos em busca dos padrões tão desejados, que não são intuitivos, dentre os dados que armazenamos em nossos repositórios. Podemos chamar esta etapa de Mineração !!! Fique atento pois nesse momento se entende que a mineração é apenas uma parte do processo de KDD. ■ Processo KDD (Knowledge Discovery in Databases) 9 Processo de Descoberta de Conhecimento em Banco de Dados ■ Processo KDD (Knowledge Discovery in Databases) 10 Processo de Descoberta de Conhecimento em Banco de Dados ■ Seleção - Criação de um conjunto de dados para uso no processo, através da seleção dos dados com atributos úteis. ■ Processo KDD (Knowledge Discovery in Databases) 11 Processo de Descoberta de Conhecimento em Banco de Dados ■ Pré-Processamento - Operações básicas de limpeza, remoção de outliers, eliminação de registros duplicados, etc ■ Processo KDD (Knowledge Discovery in Databases) 12 Processo de Descoberta de Conhecimento em Banco de Dados ■ Transformação - Transformação de dados e Redução de Variáveis, selecionando atributos relevantes para representar adequadamente os dados, sem perda de precisão. ■ Processo KDD (Knowledge Discovery in Databases) 13 Processo de Descoberta de Conhecimento em Banco de Dados ■ Data Mining - Mineração dos dados propriamente dita, por meio do uso de algoritmos, em busca de padrões úteis e relevantes para a tomada de decisão; ■ Processo KDD (Knowledge Discovery in Databases) 14 Processo de Descoberta de Conhecimento em Banco de Dados ■ Interpretação e Avaliação- – Interpretação dos resultados da mineração de dados, incluindo a avaliação dos padrões e regras, obtidos pelo processo de mineração. ■ Ano: 2011 Banca: FCC Órgão: Infraero Prova: Administrador de Banco de Dados 15 ■ No âmbito da descoberta do conhecimento (KDD), a visão geral das etapas que constituem o processo KDD (Fayyad) e que são executadas de forma interativa e iterativa apresenta a seguinte sequência de etapas: a. seleção, pré-processamento, transformação, data mining e interpretação/avaliação. b. seleção, transformação, pré-processamento, interpretação/avaliação e data mining. c. data warehousing, star modeling, ETL, OLAP e data mining. d. ETL, data warehousing, pré-processamento, transformação e star modeling. e. OLAP, ETL, star modeling, data mining e interpretação/avaliação. ■ Ano: 2011 Banca: FCC Órgão: Infraero Prova: Administrador de Banco de Dados 16 ■ No âmbito da descoberta do conhecimento (KDD), a visão geral das etapas que constituem o processo KDD (Fayyad) e que são executadas de forma interativa e iterativa apresenta a seguinte sequência de etapas: a. seleção, pré-processamento, transformação, data mining e interpretação/avaliação. b. seleção, transformação, pré-processamento, interpretação/avaliação e data mining. c. data warehousing, star modeling, ETL, OLAP e data mining. d. ETL, data warehousing, pré-processamento, transformação e star modeling. e. OLAP, ETL, star modeling, data mining e interpretação/avaliação. ■ Referências 17 ■ Referências Gráficas × Icons8.com.br ■ Design e Diagramação por: × Charleson Guedes ■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons, 2011. ■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995. ■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004. ■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems. 2 ■ CRISP-DM 3 ■ CRISP-DM é a abreviação de Cross Industry Standard Process for Data Mining que, trazendo para o português, pode ser entendida como processo padrão da indústria cruzada para mineração de dados. ■ Essa é uma metodologia capaz de transformar os dados da empresa em conhecimento e informações de gerenciamento. ■ O modelo CRISP-DM busca desenvolver um modelo de processo capaz de funcionar em qualquer tipo de indústria, gratuito e não-proprietário. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 4 ■ Segundo Olson (2008), o processo CRISP-DM consiste em seis fases organizadas de maneira cíclica, conforme mostra a figura. Apesar de ser composto por fases, seu fluxo não é unidirecional, podendo ir e voltar entre suas fases. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 5 ■ CRISP/DM é um processo padrão para esforços de mineração de dados, que inclui: ■ Uma metodologia, descrevendo fases, tarefas relacionadas a cada fase, bem como os relacionamentos entre elas. ■ Um modelo de processo, provendo um ciclo de vida de mineração de dados. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 6 ■ Entendimento dos Negócios – Entender qual é o objetivo que se deseja atingir com a mineração de dados. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 7 ■ Entendimento dos Dados – Identificar os dados relevantes para o problema e certificar-se que as variáveis selecionadas não são interdependentes. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 8 ■ Preparação dos Dados – Esse processo envolve limpeza, filtro e preenchimento de valores vazios. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 9 ■Modelagem – É neste fase que as técnicas de mineração de dados serão aplicadas. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 10 ■ Avaliação – Fase crítica do processo. Exige a participação de especialistas nos dados, conhecedores do negócio e tomadores de decisão. Visa avaliar a confiabilidade do modelo. ■ (Cross-Industry Standard Process of Data Mining) ■ CRISP-DM 11 ■ Implantação – Após executado o modelo com dados reais e completos é preciso que os envolvidos conheçam os resultados gerados. ■ (Cross-Industry Standard Process of Data Mining) ■ Ano: 2017 Banca: CESPE Órgão: TCE-PE Prova: Auditoria de Obras Públicas 12 ■ Julgue o seguinteitem, que se refere a CRISP-DM (Cross-Industry Standard Process of Data Mining). Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes. ( )CERTO ( )ERRADO ■ Ano: 2017 Banca: CESPE Órgão: TCE-PE Prova: Auditoria de Obras Públicas 13 ■ Julgue o seguinte item, que se refere a CRISP-DM (Cross-Industry Standard Process of Data Mining). Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes. ( )CERTO ( X )ERRADO Justificativa: Durante a etapa de entendimento do negócio, ou compreensão do negócio (Business Understanding), o objetivo é obter conhecimento sobre os objetivos do negócio e seus requisitos, e então converter esse conhecimento em uma definição de um problema de mineração de dados, e um plano preliminar designado para alcançar esses objetivos. Durante a etapa de seleção de dados, ou compreensão de dado (Data Understanding), o objetivo é entender os dados, que visa à familiarização com o banco de dados pelo grupo de projeto, utilizando-se de conjuntos de dados modelo ■ SEMMA 14 ■ Trata de outra metodologia muito utilizada, criada pela SAS Instituto. É um acrônimo que significa Amostrar, Explorar, Modificar, Modelar e Avaliar, do inglês Sample, Explore, Modify, Model e Assess (SEMMA). ■ A SEMMA é parecida com a CRISP-DM em muitos aspectos, mas é focada, principalmente, nas tarefas de criação do modelo, deixando de fora as questões de negócio. ■ SEMMA 15 ■ A SEMMA é parecida com a CRISP-DM em muitos aspectos, mas é focada, principalmente, nas tarefas de criação do modelo, deixando de fora as questões de negócio. ■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal Prova: Agente de Polícia Federal 16 ■ Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de máquina. Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos, potencialmente úteis e, ao final, compreensíveis. ( )CERTO ( )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal Prova: Agente de Polícia Federal 17 ■ Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de máquina. Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos, potencialmente úteis e, ao final, compreensíveis. ( X )CERTO ( )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal Prova: Perito Criminal Federal 18 ■ Acerca de banco de dados, julgue o seguinte item. Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina. ( )CERTO ( )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal Prova: Perito Criminal Federal 19 ■ Acerca de banco de dados, julgue o seguinte item. Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina. ( X )CERTO ( )ERRADO ■ Ano: 2015 Banca: CESPE Órgão: TCU Prova: Auditor Federal de Controle Externo 20 ■ No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de data mining para atividades ligadas a marketing. ( )CERTO ( )ERRADO ■ Ano: 2015 Banca: CESPE Órgão: TCU Prova: Auditor Federal de Controle Externo 21 ■ No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de data mining para atividades ligadas a marketing. ( )CERTO ( X )ERRADO ■ Ano: 2015 Banca: CESPE Órgão: DEPEN Prova: Agente Penitenciário Federal 22 ■ Acerca de datawarehouse e datamining, julgue o item subsequente. Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem entre informações armazenadas em um grande repositório. ( )CERTO ( )ERRADO ■ Ano: 2015 Banca: CESPE Órgão: DEPEN Prova: Agente Penitenciário Federal 23 ■ Acerca de datawarehouse e datamining, julgue o item subsequente. Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem entre informações armazenadas em um grande repositório. ( X )CERTO ( )ERRADO ■ Referências 24 ■ Referências Gráficas × Icons8.com.br ■ Design e Diagramação por: × Charleson Guedes ■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons, 2011. ■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995. ■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004. ■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems. 2 ■ Tarefas de Mineração de Dados 3 ■ Classificação ■ busca identificar a qual classe um determinado registro pertence. ■ O modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de ’aprender’ como classificar um novo registro (aprendizado supervisionado). ■ O modelo analisa os registros e então é capaz de dizer em qual categoria um novo item se encaixa. ■ Exemplos: ■ Classificar transações de cartão de crédito como legítima ou fraudulenta ■ Classificar clientes ■ Classificar notícias como financeira, esporte, política, entretenimento, clima, ... ■ Classificação 4 Formação Idade Sexo Salário Classificação Superior 30 M 20 BOM Médio 35 F 15 RUIM Superior 22 F 25 EXCELENTE Médio 40 M 40 RUIM Médio 27 F 30 BOM Superior 34 F 50 EXCELENTE Superior 55 M 29 RUIM Formação Idade Sexo Salário Classificação Class-Model Superior 30 M 20 BOM BOM Médio 35 F 15 RUIM RUIM Superior 22 F 25 EXCELENTE BOM Cliente Conjunto de Treinamento: 70% Conjunto de Testes: 30% Algorithm Learning Model Learn Model Apply Model ■ Classificação 5 Width-p Lenght-p Width-s Lenght-s label 4,6 3,2 1,4 0,2 Setosa 5,3 3,7 1,5 0,2 Setosa 5 3,3 1,4 0,2 Setosa 7 3,2 4,7 1,4 Versicolor 6,4 3,2 4,5 1,5 Versicolor Problema de classificação de uma Íris (Flor) ■ 150 objetos: 50 de cada classe ■ 4 atributos: comprimento pétala, largura da pétala, comprimento da sépala, largura da sépala ■ 3 classes: setosa, versicolor, virginica ■ Classificação 6 Age CarType Risk 20 SUV High 18 Sports High 40 Sports High 50 Family Low 35 Minivan Low 30 SUV High 32 Family Low 40 SUV Low Decision Tree (Árvore de Decisão) ■ Tarefas de Mineração de Dados 7 ■ Regressão ■ Regressão é uma técnica de mineração de dados usada para ajustar uma equação a um conjunto de dados. A forma mais simples de uma regressão é regressão linear, que utiliza a fórmula y = mx + b e determina o valor apropriado para m e b com o objetivo de prever um valor de x, dado um valor de y. ■ Tarefas de Mineração de Dados 8 ■ Agrupamento(Clustering) ■ Clustering é uma técnica de particionar um conjunto de dados em um conjunto de subclasses, chamadas de clusters. ■ O agrupamento ajuda os usuários a entenderem natural ou estruturado de um conjunto de dados. ■ Clustering é um tipo de aprendizado não-supervisionado, uma vez que não existem classes pré- definidas. ■ Tarefas de Mineração de Dados 9 ■ Associação(Association) ■ A tarefa de associação consiste em identificar quais atributos estão relacionados. ■ Apresentam-se da seguinte forma: SE atributo X ENTÃO atributo Y. ■ É uma das tarefas mais conhecidas devido aos bons resultados obtidos, principalmente nas análises da "Cestas de Compras"(Market Basket), onde identificamos quais produtossão levados juntos pelos consumidores. ■ Alguns Exemplos: ■ Avaliar quais produtos estão associados nas vendas. ■ Determinar os casos onde um novo medicamento pode apresentar efeitos colaterais. ■ Identificar os usuários de planos que respondem bem a oferta de novos serviços. ■ Tarefas de Mineração de Dados 10 ■ Associação(Association Rules) ■ Dado um conjunto de transações, encontre regras que irão prever a ocorrência de um item baseado na ocorrência de outros itens presentes na transação. ■ Uma regra de associação é um relacionamento X → Y (SE X ENTÃO Y), onde X e Y são conjuntos de itens, com interseção vazia. ■ Support (s) - Fração das transações que contém X e Y ■ Confidence (c) – Mede quanto frequente o item Y ocorre nas transações que contem X. TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Market-Basket transactions Example of Association Rules {Diaper} → {Beer} {Milk, Bread} → {Eggs, Coke} {Beer, Bread} → {Milk} Implication means co-occurence, not causality! ■ Tarefas de Mineração de Dados 11 TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Market-Basket transactions Example of Association Rules {Diaper} → {Beer} {Milk, Bread} → {Eggs, Coke} {Beer, Bread} → {Milk} Implication means co-occurence, not causality! ■ Outliers 12 ■ Os outliers são dados que se diferenciam drasticamente de todos os outros, são pontos fora da curva normal (o que é curva normal?). ■ Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise. ■ Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos: ■ Os outliers podem aviesar negativamente todo o resultado de uma análise; ■ o comportamento dos outliers pode ser justamente o que está sendo procurado. ■ Alguns Exemplos: ■ dados discrepantes; ■ pontos fora da curva; ■ observações fora do comum; ■ anomalias; ■ valores atípicos; ■ entre outros. 13 ■ Outliers ■ Mineração de Texto 14 ■ Também conhecida por Text Mining, Text Processing ou ainda Text Analytics, é um processo semiautomatizado para extração de conhecimento de fontes de dados não-estruturados. ■ O processo consiste em criar datasets de documentos (chamados ‘corpus’) e transformar a informação contida nos mesmos em uma matriz numérica. A partir daí, segue-se o caminho usual da Mineração de Dados ■ A diferença está na natureza dos dados analisados: os dados não-estruturados apresentam-se em forma de documentos de Word, arquivos PDF, fragmentos de texto, arquivos XML, etc. Ou seja, para realizar Mineração de Texto, primeiro é preciso estruturar os dados e depois extrair os insights. ■ Benefícios: ■ no direito (sentenças judiciais); ■ pesquisa acadêmica (artigos científicos); ■ finanças (relatórios trimestrais); ■ medicina (relatórios de alta); ■ tecnologia (depósitos de patentes); ■ entre outros. ■ Referências 15 ■ Referências Gráficas × Icons8.com.br ■ Design e Diagramação por: × Charleson Guedes ■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons, 2011. ■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995. ■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004. ■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems. ■ Data Mining usando o KNIME – From Words to Wisdom; Autores: Vincenzo Tursi e Rosaria Silipo 2 Tarefas de Mineração 3 Aprendizado 4 ■ Ano: 2018 Banca: FCC Órgão: TCE/RS Prova: Auditor Público Externo 5 ■ O modelo de referência CRISP-DM tem seu ciclo de vida estruturado nas seguintes 6 fases: a. Estruturação do Negócio, Limpeza dos Dados, Indicação das Métricas, Modelagem, Estimativa e Exportação dos Dados. b. Otimização do Negócio, Redução dos Dados, Replicação dos Dados, Modelagem, Importação dos Dados e Backup. c. Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e Implantação. d. Preparação do Negócio, Replicação dos Dados, Indexação dos Dados, Diagramação do Negócio, Estimativa e Organização. e. Otimização do Negócio, Entendimento dos Dados, Indexação dos Dados, Exportação dos Dados, Organização e Importação dos Dados. ■ Ano: 2018 Banca: FCC Órgão: TCE/RS Prova: Auditor Público Externo 6 ■ O modelo de referência CRISP-DM tem seu ciclo de vida estruturado nas seguintes 6 fases: a. Estruturação do Negócio, Limpeza dos Dados, Indicação das Métricas, Modelagem, Estimativa e Exportação dos Dados. b. Otimização do Negócio, Redução dos Dados, Replicação dos Dados, Modelagem, Importação dos Dados e Backup. c. Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e Implantação. d. Preparação do Negócio, Replicação dos Dados, Indexação dos Dados, Diagramação do Negócio, Estimativa e Organização. e. Otimização do Negócio, Entendimento dos Dados, Indexação dos Dados, Exportação dos Dados, Organização e Importação dos Dados. ■ Ano: 2017 Banca: CESPE Órgão: TCE/PA Prova: Auditor de Controle Externo – Área Informática 7 ■ Julgue o item subsequente, acerca de segurança da informação de um SGBD e de um BI (Business Intelligence). CRISP-DM é uma metodologia proprietária que identifica as fases Business Understanding e Data Understanding na implantação de um projeto de data mining. ( )CERTO ( )ERRADO ■ Ano: 2017 Banca: CESPE Órgão: TCE/PA Prova: Auditor de Controle Externo – Área Informática 8 ■ Julgue o item subsequente, acerca de segurança da informação de um SGBD e de um BI (Business Intelligence). CRISP-DM é uma metodologia proprietária que identifica as fases Business Understanding e Data Understanding na implantação de um projeto de data mining. ( )CERTO ( X )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: DPF Prova: Polícia Federal – Perito Criminal – Conhecimentos Básicos 9 ■ Acerca de banco de dados, julgue o seguinte item. Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina. ( )CERTO ( )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: DPF Prova: Polícia Federal – Perito Criminal – Conhecimentos Básicos 10 ■ Acerca de banco de dados, julgue o seguinte item. Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina. ( X )CERTO ( )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: IPHAN Prova: Analista I – Área 7 11 ■ Julgue o item que se segue, a respeito de tecnologias de sistemas de informação. Na busca de padrões no data mining, é comum a utilização do aprendizado não supervisionado, em que um agente externo apresenta ao algoritmo alguns conjuntos de padrões de entrada e seus correspondentes padrões de saída, comparando-se a resposta fornecida pelo algoritmo com a resposta esperada. ( )CERTO ( )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: IPHAN Prova: Analista I – Área 7 12 ■ Julgue o item que se segue, a respeito de tecnologias de sistemas de informação. Na busca de padrões no data mining, é comum a utilização do aprendizado não supervisionado, em que um agente externo apresenta ao algoritmo alguns conjuntos de padrões de entrada e seus correspondentes padrões de saída, comparando-se a resposta fornecida pelo algoritmo com a resposta esperada. ( )CERTO ( X )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: STJ Prova: Técnico Judiciário – Desenvolvimento de Sistemas 13 ■ Julgue o item que se segue, acerca de data mining e data warehouse. O processo de mineração de dados estáintrinsecamente ligado às dimensões e a fato, tendo em vista que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado dentro dos data warehouses. ( )CERTO ( )ERRADO ■ Ano: 2018 Banca: CESPE Órgão: STJ Prova: Técnico Judiciário – Desenvolvimento de Sistemas 14 ■ Julgue o item que se segue, acerca de data mining e data warehouse. O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em vista que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado dentro dos data warehouses. ( )CERTO ( X )ERRADO ■ Ano: 2019 Banca: FCC Órgão: SEFAZ/BA Prova: Auditor Fiscal – Administração Tributária – Prova II 15 ■ Além dos indicadores reativos que, uma vez implantados, automaticamente detectam as ocorrências com base nos indicadores mapeados, existem também os controles proativos, que requerem que os gestores os promovam periodicamente. Uma das técnicas que os gestores podem usar requer que sejam selecionadas, exploradas e modeladas grandes quantidades de dados para revelar padrões, tendências e relações que podem ajudar a identificar casos de fraude e corrupção. Relações ocultas entre pessoas, entidades e eventos são identificadas e as relações suspeitas podem ser encaminhadas para apuração específica. As anomalias apontadas por esse tipo de técnica não necessariamente indicam a ocorrência de fraude e corrupção, mas eventos singulares que merecem avaliação individualizada para a exclusão da possibilidade de fraude e corrupção e, no caso da não exclusão, uma investigação. (Adaptado de: TCU - Tribunal de Contas da União) a. Data Mart b. Data Warehousing c. Big Data d. OLAP e. Data Mining ■ Ano: 2019 Banca: FCC Órgão: SEFAZ/BA Prova: Auditor Fiscal – Administração Tributária – Prova II 16 ■ Além dos indicadores reativos que, uma vez implantados, automaticamente detectam as ocorrências com base nos indicadores mapeados, existem também os controles proativos, que requerem que os gestores os promovam periodicamente. Uma das técnicas que os gestores podem usar requer que sejam selecionadas, exploradas e modeladas grandes quantidades de dados para revelar padrões, tendências e relações que podem ajudar a identificar casos de fraude e corrupção. Relações ocultas entre pessoas, entidades e eventos são identificadas e as relações suspeitas podem ser encaminhadas para apuração específica. As anomalias apontadas por esse tipo de técnica não necessariamente indicam a ocorrência de fraude e corrupção, mas eventos singulares que merecem avaliação individualizada para a exclusão da possibilidade de fraude e corrupção e, no caso da não exclusão, uma investigação. (Adaptado de: TCU - Tribunal de Contas da União) a. Data Mart b. Data Warehousing c. Big Data d. OLAP e. Data Mining ■ Ano: 2018 Banca: FCC Órgão: DPE/AM Prova: Analista de Banco de Dados 17 ■ Dentre os algoritmos utilizados em data mining, há um algoritmo que visa o estabelecimento de categorias, a partir do conjunto de dados, bem como a distribuição dos dados nas categorias estabelecidas. Essa descrição corresponde aos algoritmos de: a. Classificação b. Sumarização c. Visualização d. Evolução e. Detecção de Desvios ■ Ano: 2018 Banca: FCC Órgão: DPE/AM Prova: Analista de Banco de Dados 18 ■ Dentre os algoritmos utilizados em data mining, há um algoritmo que visa o estabelecimento de categorias, a partir do conjunto de dados, bem como a distribuição dos dados nas categorias estabelecidas. Essa descrição corresponde aos algoritmos de: a. Classificação b. Sumarização c. Visualização d. Evolução e. Detecção de Desvios ■ Ano: 2017 Banca: FCC Órgão: DPE/RS Prova: Analista de Banco de Dados 19 ■ Uma das técnicas bastante utilizadas em sistemas de apoio à decisão é o Data Mining, que se constitui em uma técnica: a. para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos, importantes à aplicação. b. para se realizar a criptografia inteligente de dados, objetivando a proteção da informação. c. que visa sua distribuição e replicação em um cluster de servidores, visando aprimorar a disponibilidade de dados. d. de compactação de dados, normalmente bastante eficiente, permitindo grande desempenho no armazenamento de dados. e. de transmissão e recepção de dados que permite a comunicação entre servidores, em tempo real. ■ Ano: 2017 Banca: FCC Órgão: DPE/RS Prova: Analista de Banco de Dados 20 ■ Uma das técnicas bastante utilizadas em sistemas de apoio à decisão é o Data Mining, que se constitui em uma técnica: a. para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos, importantes à aplicação. b. para se realizar a criptografia inteligente de dados, objetivando a proteção da informação. c. que visa sua distribuição e replicação em um cluster de servidores, visando aprimorar a disponibilidade de dados. d. de compactação de dados, normalmente bastante eficiente, permitindo grande desempenho no armazenamento de dados. e. de transmissão e recepção de dados que permite a comunicação entre servidores, em tempo real. ■ Ano: 2015 Banca: FCC Órgão: CNPM Prova: Analista do CNMP 21 ■ Em relação às ferramentas de Data Discovery e os fundamentos de Data Mining, é correto afirmar: a. As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa, dentre outras. b. Data Mining é o processo de descobrir conhecimento em banco de dados, que envolve várias etapas. O KDD – Knowledge Discovery in Database é uma destas etapas, portanto, a mineração de dados é um conceito que abrange o KDD. c. A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na busca de relações entre os dados. De forma geral, existem três tipos de técnicas: Estatísticas, Exploratórias e Intuitivas. Todas são devidamente experimentadas e validadas para o processo de mineração. d. Os dados podem ser não estruturados (bancos de dados, CRM, ERP), estruturados (texto, documentos, arquivos, mídias sociais, cloud) ou uma mistura de ambos (emails, SOA/web services, RSS). As ferramentas de Data Discovery mais completas possuem conectividade para todas essas origens de dados de forma segura e controlada. e. Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são do tipo estruturado. Existem diversas ferramentas open source e comerciais de Data Discovery. Dentre as open source está a InfoSphere Data Explorer e entre as comerciais está a Vivisimo da IBM. ■ Ano: 2015 Banca: FCC Órgão: CNPM Prova: Analista do CNMP 22 ■ Em relação às ferramentas de Data Discovery e os fundamentos de Data Mining, é correto afirmar: a. As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa, dentre outras. b. Data Mining é o processo de descobrir conhecimento em banco de dados, que envolve várias etapas. O KDD – Knowledge Discovery in Database é uma destas etapas, portanto, a mineração de dados é um conceito que abrange o KDD. c. A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na busca de relações entre os dados. De forma geral, existem três tipos de técnicas: Estatísticas, Exploratórias e Intuitivas. Todas são devidamente experimentadas e validadas para o processo de mineração. d. Os dados podem ser não estruturados (bancos de dados, CRM, ERP), estruturados (texto, documentos, arquivos, mídias sociais, cloud) ou uma mistura de ambos (emails, SOA/web services, RSS). As ferramentas de Data Discovery mais completas possuem conectividade para todas essas origens de dados de forma segura e controlada. e. Estima-se que,atualmente, em média, 80% de todos os dados disponíveis são do tipo estruturado. Existem diversas ferramentas open source e comerciais de Data Discovery. Dentre as open source está a InfoSphere Data Explorer e entre as comerciais está a Vivisimo da IBM. ■ Referências 23 ■ Referências Gráficas × Icons8.com.br ■ Design e Diagramação por: × Charleson Guedes ■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons, 2011. ■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995. ■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004. ■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems.
Compartilhar