Buscar

Business Intelligence - Data Mining

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

2
■ Mineração de Dados - Conceito
3
■ É um processo onde o objetivo é revisar e processar grandes quantidades de dados com o intuito 
de descobrir padrões, descobrir algo que seja desconhecido ou correlações importantes que podem 
ser cruciais para as organizações.
■ As ferramentas de procuram aplicar técnicas relacionadas a estatísticas em grandes quantidades 
de dados armazenados, com o objetivo de procurar os padrões que citamos.
■ Mineração de Dados - Conceito
4
■ O processo de minerar dados para descobrir conexões escondidas e prever tendências futuras tem 
uma longa história.
■ Sua base compreende três disciplinas científicas entrelaçadas que
existem há tempos:
■ estatística (o estudo numérico das relações entre dados), inteligência artificial (inteligência exibida por 
softwares e/ou máquinas, que se assemelha à humana) e aprendizado de máquina (algoritmos que podem 
aprender com dados para realizar previsões).
■ Iremos conhecer três técnicas: KDD, CRISP-DM e SEMMA.
■ Mineração de Dados – Áreas Relacionadas
5
Data 
Mining
Visualização
Machine
Learning/IA
EstatísticaBanco de Dados
■ KDD
6
■ Segundo Fayyad (1996), o processo de Descoberta de Conhecimento em Banco de 
Dados, do inglês Knowledge Discovery in Database (KDD), é definido como um processo 
não-trivial de identificação de padrões e válidos, novos, potencialmente úteis e 
compreensíveis a partir de dados.
■ Afinal, o que são padrões?
7
■ Podemos definir um padrão como sendo uma unidade de informação
que se repete, ou, uma sequência de informações que possuem uma estrutura que se repete.
■ KDD
8
■ Agora que já temos nossos dados
extraídos, transformados e carregados
em Data Marts ou em Data Warehouses
a próxima etapa é definir os tipos de
tarefas e técnicas que serão utilizadas
para extração de padrões, sempre
considerando o objetivo do processo.
■ Neste ponto devemos utilizar as técnicas
de Mineração de Dados, onde iremos
explorar os dados que estão
armazenados em nossos repositórios.
■ Com a técnica escolhida, vamos em busca
dos padrões tão desejados, que não são
intuitivos, dentre os dados que
armazenamos em nossos repositórios.
Podemos chamar esta etapa de
Mineração !!!
Fique atento pois nesse momento
se entende que a mineração é
apenas uma parte do processo de
KDD.
■ Processo KDD (Knowledge Discovery in Databases)
9
Processo de Descoberta de Conhecimento em Banco de Dados
■ Processo KDD (Knowledge Discovery in Databases)
10
Processo de Descoberta de Conhecimento em Banco de Dados
■ Seleção - Criação de um conjunto de dados para uso no processo, através da seleção dos dados com 
atributos úteis.
■ Processo KDD (Knowledge Discovery in Databases)
11
Processo de Descoberta de Conhecimento em Banco de Dados
■ Pré-Processamento - Operações básicas de limpeza, remoção de outliers, eliminação de registros 
duplicados, etc
■ Processo KDD (Knowledge Discovery in Databases)
12
Processo de Descoberta de Conhecimento em Banco de Dados
■ Transformação - Transformação de dados e Redução de Variáveis, selecionando atributos relevantes 
para representar adequadamente os dados, sem perda de precisão.
■ Processo KDD (Knowledge Discovery in Databases)
13
Processo de Descoberta de Conhecimento em Banco de Dados
■ Data Mining - Mineração dos dados propriamente dita, por meio do uso de algoritmos, em busca de 
padrões úteis e relevantes para a tomada de decisão; 
■ Processo KDD (Knowledge Discovery in Databases)
14
Processo de Descoberta de Conhecimento em Banco de Dados
■ Interpretação e Avaliação- – Interpretação dos resultados da mineração de dados, incluindo a 
avaliação dos padrões e regras, obtidos pelo processo de mineração.
■ Ano: 2011 Banca: FCC Órgão: Infraero
Prova: Administrador de Banco de Dados
15
■ No âmbito da descoberta do conhecimento (KDD), a visão geral das etapas que constituem o 
processo KDD (Fayyad) e que são executadas de forma interativa e iterativa apresenta a seguinte 
sequência de etapas:
a. seleção, pré-processamento, transformação, data mining e interpretação/avaliação.
b. seleção, transformação, pré-processamento, interpretação/avaliação e data mining.
c. data warehousing, star modeling, ETL, OLAP e data mining.
d. ETL, data warehousing, pré-processamento, transformação e star modeling.
e. OLAP, ETL, star modeling, data mining e interpretação/avaliação.
■ Ano: 2011 Banca: FCC Órgão: Infraero
Prova: Administrador de Banco de Dados
16
■ No âmbito da descoberta do conhecimento (KDD), a visão geral das etapas que constituem o 
processo KDD (Fayyad) e que são executadas de forma interativa e iterativa apresenta a seguinte 
sequência de etapas:
a. seleção, pré-processamento, transformação, data mining e interpretação/avaliação.
b. seleção, transformação, pré-processamento, interpretação/avaliação e data mining.
c. data warehousing, star modeling, ETL, OLAP e data mining.
d. ETL, data warehousing, pré-processamento, transformação e star modeling.
e. OLAP, ETL, star modeling, data mining e interpretação/avaliação.
■ Referências
17
■ Referências Gráficas
× Icons8.com.br
■ Design e Diagramação por:
× Charleson Guedes
■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & 
Sons, 2011.
■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995.
■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004.
■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems.
2
■ CRISP-DM
3
■ CRISP-DM é a abreviação de Cross Industry Standard Process for Data Mining que, trazendo para 
o português, pode ser entendida como processo padrão da indústria cruzada para mineração de 
dados.
■ Essa é uma metodologia capaz de transformar os dados da empresa em conhecimento e 
informações de gerenciamento.
■ O modelo CRISP-DM busca desenvolver um modelo de processo capaz de funcionar em qualquer 
tipo de indústria, gratuito e não-proprietário.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
4
■ Segundo Olson (2008), o
processo CRISP-DM consiste em
seis fases organizadas de
maneira cíclica, conforme
mostra a figura. Apesar de ser
composto por fases, seu fluxo
não é unidirecional, podendo ir
e voltar entre suas fases.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
5
■ CRISP/DM é um processo padrão para 
esforços de mineração de dados, que inclui:
■ Uma metodologia, descrevendo fases, 
tarefas relacionadas a
cada fase, bem como os relacionamentos 
entre elas.
■ Um modelo de processo, provendo um 
ciclo de vida de
mineração de dados.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
6
■ Entendimento dos Negócios – Entender 
qual é o objetivo que se
deseja atingir com a mineração de dados.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
7
■ Entendimento dos Dados – Identificar os 
dados relevantes para o problema e 
certificar-se que as variáveis selecionadas não 
são
interdependentes.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
8
■ Preparação dos Dados – Esse processo 
envolve limpeza, filtro e
preenchimento de valores vazios.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
9
■Modelagem – É neste fase que as técnicas 
de mineração de dados
serão aplicadas.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
10
■ Avaliação – Fase crítica do processo. Exige 
a participação de
especialistas nos dados, conhecedores do 
negócio e tomadores de decisão. Visa 
avaliar a confiabilidade do modelo.
■ (Cross-Industry Standard Process of Data Mining)
■ CRISP-DM
11
■ Implantação – Após executado o modelo 
com dados reais e completos é preciso que os 
envolvidos conheçam os resultados gerados.
■ (Cross-Industry Standard Process of Data Mining)
■ Ano: 2017 Banca: CESPE Órgão: TCE-PE
Prova: Auditoria de Obras Públicas
12
■ Julgue o seguinteitem, que se refere a CRISP-DM (Cross-Industry Standard Process of Data 
Mining).
Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a 
identificação dos dados e verificar se as variáveis relevantes para o projeto não são 
interdependentes.
( )CERTO ( )ERRADO
■ Ano: 2017 Banca: CESPE Órgão: TCE-PE
Prova: Auditoria de Obras Públicas
13
■ Julgue o seguinte item, que se refere a CRISP-DM (Cross-Industry Standard Process of Data 
Mining).
Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a 
identificação dos dados e verificar se as variáveis relevantes para o projeto não são 
interdependentes.
( )CERTO ( X )ERRADO
Justificativa:
Durante a etapa de entendimento do negócio, ou compreensão do negócio (Business Understanding), o objetivo é obter conhecimento sobre os objetivos do negócio e seus 
requisitos, e então converter esse conhecimento em uma definição de um problema de mineração de dados, e um plano preliminar designado para alcançar esses objetivos.
Durante a etapa de seleção de dados, ou compreensão de dado (Data Understanding), o objetivo é entender os dados, que visa à familiarização com o banco de dados pelo grupo 
de projeto, utilizando-se de conjuntos de dados modelo
■ SEMMA
14
■ Trata de outra metodologia muito utilizada, criada pela SAS Instituto. É um acrônimo que significa 
Amostrar, Explorar, Modificar, Modelar e Avaliar, do inglês Sample, Explore, Modify, Model e 
Assess (SEMMA).
■ A SEMMA é parecida com a CRISP-DM em muitos aspectos, mas é focada, principalmente, nas 
tarefas de criação do modelo, deixando de fora as questões de negócio.
■ SEMMA
15
■ A SEMMA é parecida com
a CRISP-DM em muitos
aspectos, mas é focada,
principalmente, nas
tarefas de criação do
modelo, deixando de fora
as questões de negócio.
■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal
Prova: Agente de Polícia Federal
16
■ Julgue o item que segue, relativo a noções de mineração de dados,
big data e aprendizado de máquina.
Pode-se definir mineração de dados como o processo de identificar,
em dados, padrões válidos, novos, potencialmente úteis e, ao final,
compreensíveis.
( )CERTO ( )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal
Prova: Agente de Polícia Federal
17
■ Julgue o item que segue, relativo a noções de mineração de dados,
big data e aprendizado de máquina.
Pode-se definir mineração de dados como o processo de identificar,
em dados, padrões válidos, novos, potencialmente úteis e, ao final,
compreensíveis.
( X )CERTO ( )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal
Prova: Perito Criminal Federal
18
■ Acerca de banco de dados, julgue o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um
dos objetivos da mineração de dados, que utiliza a estatística, a
inteligência artificial e os algoritmos de aprendizagem de máquina.
( )CERTO ( )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: Polícia Federal
Prova: Perito Criminal Federal
19
■ Acerca de banco de dados, julgue o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um
dos objetivos da mineração de dados, que utiliza a estatística, a
inteligência artificial e os algoritmos de aprendizagem de máquina.
( X )CERTO ( )ERRADO
■ Ano: 2015 Banca: CESPE Órgão: TCU
Prova: Auditor Federal de Controle Externo
20
■ No que concerne a data mining (mineração de dados) e big data,
julgue o seguinte item.
No ambiente organizacional, devido à grande quantidade de dados,
não é recomendado o emprego de data mining para atividades ligadas a marketing.
( )CERTO ( )ERRADO
■ Ano: 2015 Banca: CESPE Órgão: TCU
Prova: Auditor Federal de Controle Externo
21
■ No que concerne a data mining (mineração de dados) e big data,
julgue o seguinte item.
No ambiente organizacional, devido à grande quantidade de dados,
não é recomendado o emprego de data mining para atividades ligadas a marketing.
( )CERTO ( X )ERRADO
■ Ano: 2015 Banca: CESPE Órgão: DEPEN
Prova: Agente Penitenciário Federal
22
■ Acerca de datawarehouse e datamining, julgue o item subsequente.
Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem 
entre informações armazenadas em um grande repositório.
( )CERTO ( )ERRADO
■ Ano: 2015 Banca: CESPE Órgão: DEPEN
Prova: Agente Penitenciário Federal
23
■ Acerca de datawarehouse e datamining, julgue o item subsequente.
Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem 
entre informações armazenadas em um grande repositório.
( X )CERTO ( )ERRADO
■ Referências
24
■ Referências Gráficas
× Icons8.com.br
■ Design e Diagramação por:
× Charleson Guedes
■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & 
Sons, 2011.
■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995.
■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004.
■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems.
2
■ Tarefas de Mineração de Dados
3
■ Classificação
■ busca identificar a qual classe um determinado registro pertence.
■ O modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à 
qual classe pertence, a fim de ’aprender’ como classificar um novo registro (aprendizado 
supervisionado).
■ O modelo analisa os registros e então é capaz de dizer em qual categoria um novo item se encaixa.
■ Exemplos:
■ Classificar transações de cartão de crédito como legítima ou fraudulenta
■ Classificar clientes
■ Classificar notícias como financeira, esporte, política, entretenimento, clima, ... 
■ Classificação
4
Formação Idade Sexo Salário Classificação
Superior 30 M 20 BOM
Médio 35 F 15 RUIM
Superior 22 F 25 EXCELENTE
Médio 40 M 40 RUIM
Médio 27 F 30 BOM
Superior 34 F 50 EXCELENTE
Superior 55 M 29 RUIM
Formação Idade Sexo Salário Classificação Class-Model
Superior 30 M 20 BOM BOM
Médio 35 F 15 RUIM RUIM
Superior 22 F 25 EXCELENTE BOM
Cliente
Conjunto de Treinamento: 70%
Conjunto de Testes: 30%
Algorithm
Learning
Model
Learn
Model
Apply
Model
■ Classificação
5
Width-p Lenght-p Width-s Lenght-s label
4,6 3,2 1,4 0,2 Setosa
5,3 3,7 1,5 0,2 Setosa
5 3,3 1,4 0,2 Setosa
7 3,2 4,7 1,4 Versicolor
6,4 3,2 4,5 1,5 Versicolor
Problema de classificação de uma Íris (Flor)
■ 150 objetos: 50 de cada classe
■ 4 atributos: comprimento pétala, largura da pétala, comprimento da sépala, largura da sépala
■ 3 classes: setosa, versicolor, virginica
■ Classificação
6
Age CarType Risk
20 SUV High
18 Sports High
40 Sports High
50 Family Low
35 Minivan Low
30 SUV High
32 Family Low
40 SUV Low
Decision Tree (Árvore de Decisão)
■ Tarefas de Mineração de Dados
7
■ Regressão
■ Regressão é uma técnica de mineração de dados usada para ajustar uma equação a um conjunto 
de dados. A forma mais simples de uma regressão é regressão linear, que utiliza a fórmula y = mx + b
e determina o valor apropriado para m e b com o objetivo de prever um valor de x, dado um valor de 
y. 
■ Tarefas de Mineração de Dados
8
■ Agrupamento(Clustering)
■ Clustering é uma técnica de particionar um conjunto de dados em um conjunto de subclasses, 
chamadas de clusters.
■ O agrupamento ajuda os usuários a entenderem natural ou estruturado de um conjunto de dados.
■ Clustering é um tipo de aprendizado não-supervisionado, uma vez que não existem classes pré-
definidas. 
■ Tarefas de Mineração de Dados
9
■ Associação(Association)
■ A tarefa de associação consiste em identificar quais atributos estão relacionados.
■ Apresentam-se da seguinte forma: SE atributo X ENTÃO atributo Y.
■ É uma das tarefas mais conhecidas devido aos bons resultados obtidos, principalmente nas 
análises da "Cestas de Compras"(Market Basket), onde identificamos quais produtossão levados 
juntos pelos consumidores. 
■ Alguns Exemplos: 
■ Avaliar quais produtos estão associados nas vendas.
■ Determinar os casos onde um novo medicamento pode apresentar efeitos colaterais.
■ Identificar os usuários de planos que respondem bem a oferta de novos serviços. 
■ Tarefas de Mineração de Dados
10
■ Associação(Association Rules)
■ Dado um conjunto de transações, encontre regras que irão prever a ocorrência de um item baseado na 
ocorrência de outros itens presentes na transação.
■ Uma regra de associação é um relacionamento X → Y (SE X ENTÃO Y), onde X e Y são conjuntos de itens, 
com interseção vazia.
■ Support (s) - Fração das transações que contém X e Y
■ Confidence (c) – Mede quanto frequente o item Y ocorre nas transações que contem X.
TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Market-Basket transactions
Example of Association Rules
{Diaper} → {Beer}
{Milk, Bread} → {Eggs, Coke}
{Beer, Bread} → {Milk}
Implication means co-occurence, not causality!
■ Tarefas de Mineração de Dados
11
TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Market-Basket transactions
Example of Association Rules
{Diaper} → {Beer}
{Milk, Bread} → {Eggs, Coke}
{Beer, Bread} → {Milk}
Implication means co-occurence, not causality!
■ Outliers
12
■ Os outliers são dados que se diferenciam drasticamente de todos os outros, são pontos 
fora da curva normal (o que é curva normal?).
■ Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente 
irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.
■ Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:
■ Os outliers podem aviesar negativamente todo o resultado de uma análise;
■ o comportamento dos outliers pode ser justamente o que está sendo procurado.
■ Alguns Exemplos: 
■ dados discrepantes;
■ pontos fora da curva;
■ observações fora do comum;
■ anomalias;
■ valores atípicos;
■ entre outros.
13
■ Outliers
■ Mineração de Texto
14
■ Também conhecida por Text Mining, Text Processing ou ainda Text Analytics, é um processo 
semiautomatizado para extração de conhecimento de fontes de dados não-estruturados.
■ O processo consiste em criar datasets de documentos (chamados ‘corpus’) e transformar a informação 
contida nos mesmos em uma matriz numérica. A partir daí, segue-se o caminho usual da Mineração de Dados
■ A diferença está na natureza dos dados analisados: os dados não-estruturados apresentam-se em forma de 
documentos de Word, arquivos PDF, fragmentos de texto, arquivos XML, etc. Ou seja, para realizar Mineração 
de Texto, primeiro é preciso estruturar os dados e depois extrair os insights.
■ Benefícios: 
■ no direito (sentenças judiciais);
■ pesquisa acadêmica (artigos científicos);
■ finanças (relatórios trimestrais);
■ medicina (relatórios de alta);
■ tecnologia (depósitos de patentes);
■ entre outros.
■ Referências
15
■ Referências Gráficas
× Icons8.com.br
■ Design e Diagramação por:
× Charleson Guedes
■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & 
Sons, 2011.
■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995.
■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004.
■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems.
■ Data Mining usando o KNIME – From Words to Wisdom; Autores: Vincenzo Tursi e Rosaria Silipo
2
Tarefas de Mineração
3
Aprendizado
4
■ Ano: 2018 Banca: FCC Órgão: TCE/RS
Prova: Auditor Público Externo
5
■ O modelo de referência CRISP-DM tem seu ciclo de vida estruturado nas seguintes 6 fases:
a. Estruturação do Negócio, Limpeza dos Dados, Indicação das Métricas, Modelagem, Estimativa 
e Exportação dos Dados.
b. Otimização do Negócio, Redução dos Dados, Replicação dos Dados, Modelagem, Importação 
dos Dados e Backup.
c. Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, 
Avaliação e Implantação.
d. Preparação do Negócio, Replicação dos Dados, Indexação dos Dados, Diagramação do 
Negócio, Estimativa e Organização.
e. Otimização do Negócio, Entendimento dos Dados, Indexação dos Dados, Exportação dos 
Dados, Organização e Importação dos Dados.
■ Ano: 2018 Banca: FCC Órgão: TCE/RS
Prova: Auditor Público Externo
6
■ O modelo de referência CRISP-DM tem seu ciclo de vida estruturado nas seguintes 6 fases:
a. Estruturação do Negócio, Limpeza dos Dados, Indicação das Métricas, Modelagem, Estimativa 
e Exportação dos Dados.
b. Otimização do Negócio, Redução dos Dados, Replicação dos Dados, Modelagem, Importação 
dos Dados e Backup.
c. Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, 
Avaliação e Implantação.
d. Preparação do Negócio, Replicação dos Dados, Indexação dos Dados, Diagramação do 
Negócio, Estimativa e Organização.
e. Otimização do Negócio, Entendimento dos Dados, Indexação dos Dados, Exportação dos 
Dados, Organização e Importação dos Dados.
■ Ano: 2017 Banca: CESPE Órgão: TCE/PA
Prova: Auditor de Controle Externo – Área Informática
7
■ Julgue o item subsequente, acerca de segurança da informação de um SGBD e de um BI 
(Business Intelligence).
CRISP-DM é uma metodologia proprietária que identifica as fases Business
Understanding e Data Understanding na implantação de um projeto de data mining.
( )CERTO ( )ERRADO
■ Ano: 2017 Banca: CESPE Órgão: TCE/PA
Prova: Auditor de Controle Externo – Área Informática
8
■ Julgue o item subsequente, acerca de segurança da informação de um SGBD e de um BI 
(Business Intelligence).
CRISP-DM é uma metodologia proprietária que identifica as fases Business
Understanding e Data Understanding na implantação de um projeto de data mining.
( )CERTO ( X )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: DPF
Prova: Polícia Federal – Perito Criminal – Conhecimentos Básicos
9
■ Acerca de banco de dados, julgue o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de 
dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de 
máquina.
( )CERTO ( )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: DPF
Prova: Polícia Federal – Perito Criminal – Conhecimentos Básicos
10
■ Acerca de banco de dados, julgue o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de 
dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de 
máquina.
( X )CERTO ( )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: IPHAN
Prova: Analista I – Área 7
11
■ Julgue o item que se segue, a respeito de tecnologias de sistemas de informação.
Na busca de padrões no data mining, é comum a utilização do aprendizado não supervisionado, 
em que um agente externo apresenta ao algoritmo alguns conjuntos de padrões de entrada e seus 
correspondentes padrões de saída, comparando-se a resposta fornecida pelo algoritmo com a 
resposta esperada.
( )CERTO ( )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: IPHAN
Prova: Analista I – Área 7
12
■ Julgue o item que se segue, a respeito de tecnologias de sistemas de informação.
Na busca de padrões no data mining, é comum a utilização do aprendizado não supervisionado, 
em que um agente externo apresenta ao algoritmo alguns conjuntos de padrões de entrada e seus 
correspondentes padrões de saída, comparando-se a resposta fornecida pelo algoritmo com a 
resposta esperada.
( )CERTO ( X )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: STJ
Prova: Técnico Judiciário – Desenvolvimento de Sistemas
13
■ Julgue o item que se segue, acerca de data mining e data warehouse.
O processo de mineração de dados estáintrinsecamente ligado às dimensões e a fato, tendo em 
vista que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja 
executado dentro dos data warehouses.
( )CERTO ( )ERRADO
■ Ano: 2018 Banca: CESPE Órgão: STJ
Prova: Técnico Judiciário – Desenvolvimento de Sistemas
14
■ Julgue o item que se segue, acerca de data mining e data warehouse.
O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em 
vista que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja 
executado dentro dos data warehouses.
( )CERTO ( X )ERRADO
■ Ano: 2019 Banca: FCC Órgão: SEFAZ/BA
Prova: Auditor Fiscal – Administração Tributária – Prova II
15
■ Além dos indicadores reativos que, uma vez implantados, automaticamente detectam as ocorrências com base nos 
indicadores mapeados, existem também os controles proativos, que requerem que os gestores os promovam 
periodicamente. Uma das técnicas que os gestores podem usar requer que sejam selecionadas, exploradas e modeladas 
grandes quantidades de dados para revelar padrões, tendências e relações que podem ajudar a identificar casos de 
fraude e corrupção. Relações ocultas entre pessoas, entidades e eventos são identificadas e as relações suspeitas podem 
ser encaminhadas para apuração específica. As anomalias apontadas por esse tipo de técnica não necessariamente 
indicam a ocorrência de fraude e corrupção, mas eventos singulares que merecem avaliação individualizada para a 
exclusão da possibilidade de fraude e corrupção e, no caso da não
exclusão, uma investigação. (Adaptado de: TCU - Tribunal de Contas da União)
a. Data Mart
b. Data Warehousing
c. Big Data
d. OLAP
e. Data Mining
■ Ano: 2019 Banca: FCC Órgão: SEFAZ/BA
Prova: Auditor Fiscal – Administração Tributária – Prova II
16
■ Além dos indicadores reativos que, uma vez implantados, automaticamente detectam as ocorrências com base nos 
indicadores mapeados, existem também os controles proativos, que requerem que os gestores os promovam 
periodicamente. Uma das técnicas que os gestores podem usar requer que sejam selecionadas, exploradas e modeladas 
grandes quantidades de dados para revelar padrões, tendências e relações que podem ajudar a identificar casos de 
fraude e corrupção. Relações ocultas entre pessoas, entidades e eventos são identificadas e as relações suspeitas podem 
ser encaminhadas para apuração específica. As anomalias apontadas por esse tipo de técnica não necessariamente 
indicam a ocorrência de fraude e corrupção, mas eventos singulares que merecem avaliação individualizada para a 
exclusão da possibilidade de fraude e corrupção e, no caso da não
exclusão, uma investigação. (Adaptado de: TCU - Tribunal de Contas da União)
a. Data Mart
b. Data Warehousing
c. Big Data
d. OLAP
e. Data Mining
■ Ano: 2018 Banca: FCC Órgão: DPE/AM
Prova: Analista de Banco de Dados
17
■ Dentre os algoritmos utilizados em data mining, há um algoritmo que visa o estabelecimento de 
categorias, a partir do conjunto de dados, bem como a distribuição dos dados nas categorias 
estabelecidas. 
Essa descrição corresponde aos algoritmos de:
a. Classificação
b. Sumarização
c. Visualização
d. Evolução
e. Detecção de Desvios
■ Ano: 2018 Banca: FCC Órgão: DPE/AM
Prova: Analista de Banco de Dados
18
■ Dentre os algoritmos utilizados em data mining, há um algoritmo que visa o estabelecimento de 
categorias, a partir do conjunto de dados, bem como a distribuição dos dados nas categorias 
estabelecidas. 
Essa descrição corresponde aos algoritmos de:
a. Classificação
b. Sumarização
c. Visualização
d. Evolução
e. Detecção de Desvios
■ Ano: 2017 Banca: FCC Órgão: DPE/RS
Prova: Analista de Banco de Dados
19
■ Uma das técnicas bastante utilizadas em sistemas de apoio à decisão é o Data Mining, que se 
constitui em uma técnica:
a. para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos, 
importantes à aplicação.
b. para se realizar a criptografia inteligente de dados, objetivando a proteção da informação.
c. que visa sua distribuição e replicação em um cluster de servidores, visando aprimorar a 
disponibilidade de dados.
d. de compactação de dados, normalmente bastante eficiente, permitindo grande desempenho 
no armazenamento de dados.
e. de transmissão e recepção de dados que permite a comunicação entre servidores, em tempo 
real.
■ Ano: 2017 Banca: FCC Órgão: DPE/RS
Prova: Analista de Banco de Dados
20
■ Uma das técnicas bastante utilizadas em sistemas de apoio à decisão é o Data Mining, que se 
constitui em uma técnica:
a. para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos, 
importantes à aplicação.
b. para se realizar a criptografia inteligente de dados, objetivando a proteção da informação.
c. que visa sua distribuição e replicação em um cluster de servidores, visando aprimorar a 
disponibilidade de dados.
d. de compactação de dados, normalmente bastante eficiente, permitindo grande desempenho 
no armazenamento de dados.
e. de transmissão e recepção de dados que permite a comunicação entre servidores, em tempo 
real.
■ Ano: 2015 Banca: FCC Órgão: CNPM
Prova: Analista do CNMP
21
■ Em relação às ferramentas de Data Discovery e os fundamentos de Data Mining, é correto afirmar:
a. As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses 
tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica 
nebulosa, dentre outras.
b. Data Mining é o processo de descobrir conhecimento em banco de dados, que envolve várias etapas. O KDD – Knowledge
Discovery in Database é uma destas etapas, portanto, a mineração de dados é um conceito que abrange o KDD.
c. A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na busca de relações entre os dados. De forma 
geral, existem três tipos de técnicas: Estatísticas, Exploratórias e Intuitivas. Todas são devidamente experimentadas e 
validadas para o processo de mineração.
d. Os dados podem ser não estruturados (bancos de dados, CRM, ERP), estruturados (texto, documentos, arquivos, mídias 
sociais, cloud) ou uma mistura de ambos (emails, SOA/web services, RSS). As ferramentas de Data Discovery mais completas 
possuem conectividade para todas essas origens de dados de forma segura e controlada.
e. Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são do tipo estruturado. Existem diversas 
ferramentas open source e comerciais de Data Discovery. Dentre as open source está a InfoSphere Data Explorer e entre as 
comerciais está a Vivisimo da IBM.
■ Ano: 2015 Banca: FCC Órgão: CNPM
Prova: Analista do CNMP
22
■ Em relação às ferramentas de Data Discovery e os fundamentos de Data Mining, é correto afirmar:
a. As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses 
tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica 
nebulosa, dentre outras.
b. Data Mining é o processo de descobrir conhecimento em banco de dados, que envolve várias etapas. O KDD – Knowledge
Discovery in Database é uma destas etapas, portanto, a mineração de dados é um conceito que abrange o KDD.
c. A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na busca de relações entre os dados. De forma 
geral, existem três tipos de técnicas: Estatísticas, Exploratórias e Intuitivas. Todas são devidamente experimentadas e 
validadas para o processo de mineração.
d. Os dados podem ser não estruturados (bancos de dados, CRM, ERP), estruturados (texto, documentos, arquivos, mídias 
sociais, cloud) ou uma mistura de ambos (emails, SOA/web services, RSS). As ferramentas de Data Discovery mais completas 
possuem conectividade para todas essas origens de dados de forma segura e controlada.
e. Estima-se que,atualmente, em média, 80% de todos os dados disponíveis são do tipo estruturado. Existem diversas 
ferramentas open source e comerciais de Data Discovery. Dentre as open source está a InfoSphere Data Explorer e entre as 
comerciais está a Vivisimo da IBM.
■ Referências
23
■ Referências Gráficas
× Icons8.com.br
■ Design e Diagramação por:
× Charleson Guedes
■ KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & 
Sons, 2011.
■ INMON, William H. What is a data warehouse?. Prism Tech Topic, v. 1, n. 1, p. 1-5, 1995.
■ DATE, Christopher J. Introdução a sistemas de bancos de dados. Elsevier Brasil, 2004.
■ Elmarsi, R., & NAVATHE, S. B. (2011). Sistemas de banco de dados. Fundamentals of database systems.

Continue navegando