Buscar

Cópia de Cópia de 5220360-mineracao-de-dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ANÁLISE DE INFORMAÇÕES
Sefaz-df
Mineração de dados
http://www.grancursosonline.com.br
2 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
SUMÁRIO
Introdução ................................................................................................3
1. Noções de Mineração de Dados: Conceituação e Características ....................4
2. Modelo de Referência Crisp-DM .................................................................6
3. Técnicas para Pré-processamento de Dados ...............................................9
4. Técnicas e Tarefas de Mineração de Dados ...............................................15
5. Classificação ........................................................................................18
6. Regras de Associação ............................................................................19
7. Análise de Agrupamentos (Clusterização) .................................................20
8. Detecção de Anomalias ..........................................................................20
9. Modelagem Preditiva .............................................................................21
10. Aprendizado de Máquina ......................................................................23
11. Mineração de Texto .............................................................................24
Resumo ...................................................................................................30
Questões de Concurso ...............................................................................32
Gabarito ..................................................................................................42
Gabarito Comentado .................................................................................43
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
3 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Introdução
Conforme falamos anteriormente, o volume de dados não estruturados é imen-
samente maior, se comparado ao de dados estruturados. Para se ter uma ideia, 
estudos dizem que o conteúdo digital dobra a cada dois anos no mundo. 
Sendo assim, o que devemos fazer para conseguir obter conhecimento desse 
volume imenso de dados? Afinal, isso não é tarefa trivial, pois o tratamento de 
dados não estruturados é imensamente mais complexo. Técnicas tradicionais não 
resolvem o problema. Para extrair conhecimento desse volume de dados é preciso 
fazer correlações, identificar padrões e descobrir tendências entre eles.
Pensando nisso, foi proposta a Mineração de Dados (Data Mining, em inglês). 
Mas no que consiste o Data Mining?
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
4 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
1. NOÇÕES DE MINERAÇÃO DE DADOS: CONCEITUAÇÃO E CARAC-
TERÍSTICAS
Alguns tratam como novidade, mas, na verdade, é um conjunto de tecnologias 
relativamente antigo, proposto lá pelo fim dos anos 80. Continua evoluindo até 
hoje, principalmente pela sua estreita relação com o Big Data (que será detalhada-
mente abordado no próximo capítulo).
A mineração de dados consiste no uso de tecnologias e técnicas que permitem 
explorar grandes volumes de dados (geralmente referentes a negócios, pesquisas 
científicas ou análises de mercados), procurando por padrões e tendências, utili-
zando análises complexas. Ela utiliza algoritmos sofisticados para segmentar os 
dados e avaliar a probabilidade de ocorrência de determinados eventos. Ou seja, 
utilizando estatística, inteligência artificial e aprendizado de máquina, temos infini-
tas possibilidades para o conhecimento extraído dessa massa de dados.
A mineração de dados deve ser adotada para tornar mais eficiente o apoio à 
tomada de decisão. Os resultados das análises realizadas pelos processos de mi-
neração agregam valor a decisões estratégicas, uma vez que permitem detectar 
antecipadamente tendências, problemas, anomalias, enfim, vários itens que não 
puderam ser detectados por um ser humano. Desse modo, as ferramentas de mi-
neração analisam os dados, descobrem problemas ou oportunidades escondidas 
nos relacionamentos dos dados, definindo um padrão de comportamento. Com 
base nesse resultado, aquele que for usufruir dessa análise precisará se preocupar 
apenas em como utilizá-lo da melhor forma possível, pois o trabalho de garimpar 
os dados já foi realizado pela ferramenta de mineração de dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
5 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
A ideia da mineração de dados é: em vez do usuário definir o problema, sele-
cionar os dados e as ferramentas para analisar tais dados, o processo de minera-
ção pesquisa automaticamente os mesmos a procura de anomalias e possíveis re-
lacionamentos, identificando, assim, problemas que não tinham sido identificados 
pelo usuário.
Suas principais propriedades são:
• detecção automática de padrões;
• predição de eventos;
• geração de informação para ações práticas;
• foco em grandes conjuntos e bancos de dados.
Para se ter uma ideia da abrangência da aplicabilidade da mineração de dados, 
veja alguns exemplos em que ela pode ser utilizada nos mais diversos campos de 
atuação:
• seguros: seguradoras podem resolver problemas complexos relativos à frau-
de, conformidade, gerenciamento de riscos e atrito com os clientes, prevenir 
cancelamentos.
• educação: através da análise dos dados da evolução dos alunos, educadores 
podem montar planos de aula mais assertivos para o melhor desenvolvimento 
da turma;
• serviços financeiros: ajudar bancos a obter uma melhor visão dos riscos de 
mercado, detectar fraudes mais rápido, gerenciar obrigações de conformida-
de regulatória e identificar padrões para auxiliar no gerenciamento de rela-
cionamento com o cliente;
• Governo: dispondo dos dados corretos, o setor público pode tomar decisões 
mais rápidas nas áreas de segurança e saúde, reduzir fraudes na previdência 
e otimizar a gestão dos recursos públicos;
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
6 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• assistência médica: as seguradoras de saúde podem reduzir as reclamações 
de fraudes, integridades de pagamentos, os prestadores de serviços hospita-
lares podem prover diagnósticos mais precisos aos pacientes e os pacientes 
podem receber cuidados mais acessíveis e seguros;
• cartão de crédito: identificar segmentos de mercado, identificar padrões de 
rotatividade;
• medicina: indicação de diagnósticos mais precisos;
• recursos humanos:identificação de competências em currículos;
• tomada de decisão: filtrar as informações relevantes, fornecer indicadores de 
probabilidade.
O uso da Mineração de Dados permite, por exemplo, que:
• um supermercado melhore a disposição de seus produtos nas prateleiras, 
através do padrão de consumo de seus clientes;
• uma companhia de marketing direcione o envio de mensagens promocionais, 
obtendo melhores retornos;
• uma empresa aérea possa diferenciar seus serviços oferecendo um atendi-
mento personalizado;
• empresas planejem melhor a logística de distribuição dos seus produtos, pre-
vendo picos nas vendas;
• agências de viagens possam aumentar o volume de vendas direcionando seus 
pacotes a clientes com aquele perfil.
2. MODELO DE REFERÊNCIA CRISP-DM
CRISP-DM é a abreviação de CRoss Industry Standard Process for Data Mining, 
que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de 
Dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
7 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
É um modelo de processo de mineração de dados que descreve abordagens comu-
mente usadas por especialistas em mineração de dados para atacar problemas.
O padrão CRISP foi concebido por volta de 1996 e não se restringe a uma ferra-
menta ou tecnologia específica. Sua origem se deve principalmente à necessidade 
da geração de modelos com foco na qualidade através da padronização de concei-
tos e técnicas na busca de informações para a tomada de decisões.
Foi proposta uma metodologia que pudesse auxiliar os administradores e res-
ponsáveis pelos processos de planejar e executar a mineração de dados, engloban-
do desde a especificação do processo até a apresentação dos resultados obtidos.
O processo CRISP-DM consiste em seis fases, que são organizadas de maneira 
cíclica. Repare na figura abaixo que o fluxo entre as fases não possui sentido único. 
Podemos avançar ou voltar entre as fases, caso necessário.
Figura 1: Fases do padrão CRISP-DM
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
8 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
As fases do CRISP-DM são:
1. Entendimento do negócio: trata-se dos objetivos do projeto e requerimen-
tos para a perspectiva do negócio. Aqui, o foco é entender qual o objetivo que se 
deseja atingir com a mineração de dados. Essa fase é essencial para as seguintes. 
2. Entendimento dos dados: nesta fase, podemos ter várias fontes de dados 
armazenadas em locais distintos e com formatos diferentes. De posse dos dados a 
serem analisados, devemos buscar compreendê-los e organizá-los. Com base no 
que foi levantado na fase anterior, devemos identificar os dados relevantes para 
que nossos objetivos sejam alcançados.
3. Preparação dos dados: obviamente, os dados não entregarão facilmen-
te as informações que buscamos para cumprirmos nossos objetivos. Afinal, eles 
vêm de fontes e locais distintos, impossibilitando que a mineração de dados pos-
sa ser realizada. 
Não existe uma sequência de tarefas, nem um limite para que elas sejam exe-
cutadas. Dependendo da qualidade desses dados, um processo de limpeza pode 
ser necessário e, geralmente, envolve filtrar, combinar e preencher valores vazios.
4. Modelagem: é nesta fase que as técnicas (algoritmos) de mineração são 
aplicadas. Você pode aplicar uma ou mais técnicas, tudo depende do objetivo a ser 
alcançado. Aqui são criados modelos (equações ou outros modelos lógicos) que se 
pode usar para dar suporte às decisões de negócios.
5. Avaliação: seria a validação do que foi feito até o momento. Antes de fina-
lizarmos nosso projeto, é importante revisar o que foi feito até aqui para garantir 
que os objetivos levantados sejam atingidos. É nessa fase que descobrimos se os 
modelos são bons o suficiente. Veja novamente a figura e repare que a etapa de 
avaliação pode retornar para a etapa de entendimento do negócio, caso necessá-
rio. Um levantamento mal feito pode resultar em perda de tempo que poderia até 
inviabilizar o projeto. 
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
9 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Diversas ferramentas gráficas são utilizadas para a visualização e análise dos 
resultados (modelos). Testes e validações, visando obter a confiabilidade nos mo-
delos, devem ser executados; e indicadores para auxiliar a análise dos resultados 
precisam ser obtidos.
6. Implantação: fase onde ocorre a integração do modelo no dia a dia da em-
presa. O conhecimento adquirido pelo modelo é organizado e apresentado de uma 
maneira que o cliente possa utilizar. A fase de implantação pode ser simples como 
gerar um relatório ou uma implementação complexa de um processo de Data Mining 
que possa ser repetido.
E, assim, finalizamos um ciclo do CRISP-DM, que pode ser executado novamen-
te, caso necessário.
As 6 fases do CRISP-DM
Entendimento do negócio Entender qual o objetivo a ser atingido
Entendimento dos dados Compreender e organizar os dados
Preparação dos dados Limpar os dados
Modelagem Aplicação das técnicas de mineração
Avaliação Verificar se o que foi feito até agora está certo
Implantação Hora de colocar o modelo em produção
3. TÉCNICAS PARA PRÉ-PROCESSAMENTO DE DADOS
A mineração de dados é uma tecnologia que é composta, basicamente, por 
três áreas: estatística, inteligência artificial e aprendizado de máquina. O que se 
espera com a Mineração de Dados é obter conhecimento, na forma de regras ou 
de estruturas equivalentes, que oriente uma decisão. Além disso, quando aplicado 
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
10 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
de modo inteligente, esse conhecimento nos permite, conforme veremos de for-
ma mais detalhada a seguir, fazer previsões, descobrir novas associações, refinar 
agrupamentos efetuados por critério de semelhança ou certificar-se de anomalias 
de comportamento. 
A mineração de dados é parte de um processo maior, conhecido como KDD 
(Knowledge Discovery in Databases) – em português, Descoberta de Conhecimen-
to em Bases de Dados. A definição de KDD dada por FAYYAD et al. (1996) resume 
bem do que se trata: 
processo, não trivial, de extração de informações implícitas, previamente desconhecidas 
e potencialmente úteis, a partir dos dados armazenados em um banco de dados.
O processo KDD é constituído de várias etapas, que são executadas de forma 
interativa e iterativa. São interativas porque envolvem a cooperação da pessoa res-
ponsável pela análise de dados, cujo conhecimento sobre o domínio orientará a exe-
cução do processo. Por sua vez, a iteraçãodeve-se ao fato de que, com frequência, 
esse processo não é executado de forma sequencial, mas envolve repetidas sele-
ções de parâmetros e conjunto de dados; aplicações das técnicas de mineração de 
dados e posterior análise dos resultados obtidos, a fim de refinar os conhecimentos 
extraídos.
É importante destacar que cada técnica de mineração de dados utilizada para 
conduzir as operações adapta-se melhor a alguns problemas do que a outros, o que 
impossibilita a existência de um método universalmente melhor. Para cada proble-
ma particular, tem-se uma técnica particular.
Os desenvolvedores projetam as bases de dados, descrevem problemas e 
definem objetivos, enquanto os computadores processam os dados e procuram 
padrões que coincidam com os objetivos estabelecidos. Isto faz da KDD um pro-
cesso cooperativo.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
11 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
O processo de busca de conhecimento contém uma série de passos: seleção, 
pré-processamento e limpeza, transformação, mineração de dados e interpretação/
avaliação. Simplificando: pode-se dizer que o processo de KDD compreende, na 
verdade, todo o ciclo que o dado percorre até virar informação, conforme pode ser 
visto na figura abaixo:
Figura 2: Fases da Descoberta de Conhecimento em Bases de Dados
Embora esses passos devam ser executados na ordem apresentada, o processo 
é interativo, pois o usuário pode (e muitas vezes necessita) continuamente inter-
vir e controlar o curso das atividades, e iterativo, por ser uma sequência finita de 
operações em que o resultado de cada uma é dependente dos resultados das que 
a precedem.
Abaixo temos um resumo sobre as fases do KDD:
Seleção
A fase de seleção de dados é a primeira no processo de descobrimento de in-
formação e possui impacto significativo sobre a qualidade do resultado final. Nessa 
fase é escolhido o conjunto de dados contendo todas as possíveis variáveis (tam-
bém chamadas de características ou atributos) e registros (também chamados de 
casos ou observações) que farão parte da análise. Normalmente, essa escolha dos 
dados fica a critério de um especialista do domínio, ou seja, alguém que realmente 
entende do assunto em questão.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
12 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
O processo de seleção é bastante complexo, uma vez que os dados podem vir 
de uma série de fontes e podem possuir os mais diversos formatos. É comum ocor-
rer a necessidade de se criar uma rotina específica para a carga dos dados, já que 
nem sempre as ferramentas de carga existentes conseguem dar conta das peculia-
ridades de cada aplicação.
Pré-processamento e Limpeza
O Pré-processamento e limpeza dos dados é uma parte crucial no processo 
de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de 
mineração. Nessa etapa deverão ser realizadas tarefas que eliminem dados redun-
dantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados 
discrepantes ao conjunto.
O auxílio de um especialista do domínio é fundamental, pois, na maioria dos 
casos, apenas alguém que realmente entende do assunto é capaz de dizer se um 
dado realmente não pertence ao conjunto ou se é apenas um erro de digitação.
Nessa fase também são utilizados métodos de redução ou transformação para 
diminuir o número de variáveis envolvidas no processo, visando, com isso, melho-
rar o desempenho do algoritmo de análise.
A identificação de dados inapropriados dentro do conjunto selecionado é pro-
blemática, e isso dificulta a automatização dessa fase. Definir um dado como 
“ruim” dentro do conjunto depende da estrutura dele e também de que aplicação 
é dada a ele.
Um problema bastante comum nessa fase é a existência de registros com dados 
incompletos, seja por falhas no processo de seleção ou de revisão. O tratamento 
desses casos é necessário para que os resultados do processo de mineração sejam 
confiáveis. Podemos usar as seguintes soluções para tratarmos a ausência de dados:
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
13 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• fazer a previsão dos dados ausentes e completá-los individualmente;
• substituir o valor faltante pela média aritmética da variável;
• excluir o registro inteiro.
Devemos também ficar atentos a situações em que os dados possuem valores 
extremos, atípicos ou com características bastante distintas dos demais registros. 
Eles são chamados de discrepantes, ou outliers.
Normalmente, registros que contêm valores outliers são descartados da amos-
tra, porém, isso só deve ocorrer quando o dado outlier representar um erro de ob-
servação, de medida ou algum outro problema similar.
O dado deve ser cuidadosamente analisado antes da exclusão, pois, embora 
atípico, o valor pode representar um dado verdadeiro. Outliers podem representar, 
por exemplo, um comportamento não usual, uma tendência ou ainda transações 
fraudulentas.
Transformação dos Dados
A Transformação do Dados é a fase do KDD que antecede a fase de Data Mining. 
Após serem selecionados, limpos e pré-processados, os dados necessitam ser ar-
mazenados e formatados adequadamente para que os algoritmos possam ser apli-
cados.
Em grandes corporações é comum encontrar computadores rodando diferentes 
sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados 
(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-
rio único.
Além disso, nessa fase, se necessário, é possível obter dados faltantes através 
da transformação ou combinação de outros, são os chamados “dados derivados”. 
Um exemplo de um dado que pode ser calculado a partir de outro é a idade de 
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
14 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
um indivíduo, que pode ser encontrada a partir de sua data de nascimento. Outro 
exemplo é o valor total de um financiamento, que pode ser calculado a partir da 
multiplicação do número de parcelas pelo valor da parcela.
Após serem selecionados, limpos e pré-processados os dados necessitam ser 
armazenados e formatados adequadamente para que os algoritmos de aprendizado 
possam ser aplicados.
Em grandes corporações é comum encontrar computadores rodando diferentes 
sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados 
(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-
rio único.
Mineração de Dados
Todas as etapas do processo são importantes para o sucesso dele. Entretanto,é 
a etapa de Mineração de Dados que recebe o maior destaque na literatura (e a que 
mais nos interessa, nesse caso). 
Interpretação e Avaliação
Consiste no tratamento (visualização, análise e interpretação) do conhecimento 
minerado. De forma geral, nessa etapa é que o especialista do domínio de aplicação 
e o engenheiro do conhecimento analisam os resultados abstraídos.
Essa é mais uma fase que deve ser feita em conjunto com um ou mais espe-
cialistas no assunto. O conhecimento adquirido através da técnica de data mining 
deve ser interpretado e avaliado para que o objetivo final seja alcançado.
Caso o resultado não seja satisfatório, o que não é raro, o processo pode retor-
nar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado, confor-
me pode ser observado na Figura 3.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
15 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Figura 3: Fases do KDD
Duas das ações mais comuns, caso o resultado não seja satisfatório são: modifi-
car o conjunto de dados inicial e/ou trocar o algoritmo de data mining (ou ao menos 
alterar suas configurações de entrada).
Repare que tanto no modelo CRISP-DM quanto no KDD as fases iniciais são extre-
mamente importantes. Um levantamento mal executado pode implicar em retraba-
lho (visto que fases terão que ser refeitas), retrocesso (pois precisaremos voltar na 
fase que ocorreu o problema) e, no pior dos cenários, cancelamento do projeto de 
Data Mining, por inviabilidade, seja de prazo ou custo.
4. TÉCNICAS E TAREFAS DE MINERAÇÃO DE DADOS
Antes de mais nada, devemos esclarecer: qual a diferença entre tarefa e técnica 
de mineração?
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
16 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Tarefas de mineração consistem na especificação do que estamos querendo 
buscar nos dados, que tipo de regularidades ou categoria de padrões temos inte-
resse em encontrar, ou que tipo de padrões poderiam nos surpreender. Estão rela-
cionadas às perguntas feitas na etapa de seleção dos dados, ou seja, nessa fase, a 
preocupação é relacionar as perguntas feitas com o que se tem em mãos e, assim, 
determinar, pela tarefa a ser realizada, que técnica usar.
Algumas tarefas de mineração serão mais detalhadas a seguir, mas antes de-
vemos esclarecer uma forma pela qual elas podem ser divididas: podem ser de 
aprendizado supervisionado ou não supervisionado.
No aprendizado supervisionado existe algum tipo de orientação que subsidia e 
norteia o funcionamento da técnica. A partir de exemplos, ele pode seguir e tomar 
decisões. A técnica de classificação seria desse tipo. Algoritmos de aprendizado 
supervisionado são treinados usando exemplos rotulados, como uma entrada onde 
a saída desejada é conhecida. O algoritmo de aprendizagem recebe um conjunto 
de entradas junto com as saídas corretas correspondentes, e o algoritmo aprende 
comparando a saída real com as saídas corretas para encontrar erros.
Já no aprendizado não supervisionado o algoritmo tira suas próprias conclusões 
sem que tenha recebido nenhum tipo de exemplo prévio. O aprendizado não super-
visionado é usado contra dados que não possuem rótulos históricos. O sistema não 
sabe a “resposta certa”. O algoritmo deve descobrir o que está sendo mostrado. 
O objetivo é explorar os dados e encontrar alguma estrutura neles. O aprendizado 
não supervisionado funciona bem em dados transacionais. Por exemplo: ele pode 
identificar segmentos de clientes com atributos semelhantes que podem ser trata-
dos de modo semelhante em campanhas de marketing; ou ele pode encontrar os 
principais atributos que separam os segmentos de clientes uns dos outros.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
17 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Aprendizado supervisionado: existe algum exemplo ou orientação, um “professor” 
que indica como o algoritmo deve proceder.
Aprendizado não supervisionado: não há o “professor”, o algoritmo aprende sozi-
nho as relações, padrões, categorias etc. dos dados que são apresentados e emite 
suas próprias conclusões.
Técnicas de mineração consistem na especificação de métodos que nos garan-
tam como descobrir os padrões que nos interessam. O próximo passo agora é en-
tender como saber que técnica escolher, dada uma determinada tarefa. Como já foi 
dito, a tarefa depende do objetivo a ser alcançado.
Entre as várias técnicas de Mineração de Dados, podemos destacar: Árvore de 
Decisão, Redes Neurais, Indução de Regra, Visualização, Regressão, Análises de 
Séries Temporais e Algoritmo Genético. A seguir, serão descritas as três principais: 
Árvore de Decisão, Redes Neurais e Algoritmo Genético.
• Árvore de Decisão: utilizam um tipo de algoritmo de aprendizado de máquina 
baseado na abordagem de dividir para conquistar. Uma árvore de decisão é 
um modelo de função discreta no qual é determinado o valor de uma variável. 
Com base nesse valor é executada alguma ação.
• Redes Neurais: foram criadas com base no estudo do cérebro humano. Assim 
sendo, sua principal característica é dada pela capacidade de aprender, com 
base na exposição de exemplos, sendo que a construção de uma rede neural 
se constitui na configuração de sua arquitetura interna, ou seja, uma rede in-
terligada de neurônios; e no treinamento dessa rede com base em exemplos, 
até que a rede consiga aprender como resolver o problema, melhorando, des-
sa forma, seu desempenho.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
18 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• Algoritmos Genéticos: simulam o processo de seleção natural proposto por 
Charles Darwin, em 1859. De acordo com a teoria de Darwin, pode-se dizer 
que os organismos são equivalentes às estruturas de dados, enquanto os cro-
mossomos são equivalentes às cadeias de bits, surgindo mais de um conjunto 
de considerações inteiramente diferentes que podem ser usados numa mes-
ma solução do problema. Algoritmos genéticos são mais facilmente aplicados 
em problemas com muitas variáveis e restrições.
5. CLASSIFICAÇÃO
Uma das tarefas mais comuns, a Classificação, visa identificar a qual classe um 
determinado registro pertence. Nessa tarefa, o modelo analisa o conjunto de regis-
tros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a 
fim de “aprender” como classificar um novo registro (aprendizado supervisionado). 
Por exemplo, categorizamos cada registro de um conjunto de dados contendo as 
informações sobre os colaboradores de uma empresa: Perfil Técnico, Perfil Negocial 
e PerfilGerencial.
O modelo analisa os registros e então é capaz de dizer em qual categoria um 
novo colaborador se encaixa. A tarefa de classificação pode ser usada, por exem-
plo, para:
• determinar quando uma transação de cartão de crédito pode ser uma fraude;
• identificar, em uma escola, qual a turma mais indicada para um determinado 
aluno;
• diagnosticar onde uma determinada doença pode estar presente.
A tarefa de classificação utiliza, comumente, a técnica conhecida como árvore 
de decisão que, basicamente, consiste num gráfico em forma de árvore, contendo 
as decisões a serem tomadas e suas possíveis consequências.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
19 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
6. REGRAS DE ASSOCIAÇÃO
Uma associação pode ser analisada da seguinte maneira: dado um conjunto de 
registros e uma coleção de itens, cada um deles identificados com alguns números 
de itens e de uma coleção, a função de associação retornará afinidades que existem 
na coleção de itens desse conjunto de registros. As afinidades podem ser expres-
sas através de regras, por exemplo: 80% dos registros que contém os itens A e B 
também contém os C e D. Em um banco de dados podem ser encontradas várias 
regras de associação.
Seu estudo tem como objetivo buscar correlação entre atributos, ou seja, en-
contrar itens que impliquem na presença de outros na mesma transação.
A análise associativa é uma metodologia bastante útil para descobrir relaciona-
mentos que se mostrem interessantes em conjuntos de dados. Através dessa aná-
lise podemos descobrir relações úteis que muitas vezes não são visíveis em uma 
visão mais superficial. Esses relacionamentos descobertos podem ser representa-
dos por Regras de Associação que mostram itens que são mais frequentes nesse 
banco de dados. 
As Regras de Associação podem ser fracas e até absurdas. Um exemplo seria o 
caso de uma pessoa que vai a uma livraria para comprar um livro e, além do livro, 
ele pega um chocolate no caixa. Isso não poderia ser interpretado como uma regra 
absoluta para outros casos.
O algoritmo Apriori é um dos algoritmos mais conhecidos para mineração por 
regras de associação. Ele afirma que, se um conjunto é frequente, então, todos os 
seus subconjuntos também devem ser.
Por isso infere-se que a Análise Associativa pode ser útil para uma empresa que 
deseja melhorar as vendas, diagnósticos médicos, estudos científicos para compre-
ender dados de natureza complexa etc.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
20 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
7. ANÁLISE DE AGRUPAMENTOS (CLUSTERIZAÇÃO)
A tarefa de agrupamento visa identificar e aproximar os registros similares. Um 
agrupamento (ou cluster) é uma coleção de registros similares entre si, porém, 
diferentes dos outros registros nos demais agrupamentos. Essa tarefa difere da 
classificação, pois não necessita que os registros sejam previamente categorizados 
(aprendizado não supervisionado). Além disso, ela não tem a pretensão de classi-
ficar, estimar ou predizer o valor de uma variável, apenas identifica os grupos de 
dados similares. Exemplos:
• segmentação de mercado para um nicho de produtos;
• para auditoria, separando comportamentos suspeitos;
• reduzir para um conjunto de atributos similares registros com centenas de 
atributos.
As aplicações das tarefas de agrupamento são as mais variadas possíveis: pes-
quisa de mercado, reconhecimento de padrões, processamento de imagens, análi-
se de dados, segmentação de mercado, taxonomia de plantas e animais, pesquisas 
geográficas, classificação de documentos da Web, detecção de comportamentos 
atípicos (fraudes), entre outros. Geralmente, a tarefa de agrupamento é combina-
da com outras tarefas, além de serem usadas na fase de preparação dos dados.
8. DETECÇÃO DE ANOMALIAS
É a tarefa de identificar registros que tenham características muito diferentes de 
outros registros do mesmo grupo.
Desvios em dados são valores não condizentes com o padrão dos outros que es-
tão na mesma categoria em um banco de dados. A análise de desvios consiste em 
identificar esses valores para auxílio na tomada de decisão. A tomada de decisão 
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
21 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
mais comum é excluí-lo da base, já que ele é considerado discrepante em relação 
aos outros, sendo tratado, assim, como uma exceção. Porém, para algumas aplica-
ções, essas exceções são bastante interessantes. Por exemplo: podemos citar uma 
empresa de cartões de crédito que deseja descobrir fraudes no uso dos seus car-
tões por uso dos seus clientes. Valores discrepantes podem dar uma boa dica para 
identificar essas infrações. As técnicas utilizadas para isso podem ser, por exemplo, 
Árvores de Decisão ou redes neurais.
9. MODELAGEM PREDITIVA
A análise preditiva é o uso de dados, algoritmos estatísticos e técnicas de 
machine learning (também conhecido como aprendizado de máquina. Será abor-
dado no próximo tópico) para identificar a probabilidade de resultados futuros com 
base em dados históricos.
O objetivo é ir além da estatística descritiva e dos relatórios sobre o que acon-
teceu para fornecer uma melhor avaliação sobre o que vai acontecer no futuro. O 
resultado final é a simplificação da tomada de decisão e a geração de novos insights 
que levem a melhores ações.
Os modelos preditivos utilizam os resultados conhecidos para desenvolver (ou 
treinar) um modelo que possa ser usado para prever valores para dados diferentes 
ou novos.
Cada vez mais organizações estão se voltando para a análise preditiva, visando 
aumentar seu lucro e sua vantagem competitiva. Por que agora?
• Crescentes volumes e tipos de dados e mais interesse na utilização de dados 
para produzir informações valiosas.
• Computadores mais rápidos e mais baratos e softwares mais fáceis de usar.
• Agravamento das condições econômicas e uma necessidade de diferenciação 
competitiva.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
22 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• Com o software interativo e fácil de usar se tornando cada vez mais predo-
minante, a análise preditiva não é mais apenas o domínio de matemáticos 
e estatísticos. Os analistas de negócios e especialistas na linha de negócios 
também estão usando essas tecnologias.
A análise preditiva é utilizada basicamente para realizar cinco tarefas:
• identificar tendências;
• entender os clientes;
• melhorar o desempenho dos negócios;
• promover a tomada de decisão estratégica;
•prever o comportamento.
Algumas das aplicações mais comuns das análises preditivas incluem:
• detecção de fraude: pode ajudar a reduzir a ocorrência de perdas ocorridas 
por atividades fraudulentas antes que elas ocorram. 
• marketing: pode ajudar uma empresa a entender melhor seus clientes. A 
maioria das organizações modernas usa a análise de dados para determinar 
as respostas ou compras dos clientes, bem como para promover oportunida-
des de vendas cruzadas.
• operações: previsão de estoques e gerenciar os recursos das fábricas, poden-
do ainda ser utilizada com finalidades ainda mais específicas. 
Para adotar a modelagem preditiva, antes de mais nada, é preciso saber qual 
o problema que se quer solucionar. Em seguida, deve-se verificar onde poderão 
ser obtidos os dados que irão subsidiar a solução desse problema. Deve-se levar 
em conta que a preparação dos dados deve ser bem executada, o que leva tempo. 
Além disso, uma preparação mal elaborada, acarretará em perda de tempo e retra-
balho. A partir daí, começa a construção do modelo preditivo.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
23 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
A modelagem preditiva exige uma abordagem em equipe. São necessárias pes-
soas que entendam do problema a ser resolvido, pessoas que saibam preparar os 
dados, construir e refinar os modelos. 
Modelagem preditiva está presente no nosso cotidiano, conforme podemos ver 
nos exemplos listados abaixo:
• recomendações: capacidade de serviços de streaming de áudio e vídeo apren-
derem com o que você ouve e assiste e sugerir novas opções de acordo com 
o seu gosto.
• detecção de fraude: na execução de uma operação financeira, um modelo de 
risco calcula a probabilidade de que, dado o perfil informado, a pessoa seja 
fraudadora ou inadimplente. Existem tecnologias que utilizam diversas fontes 
de dados, como comportamento de navegação, redes sociais e histórico de 
transações.
10. APRENDIZADO DE MÁQUINA
Machine Learning ou Aprendizado de Máquina é um método de análise de dados 
que automatiza o desenvolvimento de modelos analíticos. Usando algoritmos que 
aprendem interativamente a partir de dados, o aprendizado de máquinas permite 
que os computadores encontrem insights ocultos sem serem explicitamente pro-
gramados para procurar algo específico.
O aspecto interativo do aprendizado de máquinas é importante porque, confor-
me os modelos são expostos a novos dados, eles são capazes de se adaptar de for-
ma independente. Eles aprendem com os cálculos anteriores para produzir decisões 
e resultados confiáveis e reproduzíveis.
Aqui estão alguns exemplos amplamente divulgados de aplicações do machine 
learning com os quais você pode já estar familiarizado:
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
24 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• carros autônomos que dirigem sozinhos. Puro aprendizado de máquina;
• saber o que os clientes dizem sobre uma empresa nas redes sociais (Twitter, 
por exemplo).
O interesse no aprendizado de máquina ressurgiu devido aos mesmos fatores 
que tornaram a mineração de dados mais popular do que nunca. Coisas como o 
crescente volume e variedade de dados disponíveis, o processamento computacio-
nal que está mais barato e mais poderoso, e o armazenamento de dados de forma 
acessível.
Tudo isso significa que é possível produzir, de forma rápida e automática, mode-
los que permitam analisar dados maiores e mais complexos e fornecer resultados 
mais rápidos e mais precisos – mesmo em uma escala muito grande. O resultado? 
Previsões de alto valor que podem levar a melhores decisões e ações inteligentes 
em tempo real, sem a intervenção humana.
11. MINERAÇÃO DE TEXTO
Anteriormente, vimos o processo de KDD, que é a busca por conhecimento em 
bases de dados. As bases de dados são estruturadas. Mas lembra quando falamos 
que a maioria da informação existente é não estruturada? Como podemos proceder 
com a busca por conhecimento nesse montante de informação?
É aí que entra a mineração de texto.
A mineração de texto é um processo que utiliza algoritmos capazes de analisar 
coleções de documentos texto, com o objetivo de extrair conhecimento. A análise 
de dados armazenados em formato não estruturado pode ser considerada uma ati-
vidade mais complexa, se comparada à análise de dados estruturados, justamente 
pelo fato dos dados possuírem a característica da não estruturação. Logo, são ne-
cessárias técnicas e ferramentas específicas para tratamento desse tipo de dados. 
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
25 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Esse conjunto de técnicas e ferramentas também fazem parte da área de recupera-
ção de informações, mais especificamente da área conhecida como Descoberta de 
Conhecimento em Textos (Knowledge Discovery from Text - KDT).
A ideia de buscar conhecimento nesse imenso volume de dados é extremamente 
interessante, porém, nada prática. Essa situação motivou o surgimento da minera-
ção de texto, uma subárea da mineração de dados interessada no desenvolvimento 
de técnicas e processos para a descoberta automática de conhecimento valioso a 
partir de coleções de documentos texto.
As etapas da metodologia de mineração de textos seriam:
• coleta: etapa inicial e tem como objetivo formar uma base de dados textual. 
Pode se dar de várias maneiras, porém, todas necessitam de grande esforço, 
a fim de se conseguir material de qualidade e que sirva de matéria-prima 
para a aquisição de conhecimento.
• pré-processamento: etapa executada imediatamente após a Coleta e tem 
como objetivo prover alguma formatação e representação da massa textual. 
É bastante onerosa, com a aplicação de diversos algoritmos que consomem 
boa parte do tempo do processo de extração de conhecimento.
• indexação: é o processo que organiza todos os termos adquiridos a partir de 
fontes de dados, facilitando o seu acesso e recuperação. Uma boa estrutura 
de índices garante rapidez e agilidade ao processo, tal como funciona o índice 
de um livro. 
• mineração: é responsável pelo desenvolvimento de cálculos, inferências e 
algoritmos e que tem como objetivo a extração de conhecimento, descoberta 
de padrões e comportamentos.
• análise: é a última etapa e deve ser executada por pessoas que, normalmen-
te, estão interessadas no conhecimento extraído e que devem tomar algum 
tipo de decisão apoiada no processo de Mineração de Texto.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
26 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Algumasformas de descobrirmos conhecimento através da mineração de texto 
seriam:
• Descoberta por Extração de passagens: busca encontrar informações especí-
ficas, auxiliando usuários a encontrar detalhes, sem que ele precise ler todo 
texto. Entretanto, ainda assim, é necessário que o usuário leia e interprete as 
partes do texto que forem recuperadas para extrair a informação desejada.
• Descoberta por Análise Linguística: informações e regras podem ser desco-
bertas através de análises linguísticas em níveis léxico, morfológico, sintático 
e semântico.
• Descoberta por Análise de Conteúdo: semelhante à descoberta por extração 
de passagens e à descoberta por análise linguística. Esse tipo de descoberta 
investiga linguisticamente os textos e apresenta ao seu usuário informações 
sobre o conteúdo dos textos, sendo que há um maior esforço no tratamento 
semântico dos textos e visa encontrar o significado do texto pretendido.
• Descoberta por Dumarização: utiliza as técnicas de descoberta por extração 
de passagens, descoberta por análise de conteúdo e descoberta por análise 
linguística, com ênfase na produção de resumos ou sumários (abstração das 
partes mais importantes do conteúdo do texto) a partir de textos.
• Descoberta por Associação entre Passagens: tem por objetivo encontrar au-
tomaticamente conhecimento e informações relacionadas no mesmo texto ou 
em textos diferentes.
• Descoberta por Listas de Conceitos-Chave: o objetivo desse tipo de descober-
ta é apresentar uma lista com os conceitos principais de um único texto, uti-
lizando técnicas que permitem extrair os termos mais frequentes dos textos.
• Descoberta de Estruturas de Textos: esta técnica analisa as coesões léxicas 
de um texto, tendo como resultado cadeias de termos relacionados que con-
tribuem para a continuidade do seu significado léxico.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
27 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• Descoberta por Recuperação de Informações: suas técnicas podem ajudar 
apresentando documentos com visão geral das informações ou assuntos, ou 
apresentando partes de documentos com detalhes de informações.
• Descoberta Tradicional após Extração: é o tipo de descoberta mais simples. 
Nessa abordagem, os dados são extraídos dos textos e formatados em bases 
de dados estruturados com o auxílio de técnicas de Extração de Informações. 
Depois, são aplicadas técnicas e algoritmos de Mineração de Dados Estrutu-
rados (KDD), no sentido de descobrir conhecimento útil para seus usuários.
• Descoberta por Clusterização: auxilia o processo de descoberta de conhe-
cimento, facilitando a identificação de padrões (características comuns dos 
elementos) nas classes. Essa técnica pode ser utilizada para estruturar e 
sintetizar o conhecimento quando este é incompleto ou quando há muitos 
atributos a ser considerados.
• Descoberta por Descrição de Classes de Textos: dada uma classe de docu-
mentos textuais e uma categoria associada a esta classe, esse tipo de des-
coberta busca encontrar as características principais dessa classe, as quais 
possam identificá-la para os usuários e distingui-las das demais classes.
• Descoberta por Associação entre Textos: procura relacionar descobertas pre-
sentes em vários textos diferentes. As descobertas estão presentes no conte-
údo ou significado dos textos.
• Descoberta por Associação entre Características: esta abordagem procura 
relacionar tipos de informação (atributos) presentes em textos, aplicando a 
técnica de correlação ou associação tradicional em Mineração de Dados dire-
tamente sobre partes do texto.
• Uma das diferenças é que os valores para os atributos são partes do texto e 
não necessariamente dados extraídos por técnicas de extração de informações.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
28 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• Descoberta por Hipertextos: aqui a descoberta é exploratória e experimental, 
feita através de mecanismos de navegação. Com tais ferramentas, é possível 
expandir e comparar o conhecimento através dos links que relacionam as 
informações, funcionando de modo análogo à mente humana (memória as-
sociativa). Tal abordagem é útil quando os problemas de falta de informação 
são mal definidos e quando se quer explorar novos domínios.
• Descoberta por Manipulação de Formalismos: uma vez que é possível repre-
sentar o conteúdo dos textos em formalismos, mecanismos de manipulação 
simbólica podem inferir novos conhecimentos, simplesmente por transforma-
ções na forma.
• Descoberta por Combinação de Representações: um caso especial da desco-
berta por associação entre textos é a descoberta por combinação de repre-
sentações.
• A diferença é que os textos, antes de serem combinados, passam por um 
processo de representação interna.
• Então, na verdade, não são os textos que são combinados, mas, sim, seus 
conteúdos, conforme o formalismo e as regras internas.
• A combinação de representações diferentes permite que pontos de vista di-
ferentes possam ser usados para criar novas representações e, consequente-
mente, novo conhecimento.
• Descoberta por Comparação de Modelos Mentais: procura representar docu-
mentos textuais e o estado de conhecimento do usuário (modelo mental das 
informações) em um formalismo padrão para, após, compará-los.
• Se for possível verificar o que há nos documentos que falta no estado mental 
do usuário, então um conhecimento novo foi descoberto.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
29 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• Descoberta por Análise de Sequências Temporais: esta técnica permite des-
cobrir dependências entre conceitos que aparecem em textos dentro de uma 
mesma janela de tempo.
• O objetivo é saber se um conceito condiciona a aparição de outro no futuro. 
Os textos a serem analisados nesse processo devem, obrigatoriamente, se-
guir uma ordem cronológica, formando uma sequência temporal.
Essas sequências podem ser independentes, não havendo relação explícita 
entre textos de uma sequência e de outra.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
30 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
RESUMO
• Mineração de Dados (Data Mining): tecnologias e técnicas que permitem ex-
plorar um grande volume de dados, utilizando algoritmos sofisticados e rea-
lizando análises complexas. Os algoritmos segmentam os dados e avaliam a 
probabilidade de ocorrência de determinados eventos.
• CRISP-DM: é um modelo padrão de mineração de dados que descreve as 
abordagens comuns usadas para resolverproblemas. É constituído de seis 
fases, é cíclico e é possível avançar e voltar entre as fases.
• As seis fases do CRISP-DM:
 – entendimento do negócio;
 – entendimento dos dados;
 – preparação dos dados;
 – modelagem;
 – avaliação;
 – implantação;
• KDD: busca de conhecimento em bases de dados.
• Etapas KDD:
 – Seleção: identificação de quais dados serão trabalhados na base;
 – Pré-processamento e Limpeza: verificação de inconsistências nos dados 
que serão trabalhados;
 – Transformação: fase de organização e formatação dos dados para que os 
algoritmos de mineração funcionem adequadamente;
 – Mineração de Dados: onde é feita a busca por informações efetivamente 
úteis, aplicando-se algoritmos para extrair o conhecimento da base de dados;
 – Interpretação e avaliação: é onde o conhecimento adquirido é avaliado, 
verificando-se se o objetivo foi atingido.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
31 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
• Classificação: procura identificar a qual classe um registro pertence, com 
base em exemplos ou indicações (aprendizado supervisionado).
• Regras de associação: buscam por similaridades, afinidades existentes em 
itens de um conjunto de registros.
• Análise de agrupamentos (clusterização): procura identificar e agrupar regis-
tros similares. Não precisa de classificação prévia (aprendizado não supervi-
sionado).
• Detecção de anomalias: identificar registros que tenham características muito 
diferentes de outros registros do mesmo grupo.
• Modelagem preditiva: identificar a probabilidade de resultados futuros com 
base em dados históricos.
• Aprendizado de máquina: método de análise de dados usando algoritmos que 
aprendem a partir dos dados que recebem, sem serem programados para 
procurar algo específico.
• Mineração de texto: busca de conhecimento em dados não estruturados. Di-
fere do KDD, que busca em bases de dados.
• Etapas mineração de texto:
 – Coleta: etapa inicial e tem como objetivo formar uma base de dados textual;
 – Pré-processamento: visa prover alguma formatação e representação da 
massa textual;
 – Indexação: organização dos termos adquiridos das fontes de dados, facili-
tando o seu acesso e recuperação. Associe ao índice de um livro. Você vai 
no índice e de lá consegue saber em que página está o que procura, sem 
precisar ler o livro inteiro;
 – Mineração: a mesma que tratamos no decorrer de todo o capítulo;
 – Análise: validação do conhecimento obtido na mineração de texto;
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
32 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
QUESTÕES DE CONCURSO
1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que: 
a) Refere-se à implementação de banco de dados paralelos.
b) Consiste em armazenar o banco de dados em diversos computadores.
c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes-
mo intervalo de tempo.
d) Permite-se distinguir várias entidades de um conjunto.
e) Refere-se à busca de informações relevantes a partir de um grande volume de 
dados.
2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar:
a) É o processo de descoberta de novas correlações, padrões e tendências entre 
as informações de uma empresa, por meio da análise de grandes quantidades de 
dados armazenados em bancos de dados usando técnicas de reconhecimento de 
padrões, estatísticas e matemáticas.
b) Não requer interação com analistas humanos, pois os algoritmos utilizados con-
seguem determinar de forma completa e eficiente o valor dos padrões encontrados.
c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam 
sistematicamente “simplificados”, de forma a desconsiderar aquilo que é genérico 
e privilegiar aquilo que é específico.
d) É um grande banco de dados voltado para dar suporte necessário nas decisões 
de usuários finais, geralmente gerentes e analistas de negócios.
e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a 
partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade, 
são consistentes e habilitam descobertas abrangentes e precisas.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
33 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
3. (FCC/TRT 11/2017) Sistemas do tipo I e do tipo II realizam tarefas diferentes, 
porém complementares. O tipo I é adequado para atividades como indexação de 
dados, alocação de custos, análises de séries temporais e análises “what-if”. Po-
rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências 
indutivas, processo que permite chegar a conclusões genéricas a partir de exem-
plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas 
do tipo I fornecem uma visão multidimensional de dados, incluindo suporte a hie-
rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza-
ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en-
contrar padrões e relações entre as informações disponíveis em bancos de dados. 
Os sistemas do tipo II podem encontrar informações ocultas nos dados disponíveis, 
mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a 
organização.
Os sistemas do tipo I e II são, correta e respectivamente, 
a) Data Warehouse e Data Mining.
b) Banco de Dados Multidimensional e Banco de Dados Relacional. 
c) Data Mining e Data Warehouse. 
d) OLAP e Data Mining. 
e) OLAP e Data Warehouse.
4. (CESPE/ANATEL/2014) A respeito de banco de dados, julgue os itens que se 
seguem. 
No processo de Data Mining (mineração de dados), é indispensável o uso de téc-
nica conhecida como Data Warehousing, uma vez que a mineração de dados deve 
ocorrer necessariamente em estruturas não normalizadas (FN0).
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
34 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
5. (CESPE/TJDFT/2015) Julgue o item a seguir, a respeito de Data Warehouse e de 
Data Mining.
Em um processo de mineração, durante a etapa de preparação dos dados, são ana-
lisados os requisitos de negócio para consolidar os dados.
6. (CESPE/TCE-SC/2016) Julgue os itens, acerca de mineração de dados.
Para a realização de prognósticos por meio de técnicas de mineração de dados, par-
te-se de uma série de valores existentes obtidos de dados históricos bem como de 
suposições controladas a respeito das condições futuras, para prever outros valores 
e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.
7. (CESPE/TCE/2016) CRISP-DM é uma metodologiaproprietária que identifica as 
fases Business Understanding e Data Understanding na implantação de um projeto 
de Data Mining.
8. (FUNDATEC/SEFAZ-RS/2014) Há uma tecnologia que é empregada sobre gran-
des volumes de dados para descobrir novas informações em função de regras e 
padrões existentes nesses dados. Normalmente, tais informações não são obtidas 
simplesmente consultando os dados armazenados em bancos de dados. Por exem-
plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor-
me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas 
de fraldas descartáveis, nas sextas-feiras, estava relacionada às vendas de cerveja, 
sendo que, geralmente, os compradores eram homens. Como oportunidade de ne-
gócio, a rede varejista colocou os produtos lado a lado, resultando em um aumento 
expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa 
tecnologia usa diversas técnicas, tais como associação, classificação e predição, 
dentre outras. Nesse caso, essa tecnologia é chamada de:
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
35 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
a) Data Mart
b) Data Mining
c) Data Warehouse
d) Business Intelligence
e) OLAP
9. (CESPE/TCE/2016) Julgue os itens a seguir, em relação a data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base 
de dados consiste na extração não trivial de conhecimento previamente desconhe-
cido e potencialmente útil.
10. (CESPE/TRT 8/2016) A respeito de sistemas de suporte a decisão, assinale a 
opção correta.
As ferramentas de ETL têm como objetivo efetuar extração, transformação e carga 
de dados vindos de uma base transacional para um data warehouse (DW). No pro-
cesso de extração, que é o mais demorado dos três, ocorre a limpeza dos dados, a 
fim de garantir a qualidade do que será posteriormente carregado na base do DW.
Os operadores de navegação drill-down (navegam entre as hierarquias diminuindo 
o nível do detalhe, por exemplo: município > estado) e roll-up (navegam entre as 
hierarquias aumentando o nível do detalhe, por exemplo: estado > município) são 
considerados básicos e estão implementados em todas as ferramentas de OLAP.
As bases de dados criadas para atender ao data warehouse (DW) são do modelo 
relacional (E/R), em que as tabelas representam dados e relacionamentos e são 
altamente normalizadas.
Nos processos de análise de inferência, representados pelo data mining, ocorrem 
buscas de informação com base em algoritmos que objetivam o reconhecimento de 
padrões escondidos nos dados e não revelados por outras abordagens.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
36 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Em uma arquitetura de data warehouse (DW), os dados são coletados das fon-
tes operacionais na fase de extração, trabalhados na fase de transformação (ou 
staging) e carregados no DW na fase de carga. Quando necessário, um banco de 
dados temporário, preparatório para a carga no DW, poderá ser criado na fase de 
extração, com características relacionais.
11. (CESPE/FUNPRESP/2016) Julgue os itens subsecutivos, referentes às tecnolo-
gias de bancos de dados.
Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi-
ficação para atribuir informação de tipo.
12. (CESPE/PREVIC/2011) Julgue os itens a seguir, relativos aos sistemas de su-
porte a decisão.
Um banco de dados pode conter objetos de dados que não sigam o padrão dos 
dados armazenados. Nos métodos de mineração de dados, esses objetos de dados 
são tratados como exceção, para que não induzirem a erros na mineração.
13. (CESPE/MEC/2015) Julgue os itens seguintes, referentes a data mining.
Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos 
de biologia evolutiva, como hereditariedade, recombinação, seleção natural e mu-
tação, para solucionar e agrupar problemas.
14. (CESPE/TJ-CE/2014) Assinale a opção correta acerca de Data Mining.
a) A informação acerca dos resultados obtidos no processo de mineração é apre-
sentada apenas de forma gráfica.
b) A classificação, uma das principais tecnologias da mineração de dados, caracte-
riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada 
a um itemset.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
37 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
c) É possível realizar mineração de dados em documentos textuais como, por 
exemplo, uma página da Internet.
d) A grande desvantagem de um Data Mining consiste no fato de que a identifi-
cação de um padrão, para a geração do conhecimento, só é possível por meio da 
análise em pequenas quantidades de dados.
e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é 
permitido um único tipo de padrão.
15. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining 
e ETL.
O uso de agrupamento (clustering) em DataMining exige que os registros sejam 
previamente categorizados, tendo por finalidade aproximar registros similares para 
predizer valores de variáveis.
16. (CESPE/TC-DF/2014) Julgue os itens subsecutivos, com relação a Data Mining, 
desempenho de sistemas de bancos de dados e controle de concorrência.
Com o uso da classificação como técnica de Data Mining, busca-se a identificação 
de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa-
da em conjunto com outras técnicas de mineração de dados.
17. (CESPE/MC/2013) Com relação a soluções de suporte à decisão, julgue os itens 
subsecutivos.
Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci-
mento em base de dados. Eles são provenientes, automaticamente, do banco de 
dados e não há interação manual na descoberta de novos tipos de padrões.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
38 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
18. (CESPE/MPU/2013) Julgue os próximos itens, acerca de sistemas de suporte à 
decisão.
Em se tratando de mineração de dados, a técnica de agrupamento (clustering) 
permite a descoberta de dados por faixa de valores, por meio do exame de alguns 
atributos das entidades envolvidas.
19. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e 
ETL.
O processo de transformação de dados pode exigir que dados logicamente relacio-
nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis-
tros distintos ou até mesmo estejam em bancos de dados operacionais distintos.
20. (CESGRANRIO/EPE/2012) As técnicas de mineração dedados podem ser cate-
gorizadas em supervisionadas e não supervisionadas.
As técnicas de árvores de decisão, agrupamento e regras de associação são cate-
gorizadas, respectivamente, como: 
a) não supervisionada, não supervisionada, não supervisionada
b) não supervisionada, supervisionada e não supervisionada
c) supervisionada, não supervisionada e não supervisionada
d) supervisionada, não supervisionada e supervisionada
e) supervisionada, supervisionada e supervisionada
21. (CESPE/TJ-AC/2012) No que diz respeito a sistemas de suporte a decisão, jul-
gue os itens subsequentes.
O data mining possibilita analisar dados para obtenção de resultados estatísticos 
que poderão gerar novas oportunidades ao negócio.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
39 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
22. (CESPE/TJ-ES/2011) Julgue os itens a seguir, a respeito de administração de 
dados e de administração de banco de dados.
Mineração de dados, em seu conceito pleno, consiste na realização, de forma ma-
nual, de sucessivas consultas ao banco de dados com o objetivo de descobrir pa-
drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão.
23. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma 
ou mais técnica de aprendizagem em computador para, automaticamente, analisar 
e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens 
seguintes, que versam sobre mineração de dados e KDD.
O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re-
visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida 
como uma etapa desse processo.
 
24. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma 
ou mais técnica de aprendizagem em computador para, automaticamente, analisar 
e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens 
seguintes, que versam sobre mineração de dados e KDD.
A metodologia para a realização de tarefas de mineração de dados, prescrita pelo 
modelo de referência proposto pelo Consórcio CRISP/DM, consiste nas seguintes 
fases: entendimento do negócio (business understanding), entendimento dos da-
dos (data understanding), pré-processamento dos dados (data preparation), mo-
delagem (modeling), avaliação dos modelos (evaluation) e colocação do modelo 
selecionado em uso (deployment).
25. (CESPE/DATAPREV/2006) Julgue os seguintes itens, acerca de técnicas de mi-
neração de dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
40 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Outliers são instâncias de dados (observações) atípicas porque se mantêm à dis-
tância anormal das outras instâncias em uma amostra aleatória representativa da 
população de onde as instâncias foram extraídas.
26. (CESPE/ANATEL/2009) Data mining (mineração de dados) consiste na análise 
de grandes quantidades de dados a fim de encontrar padrões e regras que pos-
sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de 
explorar grandes quantidades de dados à procura de padrões consistentes, como 
regras de associação ou sequências temporais, para detectar relacionamentos sis-
temáticos entre variáveis, detectando assim novos subconjuntos de dados. Utiliza 
várias técnicas da estatística, recuperação de informação, inteligência artificial e 
reconhecimento de padrões.
27. (CESPE/IPEA/2008) Com relação a BI (business inteligence), indicadores da 
produção, administração da produção, monitoração do ambiente operacional, jul-
gue os próximos itens.
O data mining é um processo utilizado para a extração de dados de grandes repo-
sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados 
de um data warehouse.
28. (FEPESE/UFFS/2012) Identifique, dentre os itens abaixo, os que podem ser 
utilizadas por processos e sistemas de data mining:
1. Criptografia assíncrona
2. Inteligência artificial
3. Machine learning
4. Estatística
5. Algoritmos genéticos
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
41 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
Assinale a alternativa que indica todos os itens corretos.
a) São corretos apenas os itens 2, 3 e 4. 
b) São corretos apenas os itens 2, 3 e 5.
c) São corretos apenas os itens 1, 2, 3 e 5.
d) São corretos apenas os itens 2, 3, 4 e 5.
e) São corretos os itens 1, 2, 3, 4 e 5.
29. (CESPE/TCU/2007) Nos sistemas de suporte a decisão (SSD), os dados são 
coletados em data warehouses e a análise de dados pode ser realizada por meio 
de processamento analítico online (OLAP) e data mining. Julgue os itens seguintes, 
sobre SSD, OLAP e data mining.
No data mining, o agrupamento e a classificação funcionam de maneira similar: o 
agrupamento reconhece os padrões que descrevem o grupo ao qual um item per-
tence, examinando os itens existentes; a classificação é aplicada quando nenhum 
grupo foi ainda definido.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
42 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
GABARITO
1. e
2. a
3. d
4. E
5. E 
6. C
7. E
8. b
9. C
10. d
11. C
12. E
13. C
14. c
15. E
16. C
17. E
18. C
19. C
20. c
21. C
22. E
23. C
24. C
25. C
26. C 
27. E
28. d
29. e
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
http://www.grancursosonline.com.br
http://www.grancursosonline.com.br
43 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
www.grancursosonline.com.br
GABARITO COMENTADO
1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que: 
a) Refere-se à implementação de banco de dados paralelos.
b) Consiste em armazenar o banco de dados em diversos computadores.
c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes-
mo intervalo de tempo.
d) Permite-se distinguir várias entidades de um conjunto.
e) Refere-se à busca de informações relevantes a partir de um grande volume de 
dados.
Letra e.
Uma simplificação do conceito de mineração de dados, mas, ainda assim, não deixa 
de estar correta. 
2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar:
a) É o processo de descoberta de novas correlações, padrões e tendências entre 
as informações de uma empresa, por meio da análise de grandes quantidades de 
dados armazenados em bancos de dados usando técnicas de reconhecimento de 
padrões, estatísticas

Continue navegando