Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Prévia do material em texto

Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
1 de 75 | www.direcaoconcursos.com.br 
 
Aula 03 
Mineração de dados; CRISP DM; Pré-
processamento; Técnicas e Tarefas de Mineração; 
Associação; Anomalia e Predição 
Análise de Dados e Informações para TCE 
RJ 
Prof. Arthur Mendonça 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
2 de 75 | www.direcaoconcursos.com.br 
Sumário 
TEORIA DA AULA .................................................................................................................................................................... 3 
INTRODUÇÃO ................................................................................................................................................................................. 3 
A MINERAÇÃO DE DADOS .................................................................................................................................................................. 4 
APLICAÇÕES ................................................................................................................................................................................... 6 
FALÁCIAS ....................................................................................................................................................................................... 7 
CRISP-DM ................................................................................................................................................................................. 10 
Visão geral ........................................................................................................................................................................... 11 
Etapas .................................................................................................................................................................................. 12 
Tarefas de cada etapa ......................................................................................................................................................... 13 
TÉCNICAS DE PRÉ-PROCESSAMENTO ................................................................................................................................................. 15 
Limpeza de dados ................................................................................................................................................................ 16 
Integração de dados ............................................................................................................................................................ 19 
Transformação de dados ..................................................................................................................................................... 20 
Redução de dados ................................................................................................................................................................ 22 
TÉCNICAS E TAREFAS DE MINERAÇÃO................................................................................................................................................ 23 
Classificação ........................................................................................................................................................................ 24 
Análise de Agrupamentos (Clusterização) ........................................................................................................................... 29 
Regras de Associação .......................................................................................................................................................... 32 
Detecção de Anomalias ....................................................................................................................................................... 35 
Modelagem Preditiva .......................................................................................................................................................... 37 
Classificando as tarefas da mineração ................................................................................................................................ 39 
APRENDIZADO DE MÁQUINA ................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO. 
MINERAÇÃO DE TEXTO........................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO. 
Técnicas de pré-processamento .............................................................................................. Erro! Indicador não definido. 
Análise ..................................................................................................................................... Erro! Indicador não definido. 
TÓPICOS COMPLEMENTARES ................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO. 
Regressão ................................................................................................................................ Erro! Indicador não definido. 
Visão Computacional ............................................................................................................... Erro! Indicador não definido. 
Deep Learning .......................................................................................................................... Erro! Indicador não definido. 
QUESTÕES DE PROVA COMENTADAS ................................................................................................................................... 42 
LISTA DE QUESTÕES ............................................................................................................................................................. 61 
GABARITO ............................................................................................................................................................................ 71 
RESUMO DIRECIONADO ....................................................................................................................................................... 72 
REFERÊNCIAS ....................................................................................................................................................................... 74 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
3 de 75 | www.direcaoconcursos.com.br 
Teoria da Aula 
Introdução 
 
 
 
Antes de começarmos a estudar a mineração de dados, precisamos ver uma breve introdução aos sistemas 
analíticos. Sistemas analíticos são aqueles sistemas cujo objetivo é fornecer subsídio para a tomada de decisão 
dentro das organizações. Esses sistemas se apresentam em diferentes formatos e maneiras, com diversas 
funcionalidades e funcionamentos distintos. 
Por serem voltados à produção de informações e conhecimento, vários desses sistemas costumam ser 
categorizados como sistemas de Business Intelligence, ou de inteligência de negócio. Alguns desses sistemas têm 
como objetivo organizar os dados de maneira que eles possam comunicar tendências e permitir a análise de séries 
históricas sobre os dados. 
Nesse cenário, destacam-se algumas tecnologias. Primeiro podemos falar dos Data Warehouses (DW), que são 
bancos de dados cujo objetivo é serem repositórios completos, com todos os dados da organização que são úteis 
para a tomada de decisão. 
Esses dados, que vem de várias fontes heterogêneas, são extraídos, transformados num formato interessante para 
análise, para que possam fornecer uma base confiável e organizada para a tomada de decisões. Esse processo de 
obtenção, transformação e carga dos dados no DW é conhecido como ETL (extrair, transformar,carregar na sigla 
em inglês). 
Também podemos citar OLAP, que é uma tecnologia relacionada a bancos de dados multidimensionais e que 
possibilita análises em dados organizados de forma hierárquica, possibilitando a visualização desses dados de 
forma interativa em diversas perspectivas. Em OLAP, os dados geralmente são organizados em estruturas 
conhecidas como cubos de dados. 
A moral da história aqui é que há vários sistemas de armazenamento de dados cujo objetivo é um pouco distinto 
dos bancos de dados relacionais comuns, que geralmente são voltados para armazenar os dados transacionais das 
organizações – aqueles dados que permitem o processamento das operações do dia a dia da organização. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
4 de 75 | www.direcaoconcursos.com.br 
Os sistemas analíticos organizam e exibem os dados com um foco maior na facilidade de uso e consultas pelos 
usuários, muitas vezes permitindo que eles os enxerguem através de painéis interativos (dashboards), relatórios e 
elementos gráficos diversos. 
 
A mineração de dados 
 
Quando falamos de mineração de dados (data mining), estamos tratando de um conjunto de técnicas cujo objetivo 
é também subsidiar a tomada de decisão dentro das organizações. Só que a mineração de dados, no entanto, não 
é um sistema de armazenamento de dados ou um tipo de banco de dados diferente. 
Enquanto tecnologias como OLAP e DW geralmente buscam transformar e organizar dados de modo que eles 
fiquem mais compreensíveis e o processo de extração de informações se torne mais fácil, a mineração de dados 
tem um enfoque maior na identificação de padrões e relacionamentos ocultos nos dados. 
A mineração faz parte do processo de descoberta do conhecimento (KDD), que é um conceito mais amplo, sendo 
um processo que permite extrair informações e conhecimento a partir do processamento, enriquecimento e 
interpretação dos dados brutos. Veja uma ilustração do KDD: 
 
 
Figura: Processo de descoberta do conhecimento em bancos de dados (Fayyad, Shapiro, & Smyth, 1996). 
 
Esse processo de KDD compreende as etapas de seleção dos dados, pré-processamento, transformação, 
mineração de dados e interpretação/avaliação dos resultados da mineração. Veja que há algumas etapas 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
5 de 75 | www.direcaoconcursos.com.br 
preliminares em que os dados originais são extraídos, manipulados e transformados antes que se chegue à 
mineração propriamente dita. 
Esses processamentos e transformações são bastante comuns nos sistemas analíticos, visto que os dados oriundos 
de diversas fontes nem sempre estão no formato e na qualidade mais adequados para se extrair informações a 
partir deles. 
Voltando à mineração de dados propriamente dita, temos que Laudon & Laudon (2014) afirmam que a mineração 
de dados é uma técnica mais voltada a descoberta do que os demais sistemas analíticos como o OLAP e aqueles de 
Data Warehouse e Business Intelligence. Veja a definição desses autores: 
Mineração de dados fornece insights em dados corporativos que não podem ser obtidos com OLAP, ao 
encontrar padrões escondidos e relacionamentos em grandes bancos de dados e inferindo regras a 
partir deles, de modo a prever comportamento futuro. 
Uma outra definição bastante concisa de mineração de dados pode ser vista no site da SAS, empresa pioneira em 
sistemas analíticos: 
Mineração de dados (em inglês, data mining) é o processo de encontrar anomalias, padrões e 
correlações em grandes conjuntos de dados [...]. 
Dessas duas definições, podemos entender que a mineração de dados é um processo que consiste em encontrar 
padrões e e relacionamentos ocultos em grandes conjuntos de dados. Esse processo muitas vezes envolve a 
identificação de regras que permitem prever comportamentos futuros dos eventos que estão sendo observados 
nos dados. 
Veja que um detalhe crucial para entender o que é a mineração é que as informações úteis eventualmente 
encontradas estavam ocultas em meio a um grande volume de dados. Ou seja, aqui não se trata de simplesmente 
colocar os dados num formato bonitinho e esperar que o usuário veja o que está óbvio. Na mineração, são usadas 
técnicas de computação, estatística e matemática para se criar modelos que permitam extrair as informações de 
interesse. 
A mineração faz forte uso de técnicas avançadas de computação, como aprendizado de máquina, que é um tipo 
de inteligência artificial. 
Um detalhe importante sobre a mineração de dados é que essa análise pode ser realizada nos mais diversos 
conjuntos de dados, desde dados estruturados, como aqueles em um data warehouse ou banco de dados 
convencional, até mesmo em dados não estruturados, como aqueles abundantes na internet, incluindo postagens 
em redes sociais. 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
6 de 75 | www.direcaoconcursos.com.br 
Aplicações 
 
Para que você consiga ter uma ideia melhor a respeito do que são essas regras e padrões ocultos que podem ser 
identificados com a mineração de dados, é importante que vejamos alguns exemplos de como isso é usado na 
prática. 
A mineração de dados tem inúmeras aplicações nos mais diversos campos dos negócios e da sociedade. É até um 
pouco difícil para o examinador citar uma área ou cenário em que a mineração não é aplicável, pois não é um 
processo muito fixo com fases bem definidas – os processos de mineração de dados irão variar de acordo com o 
cenário de aplicação e com as técnicas empregadas. 
Há alguns exemplos interessantes de aplicações da mineração de dados: 
 
 
O campo do marketing e da publicidade é frequentemente citado como uma boa área para 
utilização da mineração de dados. As empresas podem empregar técnicas de mineração para 
identificar perfis de consumo de clientes ou realizar análise de sentimentos com base nas 
postagens de usuários em redes sociais – tudo isso com o objetivo de direcionar melhor suas 
ações publicitárias e oferecer produtos mais personalizados para cada cliente. 
 
A mineração também tem aplicações relativas à segurança. Por exemplo, as técnicas de 
mineração podem ajudar a identificar transações no cartão de crédito que fogem do padrão 
de consumo dos clientes, com vistas a bloquear as transações suspeitas e evitar a ocorrência 
de golpes e fraudes. 
 
A mineração, com o auxílio de determinados modelos estatísticos, pode ajudar no campo da 
medicina preventiva, dando subsídios para que os especialistas, baseados em fatores de 
risco, prevejam as probabilidades de ocorrência de determinadas enfermidades em 
determinados grupos populacionais. 
Também pode ser utilizada nas pesquisas de novos medicamentos, permitindo que se trace 
padrões entre pacientes que apresentaram determinado efeito colateral. 
 
Serviços online como a Netflix fazem grandes investimentos em mineração de dados. As 
técnicas podem ser usadas para melhorar suas recomendações (sabe aquelas sugestões no 
estilo “filmes que você talvez goste?”) e até mesmo para desenvolver novos filmes e séries 
baseados nas preferências dos usuários. 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
7 de 75 | www.direcaoconcursos.com.br 
Falácias 
 
Há alguns preconceitos sobre mineração de dados que são bastante difundidos, mas que não correspondem à 
realidade. São conceitos que parecem verdadeiros, mas não são, então eles podem ser cobrados em prova para 
pegar os candidatos menos atentos. 
Podemos citar quatro falácias interessantes que podem ser alvo de cobrança na sua prova. Elas foram retiradas de 
(Larose, 2005): 
 
 
 
Falácia 1: Existem ferramentas de data mining que podemos “soltar” em cima dos conjuntos de dados, que elas 
irão encontrar soluções para os nossos problemas.Realidade: Em primeiro lugar, não há ferramenta de mineração completamente automática! Então não dá pra 
simplesmente colocar a ferramenta para rodar e esperar que ela retorne a solução para os problemas. A mineração 
de dados é um processo que requer a intervenção e a avaliação humana em diversas de suas etapas, inclusive na 
interpretação dos seus resultados. A mineração fornece uma base, um subsídio à tomada de decisão, não toma a 
decisão por si mesma! 
 
Falácia 2: O processo de mineração é autônomo, precisando de pouca ou nenhuma supervisão. 
Realidade: Como citamos anteriormente, o processo de mineração não é completamente automático. Apesar de 
haver o emprego de técnicas de inteligência artificial, a supervisão e ação humana é necessária durante todo o 
processo. 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
8 de 75 | www.direcaoconcursos.com.br 
 
Falácia 3: Soluções de data mining “se pagam” muito rapidamente. 
Realidade: A realidade é que a mineração de dados pode agregar bastante valor aos negócios, mas também pode 
ser um processo bastante complexo, o que pode implicar gastos elevados com pessoal e equipamentos. Se isso vai 
valer a pena ou o quão rápido o processo irá gerar retorno financeiro irá depender bastante de cada caso específico. 
 
Falácia 4: Sistemas de mineração de dados são intuitivos e fáceis de se utilizar. 
Realidade: A mineração de dados envolve técnicas avançadas de computação, além de conceitos de estatística e 
matemática. Nesse caso, o pessoal que irá conduzir o processo deve ser altamente qualificado, além de ter um 
forte conhecimento sobre o campo do negócio em que o processo de mineração será aplicado. Não é qualquer 
pessoa que consegue conceber e conduzir um processo de data mining! 
 
(CESPE – PF – 2018) Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de 
máquina. 
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos, 
potencialmente úteis e, ao final, compreensíveis. 
RESOLUÇÃO: 
É isso mesmo. Para que possam ser úteis à tomada de decisão, os padrões descobertos devem ser válidos, novos 
(já que eram previamente ocultos) e compreensíveis. 
Gabarito: C 
 
(CESPE – STJ – 2018) Julgue o item que se segue, a respeito de arquitetura e tecnologias de sistemas de informação. 
A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de conhecimento indutivo, 
é um dos objetivos de data mining. 
RESOLUÇÃO: 
Novamente uma boa definição para os objetivos de data mining. O propósito é a descoberta de regras e padrões 
previamente ocultos. O conhecimento indutivo é aquele obtido através da generalização de ocorrências 
particulares. 
Por exemplo, quando verificamos que um determinado conjunto de clientes de um banco com as mesmas 
características está sempre associado a um alto risco de inadimplência, podemos então induzir que os demais 
clientes que seguem aquele perfil também terão um alto risco de não pagar suas contas. 
Veremos mais a respeito das técnicas de mineração mais a seguir, mas saiba que, realmente, o conhecimento 
obtido tem tudo a ver com o método indutivo. 
Gabarito: C 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
9 de 75 | www.direcaoconcursos.com.br 
 
(FCC – TRF4 – 2019) 
Um Tribunal pretende analisar fatos (fatores ambientais e perfis profissionais, entre outros) que esclareçam por 
que alguns colaboradores se destacam profissionalmente enquanto outros não se desenvolvem e acabam por se 
desligar do órgão. Para facilitar essa análise, o Tribunal solicitou um auxílio tecnológico que indique quais 
características nos fatos apresentam razões positivas que justifiquem investimentos mais robustos no treinamento 
de colaboradores que tendem a se destacar a médio e longo prazos. 
Para tanto, o Analista implantará um processo de análise científica preditiva com base em dados estruturados, que 
consiste na obtenção de padrões que expliquem e descrevam tendências futuras, denominado 
a) snowflake. 
b) drill over. 
c) star schema. 
d) slice accross. 
e) data mining 
RESOLUÇÃO: 
O propósito central da ferramenta é identificar padrões que possam ajudar a descrever tendências futuras. Pelos 
termos destacados, podemos perceber que se trata das técnicas de mineração de dados, letra E. As demais 
alternativas facilitam o nosso trabalho, pois as letras B e D são nomes incorretos de operações OLAP e A e C tipos 
de esquemas de modelos dimensionais. 
Gabarito: E 
 
(FCC – SABESP – 2018) 
O conceito de Data Mining descreve 
a) o uso de teorias, métodos, processos e tecnologias para organizar uma grande quantidade de dados brutos para 
identificar padrões de comportamentos em determinados públicos. 
b) o conjunto de métodos, tecnologias e estratégias para atração voluntária de visitantes, buscando a conversão 
consistente de leads em clientes (realização de compra). 
c) as atividades coordenadas de modo sistemático por uma determinada organização para relacionamento com os 
seus distintos públicos, bem como com outras organizações, sejam públicas, privadas ou não governamentais. 
d) o conjunto de tarefas e processos, organizados e sistematizados, normalmente como uso de uma plataforma 
tecnológica (hardware e software, ou até mesmo em cloud computing) para a gestão do relacionamento com 
clientes. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
10 de 75 | www.direcaoconcursos.com.br 
e) o trabalho de produzir levantamento sobre os hábitos de consumo de mídia de um determinado público, 
identificando horários, tempo gasto etc., associando ao perfil socioeconômico, potencial de consumo, persuasão 
etc. 
RESOLUÇÃO: 
a) A primeira alternativa é a nossa resposta. A mineração de dados consiste em um conjunto de métodos, processos 
e tecnologias que tem como objetivo principal a descoberta em grandes conjuntos de dados, com o enfoque em 
encontrar padrões e relacionamentos ocultos. Encontrar padrões de comportamento em determinados públicos 
não é necessariamente o único objetivo da mineração, mas vamos ver que essa é a resposta que mais se adequa 
ao conceito. CERTA 
b) Essa não é uma definição correta de mineração de dados. Data mining não tem como seu objetivo principal a 
conversão de leads em clientes, e sim a identificação de padrões e relacionamentos ocultos nos conjuntos de 
dados. ERRADA 
c) Essas atividades podem até fazer uso de sistemas de TI para facilitar a operacionalização do relacionamento com 
os clientes, mas essa definição nada tem a ver com a de mineração de dados. ERRADA 
d) Gestão de relacionamento com clientes é feita pelos sistemas de CRM, não por mineração de dados. ERRADA 
e) A mineração de dados pode ser utilizada para identificar padrões em hábitos de consumo de públicos. Contudo, 
a mera produção de um levantamento a respeito dos fatores apresentados não caracteriza um processo de 
mineração de dados, e sim de uma pesquisa. ERRADA 
Gabarito: A 
CRISP-DM 
 Em 1996, quatro empresas líderes no mercado emergente de mineração de dados enxergaram uma 
necessidade de se definir um padrão para a indústria. Ali foi a concepção do processo CRISP-DM (Cross Industry 
Standard Process for Data Mining), que se propunha a ajudar as organizações a criarem seus próprios projetos de 
mineração de dados de uma maneira mais eficiente. 
 Esse processo foi criado para ser neutro em termos de aplicação, indústria e ferramenta. Isso quer dizer que 
não importa qual o setor do mercado da empresa, qual a natureza do sistema que ele está criando ou que 
ferramentas está usando para isso, o processo pode ser seguido do mesmo jeito. O CRISP-DM é um processo aberto, 
ou seja, não requer qualquer licenciamento para ser utilizado. 
O CRISP-DM, então, é como se fosse um guia para qualquerum (seja novato na área ou um expert) poder conduzir 
um projeto de mineração de dados. 
 O processo CRISP-DM quebra o processo de mineração em seis fases: 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
11 de 75 | www.direcaoconcursos.com.br 
 
Figura: Processo do CRISP-DM (The CRISP-DM Consortium, 2000) 
 
Visão geral 
 Vamos descrever cada uma das fases desse processo, mas antes disso é necessário fazer algumas 
observações. 
 Primeiro, quero que você observe as setas entre as etapas do processo. Essas setas indicam quais são os 
sentidos mais frequentes entre elas, mas nada impede que outros caminhos sejam seguidos. Os processos no 
CRISP-DM não são rígidos. Na verdade, o resultado de cada fase é que vai definir qual será a próxima a ser seguida. 
Fatores específicos de cada projeto, como a natureza dos dados e os interesses e objetivos dos usuários, irão 
determinar os relacionamentos entre as tarefas. 
 Também quero que você perceba o grande círculo composto por setas que está em volta das fases e dos 
dados. Esse círculo indica que o processo de mineração de dados é cíclico, não termina quando descobrimos os 
padrões ocultos ou obtemos um insight valioso. Cada vez que uma organização passa pelo processo, lições são 
aprendidas, permitindo que se aprimore as questões de negócio para a próxima execução. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
12 de 75 | www.direcaoconcursos.com.br 
Etapas 
Pronto, agora que você já entendeu a sistemática do modelo CRISP-DM, podemos passar a definir o que significa 
cada uma de suas fases. 
Ressalto que as bancas podem adotar a nomenclatura em inglês ou português, então recomendo que você se 
acostume desde já com as duas para não se confundir na hora da prova. As definições das fases foram retiradas 
predominantemente do artigo que define o modelo CRISP-DM 1.0 (The CRISP-DM Consortium, 2000). 
Business Understanding 
 Essa fase inicial, que significa Entendimento do Negócio, visa compreender os objetivos e requisitos do 
projeto, sempre em uma perspectiva do negócio. Por exemplo, é nesta etapa que os executivos afirmam “quero 
entender por que os meus clientes estão migrando para a concorrência”, e daí se desenvolve um plano preliminar 
de como isso seria conseguido com mineração de dados. 
Data Understanding 
 A etapa de Entendimento dos Dados começa com a primeira coleta de dados. A fase visa tornar o usuário 
familiarizado com os dados, identificando problemas de qualidade, e já descobrindo os primeiros insights e 
definindo subconjuntos interessantes para a formulação de hipóteses. 
Data Preparation 
A fase de Preparação de Dados tem como objetivo, já como o nome diz, preparar os dados crus para a avaliação. 
Isso envolve a limpeza e transformação dos dados (remoção de registros obviamente errados, integração de 
diferenças de representação – assim como ocorre no DW, etc.), bem como a seleção de subconjuntos de linhas e 
atributos que sejam relevantes para os propósitos dos usuários. 
Essa etapa costuma ocorrer várias vezes ao longo do processo, são essas modificações que irão transformar nosso 
conjunto de dados iniciais, que costumam conter diversas inconsistências, em um conjunto pronto para a extração 
de padrões. 
Modeling 
Geralmente há diversas abordagens de modelagem possíveis para o mesmo problema de mineração de dados. A 
etapa de Modelagem prevê a seleção dessa técnica de modelagem, a construção do modelo, a avaliação e os testes 
sobre o modelo desenvolvido. 
Quando se seleciona um modelo, muitas vezes ele tem alguns requerimentos bastante específicos em relação ao 
tratamento dos dados. Dessa maneira, pode ser necessário retornar várias vezes para a fase de preparação. 
Evaluation 
Bom, se chegamos até aqui quer dizer que já conseguimos construir um modelo interessante para a análise de 
dados. Contudo, antes de colocar no ambiente de produção da empresa, é necessário que se realize uma etapa de 
Avaliação crítica do que foi implementado. O sistema atinge os objetivos de negócio definidos na etapa de 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
13 de 75 | www.direcaoconcursos.com.br 
entendimento de negócio? Existe algum detalhe que não foi adequadamente considerado? Somente quando 
obtivermos essas respostas devemos implementar o modelo. 
Deployment 
 
 
Figura: Captura de tela de um sistema de mineração de dados e visualizaçãoi 
 
Por último (Ufa!), temos a fase de Implementação, Execução ou Desenvolvimento. Mesmo depois dos modelos 
terem sido criados, o processo não terminou. Precisamos exibir seus resultados de uma maneira significativa para 
o usuário. Essa etapa vai variar bastante de acordo com o ambiente da organização, podendo ser um simples 
relatório ou a criação de um grande portal corporativo para exibir diversos resultados da mineração para todos os 
gestores da empresa. 
Muitas vezes esta etapa está a cargo dos próprios usuários finais e não do analista de dados. Hoje em dia, no campo 
da análise de dados, há uma forte tendência no sentido do self-service BI, que é um conjunto de ferramentas que 
possibilitam que usuários relativamente leigos desenvolvam suas próprias visualizações e naveguem sobre os 
dados. 
 
Tarefas de cada etapa 
Agora o assunto vai ficar um pouco mais “decoreba”. O consórcio que criou o CRISP-DM delineou também algumas 
tarefas relevantes realizadas em cada etapa. Considero que se você tiver entendido bem as fases gerais, saber qual 
atividade vai em qual fase é algo intuitivo. 
 Para sistematizar esse conhecimento, veja o elemento gráfico a seguir: 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
14 de 75 | www.direcaoconcursos.com.br 
 
 
 Viu que não é tão difícil? Fechamos assim a etapa da nossa aula que dizia respeito ao CRISP-DM. Afirmo 
novamente: se você entender bem a divisão das etapas, saber a que etapa pertence qual tarefa será trivial! 
 
(CESPE – TCE/PE – 2017) Julgue o seguinte item, que se refere a CRISP-DM (Cross-Industry Standard Process of Data 
Mining). 
Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a identificação dos 
dados e verificar se as variáveis relevantes para o projeto não são interdependentes. 
•Determinar objetivos de negócio
•Avaliar situação
•Determinar os objetivos da mineração de dados
•Produzir um plano de projeto
Business Understanding
•Realizar a coleta inicial dos dados
•Descrever os dados
•Explorar os dados
•Verificar a qualidade dos dados
Data Understanding
•Selecionar os dados
•Limpar os dados
•Construir os dados (derivados dos dados crus)
•Integrar dados
•Formatar dados
Data Preparation
•Selecionar Técnica de Modelagem
•Gerar design de testes
•Construir o modelo
•Avaliar o modelo
Modeling
•Avaliar resultados
•Revisar o processo
•Determinar os próximos passos (com base no resultado)
Evaluation
•Implantar o plano
•Monitorar e realizar a manutenção do plano
•Produzir relatório final
•Revisar o projeto
Deployment
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
15 de 75 | www.direcaoconcursos.com.br 
RESOLUÇÃO: 
A assertiva estava indo bem, mas derrapou no final. A coleta inicial dos dados ocorre somente na fase de data 
understanding. Dessa forma, sua identificação e a verificação se as variáveis são interdependentes ou não só vai 
ocorrer nessa etapa. 
Gabarito: E 
 
Técnicas de Pré-Processamento 
 
Os dados contidos em bancos de dados e nas outras fontes que servem de base para a mineração muitas vezes 
contêm diversas inconsistências, incompletudes e ruídos. Seja devido a erros na geração dos dados ou mesmo a 
falhas na modelagem do banco de dados, alguns problemas com os dados podem surgir e atrapalhar a mineração! 
Os conjuntosde dados da mineração podem conter, por exemplo (Larose, 2005): 
 
• Campos obsoletos ou redundantes; 
• Valores ausentes; 
• Outliers (anomalias); 
• Dados cuja forma não é adequada para mineração; 
• Valores não consistentes com a política de dados da organização ou com o senso comum. 
 
A fase de pré-processamento inclui técnicas para lidar com esses problemas, na forma de limpeza e de tratamento 
de dados. As técnicas que são empregadas aqui são similares àquelas utilizadas nos demais sistemas analíticos, 
principalmente naquelas que são empregadas na carga de dados nos bancos de dados conhecidos como Data 
Warehouses (DW). 
Desta forma, esses data warehouses que passaram por um tratamento adequado acabam sendo ótimas fontes 
para a realização de mineração de dados, uma vez que seus dados já passaram por esse pré-processamento! 
Por fim, é importante que você saiba que a mineração de dados pode ocorrer também com base em dados não 
estruturados, o que geralmente traz a necessidade de se processá-los para dar algum tipo de estrutura. Sem uma 
certa organização e estruturação, fica difícil encontrar os padrões e relacionamentos ocultos no conjunto de dados. 
Vamos ver algumas técnicas de pré-processamento! 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
16 de 75 | www.direcaoconcursos.com.br 
Limpeza de dados 
 
Para saber o que é limpeza de dados, precisamos primeiro ter uma ideia do que são dados “sujos”. Dados que são 
considerados lixo podem se apresentar em diferentes maneiras. 
Vamos ver um exemplo (baseado no livro de Larose). Observe a tabela abaixo, que registra clientes de um comércio 
eletrônico. Veja os valores destacados em vermelho, que podem representar problemas. 
 
IdCliente CEP Idade Estado Civil Renda 
001 88160-610 41 N/A 10000 
002 69047-392 A Casado 4000 
003 36830 NULL Divorciado 99999 
004 61948-050 23 Solteiro -5000 
 
Esses dados destacados apresentam valores um pouco discrepantes do restante dos valores nas colunas. Por 
exemplo, há um CEP com somente cinco dígitos, uma pessoa com idade “A” e uma renda com valor negativo. 
Alguns desses valores são claramente erros de preenchimento, como a idade “A” e a renda negativa. Esses valores 
devem ser corrigidos, quando for possível identificar o valor correto, ou, quando isso não for possível, eliminados 
do conjunto de dados, para não atrapalhar os resultados da mineração. 
Note, no entanto, que alguns valores aparentemente discrepantes não necessariamente são considerados 
incorretos. O CEP de 5 dígitos na tabela, por exemplo, pode simplesmente ser um código postal de algum residente 
do exterior. Nesse caso, a informação pode ser preservada, já que não é um erro. 
As decisões de eliminar ou corrigir dados devem levar em consideração também esse tipo de situação, e podem 
requerer a interpretação e a intervenção humana para decidir o que se fazer. 
A limpeza de dados também deve tratar daqueles valores ausentes, como aqueles representados pelo valor nulo 
(NULL) e pelo termo “N/A” mais acima. Dados que estão sendo minerados podem vir de várias fontes diferentes, e 
essas fontes podem representar dados ausentes de diferentes maneiras, como o valor NULL ou termos como “N/A”, 
“Não aplicável”, “Desconhecido”, etc. É importante identificar essas várias representações para tratá-las todas de 
forma sistemática, do mesmo jeito. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
17 de 75 | www.direcaoconcursos.com.br 
 
Lidando com dados ausentes 
Valores ausentes em bancos de dados geralmente são prejudiciais à nossa capacidade de análise. O ideal seria que todos os 
campos possuíssem valores, mas esse raramente é o caso. Assim, muitas vezes é possível substituir os dados ausentes por 
algum valor adequado, caso em que é realizada uma imputação de dados. 
Esse processo deve ser realizado com bastante cuidado, e sua necessidade vai depender da aplicação. Para definir qual o 
valor será inserido no campo ausente, é possível utilizar observações estatísticas, como as médias ou modas. Outras opções 
incluem a geração de valores aleatórios ou sempre substituir os valores em branco por um valor constante. 
Alternativamente, caso não haja substituto adequado, pode-se também deixar o valor em branco e ignorar os registros nas 
análises. São várias as possibilidades de se lidar com esse tipo de valor, e a técnica mais adequada irá sempre depender do 
cenário específico de mineração de dados. 
 
Deduplicação 
Além de possíveis erros e inconsistências nos dados, quando extraímos dados de várias fontes, pode ser que alguns 
deles apresentem duplicações entre essas fontes. 
Por exemplo, um processo de mineração em um banco pode ter dados a respeito de seus clientes oriundos de 
diferentes fontes, como aqueles que vem do próprio sistema de cadastro do banco e aqueles que vem das 
instituições de informações de crédito, tipo Serasa e SPC. 
Nesse caso, os dados de uma mesma pessoa podem estar representados em ambos os sistemas, o que irá gerar 
uma duplicidade no conjunto de dados final. Nesse caso, a fase de limpeza dos dados deve eliminar eventuais 
informações redundates que existam no conjunto de dados. 
 
Remoção de dados irrelevantes 
Além disso, alguns dados podem não ser duplicados nem conter erros, mas simplesmente não serem relevantes 
para análise. 
Por exemplo, se um banco vai realizar uma análise de risco de crédito para seus clientes, pode não fazer sentido 
realizar esse processo para clientes menores de idade, que não podem contrair empréstimos e financiamentos. 
Assim, os registros supérfluos, ou seja, que não servem ao propósito da mineração, podem ser eliminados do 
conjunto. 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
18 de 75 | www.direcaoconcursos.com.br 
Outliers (anomalias) 
 
Figura: gráfico com dois outliers (Larose, 2005) 
 
Quando estamos realizando o pré-processamento de dados, podemos identificar algumas ocorrências anômalas 
para determinados atributos, que são aquelas que não se encaixam no perfil observado nos demais dados do 
mesmo tipo. 
Essas anomalias são também conhecidas como outliers. Um outlier é um fato que desvia tanto de outros fatos a 
ponto de gerar suspeitas de que foi gerado por um mecanismo diferente (Hawkins, 1980). 
A partir dessa definição, podemos construir um exemplo interessante. Imagine que você está numa sala com vários 
de seus colegas de trabalho. Se realizarmos uma observação estatística sobre os salários das pessoas nessa sala, 
temos que os valores não devem variar tanto, estando em um intervalo relativamente curto, já que todos estão em 
funções parecidas em uma mesma organização. Agora imagine que o CEO de uma multinacional entra na sala. Se 
realizarmos uma nova observação a respeito dos salários, veremos que o salário do CEO destoa completamente 
dos demais valores. 
Num conjunto de dados muito grande, é bastante improvável que saibamos de onde veio cada registro. Assim, é 
difícil saber se um outlier é um valor real (como o salário do CEO), ou se é um mero erro de digitação ou problema 
de integração de dados. Esses fatores devem ser levados em consideração no pré-processamento! 
Para darmos outro exemplo, veja novamente essa a tabela de exemplo que trouxemos mais acima: 
 
IdCliente CEP Idade Estado Civil Renda 
001 88160-610 41 N/A 10000 
002 69047-392 A Casado 4000 
003 36830 NULL Divorciado 99999 
004 61948-050 23 Solteiro -5000 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
19 de 75 | www.direcaoconcursos.com.br 
 
O cliente de id 003 possui uma renda informada de 99.999 reais mensais. Esse valor é muito maior que os demais, 
além de ser um valor um pouco esquisito, o que gera a suspeita de ser um erro de preenchimento. 
De fato, alguns sistemasde computador não permitem que se omita determinadas informações, então para burlar 
esse tipo de restrição, o funcionário responsável pelo preenchimento do salário pode simplesmente ter colocado 
esse número 99999 porque não tinha em mãos a informação da renda do cliente em questão. 
Só que esse valor, apesar de atípico, pode realmente ser o salário de alguém. Não temos como fazer nenhuma 
afirmação sem conhecermos a origem do dado. No pré-processamento temos que investigar esse tipo de situação 
para identificarmos se o outlier em questão é realmente um valor incorreto (caso em que ele poderá ser removido) 
ou se simplesmente é um valor real, somente bastante distinto dos demais. 
Nós veremos mais a respeito da detecção de outliers como técnica de mineração de dados mais à frente. 
 
Integração de dados 
 
 
Figuras: Tipos de operações realizadas na integração de dados 
 
Como já mencionamos, os dados da mineração de dados podem vir de várias fontes diferentes. Essas fontes podem 
ser heterogêneas, ou seja, terem características distintas umas das outras. Em um mesmo processo de mineração 
de dados, podemos ter dados oriundos de bancos de dados relacionais, de bancos de dados multidimensionais 
(OLAP), de arquivos de dados como aqueles no formato CSV ou em XLS, dentre outras infinitas possibilidades. 
Quando os dados vêm de diferentes origens, podem surgir vários problemas de integração, que são problemas 
ocasionados justamente pelo caráter variado das diferente fontes de dados. Um desses problemas pode ser a 
existência de vários formatos diferentes para representar os mesmos dados – por exemplo, em um cadastro de 
pessoas que contém dados de diferentes fontes, a representação do sexo dessas pessoas pode seguir vários 
padrões, como homem/mulher, m/f, h/m, dentre outras possibilidades. 
Nesse caso, é importante que quando esses dados sejam integrados haja uma unificação nessas representações 
diferentes do mesmo tipo de dado, de modo a permitir que a mineração faça sua análise de forma correta. Um 
m, f
homem, 
mulher
h, m
m, f
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
20 de 75 | www.direcaoconcursos.com.br 
sistema de computador não irá compreender por si só que “homem”, “m”, “masculino” e “h” são a mesma coisa, 
então é importante que seja definido um único padrão para representar essa categoria de informação. 
Além disso, os campos identificadores de cada registro de dados (como as chaves primárias nos bancos de dados) 
podem se repetir entre as diferentes fontes de dados. Assim, é necessário definir um novo padrão para essas chaves 
no conjunto de dados a ser minerado, para garantir que o campo chave continue sendo capaz de identificar 
unicamente cada registro. 
 
Transformação de dados 
Para realizar a mineração de dados, além da limpeza pode ser necessário também realizar algumas transformações 
sobre o conjunto de dados. Essas transformações frequentemente terão como objetivo reduzir o tamanho do 
conjunto de dados, como apontam Elmasri e Navathe. 
Vamos ver algumas operações de transformação que podem ser executadas nesta etapa do pré-processamento. 
 
Normalização 
Essa normalização é diferente daquela normalização que é aplicada nos bancos de dados relacionais. Aqui é uma 
normalização matemática, uma operação em que os dados são distribuídos proporcionalmente para ficarem todos 
em um determinado intervalo. 
Por exemplo, eu tinha um professor na universidade que, quando os alunos tiravam notas muito ruins, ele 
normalizava os valores de acordo com a maior nota. Assim, se o melhor aluno da turma tirou 7.5, essa nota vai ser 
considerada a nova nota máxima, equivalente a 10, e todas as outras notas vão ser convertidas para a nova escala 
de forma proporcional: 
 
 
 
Nota Original 
Nota 
Normalizada 
7.5 10 
6 8 
5 6.67 
4 5.33 
0 0 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
21 de 75 | www.direcaoconcursos.com.br 
Suavização 
 
Figura: Processo de suavização. Veja que alguns outliers são desconsiderados (Zuluaga, Bonaveri, & Barrios, 2015). 
 
A suavização consiste na remoção de ruídos dos dados, aqueles valores ocasionais que saem de um padrão 
desejado. As técnicas de suavização podem ser bastante úteis para se identificar mais facilmente tendências 
temporais e processos que ocorrem de uma maneira cíclica. 
Alguns autores consideram a suavização também como uma técnica de limpeza de dados, já que permite a 
eliminação de anomalias (outliers) no conjunto de dados. 
 
Agregação 
Agregar conjuntos de dados consiste em aumentar a granularidade, ou seja, diminuir o nível de detalhe dos dados. 
Dependendo da situação, pode não ser necessário armazenar os dados no seu formato mais detalhado, então 
realizamos a agregação para reduzir a quantidade de registros no nosso conjunto de dados, o que economiza 
espaço de armazenamento e pode deixar o processo de mineração mais ágil. 
Por exemplo, se uma empresa está buscando padrões na variação de preços dos insumos que ela adquire num 
intervalo de vários anos, os dados individuais de cada compra de material podem não importar muito, sendo 
suficiente armazenar as médias dos valores semanais das aquisições. 
Ao condensarmos vários registros em um só, por exemplo, ao combinarmos todas as aquisições que foram 
realizadas em uma mesma semana, estamos realizando uma agregação desses registros. 
 
Generalização ou discretização 
 
Valor de Idade Categoria 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
22 de 75 | www.direcaoconcursos.com.br 
0-18 Jovem 
18-59 Adulto 
60+ Idoso 
 
Similarmente à agregação, a generalização também reduz a quantidade de registros. A diferença é que esse 
processo permite transformar conjuntos de valores em categorias hierárquicas. Por exemplo, podemos juntar 
várias idades em uma divisão como “jovem”, “adulto” e “idoso”. Por exemplo, todo aquele registro que tiver um 
valor do atributo idade entre 0 e 18 anos ficará marcado como “jovem”. 
 
Redução de dados 
Por fim, temos que as técnicas classificadas como de redução de dados são aquelas que têm como objetivo reduzir 
o tamanho dos conjuntos de dados, mantendo a integridade do conjunto original. Ou seja, ao realizar a redução, 
passamos a trabalhar com menos registros, mas as características do conjunto de dados que vamos analisar se 
mantêm. 
Nos já vimos algumas dessas abordagens, como a agregação (unir múltiplos registros em um só de menor nível de 
detalhe, geralmente de acordo com um parâmetro de data – por dia, por mês, etc.). 
Também existe a redução de dimensionalidade (onde atributos e dimensões irrelevantes ou redundantes são 
removidos) e compressão de dados (algo parecido com o ato de “zipar” um arquivo de computador). 
Há ainda algumas outras técnicas de redução um pouco mais complexas (e que por isso não iremos detalhar muito), 
como a redução de numerosidade, que visa transformar o conjunto de dados em uma forma de representação 
menor, com o auxílio de métodos classificados em paramétricos e não paramétricos. 
Tome nota também que alguns autores consideram a redução de dados como parte da transformação de dados, e 
não uma categoria separada de técnicas. 
 
Dica para a prova: Autores diferentes classificam algumas dessas técnicas de pré-processamento de diferentes 
formas, então não seja muito rigoroso na hora de dizer que uma questão está errada porque classificou 
determinada técnica de forma diferente da que apresentamos aqui (por exemplo, se disse que a suavização é 
uma forma de limpeza de dados e não de transformação). Da mesma maneira, 
Em linhas gerais, você pode considerar que as técnicas de limpeza têm como objetivo eliminar incompletudes, 
inconsistências e dados desnecessários; as técnicas de transformação têm como objetivo mudar o formato dos 
dados, o quemuitas vezes acaba reduzindo o conjunto de dados; e as técnicas de redução têm como objetivo 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
23 de 75 | www.direcaoconcursos.com.br 
reduzir o tamanho dos conjuntos de dados, mantendo a integridade das informações relevantes para a 
mineração. 
 
O que são algoritmos? 
Antes de prosseguirmos, vou tomar um pouco do seu tempo para explicar o que é um algoritmo. Isso é importante, já que 
quando falarmos das técnicas de mineração estaremos basicamente falando dos inúmeros algoritmos utilizados para se 
concretizar esse processo. 
Um algoritmo é nada mais do que uma “receita de bolo” para realizar determinada tarefa em um computador. Ou seja, é a 
descrição da sequência de ações necessárias para se realizar a tarefa. Quando estivermos falando de cada uma das tarefas 
existentes de mineração de dados, iremos dar uma breve explicação a respeito do propósito da tarefa. No entanto, os detalhes 
de como elas serão efetivamente realizadas por um programa de computador estarão definidos em um algoritmo. 
Cada algoritmo tem uma abordagem diferente para a resolução de um mesmo problema. Imagine que você precisa chegar ao 
seu novo local de trabalho e pede orientações na rua para pessoas diferentes. É possível que cada uma dê um conjunto de 
instruções diferente (do tipo “vire à direita, depois siga em frente 100 metros, vire à esquerda...”) a depender do caminho que 
cada uma julga melhor, mas todos irão levá-lo ao mesmo lugar. 
Assim, uma mesma tarefa da mineração de dados pode ser realizada pela utilização de diferentes algoritmos, cada um com 
uma abordagem distinta para a solução do problema. Esses algoritmos geralmente serão transformados em programas em 
linguagem de programação para que possam ser executados e a mineração realizada. 
Alguns desses programas já são comercializados ou disponibilizados prontos, para que o usuário apenas os configure e adapte 
aos seus propósitos e seus conjuntos de dados. O melhor algoritmo ou técnica irá sempre depender de cada situação específica! 
 
Técnicas e Tarefas de Mineração 
 
Bom, já vimos o que é a mineração de dados e introduzimos algumas noções a respeito de pré-processamento de 
dados. A seguir, vamos destrinchar algumas tarefas que são utilizadas para encontrar os padrões e relacionamentos 
ocultos nos conjuntos de dados. 
Conhecer quais são as principais tarefas da mineração e seus propósitos e características principais geralmente será 
suficiente para resolver as questões de prova. No entanto, provas de maior nível tendem a perguntar um ou outro 
detalhe das técnicas e algoritmos associados a cada uma das tarefas. 
 
Dica para a prova: Durante este capítulo, eu vou tratar um pouco dos algoritmos mais importantes e mais 
comumente cobrados para cada uma das tarefas que apresentaremos. Eu vou trazer somente os principais 
aspectos de cada um deles, mas mesmo assim saiba que são assuntos um pouco mais técnicos, que podem trazer 
alguma dificuldade para a sua compreensão. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
24 de 75 | www.direcaoconcursos.com.br 
Com isso em mente, eu recomendo que você só se preocupe em entender de forma um pouco mais detalhada 
esses algoritmos se estiver compreendendo muito bem o restante do assunto, pois a chance desses detalhes 
serem cobrados é bem menor do que aquela chance da banca cobrar as características mais gerais de cada tarefa! 
 
Classificação 
 
Figura: Diagrama representando a tarefa de classificação 
 
A primeira tarefa que vamos estudar é a classificação. Ela é uma das mais cobradas em concursos! Nesta tarefa, 
nós iremos classificar os registros de dados dados em função de algumas categorias predeterminadas. 
Para dar um exemplo, imagine que um banco tem como objetivo classificar o risco associado a conceder um 
empréstimo a cada cliente. Dessa forma, o sistema iria ler os registros com as informações dos clientes e os 
classificar em risco baixo, médio ou alto. 
Só que para aprender a fazer a classificação, o sistema de mineração de dados precisa primeiro de alguns exemplos, 
para conseguir aprender as características que fazem um cliente ter risco baixo, médio ou alto. Uma vez aprendidas 
essas características, o sistema irá gerar um modelo de mineração de dados, que é nada mais do que o conjunto 
de regras que define como classificar os registros. 
Assim, na classificação nós precisamos primeiro criar um conjunto de dados de treinamento, ou seja, um conjunto 
com dados já classificados manualmente de acordo com nossos propósitos. O atributo que contém a informação 
de que categoria pertence cada registro é chamado rótulo de classe. 
Veja a tabela de exemplo abaixo que contém dados dos clientes e o rótulo de classe (campo Risco) já preenchido: 
 
Cliente Renda Sexo Idade Estado Civil Risco 
001 1500 M 18 Solteiro Alto 
002 15000 F 45 Casado Baixo 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
25 de 75 | www.direcaoconcursos.com.br 
003 9000 M 23 Solteiro Médio 
004 Variável F 50 Divorciada Alto 
 
Assim, nós alimentamos esses dados de treinamento ao sistema, que, com a ajuda de um algoritmo, percebe quais 
são os padrões envolvidos na classificação e assim “aprende” a classificar novos dados. 
Por exemplo, o sistema de mineração de dados poderia perceber, a partir da nossa tabela, que mulheres adultas 
de alta renda geralmente estão associadas a um baixo risco, e assim passar a classificar outras clientes com o mesmo 
perfil na mesma categoria (“Baixo”). 
Claro que esse exemplo que demos é muito simplificado, pois qualquer pessoa seria capaz de ver esses poucos 
dados e perceber esse padrão! As regras e padrões identificados com o auxílio da mineração de dados são bem 
mais complexos, fazendo uso de várias técnicas estatísticas avançadas para serem gerados. 
Perceba que, na classificação, a máquina está passando por um processo de aprendizado, ou seja, com base em 
alguns exemplos, o computador “aprende” o modelo que irá permitir classificar o restante do conjunto de dados, 
para os quais o rótulo de classe ainda não está definido. Esse é um dos tipos de aprendizado de máquina existentes! 
Esse tipo de aprendizado, que faz uso de um conjunto de treinamento para que a máquina extrapole as regras 
gerais é chamado de aprendizado supervisionado. Ele é dito supervisionado justamente porque o ser humano 
precisa fornecer alguns exemplos para que o aprenziado possa ocorrer. 
 
Técnicas e algoritmos 
A banca CESPE já considerou que as técnicas de classificação se dividem em dois tipos: 
1) Aquelas baseadas em separabilidade ou entropia, utilizando as árvores de decisão e variantes. 
2) Aquelas baseadas em particionamento, utilizando o algoritmo SVM (support vector machines). 
 
Como já falei, não é tão provável que a banca venha cobrar em detalhes cada uma dessas técnicas, então vamos 
abordar algumas características principais delas: 
 
Árvores de decisão 
Há algumas técnicas diferentes que podem ser utilizadas para se criar o modelo de classificação. Segundo Elmasri 
e Navathe, geralmente este modelo é representado na forma de árvores de decisão ou como conjuntos de regras. 
Essas regras seriam proposições lógicas no estilo “se renda > 10000 e sexo = f, então risco = baixo”, implementadas 
em linguagem de programação. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
26 de 75 | www.direcaoconcursos.com.br 
Uma árvore de decisão, por sua vez, pode ser tomada como uma outra representação das regras de classificação. 
Ela vai seguindo caminhos diferentes de acordo com o valor de cada uma das variáveis (os atributos do conjunto 
de dados) envolvidas na classificação. 
Veja um exemplo de árvore de decisão a seguir: 
 
 
 
Figura: Exemplo de árvore de decisão,inspirada em (Elmasri & Navathe, 2011) 
 
Cada valor de uma variável considerada no processo da classificação leva o algoritmo a um novo ramo (ou galho) 
da árvore. Veja que, partindo da raiz, se o cliente é casadoo algoritmo percorre a árvore para o lado esquerdo. Caso 
seja solteiro, o algoritmo vai para o lado “não” da árvore, seguindo pelo ramo do lado direito. 
Esse processo vai seguindo até que se chegue ao último nível, em que ficam as folhas, ou seja, aqueles valores nas 
extremidades inferiores da árvore. As folhas contêm as próprias classes que são utilizadas na classificação. Assim, 
dependendo dos valores dos atributos considerados na classificação, o caminho percorrido por cada item a ser 
classificado levará ao rótulo de sua classe. 
Na árvore do exemplo a seguir, alguém solteiro (casado = Não), porém com saldo bancário superior a 5.000 (Saldo 
da Conta >= 5 mil) e mais velho que 25 anos (Idade > 25) seria classificado como grau de risco baixo, dado o seu 
perfil. 
 
SVMs 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
27 de 75 | www.direcaoconcursos.com.br 
Além das árvores de decisão que vimos acima, um tipo de classificador popular (já abordado pela banca CESPE) é 
aquele que usa SVMs. Uma SVM (Support Vector Machine) é um modelo de classificação que utiliza uma noção de 
particionar o espaço para classificar cada ocorrência de dados. 
Em uma SVM, cada dado (um registro ou item a ser classificado) é representado por um ponto em um espaço 
multidimensional. A posição desses pontos de dados vai ser dada de acordo com os valores dos seus atributos 
(também chamados de variáveis). 
Por exemplo, veja o gráfico a seguir. Imagine que estamos fazendo uma classificação do risco de um determinado 
grupo de pessoas desenvolverem problemas cardíacos. Para simplificar, vamos utilizar somente duas variáveis: a 
idade dos pacientes e a quantidade de exercícios físicos semanais. 
Nas SVMs cada eixo do espaço é uma das variáveis. No exemplo, podemos dizer que x (eixo horizontal) representa 
a quantidade de exercícios físicos semanais e Y (eixo vertical) representa a idade das pessoas. Cada pessoa, por sua 
vez, é representada por uma bolinha no gráfico. 
 
 
 
Note que quanto mais exercícios uma pessoa faz, mais para direita a bolinha fica. Por outro lado, quanto mais velha 
(maior idade) é a pessoa, mais para cima a bolinha estará posicionada. Nesse caso, uma maior idade está 
relacionada a um maior risco, enquanto uma quantidade maior de exercícios físicos termina reduzindo esse risco. 
“Tá bom, professor, mas e a classificação, como é feita?” É o seguinte: o SVM em questão tem como objetivo 
particionar o espaço em duas partes (por isso se diz que é um classificador binário). As bolinhas que ficarem de um 
lado da partição pertencem a uma classe, as que ficarem do outro pertencem à outra classe. 
Veja um exemplo de particionamento nesse nosso cenário: 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
28 de 75 | www.direcaoconcursos.com.br 
 
 
Nas SVMs, essa partição como a marcada como “H1” no nosso exemplo é chamada de hiperplano. No nosso 
exemplo, tudo que fica à esquerda do hiperplano H1 (bolinhas pintadas de preto) são pessoas com alto risco de 
problemas cardíacos; tudo que fica à direita (bolinhas brancas) representa a classe de pessoas com baixo risco. 
Um mesmo problema de mineração pode ter vários hiperplanos possíveis. Alguns dividem o espaço de uma forma 
melhor do que outras. Geralmente o melhor hiperplano pode ser considerado aquele que tem as maiores margens 
possíveis em relação aos valores de ambas as classes – ou seja, ele deve ser o mais distante possível dos valores 
das duas classes, ficando mais ou menos “no meio”, entre as duas. 
 
 
 
 
Veja nesse novo exemplo que H1 já é considerado um bom classificador, pois divide corretamente as bolinhas 
pretas das bolinhas brancas. Já H2 é melhor ainda, pois além de dividir as bolinhas pretas e brancas corretamente, 
ele está mais equidistante das duas classes. Por fim, veja que H3 não é um bom classificador, já que não separa 
corretamente as bolinhas pretas das brancas! 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
29 de 75 | www.direcaoconcursos.com.br 
Esse critério é um bom critério para selecionar o melhor classificador: escolher aquele com as maiores margens 
possíveis em relação aos valores de ambas as classes. Se existir tal hiperplano, ele será chamado de hiperplano de 
margens máximas. 
O hiperplano sempre terá p-1 dimensões, em que p é a quantidade de dimensões do espaço. No nosso exemplo acima, só 
estamos trabalhando com duas variáveis, portanto se trata de um espaço bidimensional. Nesse caso, o hiperplano só terá uma 
dimensão, por isso ele é representado somente como uma linha no gráfico. 
 
SVMs são utilizadas em vários problemas de classificação. Por ser um método binário de classificação, ou seja, é 
capaz de dividir o espaço em somente duas classes, as SVMs são comumente empregadas em conjunto com várias 
outras. 
Para resolver problemas mais complexos, geralmente se decompõe um problema que envolve múltiplas variáveis 
em vários problemas binários menores. Existem várias técnicas para se fazer isso, mas estas fogem ao escopo do 
nosso curso. Já falamos demais a respeito de SVMs! 
Outros algoritmos… 
Há muitos outros algoritmos de classificação utilizados no campo de mineração de dados. Um deles é o KNN (K-
Nearest Neighbors), que se baseia nas distâncias entre os valores dos diferentes registros para classificá-los. Não 
vamos entrar em maiores detalhes a respeito desses vários algoritmos aqui, pois a aula ficaria extensa e técnica 
demais. 
Análise de Agrupamentos (Clusterização) 
 
 
Figura: Diagrama representando a clusterização 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
30 de 75 | www.direcaoconcursos.com.br 
Coloquei essa tarefa logo depois da classificação pois elas são similares e a diferença entre as duas é 
frequentemente explorada em provas de concursos! 
A ideia da clusterização é agrupar as observações (os registros) em grupos em que seus membros são semelhantes 
entre si e diferentes dos demais grupos. Enquanto na classificação nós já temos um conjunto predefinido de classes 
em que o sistema deve dividir as observações, na clusterização esses grupos são determinados pelo próprio 
algoritmo, então não há classes predefinidas. 
Por exemplo, Elmasri & Navathe dão um exemplo muito interessante de aplicação em medicina: a clusterização 
pode determinar grupos de pacientes que apresentam determinado efeito colateral em relação a um novo 
medicamento. Também há várias aplicações no ramo dos negócios, como agrupar clientes que possuam perfis de 
compras similares. 
Esse processo, em que não há categorias predefinidas e não há um conjunto de treinamento é conhecido como 
aprendizado não supervisionado, pois a própria tarefa irá definir quais são os grupos em que os dados serão 
divididos com base na semelhança entre eles. 
 
A clusterização também é conhecida como análise de agrupamentos, análise de clusters ou análise de 
conglomerados. 
 
Um algoritmo comumente utilizado para a clusterização é o clustering k-means. Mean significa média em inglês, 
então o que este algoritmo faz é separar um número n de observações (os registros) em um número k de grupos, 
em que cada observação é atribuída ao grupo cujo valor da média é a mais próximo dele. 
 
 
 
 
 
 
 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
31 de 75 | www.direcaoconcursos.com.br 
Técnicas e algoritmos: O K-means 
 
 
Figura: Representação da aplicação do k-means em um espaço tridimensional (três variáveis) 
 
Vamos ver o k-means com um pouco mais de calma.A ideia da clusterização é separar todas os elementos do 
conjunto de dados em grupos de elementos que são similares entre si. 
Inicialmente, o k-means define valores aleatórios para as médias dos k grupos. Essas médias são também chamadas 
de centroides. Em seguida, ele vai atribuindo cada uma das observações ao grupo cujo valor é mais próximo da 
média e atualizando a média do grupo de acordo com essas atribuições. 
Por exemplo, considere que estamos agrupando dados a respeito de pessoas em três grupos, com base somente 
na variável idade. Depois de uma divisão inicial aleatória, observamos que as pessoas do Cluster A têm a média de 
idade 31 anos, as do Cluster B têm média de 22 anos e as do Cluster C têm média de 45 anos. 
Após isso, toda nova observação (as novas pessoas a serem agrupadas) irá ser atribuída ao cluster cuja média é 
mais próxima do seu valor da idade. Por exemplo, se estamos inserindo no conjunto de dados uma pessoa de 18 
anos, ela irá ficar no Cluster B, pois dentre os três clusters, a média mais próxima de 18 anos é 22. Já se estamos 
inserindo uma pessoa de 32 anos, ela ficará no Cluster A. Se a pessoa tem 47 anos, ela será atribuída ao Cluster C e 
assim sucessivamente! 
Logo após atribuirmos cada nova pessoa ao seu grupo, veja que o valor da média de idade desse grupo será 
alterado, pois há uma nova pessoa que deve ser levada em consideração! Nós precisamos então recalcular as 
médias dos grupos para mantê-las atualizadas, o que pode levar determinadas observações a migrarem de um 
grupo para o outro ao longo do tempo. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
32 de 75 | www.direcaoconcursos.com.br 
Claro que estou simplificando bastante o funcionamento do algoritmo para você tentar compreender os conceitos 
básicos dele, pois acho que ele não será cobrado em maiores detalhes na sua prova, mas acho que deu pra pegar a 
ideia, não é? 
Somente para formalizar o que vimos acima, dado um conjunto inicial aleatório de médias, o algoritmo k-means irá 
alternar entre os dois passos a seguir: 
 
1) Passo de atribuição: cada observação é atribuída ao grupo cuja média tem a menor distância euclidiana 
para si. Essa distância euclidiana é um dos jeitos possíveis de se determinar a distância entre dois pontos 
no espaço. 
2) Passo de atualização: ajusta-se as médias dos grupos de acordo com os novos elementos atribuídos a 
cada um. 
 
O k-means particiona todo o espaço em um número k de clusters (grupos). Assim, todos os valores possíveis para os atributos 
que servem de base para a clusterização vão fazer o registro ficar em algum dos k clusters existentes. 
 
Regras de Associação 
 
 
Figura: Sistema exibindo análise de regras de associação (Larose, 2005) 
 
A análise de regras de associação tem como objetivo realizar uma análise de afinidade entre duas características 
ou atributos. Um exemplo dado por Larose (2005) é o de um supermercado onde foi observado que em um 
determinado dia da semana, vários clientes que compravam fraldas também compravam cervejas. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
33 de 75 | www.direcaoconcursos.com.br 
A ideia aqui é tentar identificar aqueles eventos que apresentam coocorrência, ou seja, que acontecem de forma 
conjunta. No exemplo, o supermercado identificou que a compra de fralda e a compra de cerveja são dois eventos 
que ocorrem juntos muito frequentemente. 
A identificação dessas regras de associação pode ajudar a direcionar ações de marketing, melhorar a organização 
dos produtos nas prateleiras, dentre outras aplicações. No caso do supermercado, o gerente poderia posicionar as 
fraldas em locais que ficam próximos às geladeiras de cerveja, para maximizar as vendas desses produtos de forma 
conjunta. 
Um exemplo muito comum disso é quando os sites de comércio eletrônico mostram uma lista de produtos que são 
comprados em conjunto com aquele que você acabou de visualizar. Por exemplo, você coloca um celular no 
carrinho e o site automaticamente já sugere para você também comprar um carregador ou uma capinha. 
Formalmente, as regras de associação são representadas como fórmulas do tipo X -> Y, em que X é chamada de 
ação antecedente e Y de consequente. Assim, a regra no nosso exemplo lá em cima seria do tipo fralda -> cerveja. 
Esses itens X e Y, na verdade, podem representar conjuntos de itens (chamados itemsets em inglês). Assim, 
poderíamos verificar também a ocorrência de regras como {celular} -> {capa, carregador}, que indica que as pessoas 
que compram celular geralmente compram também uma capa e carregador. 
Existe uma outra tarefa da mineração chamada análise de padrões sequenciais que se preocupa com a 
ordenação entre os eventos, ou seja, a ideia é estabelecer padrões de eventos que ocorrem em uma determinada 
sequência. 
No caso das regras de associação, temos a ação antecedente e a ação consequente, mas na prática não existe 
nenhuma preocupação com a ordem temporal em que esses eventos ocorrem. Na regra fralda -> cerveja, por 
exemplo, tanto faz se o cliente colocou primeiro a fralda ou as cervejas no carrinho de compras, o que importa é 
saber se esses eventos ocorrem de forma conjunta com frequência. 
 
Para calcular se uma regra de associação é realmente válida, geralmente fazemos uso de duas propriedades 
matemáticas. Os valores dessas propriedades irão permitir identificar se a regra é realmente “boa” ou não. Elas são 
o suporte e a confiança. 
No nosso exemplo da regra fralda -> cerveja, imagine que de 1000 clientes do supermercado, 200 compraram 
fraldas e desses 200 que compraram fraldas, 50 também comprram cerveja. 
➔ O suporte vai ser definido pelo número de ocorrências da nossa regra X -> Y (os clientes que compraram 
tanto fraldas como cervejas) dividido pelo número de transações totais no supermercado. 
Logo, o suporte é dado pelo cálculo 50/1000 = 5%. 
 
➔ A confiança é útil para verificarmos a precisão da nossa regra. Ela é o percentual de vezes em que a regra 
X -> Y foi verificada para todos os casos em que X ocorreu. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
34 de 75 | www.direcaoconcursos.com.br 
No nosso exemplo, a ação antecedente X é dada por todos os clientes que compraram fralda (200), então 
o valor da confiança seria igual a 50/200 = 25%. 
Acho difícil que o cálculo dessas propriedades seja cobrado na sua prova, mas é interessante saber pelo menos 
no que elas consistem! 
 
Técnicas e algoritmos: O Apriori 
Um algoritmo comumente usado para se identificar as regras de associação é o Apriori. Esse algoritmo funciona 
identificando os itens que são frequentes em um conjunto de dados, e depois ir aumentando os tamanhos dos 
conjuntos. Para dizer se uma determinada associação é “frequente” ou não, se utiliza justamente os valores de 
confiança e suporte, comparados a um determinado padrão definido pelo usuário. 
Por exemplo, começamos com os itens individuais, tipo {fralda}, {cerveja}, {abacaxi}... e conferimos quais deles são 
frequentes no nosso banco de dados, de acordo com os valores da confiança e do suporte. Depois, pegamos todos 
aqueles que foram considerados frequentes e vamos gerando conjuntos de dois itens, tipo {fralda, cerveja}, {fralda, 
abacaxi}, {cerveja,abacaxi}... 
Nessa etapa, conferimos novamente a confiança e o suporte para verificar se alguma dessas duplas ocorre com 
frequência. Se tivermos mais duplas frequentes, vamos tentar gerar conjuntos de três itens, e assim 
sucessivamente, até que não tenhamos mais nenhum conjunto que seja considerado frequente. 
Dessa forma, nós vamos verificando as propriedades de suporte e confiança para obter regras de maior tamanho 
possível. 
 
 
 
 
 
 
 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
35de 75 | www.direcaoconcursos.com.br 
Detecção de Anomalias 
 
 
Figura: Detecção visual de outliers através de um histograma (Larose, 2005) 
 
Você deve se lembrar que falamos de anomalias (outliers) na seção dedicada ao pré-processamento de dados, 
certo? Os outliers ou anomalias são aqueles valores para determinado atributo dos dados que são atípicos, muito 
diferentes dos demais. 
A identificação de outliers pode ser uma tarefa de pré-processamento de dados. Nesse caso, a ideia central é 
identificar anomalias que sejam realmente erros de medição ou de preenchimento nos valores dos dados. 
Por exemplo, se você tem um grande conjunto de dados que registra as temperaturas médias nas cidades brasileiras 
ao longo das décadas e observa que, em determinado dia, a temperatura registrada em Curitiba foi de 150º, 
provavelmente há algum problema nesses dados! Nesse caso, essa temperatura anômala pode ser identificada 
como um erro e descartada do conjunto de dados, para que não atrapalhe os resultados da mineração. 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
36 de 75 | www.direcaoconcursos.com.br 
Só que há casos em que as observações são atípicas, mas são corretas! Por exemplo, considere que um cliente de 
um banco usa o seu cartão de crédito sempre em farmácias e supermercados na sua cidade de residência, a cidade 
do Crato, no Ceará. Só que de repente aparece um registro de uma compra de um carro novo em uma 
concessionária na Rússia. Isso claramente está fora do padrão de compras desse cliente, não é? 
Nesse caso, o banco pode constatar que sim, a transação realmente foi realizada, então nesse caso não se trata de 
um erro de dados. Só que essa observação continua sendo um outlier, um valor atípico nas compras desse cliente, 
o que levanta a suspeita de fraude. 
Assim, a identificação e análise de outliers é também uma tarefa da mineração de dados com várias aplicações, 
dentre as quais se destaca essa detecção de fraudes. Também há várias outras aplicações, como aquelas na área 
de saúde. Por exemplo, no monitoramento cardíaco de um paciente, uma atividade anômala dos batimentos pode 
indicar alguma condição grave ou infarto pronto para acontecer. 
Como você pode imaginar, as aplicações da detecção de outliers são inúmeras, então acredito que podemos parar 
por aqui com os exemplos mais comuns! 
O que nos interessa mesmo é saber como esse processo é realizado. 
 
Técnicas e algoritmos 
As tarefas de mineração de dados da classificação e da clusterização costumam estar relacionadas a tipos 
específicos de aprendizado. A clusterização está relacionada a um aprendizado não supervisionado, pois não há 
conjunto de treinamento nem grupos predefinidos, enquanto a classificação está relacionado a um processo de 
aprendizado supervisionado. 
Conforme discutido em (Hodge & Austin, 2004), a identificação de outliers pode ser realizada com qualquer uma 
dessas técnicas de aprendizado. Esse inclusive artigo cita três tipos de aprendizado de máquina que podem ser 
utilizados para realizar essa tarefa: 
 
➔ Tipo 1: Essa abordagem é análoga à clusterização não supervisionada. O sistema agrupa os dados sem 
conhecimento prévio das categorias e indica os valores que não aparentam se enquadrar em nenhuma 
delas como sendo potenciais outliers. 
➔ Tipo 2: Abordagem análoga à classificação supervisionada. O usuário classifica cada tipo de dado no 
conjunto de treinamento como sendo normal/anômalo e o sistema então aprende a classificar as próximas 
entradas. 
➔ Tipo 3: Essa última abordagem pode ser considerada semi-supervisionada. Somente dados considerados 
normais são classificados previamente. O sistema então aprende a identificar os outliers como sendo 
aqueles que não se encaixam nesse padrão. 
 
Veja que essa identificação é um processo mais flexível. Assim, algoritmos de classificação, como o k-nearest 
neighbor ou SVMs, ou algoritmos de clusterização, como o k-means, podem ser utilizados para realizar essa tarefa. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
37 de 75 | www.direcaoconcursos.com.br 
É possível também identificar outliers com o auxílio de ferramentas visuais, como utilizando gráficos (veja a imagem 
do histograma mais acima), bem como através da utilização de modelos estatísticos mais complexos, como 
modelos paramétricos, dentre outras várias abordagens! 
 
Modelagem Preditiva 
 
Acredito que o sonho de todo gestor é conseguir prever o futuro, de modo a antecipar tendências do seu ramo de 
atuação, conseguindo assim uma importante vantagem competitiva, ou antever problemas que possam 
comprometer a consecução dos objetivos da organização, seja ela do setor público ou privado. 
Nesse sentido, a modelagem preditiva é um conjunto de técnicas de mineração de dados cujo objetivo é de utilizar 
de dados históricos e atuais para realizar previsões a respeito de eventos futuros. 
Algumas aplicações interessantes desse tipo de tarefa dizem respeito à previsão de hábitos de consumidores, como 
por exemplo a demanda por um determinado produto ao longo do tempo e a probabilidade de um consumidor sair 
de um serviço de TV a cabo ou de telefonia para contratar o de outra empresa concorrente. 
A modelagem preditiva pode ser usada não somente com fins comerciais, mas também para prever eventos como 
a ocorrência de crimes em determinadas áreas de uma cidade ou uma demanda maior por leitos em hospitais em 
determinadas épocas do ano, auxiliando gestores públicos a fornecerem melhores serviços aos cidadãos. 
Steven Finlay (2014) indica que a análise preditiva pode ser realizada para se descobrir valores de eventos 
presentes ou passados (como realizar a predição de quais suspeitos que possam ter cometido algum crime). 
Dessa maneira, podemos encarar a modelagem preditiva como sendo um conjunto de técnicas que utiliza dados 
históricos para prever os valores relativos a um evento desconhecido, seja esse evento futuro ou não! 
A maioria das questões de prova irá considerar que a modelagem preditiva está voltada para o futuro mesmo, 
mas é importante que você saiba desse detalhe de que o que está sendo previsto não é necessariamente algo 
que ainda não ocorreu. 
 
 
Dados Históricos Algoritmo Modelo 
Preditivo
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
38 de 75 | www.direcaoconcursos.com.br 
 
Técnicas e algoritmos 
A regressão (ou predição) é a tarefa utilizada para prever o valor de um elemento desconhecido, com base em 
dados já conhecidos. Há várias formas de regressão, sendo a mais simples e conhecida delas a regressão linear. Se 
você já estudou estatística, você deverá estar familiarizado com essa técnica. 
De forma resumida, as tarefas preditivas visam prever o valor de uma variável com base nos valores de outras 
variáveis. Essas variáveis ou atributos a serem preditos (previstos) são conhecidos como alvo ou variáveis 
dependentes. Enquanto isso, os atributos conhecidos que são utilizados para fazer a predição são chamados de 
variáveis preditoras ou independentes. 
Segundo Elmasri & Navathe, a regressão é considerada um caso especial da classificação. Veja a explicação deles a 
seguir: 
A regressão é uma aplicação especial da regra de classificação. Se uma regra de classificação é 
considerada uma função sobre variáveis que as mapeia em uma classe destino, a regra é chamada regra 
de regressão. Uma aplicação de regressão ocorre quando, em vez de mapear uma tupla de dados de 
uma relação para uma classe específica, o valor da variável é previsto baseado naquela tupla (Elmasri 
& Navathe, 2011). 
Em linhas gerais, o que isso quer dizer é que a regressão é uma aplicação das regras de classificação que, no lugar 
de mapear uma tupla (registro) a alguma de várias classes predefinidas, como é o caso da classificação 
convencional,o modelo preditivo irá mapear cada tupla a um determinado valor, que é o valor predito (o valor 
previsto ou “adivinhado” pela predição). 
 
 
Figura: Classificação e regressão 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
39 de 75 | www.direcaoconcursos.com.br 
Classificando as tarefas da mineração 
As tarefas de mineração podem ser divididas em dois tipos, de acordo com o propósito de sua realização: 
➔ Tarefas descritivas visam encontrar padrões, correlações e relacionamentos que descrevam os dados, com 
o objetivo de possibilitar a sua análise. As tarefas que citamos que geralmente estão associadas a esse 
grupo são a clusterização, as regras de associação e a análise de padrões sequenciais. 
 
➔ Tarefas preditivas têm como objetivo predizer valores para os dados desconhecidos. Essas tarefas incluem 
a classificação, predição, regressão e análises de séries temporais. 
 
 
(CESPE – PF – 2018) 
Em um big data, alimentado com os dados de um sítio de comércio eletrônico, são armazenadas informações 
diversificadas, que consideram a navegação dos usuários, os produtos comprados e outras preferências que o 
usuário demonstre nos seus acessos. 
Tendo como referência as informações apresentadas, julgue o item seguinte. 
Dados coletados de redes sociais podem ser armazenados, correlacionados e expostos com o uso de análises 
preditivas. 
RESOLUÇÃO: 
O enunciado da questão fala de big data, mas ainda não precisamos saber do que isso se trata para respondê-la. 
Você acabou de aprender que a análise preditiva pode ser feita em cima de conjuntos de dados não estruturados, 
então a assertiva está correta. Claro que haverá uma dificuldade maior de extrair conhecimento desses dados em 
relação aos estruturados, mas isso não significa que não seja possível. 
Gabarito: C 
 
(CESPE – SERPRO – 2013) 
Em tarefas preditivas, o atributo a ser predito é conhecido como variável independente, enquanto que os atributos 
usados para fazer a predição são conhecidos como alvo. 
RESOLUÇÃO: 
Falso, não é? O atributo a ser predito é conhecido como variável dependente ou alvo, enquanto que os outros 
atributos, utilizados para fazer a predição, são conhecidos como variáveis independentes ou preditoras. 
Gabarito: E 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
40 de 75 | www.direcaoconcursos.com.br 
 
(FCC – DPE/AM – 2018) 
Dentre os algoritmos utilizados em data mining, há um algoritmo que visa o estabelecimento de categorias, a partir 
do conjunto de dados, bem como a distribuição dos dados nas categorias estabelecidas. Essa descrição corresponde 
aos algoritmos de 
a) classificação. 
b) sumarização. 
c) visualização. 
d) evolução. 
e) detecção de desvios. 
RESOLUÇÃO: 
Veja que a assertiva descreve uma definição prévia de categorias para posteriormente classificar os dados nessas 
categorias. Essa é a tarefa de classificação da mineração de dados. 
Gabarito: A 
 
(FGV – Senado – 2018) 
Considerando as diferentes técnicas de mineração de dados, não é correto afirmar que: 
a) em Regras de Associação, confiança refere-se a quantas vezes uma regra de associação se verifica no conjunto 
de dados analisado. 
b) correlação canônica e análise múltipla de discriminante são técnicas utilizadas para análise multivariada. 
c) na análise de grupamentos, medidas de correlação, medidas de distância e medidas de associação são alguns 
dos métodos utilizados para medir a semelhança entre objetos. 
d) a classificação é considerada um exemplo de aprendizado supervisionado, enquanto o agrupamento é 
considerado exemplo de aprendizado não supervisionado. 
e) regressão é uma aplicação especial da regra de classificação, onde a regra é considerada uma função sobre 
variáveis, mapeando-as em uma classe destino. 
RESOLUÇÃO: 
a) Este é o suporte! A confiança é a quantidade de vezes que a regra é verificada, dado que o evento antecedente 
ocorre. ERRADA 
b) Essas são técnicas citadas de análise multivariada, que é um tipo de análise estatística que pode ser empregada 
na mineração de dados, com o objetivo de se analisar o comportamento de mais de uma variável de resultado. O 
item é um pouco avançado, geralmente não há cobrança desse tipo em concursos que não são da área de TI! CERTA 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
41 de 75 | www.direcaoconcursos.com.br 
c) Na clusterização, podem ser usados vários métodos distintos para se medir a semelhança entre os itens, de modo 
a agrupá-los. Há muitos métodos avançados de se fazer isso, o que inclui esses tipos de medidas de correlação, 
distância ou associação. CERTA 
d) A classificação é um exemplo de um processo de aprendizado supervisionado, já que há um conjunto de dados 
de treinamento, a partir do qual o algoritmo é aplicado e a máquina consiga "aprender" a classificar a os demais 
registros nas classes predefinidas. No caso da clusterização (agrupamento), não há classes predefinidas nem 
conjunto de treinamento - o algoritmo irá determinar quais dados devem ser colocados em grupos iguais ou 
diferentes. CERTA 
e) Correto! Essa é a definição da regressão segundo Elmasri e Navathe. É como se fosse uma classificação, em que 
os rótulos de classe são os resultados possíveis para o evento a ser previsto. CERTA 
Gabarito: A 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
42 de 75 | www.direcaoconcursos.com.br 
Questões de prova comentadas 
1. (CESPE – TCE/RJ – 2021) 
A respeito de mineração de dados, julgue o item que se segue. 
No método de classificação para mineração de dados, a filiação dos objetos é obtida por meio de um processo não 
supervisionado de aprendizado, em que somente as variáveis de entrada são apresentadas para o algoritmo. 
RESOLUÇÃO: 
Questão tranquila, que cobra a principal característica da tarefa de mineração da classificação - ela ocorre num 
processo de aprendizado supervisionado, em que um conjunto de treinamento (já classificado) é apresentado para 
o algoritmo. O sistema então gera um modelo que permite classificar as demais ocorrências. A questão alega que 
esse processo ocorre de forma não supervisionada, o que está incorreto. 
Gabarito: E 
 
2. (CESPE – TCE/RJ – 2021) 
A respeito de mineração de dados, julgue o item que se segue. 
O fator de suporte e o fator de confiança são dois índices utilizados para definir o grau de certeza de uma regra de 
associação. 
RESOLUÇÃO: 
Para se analisar se as regras de associação são “boas” ou não, se utiliza duas propriedades matemáticas: o suporte 
e a confiança. O suporte trata da quantidade de ocorrências da regra em relação à quantidade de transações ou 
eventos como um todo; já a confiança trata da quantidade de ocorrências da regra, dado que a ação antecedente 
ocorreu. Item correto. 
Gabarito: C 
 
3. (CESPE – TCE/RJ – 2021) 
A respeito de mineração de dados, julgue o item que se segue. 
Os principais métodos de análise de agrupamentos em mineração de dados incluem redes neurais, lógica difusa, 
métodos estatísticos e algoritmos genéticos. 
RESOLUÇÃO: 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
43 de 75 | www.direcaoconcursos.com.br 
Esses métodos servem para se realizar várias tarefas da mineração de dados, incluindo a análise de agrupamentos 
(também chamada de análise de aglomerações, conglomerados ou clusterização). Acho um pouco estranho citar 
esses modelos e técnicas como relativos somente à clusterização, mas não está errado. 
Gabarito: C 
 
4. (CESPE – TCE/RJ – 2021) 
Com relação a Big Data, julgue o item seguinte. 
Volume, variedade e visualização são as três características, conhecidas como 3 Vs, utilizadas para definir Big Data. 
RESOLUÇÃO: 
Big data são conjuntos de dados e técnicas que podemser caracterizados com o conceito dos 3 Vs: o volume se 
refere ao tamanho dos conjuntos de dados; a variedade diz que os dados podem estar em diferentes tipos e 
formatos, incluindo não estruturados; e a velocidade trata da grande velocidade com que os dados são produzidos 
e coletados. Visualização não é um dos 3 Vs! 
Gabarito: E 
 
5. (CESPE – TCE/RJ – 2021) 
Com relação a Big Data, julgue o item seguinte. 
Os fatores críticos de sucesso da análise de Big Data incluem uma sólida infraestrutura de dados, além de 
ferramentas analíticas e pessoal habilitado para lidar com elas. 
RESOLUÇÃO: 
Aplicações que lidam com big data são relativamente complexas, pois devem ser capazes de lidar com um grande 
volume, variedade e velocidade de dados. Assim, é necessário ter uma infraestrutura sólida, o que inclui máquinas 
e ferramentas adequadas para esse trabalho, além de profissionais capacitados, que tenham forte conhecimento 
da área e algum conhecimento a respeito do ramo de negócio em que a aplicação está sendo utilizada. 
Gabarito: C 
 
6. (CESPE – TCE/RJ – 2021) 
Com relação a noções de mineração de dados e Big Data, julgue o item que se segue. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
44 de 75 | www.direcaoconcursos.com.br 
As regras de associação adotadas em mineração de dados buscam padrões frequentes entre conjuntos de dados e 
podem ser úteis para caracterizar, por exemplo, hábitos de consumo de clientes: suas preferências são identificadas 
e em seguida associadas a outros potenciais produtos de seu interesse. 
RESOLUÇÃO: 
Certo! Regras de associação são muito utilizadas para buscar padrões de consumo, mais especificamente para 
representar itens que são comprados em conjunto. O exemplo mais clássico de aplicação dessa técnica é aquele 
caso do supermercado americano que identificou que clientes que adquiriam fraldas também compravam cervejas. 
Gabarito: C 
 
 
7. (CESPE – TCE/RJ – 2021) 
Com relação a noções de mineração de dados e Big Data, julgue o item que se segue. 
Na mineração de dados preditiva, ocorre a geração de um conhecimento obtido de experiências anteriores para 
ser aplicado em situações futuras. 
RESOLUÇÃO: 
As técnicas preditivas de mineração de dados visam utilizar dados históricos para aplicar a eventos futuros, 
desconhecidos. Item certo. 
Gabarito: C 
 
8. (CESPE – TCE/RJ – 2021) 
Com relação a noções de mineração de dados e Big Data, julgue o item que se segue. 
A descoberta de conhecimento em bases de dados, ou KDD (knowledge-discovery), é a etapa principal do processo 
de mineração de dados. 
RESOLUÇÃO: 
Na verdade, a mineração de dados é que é uma das etapas do KDD, processo de descoberta de conhecimento em 
bases de dados. O KDD parte da coleta de dados e pelas etapas de seleção, pré-processamento, transformação e 
mineração de dados, até chegar na etapa de interpretação e avaliação dos resultados. 
Gabarito: E 
 
9. (CESPE – ME – 2020) 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
45 de 75 | www.direcaoconcursos.com.br 
Acerca de conceitos, premissas e aplicações de big data, julgue o item subsequente. 
O objetivo das técnicas de pré-processamento de dados é preparar os dados brutos para serem analisados sem 
erros de incompletudes, inconsistências e ruídos. 
RESOLUÇÃO: 
O item sintetiza corretamente os objetivos do pré-processamento de dados na mineração e em outros sistemas e 
técnicas analíticas. A ideia é tratar os dados brutos que vêm de diferentes fontes, removendo-se erros e 
solucionando outros problemas com os dados, para que fiquem num formato apropriado para a aplicação das 
técnicas de análise. 
Gabarito: C 
 
10. (CESPE – ME – 2020) 
Julgue o seguinte item, a respeito de big data. 
Aprendizagem de máquina pode ajudar a clusterização na identificação de outliers, que são objetos completamente 
diferentes do padrão da amostra. 
RESOLUÇÃO: 
As técnicas de aprendizado de máquina costumam ser empregadas nas tarefas de mineração de dados, com o 
objetivo de permitir que o sistema consiga aprender os modelos de mineração e melhorar seu desempenho ao 
longo do tempo. 
A identificação de outliers (anomalias) consiste em encontrar valores discrepantes no conjunto de dados, diferentes 
daqueles identificados no padrão da amostra. Para identificar os outliers, uma abordagem possível envolve a 
utilização de técnicas análogas à clusterização não supervisionada. Item correto. 
Gabarito: C 
 
11. (CESPE – ME – 2020) 
Julgue o seguinte item, a respeito de big data. 
A mineração de textos utiliza técnicas diferentes da mineração de dados, tendo em vista que os textos representam 
um tipo específico de dado. 
RESOLUÇÃO: 
A mineração de texto é um tipo de mineração de dados, então não dá pra dizer que as técnicas são diferentes. 
Claro que algumas abordagens para se realizar o pré-processamento de dados são um pouco mais específicas e 
aplicáveis a dados textuais, mas no final das contas também se utiliza técnicas como classificação, clusterização e 
regras de associação para minerar texto. Item errado. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
46 de 75 | www.direcaoconcursos.com.br 
Gabarito: E 
 
12. (CESPE – ME – 2020) 
Julgue o seguinte item, a respeito de big data. 
O objetivo da técnica de sequência de tempo é identificar a ocorrência de dois eventos diferentes no mesmo 
momento. 
RESOLUÇÃO: 
A técnica de sequência de tempo (ou de padrões sequenciais) se difere da técnica de regras de associação 
justamente em relação à ordem do acontecimento dos eventos. Nessa técnica, são identificadas sequências de 
eventos que costumam ocorrer em uma determinada ordem específica, e não ao mesmo tempo. 
Gabarito: E 
 
13. (CESPE – STJ – 2018) 
Julgue o item que se segue, acerca de data mining e data warehouse. 
O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em vista que, para a 
obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado dentro dos data 
warehouses. 
RESOLUÇÃO: 
Nada disso. A mineração de dados pode ocorrer nos mais diversos tipos de bancos de dados. Um campo de pesquisa 
bastante fértil, inclusive, é a respeito da mineração de padrões ocultos em grandes conjuntos de dados não 
estruturados, chamados de big data. Resumindo, o DW facilita bastante o processo de mineração, mas sua 
existência não é pré-requisito para o processo. 
Gabarito: E 
 
14. (CESPE – FUB – 2018) 
Julgue o item a seguir, a respeito de data mining e OLAP. 
No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa de valores 
de um outro conjunto de variáveis. 
RESOLUÇÃO: 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
47 de 75 | www.direcaoconcursos.com.br 
A questão é a tradução literal de um trecho do livro de Elmasri & Navathe, por isso a redação está um pouco ruim. 
O que ele quer dizer é que, nas regras de associação, há a análise da relação entre um conjunto de itens (o conjunto 
antecedente) com outro conjunto, de valores distintos do primeiro (o conjunto consequente). 
É um jeito rebuscado de falar que essas regras analisam a probabilidade de coocorrências entre dois itens ou 
conjuntos de itens distintos, o que é uma definição correta para as regras de associação! 
Gabarito: C 
 
 
15. (CESPE – TCM/BA – 2018) 
A respeito das técnicas e (ou) métodos de mineração de dados, assinale a opção correta: 
a) O agrupamento (ou clustering) realiza identificação de grupos de dados que apresentam coocorrência. 
b) A classificação realiza o aprendizado de uma função que pode ser usada para mapear os valores associados aos 
dados em um ou mais valores reais. 
c) A regressão ou predição promove o aprendizado de uma função que pode serusada para mapear dados em uma 
de várias classes discretas definidas previamente, bem como encontrar tendências que possam ser usadas para 
entender e explorar padrões de comportamento dos dados. 
d) As regras de associação identificam grupos de dados, em que os dados têm características semelhantes aos do 
mesmo grupo e os grupos têm características diferentes entre si. 
e) Os métodos de classificação supervisionada podem ser embasados em separabilidade (entropia), utilizando 
árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector machines). 
RESOLUÇÃO: 
a) A coocorrência é a ocorrência simultânea de dois eventos. Na verdade, a técnica que vimos que está mais 
associada a esse conceito se refere às regras de associação. ERRADA 
b) Não ficou muito claro para mim o que o examinador quis dizer com “valores reais”. Contudo, podemos perceber 
que a predição utiliza uma função para mapear os conjuntos de dados que se já tem em um valor dito real, que é o 
valor a ser previsto. Veja a seguir que a definição exposta no item seguinte descreve melhor o processo de 
classificação do que a presente alternativa, nos levando a crer que o examinador somente inverteu os conceitos. 
ERRADA 
c) Na verdade é a classificação que mapeia os dados em classes predefinidas. A predição realmente possibilita 
encontrar tendências, mas com o objetivo de realizar previsões a respeito de comportamentos futuros ainda 
desconhecidos. O entendimento e a exploração dos dados são funções de técnicas descritivas, como a própria 
classificação. ERRADA 
d) Na verdade a assertiva descreveu a clusterização, também conhecida como agrupamento. ERRADA 
e) Como citamos durante a aula, os métodos de classificação podem sim seguir essa divisão entre os que se baseiam 
em separabilidade ou entropia e aqueles que se baseiam em particionamento. É essa a nossa resposta. CERTA 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
48 de 75 | www.direcaoconcursos.com.br 
Gabarito: E 
 
16. (CESPE – TCE/MG – 2018) 
Na técnica de árvore de decisão em data mining, é empregada a abordagem denominada 
a) análise de volumetria. 
b) combinação de variáveis. 
c) estratificação. 
d) avaliação de dados. 
e) percepção. 
RESOLUÇÃO: 
As árvores de decisão são comumente empregadas para implementar as técnica de classificação de dados. Nessa 
técnica, os registros observados são dividos em classes predefinidas, ou seja, em estratos, segmentos de 
características distintas. Assim, podemos afirmar que a letra c, estratificação, está correta! 
Gabarito: C 
 
 
17. (CESPE – TCE/PE – 2017) 
Em relação à análise de agrupamentos (clusterização) em mineração de dados, julgue o item seguinte. 
O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos; cada observação pertence 
ao grupo mais próximo da média. 
RESOLUÇÃO: 
Definição copia e cola da Wikipedia. É isso mesmo. Creio que não valha a pena apresentar maiores detalhes a 
respeito do k-means. Não faz sentido você aprender um algoritmo inteiro para uma prova que não é para servidores 
na área de TI, seria contraproducente. Por ora, saber essa definição vai ser o suficiente. 
Gabarito: C 
 
18. (CESPE – SEDF – 2017) 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
49 de 75 | www.direcaoconcursos.com.br 
Com relação a data mining e data warehouse, julgue o item que se segue. 
Agrupar registros em grupos, de modo que os registros em um grupo sejam semelhantes entre si e diferentes dos 
registros em outros grupos é uma maneira de descrever conhecimento descoberto durante processos de mineração 
de dados. 
RESOLUÇÃO: 
O agrupamento ou clusterização junta registros semelhantes entre si e diferente dos presentes nos demais grupos. 
Essa é, realmente, uma técnica descritiva de mineração de dados, que permite descrever o conhecimento obtido 
no formato de grupos. 
Gabarito: C 
 
19. (CESPE – TCE/PA – 2016) 
Julgue o item a seguir, em relação a data warehouse e data mining. 
No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste na extração 
não trivial de conhecimento previamente desconhecido e potencialmente útil. 
RESOLUÇÃO: 
Veja que esse tipo de questão é frequentemente cobrado. O propósito do data mining é, realmente, descobrir 
conhecimento útil previamente desconhecido. Esse processo é não trivial, já que requer o envolvimento de 
conceitos de diversas áreas, como estatística e aprendizado de máquina. 
Gabarito: C 
 
20. (CESPE – TCE/PA – 2016) 
Julgue o item subsecutivo, acerca de mineração de dados. 
As aglomerações, tipos de informação obtidos por meio da mineração de dados, caracterizam-se por se ligarem a 
um único e específico evento, em torno do qual ocorrem várias ações, com produção sistêmica de informações 
gerenciais que apoiarão uma nova ocorrência do mesmo tipo de evento. 
RESOLUÇÃO: 
Nessa questão o CESPE resolveu chamar os agrupamentos ou clusters de aglomerações. É a mesma coisa. Contudo, 
a descrição da tarefa está incorreta. O examinador cita a ocorrência de um evento composto por diferentes ações, 
com a produção sistêmica de informações. Depois disso fez menção à possível reincidência desse fenômeno. Dessa 
forma, entendo que a questão estava ser referindo às regras de associação, que expressam a reincidência da 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
50 de 75 | www.direcaoconcursos.com.br 
ocorrência de um evento composto por uma ação implicando em outra, o que permite realizar previsão a respeito 
de hábitos de consumo, por exemplo. 
Gabarito: E 
 
21. (CESPE – TCE/SC – 2016) 
Julgue o item subsecutivo, acerca de mineração de dados. 
Para a realização de prognósticos por meio de técnicas de mineração de dados, parte-se de uma série de valores 
existentes obtidos de dados históricos bem como de suposições controladas a respeito das condições futuras, para 
prever outros valores e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais. 
RESOLUÇÃO: 
Temos um bom resumo do tópico a respeito de modelagem preditiva. A mineração fornece subsídio à previsão de 
eventos futuros de modo a subsidiar a tomada de decisão dentro das organizações. Para isso, utiliza dados 
históricos e presentes, que se somam à capacidade humana de realizar suposições e tomar decisões para alcançar 
o objetivo da análise. 
Gabarito: C 
 
22. (CESPE – TRT8 – 2016) 
Acerca de data mining, assinale a opção correta. 
a) A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas, em 
coletar os dados que serão garimpados, que devem estar exclusivamente em um data warehouse interno da 
empresa. 
b) As redes neurais são um recurso matemático/computacional usado na aplicação de técnicas estatísticas nos 
processos de data mining e consistem em utilizar uma massa de dados para criar e organizar regras de classificação 
e decisão em formato de diagrama de árvore, que vão classificar seu comportamento ou estimar resultados futuros. 
c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de conglomerados 
(cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados 
como semelhantes entre si, com base nas características analisadas. 
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão de um conjunto de 
informações, analisando-se seus valores ao longo de determinado período. Nesse caso, para se obter uma previsão 
mais precisa, devem ser descartadas eventuais sazonalidades no conjunto de informações. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
51 de 75 | www.direcaoconcursos.com.br 
e) Os processos de data mining e OLAPtêm os mesmos objetivos: trabalhar os dados existentes no data 
warehouse e realizar inferências, buscando reconhecer correlações não explícitas nos dados do data warehouse. 
RESOLUÇÃO: 
a) O erro da assertiva é dizer que os dados a serem minerados necessariamente devem estar em um DW. Como 
você sabe, o DW facilita a mineração, mas sua existência não é pré-requisito para que esse processo ocorra. 
ERRADA 
b) As redes neurais são estruturas que se assemelham aos neurônios no cérebro humano devido às muitas 
interconexões entre seus nodos. Contudo, o que o examinador descreve na assertiva são árvores de decisão, que 
podem ser usadas, dentre outras aplicações, para realizar a classificação na mineração de dados. ERRADA 
c) Temos uma definição correta da análise de clusters, ou, como o examinador chama, análise de conglomerados. 
Nessa tarefa, os elementos semelhantes entre si são agrupados em categorias que não haviam sido previamente 
definidas. CERTA 
d) Veja, mesmo que você não tenha muito conhecimento a respeito de estatística e séries temporais, parece lógico 
concluir que os elementos considerais devem ser considerados no processo, não descartados, de modo a 
representar de maneira adequada a evolução dos dados ao longo do tempo. ERRADA 
e) Na verdade, OLAP tem um objetivo mais alinhado à agregação de grandes volumes de dados e à fácil navegação 
e visualização dos dados em hierarquias. O propósito de reconhecer padrões ocultos nos dados está associado a 
data mining. ERRADA 
Gabarito: C 
 
23. (CESPE – FUNPRESP/EXE – 2016) 
Com relação à forma como os dados são armazenados e manipulados no desenvolvimento de aplicações, julgue o 
item a seguir. 
Na implementação de mineração de dados (data mining), a utilização da técnica de padrões sequenciais pode ser 
útil para a identificação de tendências. 
RESOLUÇÃO: 
Os padrões sequenciais são as recorrências de eventos em sequência. Esses padrões se diferem das regras de 
associação por considerarem a ordem dos eventos. Exemplo: uma regra de associação indica que um cliente que 
compra o produto A também compra o produto B, independentemente da ordem das compras. Já um padrão 
sequencial poderia ser utilizado para identificar que que um cliente que compra o produto A tende a comprar o 
produto B logo em seguida. 
Gabarito: C 
24. (CESPE – MEC – 2015) 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
52 de 75 | www.direcaoconcursos.com.br 
Julgue o item seguinte, referente a data mining. 
A predição em algoritmos de data mining objetiva modelar funções sobre valores para apresentar o 
comportamento futuro de determinados atributos. 
RESOLUÇÃO: 
Você pode ter estranhado um pouco a redação, mas o enunciado está certo. As funções são conceitos matemáticos 
que recebem um valor ou conjunto de valores (parâmetros) e produzem um resultado a partir dele. Por exemplo, 
podemos definir uma função chamada “Dobro”, que recebe um valor x. Assim, toda vez que alimentarmos um valor 
x à função, ela vai nos retornar o valor equivalente a duas vezes x. 
Falando de uma maneira grosseira, as predições de valores em data mining funcionam da mesma maneira, sendo 
que com um grau de complexidade maior. As funções modeladas recebem o conjunto de valores históricos e demais 
entradas possíveis e retornam uma “previsão” sobre o valor futuro. 
Gabarito: C 
 
25. (CESPE – MEC – 2015) 
Acerca de data warehouse (DW), Business Intelligence (BI) e data mining, julgue o item que se segue. 
Situação hipotética: Após o período de inscrição para o vestibular de determinada universidade pública, 
foram reunidas informações acerca do perfil dos candidatos, cursos inscritos e concorrências. Ademais, que, por 
meio das soluções de BI e DW que integram outros sistemas, foram realizadas análises para a detecção de 
relacionamentos sistemáticos entre as informações registradas. Assertiva: Nessa situação, tais análises podem ser 
consideradas como data mining, pois agregam valor às decisões do MEC e sugerem tendências, como, por exemplo, 
o aumento no número de escolas privadas e a escolha de determinado curso superior. 
RESOLUÇÃO: 
Temos uma ótima questão para entender os propósitos da mineração de dados. Esse processo visa obter padrões 
e tendências ocultas nos conjuntos de dados, de maneira a subsidiar a tomada de decisão. Tem tudo a ver com o 
que foi descrito na assertiva. Dessa maneira, o gestor da universidade pública poderia se utilizar das informações 
extraídas para adequar o número de vagas nos cursos oferecidos pela instituição, por exemplo. 
Gabarito: C 
 
26. (CESPE – MEC – 2015) 
Julgue o item seguinte, referente a data mining. 
O conhecimento obtido no processo de data mining pode ser classificado como uma regra de associação quando, 
em um conjunto de eventos, há uma hierarquia de tuplas sequenciais. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
53 de 75 | www.direcaoconcursos.com.br 
RESOLUÇÃO: 
Nas regras de associação não há hierarquia entre tuplas, o examinador misturou conceitos. Essas regras são 
representadas no padrão A -> B, onde se analisa as propriedades suporte e confiança de modo a analisar a 
frequência em que os itens ou conjuntos de itens A e B ocorrem em conjunto. Enquanto as regras de associação 
dizem respeito à frequência das coocorrências, os padrões sequenciais lidam diretamente com a repetição de 
padrões ordenados, que indicam a tendência de ocorrência consecutiva dos eventos. 
Gabarito: E 
 
27. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar relacionamentos, padrões e vínculos 
significativos presentes em grandes massas documentais registradas em arquivos físicos (analógicos) e arquivos 
lógicos (digitais). 
RESOLUÇÃO: 
A definição estava perfeita, o que maculou a assertiva foi dizer que a mineração pode ocorrer em arquivos físicos. 
Ora, a mineração é uma atividade multidisciplinar, mas evidentemente computacional, então não faz sentido 
aplicar as técnicas envolvidas em um arquivo físico composto por um monte de papéis, por exemplo. 
Gabarito: E 
 
28. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
O uso prático de data mining envolve o emprego de processos, ferramentas, técnicas e métodos oriundos da 
matemática, da estatística e da computação, inclusive de inteligência artificial. 
RESOLUÇÃO: 
Correto! A mineração é uma atividade multidisciplinar, envolvendo computação, matemática e estatística. Alguns 
métodos oriundos da inteligência artificial, mais especificamente de aprendizado de máquina, podem ser 
empregados, de modo a possibilitar a melhoria da performance do sistema nas tarefas de mineração. 
Gabarito: C 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
54 de 75 | www.direcaoconcursos.com.br 
29. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de data 
mining para atividades ligadas a marketing. 
RESOLUÇÃO: 
Muito pelo contrário. Em pequenos conjuntos de dados não faz tanto sentido assim a aplicação da mineração, já 
que a descoberta dos padrões não é uma tarefa tão difícil. Em grandes bancos de dados, todavia, a mineração pode 
representar uma vantagem competitiva importantíssima, ao permitir a descoberta de padrões previamente 
ocultos. 
Gabarito: E 
 
30. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
A finalidade do uso do data mining em uma organização é subsidiar a produção de afirmações conclusivas acerca 
do padrão de comportamento exibido poragentes de interesse dessa organização. 
RESOLUÇÃO: 
Imagino que você pode ter ficado tentado a marcar um E na questão pela parte que fala de afirmações conclusivas. 
Contudo, o que o examinador quis dizer é que a mineração de dados vai subsidiar a tomada de decisão por parte 
dos agentes. Ou seja, são esses agentes que irão tomar as conclusões, não o sistema de mineração de dados. 
Gabarito: C 
 
31. (CESPE – DEPEN – 2015) 
Acerca de datawarehouse e datamining, julgue o item subsequente. 
Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem entre informações 
armazenadas em um grande repositório. 
RESOLUÇÃO: 
A mineração de dados tem como objetivo a descoberta de padrões e relacionamentos ocultos entre os dados em 
grandes repositórios. Logo, o gabarito é questão certa. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
55 de 75 | www.direcaoconcursos.com.br 
Gabarito: C 
 
32. (CESPE – ANTAQ – 2014) 
A respeito de Data Warehouse e Data Mining, julgue os itens subsecutivos. 
Em um processo de descoberta do conhecimento, um Data Mining executado para atingir uma meta pode falhar 
nas classes de predição, de identificação, de classificação e de otimização. 
RESOLUÇÃO: 
A redação parece estranha, mas isso acontece porque o examinador praticamente copiou um trecho do livro de 
Elmasri & Navathe e colou sem contexto. Isso acontece com frequência, então infelizmente é algo com que você 
deve se acostumar. 
A respota é correta. As tarefas descritas aparecem em uma ou outra etapa da mineração de dados, então é lógico 
deduzir que essas etapas podem falhar, já que nenhum processo está imune a erros. 
Gabarito: C 
 
33. (CESPE – ANATEL – 2014) 
A respeito de banco de dados, julgue os itens que se seguem. 
No processo de Data Mining (mineração de dados), é indispensável o uso de técnica conhecida como Data 
Warehousing, uma vez que a mineração de dados deve ocorrer necessariamente em estruturas não normalizadas 
(FN0). 
RESOLUÇÃO: 
Já falamos que a mineração de dados pode ocorrer em vários tipos de repositórios, geralmente com um grande 
volume de dados. O DW ajuda a realizar as tarefas de mineração, pois geralmente já passou pelo processo de ETL. 
Contudo, não é um requisito obrigatório para que se minere dados. 
Gabarito: E 
 
34. (CESPE – TJ/SE – 2014) 
Julgue os próximos itens, com relação a DataMining e ETL. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
56 de 75 | www.direcaoconcursos.com.br 
O uso de agrupamento (clustering) em DataMining exige que os registros sejam previamente categorizados, tendo 
por finalidade aproximar registros similares para predizer valores de variáveis. 
RESOLUÇÃO: 
Pelo contrário! Os registros na clusterização não possuem rótulos ou etiquetas prévias, os algoritmos geram os 
conjuntos a partir da similaridade entre eles. A descrição da assertiva, na verdade, se amolda à classificação. 
Gabarito: E 
 
35. (CESPE – TJ/SE – 2014) 
Julgue os próximos itens, com relação a DataMining e ETL. 
O processo de transformação de dados pode exigir que dados logicamente relacionados, mas fisicamente 
separados, sejam recompostos, ainda que envolvam registros distintos ou até mesmo estejam em bancos de dados 
operacionais distintos. 
RESOLUÇÃO: 
A questão remete ao pré-processamento dos dados. Uma das tarefas dessa etapa envolve a integração de 
diferentes bases de dados. Dessa forma, a mineração poderá ocorrer em cima de um conjunto de dados que está 
fisicamente armazenado em BDs operacionais distintos, mas que foram posteriormente integrados em um DW ou 
em alguma estrutura do tipo. 
Gabarito: C 
 
36. (CESPE – TJ/SE – 2014) 
Com relação a sistemas de suporte à decisão, julgue os seguintes itens. 
DataMining pode ser considerado uma etapa no processo de descoberta de conhecimento em base de dados, 
consistindo em análise de conjuntos de dados cujo objetivo é descobrir padrões úteis para tomada de decisão. 
RESOLUÇÃO: 
Não temos muito a acrescentar. O processo de descoberta de conhecimento, como o nome já diz, tem como 
objetivo a extração de informações e a geração do conhecimento a partir dos conjuntos de dados. Além disso, o 
objetivo da mineração de dados é mesmo descobrir padrões e relacionamentos úteis, de modo a subsidiar a tomada 
de decisão. 
Gabarito: C 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
57 de 75 | www.direcaoconcursos.com.br 
 
37. (CESPE – TJ/SE – 2014) 
Acerca de DataMining e de DataWarehouse, julgue o item subsecutivo. 
Os principais processos de DataMining são a identificação de variações embasado em normas, a detecção e análise 
de relacionamentos, a paginação de memória e o controle de periféricos. 
RESOLUÇÃO: 
O examinador enfiou alguns conceitos de sistemas operacionais no meio da assertiva para ver se colava. Na 
verdade, a detecção e a análise de relacionamentos ocultos e de variações nos conjuntos de dados podem fazer 
parte de um processo de mineração, mas paginação e de memória e controle de periféricos não têm nada a ver 
com o nosso assunto. 
Gabarito: E 
 
38. (CESPE – TJ/SE – 2014) 
Com relação a sistemas de suporte à decisão, julgue os seguintes itens. 
Assim como o DataMining, os DataMarts são voltados para a obtenção de informações estratégicas de maneira 
automática, ou seja, com o mínimo de intervenção humana a partir da análise de dados oriundos de 
DataWarehouses. 
RESOLUÇÃO: 
Nenhum desses três conceitos é automático. A mineração de dados abarca o aprendizado de máquina, então há 
um certo grau de inteligência artificial aplicada, mas isso não quer dizer de forma alguma que a intervenção humana 
fica em segundo plano (veja a primeira falácia a respeito de data mining no começo da aula). Ademais, o Data Mart 
é apenas um subconjunto do Data Warehouse, então temos algumas confusões conceituais que invalidam a 
assertiva. 
Gabarito: E 
 
39. (CESPE – TJ/CE – 2014) 
Assinale a opção correta acerca de datamining. 
a) A informação acerca dos resultados obtidos no processo de mineração é apresentada apenas de forma gráfica. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
58 de 75 | www.direcaoconcursos.com.br 
b) A classificação, uma das principais tecnologias da mineração de dados, caracteriza-se por possuir um conjunto 
de transações, sendo cada uma delas relacionada a um itemset. 
c) É possível realizar mineração de dados em documentos textuais como, por exemplo, uma página da Internet. 
d) A grande desvantagem de um datamining consiste no fato de que a identificação de um padrão, para a geração 
do conhecimento, só é possível por meio da análise em pequenas quantidades de dados 
e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é permitido um único tipo de padrão 
RESOLUÇÃO: 
a) Nada disso. A informação obtida pode ser representada em relatórios, em gráficos ou em qualquer maneira que 
o responsável pela análise julgue pertinente. ERRADA 
b) Os itemsets são os conjuntos de itens presentes nas regras de associação. Não tem nada a ver com classificação. 
ERRADA 
c) Essa alternativa está falando de text mining. Uma página da internet que contenha textos pode sim ser alvo desse 
tipo de técnica. CERTA 
d) Na verdade a mineração de dados é mais voltada a grandes quantidades de dados, já que a probabilidade de 
conterem padrões ocultos úteis vai se tornando maior a medida que o conjunto cresce. ERRADA 
e) Não existe tal restrição. Em um processo de mineração podem ser verificados diversos padrões em um banco de 
dados. ERRADA 
Gabarito: C 
 
40. (CESPE – TC/DF – 2014) 
Julgue os itens subsecutivos, com relação a Data Mining, desempenho de sistemas de bancos de dados e controle 
de concorrência. 
Com o uso da classificação como técnica de Data Mining,busca-se a identificação de uma classe por meio de 
múltiplos atributos. Essa técnica também pode ser usada em conjunto com outras técnicas de mineração de dados. 
RESOLUÇÃO: 
É verdade. A classificação visa utilizar vários atributos para obter o valor do que está se buscando rotular. Por 
exemplo, na análise do perfil de risco de um cliente são analisados fatores como sexo, idade, renda, etc. 
Gabarito: C 
 
41. (CESPE – BACEN – 2013) 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
59 de 75 | www.direcaoconcursos.com.br 
Com relação à inteligência de negócios, julgue o item subsecutivo. 
Árvores de decisão e regras de associação são exemplos de algoritmos de data mining. 
RESOLUÇÃO: 
A banca considerou a questão correta. Eu acho que caberia recurso, já que regra de associação é, na verdade, uma 
tarefa ou técnica de mineração de dados. O algoritmo Apriori, por exemplo, é capaz de realizar essa tarefa. Com 
relação às árvores de decisão, são algoritmos utilizados em tarefas como a classificação. 
Gabarito: C 
 
42. (CESPE – MPU – 2013) 
Julgue os próximos itens, acerca de sistemas de suporte à decisão. 
Em se tratando de mineração de dados, a técnica de agrupamento (clustering) permite a descoberta de dados por 
faixa de valores, por meio do exame de alguns atributos das entidades envolvidas. 
RESOLUÇÃO: 
É verdade. A análise de agrupamentos permite descrever os dados de acordo com sua afinidade com outros itens 
da mesma faixa de valores ou grupo. Dessa forma, o gabarito é questão certa. 
Gabarito: C 
 
43. (CESPE – MPOG – 2013) 
Com referência aos conceitos de mineração de dados, ETL e OLAP, julgue os próximos itens. 
ETL é definido como o processo de descobrir padrões, associações, mudanças, anomalias e estruturas em grandes 
quantidades de dados armazenados ou em repositórios de informação gerais dentro do data mining. 
RESOLUÇÃO: 
Podemos corrigir a assertiva da seguinte maneira: 
Data mining é definido como o processo de descobrir padrões, associações, mudanças, anomalias e estruturas em 
grandes quantidades de dados armazenados ou em repositórios de informações gerais dentro do data warehouse. 
Gabarito: E 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
60 de 75 | www.direcaoconcursos.com.br 
44. (CESPE – TJ/AC – 2012) 
No que diz respeito a sistemas de suporte a decisão, julgue os itens subsequentes. 
O data mining possibilita analisar dados para obtenção de resultados estatísticos que poderão gerar novas 
oportunidades ao negócio. 
RESOLUÇÃO: 
A assertiva está correta! A mineração de dados envolve várias técnicas estatísticas para produzir os resultados das 
análises. O objetivo geral do processo é extrair padrões e relacionamentos previamente desconhecidos nos 
conjuntos de dados, o que guarda relação com a descoberta de novas oportunidades de negócio. 
Gabarito: C 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
61 de 75 | www.direcaoconcursos.com.br 
Lista de questões 
1. (CESPE – TCE/RJ – 2021) 
A respeito de mineração de dados, julgue o item que se segue. 
No método de classificação para mineração de dados, a filiação dos objetos é obtida por meio de um processo não 
supervisionado de aprendizado, em que somente as variáveis de entrada são apresentadas para o algoritmo. 
 
2. (CESPE – TCE/RJ – 2021) 
A respeito de mineração de dados, julgue o item que se segue. 
O fator de suporte e o fator de confiança são dois índices utilizados para definir o grau de certeza de uma regra de 
associação. 
 
3. (CESPE – TCE/RJ – 2021) 
A respeito de mineração de dados, julgue o item que se segue. 
Os principais métodos de análise de agrupamentos em mineração de dados incluem redes neurais, lógica difusa, 
métodos estatísticos e algoritmos genéticos. 
 
4. (CESPE – TCE/RJ – 2021) 
Com relação a Big Data, julgue o item seguinte. 
Volume, variedade e visualização são as três características, conhecidas como 3 Vs, utilizadas para definir Big Data. 
 
5. (CESPE – TCE/RJ – 2021) 
Com relação a Big Data, julgue o item seguinte. 
Os fatores críticos de sucesso da análise de Big Data incluem uma sólida infraestrutura de dados, além de 
ferramentas analíticas e pessoal habilitado para lidar com elas. 
 
6. (CESPE – TCE/RJ – 2021) 
Com relação a noções de mineração de dados e Big Data, julgue o item que se segue. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
62 de 75 | www.direcaoconcursos.com.br 
As regras de associação adotadas em mineração de dados buscam padrões frequentes entre conjuntos de dados e 
podem ser úteis para caracterizar, por exemplo, hábitos de consumo de clientes: suas preferências são identificadas 
e em seguida associadas a outros potenciais produtos de seu interesse. 
 
 
7. (CESPE – TCE/RJ – 2021) 
Com relação a noções de mineração de dados e Big Data, julgue o item que se segue. 
Na mineração de dados preditiva, ocorre a geração de um conhecimento obtido de experiências anteriores para 
ser aplicado em situações futuras. 
 
8. (CESPE – TCE/RJ – 2021) 
Com relação a noções de mineração de dados e Big Data, julgue o item que se segue. 
A descoberta de conhecimento em bases de dados, ou KDD (knowledge-discovery), é a etapa principal do processo 
de mineração de dados. 
 
9. (CESPE – ME – 2020) 
Acerca de conceitos, premissas e aplicações de big data, julgue o item subsequente. 
O objetivo das técnicas de pré-processamento de dados é preparar os dados brutos para serem analisados sem 
erros de incompletudes, inconsistências e ruídos. 
 
10. (CESPE – ME – 2020) 
Julgue o seguinte item, a respeito de big data. 
Aprendizagem de máquina pode ajudar a clusterização na identificação de outliers, que são objetos completamente 
diferentes do padrão da amostra. 
 
11. (CESPE – ME – 2020) 
Julgue o seguinte item, a respeito de big data. 
A mineração de textos utiliza técnicas diferentes da mineração de dados, tendo em vista que os textos representam 
um tipo específico de dado. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
63 de 75 | www.direcaoconcursos.com.br 
 
12. (CESPE – ME – 2020) 
Julgue o seguinte item, a respeito de big data. 
O objetivo da técnica de sequência de tempo é identificar a ocorrência de dois eventos diferentes no mesmo 
momento. 
 
13. (CESPE – STJ – 2018) 
Julgue o item que se segue, acerca de data mining e data warehouse. 
O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em vista que, para a 
obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado dentro dos data 
warehouses. 
 
14. (CESPE – FUB – 2018) 
Julgue o item a seguir, a respeito de data mining e OLAP. 
No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa de valores 
de um outro conjunto de variáveis. 
 
 
15. (CESPE – TCM/BA – 2018) 
A respeito das técnicas e (ou) métodos de mineração de dados, assinale a opção correta: 
a) O agrupamento (ou clustering) realiza identificação de grupos de dados que apresentam coocorrência. 
b) A classificação realiza o aprendizado de uma função que pode ser usada para mapear os valores associados aos 
dados em um ou mais valores reais. 
c) A regressão ou predição promove o aprendizado de uma função que pode ser usada para mapear dados em uma 
de várias classes discretas definidas previamente, bem como encontrar tendências que possam ser usadas para 
entender e explorar padrões de comportamento dos dados. 
d) As regras de associação identificam grupos de dados, em que os dados têm características semelhantes aos do 
mesmo grupo e os grupos têm características diferentes entre si. 
e) Os métodos de classificação supervisionada podem ser embasados em separabilidade(entropia), utilizando 
árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector machines). 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
64 de 75 | www.direcaoconcursos.com.br 
 
16. (CESPE – TCE/MG – 2018) 
Na técnica de árvore de decisão em data mining, é empregada a abordagem denominada 
a) análise de volumetria. 
b) combinação de variáveis. 
c) estratificação. 
d) avaliação de dados. 
e) percepção. 
 
 
17. (CESPE – TCE/PE – 2017) 
Em relação à análise de agrupamentos (clusterização) em mineração de dados, julgue o item seguinte. 
O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos; cada observação pertence 
ao grupo mais próximo da média. 
 
18. (CESPE – SEDF – 2017) 
Com relação a data mining e data warehouse, julgue o item que se segue. 
Agrupar registros em grupos, de modo que os registros em um grupo sejam semelhantes entre si e diferentes dos 
registros em outros grupos é uma maneira de descrever conhecimento descoberto durante processos de mineração 
de dados. 
 
19. (CESPE – TCE/PA – 2016) 
Julgue o item a seguir, em relação a data warehouse e data mining. 
No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste na extração 
não trivial de conhecimento previamente desconhecido e potencialmente útil. 
 
20. (CESPE – TCE/PA – 2016) 
Julgue o item subsecutivo, acerca de mineração de dados. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
65 de 75 | www.direcaoconcursos.com.br 
As aglomerações, tipos de informação obtidos por meio da mineração de dados, caracterizam-se por se ligarem a 
um único e específico evento, em torno do qual ocorrem várias ações, com produção sistêmica de informações 
gerenciais que apoiarão uma nova ocorrência do mesmo tipo de evento. 
 
21. (CESPE – TCE/SC – 2016) 
Julgue o item subsecutivo, acerca de mineração de dados. 
Para a realização de prognósticos por meio de técnicas de mineração de dados, parte-se de uma série de valores 
existentes obtidos de dados históricos bem como de suposições controladas a respeito das condições futuras, para 
prever outros valores e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais. 
 
22. (CESPE – TRT8 – 2016) 
Acerca de data mining, assinale a opção correta. 
a) A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas, em 
coletar os dados que serão garimpados, que devem estar exclusivamente em um data warehouse interno da 
empresa. 
b) As redes neurais são um recurso matemático/computacional usado na aplicação de técnicas estatísticas nos 
processos de data mining e consistem em utilizar uma massa de dados para criar e organizar regras de classificação 
e decisão em formato de diagrama de árvore, que vão classificar seu comportamento ou estimar resultados futuros. 
c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de conglomerados 
(cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados 
como semelhantes entre si, com base nas características analisadas. 
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão de um conjunto de 
informações, analisando-se seus valores ao longo de determinado período. Nesse caso, para se obter uma previsão 
mais precisa, devem ser descartadas eventuais sazonalidades no conjunto de informações. 
e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os dados existentes no data 
warehouse e realizar inferências, buscando reconhecer correlações não explícitas nos dados do data warehouse. 
 
23. (CESPE – FUNPRESP/EXE – 2016) 
Com relação à forma como os dados são armazenados e manipulados no desenvolvimento de aplicações, julgue o 
item a seguir. 
Na implementação de mineração de dados (data mining), a utilização da técnica de padrões sequenciais pode ser 
útil para a identificação de tendências. 
24. (CESPE – MEC – 2015) 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
66 de 75 | www.direcaoconcursos.com.br 
Julgue o item seguinte, referente a data mining. 
A predição em algoritmos de data mining objetiva modelar funções sobre valores para apresentar o 
comportamento futuro de determinados atributos. 
 
25. (CESPE – MEC – 2015) 
Acerca de data warehouse (DW), Business Intelligence (BI) e data mining, julgue o item que se segue. 
Situação hipotética: Após o período de inscrição para o vestibular de determinada universidade pública, 
foram reunidas informações acerca do perfil dos candidatos, cursos inscritos e concorrências. Ademais, que, por 
meio das soluções de BI e DW que integram outros sistemas, foram realizadas análises para a detecção de 
relacionamentos sistemáticos entre as informações registradas. Assertiva: Nessa situação, tais análises podem ser 
consideradas como data mining, pois agregam valor às decisões do MEC e sugerem tendências, como, por exemplo, 
o aumento no número de escolas privadas e a escolha de determinado curso superior. 
 
26. (CESPE – MEC – 2015) 
Julgue o item seguinte, referente a data mining. 
O conhecimento obtido no processo de data mining pode ser classificado como uma regra de associação quando, 
em um conjunto de eventos, há uma hierarquia de tuplas sequenciais. 
 
27. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar relacionamentos, padrões e vínculos 
significativos presentes em grandes massas documentais registradas em arquivos físicos (analógicos) e arquivos 
lógicos (digitais). 
 
 
28. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
O uso prático de data mining envolve o emprego de processos, ferramentas, técnicas e métodos oriundos da 
matemática, da estatística e da computação, inclusive de inteligência artificial. 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
67 de 75 | www.direcaoconcursos.com.br 
29. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de data 
mining para atividades ligadas a marketing. 
 
30. (CESPE – TCU – 2015) 
No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item. 
A finalidade do uso do data mining em uma organização é subsidiar a produção de afirmações conclusivas acerca 
do padrão de comportamento exibido por agentes de interesse dessa organização. 
 
31. (CESPE – DEPEN – 2015) 
Acerca de datawarehouse e datamining, julgue o item subsequente. 
Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem entre informações 
armazenadas em um grande repositório. 
 
32. (CESPE – ANTAQ – 2014) 
A respeito de Data Warehouse e Data Mining, julgue os itens subsecutivos. 
Em um processo de descoberta do conhecimento, um Data Mining executado para atingir uma meta pode falhar 
nas classes de predição, de identificação, de classificação e de otimização. 
 
33. (CESPE – ANATEL – 2014) 
A respeito de banco de dados, julgue os itens que se seguem. 
No processo de Data Mining (mineração de dados), é indispensável o uso de técnica conhecida como Data 
Warehousing, uma vez que a mineração de dados deve ocorrer necessariamente em estruturas não normalizadas 
(FN0). 
 
34. (CESPE – TJ/SE – 2014) 
Julgue os próximos itens, com relação a DataMining e ETL. 
O uso de agrupamento (clustering) em DataMining exige que os registros sejam previamente categorizados,tendo 
por finalidade aproximar registros similares para predizer valores de variáveis. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
68 de 75 | www.direcaoconcursos.com.br 
 
35. (CESPE – TJ/SE – 2014) 
Julgue os próximos itens, com relação a DataMining e ETL. 
O processo de transformação de dados pode exigir que dados logicamente relacionados, mas fisicamente 
separados, sejam recompostos, ainda que envolvam registros distintos ou até mesmo estejam em bancos de dados 
operacionais distintos. 
 
36. (CESPE – TJ/SE – 2014) 
Com relação a sistemas de suporte à decisão, julgue os seguintes itens. 
DataMining pode ser considerado uma etapa no processo de descoberta de conhecimento em base de dados, 
consistindo em análise de conjuntos de dados cujo objetivo é descobrir padrões úteis para tomada de decisão. 
 
37. (CESPE – TJ/SE – 2014) 
Acerca de DataMining e de DataWarehouse, julgue o item subsecutivo. 
Os principais processos de DataMining são a identificação de variações embasado em normas, a detecção e análise 
de relacionamentos, a paginação de memória e o controle de periféricos. 
 
38. (CESPE – TJ/SE – 2014) 
Com relação a sistemas de suporte à decisão, julgue os seguintes itens. 
Assim como o DataMining, os DataMarts são voltados para a obtenção de informações estratégicas de maneira 
automática, ou seja, com o mínimo de intervenção humana a partir da análise de dados oriundos de 
DataWarehouses. 
 
39. (CESPE – TJ/CE – 2014) 
Assinale a opção correta acerca de datamining. 
a) A informação acerca dos resultados obtidos no processo de mineração é apresentada apenas de forma gráfica. 
b) A classificação, uma das principais tecnologias da mineração de dados, caracteriza-se por possuir um conjunto 
de transações, sendo cada uma delas relacionada a um itemset. 
c) É possível realizar mineração de dados em documentos textuais como, por exemplo, uma página da Internet. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
69 de 75 | www.direcaoconcursos.com.br 
d) A grande desvantagem de um datamining consiste no fato de que a identificação de um padrão, para a geração 
do conhecimento, só é possível por meio da análise em pequenas quantidades de dados 
e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é permitido um único tipo de padrão 
 
40. (CESPE – TC/DF – 2014) 
Julgue os itens subsecutivos, com relação a Data Mining, desempenho de sistemas de bancos de dados e controle 
de concorrência. 
Com o uso da classificação como técnica de Data Mining, busca-se a identificação de uma classe por meio de 
múltiplos atributos. Essa técnica também pode ser usada em conjunto com outras técnicas de mineração de dados. 
 
41. (CESPE – BACEN – 2013) 
Com relação à inteligência de negócios, julgue o item subsecutivo. 
Árvores de decisão e regras de associação são exemplos de algoritmos de data mining. 
 
42. (CESPE – MPU – 2013) 
Julgue os próximos itens, acerca de sistemas de suporte à decisão. 
Em se tratando de mineração de dados, a técnica de agrupamento (clustering) permite a descoberta de dados por 
faixa de valores, por meio do exame de alguns atributos das entidades envolvidas. 
 
43. (CESPE – MPOG – 2013) 
Com referência aos conceitos de mineração de dados, ETL e OLAP, julgue os próximos itens. 
ETL é definido como o processo de descobrir padrões, associações, mudanças, anomalias e estruturas em grandes 
quantidades de dados armazenados ou em repositórios de informação gerais dentro do data mining. 
 
 
 
44. (CESPE – TJ/AC – 2012) 
No que diz respeito a sistemas de suporte a decisão, julgue os itens subsequentes. 
O data mining possibilita analisar dados para obtenção de resultados estatísticos que poderão gerar novas 
oportunidades ao negócio. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
70 de 75 | www.direcaoconcursos.com.br 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
71 de 75 | www.direcaoconcursos.com.br 
Gabarito 
1. E 
2. C 
3. C 
4. E 
5. C 
6. C 
7. C 
8. E 
9. C 
10. C 
11. E 
12. E 
13. E 
14. C 
15. E 
16. C 
17. C 
18. C 
19. C 
20. E 
21. C 
22. C 
23. C 
24. C 
25. C 
26. E 
27. E 
28. C 
29. E 
30. C 
31. C 
32. C 
33. E 
34. E 
35. C 
36. C 
37. E 
38. E 
39. C 
40. C 
41. C 
42. C 
43. E 
44. C 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
72 de 75 | www.direcaoconcursos.com.br 
Resumo direcionado 
Mineração de Dados 
Conceitos básicos 
• A mineração de dados é um processo que permite encontrar padrões e relacionamentos ocultos em conjuntos 
de dados, de modo a subsidiar a tomada de decisão; 
• É um processo multidisciplinar, envolvendo estatística, matemática e computação; 
• Inúmeros propósitos: marketing, detecção de fraudes, saúde, sistemas de recomendação... 
 
Pré-processamento 
• Etapa de preparação dos dados, incluindo limpeza e tratamento; 
• É necessário lidar com o “lixo” nos dados, interpretando com cuidado para não eliminarmos falsos positivos. 
Também é preciso saber o que fazer com valores ausentes; 
• Integração de dados: combinação de diferentes bases de dados muitas vezes traz problemas de integridade; 
• Transformação de dados: uso de técnicas como normalização, suavização, agregação, generalização; 
• Redução de dados: eliminar “excesso” de registros. 
 
Técnicas e tarefas 
➢ Classificação envolve descrever os dados em função de algumas classes predeterminadas. É utilizado um 
conjunto de treinamento e envolve aprendizado supervisionado. 
Exemplo de algoritmo: SVM, árvores de decisão. 
 
➢ Análise de agrupamentos, ou clusterização, é um exemplo de aprendizado não supervisionado. Envolve a 
divisão dos dados em grupos semelhantes entre si e diferentes dos demais. 
Exemplo de algoritmo: K-Means. 
 
➢ Regras de associação são regras do tipo X->Y que indicam a probabilidade de dois eventos ocorrerem em 
conjunto. O exemplo clássico é o dos clientes de um supermercado que compram fraldas e também 
compram cervejas. 
As regras de associação possuem duas propriedades importantes: suporte e confiança. 
Exemplo de algoritmo: Apriori. 
 
➢ Detecção de anomalias envolve procurar por outliers nos conjuntos de dados, possuindo aplicações 
principalmente na área de detecção de fraudes. Pode funcionar em conjunto com os diferentes tipos de 
aprendizado. 
Exemplo de algoritmo: K-Nearest Neighbor. 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
73 de 75 | www.direcaoconcursos.com.br 
➢ Modelagem preditiva envolve a utilização de dados históricos para gerar um modelo que permita obter a 
probabilidade de ocorrência de um evento desconhecido, representando uma predição ou regressão. 
Exemplo: Regressão linear 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
74 de 75 | www.direcaoconcursos.com.br 
Referências 
Fayyad, U., Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI Magazine, 
37-54. 
Laudon, K. C., & Laudon, J. P. (2014). Management Information Systems. Harlow: Pearson. 
Larose, D. T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey: Wiley. 
The CRISP-DM Consortium. (Agosto de 2000). CRISP-DM 1.0 - Step-by-step data mining guide. 
Hawkins, D. M. (1980). Identification of Outliers (1ª ed.). Chapman Hall: London. 
Zuluaga, J. P., Bonaveri, P., & Barrios, M. (2015). Development of a accelerometer based system to capture and 
analyze in Matlab cardiac signals using Seismocardiography (SCG). Fonte: Researchgate: 
https://bit.ly/2reqLVi 
Elmasri, R., & Navathe, S. B. (2011). Fundamentals of Database Systems (6ª ed.). Boston: Addison-Wesley.Hodge, V. J., & Austin, J. (2004). A Survey of Outlier Detection Methodologies. Artificial Intelligence Review(22), 85-
126. 
Finlay, S. (2014). Predictive Analytics, Data Mining and Big Data: Myths, Misconceptions and Methods. London: 
Palgrave MacMillan. 
MongoDB. (2018). Unstructured Data In Big Data. Fonte: MongoDB: 
https://www.mongodb.com/scale/unstructured-data-in-big-data 
Laney, D. (2001). 3D Data Management: Controlling Data Volume, Velocity and Variety. META Group Research. 
Fonte: META . 
Marr, B. (6 de Março de 2014). Big Data: The 5 Vs Everyone Must Know. Fonte: LinkedIn: 
https://www.linkedin.com/pulse/20140306073407-64875646-big-data-the-5-vs-everyone-must-know/ 
 
 
 
 
 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
75 de 75 | www.direcaoconcursos.com.br 
 
i https://franz.com/ps/pepito/ 
https://franz.com/ps/pepito/

Mais conteúdos dessa disciplina