Buscar

aula 03 - mineração de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
1 de 75 | www.direcaoconcursos.com.br 
 
Aula 03 
Mineração de dados; CRISP DM; Pré-
processamento; Técnicas e Tarefas de Mineração; 
Associação; Anomalia e Predição 
Análise de Dados e Informações para TCE 
RJ 
Prof. Arthur Mendonça 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
2 de 75 | www.direcaoconcursos.com.br 
Sumário 
TEORIA DA AULA .................................................................................................................................................................... 3 
INTRODUÇÃO ................................................................................................................................................................................. 3 
A MINERAÇÃO DE DADOS .................................................................................................................................................................. 4 
APLICAÇÕES ................................................................................................................................................................................... 6 
FALÁCIAS ....................................................................................................................................................................................... 7 
CRISP-DM ................................................................................................................................................................................. 10 
Visão geral ........................................................................................................................................................................... 11 
Etapas .................................................................................................................................................................................. 12 
Tarefas de cada etapa ......................................................................................................................................................... 13 
TÉCNICAS DE PRÉ-PROCESSAMENTO ................................................................................................................................................. 15 
Limpeza de dados ................................................................................................................................................................ 16 
Integração de dados ............................................................................................................................................................ 19 
Transformação de dados ..................................................................................................................................................... 20 
Redução de dados ................................................................................................................................................................ 22 
TÉCNICAS E TAREFAS DE MINERAÇÃO................................................................................................................................................ 23 
Classificação ........................................................................................................................................................................ 24 
Análise de Agrupamentos (Clusterização) ........................................................................................................................... 29 
Regras de Associação .......................................................................................................................................................... 32 
Detecção de Anomalias ....................................................................................................................................................... 35 
Modelagem Preditiva .......................................................................................................................................................... 37 
Classificando as tarefas da mineração ................................................................................................................................ 39 
APRENDIZADO DE MÁQUINA ................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO. 
MINERAÇÃO DE TEXTO........................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO. 
Técnicas de pré-processamento .............................................................................................. Erro! Indicador não definido. 
Análise ..................................................................................................................................... Erro! Indicador não definido. 
TÓPICOS COMPLEMENTARES ................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO. 
Regressão ................................................................................................................................ Erro! Indicador não definido. 
Visão Computacional ............................................................................................................... Erro! Indicador não definido. 
Deep Learning .......................................................................................................................... Erro! Indicador não definido. 
QUESTÕES DE PROVA COMENTADAS ................................................................................................................................... 42 
LISTA DE QUESTÕES ............................................................................................................................................................. 61 
GABARITO ............................................................................................................................................................................ 71 
RESUMO DIRECIONADO ....................................................................................................................................................... 72 
REFERÊNCIAS ....................................................................................................................................................................... 74 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
3 de 75 | www.direcaoconcursos.com.br 
Teoria da Aula 
Introdução 
 
 
 
Antes de começarmos a estudar a mineração de dados, precisamos ver uma breve introdução aos sistemas 
analíticos. Sistemas analíticos são aqueles sistemas cujo objetivo é fornecer subsídio para a tomada de decisão 
dentro das organizações. Esses sistemas se apresentam em diferentes formatos e maneiras, com diversas 
funcionalidades e funcionamentos distintos. 
Por serem voltados à produção de informações e conhecimento, vários desses sistemas costumam ser 
categorizados como sistemas de Business Intelligence, ou de inteligência de negócio. Alguns desses sistemas têm 
como objetivo organizar os dados de maneira que eles possam comunicar tendências e permitir a análise de séries 
históricas sobre os dados. 
Nesse cenário, destacam-se algumas tecnologias. Primeiro podemos falar dos Data Warehouses (DW), que são 
bancos de dados cujo objetivo é serem repositórios completos, com todos os dados da organização que são úteis 
para a tomada de decisão. 
Esses dados, que vem de várias fontes heterogêneas, são extraídos, transformados num formato interessante para 
análise, para que possam fornecer uma base confiável e organizada para a tomada de decisões. Esse processo de 
obtenção, transformação e carga dos dados no DW é conhecido como ETL (extrair, transformar,carregar na sigla 
em inglês). 
Também podemos citar OLAP, que é uma tecnologia relacionada a bancos de dados multidimensionais e que 
possibilita análises em dados organizados de forma hierárquica, possibilitando a visualização desses dados de 
forma interativa em diversas perspectivas. Em OLAP, os dados geralmente são organizados em estruturas 
conhecidas como cubos de dados. 
A moral da história aqui é que há vários sistemas de armazenamento de dados cujo objetivo é um pouco distinto 
dos bancos de dados relacionais comuns, que geralmente são voltados para armazenar os dados transacionais das 
organizações – aqueles dados que permitem o processamento das operações do dia a dia da organização. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
4 de 75 | www.direcaoconcursos.com.br 
Os sistemas analíticos organizam e exibem os dados com um foco maior na facilidade de uso e consultas pelos 
usuários, muitas vezes permitindo que eles os enxerguem através de painéis interativos (dashboards), relatórios e 
elementos gráficos diversos. 
 
A mineração de dados 
 
Quando falamos de mineração de dados (data mining), estamos tratando de um conjunto de técnicas cujo objetivo 
é também subsidiar a tomada de decisão dentro das organizações. Só que a mineração de dados, no entanto, não 
é um sistema de armazenamento de dados ou um tipo de banco de dados diferente. 
Enquanto tecnologias como OLAP e DW geralmente buscam transformar e organizar dados de modo que eles 
fiquem mais compreensíveis e o processo de extração de informações se torne mais fácil, a mineração de dados 
tem um enfoque maior na identificação de padrões e relacionamentos ocultos nos dados. 
A mineração faz parte do processo de descoberta do conhecimento (KDD), que é um conceito mais amplo, sendo 
um processo que permite extrair informações e conhecimento a partir do processamento, enriquecimento e 
interpretação dos dados brutos. Veja uma ilustração do KDD: 
 
 
Figura: Processo de descoberta do conhecimento em bancos de dados (Fayyad, Shapiro, & Smyth, 1996). 
 
Esse processo de KDD compreende as etapas de seleção dos dados, pré-processamento, transformação, 
mineração de dados e interpretação/avaliação dos resultados da mineração. Veja que há algumas etapas 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
5 de 75 | www.direcaoconcursos.com.br 
preliminares em que os dados originais são extraídos, manipulados e transformados antes que se chegue à 
mineração propriamente dita. 
Esses processamentos e transformações são bastante comuns nos sistemas analíticos, visto que os dados oriundos 
de diversas fontes nem sempre estão no formato e na qualidade mais adequados para se extrair informações a 
partir deles. 
Voltando à mineração de dados propriamente dita, temos que Laudon & Laudon (2014) afirmam que a mineração 
de dados é uma técnica mais voltada a descoberta do que os demais sistemas analíticos como o OLAP e aqueles de 
Data Warehouse e Business Intelligence. Veja a definição desses autores: 
Mineração de dados fornece insights em dados corporativos que não podem ser obtidos com OLAP, ao 
encontrar padrões escondidos e relacionamentos em grandes bancos de dados e inferindo regras a 
partir deles, de modo a prever comportamento futuro. 
Uma outra definição bastante concisa de mineração de dados pode ser vista no site da SAS, empresa pioneira em 
sistemas analíticos: 
Mineração de dados (em inglês, data mining) é o processo de encontrar anomalias, padrões e 
correlações em grandes conjuntos de dados [...]. 
Dessas duas definições, podemos entender que a mineração de dados é um processo que consiste em encontrar 
padrões e e relacionamentos ocultos em grandes conjuntos de dados. Esse processo muitas vezes envolve a 
identificação de regras que permitem prever comportamentos futuros dos eventos que estão sendo observados 
nos dados. 
Veja que um detalhe crucial para entender o que é a mineração é que as informações úteis eventualmente 
encontradas estavam ocultas em meio a um grande volume de dados. Ou seja, aqui não se trata de simplesmente 
colocar os dados num formato bonitinho e esperar que o usuário veja o que está óbvio. Na mineração, são usadas 
técnicas de computação, estatística e matemática para se criar modelos que permitam extrair as informações de 
interesse. 
A mineração faz forte uso de técnicas avançadas de computação, como aprendizado de máquina, que é um tipo 
de inteligência artificial. 
Um detalhe importante sobre a mineração de dados é que essa análise pode ser realizada nos mais diversos 
conjuntos de dados, desde dados estruturados, como aqueles em um data warehouse ou banco de dados 
convencional, até mesmo em dados não estruturados, como aqueles abundantes na internet, incluindo postagens 
em redes sociais. 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
6 de 75 | www.direcaoconcursos.com.br 
Aplicações 
 
Para que você consiga ter uma ideia melhor a respeito do que são essas regras e padrões ocultos que podem ser 
identificados com a mineração de dados, é importante que vejamos alguns exemplos de como isso é usado na 
prática. 
A mineração de dados tem inúmeras aplicações nos mais diversos campos dos negócios e da sociedade. É até um 
pouco difícil para o examinador citar uma área ou cenário em que a mineração não é aplicável, pois não é um 
processo muito fixo com fases bem definidas – os processos de mineração de dados irão variar de acordo com o 
cenário de aplicação e com as técnicas empregadas. 
Há alguns exemplos interessantes de aplicações da mineração de dados: 
 
 
O campo do marketing e da publicidade é frequentemente citado como uma boa área para 
utilização da mineração de dados. As empresas podem empregar técnicas de mineração para 
identificar perfis de consumo de clientes ou realizar análise de sentimentos com base nas 
postagens de usuários em redes sociais – tudo isso com o objetivo de direcionar melhor suas 
ações publicitárias e oferecer produtos mais personalizados para cada cliente. 
 
A mineração também tem aplicações relativas à segurança. Por exemplo, as técnicas de 
mineração podem ajudar a identificar transações no cartão de crédito que fogem do padrão 
de consumo dos clientes, com vistas a bloquear as transações suspeitas e evitar a ocorrência 
de golpes e fraudes. 
 
A mineração, com o auxílio de determinados modelos estatísticos, pode ajudar no campo da 
medicina preventiva, dando subsídios para que os especialistas, baseados em fatores de 
risco, prevejam as probabilidades de ocorrência de determinadas enfermidades em 
determinados grupos populacionais. 
Também pode ser utilizada nas pesquisas de novos medicamentos, permitindo que se trace 
padrões entre pacientes que apresentaram determinado efeito colateral. 
 
Serviços online como a Netflix fazem grandes investimentos em mineração de dados. As 
técnicas podem ser usadas para melhorar suas recomendações (sabe aquelas sugestões no 
estilo “filmes que você talvez goste?”) e até mesmo para desenvolver novos filmes e séries 
baseados nas preferências dos usuários. 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
7 de 75 | www.direcaoconcursos.com.br 
Falácias 
 
Há alguns preconceitos sobre mineração de dados que são bastante difundidos, mas que não correspondem à 
realidade. São conceitos que parecem verdadeiros, mas não são, então eles podem ser cobrados em prova para 
pegar os candidatos menos atentos. 
Podemos citar quatro falácias interessantes que podem ser alvo de cobrança na sua prova. Elas foram retiradas de 
(Larose, 2005): 
 
 
 
Falácia 1: Existem ferramentas de data mining que podemos “soltar” em cima dos conjuntos de dados, que elas 
irão encontrar soluções para os nossos problemas.Realidade: Em primeiro lugar, não há ferramenta de mineração completamente automática! Então não dá pra 
simplesmente colocar a ferramenta para rodar e esperar que ela retorne a solução para os problemas. A mineração 
de dados é um processo que requer a intervenção e a avaliação humana em diversas de suas etapas, inclusive na 
interpretação dos seus resultados. A mineração fornece uma base, um subsídio à tomada de decisão, não toma a 
decisão por si mesma! 
 
Falácia 2: O processo de mineração é autônomo, precisando de pouca ou nenhuma supervisão. 
Realidade: Como citamos anteriormente, o processo de mineração não é completamente automático. Apesar de 
haver o emprego de técnicas de inteligência artificial, a supervisão e ação humana é necessária durante todo o 
processo. 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
8 de 75 | www.direcaoconcursos.com.br 
 
Falácia 3: Soluções de data mining “se pagam” muito rapidamente. 
Realidade: A realidade é que a mineração de dados pode agregar bastante valor aos negócios, mas também pode 
ser um processo bastante complexo, o que pode implicar gastos elevados com pessoal e equipamentos. Se isso vai 
valer a pena ou o quão rápido o processo irá gerar retorno financeiro irá depender bastante de cada caso específico. 
 
Falácia 4: Sistemas de mineração de dados são intuitivos e fáceis de se utilizar. 
Realidade: A mineração de dados envolve técnicas avançadas de computação, além de conceitos de estatística e 
matemática. Nesse caso, o pessoal que irá conduzir o processo deve ser altamente qualificado, além de ter um 
forte conhecimento sobre o campo do negócio em que o processo de mineração será aplicado. Não é qualquer 
pessoa que consegue conceber e conduzir um processo de data mining! 
 
(CESPE – PF – 2018) Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de 
máquina. 
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos, 
potencialmente úteis e, ao final, compreensíveis. 
RESOLUÇÃO: 
É isso mesmo. Para que possam ser úteis à tomada de decisão, os padrões descobertos devem ser válidos, novos 
(já que eram previamente ocultos) e compreensíveis. 
Gabarito: C 
 
(CESPE – STJ – 2018) Julgue o item que se segue, a respeito de arquitetura e tecnologias de sistemas de informação. 
A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de conhecimento indutivo, 
é um dos objetivos de data mining. 
RESOLUÇÃO: 
Novamente uma boa definição para os objetivos de data mining. O propósito é a descoberta de regras e padrões 
previamente ocultos. O conhecimento indutivo é aquele obtido através da generalização de ocorrências 
particulares. 
Por exemplo, quando verificamos que um determinado conjunto de clientes de um banco com as mesmas 
características está sempre associado a um alto risco de inadimplência, podemos então induzir que os demais 
clientes que seguem aquele perfil também terão um alto risco de não pagar suas contas. 
Veremos mais a respeito das técnicas de mineração mais a seguir, mas saiba que, realmente, o conhecimento 
obtido tem tudo a ver com o método indutivo. 
Gabarito: C 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
9 de 75 | www.direcaoconcursos.com.br 
 
(FCC – TRF4 – 2019) 
Um Tribunal pretende analisar fatos (fatores ambientais e perfis profissionais, entre outros) que esclareçam por 
que alguns colaboradores se destacam profissionalmente enquanto outros não se desenvolvem e acabam por se 
desligar do órgão. Para facilitar essa análise, o Tribunal solicitou um auxílio tecnológico que indique quais 
características nos fatos apresentam razões positivas que justifiquem investimentos mais robustos no treinamento 
de colaboradores que tendem a se destacar a médio e longo prazos. 
Para tanto, o Analista implantará um processo de análise científica preditiva com base em dados estruturados, que 
consiste na obtenção de padrões que expliquem e descrevam tendências futuras, denominado 
a) snowflake. 
b) drill over. 
c) star schema. 
d) slice accross. 
e) data mining 
RESOLUÇÃO: 
O propósito central da ferramenta é identificar padrões que possam ajudar a descrever tendências futuras. Pelos 
termos destacados, podemos perceber que se trata das técnicas de mineração de dados, letra E. As demais 
alternativas facilitam o nosso trabalho, pois as letras B e D são nomes incorretos de operações OLAP e A e C tipos 
de esquemas de modelos dimensionais. 
Gabarito: E 
 
(FCC – SABESP – 2018) 
O conceito de Data Mining descreve 
a) o uso de teorias, métodos, processos e tecnologias para organizar uma grande quantidade de dados brutos para 
identificar padrões de comportamentos em determinados públicos. 
b) o conjunto de métodos, tecnologias e estratégias para atração voluntária de visitantes, buscando a conversão 
consistente de leads em clientes (realização de compra). 
c) as atividades coordenadas de modo sistemático por uma determinada organização para relacionamento com os 
seus distintos públicos, bem como com outras organizações, sejam públicas, privadas ou não governamentais. 
d) o conjunto de tarefas e processos, organizados e sistematizados, normalmente como uso de uma plataforma 
tecnológica (hardware e software, ou até mesmo em cloud computing) para a gestão do relacionamento com 
clientes. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
10 de 75 | www.direcaoconcursos.com.br 
e) o trabalho de produzir levantamento sobre os hábitos de consumo de mídia de um determinado público, 
identificando horários, tempo gasto etc., associando ao perfil socioeconômico, potencial de consumo, persuasão 
etc. 
RESOLUÇÃO: 
a) A primeira alternativa é a nossa resposta. A mineração de dados consiste em um conjunto de métodos, processos 
e tecnologias que tem como objetivo principal a descoberta em grandes conjuntos de dados, com o enfoque em 
encontrar padrões e relacionamentos ocultos. Encontrar padrões de comportamento em determinados públicos 
não é necessariamente o único objetivo da mineração, mas vamos ver que essa é a resposta que mais se adequa 
ao conceito. CERTA 
b) Essa não é uma definição correta de mineração de dados. Data mining não tem como seu objetivo principal a 
conversão de leads em clientes, e sim a identificação de padrões e relacionamentos ocultos nos conjuntos de 
dados. ERRADA 
c) Essas atividades podem até fazer uso de sistemas de TI para facilitar a operacionalização do relacionamento com 
os clientes, mas essa definição nada tem a ver com a de mineração de dados. ERRADA 
d) Gestão de relacionamento com clientes é feita pelos sistemas de CRM, não por mineração de dados. ERRADA 
e) A mineração de dados pode ser utilizada para identificar padrões em hábitos de consumo de públicos. Contudo, 
a mera produção de um levantamento a respeito dos fatores apresentados não caracteriza um processo de 
mineração de dados, e sim de uma pesquisa. ERRADA 
Gabarito: A 
CRISP-DM 
 Em 1996, quatro empresas líderes no mercado emergente de mineração de dados enxergaram uma 
necessidade de se definir um padrão para a indústria. Ali foi a concepção do processo CRISP-DM (Cross Industry 
Standard Process for Data Mining), que se propunha a ajudar as organizações a criarem seus próprios projetos de 
mineração de dados de uma maneira mais eficiente. 
 Esse processo foi criado para ser neutro em termos de aplicação, indústria e ferramenta. Isso quer dizer que 
não importa qual o setor do mercado da empresa, qual a natureza do sistema que ele está criando ou que 
ferramentas está usando para isso, o processo pode ser seguido do mesmo jeito. O CRISP-DM é um processo aberto, 
ou seja, não requer qualquer licenciamento para ser utilizado. 
O CRISP-DM, então, é como se fosse um guia para qualquerum (seja novato na área ou um expert) poder conduzir 
um projeto de mineração de dados. 
 O processo CRISP-DM quebra o processo de mineração em seis fases: 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
11 de 75 | www.direcaoconcursos.com.br 
 
Figura: Processo do CRISP-DM (The CRISP-DM Consortium, 2000) 
 
Visão geral 
 Vamos descrever cada uma das fases desse processo, mas antes disso é necessário fazer algumas 
observações. 
 Primeiro, quero que você observe as setas entre as etapas do processo. Essas setas indicam quais são os 
sentidos mais frequentes entre elas, mas nada impede que outros caminhos sejam seguidos. Os processos no 
CRISP-DM não são rígidos. Na verdade, o resultado de cada fase é que vai definir qual será a próxima a ser seguida. 
Fatores específicos de cada projeto, como a natureza dos dados e os interesses e objetivos dos usuários, irão 
determinar os relacionamentos entre as tarefas. 
 Também quero que você perceba o grande círculo composto por setas que está em volta das fases e dos 
dados. Esse círculo indica que o processo de mineração de dados é cíclico, não termina quando descobrimos os 
padrões ocultos ou obtemos um insight valioso. Cada vez que uma organização passa pelo processo, lições são 
aprendidas, permitindo que se aprimore as questões de negócio para a próxima execução. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
12 de 75 | www.direcaoconcursos.com.br 
Etapas 
Pronto, agora que você já entendeu a sistemática do modelo CRISP-DM, podemos passar a definir o que significa 
cada uma de suas fases. 
Ressalto que as bancas podem adotar a nomenclatura em inglês ou português, então recomendo que você se 
acostume desde já com as duas para não se confundir na hora da prova. As definições das fases foram retiradas 
predominantemente do artigo que define o modelo CRISP-DM 1.0 (The CRISP-DM Consortium, 2000). 
Business Understanding 
 Essa fase inicial, que significa Entendimento do Negócio, visa compreender os objetivos e requisitos do 
projeto, sempre em uma perspectiva do negócio. Por exemplo, é nesta etapa que os executivos afirmam “quero 
entender por que os meus clientes estão migrando para a concorrência”, e daí se desenvolve um plano preliminar 
de como isso seria conseguido com mineração de dados. 
Data Understanding 
 A etapa de Entendimento dos Dados começa com a primeira coleta de dados. A fase visa tornar o usuário 
familiarizado com os dados, identificando problemas de qualidade, e já descobrindo os primeiros insights e 
definindo subconjuntos interessantes para a formulação de hipóteses. 
Data Preparation 
A fase de Preparação de Dados tem como objetivo, já como o nome diz, preparar os dados crus para a avaliação. 
Isso envolve a limpeza e transformação dos dados (remoção de registros obviamente errados, integração de 
diferenças de representação – assim como ocorre no DW, etc.), bem como a seleção de subconjuntos de linhas e 
atributos que sejam relevantes para os propósitos dos usuários. 
Essa etapa costuma ocorrer várias vezes ao longo do processo, são essas modificações que irão transformar nosso 
conjunto de dados iniciais, que costumam conter diversas inconsistências, em um conjunto pronto para a extração 
de padrões. 
Modeling 
Geralmente há diversas abordagens de modelagem possíveis para o mesmo problema de mineração de dados. A 
etapa de Modelagem prevê a seleção dessa técnica de modelagem, a construção do modelo, a avaliação e os testes 
sobre o modelo desenvolvido. 
Quando se seleciona um modelo, muitas vezes ele tem alguns requerimentos bastante específicos em relação ao 
tratamento dos dados. Dessa maneira, pode ser necessário retornar várias vezes para a fase de preparação. 
Evaluation 
Bom, se chegamos até aqui quer dizer que já conseguimos construir um modelo interessante para a análise de 
dados. Contudo, antes de colocar no ambiente de produção da empresa, é necessário que se realize uma etapa de 
Avaliação crítica do que foi implementado. O sistema atinge os objetivos de negócio definidos na etapa de 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
13 de 75 | www.direcaoconcursos.com.br 
entendimento de negócio? Existe algum detalhe que não foi adequadamente considerado? Somente quando 
obtivermos essas respostas devemos implementar o modelo. 
Deployment 
 
 
Figura: Captura de tela de um sistema de mineração de dados e visualizaçãoi 
 
Por último (Ufa!), temos a fase de Implementação, Execução ou Desenvolvimento. Mesmo depois dos modelos 
terem sido criados, o processo não terminou. Precisamos exibir seus resultados de uma maneira significativa para 
o usuário. Essa etapa vai variar bastante de acordo com o ambiente da organização, podendo ser um simples 
relatório ou a criação de um grande portal corporativo para exibir diversos resultados da mineração para todos os 
gestores da empresa. 
Muitas vezes esta etapa está a cargo dos próprios usuários finais e não do analista de dados. Hoje em dia, no campo 
da análise de dados, há uma forte tendência no sentido do self-service BI, que é um conjunto de ferramentas que 
possibilitam que usuários relativamente leigos desenvolvam suas próprias visualizações e naveguem sobre os 
dados. 
 
Tarefas de cada etapa 
Agora o assunto vai ficar um pouco mais “decoreba”. O consórcio que criou o CRISP-DM delineou também algumas 
tarefas relevantes realizadas em cada etapa. Considero que se você tiver entendido bem as fases gerais, saber qual 
atividade vai em qual fase é algo intuitivo. 
 Para sistematizar esse conhecimento, veja o elemento gráfico a seguir: 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
14 de 75 | www.direcaoconcursos.com.br 
 
 
 Viu que não é tão difícil? Fechamos assim a etapa da nossa aula que dizia respeito ao CRISP-DM. Afirmo 
novamente: se você entender bem a divisão das etapas, saber a que etapa pertence qual tarefa será trivial! 
 
(CESPE – TCE/PE – 2017) Julgue o seguinte item, que se refere a CRISP-DM (Cross-Industry Standard Process of Data 
Mining). 
Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a identificação dos 
dados e verificar se as variáveis relevantes para o projeto não são interdependentes. 
•Determinar objetivos de negócio
•Avaliar situação
•Determinar os objetivos da mineração de dados
•Produzir um plano de projeto
Business Understanding
•Realizar a coleta inicial dos dados
•Descrever os dados
•Explorar os dados
•Verificar a qualidade dos dados
Data Understanding
•Selecionar os dados
•Limpar os dados
•Construir os dados (derivados dos dados crus)
•Integrar dados
•Formatar dados
Data Preparation
•Selecionar Técnica de Modelagem
•Gerar design de testes
•Construir o modelo
•Avaliar o modelo
Modeling
•Avaliar resultados
•Revisar o processo
•Determinar os próximos passos (com base no resultado)
Evaluation
•Implantar o plano
•Monitorar e realizar a manutenção do plano
•Produzir relatório final
•Revisar o projeto
Deployment
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
15 de 75 | www.direcaoconcursos.com.br 
RESOLUÇÃO: 
A assertiva estava indo bem, mas derrapou no final. A coleta inicial dos dados ocorre somente na fase de data 
understanding. Dessa forma, sua identificação e a verificação se as variáveis são interdependentes ou não só vai 
ocorrer nessa etapa. 
Gabarito: E 
 
Técnicas de Pré-Processamento 
 
Os dados contidos em bancos de dados e nas outras fontes que servem de base para a mineração muitas vezes 
contêm diversas inconsistências, incompletudes e ruídos. Seja devido a erros na geração dos dados ou mesmo a 
falhas na modelagem do banco de dados, alguns problemas com os dados podem surgir e atrapalhar a mineração! 
Os conjuntosde dados da mineração podem conter, por exemplo (Larose, 2005): 
 
• Campos obsoletos ou redundantes; 
• Valores ausentes; 
• Outliers (anomalias); 
• Dados cuja forma não é adequada para mineração; 
• Valores não consistentes com a política de dados da organização ou com o senso comum. 
 
A fase de pré-processamento inclui técnicas para lidar com esses problemas, na forma de limpeza e de tratamento 
de dados. As técnicas que são empregadas aqui são similares àquelas utilizadas nos demais sistemas analíticos, 
principalmente naquelas que são empregadas na carga de dados nos bancos de dados conhecidos como Data 
Warehouses (DW). 
Desta forma, esses data warehouses que passaram por um tratamento adequado acabam sendo ótimas fontes 
para a realização de mineração de dados, uma vez que seus dados já passaram por esse pré-processamento! 
Por fim, é importante que você saiba que a mineração de dados pode ocorrer também com base em dados não 
estruturados, o que geralmente traz a necessidade de se processá-los para dar algum tipo de estrutura. Sem uma 
certa organização e estruturação, fica difícil encontrar os padrões e relacionamentos ocultos no conjunto de dados. 
Vamos ver algumas técnicas de pré-processamento! 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
16 de 75 | www.direcaoconcursos.com.br 
Limpeza de dados 
 
Para saber o que é limpeza de dados, precisamos primeiro ter uma ideia do que são dados “sujos”. Dados que são 
considerados lixo podem se apresentar em diferentes maneiras. 
Vamos ver um exemplo (baseado no livro de Larose). Observe a tabela abaixo, que registra clientes de um comércio 
eletrônico. Veja os valores destacados em vermelho, que podem representar problemas. 
 
IdCliente CEP Idade Estado Civil Renda 
001 88160-610 41 N/A 10000 
002 69047-392 A Casado 4000 
003 36830 NULL Divorciado 99999 
004 61948-050 23 Solteiro -5000 
 
Esses dados destacados apresentam valores um pouco discrepantes do restante dos valores nas colunas. Por 
exemplo, há um CEP com somente cinco dígitos, uma pessoa com idade “A” e uma renda com valor negativo. 
Alguns desses valores são claramente erros de preenchimento, como a idade “A” e a renda negativa. Esses valores 
devem ser corrigidos, quando for possível identificar o valor correto, ou, quando isso não for possível, eliminados 
do conjunto de dados, para não atrapalhar os resultados da mineração. 
Note, no entanto, que alguns valores aparentemente discrepantes não necessariamente são considerados 
incorretos. O CEP de 5 dígitos na tabela, por exemplo, pode simplesmente ser um código postal de algum residente 
do exterior. Nesse caso, a informação pode ser preservada, já que não é um erro. 
As decisões de eliminar ou corrigir dados devem levar em consideração também esse tipo de situação, e podem 
requerer a interpretação e a intervenção humana para decidir o que se fazer. 
A limpeza de dados também deve tratar daqueles valores ausentes, como aqueles representados pelo valor nulo 
(NULL) e pelo termo “N/A” mais acima. Dados que estão sendo minerados podem vir de várias fontes diferentes, e 
essas fontes podem representar dados ausentes de diferentes maneiras, como o valor NULL ou termos como “N/A”, 
“Não aplicável”, “Desconhecido”, etc. É importante identificar essas várias representações para tratá-las todas de 
forma sistemática, do mesmo jeito. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
17 de 75 | www.direcaoconcursos.com.br 
 
Lidando com dados ausentes 
Valores ausentes em bancos de dados geralmente são prejudiciais à nossa capacidade de análise. O ideal seria que todos os 
campos possuíssem valores, mas esse raramente é o caso. Assim, muitas vezes é possível substituir os dados ausentes por 
algum valor adequado, caso em que é realizada uma imputação de dados. 
Esse processo deve ser realizado com bastante cuidado, e sua necessidade vai depender da aplicação. Para definir qual o 
valor será inserido no campo ausente, é possível utilizar observações estatísticas, como as médias ou modas. Outras opções 
incluem a geração de valores aleatórios ou sempre substituir os valores em branco por um valor constante. 
Alternativamente, caso não haja substituto adequado, pode-se também deixar o valor em branco e ignorar os registros nas 
análises. São várias as possibilidades de se lidar com esse tipo de valor, e a técnica mais adequada irá sempre depender do 
cenário específico de mineração de dados. 
 
Deduplicação 
Além de possíveis erros e inconsistências nos dados, quando extraímos dados de várias fontes, pode ser que alguns 
deles apresentem duplicações entre essas fontes. 
Por exemplo, um processo de mineração em um banco pode ter dados a respeito de seus clientes oriundos de 
diferentes fontes, como aqueles que vem do próprio sistema de cadastro do banco e aqueles que vem das 
instituições de informações de crédito, tipo Serasa e SPC. 
Nesse caso, os dados de uma mesma pessoa podem estar representados em ambos os sistemas, o que irá gerar 
uma duplicidade no conjunto de dados final. Nesse caso, a fase de limpeza dos dados deve eliminar eventuais 
informações redundates que existam no conjunto de dados. 
 
Remoção de dados irrelevantes 
Além disso, alguns dados podem não ser duplicados nem conter erros, mas simplesmente não serem relevantes 
para análise. 
Por exemplo, se um banco vai realizar uma análise de risco de crédito para seus clientes, pode não fazer sentido 
realizar esse processo para clientes menores de idade, que não podem contrair empréstimos e financiamentos. 
Assim, os registros supérfluos, ou seja, que não servem ao propósito da mineração, podem ser eliminados do 
conjunto. 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
18 de 75 | www.direcaoconcursos.com.br 
Outliers (anomalias) 
 
Figura: gráfico com dois outliers (Larose, 2005) 
 
Quando estamos realizando o pré-processamento de dados, podemos identificar algumas ocorrências anômalas 
para determinados atributos, que são aquelas que não se encaixam no perfil observado nos demais dados do 
mesmo tipo. 
Essas anomalias são também conhecidas como outliers. Um outlier é um fato que desvia tanto de outros fatos a 
ponto de gerar suspeitas de que foi gerado por um mecanismo diferente (Hawkins, 1980). 
A partir dessa definição, podemos construir um exemplo interessante. Imagine que você está numa sala com vários 
de seus colegas de trabalho. Se realizarmos uma observação estatística sobre os salários das pessoas nessa sala, 
temos que os valores não devem variar tanto, estando em um intervalo relativamente curto, já que todos estão em 
funções parecidas em uma mesma organização. Agora imagine que o CEO de uma multinacional entra na sala. Se 
realizarmos uma nova observação a respeito dos salários, veremos que o salário do CEO destoa completamente 
dos demais valores. 
Num conjunto de dados muito grande, é bastante improvável que saibamos de onde veio cada registro. Assim, é 
difícil saber se um outlier é um valor real (como o salário do CEO), ou se é um mero erro de digitação ou problema 
de integração de dados. Esses fatores devem ser levados em consideração no pré-processamento! 
Para darmos outro exemplo, veja novamente essa a tabela de exemplo que trouxemos mais acima: 
 
IdCliente CEP Idade Estado Civil Renda 
001 88160-610 41 N/A 10000 
002 69047-392 A Casado 4000 
003 36830 NULL Divorciado 99999 
004 61948-050 23 Solteiro -5000 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
19 de 75 | www.direcaoconcursos.com.br 
 
O cliente de id 003 possui uma renda informada de 99.999 reais mensais. Esse valor é muito maior que os demais, 
além de ser um valor um pouco esquisito, o que gera a suspeita de ser um erro de preenchimento. 
De fato, alguns sistemasde computador não permitem que se omita determinadas informações, então para burlar 
esse tipo de restrição, o funcionário responsável pelo preenchimento do salário pode simplesmente ter colocado 
esse número 99999 porque não tinha em mãos a informação da renda do cliente em questão. 
Só que esse valor, apesar de atípico, pode realmente ser o salário de alguém. Não temos como fazer nenhuma 
afirmação sem conhecermos a origem do dado. No pré-processamento temos que investigar esse tipo de situação 
para identificarmos se o outlier em questão é realmente um valor incorreto (caso em que ele poderá ser removido) 
ou se simplesmente é um valor real, somente bastante distinto dos demais. 
Nós veremos mais a respeito da detecção de outliers como técnica de mineração de dados mais à frente. 
 
Integração de dados 
 
 
Figuras: Tipos de operações realizadas na integração de dados 
 
Como já mencionamos, os dados da mineração de dados podem vir de várias fontes diferentes. Essas fontes podem 
ser heterogêneas, ou seja, terem características distintas umas das outras. Em um mesmo processo de mineração 
de dados, podemos ter dados oriundos de bancos de dados relacionais, de bancos de dados multidimensionais 
(OLAP), de arquivos de dados como aqueles no formato CSV ou em XLS, dentre outras infinitas possibilidades. 
Quando os dados vêm de diferentes origens, podem surgir vários problemas de integração, que são problemas 
ocasionados justamente pelo caráter variado das diferente fontes de dados. Um desses problemas pode ser a 
existência de vários formatos diferentes para representar os mesmos dados – por exemplo, em um cadastro de 
pessoas que contém dados de diferentes fontes, a representação do sexo dessas pessoas pode seguir vários 
padrões, como homem/mulher, m/f, h/m, dentre outras possibilidades. 
Nesse caso, é importante que quando esses dados sejam integrados haja uma unificação nessas representações 
diferentes do mesmo tipo de dado, de modo a permitir que a mineração faça sua análise de forma correta. Um 
m, f
homem, 
mulher
h, m
m, f
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
20 de 75 | www.direcaoconcursos.com.br 
sistema de computador não irá compreender por si só que “homem”, “m”, “masculino” e “h” são a mesma coisa, 
então é importante que seja definido um único padrão para representar essa categoria de informação. 
Além disso, os campos identificadores de cada registro de dados (como as chaves primárias nos bancos de dados) 
podem se repetir entre as diferentes fontes de dados. Assim, é necessário definir um novo padrão para essas chaves 
no conjunto de dados a ser minerado, para garantir que o campo chave continue sendo capaz de identificar 
unicamente cada registro. 
 
Transformação de dados 
Para realizar a mineração de dados, além da limpeza pode ser necessário também realizar algumas transformações 
sobre o conjunto de dados. Essas transformações frequentemente terão como objetivo reduzir o tamanho do 
conjunto de dados, como apontam Elmasri e Navathe. 
Vamos ver algumas operações de transformação que podem ser executadas nesta etapa do pré-processamento. 
 
Normalização 
Essa normalização é diferente daquela normalização que é aplicada nos bancos de dados relacionais. Aqui é uma 
normalização matemática, uma operação em que os dados são distribuídos proporcionalmente para ficarem todos 
em um determinado intervalo. 
Por exemplo, eu tinha um professor na universidade que, quando os alunos tiravam notas muito ruins, ele 
normalizava os valores de acordo com a maior nota. Assim, se o melhor aluno da turma tirou 7.5, essa nota vai ser 
considerada a nova nota máxima, equivalente a 10, e todas as outras notas vão ser convertidas para a nova escala 
de forma proporcional: 
 
 
 
Nota Original 
Nota 
Normalizada 
7.5 10 
6 8 
5 6.67 
4 5.33 
0 0 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
21 de 75 | www.direcaoconcursos.com.br 
Suavização 
 
Figura: Processo de suavização. Veja que alguns outliers são desconsiderados (Zuluaga, Bonaveri, & Barrios, 2015). 
 
A suavização consiste na remoção de ruídos dos dados, aqueles valores ocasionais que saem de um padrão 
desejado. As técnicas de suavização podem ser bastante úteis para se identificar mais facilmente tendências 
temporais e processos que ocorrem de uma maneira cíclica. 
Alguns autores consideram a suavização também como uma técnica de limpeza de dados, já que permite a 
eliminação de anomalias (outliers) no conjunto de dados. 
 
Agregação 
Agregar conjuntos de dados consiste em aumentar a granularidade, ou seja, diminuir o nível de detalhe dos dados. 
Dependendo da situação, pode não ser necessário armazenar os dados no seu formato mais detalhado, então 
realizamos a agregação para reduzir a quantidade de registros no nosso conjunto de dados, o que economiza 
espaço de armazenamento e pode deixar o processo de mineração mais ágil. 
Por exemplo, se uma empresa está buscando padrões na variação de preços dos insumos que ela adquire num 
intervalo de vários anos, os dados individuais de cada compra de material podem não importar muito, sendo 
suficiente armazenar as médias dos valores semanais das aquisições. 
Ao condensarmos vários registros em um só, por exemplo, ao combinarmos todas as aquisições que foram 
realizadas em uma mesma semana, estamos realizando uma agregação desses registros. 
 
Generalização ou discretização 
 
Valor de Idade Categoria 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
22 de 75 | www.direcaoconcursos.com.br 
0-18 Jovem 
18-59 Adulto 
60+ Idoso 
 
Similarmente à agregação, a generalização também reduz a quantidade de registros. A diferença é que esse 
processo permite transformar conjuntos de valores em categorias hierárquicas. Por exemplo, podemos juntar 
várias idades em uma divisão como “jovem”, “adulto” e “idoso”. Por exemplo, todo aquele registro que tiver um 
valor do atributo idade entre 0 e 18 anos ficará marcado como “jovem”. 
 
Redução de dados 
Por fim, temos que as técnicas classificadas como de redução de dados são aquelas que têm como objetivo reduzir 
o tamanho dos conjuntos de dados, mantendo a integridade do conjunto original. Ou seja, ao realizar a redução, 
passamos a trabalhar com menos registros, mas as características do conjunto de dados que vamos analisar se 
mantêm. 
Nos já vimos algumas dessas abordagens, como a agregação (unir múltiplos registros em um só de menor nível de 
detalhe, geralmente de acordo com um parâmetro de data – por dia, por mês, etc.). 
Também existe a redução de dimensionalidade (onde atributos e dimensões irrelevantes ou redundantes são 
removidos) e compressão de dados (algo parecido com o ato de “zipar” um arquivo de computador). 
Há ainda algumas outras técnicas de redução um pouco mais complexas (e que por isso não iremos detalhar muito), 
como a redução de numerosidade, que visa transformar o conjunto de dados em uma forma de representação 
menor, com o auxílio de métodos classificados em paramétricos e não paramétricos. 
Tome nota também que alguns autores consideram a redução de dados como parte da transformação de dados, e 
não uma categoria separada de técnicas. 
 
Dica para a prova: Autores diferentes classificam algumas dessas técnicas de pré-processamento de diferentes 
formas, então não seja muito rigoroso na hora de dizer que uma questão está errada porque classificou 
determinada técnica de forma diferente da que apresentamos aqui (por exemplo, se disse que a suavização é 
uma forma de limpeza de dados e não de transformação). Da mesma maneira, 
Em linhas gerais, você pode considerar que as técnicas de limpeza têm como objetivo eliminar incompletudes, 
inconsistências e dados desnecessários; as técnicas de transformação têm como objetivo mudar o formato dos 
dados, o quemuitas vezes acaba reduzindo o conjunto de dados; e as técnicas de redução têm como objetivo 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
23 de 75 | www.direcaoconcursos.com.br 
reduzir o tamanho dos conjuntos de dados, mantendo a integridade das informações relevantes para a 
mineração. 
 
O que são algoritmos? 
Antes de prosseguirmos, vou tomar um pouco do seu tempo para explicar o que é um algoritmo. Isso é importante, já que 
quando falarmos das técnicas de mineração estaremos basicamente falando dos inúmeros algoritmos utilizados para se 
concretizar esse processo. 
Um algoritmo é nada mais do que uma “receita de bolo” para realizar determinada tarefa em um computador. Ou seja, é a 
descrição da sequência de ações necessárias para se realizar a tarefa. Quando estivermos falando de cada uma das tarefas 
existentes de mineração de dados, iremos dar uma breve explicação a respeito do propósito da tarefa. No entanto, os detalhes 
de como elas serão efetivamente realizadas por um programa de computador estarão definidos em um algoritmo. 
Cada algoritmo tem uma abordagem diferente para a resolução de um mesmo problema. Imagine que você precisa chegar ao 
seu novo local de trabalho e pede orientações na rua para pessoas diferentes. É possível que cada uma dê um conjunto de 
instruções diferente (do tipo “vire à direita, depois siga em frente 100 metros, vire à esquerda...”) a depender do caminho que 
cada uma julga melhor, mas todos irão levá-lo ao mesmo lugar. 
Assim, uma mesma tarefa da mineração de dados pode ser realizada pela utilização de diferentes algoritmos, cada um com 
uma abordagem distinta para a solução do problema. Esses algoritmos geralmente serão transformados em programas em 
linguagem de programação para que possam ser executados e a mineração realizada. 
Alguns desses programas já são comercializados ou disponibilizados prontos, para que o usuário apenas os configure e adapte 
aos seus propósitos e seus conjuntos de dados. O melhor algoritmo ou técnica irá sempre depender de cada situação específica! 
 
Técnicas e Tarefas de Mineração 
 
Bom, já vimos o que é a mineração de dados e introduzimos algumas noções a respeito de pré-processamento de 
dados. A seguir, vamos destrinchar algumas tarefas que são utilizadas para encontrar os padrões e relacionamentos 
ocultos nos conjuntos de dados. 
Conhecer quais são as principais tarefas da mineração e seus propósitos e características principais geralmente será 
suficiente para resolver as questões de prova. No entanto, provas de maior nível tendem a perguntar um ou outro 
detalhe das técnicas e algoritmos associados a cada uma das tarefas. 
 
Dica para a prova: Durante este capítulo, eu vou tratar um pouco dos algoritmos mais importantes e mais 
comumente cobrados para cada uma das tarefas que apresentaremos. Eu vou trazer somente os principais 
aspectos de cada um deles, mas mesmo assim saiba que são assuntos um pouco mais técnicos, que podem trazer 
alguma dificuldade para a sua compreensão. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
24 de 75 | www.direcaoconcursos.com.br 
Com isso em mente, eu recomendo que você só se preocupe em entender de forma um pouco mais detalhada 
esses algoritmos se estiver compreendendo muito bem o restante do assunto, pois a chance desses detalhes 
serem cobrados é bem menor do que aquela chance da banca cobrar as características mais gerais de cada tarefa! 
 
Classificação 
 
Figura: Diagrama representando a tarefa de classificação 
 
A primeira tarefa que vamos estudar é a classificação. Ela é uma das mais cobradas em concursos! Nesta tarefa, 
nós iremos classificar os registros de dados dados em função de algumas categorias predeterminadas. 
Para dar um exemplo, imagine que um banco tem como objetivo classificar o risco associado a conceder um 
empréstimo a cada cliente. Dessa forma, o sistema iria ler os registros com as informações dos clientes e os 
classificar em risco baixo, médio ou alto. 
Só que para aprender a fazer a classificação, o sistema de mineração de dados precisa primeiro de alguns exemplos, 
para conseguir aprender as características que fazem um cliente ter risco baixo, médio ou alto. Uma vez aprendidas 
essas características, o sistema irá gerar um modelo de mineração de dados, que é nada mais do que o conjunto 
de regras que define como classificar os registros. 
Assim, na classificação nós precisamos primeiro criar um conjunto de dados de treinamento, ou seja, um conjunto 
com dados já classificados manualmente de acordo com nossos propósitos. O atributo que contém a informação 
de que categoria pertence cada registro é chamado rótulo de classe. 
Veja a tabela de exemplo abaixo que contém dados dos clientes e o rótulo de classe (campo Risco) já preenchido: 
 
Cliente Renda Sexo Idade Estado Civil Risco 
001 1500 M 18 Solteiro Alto 
002 15000 F 45 Casado Baixo 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
25 de 75 | www.direcaoconcursos.com.br 
003 9000 M 23 Solteiro Médio 
004 Variável F 50 Divorciada Alto 
 
Assim, nós alimentamos esses dados de treinamento ao sistema, que, com a ajuda de um algoritmo, percebe quais 
são os padrões envolvidos na classificação e assim “aprende” a classificar novos dados. 
Por exemplo, o sistema de mineração de dados poderia perceber, a partir da nossa tabela, que mulheres adultas 
de alta renda geralmente estão associadas a um baixo risco, e assim passar a classificar outras clientes com o mesmo 
perfil na mesma categoria (“Baixo”). 
Claro que esse exemplo que demos é muito simplificado, pois qualquer pessoa seria capaz de ver esses poucos 
dados e perceber esse padrão! As regras e padrões identificados com o auxílio da mineração de dados são bem 
mais complexos, fazendo uso de várias técnicas estatísticas avançadas para serem gerados. 
Perceba que, na classificação, a máquina está passando por um processo de aprendizado, ou seja, com base em 
alguns exemplos, o computador “aprende” o modelo que irá permitir classificar o restante do conjunto de dados, 
para os quais o rótulo de classe ainda não está definido. Esse é um dos tipos de aprendizado de máquina existentes! 
Esse tipo de aprendizado, que faz uso de um conjunto de treinamento para que a máquina extrapole as regras 
gerais é chamado de aprendizado supervisionado. Ele é dito supervisionado justamente porque o ser humano 
precisa fornecer alguns exemplos para que o aprenziado possa ocorrer. 
 
Técnicas e algoritmos 
A banca CESPE já considerou que as técnicas de classificação se dividem em dois tipos: 
1) Aquelas baseadas em separabilidade ou entropia, utilizando as árvores de decisão e variantes. 
2) Aquelas baseadas em particionamento, utilizando o algoritmo SVM (support vector machines). 
 
Como já falei, não é tão provável que a banca venha cobrar em detalhes cada uma dessas técnicas, então vamos 
abordar algumas características principais delas: 
 
Árvores de decisão 
Há algumas técnicas diferentes que podem ser utilizadas para se criar o modelo de classificação. Segundo Elmasri 
e Navathe, geralmente este modelo é representado na forma de árvores de decisão ou como conjuntos de regras. 
Essas regras seriam proposições lógicas no estilo “se renda > 10000 e sexo = f, então risco = baixo”, implementadas 
em linguagem de programação. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
26 de 75 | www.direcaoconcursos.com.br 
Uma árvore de decisão, por sua vez, pode ser tomada como uma outra representação das regras de classificação. 
Ela vai seguindo caminhos diferentes de acordo com o valor de cada uma das variáveis (os atributos do conjunto 
de dados) envolvidas na classificação. 
Veja um exemplo de árvore de decisão a seguir: 
 
 
 
Figura: Exemplo de árvore de decisão,inspirada em (Elmasri & Navathe, 2011) 
 
Cada valor de uma variável considerada no processo da classificação leva o algoritmo a um novo ramo (ou galho) 
da árvore. Veja que, partindo da raiz, se o cliente é casadoo algoritmo percorre a árvore para o lado esquerdo. Caso 
seja solteiro, o algoritmo vai para o lado “não” da árvore, seguindo pelo ramo do lado direito. 
Esse processo vai seguindo até que se chegue ao último nível, em que ficam as folhas, ou seja, aqueles valores nas 
extremidades inferiores da árvore. As folhas contêm as próprias classes que são utilizadas na classificação. Assim, 
dependendo dos valores dos atributos considerados na classificação, o caminho percorrido por cada item a ser 
classificado levará ao rótulo de sua classe. 
Na árvore do exemplo a seguir, alguém solteiro (casado = Não), porém com saldo bancário superior a 5.000 (Saldo 
da Conta >= 5 mil) e mais velho que 25 anos (Idade > 25) seria classificado como grau de risco baixo, dado o seu 
perfil. 
 
SVMs 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
27 de 75 | www.direcaoconcursos.com.br 
Além das árvores de decisão que vimos acima, um tipo de classificador popular (já abordado pela banca CESPE) é 
aquele que usa SVMs. Uma SVM (Support Vector Machine) é um modelo de classificação que utiliza uma noção de 
particionar o espaço para classificar cada ocorrência de dados. 
Em uma SVM, cada dado (um registro ou item a ser classificado) é representado por um ponto em um espaço 
multidimensional. A posição desses pontos de dados vai ser dada de acordo com os valores dos seus atributos 
(também chamados de variáveis). 
Por exemplo, veja o gráfico a seguir. Imagine que estamos fazendo uma classificação do risco de um determinado 
grupo de pessoas desenvolverem problemas cardíacos. Para simplificar, vamos utilizar somente duas variáveis: a 
idade dos pacientes e a quantidade de exercícios físicos semanais. 
Nas SVMs cada eixo do espaço é uma das variáveis. No exemplo, podemos dizer que x (eixo horizontal) representa 
a quantidade de exercícios físicos semanais e Y (eixo vertical) representa a idade das pessoas. Cada pessoa, por sua 
vez, é representada por uma bolinha no gráfico. 
 
 
 
Note que quanto mais exercícios uma pessoa faz, mais para direita a bolinha fica. Por outro lado, quanto mais velha 
(maior idade) é a pessoa, mais para cima a bolinha estará posicionada. Nesse caso, uma maior idade está 
relacionada a um maior risco, enquanto uma quantidade maior de exercícios físicos termina reduzindo esse risco. 
“Tá bom, professor, mas e a classificação, como é feita?” É o seguinte: o SVM em questão tem como objetivo 
particionar o espaço em duas partes (por isso se diz que é um classificador binário). As bolinhas que ficarem de um 
lado da partição pertencem a uma classe, as que ficarem do outro pertencem à outra classe. 
Veja um exemplo de particionamento nesse nosso cenário: 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
28 de 75 | www.direcaoconcursos.com.br 
 
 
Nas SVMs, essa partição como a marcada como “H1” no nosso exemplo é chamada de hiperplano. No nosso 
exemplo, tudo que fica à esquerda do hiperplano H1 (bolinhas pintadas de preto) são pessoas com alto risco de 
problemas cardíacos; tudo que fica à direita (bolinhas brancas) representa a classe de pessoas com baixo risco. 
Um mesmo problema de mineração pode ter vários hiperplanos possíveis. Alguns dividem o espaço de uma forma 
melhor do que outras. Geralmente o melhor hiperplano pode ser considerado aquele que tem as maiores margens 
possíveis em relação aos valores de ambas as classes – ou seja, ele deve ser o mais distante possível dos valores 
das duas classes, ficando mais ou menos “no meio”, entre as duas. 
 
 
 
 
Veja nesse novo exemplo que H1 já é considerado um bom classificador, pois divide corretamente as bolinhas 
pretas das bolinhas brancas. Já H2 é melhor ainda, pois além de dividir as bolinhas pretas e brancas corretamente, 
ele está mais equidistante das duas classes. Por fim, veja que H3 não é um bom classificador, já que não separa 
corretamente as bolinhas pretas das brancas! 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
29 de 75 | www.direcaoconcursos.com.br 
Esse critério é um bom critério para selecionar o melhor classificador: escolher aquele com as maiores margens 
possíveis em relação aos valores de ambas as classes. Se existir tal hiperplano, ele será chamado de hiperplano de 
margens máximas. 
O hiperplano sempre terá p-1 dimensões, em que p é a quantidade de dimensões do espaço. No nosso exemplo acima, só 
estamos trabalhando com duas variáveis, portanto se trata de um espaço bidimensional. Nesse caso, o hiperplano só terá uma 
dimensão, por isso ele é representado somente como uma linha no gráfico. 
 
SVMs são utilizadas em vários problemas de classificação. Por ser um método binário de classificação, ou seja, é 
capaz de dividir o espaço em somente duas classes, as SVMs são comumente empregadas em conjunto com várias 
outras. 
Para resolver problemas mais complexos, geralmente se decompõe um problema que envolve múltiplas variáveis 
em vários problemas binários menores. Existem várias técnicas para se fazer isso, mas estas fogem ao escopo do 
nosso curso. Já falamos demais a respeito de SVMs! 
Outros algoritmos… 
Há muitos outros algoritmos de classificação utilizados no campo de mineração de dados. Um deles é o KNN (K-
Nearest Neighbors), que se baseia nas distâncias entre os valores dos diferentes registros para classificá-los. Não 
vamos entrar em maiores detalhes a respeito desses vários algoritmos aqui, pois a aula ficaria extensa e técnica 
demais. 
Análise de Agrupamentos (Clusterização) 
 
 
Figura: Diagrama representando a clusterização 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
30 de 75 | www.direcaoconcursos.com.br 
Coloquei essa tarefa logo depois da classificação pois elas são similares e a diferença entre as duas é 
frequentemente explorada em provas de concursos! 
A ideia da clusterização é agrupar as observações (os registros) em grupos em que seus membros são semelhantes 
entre si e diferentes dos demais grupos. Enquanto na classificação nós já temos um conjunto predefinido de classes 
em que o sistema deve dividir as observações, na clusterização esses grupos são determinados pelo próprio 
algoritmo, então não há classes predefinidas. 
Por exemplo, Elmasri & Navathe dão um exemplo muito interessante de aplicação em medicina: a clusterização 
pode determinar grupos de pacientes que apresentam determinado efeito colateral em relação a um novo 
medicamento. Também há várias aplicações no ramo dos negócios, como agrupar clientes que possuam perfis de 
compras similares. 
Esse processo, em que não há categorias predefinidas e não há um conjunto de treinamento é conhecido como 
aprendizado não supervisionado, pois a própria tarefa irá definir quais são os grupos em que os dados serão 
divididos com base na semelhança entre eles. 
 
A clusterização também é conhecida como análise de agrupamentos, análise de clusters ou análise de 
conglomerados. 
 
Um algoritmo comumente utilizado para a clusterização é o clustering k-means. Mean significa média em inglês, 
então o que este algoritmo faz é separar um número n de observações (os registros) em um número k de grupos, 
em que cada observação é atribuída ao grupo cujo valor da média é a mais próximo dele. 
 
 
 
 
 
 
 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
31 de 75 | www.direcaoconcursos.com.br 
Técnicas e algoritmos: O K-means 
 
 
Figura: Representação da aplicação do k-means em um espaço tridimensional (três variáveis) 
 
Vamos ver o k-means com um pouco mais de calma.A ideia da clusterização é separar todas os elementos do 
conjunto de dados em grupos de elementos que são similares entre si. 
Inicialmente, o k-means define valores aleatórios para as médias dos k grupos. Essas médias são também chamadas 
de centroides. Em seguida, ele vai atribuindo cada uma das observações ao grupo cujo valor é mais próximo da 
média e atualizando a média do grupo de acordo com essas atribuições. 
Por exemplo, considere que estamos agrupando dados a respeito de pessoas em três grupos, com base somente 
na variável idade. Depois de uma divisão inicial aleatória, observamos que as pessoas do Cluster A têm a média de 
idade 31 anos, as do Cluster B têm média de 22 anos e as do Cluster C têm média de 45 anos. 
Após isso, toda nova observação (as novas pessoas a serem agrupadas) irá ser atribuída ao cluster cuja média é 
mais próxima do seu valor da idade. Por exemplo, se estamos inserindo no conjunto de dados uma pessoa de 18 
anos, ela irá ficar no Cluster B, pois dentre os três clusters, a média mais próxima de 18 anos é 22. Já se estamos 
inserindo uma pessoa de 32 anos, ela ficará no Cluster A. Se a pessoa tem 47 anos, ela será atribuída ao Cluster C e 
assim sucessivamente! 
Logo após atribuirmos cada nova pessoa ao seu grupo, veja que o valor da média de idade desse grupo será 
alterado, pois há uma nova pessoa que deve ser levada em consideração! Nós precisamos então recalcular as 
médias dos grupos para mantê-las atualizadas, o que pode levar determinadas observações a migrarem de um 
grupo para o outro ao longo do tempo. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
32 de 75 | www.direcaoconcursos.com.br 
Claro que estou simplificando bastante o funcionamento do algoritmo para você tentar compreender os conceitos 
básicos dele, pois acho que ele não será cobrado em maiores detalhes na sua prova, mas acho que deu pra pegar a 
ideia, não é? 
Somente para formalizar o que vimos acima, dado um conjunto inicial aleatório de médias, o algoritmo k-means irá 
alternar entre os dois passos a seguir: 
 
1) Passo de atribuição: cada observação é atribuída ao grupo cuja média tem a menor distância euclidiana 
para si. Essa distância euclidiana é um dos jeitos possíveis de se determinar a distância entre dois pontos 
no espaço. 
2) Passo de atualização: ajusta-se as médias dos grupos de acordo com os novos elementos atribuídos a 
cada um. 
 
O k-means particiona todo o espaço em um número k de clusters (grupos). Assim, todos os valores possíveis para os atributos 
que servem de base para a clusterização vão fazer o registro ficar em algum dos k clusters existentes. 
 
Regras de Associação 
 
 
Figura: Sistema exibindo análise de regras de associação (Larose, 2005) 
 
A análise de regras de associação tem como objetivo realizar uma análise de afinidade entre duas características 
ou atributos. Um exemplo dado por Larose (2005) é o de um supermercado onde foi observado que em um 
determinado dia da semana, vários clientes que compravam fraldas também compravam cervejas. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
33 de 75 | www.direcaoconcursos.com.br 
A ideia aqui é tentar identificar aqueles eventos que apresentam coocorrência, ou seja, que acontecem de forma 
conjunta. No exemplo, o supermercado identificou que a compra de fralda e a compra de cerveja são dois eventos 
que ocorrem juntos muito frequentemente. 
A identificação dessas regras de associação pode ajudar a direcionar ações de marketing, melhorar a organização 
dos produtos nas prateleiras, dentre outras aplicações. No caso do supermercado, o gerente poderia posicionar as 
fraldas em locais que ficam próximos às geladeiras de cerveja, para maximizar as vendas desses produtos de forma 
conjunta. 
Um exemplo muito comum disso é quando os sites de comércio eletrônico mostram uma lista de produtos que são 
comprados em conjunto com aquele que você acabou de visualizar. Por exemplo, você coloca um celular no 
carrinho e o site automaticamente já sugere para você também comprar um carregador ou uma capinha. 
Formalmente, as regras de associação são representadas como fórmulas do tipo X -> Y, em que X é chamada de 
ação antecedente e Y de consequente. Assim, a regra no nosso exemplo lá em cima seria do tipo fralda -> cerveja. 
Esses itens X e Y, na verdade, podem representar conjuntos de itens (chamados itemsets em inglês). Assim, 
poderíamos verificar também a ocorrência de regras como {celular} -> {capa, carregador}, que indica que as pessoas 
que compram celular geralmente compram também uma capa e carregador. 
Existe uma outra tarefa da mineração chamada análise de padrões sequenciais que se preocupa com a 
ordenação entre os eventos, ou seja, a ideia é estabelecer padrões de eventos que ocorrem em uma determinada 
sequência. 
No caso das regras de associação, temos a ação antecedente e a ação consequente, mas na prática não existe 
nenhuma preocupação com a ordem temporal em que esses eventos ocorrem. Na regra fralda -> cerveja, por 
exemplo, tanto faz se o cliente colocou primeiro a fralda ou as cervejas no carrinho de compras, o que importa é 
saber se esses eventos ocorrem de forma conjunta com frequência. 
 
Para calcular se uma regra de associação é realmente válida, geralmente fazemos uso de duas propriedades 
matemáticas. Os valores dessas propriedades irão permitir identificar se a regra é realmente “boa” ou não. Elas são 
o suporte e a confiança. 
No nosso exemplo da regra fralda -> cerveja, imagine que de 1000 clientes do supermercado, 200 compraram 
fraldas e desses 200 que compraram fraldas, 50 também comprram cerveja. 
➔ O suporte vai ser definido pelo número de ocorrências da nossa regra X -> Y (os clientes que compraram 
tanto fraldas como cervejas) dividido pelo número de transações totais no supermercado. 
Logo, o suporte é dado pelo cálculo 50/1000 = 5%. 
 
➔ A confiança é útil para verificarmos a precisão da nossa regra. Ela é o percentual de vezes em que a regra 
X -> Y foi verificada para todos os casos em que X ocorreu. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
34 de 75 | www.direcaoconcursos.com.br 
No nosso exemplo, a ação antecedente X é dada por todos os clientes que compraram fralda (200), então 
o valor da confiança seria igual a 50/200 = 25%. 
Acho difícil que o cálculo dessas propriedades seja cobrado na sua prova, mas é interessante saber pelo menos 
no que elas consistem! 
 
Técnicas e algoritmos: O Apriori 
Um algoritmo comumente usado para se identificar as regras de associação é o Apriori. Esse algoritmo funciona 
identificando os itens que são frequentes em um conjunto de dados, e depois ir aumentando os tamanhos dos 
conjuntos. Para dizer se uma determinada associação é “frequente” ou não, se utiliza justamente os valores de 
confiança e suporte, comparados a um determinado padrão definido pelo usuário. 
Por exemplo, começamos com os itens individuais, tipo {fralda}, {cerveja}, {abacaxi}... e conferimos quais deles são 
frequentes no nosso banco de dados, de acordo com os valores da confiança e do suporte. Depois, pegamos todos 
aqueles que foram considerados frequentes e vamos gerando conjuntos de dois itens, tipo {fralda, cerveja}, {fralda, 
abacaxi}, {cerveja,abacaxi}... 
Nessa etapa, conferimos novamente a confiança e o suporte para verificar se alguma dessas duplas ocorre com 
frequência. Se tivermos mais duplas frequentes, vamos tentar gerar conjuntos de três itens, e assim 
sucessivamente, até que não tenhamos mais nenhum conjunto que seja considerado frequente. 
Dessa forma, nós vamos verificando as propriedades de suporte e confiança para obter regras de maior tamanho 
possível. 
 
 
 
 
 
 
 
 
 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
35de 75 | www.direcaoconcursos.com.br 
Detecção de Anomalias 
 
 
Figura: Detecção visual de outliers através de um histograma (Larose, 2005) 
 
Você deve se lembrar que falamos de anomalias (outliers) na seção dedicada ao pré-processamento de dados, 
certo? Os outliers ou anomalias são aqueles valores para determinado atributo dos dados que são atípicos, muito 
diferentes dos demais. 
A identificação de outliers pode ser uma tarefa de pré-processamento de dados. Nesse caso, a ideia central é 
identificar anomalias que sejam realmente erros de medição ou de preenchimento nos valores dos dados. 
Por exemplo, se você tem um grande conjunto de dados que registra as temperaturas médias nas cidades brasileiras 
ao longo das décadas e observa que, em determinado dia, a temperatura registrada em Curitiba foi de 150º, 
provavelmente há algum problema nesses dados! Nesse caso, essa temperatura anômala pode ser identificada 
como um erro e descartada do conjunto de dados, para que não atrapalhe os resultados da mineração. 
 
 
 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
36 de 75 | www.direcaoconcursos.com.br 
Só que há casos em que as observações são atípicas, mas são corretas! Por exemplo, considere que um cliente de 
um banco usa o seu cartão de crédito sempre em farmácias e supermercados na sua cidade de residência, a cidade 
do Crato, no Ceará. Só que de repente aparece um registro de uma compra de um carro novo em uma 
concessionária na Rússia. Isso claramente está fora do padrão de compras desse cliente, não é? 
Nesse caso, o banco pode constatar que sim, a transação realmente foi realizada, então nesse caso não se trata de 
um erro de dados. Só que essa observação continua sendo um outlier, um valor atípico nas compras desse cliente, 
o que levanta a suspeita de fraude. 
Assim, a identificação e análise de outliers é também uma tarefa da mineração de dados com várias aplicações, 
dentre as quais se destaca essa detecção de fraudes. Também há várias outras aplicações, como aquelas na área 
de saúde. Por exemplo, no monitoramento cardíaco de um paciente, uma atividade anômala dos batimentos pode 
indicar alguma condição grave ou infarto pronto para acontecer. 
Como você pode imaginar, as aplicações da detecção de outliers são inúmeras, então acredito que podemos parar 
por aqui com os exemplos mais comuns! 
O que nos interessa mesmo é saber como esse processo é realizado. 
 
Técnicas e algoritmos 
As tarefas de mineração de dados da classificação e da clusterização costumam estar relacionadas a tipos 
específicos de aprendizado. A clusterização está relacionada a um aprendizado não supervisionado, pois não há 
conjunto de treinamento nem grupos predefinidos, enquanto a classificação está relacionado a um processo de 
aprendizado supervisionado. 
Conforme discutido em (Hodge & Austin, 2004), a identificação de outliers pode ser realizada com qualquer uma 
dessas técnicas de aprendizado. Esse inclusive artigo cita três tipos de aprendizado de máquina que podem ser 
utilizados para realizar essa tarefa: 
 
➔ Tipo 1: Essa abordagem é análoga à clusterização não supervisionada. O sistema agrupa os dados sem 
conhecimento prévio das categorias e indica os valores que não aparentam se enquadrar em nenhuma 
delas como sendo potenciais outliers. 
➔ Tipo 2: Abordagem análoga à classificação supervisionada. O usuário classifica cada tipo de dado no 
conjunto de treinamento como sendo normal/anômalo e o sistema então aprende a classificar as próximas 
entradas. 
➔ Tipo 3: Essa última abordagem pode ser considerada semi-supervisionada. Somente dados considerados 
normais são classificados previamente. O sistema então aprende a identificar os outliers como sendo 
aqueles que não se encaixam nesse padrão. 
 
Veja que essa identificação é um processo mais flexível. Assim, algoritmos de classificação, como o k-nearest 
neighbor ou SVMs, ou algoritmos de clusterização, como o k-means, podem ser utilizados para realizar essa tarefa. 
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
37 de 75 | www.direcaoconcursos.com.br 
É possível também identificar outliers com o auxílio de ferramentas visuais, como utilizando gráficos (veja a imagem 
do histograma mais acima), bem como através da utilização de modelos estatísticos mais complexos, como 
modelos paramétricos, dentre outras várias abordagens! 
 
Modelagem Preditiva 
 
Acredito que o sonho de todo gestor é conseguir prever o futuro, de modo a antecipar tendências do seu ramo de 
atuação, conseguindo assim uma importante vantagem competitiva, ou antever problemas que possam 
comprometer a consecução dos objetivos da organização, seja ela do setor público ou privado. 
Nesse sentido, a modelagem preditiva é um conjunto de técnicas de mineração de dados cujo objetivo é de utilizar 
de dados históricos e atuais para realizar previsões a respeito de eventos futuros. 
Algumas aplicações interessantes desse tipo de tarefa dizem respeito à previsão de hábitos de consumidores, como 
por exemplo a demanda por um determinado produto ao longo do tempo e a probabilidade de um consumidor sair 
de um serviço de TV a cabo ou de telefonia para contratar o de outra empresa concorrente. 
A modelagem preditiva pode ser usada não somente com fins comerciais, mas também para prever eventos como 
a ocorrência de crimes em determinadas áreas de uma cidade ou uma demanda maior por leitos em hospitais em 
determinadas épocas do ano, auxiliando gestores públicos a fornecerem melhores serviços aos cidadãos. 
Steven Finlay (2014) indica que a análise preditiva pode ser realizada para se descobrir valores de eventos 
presentes ou passados (como realizar a predição de quais suspeitos que possam ter cometido algum crime). 
Dessa maneira, podemos encarar a modelagem preditiva como sendo um conjunto de técnicas que utiliza dados 
históricos para prever os valores relativos a um evento desconhecido, seja esse evento futuro ou não! 
A maioria das questões de prova irá considerar que a modelagem preditiva está voltada para o futuro mesmo, 
mas é importante que você saiba desse detalhe de que o que está sendo previsto não é necessariamente algo 
que ainda não ocorreu. 
 
 
Dados Históricos Algoritmo Modelo 
Preditivo
 Prof. Arthur Mendonça 
Aula 03 
 
 
 
Análise de Dados e Informações para TCE RJ 
 
 
38 de 75 | www.direcaoconcursos.com.br 
 
Técnicas e algoritmos 
A regressão (ou predição) é a tarefa utilizada para prever o valor de um elemento desconhecido, com base em 
dados já conhecidos. Há várias formas de regressão, sendo a mais simples e conhecida delas a regressão linear. Se 
você já estudou estatística, você deverá estar familiarizado com essa técnica. 
De forma resumida, as tarefas preditivas visam prever o valor de uma variável com base nos valores de outras 
variáveis. Essas variáveis ou atributos a serem preditos (previstos) são conhecidos como alvo ou variáveis 
dependentes. Enquanto isso, os atributos conhecidos que são utilizados para fazer a predição são chamados de 
variáveis preditoras ou independentes. 
Segundo Elmasri & Navathe, a regressão é considerada um caso especial da classificação. Veja a explicação deles a 
seguir: 
A regressão é uma aplicação especial da regra de classificação. Se uma regra de classificação é 
considerada uma função sobre variáveis que as mapeia em uma classe destino, a regra é chamada regra 
de regressão. Uma aplicação de regressão ocorre quando, em vez de mapear uma tupla de dados de 
uma relação para uma classe específica, o valor da variável é previsto baseado naquela tupla (Elmasri 
& Navathe, 2011). 
Em linhas gerais, o que isso quer dizer é que a regressão é uma aplicação das regras de classificação que, no lugar 
de mapear uma tupla (registro) a alguma de várias classes predefinidas, como é o caso da classificação 
convencional,

Continue navegando

Outros materiais