aula 03 - mineração de dados

•

Humanas / Sociais

Isaac Santos

21/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 75 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Banco de Dados I

27.970 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

1 de 75 | www.direcaoconcursos.com.br

Aula 03
Mineração de dados; CRISP DM; Pré-
processamento; Técnicas e Tarefas de Mineração;
Associação; Anomalia e Predição
Análise de Dados e Informações para TCE
RJ
Prof. Arthur Mendonça
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

2 de 75 | www.direcaoconcursos.com.br
Sumário
TEORIA DA AULA .................................................................................................................................................................... 3
INTRODUÇÃO ................................................................................................................................................................................. 3
A MINERAÇÃO DE DADOS .................................................................................................................................................................. 4
APLICAÇÕES ................................................................................................................................................................................... 6
FALÁCIAS ....................................................................................................................................................................................... 7
CRISP-DM ................................................................................................................................................................................. 10
Visão geral ........................................................................................................................................................................... 11
Etapas .................................................................................................................................................................................. 12
Tarefas de cada etapa ......................................................................................................................................................... 13
TÉCNICAS DE PRÉ-PROCESSAMENTO ................................................................................................................................................. 15
Limpeza de dados ................................................................................................................................................................ 16
Integração de dados ............................................................................................................................................................ 19
Transformação de dados ..................................................................................................................................................... 20
Redução de dados ................................................................................................................................................................ 22
TÉCNICAS E TAREFAS DE MINERAÇÃO................................................................................................................................................ 23
Classificação ........................................................................................................................................................................ 24
Análise de Agrupamentos (Clusterização) ........................................................................................................................... 29
Regras de Associação .......................................................................................................................................................... 32
Detecção de Anomalias ....................................................................................................................................................... 35
Modelagem Preditiva .......................................................................................................................................................... 37
Classificando as tarefas da mineração ................................................................................................................................ 39
APRENDIZADO DE MÁQUINA ................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO.
MINERAÇÃO DE TEXTO........................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO.
Técnicas de pré-processamento .............................................................................................. Erro! Indicador não definido.
Análise ..................................................................................................................................... Erro! Indicador não definido.
TÓPICOS COMPLEMENTARES ................................................................................................................ ERRO! INDICADOR NÃO DEFINIDO.
Regressão ................................................................................................................................ Erro! Indicador não definido.
Visão Computacional ............................................................................................................... Erro! Indicador não definido.
Deep Learning .......................................................................................................................... Erro! Indicador não definido.
QUESTÕES DE PROVA COMENTADAS ................................................................................................................................... 42
LISTA DE QUESTÕES ............................................................................................................................................................. 61
GABARITO ............................................................................................................................................................................ 71
RESUMO DIRECIONADO ....................................................................................................................................................... 72
REFERÊNCIAS ....................................................................................................................................................................... 74

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

3 de 75 | www.direcaoconcursos.com.br
Teoria da Aula
Introdução

Antes de começarmos a estudar a mineração de dados, precisamos ver uma breve introdução aos sistemas
analíticos. Sistemas analíticos são aqueles sistemas cujo objetivo é fornecer subsídio para a tomada de decisão
dentro das organizações. Esses sistemas se apresentam em diferentes formatos e maneiras, com diversas
funcionalidades e funcionamentos distintos.
Por serem voltados à produção de informações e conhecimento, vários desses sistemas costumam ser
categorizados como sistemas de Business Intelligence, ou de inteligência de negócio. Alguns desses sistemas têm
como objetivo organizar os dados de maneira que eles possam comunicar tendências e permitir a análise de séries
históricas sobre os dados.
Nesse cenário, destacam-se algumas tecnologias. Primeiro podemos falar dos Data Warehouses (DW), que são
bancos de dados cujo objetivo é serem repositórios completos, com todos os dados da organização que são úteis
para a tomada de decisão.
Esses dados, que vem de várias fontes heterogêneas, são extraídos, transformados num formato interessante para
análise, para que possam fornecer uma base confiável e organizada para a tomada de decisões. Esse processo de
obtenção, transformação e carga dos dados no DW é conhecido como ETL (extrair, transformar,carregar na sigla
em inglês).
Também podemos citar OLAP, que é uma tecnologia relacionada a bancos de dados multidimensionais e que
possibilita análises em dados organizados de forma hierárquica, possibilitando a visualização desses dados de
forma interativa em diversas perspectivas. Em OLAP, os dados geralmente são organizados em estruturas
conhecidas como cubos de dados.
A moral da história aqui é que há vários sistemas de armazenamento de dados cujo objetivo é um pouco distinto
dos bancos de dados relacionais comuns, que geralmente são voltados para armazenar os dados transacionais das
organizações – aqueles dados que permitem o processamento das operações do dia a dia da organização.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

4 de 75 | www.direcaoconcursos.com.br
Os sistemas analíticos organizam e exibem os dados com um foco maior na facilidade de uso e consultas pelos
usuários, muitas vezes permitindo que eles os enxerguem através de painéis interativos (dashboards), relatórios e
elementos gráficos diversos.

A mineração de dados

Quando falamos de mineração de dados (data mining), estamos tratando de um conjunto de técnicas cujo objetivo
é também subsidiar a tomada de decisão dentro das organizações. Só que a mineração de dados, no entanto, não
é um sistema de armazenamento de dados ou um tipo de banco de dados diferente.
Enquanto tecnologias como OLAP e DW geralmente buscam transformar e organizar dados de modo que eles
fiquem mais compreensíveis e o processo de extração de informações se torne mais fácil, a mineração de dados
tem um enfoque maior na identificação de padrões e relacionamentos ocultos nos dados.
A mineração faz parte do processo de descoberta do conhecimento (KDD), que é um conceito mais amplo, sendo
um processo que permite extrair informações e conhecimento a partir do processamento, enriquecimento e
interpretação dos dados brutos. Veja uma ilustração do KDD:

Figura: Processo de descoberta do conhecimento em bancos de dados (Fayyad, Shapiro, & Smyth, 1996).

Esse processo de KDD compreende as etapas de seleção dos dados, pré-processamento, transformação,
mineração de dados e interpretação/avaliação dos resultados da mineração. Veja que há algumas etapas
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

5 de 75 | www.direcaoconcursos.com.br
preliminares em que os dados originais são extraídos, manipulados e transformados antes que se chegue à
mineração propriamente dita.
Esses processamentos e transformações são bastante comuns nos sistemas analíticos, visto que os dados oriundos
de diversas fontes nem sempre estão no formato e na qualidade mais adequados para se extrair informações a
partir deles.
Voltando à mineração de dados propriamente dita, temos que Laudon & Laudon (2014) afirmam que a mineração
de dados é uma técnica mais voltada a descoberta do que os demais sistemas analíticos como o OLAP e aqueles de
Data Warehouse e Business Intelligence. Veja a definição desses autores:
Mineração de dados fornece insights em dados corporativos que não podem ser obtidos com OLAP, ao
encontrar padrões escondidos e relacionamentos em grandes bancos de dados e inferindo regras a
partir deles, de modo a prever comportamento futuro.
Uma outra definição bastante concisa de mineração de dados pode ser vista no site da SAS, empresa pioneira em
sistemas analíticos:
Mineração de dados (em inglês, data mining) é o processo de encontrar anomalias, padrões e
correlações em grandes conjuntos de dados [...].
Dessas duas definições, podemos entender que a mineração de dados é um processo que consiste em encontrar
padrões e e relacionamentos ocultos em grandes conjuntos de dados. Esse processo muitas vezes envolve a
identificação de regras que permitem prever comportamentos futuros dos eventos que estão sendo observados
nos dados.
Veja que um detalhe crucial para entender o que é a mineração é que as informações úteis eventualmente
encontradas estavam ocultas em meio a um grande volume de dados. Ou seja, aqui não se trata de simplesmente
colocar os dados num formato bonitinho e esperar que o usuário veja o que está óbvio. Na mineração, são usadas
técnicas de computação, estatística e matemática para se criar modelos que permitam extrair as informações de
interesse.
A mineração faz forte uso de técnicas avançadas de computação, como aprendizado de máquina, que é um tipo
de inteligência artificial.
Um detalhe importante sobre a mineração de dados é que essa análise pode ser realizada nos mais diversos
conjuntos de dados, desde dados estruturados, como aqueles em um data warehouse ou banco de dados
convencional, até mesmo em dados não estruturados, como aqueles abundantes na internet, incluindo postagens
em redes sociais.

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

6 de 75 | www.direcaoconcursos.com.br
Aplicações

Para que você consiga ter uma ideia melhor a respeito do que são essas regras e padrões ocultos que podem ser
identificados com a mineração de dados, é importante que vejamos alguns exemplos de como isso é usado na
prática.
A mineração de dados tem inúmeras aplicações nos mais diversos campos dos negócios e da sociedade. É até um
pouco difícil para o examinador citar uma área ou cenário em que a mineração não é aplicável, pois não é um
processo muito fixo com fases bem definidas – os processos de mineração de dados irão variar de acordo com o
cenário de aplicação e com as técnicas empregadas.
Há alguns exemplos interessantes de aplicações da mineração de dados:

O campo do marketing e da publicidade é frequentemente citado como uma boa área para
utilização da mineração de dados. As empresas podem empregar técnicas de mineração para
identificar perfis de consumo de clientes ou realizar análise de sentimentos com base nas
postagens de usuários em redes sociais – tudo isso com o objetivo de direcionar melhor suas
ações publicitárias e oferecer produtos mais personalizados para cada cliente.

A mineração também tem aplicações relativas à segurança. Por exemplo, as técnicas de
mineração podem ajudar a identificar transações no cartão de crédito que fogem do padrão
de consumo dos clientes, com vistas a bloquear as transações suspeitas e evitar a ocorrência
de golpes e fraudes.

A mineração, com o auxílio de determinados modelos estatísticos, pode ajudar no campo da
medicina preventiva, dando subsídios para que os especialistas, baseados em fatores de
risco, prevejam as probabilidades de ocorrência de determinadas enfermidades em
determinados grupos populacionais.
Também pode ser utilizada nas pesquisas de novos medicamentos, permitindo que se trace
padrões entre pacientes que apresentaram determinado efeito colateral.

Serviços online como a Netflix fazem grandes investimentos em mineração de dados. As
técnicas podem ser usadas para melhorar suas recomendações (sabe aquelas sugestões no
estilo “filmes que você talvez goste?”) e até mesmo para desenvolver novos filmes e séries
baseados nas preferências dos usuários.

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

7 de 75 | www.direcaoconcursos.com.br
Falácias

Há alguns preconceitos sobre mineração de dados que são bastante difundidos, mas que não correspondem à
realidade. São conceitos que parecem verdadeiros, mas não são, então eles podem ser cobrados em prova para
pegar os candidatos menos atentos.
Podemos citar quatro falácias interessantes que podem ser alvo de cobrança na sua prova. Elas foram retiradas de
(Larose, 2005):

Falácia 1: Existem ferramentas de data mining que podemos “soltar” em cima dos conjuntos de dados, que elas
irão encontrar soluções para os nossos problemas.Realidade: Em primeiro lugar, não há ferramenta de mineração completamente automática! Então não dá pra
simplesmente colocar a ferramenta para rodar e esperar que ela retorne a solução para os problemas. A mineração
de dados é um processo que requer a intervenção e a avaliação humana em diversas de suas etapas, inclusive na
interpretação dos seus resultados. A mineração fornece uma base, um subsídio à tomada de decisão, não toma a
decisão por si mesma!

Falácia 2: O processo de mineração é autônomo, precisando de pouca ou nenhuma supervisão.
Realidade: Como citamos anteriormente, o processo de mineração não é completamente automático. Apesar de
haver o emprego de técnicas de inteligência artificial, a supervisão e ação humana é necessária durante todo o
processo.

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

8 de 75 | www.direcaoconcursos.com.br

Falácia 3: Soluções de data mining “se pagam” muito rapidamente.
Realidade: A realidade é que a mineração de dados pode agregar bastante valor aos negócios, mas também pode
ser um processo bastante complexo, o que pode implicar gastos elevados com pessoal e equipamentos. Se isso vai
valer a pena ou o quão rápido o processo irá gerar retorno financeiro irá depender bastante de cada caso específico.

Falácia 4: Sistemas de mineração de dados são intuitivos e fáceis de se utilizar.
Realidade: A mineração de dados envolve técnicas avançadas de computação, além de conceitos de estatística e
matemática. Nesse caso, o pessoal que irá conduzir o processo deve ser altamente qualificado, além de ter um
forte conhecimento sobre o campo do negócio em que o processo de mineração será aplicado. Não é qualquer
pessoa que consegue conceber e conduzir um processo de data mining!

(CESPE – PF – 2018) Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de
máquina.
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos,
potencialmente úteis e, ao final, compreensíveis.
RESOLUÇÃO:
É isso mesmo. Para que possam ser úteis à tomada de decisão, os padrões descobertos devem ser válidos, novos
(já que eram previamente ocultos) e compreensíveis.
Gabarito: C

(CESPE – STJ – 2018) Julgue o item que se segue, a respeito de arquitetura e tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de conhecimento indutivo,
é um dos objetivos de data mining.
RESOLUÇÃO:
Novamente uma boa definição para os objetivos de data mining. O propósito é a descoberta de regras e padrões
previamente ocultos. O conhecimento indutivo é aquele obtido através da generalização de ocorrências
particulares.
Por exemplo, quando verificamos que um determinado conjunto de clientes de um banco com as mesmas
características está sempre associado a um alto risco de inadimplência, podemos então induzir que os demais
clientes que seguem aquele perfil também terão um alto risco de não pagar suas contas.
Veremos mais a respeito das técnicas de mineração mais a seguir, mas saiba que, realmente, o conhecimento
obtido tem tudo a ver com o método indutivo.
Gabarito: C
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

9 de 75 | www.direcaoconcursos.com.br

(FCC – TRF4 – 2019)
Um Tribunal pretende analisar fatos (fatores ambientais e perfis profissionais, entre outros) que esclareçam por
que alguns colaboradores se destacam profissionalmente enquanto outros não se desenvolvem e acabam por se
desligar do órgão. Para facilitar essa análise, o Tribunal solicitou um auxílio tecnológico que indique quais
características nos fatos apresentam razões positivas que justifiquem investimentos mais robustos no treinamento
de colaboradores que tendem a se destacar a médio e longo prazos.
Para tanto, o Analista implantará um processo de análise científica preditiva com base em dados estruturados, que
consiste na obtenção de padrões que expliquem e descrevam tendências futuras, denominado
a) snowflake.
b) drill over.
c) star schema.
d) slice accross.
e) data mining
RESOLUÇÃO:
O propósito central da ferramenta é identificar padrões que possam ajudar a descrever tendências futuras. Pelos
termos destacados, podemos perceber que se trata das técnicas de mineração de dados, letra E. As demais
alternativas facilitam o nosso trabalho, pois as letras B e D são nomes incorretos de operações OLAP e A e C tipos
de esquemas de modelos dimensionais.
Gabarito: E

(FCC – SABESP – 2018)
O conceito de Data Mining descreve
a) o uso de teorias, métodos, processos e tecnologias para organizar uma grande quantidade de dados brutos para
identificar padrões de comportamentos em determinados públicos.
b) o conjunto de métodos, tecnologias e estratégias para atração voluntária de visitantes, buscando a conversão
consistente de leads em clientes (realização de compra).
c) as atividades coordenadas de modo sistemático por uma determinada organização para relacionamento com os
seus distintos públicos, bem como com outras organizações, sejam públicas, privadas ou não governamentais.
d) o conjunto de tarefas e processos, organizados e sistematizados, normalmente como uso de uma plataforma
tecnológica (hardware e software, ou até mesmo em cloud computing) para a gestão do relacionamento com
clientes.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

10 de 75 | www.direcaoconcursos.com.br
e) o trabalho de produzir levantamento sobre os hábitos de consumo de mídia de um determinado público,
identificando horários, tempo gasto etc., associando ao perfil socioeconômico, potencial de consumo, persuasão
etc.
RESOLUÇÃO:
a) A primeira alternativa é a nossa resposta. A mineração de dados consiste em um conjunto de métodos, processos
e tecnologias que tem como objetivo principal a descoberta em grandes conjuntos de dados, com o enfoque em
encontrar padrões e relacionamentos ocultos. Encontrar padrões de comportamento em determinados públicos
não é necessariamente o único objetivo da mineração, mas vamos ver que essa é a resposta que mais se adequa
ao conceito. CERTA
b) Essa não é uma definição correta de mineração de dados. Data mining não tem como seu objetivo principal a
conversão de leads em clientes, e sim a identificação de padrões e relacionamentos ocultos nos conjuntos de
dados. ERRADA
c) Essas atividades podem até fazer uso de sistemas de TI para facilitar a operacionalização do relacionamento com
os clientes, mas essa definição nada tem a ver com a de mineração de dados. ERRADA
d) Gestão de relacionamento com clientes é feita pelos sistemas de CRM, não por mineração de dados. ERRADA
e) A mineração de dados pode ser utilizada para identificar padrões em hábitos de consumo de públicos. Contudo,
a mera produção de um levantamento a respeito dos fatores apresentados não caracteriza um processo de
mineração de dados, e sim de uma pesquisa. ERRADA
Gabarito: A
CRISP-DM
Em 1996, quatro empresas líderes no mercado emergente de mineração de dados enxergaram uma
necessidade de se definir um padrão para a indústria. Ali foi a concepção do processo CRISP-DM (Cross Industry
Standard Process for Data Mining), que se propunha a ajudar as organizações a criarem seus próprios projetos de
mineração de dados de uma maneira mais eficiente.
Esse processo foi criado para ser neutro em termos de aplicação, indústria e ferramenta. Isso quer dizer que
não importa qual o setor do mercado da empresa, qual a natureza do sistema que ele está criando ou que
ferramentas está usando para isso, o processo pode ser seguido do mesmo jeito. O CRISP-DM é um processo aberto,
ou seja, não requer qualquer licenciamento para ser utilizado.
O CRISP-DM, então, é como se fosse um guia para qualquerum (seja novato na área ou um expert) poder conduzir
um projeto de mineração de dados.
O processo CRISP-DM quebra o processo de mineração em seis fases:
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

11 de 75 | www.direcaoconcursos.com.br

Figura: Processo do CRISP-DM (The CRISP-DM Consortium, 2000)

Visão geral
Vamos descrever cada uma das fases desse processo, mas antes disso é necessário fazer algumas
observações.
Primeiro, quero que você observe as setas entre as etapas do processo. Essas setas indicam quais são os
sentidos mais frequentes entre elas, mas nada impede que outros caminhos sejam seguidos. Os processos no
CRISP-DM não são rígidos. Na verdade, o resultado de cada fase é que vai definir qual será a próxima a ser seguida.
Fatores específicos de cada projeto, como a natureza dos dados e os interesses e objetivos dos usuários, irão
determinar os relacionamentos entre as tarefas.
Também quero que você perceba o grande círculo composto por setas que está em volta das fases e dos
dados. Esse círculo indica que o processo de mineração de dados é cíclico, não termina quando descobrimos os
padrões ocultos ou obtemos um insight valioso. Cada vez que uma organização passa pelo processo, lições são
aprendidas, permitindo que se aprimore as questões de negócio para a próxima execução.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

12 de 75 | www.direcaoconcursos.com.br
Etapas
Pronto, agora que você já entendeu a sistemática do modelo CRISP-DM, podemos passar a definir o que significa
cada uma de suas fases.
Ressalto que as bancas podem adotar a nomenclatura em inglês ou português, então recomendo que você se
acostume desde já com as duas para não se confundir na hora da prova. As definições das fases foram retiradas
predominantemente do artigo que define o modelo CRISP-DM 1.0 (The CRISP-DM Consortium, 2000).
Business Understanding
Essa fase inicial, que significa Entendimento do Negócio, visa compreender os objetivos e requisitos do
projeto, sempre em uma perspectiva do negócio. Por exemplo, é nesta etapa que os executivos afirmam “quero
entender por que os meus clientes estão migrando para a concorrência”, e daí se desenvolve um plano preliminar
de como isso seria conseguido com mineração de dados.
Data Understanding
A etapa de Entendimento dos Dados começa com a primeira coleta de dados. A fase visa tornar o usuário
familiarizado com os dados, identificando problemas de qualidade, e já descobrindo os primeiros insights e
definindo subconjuntos interessantes para a formulação de hipóteses.
Data Preparation
A fase de Preparação de Dados tem como objetivo, já como o nome diz, preparar os dados crus para a avaliação.
Isso envolve a limpeza e transformação dos dados (remoção de registros obviamente errados, integração de
diferenças de representação – assim como ocorre no DW, etc.), bem como a seleção de subconjuntos de linhas e
atributos que sejam relevantes para os propósitos dos usuários.
Essa etapa costuma ocorrer várias vezes ao longo do processo, são essas modificações que irão transformar nosso
conjunto de dados iniciais, que costumam conter diversas inconsistências, em um conjunto pronto para a extração
de padrões.
Modeling
Geralmente há diversas abordagens de modelagem possíveis para o mesmo problema de mineração de dados. A
etapa de Modelagem prevê a seleção dessa técnica de modelagem, a construção do modelo, a avaliação e os testes
sobre o modelo desenvolvido.
Quando se seleciona um modelo, muitas vezes ele tem alguns requerimentos bastante específicos em relação ao
tratamento dos dados. Dessa maneira, pode ser necessário retornar várias vezes para a fase de preparação.
Evaluation
Bom, se chegamos até aqui quer dizer que já conseguimos construir um modelo interessante para a análise de
dados. Contudo, antes de colocar no ambiente de produção da empresa, é necessário que se realize uma etapa de
Avaliação crítica do que foi implementado. O sistema atinge os objetivos de negócio definidos na etapa de
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

13 de 75 | www.direcaoconcursos.com.br
entendimento de negócio? Existe algum detalhe que não foi adequadamente considerado? Somente quando
obtivermos essas respostas devemos implementar o modelo.
Deployment

Figura: Captura de tela de um sistema de mineração de dados e visualizaçãoi

Por último (Ufa!), temos a fase de Implementação, Execução ou Desenvolvimento. Mesmo depois dos modelos
terem sido criados, o processo não terminou. Precisamos exibir seus resultados de uma maneira significativa para
o usuário. Essa etapa vai variar bastante de acordo com o ambiente da organização, podendo ser um simples
relatório ou a criação de um grande portal corporativo para exibir diversos resultados da mineração para todos os
gestores da empresa.
Muitas vezes esta etapa está a cargo dos próprios usuários finais e não do analista de dados. Hoje em dia, no campo
da análise de dados, há uma forte tendência no sentido do self-service BI, que é um conjunto de ferramentas que
possibilitam que usuários relativamente leigos desenvolvam suas próprias visualizações e naveguem sobre os
dados.

Tarefas de cada etapa
Agora o assunto vai ficar um pouco mais “decoreba”. O consórcio que criou o CRISP-DM delineou também algumas
tarefas relevantes realizadas em cada etapa. Considero que se você tiver entendido bem as fases gerais, saber qual
atividade vai em qual fase é algo intuitivo.
Para sistematizar esse conhecimento, veja o elemento gráfico a seguir:
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

14 de 75 | www.direcaoconcursos.com.br

Viu que não é tão difícil? Fechamos assim a etapa da nossa aula que dizia respeito ao CRISP-DM. Afirmo
novamente: se você entender bem a divisão das etapas, saber a que etapa pertence qual tarefa será trivial!

(CESPE – TCE/PE – 2017) Julgue o seguinte item, que se refere a CRISP-DM (Cross-Industry Standard Process of Data
Mining).
Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a identificação dos
dados e verificar se as variáveis relevantes para o projeto não são interdependentes.
•Determinar objetivos de negócio
•Avaliar situação
•Determinar os objetivos da mineração de dados
•Produzir um plano de projeto
Business Understanding
•Realizar a coleta inicial dos dados
•Descrever os dados
•Explorar os dados
•Verificar a qualidade dos dados
Data Understanding
•Selecionar os dados
•Limpar os dados
•Construir os dados (derivados dos dados crus)
•Integrar dados
•Formatar dados
Data Preparation
•Selecionar Técnica de Modelagem
•Gerar design de testes
•Construir o modelo
•Avaliar o modelo
Modeling
•Avaliar resultados
•Revisar o processo
•Determinar os próximos passos (com base no resultado)
Evaluation
•Implantar o plano
•Monitorar e realizar a manutenção do plano
•Produzir relatório final
•Revisar o projeto
Deployment
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

15 de 75 | www.direcaoconcursos.com.br
RESOLUÇÃO:
A assertiva estava indo bem, mas derrapou no final. A coleta inicial dos dados ocorre somente na fase de data
understanding. Dessa forma, sua identificação e a verificação se as variáveis são interdependentes ou não só vai
ocorrer nessa etapa.
Gabarito: E

Técnicas de Pré-Processamento

Os dados contidos em bancos de dados e nas outras fontes que servem de base para a mineração muitas vezes
contêm diversas inconsistências, incompletudes e ruídos. Seja devido a erros na geração dos dados ou mesmo a
falhas na modelagem do banco de dados, alguns problemas com os dados podem surgir e atrapalhar a mineração!
Os conjuntosde dados da mineração podem conter, por exemplo (Larose, 2005):

• Campos obsoletos ou redundantes;
• Valores ausentes;
• Outliers (anomalias);
• Dados cuja forma não é adequada para mineração;
• Valores não consistentes com a política de dados da organização ou com o senso comum.

A fase de pré-processamento inclui técnicas para lidar com esses problemas, na forma de limpeza e de tratamento
de dados. As técnicas que são empregadas aqui são similares àquelas utilizadas nos demais sistemas analíticos,
principalmente naquelas que são empregadas na carga de dados nos bancos de dados conhecidos como Data
Warehouses (DW).
Desta forma, esses data warehouses que passaram por um tratamento adequado acabam sendo ótimas fontes
para a realização de mineração de dados, uma vez que seus dados já passaram por esse pré-processamento!
Por fim, é importante que você saiba que a mineração de dados pode ocorrer também com base em dados não
estruturados, o que geralmente traz a necessidade de se processá-los para dar algum tipo de estrutura. Sem uma
certa organização e estruturação, fica difícil encontrar os padrões e relacionamentos ocultos no conjunto de dados.
Vamos ver algumas técnicas de pré-processamento!

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

16 de 75 | www.direcaoconcursos.com.br
Limpeza de dados

Para saber o que é limpeza de dados, precisamos primeiro ter uma ideia do que são dados “sujos”. Dados que são
considerados lixo podem se apresentar em diferentes maneiras.
Vamos ver um exemplo (baseado no livro de Larose). Observe a tabela abaixo, que registra clientes de um comércio
eletrônico. Veja os valores destacados em vermelho, que podem representar problemas.

IdCliente CEP Idade Estado Civil Renda
001 88160-610 41 N/A 10000
002 69047-392 A Casado 4000
003 36830 NULL Divorciado 99999
004 61948-050 23 Solteiro -5000

Esses dados destacados apresentam valores um pouco discrepantes do restante dos valores nas colunas. Por
exemplo, há um CEP com somente cinco dígitos, uma pessoa com idade “A” e uma renda com valor negativo.
Alguns desses valores são claramente erros de preenchimento, como a idade “A” e a renda negativa. Esses valores
devem ser corrigidos, quando for possível identificar o valor correto, ou, quando isso não for possível, eliminados
do conjunto de dados, para não atrapalhar os resultados da mineração.
Note, no entanto, que alguns valores aparentemente discrepantes não necessariamente são considerados
incorretos. O CEP de 5 dígitos na tabela, por exemplo, pode simplesmente ser um código postal de algum residente
do exterior. Nesse caso, a informação pode ser preservada, já que não é um erro.
As decisões de eliminar ou corrigir dados devem levar em consideração também esse tipo de situação, e podem
requerer a interpretação e a intervenção humana para decidir o que se fazer.
A limpeza de dados também deve tratar daqueles valores ausentes, como aqueles representados pelo valor nulo
(NULL) e pelo termo “N/A” mais acima. Dados que estão sendo minerados podem vir de várias fontes diferentes, e
essas fontes podem representar dados ausentes de diferentes maneiras, como o valor NULL ou termos como “N/A”,
“Não aplicável”, “Desconhecido”, etc. É importante identificar essas várias representações para tratá-las todas de
forma sistemática, do mesmo jeito.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

17 de 75 | www.direcaoconcursos.com.br

Lidando com dados ausentes
Valores ausentes em bancos de dados geralmente são prejudiciais à nossa capacidade de análise. O ideal seria que todos os
campos possuíssem valores, mas esse raramente é o caso. Assim, muitas vezes é possível substituir os dados ausentes por
algum valor adequado, caso em que é realizada uma imputação de dados.
Esse processo deve ser realizado com bastante cuidado, e sua necessidade vai depender da aplicação. Para definir qual o
valor será inserido no campo ausente, é possível utilizar observações estatísticas, como as médias ou modas. Outras opções
incluem a geração de valores aleatórios ou sempre substituir os valores em branco por um valor constante.
Alternativamente, caso não haja substituto adequado, pode-se também deixar o valor em branco e ignorar os registros nas
análises. São várias as possibilidades de se lidar com esse tipo de valor, e a técnica mais adequada irá sempre depender do
cenário específico de mineração de dados.

Deduplicação
Além de possíveis erros e inconsistências nos dados, quando extraímos dados de várias fontes, pode ser que alguns
deles apresentem duplicações entre essas fontes.
Por exemplo, um processo de mineração em um banco pode ter dados a respeito de seus clientes oriundos de
diferentes fontes, como aqueles que vem do próprio sistema de cadastro do banco e aqueles que vem das
instituições de informações de crédito, tipo Serasa e SPC.
Nesse caso, os dados de uma mesma pessoa podem estar representados em ambos os sistemas, o que irá gerar
uma duplicidade no conjunto de dados final. Nesse caso, a fase de limpeza dos dados deve eliminar eventuais
informações redundates que existam no conjunto de dados.

Remoção de dados irrelevantes
Além disso, alguns dados podem não ser duplicados nem conter erros, mas simplesmente não serem relevantes
para análise.
Por exemplo, se um banco vai realizar uma análise de risco de crédito para seus clientes, pode não fazer sentido
realizar esse processo para clientes menores de idade, que não podem contrair empréstimos e financiamentos.
Assim, os registros supérfluos, ou seja, que não servem ao propósito da mineração, podem ser eliminados do
conjunto.

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

18 de 75 | www.direcaoconcursos.com.br
Outliers (anomalias)

Figura: gráfico com dois outliers (Larose, 2005)

Quando estamos realizando o pré-processamento de dados, podemos identificar algumas ocorrências anômalas
para determinados atributos, que são aquelas que não se encaixam no perfil observado nos demais dados do
mesmo tipo.
Essas anomalias são também conhecidas como outliers. Um outlier é um fato que desvia tanto de outros fatos a
ponto de gerar suspeitas de que foi gerado por um mecanismo diferente (Hawkins, 1980).
A partir dessa definição, podemos construir um exemplo interessante. Imagine que você está numa sala com vários
de seus colegas de trabalho. Se realizarmos uma observação estatística sobre os salários das pessoas nessa sala,
temos que os valores não devem variar tanto, estando em um intervalo relativamente curto, já que todos estão em
funções parecidas em uma mesma organização. Agora imagine que o CEO de uma multinacional entra na sala. Se
realizarmos uma nova observação a respeito dos salários, veremos que o salário do CEO destoa completamente
dos demais valores.
Num conjunto de dados muito grande, é bastante improvável que saibamos de onde veio cada registro. Assim, é
difícil saber se um outlier é um valor real (como o salário do CEO), ou se é um mero erro de digitação ou problema
de integração de dados. Esses fatores devem ser levados em consideração no pré-processamento!
Para darmos outro exemplo, veja novamente essa a tabela de exemplo que trouxemos mais acima:

IdCliente CEP Idade Estado Civil Renda
001 88160-610 41 N/A 10000
002 69047-392 A Casado 4000
003 36830 NULL Divorciado 99999
004 61948-050 23 Solteiro -5000
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

19 de 75 | www.direcaoconcursos.com.br

O cliente de id 003 possui uma renda informada de 99.999 reais mensais. Esse valor é muito maior que os demais,
além de ser um valor um pouco esquisito, o que gera a suspeita de ser um erro de preenchimento.
De fato, alguns sistemasde computador não permitem que se omita determinadas informações, então para burlar
esse tipo de restrição, o funcionário responsável pelo preenchimento do salário pode simplesmente ter colocado
esse número 99999 porque não tinha em mãos a informação da renda do cliente em questão.
Só que esse valor, apesar de atípico, pode realmente ser o salário de alguém. Não temos como fazer nenhuma
afirmação sem conhecermos a origem do dado. No pré-processamento temos que investigar esse tipo de situação
para identificarmos se o outlier em questão é realmente um valor incorreto (caso em que ele poderá ser removido)
ou se simplesmente é um valor real, somente bastante distinto dos demais.
Nós veremos mais a respeito da detecção de outliers como técnica de mineração de dados mais à frente.

Integração de dados

Figuras: Tipos de operações realizadas na integração de dados

Como já mencionamos, os dados da mineração de dados podem vir de várias fontes diferentes. Essas fontes podem
ser heterogêneas, ou seja, terem características distintas umas das outras. Em um mesmo processo de mineração
de dados, podemos ter dados oriundos de bancos de dados relacionais, de bancos de dados multidimensionais
(OLAP), de arquivos de dados como aqueles no formato CSV ou em XLS, dentre outras infinitas possibilidades.
Quando os dados vêm de diferentes origens, podem surgir vários problemas de integração, que são problemas
ocasionados justamente pelo caráter variado das diferente fontes de dados. Um desses problemas pode ser a
existência de vários formatos diferentes para representar os mesmos dados – por exemplo, em um cadastro de
pessoas que contém dados de diferentes fontes, a representação do sexo dessas pessoas pode seguir vários
padrões, como homem/mulher, m/f, h/m, dentre outras possibilidades.
Nesse caso, é importante que quando esses dados sejam integrados haja uma unificação nessas representações
diferentes do mesmo tipo de dado, de modo a permitir que a mineração faça sua análise de forma correta. Um
m, f
homem,
mulher
h, m
m, f
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

20 de 75 | www.direcaoconcursos.com.br
sistema de computador não irá compreender por si só que “homem”, “m”, “masculino” e “h” são a mesma coisa,
então é importante que seja definido um único padrão para representar essa categoria de informação.
Além disso, os campos identificadores de cada registro de dados (como as chaves primárias nos bancos de dados)
podem se repetir entre as diferentes fontes de dados. Assim, é necessário definir um novo padrão para essas chaves
no conjunto de dados a ser minerado, para garantir que o campo chave continue sendo capaz de identificar
unicamente cada registro.

Transformação de dados
Para realizar a mineração de dados, além da limpeza pode ser necessário também realizar algumas transformações
sobre o conjunto de dados. Essas transformações frequentemente terão como objetivo reduzir o tamanho do
conjunto de dados, como apontam Elmasri e Navathe.
Vamos ver algumas operações de transformação que podem ser executadas nesta etapa do pré-processamento.

Normalização
Essa normalização é diferente daquela normalização que é aplicada nos bancos de dados relacionais. Aqui é uma
normalização matemática, uma operação em que os dados são distribuídos proporcionalmente para ficarem todos
em um determinado intervalo.
Por exemplo, eu tinha um professor na universidade que, quando os alunos tiravam notas muito ruins, ele
normalizava os valores de acordo com a maior nota. Assim, se o melhor aluno da turma tirou 7.5, essa nota vai ser
considerada a nova nota máxima, equivalente a 10, e todas as outras notas vão ser convertidas para a nova escala
de forma proporcional:

Nota Original
Nota
Normalizada
7.5 10
6 8
5 6.67
4 5.33
0 0

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

21 de 75 | www.direcaoconcursos.com.br
Suavização

Figura: Processo de suavização. Veja que alguns outliers são desconsiderados (Zuluaga, Bonaveri, & Barrios, 2015).

A suavização consiste na remoção de ruídos dos dados, aqueles valores ocasionais que saem de um padrão
desejado. As técnicas de suavização podem ser bastante úteis para se identificar mais facilmente tendências
temporais e processos que ocorrem de uma maneira cíclica.
Alguns autores consideram a suavização também como uma técnica de limpeza de dados, já que permite a
eliminação de anomalias (outliers) no conjunto de dados.

Agregação
Agregar conjuntos de dados consiste em aumentar a granularidade, ou seja, diminuir o nível de detalhe dos dados.
Dependendo da situação, pode não ser necessário armazenar os dados no seu formato mais detalhado, então
realizamos a agregação para reduzir a quantidade de registros no nosso conjunto de dados, o que economiza
espaço de armazenamento e pode deixar o processo de mineração mais ágil.
Por exemplo, se uma empresa está buscando padrões na variação de preços dos insumos que ela adquire num
intervalo de vários anos, os dados individuais de cada compra de material podem não importar muito, sendo
suficiente armazenar as médias dos valores semanais das aquisições.
Ao condensarmos vários registros em um só, por exemplo, ao combinarmos todas as aquisições que foram
realizadas em uma mesma semana, estamos realizando uma agregação desses registros.

Generalização ou discretização

Valor de Idade Categoria
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

22 de 75 | www.direcaoconcursos.com.br
0-18 Jovem
18-59 Adulto
60+ Idoso

Similarmente à agregação, a generalização também reduz a quantidade de registros. A diferença é que esse
processo permite transformar conjuntos de valores em categorias hierárquicas. Por exemplo, podemos juntar
várias idades em uma divisão como “jovem”, “adulto” e “idoso”. Por exemplo, todo aquele registro que tiver um
valor do atributo idade entre 0 e 18 anos ficará marcado como “jovem”.

Redução de dados
Por fim, temos que as técnicas classificadas como de redução de dados são aquelas que têm como objetivo reduzir
o tamanho dos conjuntos de dados, mantendo a integridade do conjunto original. Ou seja, ao realizar a redução,
passamos a trabalhar com menos registros, mas as características do conjunto de dados que vamos analisar se
mantêm.
Nos já vimos algumas dessas abordagens, como a agregação (unir múltiplos registros em um só de menor nível de
detalhe, geralmente de acordo com um parâmetro de data – por dia, por mês, etc.).
Também existe a redução de dimensionalidade (onde atributos e dimensões irrelevantes ou redundantes são
removidos) e compressão de dados (algo parecido com o ato de “zipar” um arquivo de computador).
Há ainda algumas outras técnicas de redução um pouco mais complexas (e que por isso não iremos detalhar muito),
como a redução de numerosidade, que visa transformar o conjunto de dados em uma forma de representação
menor, com o auxílio de métodos classificados em paramétricos e não paramétricos.
Tome nota também que alguns autores consideram a redução de dados como parte da transformação de dados, e
não uma categoria separada de técnicas.

Dica para a prova: Autores diferentes classificam algumas dessas técnicas de pré-processamento de diferentes
formas, então não seja muito rigoroso na hora de dizer que uma questão está errada porque classificou
determinada técnica de forma diferente da que apresentamos aqui (por exemplo, se disse que a suavização é
uma forma de limpeza de dados e não de transformação). Da mesma maneira,
Em linhas gerais, você pode considerar que as técnicas de limpeza têm como objetivo eliminar incompletudes,
inconsistências e dados desnecessários; as técnicas de transformação têm como objetivo mudar o formato dos
dados, o quemuitas vezes acaba reduzindo o conjunto de dados; e as técnicas de redução têm como objetivo
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

23 de 75 | www.direcaoconcursos.com.br
reduzir o tamanho dos conjuntos de dados, mantendo a integridade das informações relevantes para a
mineração.

O que são algoritmos?
Antes de prosseguirmos, vou tomar um pouco do seu tempo para explicar o que é um algoritmo. Isso é importante, já que
quando falarmos das técnicas de mineração estaremos basicamente falando dos inúmeros algoritmos utilizados para se
concretizar esse processo.
Um algoritmo é nada mais do que uma “receita de bolo” para realizar determinada tarefa em um computador. Ou seja, é a
descrição da sequência de ações necessárias para se realizar a tarefa. Quando estivermos falando de cada uma das tarefas
existentes de mineração de dados, iremos dar uma breve explicação a respeito do propósito da tarefa. No entanto, os detalhes
de como elas serão efetivamente realizadas por um programa de computador estarão definidos em um algoritmo.
Cada algoritmo tem uma abordagem diferente para a resolução de um mesmo problema. Imagine que você precisa chegar ao
seu novo local de trabalho e pede orientações na rua para pessoas diferentes. É possível que cada uma dê um conjunto de
instruções diferente (do tipo “vire à direita, depois siga em frente 100 metros, vire à esquerda...”) a depender do caminho que
cada uma julga melhor, mas todos irão levá-lo ao mesmo lugar.
Assim, uma mesma tarefa da mineração de dados pode ser realizada pela utilização de diferentes algoritmos, cada um com
uma abordagem distinta para a solução do problema. Esses algoritmos geralmente serão transformados em programas em
linguagem de programação para que possam ser executados e a mineração realizada.
Alguns desses programas já são comercializados ou disponibilizados prontos, para que o usuário apenas os configure e adapte
aos seus propósitos e seus conjuntos de dados. O melhor algoritmo ou técnica irá sempre depender de cada situação específica!

Técnicas e Tarefas de Mineração

Bom, já vimos o que é a mineração de dados e introduzimos algumas noções a respeito de pré-processamento de
dados. A seguir, vamos destrinchar algumas tarefas que são utilizadas para encontrar os padrões e relacionamentos
ocultos nos conjuntos de dados.
Conhecer quais são as principais tarefas da mineração e seus propósitos e características principais geralmente será
suficiente para resolver as questões de prova. No entanto, provas de maior nível tendem a perguntar um ou outro
detalhe das técnicas e algoritmos associados a cada uma das tarefas.

Dica para a prova: Durante este capítulo, eu vou tratar um pouco dos algoritmos mais importantes e mais
comumente cobrados para cada uma das tarefas que apresentaremos. Eu vou trazer somente os principais
aspectos de cada um deles, mas mesmo assim saiba que são assuntos um pouco mais técnicos, que podem trazer
alguma dificuldade para a sua compreensão.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

24 de 75 | www.direcaoconcursos.com.br
Com isso em mente, eu recomendo que você só se preocupe em entender de forma um pouco mais detalhada
esses algoritmos se estiver compreendendo muito bem o restante do assunto, pois a chance desses detalhes
serem cobrados é bem menor do que aquela chance da banca cobrar as características mais gerais de cada tarefa!

Classificação

Figura: Diagrama representando a tarefa de classificação

A primeira tarefa que vamos estudar é a classificação. Ela é uma das mais cobradas em concursos! Nesta tarefa,
nós iremos classificar os registros de dados dados em função de algumas categorias predeterminadas.
Para dar um exemplo, imagine que um banco tem como objetivo classificar o risco associado a conceder um
empréstimo a cada cliente. Dessa forma, o sistema iria ler os registros com as informações dos clientes e os
classificar em risco baixo, médio ou alto.
Só que para aprender a fazer a classificação, o sistema de mineração de dados precisa primeiro de alguns exemplos,
para conseguir aprender as características que fazem um cliente ter risco baixo, médio ou alto. Uma vez aprendidas
essas características, o sistema irá gerar um modelo de mineração de dados, que é nada mais do que o conjunto
de regras que define como classificar os registros.
Assim, na classificação nós precisamos primeiro criar um conjunto de dados de treinamento, ou seja, um conjunto
com dados já classificados manualmente de acordo com nossos propósitos. O atributo que contém a informação
de que categoria pertence cada registro é chamado rótulo de classe.
Veja a tabela de exemplo abaixo que contém dados dos clientes e o rótulo de classe (campo Risco) já preenchido:

Cliente Renda Sexo Idade Estado Civil Risco
001 1500 M 18 Solteiro Alto
002 15000 F 45 Casado Baixo
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

25 de 75 | www.direcaoconcursos.com.br
003 9000 M 23 Solteiro Médio
004 Variável F 50 Divorciada Alto

Assim, nós alimentamos esses dados de treinamento ao sistema, que, com a ajuda de um algoritmo, percebe quais
são os padrões envolvidos na classificação e assim “aprende” a classificar novos dados.
Por exemplo, o sistema de mineração de dados poderia perceber, a partir da nossa tabela, que mulheres adultas
de alta renda geralmente estão associadas a um baixo risco, e assim passar a classificar outras clientes com o mesmo
perfil na mesma categoria (“Baixo”).
Claro que esse exemplo que demos é muito simplificado, pois qualquer pessoa seria capaz de ver esses poucos
dados e perceber esse padrão! As regras e padrões identificados com o auxílio da mineração de dados são bem
mais complexos, fazendo uso de várias técnicas estatísticas avançadas para serem gerados.
Perceba que, na classificação, a máquina está passando por um processo de aprendizado, ou seja, com base em
alguns exemplos, o computador “aprende” o modelo que irá permitir classificar o restante do conjunto de dados,
para os quais o rótulo de classe ainda não está definido. Esse é um dos tipos de aprendizado de máquina existentes!
Esse tipo de aprendizado, que faz uso de um conjunto de treinamento para que a máquina extrapole as regras
gerais é chamado de aprendizado supervisionado. Ele é dito supervisionado justamente porque o ser humano
precisa fornecer alguns exemplos para que o aprenziado possa ocorrer.

Técnicas e algoritmos
A banca CESPE já considerou que as técnicas de classificação se dividem em dois tipos:
1) Aquelas baseadas em separabilidade ou entropia, utilizando as árvores de decisão e variantes.
2) Aquelas baseadas em particionamento, utilizando o algoritmo SVM (support vector machines).

Como já falei, não é tão provável que a banca venha cobrar em detalhes cada uma dessas técnicas, então vamos
abordar algumas características principais delas:

Árvores de decisão
Há algumas técnicas diferentes que podem ser utilizadas para se criar o modelo de classificação. Segundo Elmasri
e Navathe, geralmente este modelo é representado na forma de árvores de decisão ou como conjuntos de regras.
Essas regras seriam proposições lógicas no estilo “se renda > 10000 e sexo = f, então risco = baixo”, implementadas
em linguagem de programação.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

26 de 75 | www.direcaoconcursos.com.br
Uma árvore de decisão, por sua vez, pode ser tomada como uma outra representação das regras de classificação.
Ela vai seguindo caminhos diferentes de acordo com o valor de cada uma das variáveis (os atributos do conjunto
de dados) envolvidas na classificação.
Veja um exemplo de árvore de decisão a seguir:

Figura: Exemplo de árvore de decisão,inspirada em (Elmasri & Navathe, 2011)

Cada valor de uma variável considerada no processo da classificação leva o algoritmo a um novo ramo (ou galho)
da árvore. Veja que, partindo da raiz, se o cliente é casadoo algoritmo percorre a árvore para o lado esquerdo. Caso
seja solteiro, o algoritmo vai para o lado “não” da árvore, seguindo pelo ramo do lado direito.
Esse processo vai seguindo até que se chegue ao último nível, em que ficam as folhas, ou seja, aqueles valores nas
extremidades inferiores da árvore. As folhas contêm as próprias classes que são utilizadas na classificação. Assim,
dependendo dos valores dos atributos considerados na classificação, o caminho percorrido por cada item a ser
classificado levará ao rótulo de sua classe.
Na árvore do exemplo a seguir, alguém solteiro (casado = Não), porém com saldo bancário superior a 5.000 (Saldo
da Conta >= 5 mil) e mais velho que 25 anos (Idade > 25) seria classificado como grau de risco baixo, dado o seu
perfil.

SVMs
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

27 de 75 | www.direcaoconcursos.com.br
Além das árvores de decisão que vimos acima, um tipo de classificador popular (já abordado pela banca CESPE) é
aquele que usa SVMs. Uma SVM (Support Vector Machine) é um modelo de classificação que utiliza uma noção de
particionar o espaço para classificar cada ocorrência de dados.
Em uma SVM, cada dado (um registro ou item a ser classificado) é representado por um ponto em um espaço
multidimensional. A posição desses pontos de dados vai ser dada de acordo com os valores dos seus atributos
(também chamados de variáveis).
Por exemplo, veja o gráfico a seguir. Imagine que estamos fazendo uma classificação do risco de um determinado
grupo de pessoas desenvolverem problemas cardíacos. Para simplificar, vamos utilizar somente duas variáveis: a
idade dos pacientes e a quantidade de exercícios físicos semanais.
Nas SVMs cada eixo do espaço é uma das variáveis. No exemplo, podemos dizer que x (eixo horizontal) representa
a quantidade de exercícios físicos semanais e Y (eixo vertical) representa a idade das pessoas. Cada pessoa, por sua
vez, é representada por uma bolinha no gráfico.

Note que quanto mais exercícios uma pessoa faz, mais para direita a bolinha fica. Por outro lado, quanto mais velha
(maior idade) é a pessoa, mais para cima a bolinha estará posicionada. Nesse caso, uma maior idade está
relacionada a um maior risco, enquanto uma quantidade maior de exercícios físicos termina reduzindo esse risco.
“Tá bom, professor, mas e a classificação, como é feita?” É o seguinte: o SVM em questão tem como objetivo
particionar o espaço em duas partes (por isso se diz que é um classificador binário). As bolinhas que ficarem de um
lado da partição pertencem a uma classe, as que ficarem do outro pertencem à outra classe.
Veja um exemplo de particionamento nesse nosso cenário:

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

28 de 75 | www.direcaoconcursos.com.br

Nas SVMs, essa partição como a marcada como “H1” no nosso exemplo é chamada de hiperplano. No nosso
exemplo, tudo que fica à esquerda do hiperplano H1 (bolinhas pintadas de preto) são pessoas com alto risco de
problemas cardíacos; tudo que fica à direita (bolinhas brancas) representa a classe de pessoas com baixo risco.
Um mesmo problema de mineração pode ter vários hiperplanos possíveis. Alguns dividem o espaço de uma forma
melhor do que outras. Geralmente o melhor hiperplano pode ser considerado aquele que tem as maiores margens
possíveis em relação aos valores de ambas as classes – ou seja, ele deve ser o mais distante possível dos valores
das duas classes, ficando mais ou menos “no meio”, entre as duas.

Veja nesse novo exemplo que H1 já é considerado um bom classificador, pois divide corretamente as bolinhas
pretas das bolinhas brancas. Já H2 é melhor ainda, pois além de dividir as bolinhas pretas e brancas corretamente,
ele está mais equidistante das duas classes. Por fim, veja que H3 não é um bom classificador, já que não separa
corretamente as bolinhas pretas das brancas!
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

29 de 75 | www.direcaoconcursos.com.br
Esse critério é um bom critério para selecionar o melhor classificador: escolher aquele com as maiores margens
possíveis em relação aos valores de ambas as classes. Se existir tal hiperplano, ele será chamado de hiperplano de
margens máximas.
O hiperplano sempre terá p-1 dimensões, em que p é a quantidade de dimensões do espaço. No nosso exemplo acima, só
estamos trabalhando com duas variáveis, portanto se trata de um espaço bidimensional. Nesse caso, o hiperplano só terá uma
dimensão, por isso ele é representado somente como uma linha no gráfico.

SVMs são utilizadas em vários problemas de classificação. Por ser um método binário de classificação, ou seja, é
capaz de dividir o espaço em somente duas classes, as SVMs são comumente empregadas em conjunto com várias
outras.
Para resolver problemas mais complexos, geralmente se decompõe um problema que envolve múltiplas variáveis
em vários problemas binários menores. Existem várias técnicas para se fazer isso, mas estas fogem ao escopo do
nosso curso. Já falamos demais a respeito de SVMs!
Outros algoritmos…
Há muitos outros algoritmos de classificação utilizados no campo de mineração de dados. Um deles é o KNN (K-
Nearest Neighbors), que se baseia nas distâncias entre os valores dos diferentes registros para classificá-los. Não
vamos entrar em maiores detalhes a respeito desses vários algoritmos aqui, pois a aula ficaria extensa e técnica
demais.
Análise de Agrupamentos (Clusterização)

Figura: Diagrama representando a clusterização

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

30 de 75 | www.direcaoconcursos.com.br
Coloquei essa tarefa logo depois da classificação pois elas são similares e a diferença entre as duas é
frequentemente explorada em provas de concursos!
A ideia da clusterização é agrupar as observações (os registros) em grupos em que seus membros são semelhantes
entre si e diferentes dos demais grupos. Enquanto na classificação nós já temos um conjunto predefinido de classes
em que o sistema deve dividir as observações, na clusterização esses grupos são determinados pelo próprio
algoritmo, então não há classes predefinidas.
Por exemplo, Elmasri & Navathe dão um exemplo muito interessante de aplicação em medicina: a clusterização
pode determinar grupos de pacientes que apresentam determinado efeito colateral em relação a um novo
medicamento. Também há várias aplicações no ramo dos negócios, como agrupar clientes que possuam perfis de
compras similares.
Esse processo, em que não há categorias predefinidas e não há um conjunto de treinamento é conhecido como
aprendizado não supervisionado, pois a própria tarefa irá definir quais são os grupos em que os dados serão
divididos com base na semelhança entre eles.

A clusterização também é conhecida como análise de agrupamentos, análise de clusters ou análise de
conglomerados.

Um algoritmo comumente utilizado para a clusterização é o clustering k-means. Mean significa média em inglês,
então o que este algoritmo faz é separar um número n de observações (os registros) em um número k de grupos,
em que cada observação é atribuída ao grupo cujo valor da média é a mais próximo dele.

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

31 de 75 | www.direcaoconcursos.com.br
Técnicas e algoritmos: O K-means

Figura: Representação da aplicação do k-means em um espaço tridimensional (três variáveis)

Vamos ver o k-means com um pouco mais de calma.A ideia da clusterização é separar todas os elementos do
conjunto de dados em grupos de elementos que são similares entre si.
Inicialmente, o k-means define valores aleatórios para as médias dos k grupos. Essas médias são também chamadas
de centroides. Em seguida, ele vai atribuindo cada uma das observações ao grupo cujo valor é mais próximo da
média e atualizando a média do grupo de acordo com essas atribuições.
Por exemplo, considere que estamos agrupando dados a respeito de pessoas em três grupos, com base somente
na variável idade. Depois de uma divisão inicial aleatória, observamos que as pessoas do Cluster A têm a média de
idade 31 anos, as do Cluster B têm média de 22 anos e as do Cluster C têm média de 45 anos.
Após isso, toda nova observação (as novas pessoas a serem agrupadas) irá ser atribuída ao cluster cuja média é
mais próxima do seu valor da idade. Por exemplo, se estamos inserindo no conjunto de dados uma pessoa de 18
anos, ela irá ficar no Cluster B, pois dentre os três clusters, a média mais próxima de 18 anos é 22. Já se estamos
inserindo uma pessoa de 32 anos, ela ficará no Cluster A. Se a pessoa tem 47 anos, ela será atribuída ao Cluster C e
assim sucessivamente!
Logo após atribuirmos cada nova pessoa ao seu grupo, veja que o valor da média de idade desse grupo será
alterado, pois há uma nova pessoa que deve ser levada em consideração! Nós precisamos então recalcular as
médias dos grupos para mantê-las atualizadas, o que pode levar determinadas observações a migrarem de um
grupo para o outro ao longo do tempo.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

32 de 75 | www.direcaoconcursos.com.br
Claro que estou simplificando bastante o funcionamento do algoritmo para você tentar compreender os conceitos
básicos dele, pois acho que ele não será cobrado em maiores detalhes na sua prova, mas acho que deu pra pegar a
ideia, não é?
Somente para formalizar o que vimos acima, dado um conjunto inicial aleatório de médias, o algoritmo k-means irá
alternar entre os dois passos a seguir:

1) Passo de atribuição: cada observação é atribuída ao grupo cuja média tem a menor distância euclidiana
para si. Essa distância euclidiana é um dos jeitos possíveis de se determinar a distância entre dois pontos
no espaço.
2) Passo de atualização: ajusta-se as médias dos grupos de acordo com os novos elementos atribuídos a
cada um.

O k-means particiona todo o espaço em um número k de clusters (grupos). Assim, todos os valores possíveis para os atributos
que servem de base para a clusterização vão fazer o registro ficar em algum dos k clusters existentes.

Regras de Associação

Figura: Sistema exibindo análise de regras de associação (Larose, 2005)

A análise de regras de associação tem como objetivo realizar uma análise de afinidade entre duas características
ou atributos. Um exemplo dado por Larose (2005) é o de um supermercado onde foi observado que em um
determinado dia da semana, vários clientes que compravam fraldas também compravam cervejas.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

33 de 75 | www.direcaoconcursos.com.br
A ideia aqui é tentar identificar aqueles eventos que apresentam coocorrência, ou seja, que acontecem de forma
conjunta. No exemplo, o supermercado identificou que a compra de fralda e a compra de cerveja são dois eventos
que ocorrem juntos muito frequentemente.
A identificação dessas regras de associação pode ajudar a direcionar ações de marketing, melhorar a organização
dos produtos nas prateleiras, dentre outras aplicações. No caso do supermercado, o gerente poderia posicionar as
fraldas em locais que ficam próximos às geladeiras de cerveja, para maximizar as vendas desses produtos de forma
conjunta.
Um exemplo muito comum disso é quando os sites de comércio eletrônico mostram uma lista de produtos que são
comprados em conjunto com aquele que você acabou de visualizar. Por exemplo, você coloca um celular no
carrinho e o site automaticamente já sugere para você também comprar um carregador ou uma capinha.
Formalmente, as regras de associação são representadas como fórmulas do tipo X -> Y, em que X é chamada de
ação antecedente e Y de consequente. Assim, a regra no nosso exemplo lá em cima seria do tipo fralda -> cerveja.
Esses itens X e Y, na verdade, podem representar conjuntos de itens (chamados itemsets em inglês). Assim,
poderíamos verificar também a ocorrência de regras como {celular} -> {capa, carregador}, que indica que as pessoas
que compram celular geralmente compram também uma capa e carregador.
Existe uma outra tarefa da mineração chamada análise de padrões sequenciais que se preocupa com a
ordenação entre os eventos, ou seja, a ideia é estabelecer padrões de eventos que ocorrem em uma determinada
sequência.
No caso das regras de associação, temos a ação antecedente e a ação consequente, mas na prática não existe
nenhuma preocupação com a ordem temporal em que esses eventos ocorrem. Na regra fralda -> cerveja, por
exemplo, tanto faz se o cliente colocou primeiro a fralda ou as cervejas no carrinho de compras, o que importa é
saber se esses eventos ocorrem de forma conjunta com frequência.

Para calcular se uma regra de associação é realmente válida, geralmente fazemos uso de duas propriedades
matemáticas. Os valores dessas propriedades irão permitir identificar se a regra é realmente “boa” ou não. Elas são
o suporte e a confiança.
No nosso exemplo da regra fralda -> cerveja, imagine que de 1000 clientes do supermercado, 200 compraram
fraldas e desses 200 que compraram fraldas, 50 também comprram cerveja.
➔ O suporte vai ser definido pelo número de ocorrências da nossa regra X -> Y (os clientes que compraram
tanto fraldas como cervejas) dividido pelo número de transações totais no supermercado.
Logo, o suporte é dado pelo cálculo 50/1000 = 5%.

➔ A confiança é útil para verificarmos a precisão da nossa regra. Ela é o percentual de vezes em que a regra
X -> Y foi verificada para todos os casos em que X ocorreu.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

34 de 75 | www.direcaoconcursos.com.br
No nosso exemplo, a ação antecedente X é dada por todos os clientes que compraram fralda (200), então
o valor da confiança seria igual a 50/200 = 25%.
Acho difícil que o cálculo dessas propriedades seja cobrado na sua prova, mas é interessante saber pelo menos
no que elas consistem!

Técnicas e algoritmos: O Apriori
Um algoritmo comumente usado para se identificar as regras de associação é o Apriori. Esse algoritmo funciona
identificando os itens que são frequentes em um conjunto de dados, e depois ir aumentando os tamanhos dos
conjuntos. Para dizer se uma determinada associação é “frequente” ou não, se utiliza justamente os valores de
confiança e suporte, comparados a um determinado padrão definido pelo usuário.
Por exemplo, começamos com os itens individuais, tipo {fralda}, {cerveja}, {abacaxi}... e conferimos quais deles são
frequentes no nosso banco de dados, de acordo com os valores da confiança e do suporte. Depois, pegamos todos
aqueles que foram considerados frequentes e vamos gerando conjuntos de dois itens, tipo {fralda, cerveja}, {fralda,
abacaxi}, {cerveja,abacaxi}...
Nessa etapa, conferimos novamente a confiança e o suporte para verificar se alguma dessas duplas ocorre com
frequência. Se tivermos mais duplas frequentes, vamos tentar gerar conjuntos de três itens, e assim
sucessivamente, até que não tenhamos mais nenhum conjunto que seja considerado frequente.
Dessa forma, nós vamos verificando as propriedades de suporte e confiança para obter regras de maior tamanho
possível.

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

35de 75 | www.direcaoconcursos.com.br
Detecção de Anomalias

Figura: Detecção visual de outliers através de um histograma (Larose, 2005)

Você deve se lembrar que falamos de anomalias (outliers) na seção dedicada ao pré-processamento de dados,
certo? Os outliers ou anomalias são aqueles valores para determinado atributo dos dados que são atípicos, muito
diferentes dos demais.
A identificação de outliers pode ser uma tarefa de pré-processamento de dados. Nesse caso, a ideia central é
identificar anomalias que sejam realmente erros de medição ou de preenchimento nos valores dos dados.
Por exemplo, se você tem um grande conjunto de dados que registra as temperaturas médias nas cidades brasileiras
ao longo das décadas e observa que, em determinado dia, a temperatura registrada em Curitiba foi de 150º,
provavelmente há algum problema nesses dados! Nesse caso, essa temperatura anômala pode ser identificada
como um erro e descartada do conjunto de dados, para que não atrapalhe os resultados da mineração.

Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

36 de 75 | www.direcaoconcursos.com.br
Só que há casos em que as observações são atípicas, mas são corretas! Por exemplo, considere que um cliente de
um banco usa o seu cartão de crédito sempre em farmácias e supermercados na sua cidade de residência, a cidade
do Crato, no Ceará. Só que de repente aparece um registro de uma compra de um carro novo em uma
concessionária na Rússia. Isso claramente está fora do padrão de compras desse cliente, não é?
Nesse caso, o banco pode constatar que sim, a transação realmente foi realizada, então nesse caso não se trata de
um erro de dados. Só que essa observação continua sendo um outlier, um valor atípico nas compras desse cliente,
o que levanta a suspeita de fraude.
Assim, a identificação e análise de outliers é também uma tarefa da mineração de dados com várias aplicações,
dentre as quais se destaca essa detecção de fraudes. Também há várias outras aplicações, como aquelas na área
de saúde. Por exemplo, no monitoramento cardíaco de um paciente, uma atividade anômala dos batimentos pode
indicar alguma condição grave ou infarto pronto para acontecer.
Como você pode imaginar, as aplicações da detecção de outliers são inúmeras, então acredito que podemos parar
por aqui com os exemplos mais comuns!
O que nos interessa mesmo é saber como esse processo é realizado.

Técnicas e algoritmos
As tarefas de mineração de dados da classificação e da clusterização costumam estar relacionadas a tipos
específicos de aprendizado. A clusterização está relacionada a um aprendizado não supervisionado, pois não há
conjunto de treinamento nem grupos predefinidos, enquanto a classificação está relacionado a um processo de
aprendizado supervisionado.
Conforme discutido em (Hodge & Austin, 2004), a identificação de outliers pode ser realizada com qualquer uma
dessas técnicas de aprendizado. Esse inclusive artigo cita três tipos de aprendizado de máquina que podem ser
utilizados para realizar essa tarefa:

➔ Tipo 1: Essa abordagem é análoga à clusterização não supervisionada. O sistema agrupa os dados sem
conhecimento prévio das categorias e indica os valores que não aparentam se enquadrar em nenhuma
delas como sendo potenciais outliers.
➔ Tipo 2: Abordagem análoga à classificação supervisionada. O usuário classifica cada tipo de dado no
conjunto de treinamento como sendo normal/anômalo e o sistema então aprende a classificar as próximas
entradas.
➔ Tipo 3: Essa última abordagem pode ser considerada semi-supervisionada. Somente dados considerados
normais são classificados previamente. O sistema então aprende a identificar os outliers como sendo
aqueles que não se encaixam nesse padrão.

Veja que essa identificação é um processo mais flexível. Assim, algoritmos de classificação, como o k-nearest
neighbor ou SVMs, ou algoritmos de clusterização, como o k-means, podem ser utilizados para realizar essa tarefa.
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

37 de 75 | www.direcaoconcursos.com.br
É possível também identificar outliers com o auxílio de ferramentas visuais, como utilizando gráficos (veja a imagem
do histograma mais acima), bem como através da utilização de modelos estatísticos mais complexos, como
modelos paramétricos, dentre outras várias abordagens!

Modelagem Preditiva

Acredito que o sonho de todo gestor é conseguir prever o futuro, de modo a antecipar tendências do seu ramo de
atuação, conseguindo assim uma importante vantagem competitiva, ou antever problemas que possam
comprometer a consecução dos objetivos da organização, seja ela do setor público ou privado.
Nesse sentido, a modelagem preditiva é um conjunto de técnicas de mineração de dados cujo objetivo é de utilizar
de dados históricos e atuais para realizar previsões a respeito de eventos futuros.
Algumas aplicações interessantes desse tipo de tarefa dizem respeito à previsão de hábitos de consumidores, como
por exemplo a demanda por um determinado produto ao longo do tempo e a probabilidade de um consumidor sair
de um serviço de TV a cabo ou de telefonia para contratar o de outra empresa concorrente.
A modelagem preditiva pode ser usada não somente com fins comerciais, mas também para prever eventos como
a ocorrência de crimes em determinadas áreas de uma cidade ou uma demanda maior por leitos em hospitais em
determinadas épocas do ano, auxiliando gestores públicos a fornecerem melhores serviços aos cidadãos.
Steven Finlay (2014) indica que a análise preditiva pode ser realizada para se descobrir valores de eventos
presentes ou passados (como realizar a predição de quais suspeitos que possam ter cometido algum crime).
Dessa maneira, podemos encarar a modelagem preditiva como sendo um conjunto de técnicas que utiliza dados
históricos para prever os valores relativos a um evento desconhecido, seja esse evento futuro ou não!
A maioria das questões de prova irá considerar que a modelagem preditiva está voltada para o futuro mesmo,
mas é importante que você saiba desse detalhe de que o que está sendo previsto não é necessariamente algo
que ainda não ocorreu.

Dados Históricos Algoritmo Modelo
Preditivo
Prof. Arthur Mendonça
Aula 03

Análise de Dados e Informações para TCE RJ

38 de 75 | www.direcaoconcursos.com.br

Técnicas e algoritmos
A regressão (ou predição) é a tarefa utilizada para prever o valor de um elemento desconhecido, com base em
dados já conhecidos. Há várias formas de regressão, sendo a mais simples e conhecida delas a regressão linear. Se
você já estudou estatística, você deverá estar familiarizado com essa técnica.
De forma resumida, as tarefas preditivas visam prever o valor de uma variável com base nos valores de outras
variáveis. Essas variáveis ou atributos a serem preditos (previstos) são conhecidos como alvo ou variáveis
dependentes. Enquanto isso, os atributos conhecidos que são utilizados para fazer a predição são chamados de
variáveis preditoras ou independentes.
Segundo Elmasri & Navathe, a regressão é considerada um caso especial da classificação. Veja a explicação deles a
seguir:
A regressão é uma aplicação especial da regra de classificação. Se uma regra de classificação é
considerada uma função sobre variáveis que as mapeia em uma classe destino, a regra é chamada regra
de regressão. Uma aplicação de regressão ocorre quando, em vez de mapear uma tupla de dados de
uma relação para uma classe específica, o valor da variável é previsto baseado naquela tupla (Elmasri
& Navathe, 2011).
Em linhas gerais, o que isso quer dizer é que a regressão é uma aplicação das regras de classificação que, no lugar
de mapear uma tupla (registro) a alguma de várias classes predefinidas, como é o caso da classificação
convencional,