Buscar

Mineração de Dados - Ebook 2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

E-book 2
Luciano Rossi
MINERAÇÃO DE 
DADOS
Neste E-Book:
INTRODUÇÃO ����������������������������������������������������������� 3
PROCESSO DE MINERAÇÃO DE DADOS ���������4
PRÉ-PROCESSAMENTO ���������������������������������������� 9
ANÁLISE DESCRITIVA �������������������������������������������13
ANÁLISE DE GRUPOS �������������������������������������������16
CLASSIFICAÇÃO DE DADOS ������������������������������20
ESTIMAÇÃO DE DADOS �������������������������������������� 25
REGRAS ASSOCIADAS �����������������������������������������28
DETECÇÃO DE ANOMALIAS ������������������������������ 32
CONSIDERAÇÕES FINAIS �����������������������������������36
REFERÊNCIAS BIBLIOGRÁFICAS & 
CONSULTADAS �������������������������������������������������������38
2
INTRODUÇÃO
Neste e-book o foco é a análise das etapas que 
compõem o processo de mineração de dados. Aqui 
teremos a oportunidade de compreender quais são 
as etapas desse processo, e o que é feito em cada 
uma delas.
Outro objetivo deste e-book é o estudo detalhado de 
algumas técnicas que são utilizadas no processo 
de mineração de dados. Vamos estudar alguns con-
ceitos de análise de dados e técnicas voltadas para 
sua classificação e extração de regras. Além disso, 
vamos definir o conceito de anomalia nos dados e 
como podemos realizar a sua detecção.
Iniciaremos nossos estudos com a definição do pro-
cesso de mineração de dados e com a análise dos 
objetivos de cada uma das etapas. Vamos nos apro-
fundar no pré-processamento dos dados, focando 
na sua preparação, de modo que possam ser mais 
facilmente explorados nas etapas do processo.
Os próximos passos serão dedicados às análises, 
descritiva e de grupo, e aos tópicos de classificação 
e estimação de dados. Estudaremos a extração de 
regras de associação e a detecção de anomalias em 
conjuntos de dados.
3
PROCESSO DE 
MINERAÇÃO DE DADOS
Vamos iniciar nossos estudos com uma definição 
mais pragmática e sucinta de mineração de dados. 
Silberschatz et al. (2016) definem o termo mineração 
de dados como um processo que analisa grandes 
bancos de dados, de forma semiautomática, com o 
objetivo de encontrar padrões utilizáveis, que podem 
ser desdobrados como regras e aplicados na reali-
zação de previsões.
Uma regra apresenta um tipo de associação entre os 
dados que é válida para o contexto específico ao qual 
os dados se referem. Um exemplo de regra que poderia 
ser extraída de um conjunto de dados é: “homens de 
meia idade com renda mensal maior que R$ 20.000,00 
são mais propensos a comprar casas no litoral”.
As previsões podem ser feitas a partir da mineração 
de dados, com o aprendizado de uma função que 
relaciona diferentes variáveis, de modo que se possa 
predizer um determinado resultado, conhecendo os 
valores das variáveis, ou parte deles, de um novo re-
gistro. As predições estão associadas a um grau de 
confiança ou probabilidade de ocorrência. Suponha 
um modelo que define se um empréstimo deve ou 
não ser concedido a um cliente bancário. Nesse caso, 
o modelo (função) indicará qual a probabilidade de 
o cliente honrar com a dívida, com base em dados 
históricos de outros clientes com perfis similares.
4
A primeira etapa prevista no processo de mineração 
de dados é a identificação e a formalização do pro-
blema que se pretende tratar. Essa etapa é, possivel-
mente, a mais difícil de todo o processo.
A identificação e formalização do problema envolve 
estabelecer-se quais são os objetivos principais do 
processo e como ele será avaliado. A definição dos 
objetivos é importante para a identificação dos da-
dos e de seus respectivos atributos relevantes para 
o processo. Nesse sentido, a estratégia de avaliação 
de desempenho do processo descreve como avaliar 
se os objetivos foram atingidos e, também, o grau 
de atendimento aos objetivos.
Outro ponto a ser definido, na fase de identificação e 
formalização do problema, é a importância de se ter 
um modelo que seja de fácil interpretação em detri-
mento ao desempenho dele. Em outras palavras, o que 
é mais importante: ter um modelo fácil de interpretar 
que não apresenta um bom desempenho, ou um mo-
delo complexo que tem um desempenho ótimo?
Finalmente, nessa etapa inicial é realizada a análise 
dos impactos que um erro no processo pode cau-
sar. A avaliação do impacto de erros deve ser feita 
considerando-se os objetivos do processo. Podemos 
ter, em determinados contextos, uma tolerância maior 
ao erro, possibilitando, assim, alguma flexibilidade 
na formalização do problema.
A segunda etapa do processo de mineração de dados 
é o pré-processamento. Nessa etapa é realizada a 
integração dos dados, que podem ser provenientes 
5
de múltiplas fontes e apresentar diferentes formatos. 
A integração dos dados consiste em sua transfor-
mação a partir da normalização ou de adequações 
possíveis de serem realizadas. Além disso, verifica-se 
a necessidade de proceder com uma limpeza nos 
dados, com o objetivo de reduzir o número de dados 
inválidos. O pré-processamento dos dados conta, 
ainda, com a seleção dos dados mais importantes 
e com a redução de seu respectivo volume. Esses 
processos são formas de se simplificar os dados, 
facilitando, assim, a descoberta de conhecimento.
A extração de padrões é a terceira e mais impor-
tante etapa do processo de mineração de dados. É 
nessa etapa que tudo acontece. Aqui são utilizados 
diferentes algoritmos de aprendizado de máquina 
e técnicas pertinentes à Estatística, dentre outras 
ferramentas que se pode considerar.
As tarefas que são realizadas nessa etapa podem 
ser classificadas em duas categorias principais. A 
primeira reúne as tarefas preditivas, como classifi-
cação e regressão, e, como o próprio nome sugere, 
são aplicadas com o objetivo de prever resultados a 
partir da exploração dos dados. A segunda categoria 
reúne as tarefas descritivas, como o agrupamento, a 
sumarização e a associação. Essa última categoria 
de tarefas é útil para a caracterização dos dados e 
para a identificação de regras e padrões.
Veja que não existe uma solução única que seja ade-
quada a todos os problemas. A escolha da estratégia 
6
sempre deve considerar as características do proble-
ma e os objetivos pretendidos.
A última etapa é o pós-processamento. Nessa eta-
pa, deve-se avaliar o que o modelo encontrou que é 
interessante e útil, de acordo com o objetivo que se 
busca. O pós-processamento é o momento, também, 
de encontrar-se a melhor forma de apresentação do 
modelo, de modo que seja possível compreender os 
achados e a estratégia empregada, da forma mais 
clara e simples o possível.
Outra visão possível para o modelo de processo de 
mineração de dados é descrita pelo Cross Industry 
Standard Process for Data Mining (CRISP-DM), que 
significa Processo Padrão Inter Indústrias para a 
Mineração de Dados, em uma tradução livre. Esse 
modelo foi proposto, inicialmente, em 2006 e apre-
senta uma coerência com as etapas anteriormente 
descritas, considerando outra abordagem.
O CRISP-DM prevê, como primeira etapa do processo, 
o entendimento do negócio no qual o problema, que 
se pretende resolver, está inserido. Além da compre-
ensão do contexto, nessa fase é elaborado um plano 
estratégico para que os objetivos pretendidos sejam 
atendidos.
Na sequência, o foco é nos dados que serão conside-
rados pelo processo. Nessa segunda fase, busca-se 
um entendimento a respeito dos dados, identificando 
problemas e oportunidades que possam impactar no 
resultado da análise.
7
A terceira etapa é dedicada à preparação dos dados, 
em que os dados são tratados com o objetivo de se 
obter um conjunto final de dados que seja adequado 
à estratégia e aos objetivos do processo. Essa etapa 
está intimamente ligada à etapa seguinte, que realiza 
a aplicação de diferentes técnicas de modelagem. A 
etapa de modelagem preocupa-se com a otimização 
dos resultados, para que, dessa forma, seja possí-
vel retornar à etapa de preparação dos dados, caso 
identifique-se que há espaçopara a otimização dos 
resultados.
As duas etapas finais, previstas pelo CRISP-DM, con-
sideram a avaliação do modelo obtido de acordo com 
os objetivos definidos e, caso haja uma adequação, 
a etapa final cuida do processo de implantação do 
modelo. Na etapa final cuida-se para que a usabili-
dade da solução pelo cliente seja tão simples quanto 
possível.
A principal vantagem que se pode destacar no CRISP-
DM é a independência, tanto do contexto, visto que 
o processo pode ser aplicado em diferentes áreas, 
quanto de ferramentas, pois não há qualquer reco-
mendação específica sobre esse ponto. Além disso, 
as etapas do CRISP-DM aproximam-se daquelas des-
critas pelo Knowledge Discovery in Databases (KDD).
8
PRÉ-PROCESSAMENTO
A etapa de pré-processamento é responsável por 
lidar com a variedade das fontes de dados, com a 
heterogeneidade dos tipos de dados e com os vieses. 
O objetivo aqui é identificar-se o que é importante 
para o objetivo da análise e o que não vai contribuir 
para o processo. Nesse sentido, busca-se uma uni-
formização dos dados, de modo que eles possam 
ser mais facilmente explorados e que os atributos 
sejam aderentes ao contexto da análise.
As bases de dados podem variar em função da ori-
gem e do tipo. Suponha que você pretenda identifi-
car quais os impactos que o clima exerce sobre os 
resultados de vendas de uma rede de lojas, as quais 
são distribuídas por todo o território nacional. Nesse 
exemplo, você poderia ter de contar com bases que 
disponibilizem dados meteorológicos, que possuam 
informações sobre as temperaturas, umidade, volu-
me de chuvas, dentre outros atributos possíveis. Por 
outro lado, saber sobre o número de habitantes, a 
faixa etária, o gênero e o estado civil de pessoas de 
diferentes regiões podem ser atributos importantes 
para sua análise e você precisaria contar com uma 
base de dados geopolíticos.
Veja que, na descrição anterior, há bases de dados 
que concentram dados com diferentes caracterís-
ticas e, além disso, as bases podem ser de tipos 
diferentes, por exemplo, compostas por tabelas atri-
buto-valor, ou ainda modeladas na forma de grafos. 
9
Assim, teríamos que lidar com essa heterogeneidade 
e buscar obter um conjunto de dados mais homo-
gêneo possível.
Outro desafio a ser enfrentado no pré-processamento 
é referente à qualidade dos dados. Há problemas em 
qualquer base de dados, especialmente naquelas de 
grande volume. Os problemas mais comuns de se-
rem observados nas bases de dados são a ausência 
de valores, para determinados atributos, problemas 
derivados de erro humano e, em determinados con-
textos, sensores defeituosos.
A observância de uma semântica efetiva é impor-
tante para a avaliação dos dados. Quando temos 
um problema bem definido, é importante definirmos, 
também, a aplicação, o objeto de análise e os res-
pectivos atributos. Por exemplo, se nosso problema 
pertence ao contexto financeiro, poderíamos ter as 
seguintes definições:
Aplicação Objeto Atributos
Detecção de fraudes Transação (cartão de crédito)
Dia da semana, 
hora, valor, tipo de 
estabelecimento.
Estimação de renda Indivíduo Cargo, empresa, currí-culo, conectividade.
Análise de crédito Indivíduo
Renda, valor em bens 
próprios, valor em bens 
de familiares.
Tabela 1: Exemplos de aplicação, objeto e atributos para di-
ferentes objetivos em mineração de dados. Fonte: Elaboração 
Própria.
A aplicação descreve o objetivo pretendido com a 
análise, o objeto é a unidade com que iremos realizar 
10
as predições ou descrições (podem ser muitos) e 
os atributos são as propriedades do objeto que será 
utilizado na análise.
Formalizada a semântica dos elementos envolvidos 
na análise, podemos mais facilmente descrever os 
problemas relacionados aos dados e discutir possí-
veis soluções. Considerando-se o problema de valo-
res ausentes, veja que esses são casos em que não 
há valor descrito para um ou mais atributos. Assim, 
podemos classificar os valores ausentes em três 
categorias:
 ● Missing Completely at Random (MCAR): a proba-
bilidade de um valor ausente ocorrer não depende 
de nenhum valor da base de dados;
 ● Missing at Random (MAR): a probabilidade de um 
valor ausente ocorrer depende dos valores conheci-
dos na base de dados;
 ● Missing Not at Random (MNAR): a probabilidade 
de um valor ausente ocorrer depende do próprio valor 
ausente.
Suponha que um questionário será aplicado a um 
grupo de pessoas. Após o preenchimento, observou-
-se que, devido a um problema no servidor, algumas 
entradas eram removidas aleatoriamente. Esse caso 
se enquadra como MCAR.
Em outro cenário, o questionário tem uma pergunta 
referente ao grau de depressão dos respondentes. 
Os homens, normalmente, não se sentem à vonta-
de para falar de depressão e, assim, há uma maior 
11
probabilidade de pessoas do gênero masculino não 
responderem essa questão. Nesse caso, podemos 
classificar a ausência de valor como MAR.
Considere que há, no questionário, uma pergunta 
referente à renda familiar. Respondentes com renda 
familiar maior, às vezes, preferem não responder 
esse tipo de pergunta. Aqui o caso é classificado 
como MNAR.
Independentemente do caso, há diferentes formas de 
se realizar o tratamento dos valores ausentes. Pode-
se, por exemplo, simplesmente retirar os objetos com 
valores ausentes. Ou, ainda, ignorar esses valores 
na fase de análise. Uma Alternativa seria estimar os 
valores ausentes com base nos valores de outros 
atributos que apresentem correlação.
12
ANÁLISE DESCRITIVA
O primeiro passo, de qualquer análise de dados, é a 
exploração do conjunto de dados, identificando suas 
principais características e tendências. Essa exploração 
inicial busca realizar a descrição de algumas caracterís-
ticas importantes do conjunto de dados. Comumente, 
utilizam-se as medidas de posição e de dispersão como 
elementos caracterizadores dos dados.
As medidas de posição buscam representar a ten-
dência de concentração dos dados. As principais 
medidas de posição são a média, a mediana, a moda, 
os percentis e os quartis. Por outro lado, as medi-
das de dispersão são aquelas que medem o grau 
de variação dos dados. As principais medidas de 
dispersão são a amplitude, a variância e o desvio 
padrão, dentre outras.
Importante notarmos que a análise descritiva não 
deve ser considerada isoladamente. Apesar de a utili-
zação das medidas de posição e de dispersão serem 
representativas e importantes para que se possa 
descrever algumas características de um conjunto 
de dados, elas devem ser consideradas com cuidado.
Um experimento interessante, que ilustra como a es-
tatística descritiva pode não descrever, isoladamente, 
as características de um conjunto de dados, é o cha-
mado Quarteto de Anscombe. Trata-se de quatro con-
juntos de dados que foram construídos por Francis 
Anscombe, em 1973, e que ilustram a importância 
13
da visualização dos dados antes de qualquer tipo de 
análise. As estatísticas descritivas dos conjuntos de 
Anscombe são, praticamente, idênticas. No entanto, 
a observação da distribuição desses dados no plano 
cartesiano mostra uma distinção importante.
As quatro bases de dados (B1, B2, B3, B4) do 
Quarteto de Anscombe são simples e contam com 
11 objetos (pontos de dados) e dois atributos (X e 
Y). A tabela abaixo apresenta os resultados da média 
e da variância para esses conjuntos.
B1 B2 B3 B4
Média (X) 9,000 9,000 9,000 9,000
Média (Y) 7,501 7,501 7,500 7,501
Variância (X) 11,000 11,000 11,000 11,000
Variância (Y) 4,127 4,128 4,123 4,123
Tabela 2: Medidas descritivas para os dados denominados de 
Quarteto de Anscombe. Fonte: adaptado de Anscombe (1973).
As medidas descritivas das bases de dados de 
Anscombe são muito similares e uma análise des-
cuidada poderia levar a conclusões imprecisas. Além 
disso, a reta de regressão linear, para todas as bases, 
é , corroborando a similaridade 
dos conjuntos de dados.
O objetivo de Anscombe, ao propor os quatro conjun-
tos de dados, era ilustrar a importânciada visualização 
dos dados de forma gráfica como parte da análise 
descritiva para conjuntos de dados e, também, mostrar 
que a utilização dos elementos básicos da análise 
descritiva é insuficiente para representar, com pre-
14
cisão, o comportamento de dados do mundo real. A 
Figura 1 apresenta os dados pertinentes ao Quarteto 
de Anscombe, distribuídos no plano cartesiano. Veja 
que as distribuições são muito distintas entre si, con-
trariando o que as medidas de análise descritiva bá-
sica demonstraram com seus resultados.
Figura 1: Distribuição dos dados do Quarteto de Anscombe. 
Fonte: Elaboração Própria.
A observação dos dados na Figura 1 nos mostra 
quão distintos são os conjuntos de dados. Veja que 
o objetivo aqui não é atribuir às medidas de posi-
ção e de dispersão qualquer tipo de crítica quanto à 
importância de sua utilização, mas sim considerar 
outras formas adicionais de análise descritiva, como 
a visualização dos dados, de modo a enriquecer a 
análise descritiva.
15
ANÁLISE DE GRUPOS
Uma tarefa recorrente na análise de dados é a iden-
tificação de grupos que possam agregar os pontos 
de dados que apresentem características similares. 
A análise de grupos ou agrupamento de dados é um 
conjunto de métodos de análise de dados multiva-
riados que tem por objetivo organizar os dados em 
grupos homogêneos, de modo que se possa explorá-
-los de maneira mais simplificada.
Comumente, cada ponto de dado é representado 
por diferentes características, as quais podem ser 
representadas por um vetor de características. Com 
base nos valores do vetor de característica, e pelo 
uso de alguma medida de distância, os dados são 
agrupados de modo que cada grupo compartilhe 
características comuns.
O agrupamento de dados é utilizado quando não temos 
um rótulo que possibilite sua classificação. Suponha 
um conjunto de dados que descreva uma série de atri-
butos (características) de animais, sem que haja a iden-
tificação de qual animal está sendo referenciado. Nesse 
caso dizemos que os registros não são rotulados e a 
tarefa de agrupamento será importante para identificar 
e agrupar animais que são parecidos, ou que tenham 
características similares entre si.
Uma forma simples de visualizar os dados agrupados 
é por meio da representação gráfica desses dados 
em um diagrama, considerando, como exemplo, so-
16
mente duas dimensões. A Figura 2 apresenta um 
exemplo de dados agrupados de acordo com os va-
lores de apenas dois atributos. O agrupamento de 
dados pode ser mais complexo quando considera-
mos dados com mais dimensões.
Figura 2: Exemplo de agrupamento de dados. Fonte: 
Elaboração Própria.
O processo de agrupamento de dados pode ser des-
crito por cinco etapas. Na primeira etapa é feita a pre-
paração da base de dados, na qual são consideradas 
tarefas como a limpeza, integração, redução, transfor-
mação e discretização dos dados. Essa etapa inicial 
segue a descrição realizada para o processo KDD.
A etapa seguinte consiste da definição da medida 
de similaridade que será considerada. Existem di-
ferentes medidas de similaridade que podem ser 
consideradas, como os coeficientes de Matching e 
de Jaccard, ou ainda as distâncias Euclidiana e de 
Manhattan.
17
A próxima etapa do processo de agrupamento é a 
seleção e a execução do método. Existem diferentes 
algoritmos que podem ser utilizados com esse objeti-
vo, assim, a escolha do algoritmo mais adequado vai 
depender da aplicação que se pretende e do tipo dos 
dados que serão considerados. Podemos classificar 
os métodos de agrupamento como hierárquicos ou 
particionais.
Os métodos hierárquicos consideram uma decom-
posição dos dados em níveis de hierarquia. Esses 
métodos podem ser aglomerativos, divisivos ou 
particionais.
Os métodos aglomerativos consideram os dados 
individualmente e, em passos incrementais, os da-
dos vão sendo agrupados de acordo com as suas 
características, de modo que, ao final do processo, 
reste apenas um único grande grupo.
Os métodos divisivos funcionam de forma inversa 
ao método anterior. Nesse caso, consideram-se os 
dados como um único grupo que vai sendo dividido, 
sucessivamente, em grupos menores, até que, por 
exemplo, haja apenas um elemento por grupo.
Os métodos particionais objetivam dividir o conjun-
to original em partições menores, de modo que os 
elementos em cada partição sejam similares entre 
si. Há, ainda, a possibilidade de se realocar, de forma 
iterativa, os objetos entre os grupos, de modo que o 
particionamento seja aprimorado.
18
Há outras características que podem ser utilizadas 
para a classificação dos algoritmos de agrupamento. 
Existem os algoritmos monotéticos e politéticos que 
descrevem o uso sequencial, ou não, dos atributos 
no processo de agrupamento. Os agrupamentos hard 
e fuzzy descrevem o grau de independência entre os 
grupos, podendo, ou não, haver interseções entre as 
partições. Finalmente, os métodos determinísticos e 
estocásticos versam a respeito da reprodutibilidade 
da configuração das partições, a depender dos pa-
râmetros considerados.
A penúltima etapa do processo de agrupamento 
é a representação dos grupos obtidos. Podemos 
considerar diferentes formas de representar esses 
grupos, como os protótipos, as estruturas em forma 
de grafos, as árvores e a rotulação. A escolha da 
melhor forma de representação depende, também, 
das características do método escolhido.
Finalmente, a última etapa é a avaliação do agrupa-
mento. A avaliação vai depender do contexto e dos 
objetivos da análise. Podemos realizar a análise da 
qualidade do agrupamento obtido por meio do uso 
de medidas de avaliação de desempenho, que são 
classificadas como internas ou externas, que ava-
liam a similaridade do grupo e a adequação a um 
padrão ideal, respectivamente. Quanto aos critérios 
de avaliação, podemos considerar a compactação ou 
a separação, que se referem à proximidade entre os 
objetos nas partições e distância entre as partições 
obtidas, respectivamente.
19
CLASSIFICAÇÃO DE 
DADOS
Existem muitos conjuntos de dados que descrevem 
uma associação entre características e a respec-
tiva classe. Por exemplo, podemos ter um conjun-
to de prontuários de pacientes com o registro dos 
sintomas e do respectivo diagnóstico. Esse tipo de 
exemplo pode ser ampliado para diversos outros 
contextos. Suponha que, com base em um conjunto 
de dados de diagnósticos médicos, queremos saber 
se um novo paciente é ou não cardiopata, de acordo 
com os seus sintomas.
A tarefa descrita anteriormente é uma tarefa de pre-
dição, na qual queremos prever um rótulo de acordo 
com um conjunto de características. Quando temos 
uma predição discreta, na qual estamos interessados 
em uma ou mais classes, dizemos que a tarefa é de 
classificação. Por outro lado, quando a predição é 
contínua, onde estamos interessados em predizer 
um determinado valor, dizemos que a predição é de-
nominada estimação.
O processo de predição apresenta duas etapas princi-
pais. Na primeira etapa, denominada de treinamento, 
utilizamos uma parte dos dados de um conjunto (a 
maior parte deles) para gerar um modelo preditor que 
seja capaz de inferir uma classe ou um valor a partir 
das características dos dados. A segunda etapa, de-
nominada teste, consiste de aplicar o modelo obtido 
20
à parte não utilizada dos dados. O objetivo aqui é ve-
rificar a capacidade de generalização do modelo, no 
sentido de predizer a classe ou o valor de dados que 
não foram utilizados para a obtenção do preditor.
O processo de predição, de classes ou valores, con-
siste de quatro etapas principais. A primeira etapa 
é a etapa de pré-processamento, que consiste da 
preparação da base de dados. A segunda etapa é a 
separação do conjunto de dados entre conjunto de 
treinamento e conjunto de teste. Como mencionado 
anteriormente, a maior parte dos dados será utilizada 
como conjunto de treinamento e a parte restante será 
o conjunto de teste. Para os casos em que todos 
os dados possuem rótulo, utiliza-sealgum método 
de seleção dos dados para treinamento do modelo. 
Caso haja parte dos dados não rotulados, os dados 
que possuem rótulo devem ser utilizados para o trei-
namento e a outra parte será rotulada pelo modelo.
Veja que, para os casos anteriores, utilizar um con-
junto de dados rotulados como conjunto de teste nos 
permite estimar a eficiência do modelo por meio da 
comparação entre os rótulos que são resultado da 
predição e os rótulos originais. Por outro lado, o uso 
de um conjunto não rotulado como conjunto de teste 
não permite que a acurácia do modelo seja verificada, 
havendo, assim, a necessidade de se utilizar outro 
método para a verificação do modelo.
A etapa de treinamento e teste consiste em realizar-
-se o ajuste dos parâmetros do modelo, que vão va-
21
riar de acordo com o tipo de técnica escolhida, de 
modo a melhorar a sua capacidade preditiva.
Finalmente, a avaliação da saída é a última etapa. 
O processo de predição é baseado em estimativas 
e, consequentemente, pode apresentar algum grau 
de imprecisão. O desempenho de um classificador 
depende de sua flexibilidade e da qualidade do trei-
namento. Nesse sentido, a utilização de medidas de 
avaliação de desempenho, em geral, tem por objetivo 
medir a taxa de acerto dos classificadores.
Os problemas de classificação binária, ou seja, aque-
les que fazem a inferência entre duas classes, podem 
ser avaliados por meio de medidas específicas que 
consideram a relação entre a classe alvo, que des-
creve a classe esperada e é denominada de classe 
positiva, e a classe negativa. Nesse sentido, podemos 
ter como resultado: verdadeiro positivo, verdadeiro 
negativo, falso positivo e falso negativo.
No verdadeiro positivo (VP), um objeto da classe 
positiva é classificado como pertencente à classe 
positiva. Por outro lado, para o verdadeiro negativo 
(VN), um objeto da classe negativa é classificado 
como tal. Já o falso positivo (FP) ocorre quando 
um objeto da classe negativa é classificado como 
pertencente à classe positiva. Finalmente, um falso 
negativo (FN) ocorre quando um objeto da classe 
positiva é classificado como negativo. Essa forma 
de avaliação de desempenho pode ser aplicada facil-
mente com a utilização de uma matriz de confusão.
22
Os valores contabilizados para cada caso, descritos 
anteriormente, são tabulados nas respectivas células 
na matriz de confusão. Nesse sentido, é possível 
extrair duas importantes taxas, baseadas nos valo-
res contabilizados, são elas a taxa de verdadeiros 
positivos (TVP) e a taxa de falsos positivos (TFP).
Classe predita
Positiva Negativa
Classe original
Positiva VP FN
Negativa FP VN
Tabela 3: Matriz de confusão para um problema de clas-
sificação binária. Fonte: adaptado de Castro et al. (2016).
A taxa de verdadeiros positivos descreve a porcen-
tagem de objetos positivos que foram classificados 
como tal, ou seja, o classificador classificou corre-
tamente os objetos contabilizados nesse caso. O 
cálculo da TVP é intuitivo e segue de acordo com a 
seguinte fórmula:
A taxa de falsos positivos corresponde à porcenta-
gem de objetos negativos que foram classificados 
como negativos, nesse caso o classificador falhou 
em atribuir a classe correta aos objetos analisados. 
O cálculo da TFP é feito da seguinte forma:
23
Outra taxa importante para a verificação da acurá-
cia dos classificadores binários é a taxa global de 
sucesso, ou simplesmente acurácia (ACC). A ACC 
é o quociente da soma dos verdadeiros positivos e 
verdadeiros negativos pela soma dos verdadeiros 
positivos, falsos positivos, verdadeiros negativos 
e falsos negativos. Em outras palavras, a ACC é a 
quantidade de acertos dividida pelo total de possibili-
dades e pode ser representada da seguinte maneira:
De modo oposto ao que representa a ACC, a taxa de 
erro de um classificador descreve o percentual de 
classificações erradas que foram realizadas por ele, 
nesse sentido, o cálculo da taxa de erro (E) é feita 
da seguinte forma:
24
ESTIMAÇÃO DE DADOS
A tarefa de classificação é um caso particular da 
tarefa de estimação de dados. Para a primeira tare-
fa, buscamos identificar uma saída discretizada, ou 
seja, verificar se um determinado objeto pertence 
ou não a uma classe específica. No caso da tarefa 
de estimação, o objetivo é identificar um valor con-
tínuo que possa ser predito a partir dos valores de 
determinados atributos. Assim, podemos dizer que 
há grande similaridade entre as tarefas de classifi-
cação e estimação, e grande parte dos conceitos 
descritos para a classificação valem, também, para 
a estimação.
As etapas envolvidas no processo de estimação se-
guem de acordo com o que foi descrito para a clas-
sificação. Ou seja, a preparação dos dados, a sepa-
ração em grupos de treinamento e teste, a definição 
de critérios de parada e a execução dos processos de 
treinamento e teste são realizadas de forma similar 
ao que foi descrito para a classificação.
A principal diferença entre as tarefas de classificação 
e estimação é a avaliação da saída. Enquanto que na 
classificação buscamos contabilizar os acertos e as 
falhas, de modo a calcular uma taxa que represente 
o quão bom é o classificador, na estimação busca-
-se identificar a distância existente entre o resultado 
obtido e um resultado padrão conhecido.
25
Dentre os diferentes algoritmos de estimação, a re-
gressão linear é a obtenção de uma função a partir 
de pares de entrada e saída. Os modelos de regres-
são linear objetivam representar a relação entre vari-
áveis por meio de uma função que define uma reta. A 
reta representa a melhor relação observada entre as 
variáveis. Um exemplo simples é, dado um conjunto 
de pares de valores de peso e altura de pessoas, 
estimar uma equação que defina uma reta que, por 
sua vez, sumarize a relação entre os valores conhe-
cidos de peso e altura. Assim, é possível predizer, por 
exemplo, a altura de uma pessoa com base em seu 
respectivo peso, utilizando a função que foi estimada.
A regressão polinomial segue a mesma lógica da re-
gressão linear. A diferença aqui está no fato que para 
a regressão linear a relação entre as variáveis pode 
ser representada por uma equação de grau igual a 
um, que define uma reta. Por outro lado, na regressão 
polinomial a relação entre as variáveis é representada 
por um polinômio de grau maior que um.
Outra técnica que pode ser utilizada para a tarefa de 
estimação é o que chamamos de rede neural artifi-
cial. Uma rede neural artificial é um modelo computa-
cional que tem o objetivo de simular o funcionamen-
to do sistema nervoso central. Nesse contexto, um 
neurônio artificial conta com uma junção somadora, 
que recebe diversas entradas associadas a pesos 
específicos, e uma função de ativação, que é respon-
sável pela produção da saída baseada no que recebe 
da junção somadora. Um conjunto interconectado de 
neurônios artificiais forma uma rede neural artificial.
26
Existem diferentes tipos de redes neurais. As chama-
das redes neurais do tipo Perceptron e Adalaine, que 
apresentam um conjunto de neurônios de entrada 
e um conjunto de neurônios de saída, com pesos 
sinápticos e bias ajustáveis. As redes denominadas 
Multi-Layer Perceptron são uma generalização dos 
tipos anteriores, com, ao menos, uma camada de 
neurônios intermediária. Por fim, as redes neurais 
do tipo função de base radial apresentam múltiplas 
camadas e utilizam uma transformação não linear 
na entrada e produzem uma saída linear.
27
REGRAS ASSOCIADAS
A descrição do processo de mineração de regras de 
associação deve ser precedida de uma descrição do 
conjunto de dados considerado para essa tarefa. Os 
dados descritos para as tarefas anteriores apresen-
tavam um registro com diferentes atributos associa-
dos. Por exemplo, um conjunto de dados de animais 
poderia contar com atributos do tipo peso, altura, cor, 
se tem ou não cauda, dentre outras possibilidades.
Outro tipo de conjunto de dados pode relacionar itens 
que pertencem à mesma transação. Um exemploclássico desse tipo de dados são aqueles oriundos 
das compras em um supermercado. Cada cliente, ao 
encerrar suas compras e passar pelo caixa de paga-
mento, representa uma transação e os itens que o 
cliente adquiriu serão associados a essa transação. 
Em um único dia podemos ter diversas transações, 
cada uma contendo diferentes itens que foram ad-
quiridos em conjunto.
Esse tipo de conjunto de dados é chamado de dados 
transacionais e representam as relações de itens 
que, por exemplo, foram consumidos por um mesmo 
cliente do supermercado. Esses dados são coleta-
dos diariamente pelo supermercado e armazenados 
em um banco de dados, configurando uma base de 
dados rica em informações a respeito do padrão 
de consumo dos clientes. Veja na tabela a seguir 
um exemplo de dados transacionais, que descre-
ve um conjunto de quatro transações e, para cada 
28
transação, temos uma relação de itens que foram 
comprados por um mesmo cliente. Assim, podemos 
dizer que a associação entre os itens consumidos 
descreve um padrão de consumo de cada cliente e, 
a partir desse tipo de dado, podemos identificar um 
tipo de padrão baseado nas regras de associação 
dos itens consumidos.
Identificador da transação Itens
1 {pão, manteiga, cerveja, uva}
2 {ovos, alface, limão, cerveja, pão}
3 {banana, uva, leite, pão}
4 {pão, leite, café, uva, banana}
Tabela 4: Exemplo de conjunto de dados transacionais. 
Fonte: Adaptado de Castro et al. (2016).
Além do exemplo do supermercado, podemos ob-
servar esse tipo de dado em diferentes contextos 
na internet. Uma simples busca por produtos em 
um site de compras pode gerar uma série de dados 
transacionais, que descreverão quais são os produ-
tos que foram consultados, mesmo que não tenham 
sido adquiridos. Esse tipo de informação pode ser 
utilizado para, por exemplo, realizar-se propaganda 
direcionada para produtos que estejam associados 
àqueles consultados, de modo a aumentar a proba-
bilidade de venda.
Uma regra de associação pode ser definida como um 
padrão descritivo que representa a probabilidade de 
um item, ou conjunto de itens, ser observado em uma 
mesma transação. Veja que podemos descrever um 
29
conjunto de dados transacionais de forma similar às 
descrições anteriores, mas os atributos pertencentes 
aos registros serão os itens que compõem a base 
de dados. Desse modo, as regras de associação são 
similares às regras de classificação, exceto que no 
primeiro caso podemos predizer qualquer atributo e 
não somente a classe.
Podemos derivar uma grande quantidade de regras 
de associação a partir de pequenos conjuntos de 
dados transacionais. Assim, é comum que as regras 
consideradas sejam aquelas que atendam a dois 
conceitos: suporte e confiança.
O suporte é referente ao número de transações que 
são corretamente preditas por uma determinada re-
gra de associação. Esse termo também é conhecido 
como cobertura da regra de associação. Nesse sen-
tido, a confiança é a proporção entra as transações 
preditas corretamente e o total de transações nas 
quais a regra está inserida. Esse conceito também 
pode ser descrito como a acurácia ou a certeza de 
uma determinada regra.
As etapas previstas para o processo de obtenção de 
regras de associação envolvem um pré-processa-
mento, a obtenção de um conjunto de itens frequen-
tes, a própria mineração das regras e a avaliação 
dos resultados.
O pré-processamento segue de acordo com as des-
crições feitas para essa etapa em tarefas anteriores, 
nas quais observamos ações relativas à limpeza, 
integração, redução, transformação e discretização 
30
dos dados. Além disso, a tarefa de extração de regras 
de associação pode ter que ser feita sobre um con-
junto de dados binários. Assim, a transformação do 
conjunto de dados original em um conjunto binário 
pode ser uma etapa adicional.
A definição de um limite inferior arbitrário para o 
número de itens que farão parte da análise tem por 
objetivo identificar um conjunto de itens mais fre-
quentes. Essa etapa do processo de obtenção de 
regras de associação pretende a redução do volume 
de associações analisadas, haja vista que podemos 
ter muitas associações derivadas de pequenos con-
juntos de dados, o que pode ser um problema para 
o seu processamento.
Existem diferentes algoritmos que podem ser con-
siderados para a extração de regras de associação. 
A maior parte deles são derivações ou melhorias 
realizadas a partir do algoritmo Apriori.
O algoritmo Apriori considera duas subtarefas prin-
cipais. Na primeira são identificados todos os con-
juntos de itens frequentes, de acordo com um limite 
previamente definido. A segunda subtarefa consiste 
na geração das regras desejadas por meio da identi-
ficação dos itens candidatos, que vão sendo elimina-
dos à medida que não atendam a frequência estabe-
lecida. Ao final do processo, tem-se um conjunto de 
itens que atendam a frequência estabelecida.
31
DETECÇÃO DE ANOMALIAS
Muitas vezes ouvimos as pessoas dizerem: “Fulano 
não praticava exercícios físicos, nem cuidava da ali-
mentação e viveu mais de 100 anos”. Esse tipo de 
argumento pode até influenciar algumas pessoas no 
sentido de não darem importância para hábitos de 
vida e seu impacto na longevidade. Porém, esse tipo 
de exemplo não é um representante da maioria dos 
casos. Em geral, observa-se que os hábitos de vida 
realmente impactam na longevidade das pessoas e, 
apesar de possivelmente verdadeiro, o exemplo do 
“Fulano” não representa o padrão da maioria. Esse 
tipo de exemplo pode ser considerado como um ou-
tlier ou anomalia.
As anomalias, no contexto dos dados, referem-se a 
objetos que não apresentam o mesmo comporta-
mento, ou características, que são observados para 
a maioria dos outros objetos. Nesse contexto, uma 
anomalia pode se referir a padrões nos dados que 
não estão em conformidade com o comportamento 
normal dos demais objetos.
A tarefa de detecção de anomalias tem por objeti-
vo identificar os dados dissonantes e decidir como 
esses dados devem ser tratados, de modo que eles 
não contaminem uma análise do padrão de todo o 
conjunto. Veja que os objetos anômalos não são, 
necessariamente, errados. Assim, esse tipo de obje-
to somente apresenta um valor ou padrão de baixa 
frequência no conjunto de dados.
32
A identificação de anomalias, além de ser útil para 
a tomada de decisão sobre as ações a serem efe-
tivadas sobre esses dados, é útil, também, para a 
identificação de fraudes. Note que podemos anali-
sar um conjunto de dados referentes a transações 
de cartões de crédito com o objetivo de identificar 
operações fraudulentas. A maior parte das transa-
ções de um usuário, ou conjunto de usuários, segue 
de acordo com certos padrões, locais, valores, tipo 
de produto ou serviço, dentre outras características. 
Assim, uma transação que foge em muito aos pa-
drões observados tem uma grande probabilidade de 
ser uma fraude.
A maioria das bases de dados apresenta algum tipo 
de anomalia. Elas podem ser derivadas de operações 
fraudulentas, erros humanos, mudanças ambientais 
e falhas de equipamentos, dentre outras possibi-
lidades. As principais aplicações para a tarefa de 
detecção de anomalias são a detecção de fraudes, 
a análise de crédito, a detecção de intrusão, o moni-
toramento de atividades, o desempenho de redes, o 
diagnóstico de faltas, a análise de imagens e vídeos, 
o monitoramento de séries temporais e a análise de 
textos.
O processo de detecção de anomalias, assim como 
as outras tarefas, considera algumas etapas prin-
cipais. A primeira etapa é o pré-processamento do 
conjunto de dados, que é realizado em conformidade 
com o que foi descrito para as tarefas anteriores, 
nessa unidade.
33
A etapa seguinte é dedicada à definição do que é 
uma anomalia. Nesse sentido, os algoritmos bus-
cam definir um limite ao redor de uma classe, que é 
utilizado para se identificar os objetos anômalos, de 
acordo com seu posicionamento no espaço.
A terceira etapa do processo é a definição do tipo deabordagem. Nessa etapa, é definido se a abordagem 
considerada será supervisionada ou não supervisio-
nada. Essa definição segue de acordo com a exis-
tência, ou não, de rótulos que possam ser utilizados 
para a classificação dos dados nas classes normal 
e anômala, respectivamente.
As etapas finais são a execução do processo de 
treinamento e teste, que seguem da mesma forma 
descrita para as tarefas anteriores, e, finalmente, a 
avaliação dos resultados, também conforme as des-
crições válidas para as outras tarefas anteriormente 
descritas.
Existem, basicamente, dois conjuntos de métodos 
que podem ser utilizados para a detecção de anoma-
lias: os métodos estatísticos e os algorítmicos. Os 
métodos estatísticos são, comumente, conduzidos 
a partir de um modelo probabilístico, a partir do qual 
a distribuição dos objetos é capturada. Os objetos 
são avaliados de acordo com sua probabilidade de 
adequação ao modelo. Probabilidades baixas podem 
indicar objetos anômalos.
Os métodos paramétricos são aqueles que consi-
deram que os dados apresentam uma distribuição 
ajustada a um modelo de distribuição conhecido. 
34
Nesse sentido, a fase de treinamento é dedicada 
para a estimação dos parâmetros do modelo de 
distribuição do conjunto de dados. Por outro lado, 
os métodos não paramétricos não assumem uma 
distribuição prévia dos dados, nesses métodos a 
abordagem considerada costuma ser a não super-
visionada, com a utilização de histogramas para a 
análise da distribuição dos dados.
Dentre os métodos algorítmicos, podemos destacar 
aqueles baseados em proximidade, com a utilização 
de alguma medida de distância entre os objetos. O al-
goritmo dos k vizinhos mais próximos considera uma 
matriz quadrada, na qual as distâncias entre os obje-
tos são registradas, para a detecção de objetos que 
não atendem a critérios previamente estabelecidos.
O algoritmo k-médias considera o agrupamento dos 
dados e o raio de cada grupo para determinar se um 
objeto é ou não anômalo, segundo dois critérios pos-
síveis. O critério de identificação global é baseado 
na distância do objeto ao centroide mais próximo 
comparado a todos os raios dos grupos e o crité-
rio de identificação local considera a distância do 
objeto ao centroide mais próximo e o raio do grupo 
em questão, considerando, também, a densidade 
interna do grupo.
35
CONSIDERAÇÕES FINAIS
Neste e-book tivemos a oportunidade de conhecer 
mais a respeito da área de Mineração de Dados. Mais 
especificamente, vimos quais são as etapas envolvi-
das no processo de mineração, com ênfase especial 
para a preparação do conjunto de dados considerado.
Vimos, também, as características principais envolvi-
das na descrição dos dados, a partir da utilização de 
medidas de posição e de dispersão, que podem ajudar 
na caracterização e no entendimento do conjunto de 
dados. Além disso, introduzimos a importância da 
visualização dos dados como parte complementar 
da análise descritiva. Um exemplo da importância da 
visualização é o caso dos conjuntos de dados deno-
minados quarteto de Anscombe, para os quais temos 
medidas descritivas bastante similares, porém as dis-
tribuições dos dados são completamente distintas.
Outro ponto importante nessa unidade é a descri-
ção das principais características das tarefas de 
Mineração de Dados. Assim, vimos os objetivos e 
aplicações da tarefa de classificação e como essa 
tarefa pode ser utilizada para a identificação de gru-
pos de dados não rotulados, de modo que os objetos 
nos grupos sejam similares.
A estimação de dados visa a predizer valores para 
novos registros, com base em um processo de apren-
dizado realizado sobre um conjunto de dados rotula-
dos. Assim, a segmentação dos dados em conjunto 
36
de treinamento e conjunto de teste nos traz uma ideia 
inicial sobre o aprendizado de padrões e a verificação 
da eficiência dos modelos obtidos.
Os conjuntos de dados transacionais foram, tam-
bém, abordados nessa unidade com o objetivo de se 
obter padrões que descrevam regras de associação 
entre os itens que compõem as transações. Vimos 
a aplicabilidade da tarefa de obtenção de regras de 
associação na recomendação de novos itens de con-
sumo para pessoas que já consomem outros itens 
associados.
Finalmente, tivemos um primeiro contato com o con-
ceito de anomalias em conjunto de dados. A tarefa 
de detecção de anomalias é útil para que possamos 
identificar aqueles objetos que não seguem o padrão 
de comportamento representado pelos demais ob-
jetos no conjunto.
Os conceitos que foram apresentados nessa unidade 
constituem um primeiro contato com as etapas do 
processo de mineração de dados e com as principais 
tarefas previstas na área.
37
Referências Bibliográficas 
& Consultadas
ANSCOMBE, F. J. Graphs in statistical analysis. The 
american statistician, v. 27, n. 1, pp. 17-21, 1973.
CASTRO, L. N.; FERRARI, D. G. Introdução à mineração 
de dados: conceitos básicos, algoritmos e aplica-
ções. São Paulo: Saraiva, 2016. [Minha Biblioteca].
ELMASRI, R.; NAVATHE, S. B. Sistema de banco de 
dados. 6. ed. São Paulo: Pearson Addison Wesley, 
2011. [Biblioteca Virtual].
HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of 
data mining (adaptive computation and machine 
learning). Cambridge (Massachusetts): MIT Press, 
2001.
HEUSER, C. A. Projeto de banco de dados. 6. ed. 
Porto Alegre: Bookman, 2009. [Biblioteca Virtual].
MEDEIROS, L. F. Banco de dados: princípios e prática. 
Curitiba: Intersaberes, 2013. [Biblioteca Virtual].
PUGA, S.; FRANÇA, E.; GOYA, M. Banco de dados: 
implementação em SQL, PL/SQL e Oracle 11g. São 
Paulo: Pearson Education do Brasil, 2013. [Biblioteca 
Virtual].
RAMARKRISHNAN, R. Sistemas de gerenciamento 
de banco de dados. 3. ed. Porto Alegre: AMGH, 2001. 
[Biblioteca Virtual].
REZENDE, D. A. Inteligência organizacional como 
modelo de gestão em organizações privadas 
e públicas: guia para projeto de Organizacional 
Business Intelligence. São Paulo: Atlas, 2015. [Minha 
Biblioteca].
SHEARER, C. The CRISP-DM model: the new blueprint 
for data mining. Journal of data warehousing, v. 5, 
n. 4, pp. 13-22, 2000.
SILBERSCHATZ, A.; SUNDARSHAN, S.; KORTH, H. F. 
Sistema de banco de dados. Elsevier Brasil, 2016.
TURBAN, E. et al. Business intelligence: um enfoque 
gerencial para a inteligência do negócio. Porto Alegre: 
Bookman, 2009. [Minha Biblioteca].
	Introdução
	Processo de mineração de dados
	Pré-processamento
	Análise descritiva
	Análise de Grupos
	Classificação de Dados
	Estimação de dados
	Regras associadas
	Detecção de anomalias
	Considerações finais
	Referências Bibliográficas & Consultadas