Mineração de Dados - Ebook 2

•

FAM

Gabriel

13/04/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

E-book 2
Luciano Rossi
MINERAÇÃO DE
DADOS
Neste E-Book:
INTRODUÇÃO ����������������������������������������������������������� 3
PROCESSO DE MINERAÇÃO DE DADOS ���������4
PRÉ-PROCESSAMENTO ���������������������������������������� 9
ANÁLISE DESCRITIVA �������������������������������������������13
ANÁLISE DE GRUPOS �������������������������������������������16
CLASSIFICAÇÃO DE DADOS ������������������������������20
ESTIMAÇÃO DE DADOS �������������������������������������� 25
REGRAS ASSOCIADAS �����������������������������������������28
DETECÇÃO DE ANOMALIAS ������������������������������ 32
CONSIDERAÇÕES FINAIS �����������������������������������36
REFERÊNCIAS BIBLIOGRÁFICAS &
CONSULTADAS �������������������������������������������������������38
2
INTRODUÇÃO
Neste e-book o foco é a análise das etapas que
compõem o processo de mineração de dados. Aqui
teremos a oportunidade de compreender quais são
as etapas desse processo, e o que é feito em cada
uma delas.
Outro objetivo deste e-book é o estudo detalhado de
algumas técnicas que são utilizadas no processo
de mineração de dados. Vamos estudar alguns con-
ceitos de análise de dados e técnicas voltadas para
sua classificação e extração de regras. Além disso,
vamos definir o conceito de anomalia nos dados e
como podemos realizar a sua detecção.
Iniciaremos nossos estudos com a definição do pro-
cesso de mineração de dados e com a análise dos
objetivos de cada uma das etapas. Vamos nos apro-
fundar no pré-processamento dos dados, focando
na sua preparação, de modo que possam ser mais
facilmente explorados nas etapas do processo.
Os próximos passos serão dedicados às análises,
descritiva e de grupo, e aos tópicos de classificação
e estimação de dados. Estudaremos a extração de
regras de associação e a detecção de anomalias em
conjuntos de dados.
3
PROCESSO DE
MINERAÇÃO DE DADOS
Vamos iniciar nossos estudos com uma definição
mais pragmática e sucinta de mineração de dados.
Silberschatz et al. (2016) definem o termo mineração
de dados como um processo que analisa grandes
bancos de dados, de forma semiautomática, com o
objetivo de encontrar padrões utilizáveis, que podem
ser desdobrados como regras e aplicados na reali-
zação de previsões.
Uma regra apresenta um tipo de associação entre os
dados que é válida para o contexto específico ao qual
os dados se referem. Um exemplo de regra que poderia
ser extraída de um conjunto de dados é: “homens de
meia idade com renda mensal maior que R$ 20.000,00
são mais propensos a comprar casas no litoral”.
As previsões podem ser feitas a partir da mineração
de dados, com o aprendizado de uma função que
relaciona diferentes variáveis, de modo que se possa
predizer um determinado resultado, conhecendo os
valores das variáveis, ou parte deles, de um novo re-
gistro. As predições estão associadas a um grau de
confiança ou probabilidade de ocorrência. Suponha
um modelo que define se um empréstimo deve ou
não ser concedido a um cliente bancário. Nesse caso,
o modelo (função) indicará qual a probabilidade de
o cliente honrar com a dívida, com base em dados
históricos de outros clientes com perfis similares.
4
A primeira etapa prevista no processo de mineração
de dados é a identificação e a formalização do pro-
blema que se pretende tratar. Essa etapa é, possivel-
mente, a mais difícil de todo o processo.
A identificação e formalização do problema envolve
estabelecer-se quais são os objetivos principais do
processo e como ele será avaliado. A definição dos
objetivos é importante para a identificação dos da-
dos e de seus respectivos atributos relevantes para
o processo. Nesse sentido, a estratégia de avaliação
de desempenho do processo descreve como avaliar
se os objetivos foram atingidos e, também, o grau
de atendimento aos objetivos.
Outro ponto a ser definido, na fase de identificação e
formalização do problema, é a importância de se ter
um modelo que seja de fácil interpretação em detri-
mento ao desempenho dele. Em outras palavras, o que
é mais importante: ter um modelo fácil de interpretar
que não apresenta um bom desempenho, ou um mo-
delo complexo que tem um desempenho ótimo?
Finalmente, nessa etapa inicial é realizada a análise
dos impactos que um erro no processo pode cau-
sar. A avaliação do impacto de erros deve ser feita
considerando-se os objetivos do processo. Podemos
ter, em determinados contextos, uma tolerância maior
ao erro, possibilitando, assim, alguma flexibilidade
na formalização do problema.
A segunda etapa do processo de mineração de dados
é o pré-processamento. Nessa etapa é realizada a
integração dos dados, que podem ser provenientes
5
de múltiplas fontes e apresentar diferentes formatos.
A integração dos dados consiste em sua transfor-
mação a partir da normalização ou de adequações
possíveis de serem realizadas. Além disso, verifica-se
a necessidade de proceder com uma limpeza nos
dados, com o objetivo de reduzir o número de dados
inválidos. O pré-processamento dos dados conta,
ainda, com a seleção dos dados mais importantes
e com a redução de seu respectivo volume. Esses
processos são formas de se simplificar os dados,
facilitando, assim, a descoberta de conhecimento.
A extração de padrões é a terceira e mais impor-
tante etapa do processo de mineração de dados. É
nessa etapa que tudo acontece. Aqui são utilizados
diferentes algoritmos de aprendizado de máquina
e técnicas pertinentes à Estatística, dentre outras
ferramentas que se pode considerar.
As tarefas que são realizadas nessa etapa podem
ser classificadas em duas categorias principais. A
primeira reúne as tarefas preditivas, como classifi-
cação e regressão, e, como o próprio nome sugere,
são aplicadas com o objetivo de prever resultados a
partir da exploração dos dados. A segunda categoria
reúne as tarefas descritivas, como o agrupamento, a
sumarização e a associação. Essa última categoria
de tarefas é útil para a caracterização dos dados e
para a identificação de regras e padrões.
Veja que não existe uma solução única que seja ade-
quada a todos os problemas. A escolha da estratégia
6
sempre deve considerar as características do proble-
ma e os objetivos pretendidos.
A última etapa é o pós-processamento. Nessa eta-
pa, deve-se avaliar o que o modelo encontrou que é
interessante e útil, de acordo com o objetivo que se
busca. O pós-processamento é o momento, também,
de encontrar-se a melhor forma de apresentação do
modelo, de modo que seja possível compreender os
achados e a estratégia empregada, da forma mais
clara e simples o possível.
Outra visão possível para o modelo de processo de
mineração de dados é descrita pelo Cross Industry
Standard Process for Data Mining (CRISP-DM), que
significa Processo Padrão Inter Indústrias para a
Mineração de Dados, em uma tradução livre. Esse
modelo foi proposto, inicialmente, em 2006 e apre-
senta uma coerência com as etapas anteriormente
descritas, considerando outra abordagem.
O CRISP-DM prevê, como primeira etapa do processo,
o entendimento do negócio no qual o problema, que
se pretende resolver, está inserido. Além da compre-
ensão do contexto, nessa fase é elaborado um plano
estratégico para que os objetivos pretendidos sejam
atendidos.
Na sequência, o foco é nos dados que serão conside-
rados pelo processo. Nessa segunda fase, busca-se
um entendimento a respeito dos dados, identificando
problemas e oportunidades que possam impactar no
resultado da análise.
7
A terceira etapa é dedicada à preparação dos dados,
em que os dados são tratados com o objetivo de se
obter um conjunto final de dados que seja adequado
à estratégia e aos objetivos do processo. Essa etapa
está intimamente ligada à etapa seguinte, que realiza
a aplicação de diferentes técnicas de modelagem. A
etapa de modelagem preocupa-se com a otimização
dos resultados, para que, dessa forma, seja possí-
vel retornar à etapa de preparação dos dados, caso
identifique-se que há espaçopara a otimização dos
resultados.
As duas etapas finais, previstas pelo CRISP-DM, con-
sideram a avaliação do modelo obtido de acordo com
os objetivos definidos e, caso haja uma adequação,
a etapa final cuida do processo de implantação do
modelo. Na etapa final cuida-se para que a usabili-
dade da solução pelo cliente seja tão simples quanto
possível.
A principal vantagem que se pode destacar no CRISP-
DM é a independência, tanto do contexto, visto que
o processo pode ser aplicado em diferentes áreas,
quanto de ferramentas, pois não há qualquer reco-
mendação específica sobre esse ponto. Além disso,
as etapas do CRISP-DM aproximam-se daquelas des-
critas pelo Knowledge Discovery in Databases (KDD).
8
PRÉ-PROCESSAMENTO
A etapa de pré-processamento é responsável por
lidar com a variedade das fontes de dados, com a
heterogeneidade dos tipos de dados e com os vieses.
O objetivo aqui é identificar-se o que é importante
para o objetivo da análise e o que não vai contribuir
para o processo. Nesse sentido, busca-se uma uni-
formização dos dados, de modo que eles possam
ser mais facilmente explorados e que os atributos
sejam aderentes ao contexto da análise.
As bases de dados podem variar em função da ori-
gem e do tipo. Suponha que você pretenda identifi-
car quais os impactos que o clima exerce sobre os
resultados de vendas de uma rede de lojas, as quais
são distribuídas por todo o território nacional. Nesse
exemplo, você poderia ter de contar com bases que
disponibilizem dados meteorológicos, que possuam
informações sobre as temperaturas, umidade, volu-
me de chuvas, dentre outros atributos possíveis. Por
outro lado, saber sobre o número de habitantes, a
faixa etária, o gênero e o estado civil de pessoas de
diferentes regiões podem ser atributos importantes
para sua análise e você precisaria contar com uma
base de dados geopolíticos.
Veja que, na descrição anterior, há bases de dados
que concentram dados com diferentes caracterís-
ticas e, além disso, as bases podem ser de tipos
diferentes, por exemplo, compostas por tabelas atri-
buto-valor, ou ainda modeladas na forma de grafos.
9
Assim, teríamos que lidar com essa heterogeneidade
e buscar obter um conjunto de dados mais homo-
gêneo possível.
Outro desafio a ser enfrentado no pré-processamento
é referente à qualidade dos dados. Há problemas em
qualquer base de dados, especialmente naquelas de
grande volume. Os problemas mais comuns de se-
rem observados nas bases de dados são a ausência
de valores, para determinados atributos, problemas
derivados de erro humano e, em determinados con-
textos, sensores defeituosos.
A observância de uma semântica efetiva é impor-
tante para a avaliação dos dados. Quando temos
um problema bem definido, é importante definirmos,
também, a aplicação, o objeto de análise e os res-
pectivos atributos. Por exemplo, se nosso problema
pertence ao contexto financeiro, poderíamos ter as
seguintes definições:
Aplicação Objeto Atributos
Detecção de fraudes Transação (cartão de crédito)
Dia da semana,
hora, valor, tipo de
estabelecimento.
Estimação de renda Indivíduo Cargo, empresa, currí-culo, conectividade.
Análise de crédito Indivíduo
Renda, valor em bens
próprios, valor em bens
de familiares.
Tabela 1: Exemplos de aplicação, objeto e atributos para di-
ferentes objetivos em mineração de dados. Fonte: Elaboração
Própria.
A aplicação descreve o objetivo pretendido com a
análise, o objeto é a unidade com que iremos realizar
10
as predições ou descrições (podem ser muitos) e
os atributos são as propriedades do objeto que será
utilizado na análise.
Formalizada a semântica dos elementos envolvidos
na análise, podemos mais facilmente descrever os
problemas relacionados aos dados e discutir possí-
veis soluções. Considerando-se o problema de valo-
res ausentes, veja que esses são casos em que não
há valor descrito para um ou mais atributos. Assim,
podemos classificar os valores ausentes em três
categorias:
● Missing Completely at Random (MCAR): a proba-
bilidade de um valor ausente ocorrer não depende
de nenhum valor da base de dados;
● Missing at Random (MAR): a probabilidade de um
valor ausente ocorrer depende dos valores conheci-
dos na base de dados;
● Missing Not at Random (MNAR): a probabilidade
de um valor ausente ocorrer depende do próprio valor
ausente.
Suponha que um questionário será aplicado a um
grupo de pessoas. Após o preenchimento, observou-
-se que, devido a um problema no servidor, algumas
entradas eram removidas aleatoriamente. Esse caso
se enquadra como MCAR.
Em outro cenário, o questionário tem uma pergunta
referente ao grau de depressão dos respondentes.
Os homens, normalmente, não se sentem à vonta-
de para falar de depressão e, assim, há uma maior
11
probabilidade de pessoas do gênero masculino não
responderem essa questão. Nesse caso, podemos
classificar a ausência de valor como MAR.
Considere que há, no questionário, uma pergunta
referente à renda familiar. Respondentes com renda
familiar maior, às vezes, preferem não responder
esse tipo de pergunta. Aqui o caso é classificado
como MNAR.
Independentemente do caso, há diferentes formas de
se realizar o tratamento dos valores ausentes. Pode-
se, por exemplo, simplesmente retirar os objetos com
valores ausentes. Ou, ainda, ignorar esses valores
na fase de análise. Uma Alternativa seria estimar os
valores ausentes com base nos valores de outros
atributos que apresentem correlação.
12
ANÁLISE DESCRITIVA
O primeiro passo, de qualquer análise de dados, é a
exploração do conjunto de dados, identificando suas
principais características e tendências. Essa exploração
inicial busca realizar a descrição de algumas caracterís-
ticas importantes do conjunto de dados. Comumente,
utilizam-se as medidas de posição e de dispersão como
elementos caracterizadores dos dados.
As medidas de posição buscam representar a ten-
dência de concentração dos dados. As principais
medidas de posição são a média, a mediana, a moda,
os percentis e os quartis. Por outro lado, as medi-
das de dispersão são aquelas que medem o grau
de variação dos dados. As principais medidas de
dispersão são a amplitude, a variância e o desvio
padrão, dentre outras.
Importante notarmos que a análise descritiva não
deve ser considerada isoladamente. Apesar de a utili-
zação das medidas de posição e de dispersão serem
representativas e importantes para que se possa
descrever algumas características de um conjunto
de dados, elas devem ser consideradas com cuidado.
Um experimento interessante, que ilustra como a es-
tatística descritiva pode não descrever, isoladamente,
as características de um conjunto de dados, é o cha-
mado Quarteto de Anscombe. Trata-se de quatro con-
juntos de dados que foram construídos por Francis
Anscombe, em 1973, e que ilustram a importância
13
da visualização dos dados antes de qualquer tipo de
análise. As estatísticas descritivas dos conjuntos de
Anscombe são, praticamente, idênticas. No entanto,
a observação da distribuição desses dados no plano
cartesiano mostra uma distinção importante.
As quatro bases de dados (B1, B2, B3, B4) do
Quarteto de Anscombe são simples e contam com
11 objetos (pontos de dados) e dois atributos (X e
Y). A tabela abaixo apresenta os resultados da média
e da variância para esses conjuntos.
B1 B2 B3 B4
Média (X) 9,000 9,000 9,000 9,000
Média (Y) 7,501 7,501 7,500 7,501
Variância (X) 11,000 11,000 11,000 11,000
Variância (Y) 4,127 4,128 4,123 4,123
Tabela 2: Medidas descritivas para os dados denominados de
Quarteto de Anscombe. Fonte: adaptado de Anscombe (1973).
As medidas descritivas das bases de dados de
Anscombe são muito similares e uma análise des-
cuidada poderia levar a conclusões imprecisas. Além
disso, a reta de regressão linear, para todas as bases,
é , corroborando a similaridade
dos conjuntos de dados.
O objetivo de Anscombe, ao propor os quatro conjun-
tos de dados, era ilustrar a importânciada visualização
dos dados de forma gráfica como parte da análise
descritiva para conjuntos de dados e, também, mostrar
que a utilização dos elementos básicos da análise
descritiva é insuficiente para representar, com pre-
14
cisão, o comportamento de dados do mundo real. A
Figura 1 apresenta os dados pertinentes ao Quarteto
de Anscombe, distribuídos no plano cartesiano. Veja
que as distribuições são muito distintas entre si, con-
trariando o que as medidas de análise descritiva bá-
sica demonstraram com seus resultados.
Figura 1: Distribuição dos dados do Quarteto de Anscombe.
Fonte: Elaboração Própria.
A observação dos dados na Figura 1 nos mostra
quão distintos são os conjuntos de dados. Veja que
o objetivo aqui não é atribuir às medidas de posi-
ção e de dispersão qualquer tipo de crítica quanto à
importância de sua utilização, mas sim considerar
outras formas adicionais de análise descritiva, como
a visualização dos dados, de modo a enriquecer a
análise descritiva.
15
ANÁLISE DE GRUPOS
Uma tarefa recorrente na análise de dados é a iden-
tificação de grupos que possam agregar os pontos
de dados que apresentem características similares.
A análise de grupos ou agrupamento de dados é um
conjunto de métodos de análise de dados multiva-
riados que tem por objetivo organizar os dados em
grupos homogêneos, de modo que se possa explorá-
-los de maneira mais simplificada.
Comumente, cada ponto de dado é representado
por diferentes características, as quais podem ser
representadas por um vetor de características. Com
base nos valores do vetor de característica, e pelo
uso de alguma medida de distância, os dados são
agrupados de modo que cada grupo compartilhe
características comuns.
O agrupamento de dados é utilizado quando não temos
um rótulo que possibilite sua classificação. Suponha
um conjunto de dados que descreva uma série de atri-
butos (características) de animais, sem que haja a iden-
tificação de qual animal está sendo referenciado. Nesse
caso dizemos que os registros não são rotulados e a
tarefa de agrupamento será importante para identificar
e agrupar animais que são parecidos, ou que tenham
características similares entre si.
Uma forma simples de visualizar os dados agrupados
é por meio da representação gráfica desses dados
em um diagrama, considerando, como exemplo, so-
16
mente duas dimensões. A Figura 2 apresenta um
exemplo de dados agrupados de acordo com os va-
lores de apenas dois atributos. O agrupamento de
dados pode ser mais complexo quando considera-
mos dados com mais dimensões.
Figura 2: Exemplo de agrupamento de dados. Fonte:
Elaboração Própria.
O processo de agrupamento de dados pode ser des-
crito por cinco etapas. Na primeira etapa é feita a pre-
paração da base de dados, na qual são consideradas
tarefas como a limpeza, integração, redução, transfor-
mação e discretização dos dados. Essa etapa inicial
segue a descrição realizada para o processo KDD.
A etapa seguinte consiste da definição da medida
de similaridade que será considerada. Existem di-
ferentes medidas de similaridade que podem ser
consideradas, como os coeficientes de Matching e
de Jaccard, ou ainda as distâncias Euclidiana e de
Manhattan.
17
A próxima etapa do processo de agrupamento é a
seleção e a execução do método. Existem diferentes
algoritmos que podem ser utilizados com esse objeti-
vo, assim, a escolha do algoritmo mais adequado vai
depender da aplicação que se pretende e do tipo dos
dados que serão considerados. Podemos classificar
os métodos de agrupamento como hierárquicos ou
particionais.
Os métodos hierárquicos consideram uma decom-
posição dos dados em níveis de hierarquia. Esses
métodos podem ser aglomerativos, divisivos ou
particionais.
Os métodos aglomerativos consideram os dados
individualmente e, em passos incrementais, os da-
dos vão sendo agrupados de acordo com as suas
características, de modo que, ao final do processo,
reste apenas um único grande grupo.
Os métodos divisivos funcionam de forma inversa
ao método anterior. Nesse caso, consideram-se os
dados como um único grupo que vai sendo dividido,
sucessivamente, em grupos menores, até que, por
exemplo, haja apenas um elemento por grupo.
Os métodos particionais objetivam dividir o conjun-
to original em partições menores, de modo que os
elementos em cada partição sejam similares entre
si. Há, ainda, a possibilidade de se realocar, de forma
iterativa, os objetos entre os grupos, de modo que o
particionamento seja aprimorado.
18
Há outras características que podem ser utilizadas
para a classificação dos algoritmos de agrupamento.
Existem os algoritmos monotéticos e politéticos que
descrevem o uso sequencial, ou não, dos atributos
no processo de agrupamento. Os agrupamentos hard
e fuzzy descrevem o grau de independência entre os
grupos, podendo, ou não, haver interseções entre as
partições. Finalmente, os métodos determinísticos e
estocásticos versam a respeito da reprodutibilidade
da configuração das partições, a depender dos pa-
râmetros considerados.
A penúltima etapa do processo de agrupamento
é a representação dos grupos obtidos. Podemos
considerar diferentes formas de representar esses
grupos, como os protótipos, as estruturas em forma
de grafos, as árvores e a rotulação. A escolha da
melhor forma de representação depende, também,
das características do método escolhido.
Finalmente, a última etapa é a avaliação do agrupa-
mento. A avaliação vai depender do contexto e dos
objetivos da análise. Podemos realizar a análise da
qualidade do agrupamento obtido por meio do uso
de medidas de avaliação de desempenho, que são
classificadas como internas ou externas, que ava-
liam a similaridade do grupo e a adequação a um
padrão ideal, respectivamente. Quanto aos critérios
de avaliação, podemos considerar a compactação ou
a separação, que se referem à proximidade entre os
objetos nas partições e distância entre as partições
obtidas, respectivamente.
19
CLASSIFICAÇÃO DE
DADOS
Existem muitos conjuntos de dados que descrevem
uma associação entre características e a respec-
tiva classe. Por exemplo, podemos ter um conjun-
to de prontuários de pacientes com o registro dos
sintomas e do respectivo diagnóstico. Esse tipo de
exemplo pode ser ampliado para diversos outros
contextos. Suponha que, com base em um conjunto
de dados de diagnósticos médicos, queremos saber
se um novo paciente é ou não cardiopata, de acordo
com os seus sintomas.
A tarefa descrita anteriormente é uma tarefa de pre-
dição, na qual queremos prever um rótulo de acordo
com um conjunto de características. Quando temos
uma predição discreta, na qual estamos interessados
em uma ou mais classes, dizemos que a tarefa é de
classificação. Por outro lado, quando a predição é
contínua, onde estamos interessados em predizer
um determinado valor, dizemos que a predição é de-
nominada estimação.
O processo de predição apresenta duas etapas princi-
pais. Na primeira etapa, denominada de treinamento,
utilizamos uma parte dos dados de um conjunto (a
maior parte deles) para gerar um modelo preditor que
seja capaz de inferir uma classe ou um valor a partir
das características dos dados. A segunda etapa, de-
nominada teste, consiste de aplicar o modelo obtido
20
à parte não utilizada dos dados. O objetivo aqui é ve-
rificar a capacidade de generalização do modelo, no
sentido de predizer a classe ou o valor de dados que
não foram utilizados para a obtenção do preditor.
O processo de predição, de classes ou valores, con-
siste de quatro etapas principais. A primeira etapa
é a etapa de pré-processamento, que consiste da
preparação da base de dados. A segunda etapa é a
separação do conjunto de dados entre conjunto de
treinamento e conjunto de teste. Como mencionado
anteriormente, a maior parte dos dados será utilizada
como conjunto de treinamento e a parte restante será
o conjunto de teste. Para os casos em que todos
os dados possuem rótulo, utiliza-sealgum método
de seleção dos dados para treinamento do modelo.
Caso haja parte dos dados não rotulados, os dados
que possuem rótulo devem ser utilizados para o trei-
namento e a outra parte será rotulada pelo modelo.
Veja que, para os casos anteriores, utilizar um con-
junto de dados rotulados como conjunto de teste nos
permite estimar a eficiência do modelo por meio da
comparação entre os rótulos que são resultado da
predição e os rótulos originais. Por outro lado, o uso
de um conjunto não rotulado como conjunto de teste
não permite que a acurácia do modelo seja verificada,
havendo, assim, a necessidade de se utilizar outro
método para a verificação do modelo.
A etapa de treinamento e teste consiste em realizar-
-se o ajuste dos parâmetros do modelo, que vão va-
21
riar de acordo com o tipo de técnica escolhida, de
modo a melhorar a sua capacidade preditiva.
Finalmente, a avaliação da saída é a última etapa.
O processo de predição é baseado em estimativas
e, consequentemente, pode apresentar algum grau
de imprecisão. O desempenho de um classificador
depende de sua flexibilidade e da qualidade do trei-
namento. Nesse sentido, a utilização de medidas de
avaliação de desempenho, em geral, tem por objetivo
medir a taxa de acerto dos classificadores.
Os problemas de classificação binária, ou seja, aque-
les que fazem a inferência entre duas classes, podem
ser avaliados por meio de medidas específicas que
consideram a relação entre a classe alvo, que des-
creve a classe esperada e é denominada de classe
positiva, e a classe negativa. Nesse sentido, podemos
ter como resultado: verdadeiro positivo, verdadeiro
negativo, falso positivo e falso negativo.
No verdadeiro positivo (VP), um objeto da classe
positiva é classificado como pertencente à classe
positiva. Por outro lado, para o verdadeiro negativo
(VN), um objeto da classe negativa é classificado
como tal. Já o falso positivo (FP) ocorre quando
um objeto da classe negativa é classificado como
pertencente à classe positiva. Finalmente, um falso
negativo (FN) ocorre quando um objeto da classe
positiva é classificado como negativo. Essa forma
de avaliação de desempenho pode ser aplicada facil-
mente com a utilização de uma matriz de confusão.
22
Os valores contabilizados para cada caso, descritos
anteriormente, são tabulados nas respectivas células
na matriz de confusão. Nesse sentido, é possível
extrair duas importantes taxas, baseadas nos valo-
res contabilizados, são elas a taxa de verdadeiros
positivos (TVP) e a taxa de falsos positivos (TFP).
Classe predita
Positiva Negativa
Classe original
Positiva VP FN
Negativa FP VN
Tabela 3: Matriz de confusão para um problema de clas-
sificação binária. Fonte: adaptado de Castro et al. (2016).
A taxa de verdadeiros positivos descreve a porcen-
tagem de objetos positivos que foram classificados
como tal, ou seja, o classificador classificou corre-
tamente os objetos contabilizados nesse caso. O
cálculo da TVP é intuitivo e segue de acordo com a
seguinte fórmula:
A taxa de falsos positivos corresponde à porcenta-
gem de objetos negativos que foram classificados
como negativos, nesse caso o classificador falhou
em atribuir a classe correta aos objetos analisados.
O cálculo da TFP é feito da seguinte forma:
23
Outra taxa importante para a verificação da acurá-
cia dos classificadores binários é a taxa global de
sucesso, ou simplesmente acurácia (ACC). A ACC
é o quociente da soma dos verdadeiros positivos e
verdadeiros negativos pela soma dos verdadeiros
positivos, falsos positivos, verdadeiros negativos
e falsos negativos. Em outras palavras, a ACC é a
quantidade de acertos dividida pelo total de possibili-
dades e pode ser representada da seguinte maneira:
De modo oposto ao que representa a ACC, a taxa de
erro de um classificador descreve o percentual de
classificações erradas que foram realizadas por ele,
nesse sentido, o cálculo da taxa de erro (E) é feita
da seguinte forma:
24
ESTIMAÇÃO DE DADOS
A tarefa de classificação é um caso particular da
tarefa de estimação de dados. Para a primeira tare-
fa, buscamos identificar uma saída discretizada, ou
seja, verificar se um determinado objeto pertence
ou não a uma classe específica. No caso da tarefa
de estimação, o objetivo é identificar um valor con-
tínuo que possa ser predito a partir dos valores de
determinados atributos. Assim, podemos dizer que
há grande similaridade entre as tarefas de classifi-
cação e estimação, e grande parte dos conceitos
descritos para a classificação valem, também, para
a estimação.
As etapas envolvidas no processo de estimação se-
guem de acordo com o que foi descrito para a clas-
sificação. Ou seja, a preparação dos dados, a sepa-
ração em grupos de treinamento e teste, a definição
de critérios de parada e a execução dos processos de
treinamento e teste são realizadas de forma similar
ao que foi descrito para a classificação.
A principal diferença entre as tarefas de classificação
e estimação é a avaliação da saída. Enquanto que na
classificação buscamos contabilizar os acertos e as
falhas, de modo a calcular uma taxa que represente
o quão bom é o classificador, na estimação busca-
-se identificar a distância existente entre o resultado
obtido e um resultado padrão conhecido.
25
Dentre os diferentes algoritmos de estimação, a re-
gressão linear é a obtenção de uma função a partir
de pares de entrada e saída. Os modelos de regres-
são linear objetivam representar a relação entre vari-
áveis por meio de uma função que define uma reta. A
reta representa a melhor relação observada entre as
variáveis. Um exemplo simples é, dado um conjunto
de pares de valores de peso e altura de pessoas,
estimar uma equação que defina uma reta que, por
sua vez, sumarize a relação entre os valores conhe-
cidos de peso e altura. Assim, é possível predizer, por
exemplo, a altura de uma pessoa com base em seu
respectivo peso, utilizando a função que foi estimada.
A regressão polinomial segue a mesma lógica da re-
gressão linear. A diferença aqui está no fato que para
a regressão linear a relação entre as variáveis pode
ser representada por uma equação de grau igual a
um, que define uma reta. Por outro lado, na regressão
polinomial a relação entre as variáveis é representada
por um polinômio de grau maior que um.
Outra técnica que pode ser utilizada para a tarefa de
estimação é o que chamamos de rede neural artifi-
cial. Uma rede neural artificial é um modelo computa-
cional que tem o objetivo de simular o funcionamen-
to do sistema nervoso central. Nesse contexto, um
neurônio artificial conta com uma junção somadora,
que recebe diversas entradas associadas a pesos
específicos, e uma função de ativação, que é respon-
sável pela produção da saída baseada no que recebe
da junção somadora. Um conjunto interconectado de
neurônios artificiais forma uma rede neural artificial.
26
Existem diferentes tipos de redes neurais. As chama-
das redes neurais do tipo Perceptron e Adalaine, que
apresentam um conjunto de neurônios de entrada
e um conjunto de neurônios de saída, com pesos
sinápticos e bias ajustáveis. As redes denominadas
Multi-Layer Perceptron são uma generalização dos
tipos anteriores, com, ao menos, uma camada de
neurônios intermediária. Por fim, as redes neurais
do tipo função de base radial apresentam múltiplas
camadas e utilizam uma transformação não linear
na entrada e produzem uma saída linear.
27
REGRAS ASSOCIADAS
A descrição do processo de mineração de regras de
associação deve ser precedida de uma descrição do
conjunto de dados considerado para essa tarefa. Os
dados descritos para as tarefas anteriores apresen-
tavam um registro com diferentes atributos associa-
dos. Por exemplo, um conjunto de dados de animais
poderia contar com atributos do tipo peso, altura, cor,
se tem ou não cauda, dentre outras possibilidades.
Outro tipo de conjunto de dados pode relacionar itens
que pertencem à mesma transação. Um exemploclássico desse tipo de dados são aqueles oriundos
das compras em um supermercado. Cada cliente, ao
encerrar suas compras e passar pelo caixa de paga-
mento, representa uma transação e os itens que o
cliente adquiriu serão associados a essa transação.
Em um único dia podemos ter diversas transações,
cada uma contendo diferentes itens que foram ad-
quiridos em conjunto.
Esse tipo de conjunto de dados é chamado de dados
transacionais e representam as relações de itens
que, por exemplo, foram consumidos por um mesmo
cliente do supermercado. Esses dados são coleta-
dos diariamente pelo supermercado e armazenados
em um banco de dados, configurando uma base de
dados rica em informações a respeito do padrão
de consumo dos clientes. Veja na tabela a seguir
um exemplo de dados transacionais, que descre-
ve um conjunto de quatro transações e, para cada
28
transação, temos uma relação de itens que foram
comprados por um mesmo cliente. Assim, podemos
dizer que a associação entre os itens consumidos
descreve um padrão de consumo de cada cliente e,
a partir desse tipo de dado, podemos identificar um
tipo de padrão baseado nas regras de associação
dos itens consumidos.
Identificador da transação Itens
1 {pão, manteiga, cerveja, uva}
2 {ovos, alface, limão, cerveja, pão}
3 {banana, uva, leite, pão}
4 {pão, leite, café, uva, banana}
Tabela 4: Exemplo de conjunto de dados transacionais.
Fonte: Adaptado de Castro et al. (2016).
Além do exemplo do supermercado, podemos ob-
servar esse tipo de dado em diferentes contextos
na internet. Uma simples busca por produtos em
um site de compras pode gerar uma série de dados
transacionais, que descreverão quais são os produ-
tos que foram consultados, mesmo que não tenham
sido adquiridos. Esse tipo de informação pode ser
utilizado para, por exemplo, realizar-se propaganda
direcionada para produtos que estejam associados
àqueles consultados, de modo a aumentar a proba-
bilidade de venda.
Uma regra de associação pode ser definida como um
padrão descritivo que representa a probabilidade de
um item, ou conjunto de itens, ser observado em uma
mesma transação. Veja que podemos descrever um
29
conjunto de dados transacionais de forma similar às
descrições anteriores, mas os atributos pertencentes
aos registros serão os itens que compõem a base
de dados. Desse modo, as regras de associação são
similares às regras de classificação, exceto que no
primeiro caso podemos predizer qualquer atributo e
não somente a classe.
Podemos derivar uma grande quantidade de regras
de associação a partir de pequenos conjuntos de
dados transacionais. Assim, é comum que as regras
consideradas sejam aquelas que atendam a dois
conceitos: suporte e confiança.
O suporte é referente ao número de transações que
são corretamente preditas por uma determinada re-
gra de associação. Esse termo também é conhecido
como cobertura da regra de associação. Nesse sen-
tido, a confiança é a proporção entra as transações
preditas corretamente e o total de transações nas
quais a regra está inserida. Esse conceito também
pode ser descrito como a acurácia ou a certeza de
uma determinada regra.
As etapas previstas para o processo de obtenção de
regras de associação envolvem um pré-processa-
mento, a obtenção de um conjunto de itens frequen-
tes, a própria mineração das regras e a avaliação
dos resultados.
O pré-processamento segue de acordo com as des-
crições feitas para essa etapa em tarefas anteriores,
nas quais observamos ações relativas à limpeza,
integração, redução, transformação e discretização
30
dos dados. Além disso, a tarefa de extração de regras
de associação pode ter que ser feita sobre um con-
junto de dados binários. Assim, a transformação do
conjunto de dados original em um conjunto binário
pode ser uma etapa adicional.
A definição de um limite inferior arbitrário para o
número de itens que farão parte da análise tem por
objetivo identificar um conjunto de itens mais fre-
quentes. Essa etapa do processo de obtenção de
regras de associação pretende a redução do volume
de associações analisadas, haja vista que podemos
ter muitas associações derivadas de pequenos con-
juntos de dados, o que pode ser um problema para
o seu processamento.
Existem diferentes algoritmos que podem ser con-
siderados para a extração de regras de associação.
A maior parte deles são derivações ou melhorias
realizadas a partir do algoritmo Apriori.
O algoritmo Apriori considera duas subtarefas prin-
cipais. Na primeira são identificados todos os con-
juntos de itens frequentes, de acordo com um limite
previamente definido. A segunda subtarefa consiste
na geração das regras desejadas por meio da identi-
ficação dos itens candidatos, que vão sendo elimina-
dos à medida que não atendam a frequência estabe-
lecida. Ao final do processo, tem-se um conjunto de
itens que atendam a frequência estabelecida.
31
DETECÇÃO DE ANOMALIAS
Muitas vezes ouvimos as pessoas dizerem: “Fulano
não praticava exercícios físicos, nem cuidava da ali-
mentação e viveu mais de 100 anos”. Esse tipo de
argumento pode até influenciar algumas pessoas no
sentido de não darem importância para hábitos de
vida e seu impacto na longevidade. Porém, esse tipo
de exemplo não é um representante da maioria dos
casos. Em geral, observa-se que os hábitos de vida
realmente impactam na longevidade das pessoas e,
apesar de possivelmente verdadeiro, o exemplo do
“Fulano” não representa o padrão da maioria. Esse
tipo de exemplo pode ser considerado como um ou-
tlier ou anomalia.
As anomalias, no contexto dos dados, referem-se a
objetos que não apresentam o mesmo comporta-
mento, ou características, que são observados para
a maioria dos outros objetos. Nesse contexto, uma
anomalia pode se referir a padrões nos dados que
não estão em conformidade com o comportamento
normal dos demais objetos.
A tarefa de detecção de anomalias tem por objeti-
vo identificar os dados dissonantes e decidir como
esses dados devem ser tratados, de modo que eles
não contaminem uma análise do padrão de todo o
conjunto. Veja que os objetos anômalos não são,
necessariamente, errados. Assim, esse tipo de obje-
to somente apresenta um valor ou padrão de baixa
frequência no conjunto de dados.
32
A identificação de anomalias, além de ser útil para
a tomada de decisão sobre as ações a serem efe-
tivadas sobre esses dados, é útil, também, para a
identificação de fraudes. Note que podemos anali-
sar um conjunto de dados referentes a transações
de cartões de crédito com o objetivo de identificar
operações fraudulentas. A maior parte das transa-
ções de um usuário, ou conjunto de usuários, segue
de acordo com certos padrões, locais, valores, tipo
de produto ou serviço, dentre outras características.
Assim, uma transação que foge em muito aos pa-
drões observados tem uma grande probabilidade de
ser uma fraude.
A maioria das bases de dados apresenta algum tipo
de anomalia. Elas podem ser derivadas de operações
fraudulentas, erros humanos, mudanças ambientais
e falhas de equipamentos, dentre outras possibi-
lidades. As principais aplicações para a tarefa de
detecção de anomalias são a detecção de fraudes,
a análise de crédito, a detecção de intrusão, o moni-
toramento de atividades, o desempenho de redes, o
diagnóstico de faltas, a análise de imagens e vídeos,
o monitoramento de séries temporais e a análise de
textos.
O processo de detecção de anomalias, assim como
as outras tarefas, considera algumas etapas prin-
cipais. A primeira etapa é o pré-processamento do
conjunto de dados, que é realizado em conformidade
com o que foi descrito para as tarefas anteriores,
nessa unidade.
33
A etapa seguinte é dedicada à definição do que é
uma anomalia. Nesse sentido, os algoritmos bus-
cam definir um limite ao redor de uma classe, que é
utilizado para se identificar os objetos anômalos, de
acordo com seu posicionamento no espaço.
A terceira etapa do processo é a definição do tipo deabordagem. Nessa etapa, é definido se a abordagem
considerada será supervisionada ou não supervisio-
nada. Essa definição segue de acordo com a exis-
tência, ou não, de rótulos que possam ser utilizados
para a classificação dos dados nas classes normal
e anômala, respectivamente.
As etapas finais são a execução do processo de
treinamento e teste, que seguem da mesma forma
descrita para as tarefas anteriores, e, finalmente, a
avaliação dos resultados, também conforme as des-
crições válidas para as outras tarefas anteriormente
descritas.
Existem, basicamente, dois conjuntos de métodos
que podem ser utilizados para a detecção de anoma-
lias: os métodos estatísticos e os algorítmicos. Os
métodos estatísticos são, comumente, conduzidos
a partir de um modelo probabilístico, a partir do qual
a distribuição dos objetos é capturada. Os objetos
são avaliados de acordo com sua probabilidade de
adequação ao modelo. Probabilidades baixas podem
indicar objetos anômalos.
Os métodos paramétricos são aqueles que consi-
deram que os dados apresentam uma distribuição
ajustada a um modelo de distribuição conhecido.
34
Nesse sentido, a fase de treinamento é dedicada
para a estimação dos parâmetros do modelo de
distribuição do conjunto de dados. Por outro lado,
os métodos não paramétricos não assumem uma
distribuição prévia dos dados, nesses métodos a
abordagem considerada costuma ser a não super-
visionada, com a utilização de histogramas para a
análise da distribuição dos dados.
Dentre os métodos algorítmicos, podemos destacar
aqueles baseados em proximidade, com a utilização
de alguma medida de distância entre os objetos. O al-
goritmo dos k vizinhos mais próximos considera uma
matriz quadrada, na qual as distâncias entre os obje-
tos são registradas, para a detecção de objetos que
não atendem a critérios previamente estabelecidos.
O algoritmo k-médias considera o agrupamento dos
dados e o raio de cada grupo para determinar se um
objeto é ou não anômalo, segundo dois critérios pos-
síveis. O critério de identificação global é baseado
na distância do objeto ao centroide mais próximo
comparado a todos os raios dos grupos e o crité-
rio de identificação local considera a distância do
objeto ao centroide mais próximo e o raio do grupo
em questão, considerando, também, a densidade
interna do grupo.
35
CONSIDERAÇÕES FINAIS
Neste e-book tivemos a oportunidade de conhecer
mais a respeito da área de Mineração de Dados. Mais
especificamente, vimos quais são as etapas envolvi-
das no processo de mineração, com ênfase especial
para a preparação do conjunto de dados considerado.
Vimos, também, as características principais envolvi-
das na descrição dos dados, a partir da utilização de
medidas de posição e de dispersão, que podem ajudar
na caracterização e no entendimento do conjunto de
dados. Além disso, introduzimos a importância da
visualização dos dados como parte complementar
da análise descritiva. Um exemplo da importância da
visualização é o caso dos conjuntos de dados deno-
minados quarteto de Anscombe, para os quais temos
medidas descritivas bastante similares, porém as dis-
tribuições dos dados são completamente distintas.
Outro ponto importante nessa unidade é a descri-
ção das principais características das tarefas de
Mineração de Dados. Assim, vimos os objetivos e
aplicações da tarefa de classificação e como essa
tarefa pode ser utilizada para a identificação de gru-
pos de dados não rotulados, de modo que os objetos
nos grupos sejam similares.
A estimação de dados visa a predizer valores para
novos registros, com base em um processo de apren-
dizado realizado sobre um conjunto de dados rotula-
dos. Assim, a segmentação dos dados em conjunto
36
de treinamento e conjunto de teste nos traz uma ideia
inicial sobre o aprendizado de padrões e a verificação
da eficiência dos modelos obtidos.
Os conjuntos de dados transacionais foram, tam-
bém, abordados nessa unidade com o objetivo de se
obter padrões que descrevam regras de associação
entre os itens que compõem as transações. Vimos
a aplicabilidade da tarefa de obtenção de regras de
associação na recomendação de novos itens de con-
sumo para pessoas que já consomem outros itens
associados.
Finalmente, tivemos um primeiro contato com o con-
ceito de anomalias em conjunto de dados. A tarefa
de detecção de anomalias é útil para que possamos
identificar aqueles objetos que não seguem o padrão
de comportamento representado pelos demais ob-
jetos no conjunto.
Os conceitos que foram apresentados nessa unidade
constituem um primeiro contato com as etapas do
processo de mineração de dados e com as principais
tarefas previstas na área.
37
Referências Bibliográficas
& Consultadas
ANSCOMBE, F. J. Graphs in statistical analysis. The
american statistician, v. 27, n. 1, pp. 17-21, 1973.
CASTRO, L. N.; FERRARI, D. G. Introdução à mineração
de dados: conceitos básicos, algoritmos e aplica-
ções. São Paulo: Saraiva, 2016. [Minha Biblioteca].
ELMASRI, R.; NAVATHE, S. B. Sistema de banco de
dados. 6. ed. São Paulo: Pearson Addison Wesley,
2011. [Biblioteca Virtual].
HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of
data mining (adaptive computation and machine
learning). Cambridge (Massachusetts): MIT Press,
2001.
HEUSER, C. A. Projeto de banco de dados. 6. ed.
Porto Alegre: Bookman, 2009. [Biblioteca Virtual].
MEDEIROS, L. F. Banco de dados: princípios e prática.
Curitiba: Intersaberes, 2013. [Biblioteca Virtual].
PUGA, S.; FRANÇA, E.; GOYA, M. Banco de dados:
implementação em SQL, PL/SQL e Oracle 11g. São
Paulo: Pearson Education do Brasil, 2013. [Biblioteca
Virtual].
RAMARKRISHNAN, R. Sistemas de gerenciamento
de banco de dados. 3. ed. Porto Alegre: AMGH, 2001.
[Biblioteca Virtual].
REZENDE, D. A. Inteligência organizacional como
modelo de gestão em organizações privadas
e públicas: guia para projeto de Organizacional
Business Intelligence. São Paulo: Atlas, 2015. [Minha
Biblioteca].
SHEARER, C. The CRISP-DM model: the new blueprint
for data mining. Journal of data warehousing, v. 5,
n. 4, pp. 13-22, 2000.
SILBERSCHATZ, A.; SUNDARSHAN, S.; KORTH, H. F.
Sistema de banco de dados. Elsevier Brasil, 2016.
TURBAN, E. et al. Business intelligence: um enfoque
gerencial para a inteligência do negócio. Porto Alegre:
Bookman, 2009. [Minha Biblioteca].
Introdução
Processo de mineração de dados
Pré-processamento
Análise descritiva
Análise de Grupos
Classificação de Dados
Estimação de dados
Regras associadas
Detecção de anomalias
Considerações finais
Referências Bibliográficas & Consultadas