Buscar

BI_-_PARTE_6_-_2015-1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

06/11/2014
1
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Parte 5
Mineração de Dados
135
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Os dados armazenados em bancos de dados relacionais podem esconder 
diversos tipos de padrões e comportamentos relevantes que a princípio 
não podem ser descobertos utilizando-se a linguagem SQL. 
Por exemplo, considere um cadastro com aproximadamente 500.000 
clientes de uma loja de roupas. Através do uso de técnicas de mineração 
foi descoberto que 7% desses clientes são casados, estão na faixa etária 
compreendida entre 31 e 40 anos e possuem pelo menos dois filhos. Uma 
campanha de marketing direcionada a esse grupo de clientes poderia ser 
realizada objetivando o aumento no consumo de produtos infantis. Note 
que inicialmente não foi elaborada uma questão do tipo “identifique os 
clientes casados com faixa etária entre 31 e 40 anos e que possuem pelo 
menos dois filhos”. 
O próprio processo de mineração identificou a pergunta e a resposta.
06/11/2014
2
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados.
Bancos de dados relacionais são responsáveis por armazenar e recuperar 
dados de forma eficiente. No entanto, somente estas atividades não 
garantem a continuidade dos negócios. 
Nos dias de hoje, cada vez mais é necessário que se tire um proveito maior 
dos dados. Surge a tríade dados, informações e conhecimento.
O dado é algo bruto, é a matéria-prima da qual pode-se extrair informação. 
Informação é o dado processado, com significado e contexto bem definido. 
O computado, em essência, serve para transformar dados em informações. 
Por fim, o conhecimento é o uso inteligente da informação, é a informação 
contextualizada e utilizada na prática. 
Dessa forma, a qualidade da informação sustenta o conhecimento.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Assim, mineração de dados (ou data mining) pode ser definida como o 
processo automatizado de descoberta de novas informações a partir de 
grandes massas de dados. A mineração de dados é mais que uma simples 
consulta a um banco de dados, pois permite aos usuários explorar e inferir 
informação útil a partir dos dados, descobrindo relacionamentos escondidos 
no banco de dados
A mineração de dados trabalha no modo de descoberta indutiva, ou seja, os 
dados são analisados através de um conjunto de algoritmos e critérios 
especificados
A mineração de dados é uma área interdisciplinar e envolve o estudo de 
diversas técnicas como: banco de dados, otimização, estatística e 
inteligência artificial
06/11/2014
3
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
A mineração de dados não ocorre somente em bancos de dados relacionais. 
Pode-se trabalhar com diversas fontes tais como textos, arquivos logs, data 
warehouses, entre outras.
Áreas de aplicação de data mining
Os tópicos abaixo apresentam algumas áreas de aplicação de data mining, 
exemplificando algumas análises que podem ser feitas.
Vendas
§ Identificar padrões de comportamento dos consumidores;
§ Encontrar características dos consumidores de acordo com a região
demográfica;
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
§ Prever quais consumidores serão atingidos nas campanhas de
marketing.
Finanças
§ Detectar padrões de fraudes no uso dos cartões de crédito;
§ Identificar os consumidores que estão tendendo a mudar a companhia
do cartão de crédito;
§ Identificar regras de estocagem a partir dos dados do mercado;
§ Encontrar correlações escondidas nas bases de dados Seguros e
Planos de Saúde
06/11/2014
4
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
§ Determinar quais procedimentos médicos são requisitados ao mesmo tempo;
§ Prever quais consumidores comprarão novas apólices;
§ Identificar comportamentos fraudulentos.
Transporte
§ Determinar a distribuição dos horários entre os vários caminhos;
§ Analisar padrões de sobrecarga.
Medicina
§ Caracterizar o comportamento dos pacientes para prever novas consultas;
§ Identificar terapias de sucessos para diferentes doenças.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Data mining X Data warehouse
O processo de mining tem certas diferenças com relação ao que vimos até 
agora, nas aulas anteriores. 
As técnicas OLAP têm como objeto trabalhar os dados existentes, buscando 
consolidações em vários níveis, trabalhando fatos em dimensões variadas.
Já a técnica de mining busca algo mais que a interpretação dos dados 
existentes. Esta técnica visa fundamentalmente realizar inferências, 
tentando “adivinhar” possíveis fatos e correlações não explicitadas nas 
montanhas de dados de data warehouse ou de um data mart.
06/11/2014
5
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Além disso, o data mining também busca identificar atributos e indicadores 
capazes de melhor definir uma situação específica. 
Por exemplo, numa empresa de seguros, as ferramentas OLAP responderiam 
a pergunta do tipo: “Qual o valor médio de pagamentos de seguros de vida 
para não fumantes, na região sul do estado, em agosto de 2003?
Já as ferramentas de mining seriam usadas para definir os melhores 
atributos de clientes capazes de ajudarem na previsão de possíveis 
acidentes de automóvel.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Numa empresa de serviços, as ferramentas OLAP responderiam, por 
exemplo, à pergunta: “Qual o valor médio de faturamento de clientes do 
tipo industrial, da área de alumínio nas regiões da Mantiqueira, 
comparando-se os anos de 1990 e 2000?”. 
Enquanto que as ferramentas de mining serviriam para identificar quais os 
atributos de clientes seriam importantes para serem considerados numa 
possível e indesejável quebra de fidelização (migração do cliente para um 
concorrente).
Numa empresa de crédito, as técnicas OLAP produziriam gráficos 
mostrando os percentuais comparativos de compras com cartões de crédito 
roubados e válidos. As ferramentas de mining indicariam os padrões 
associados a certo comportamento fraudulento com cartões de crédito
06/11/2014
6
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Processo de data mining
A Figura 18 apresenta, numa visão geral, as principais fases de um 
projeto de data mining.
DW
Conjunto total
de dados
DW
Conjunto total
de dados
Dados
Preparados
Dados
Preparados
PreparaçãoPreparação Mineração / 
Modelagem
Mineração / 
Modelagem
AnáliseAplicaçãoAplicação
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Preparação
A preparação dos dados a serem utilizados em um projeto vai variar de 
acordo com o algoritmo de mining escolhido. 
Dependendo deste algoritmo, os dados serão formatados de maneiras 
diferentes.A seleção e manipulação dos dados, em geral, deve ser feita por alguém que 
conheça bastante do assunto abordado e dos números em estudo. 
Este processo de preparação dos dados é essencial e crucial para o sucesso 
do data mining e costuma consumir mais de 50% do tempo e recursos 
destinados ao projeto.
06/11/2014
7
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Esta fase deve seguir os seguintes passos:
•Construir um banco de dados separado para os dados sujeitos à mineração.
•Coletar os dados a serem garimpados. A fonte poderá ser o data warehouse
(ou data mart) da empresa ou outros dados de natureza interna ou externa.
•Definir os metadados.
•Selecionar o subconjunto de dados para o processo de garimpagem
(limpeza).
•Atentar para a qualidade dos dados: os campos devem estar com valores
corretos e o conjunto selecionado sem dados irrelevantes.
•Deve-se também definir regras para campos ausentes, definindo valores
defaults ou atribuindo valores estatísticos (por exemplo, médias).
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Definir para campos consolidados os critérios de reconciliação, como por
exemplo diversos endereços do mesmo cliente e resolver diferenças de
vários nomes para a mesma entidade ou diferentes entidades com o mesmo
nome. Isto é desnecessário se a fonte de dados for integrada.
Carregar o Banco de Dados para a mineração.
06/11/2014
8
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Mineração / Modelagem
Nesta fase deve-se escolher os algoritmos a serem aplicados. Essa escolha 
depende do objetivo da mineração. Esta fase deve seguir os seguintes 
passos:
•Criar os modelos de data mining.
•Definir amostras ou população.
•Selecionar dados para treinar o modelo.
•Definir a formatação requerida pelas ferramentas. Por exemplo, redes neurais
exigem os dados na forma dicotômica (sim/não) e árvores de decisão
demandam agrupamentos, como bom, médio e ruim.
•Criar os previsores ou atributos-chave para a análise do negócio. Por
exemplo, risco de crédito depende de valor-renda e histórico de pagamento
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Análise
O objetivo da fase de análise é descobrir padrões e tendências escondidos 
nas grandes massas de dados. 
Esse processo evolve tarefas e técnicas. 
As tarefas são classes de problemas que foram definidas através de estudos 
na área. 
As técnicas são grupos de solução (algoritmos) para os problemas propostos 
nas tarefas. 
06/11/2014
9
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Esses modelos de garimpagem de dados podem ser usados de forma 
integrada, realizando análises em cascata, com operadores aplicados sobre 
resultados de outros operadores. 
Por exemplo, uma análise de associação de dados de compras é efetuada para 
identificar produtos comprados em conjunto. O resultado pode ser analisado 
para se definir classes desses produtos.
 associação;
 padrões seqüenciais;
 classificação
 agregação;
 estimativa (ou regressão)
As principais tarefas definidas para a análise dos dados no processo de 
garimpagem de dados são:
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Associação
É definida como a função que indica um coeficiente de afinidade entre registros 
de determinados fatos. Como certos fatos e eventos acontecem associados? 
Qual a influência que um impõe ao outro?
A associação está, normalmente, relacionada com as aplicações que buscam 
identificar os produtos de uma cesta de supermercado ou equivalentes. 
Com que porcentagem um produto X é comprado na mesma transação com o 
produto Y? qual o valor médio das compras em que esses itens aparecem em 
conjunto? Qual o lucro médio dessas transações? Teria sentido colocá-los em 
promoção no mesmo período? Os resultados desta análise podem ser úteis na 
elaboração de catálogos e layout de prateleiras de modo que produtos a serem 
adquiridos na mesma compra fiquem próximos um do outro.
Essa tarefa é considerada descritiva, ou seja, ela é usada para identificar 
padrões em dados históricos.
06/11/2014
10
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Genericamente, uma regra de associação é representada pela notação X => Y 
(X implica em Y), onde X e Y são conjuntos de itens distintos. Esta implicação é 
avaliada através dos fatores: suporte e confiança.
O suporte de uma regra representa o percentual das transações em que tal 
regra aparece. 
Suponha uma grande rede de música no Brasil. Analisando-se um data 
warehouse contendo os registros diários de venda dessa rede de lojas, faz-se 
as seguintes perguntas:
§ Qual a associação entre música sertaneja e pagode compradas na mesma
transação?
§ O que deve ser feito para incrementar a venda de pagode?
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Como um exemplo didático e simplificados, 
considere que na análise das transações 
dessa rede de lojas encontraram-se os 
seguintes registros de compras de gênero 
musical nas dez transações analisadas:
1. pagode, sertanejo, clássico, 
samba
2. clássico, samba
3. pagode, sertanejo, samba
4. sertanejo, clássico, samba
5. samba
6. clássico
7. pagode, clássico
8. sertanejo
9. pagode, sertanejo, samba
10
.
pagode, sertanejo, clássico, 
samba
06/11/2014
11
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Efetuando-se uma análise de associação nesses dados, obtêm-se alguns 
coeficientes como:
§ Valor de confiança (confidence) da regra, ou seja, a probabilidade da cesta
contendo sertanejo conter também pagode:
 sertanejo aparece em seis transações;
 pagode aparece em conjunto com sertanejo em quatro;
confidence = 4/6 (67%). Quanto maior esse valor, mais forte é a correlação.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
§ Valor de suporte (support) da regra:
 pagode e sertanejo aparecem juntos em quatro transações;
 total de transações = 10;
 support = 4/10 (40%). Quanto maior esse valor, maior a probabilidade
de que a regra seja válida.
§ Valor de alavancagem (lift) da regra:
 pagode aparece em 5 das 10 transações; minha probabilidade de
achar pagode em uma venda é 5/10 = 50%;
 pagode aparece em 4 das 6 transações com sertanejo; a
probabilidade de que exista uma associação com sertanejo é 4/6 =
67%;
06/11/2014
12
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
 lift = 67/50 = 1,34. esse valor indica quantas vezes a associação com
sertanejo aumente a probabilidade de se vender pagode. Nessa amostra
há indicação de que existe 1,34 vezes mais chance de vender pagode
quando associado a sertanejo.
A análise dessas informações possibilita conclusões como:
§ Posso aumentar a venda de pagodes, promovendo a venda de
sertanejos.
§ As lojas deveriam ter sempre os dois gêneros disponíveissimultaneamente.
§ Promoções para o gênero de sertanejo são mais interessantes do que
para o gênero de pagode.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
- Padrões seqüenciais
São definidos como processos que visam a identificação de fatos que 
implicam em outros fatos, em momentos diferentes do tempo. 
Aqui o tempo entre os dois eventos é considerado. 
Análises de comportamento de fraudes e evolução de perfis de 
consumidores se encaixam nesse exemplo.
Esses padrões seqüências poderiam indicar, por exemplo no mercado 
financeiro, que quando uma determinada ação X tem seu preço aumentado 
em 10% durante um período de 5 dias, uma outra ação Y será aumentada 
de 5 a 8% na semana subseqüente.
Esta tarefa é considerada descritiva.
06/11/2014
13
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
- Classificação
A classificação consiste em examinar as características de um objeto (ou 
situação) e atribuir a ela uma classe pré-definida. Ou seja, esta tarefa objetiva a 
construção de modelos que permitam o agrupamento de dados em classes
Esta tarefa é considerada preditiva, pois uma vez que as classes são 
definidas, ela pode prever automaticamente a classe de um novo dado.
Por exemplo, uma população pode ser dividida em categorias para avaliação 
de concessão de crédito com base em um histórico de transações de créditos 
anteriores. 
Em seguida, uma nova pessoa pode ser enquadrada, automaticamente, em 
uma categoria de crédito específica, de acordo com suas características (atraso 
de pagamento, classe sócio-econômica, idade, etc).
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Para gerar um modelo que seja capaz de gerar classificações para novos 
objetos ou novos dados, devem ser considerados dois tipos de atributos 
que caracterizam o objeto: 
Atributos preditivos, cujos valores irão influenciar no processo de 
determinação da classe e 
Atributos objetivos, que indicam a classe a qual o objeto 
pertence. 
Assim, a classificação visa descobrir algum tipo de relacionamento entre 
os atributos preditivos e objetivos. 
A principal técnica utilizada para esta tarefa é a árvore de classificação.
06/11/2014
14
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Exemplo
Suponha uma aplicação que analise dados de clientes, visando a aprovação 
ou não (atributo objetivo) de crédito para empréstimo pessoal. 
Neste banco de dados, existem pessoas adimplentes e inadimplentes sendo 
cada classe caracterizada por algum tipo de padrão.
Neste processo, os clientes do banco de dados cujo campo resultado venha a 
ter o valor não, representarão os inadimplentes. 
Para poder preencher esse campo, serão consideradas as características dos 
clientes (atributos preditivos) existentes no banco de dados. 
Nesse exemplo, os atributos preditivos são cargo e tempo (de trabalho) .
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
O processo pode ser dividido em duas fases.
Na primeira fase, um modelo é construído, descrevendo um conjunto pré-
determinado de classes (neste caso, SIM ou NÃO). 
Em seguida, um conjunto de treinamento é analisado por um algoritmo de 
classificação, que gerar como saída um modelo baseado numa árvore de 
classificação
06/11/2014
15
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Na segunda fase, o modelo gerado pela fase 1 é utilizado para classificação. Depois 
disso, é realizado um teste de aprimoramento que poderá sugerir novas regras. Se 
estas forem aceitáveis poderão ser utilizadas para a classificação de novos casos 
06/11/2014
16
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Para o modelo gerado, pode-se ter a representação visual em árvore 
apresentada na Figura abaixo
Árvore de decisão
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
- Agregação
As informações podem ser particionadas em classes de elementos similares. 
Neste caso, nada é informado ao sistema a respeito das classes existentes. O 
próprio algoritmo descobre as classes a partir das alternativas encontradas na 
base de dados, agrupando assim um conjunto de objetos em classes de objetos 
semelhantes.
Por exemplo, uma população inteira de dados sobre tratamento de uma 
doença pode ser dividida em grupos baseados na semelhança de efeitos 
colaterais produzidos; acessos a web realizados por um conjunto de 
documentos podem ser analisados para revelar clusters ou categorias de 
usuários.
Esta tarefa é considerada descritiva.
06/11/2014
17
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Na tarefa de classificação, os registros são subdivididos em classes pré-
definidas. 
Já na agregação, não há necessidade que se definam essas classes, pois 
estas são identificadas durante o processo, de forma automática. 
Neste caso, os registros são agrupados com base em similaridades. 
Na agregação não há atributo especial. A importância de cada atributo em 
geral é considerada equivalente à dos demais.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
A idéia é que o algoritmo de agregação identifique automaticamente 
comportamentos similares em uma base de dados, dividindo a massa de 
informação em agregações. 
Após o processo de agregação, o analista deve estudar os padrões 
identificados a fim de determinar se eles podem ser transformados em 
conhecimento estratégico.
Observe que a agregação não responde porquê os padrões existem, ela 
apenas os identifica.
06/11/2014
18
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Dados de uma tabela Agregações encontradas
Observe que a agregação não responde porquê os padrões existem, ela 
apenas os identifica.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
- Estimativa (ou regressão)
Esta tarefa objetiva definir um valor (numérico) de alguma variável 
desconhecida a partir dos valores de variáveis conhecidas.
Exemplos de aplicações são: estimar a probabilidade de um paciente 
sobreviver dado o resultado de um conjunto de diagnósticos de exames; 
predizer quantos carros passam em determinado pedágio, tendo alguns 
exemplos contendo informações como cidades mais próximas, preço do 
pedágio, dia da semana, rodovia em que o pedágio está localizado, entre 
outros
Essa tarefa é considerada preditiva.
06/11/2014
19
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Data Mining – Mineração de dados
Aplicação
Depois de definido e testado o modelo, a aplicação se dá pela utilizaçãodos 
algoritmos definidos na análise ajustados em situações reais.
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Bibliografia
• Este material foi construído a partir de 
diversas fontes, muitas sem créditos 
assinalados, o que impossibilita a referência 
aqui. Caso alguém se sinta prejudicado por 
uso de informações não creditadas, por 
favor entrar em contato com o professor. As 
demais fontes estão listadas a seguir:
• Blog do Lito – Data Warehouse / Business 
Intelligence – http://www.litolima.com/
172
06/11/2014
20
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
Bibliografia
• Introdução ao Data Warehouse - Revista SQL 
Magazine nº 109;
173
Escola de Ciência e Tecnologia
Curso: Sistemas de Informação
Disciplina: Inteligência de Negócios – Professor Anderson Nascimento
FIM
174

Continue navegando