A maior rede de estudos do Brasil

Grátis
20 pág.
MT803-2012-Aula-01-Apres+Dicas+IntroDM

Pré-visualização | Página 2 de 4

MT-803: Introdução à Mineração de Dados – Aula 1 25
Critérios para avaliar uma revisão
�Respostas: 
�Procure mencionar o problema e sua solução 
com as suas próprias palavras.
�Descreva os principais pontos do artigo sem 
detalhes desnecessários.
�Suas respostas devem ser claras e precisas.
MT-803: Introdução à Mineração de Dados – Aula 1 26
Detalhes importantes
� Comece lendo o resumo; depois vá para as 
conclusões.
� Em seguida, leia a introdução e demais seções.
� A introdução deveria conter:
�O problema de pesquisa e sua solução;
�As principais contribuições do artigo;
�Um mapa (roteiro) das seções do artigo.
MT-803: Introdução à Mineração de Dados – Aula 1 27
Detalhes importantes
�Em geral, as conclusões ressaltam:
�A solução do problema de pesquisa (de 
forma sucinta);
�As contribuições do artigo;
�Os principais resultados alcançados;
�Trabalhos futuros.
MT-803: Introdução à Mineração de Dados – Aula 1 28
Questões a serem respondidas
1. Qual é o problema que está sendo abordado?
2. Como os autores solucionaram o problema?
3. Quais são as diferenças entre o artigo que está
sendo revisado com os trabalhos relacionados?
4. Quais são as principais contribuições do artigo?
5. Quais são os pontos fracos e fortes do artigo?
6. Como os autores poderiam melhorar o conteúdo e 
a apresentação do artigo?
7. Qual seria o público alvo para o artigo revisado?
MT-803: Introdução à Mineração de Dados – Aula 1 29
Próximos Passos
� Revisar o artigo abaixo:
Gustavo E. A. P. A. Batista; Ronaldo C. Prati; Maria 
Carolina Monard. A Study of the Behavior of Several 
Methods for Balancing Machine Learning Training 
Data. SIGKDD Explorations, 6(1):20-29, 2004.
� Importante:
�Entregar a revisão até a próxima aula;
�Será dado um “feedback” a todos os alunos;
�Essa revisão não terá nota. Servirá como exercício.
Introdução à Mineração 
de dados
Conhecimento
MT-803: Introdução à Mineração de Dados – Aula 1 31
O Problema da Explosão de Dados
� Informatização generalizada
�negócios, governos, pesquisas
�Armazenamento
�maior capacidade, menor custo
�Evolução da coleta de dados
�Leitores de código de barras, Sensores, ...
MT-803: Introdução à Mineração de Dados – Aula 1 32
� Quantidades gigantescas de dados 
são coletados e armazenados em 
empresas, corporações, etc:
� Dados de comércio eletrônico;
� Dados de navegação na internet;
� Dados de compras de clientes em 
grandes lojas de departamentos, 
supermercados;
� Dados de transações bancárias, ou de 
cartão de crédito.
Ponto de Vista ComercialPonto de Vista Comercial
O Problema da Explosão de Dados
MT-803: Introdução à Mineração de Dados – Aula 1 33
� Dados coletados e armazenados
a velocidades enormes (GB/hora)
� Sensores remotos em satélites;
� Telescópios;
� Microarrays gerando dados de 
expressões de genes;
� Simulações científicas gerando terabytes
de dados.
� Técnicas tradicionais não apropriadas 
para analisar tais dados:
� ruídos e grande dimensionalidade.
Ponto de Vista Científico: Medicina, Biologia, Engenharia
O Problema da Explosão de Dados
MT-803: Introdução à Mineração de Dados – Aula 1 34
� A quantidade de informação é duplicada a cada 
dois anos.
�Muitas empresas usam apenas 7% dos dados 
coletados.
� Somos ricos em dados e pobres em 
informação e conhecimento.
� Necessidade: técnicas para explorar grande 
volume de dados e transformar esses dados em 
conhecimento.
Efeitos da Explosão de Dados
MT-803: Introdução à Mineração de Dados – Aula 1 35
� Existem informações escondidas nos dados que não são 
evidentes – muitos conjuntos de dados nunca são analisados.
� Analistas levariam semanas para analisar parte desses dados.
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
4,000,000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of 
analysts
Fonte: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
Efeitos da Explosão de Dados ...
MT-803: Introdução à Mineração de Dados – Aula 1 36
Dado, Informação e Conhecimento
� Dado é algo bruto; é a matéria-prima da qual podemos 
extrair informação.
� Informação é o dado processado, com significado e 
contexto bem definido. 
� Conhecimento é o uso inteligente da informação; é a 
informação contextualizada e utilizada na prática.
Dados Informação Conhecimento
operações lógicas interpretações
MT-803: Introdução à Mineração de Dados – Aula 1 37
�O processo da descoberta de novas 
informações a partir de grandes massas de 
dados.
� Descoberta de padrões não triviais, implícitos
e desconhecidos) em grandes bases de dados.
� Processo de extração de modelos úteis de um 
conjunto de dados.
O que é mineração de dados?
MT-803: Introdução à Mineração de Dados – Aula 1 38
Diferentes pontos de vista
�Databases: Concentra-se em conjuntos de 
dados gigantes (non-main-memory).
�AI (machine-learning): concentra-se em 
modelos complexos, mesmo que os conjuntos 
de dados sejam pequenos. 
�Statistics: concentra-se em modelos.
MT-803: Introdução à Mineração de Dados – Aula 1 39
Modelos x Processamento Analítico
�Para um especialista em Banco de Dados, 
data mining é uma forma de processamento 
analítico – consultas que examinam grandes 
quantidades de dados.
�O resultado é um conjunto de respostas (padrões, 
sequências, regras, agrupamento de objetos, etc).
�Para um estatístico, data mining é um 
processo de inferência de modelos.
�O resultado é uma lista de parâmetros do 
modelo.
MT-803: Introdução à Mineração de Dados – Aula 1 40
Mineração de Dados: Por que ?
� Técnicas de Mineração podem ajudar analistas:
� Entender e prever as necessidades de clientes;
� Descobrir fraudes;
� Descobrir perfis de comportamento de clientes.
� Técnicas de Mineração podem ajudar cientistas:
� Classificar e segmentar dados;
� Formular hipóteses.
MT-803: Introdução à Mineração de Dados – Aula 1 41
Consulta versus Mineração
O que é Mineração de Dados?
� Que produtos são comprados por clientes Classe A ?
T3CPão3
T4AQueijo1
T5CLeite4
T4AVinho1
T3CLeite3
T1AQueijo1
T2BAçúcar2
T1AVinho1
Tempo
Classe 
Social
ProdutoCliente
MT-803: Introdução à Mineração de Dados – Aula 1 42
Consulta e Resultado
SELECT Clientes.Prod
FROM Clientes
WHERE Clientes. Faixa = ‘A’
RESPOSTA: Vinho, Queijo
MT-803: Introdução à Mineração de Dados – Aula 1 43
Consulta versus Mineração
� Existe ligação entre a classe social e produtos
comprados numa mesma transação ?
T3CPão3
T4AQueijo1
T5CLeite4
T4AVinho1
T3CLeite3
T1AQueijo1
T2BAçúcar2
T1AVinho1
Tempo
Classe 
Social
ProdutoCliente
MT-803: Introdução à Mineração de Dados – Aula 1 44
Resultado da Mineração 
PADRÕES:
Classe A -> vinho, queijo
Classe C -> pão, leite
…
MT-803: Introdução à Mineração de Dados – Aula 1 45
Mineração de Dados: O que é ?
� Sim
1.Agrupar documentos 
similares retornados pelo 
Google de acordo com 
seu contexto.
2. Descobrir se certos 
nomes aparecem com 
mais frequência em 
determinadas regiões da 
cidade (periferia, centro, 
bairros abastados,…)
� Não
1. Fazer uma 
consulta no 
Google sobre 
“Data Mining ”. 
2. Procurar um 
nome numa lista 
telefônica.
3. Fazer uma 
consulta SQL a 
um banco de 
dados.
MT-803: Introdução à Mineração de Dados – Aula 1 46
Exemplos
� Qual o perfil do cliente que consome mais ?
� Que produtos são comprados conjuntamente ? E 
em sequência ?
� Meu site web tem uma boa estrutura ?
� Como as chuvas, variação de temperatura, 
aplicação de pesticidas afetam as colheitas ?
� Existe uma relação entre o aquecimento global e a 
frequência e intensidade das perturbações no 
ecossistema tais como secas, furacões, 
enchentes? 
MT-803: Introdução à Mineração de Dados – Aula 1 47
Mineração: Área Multidiciplinar
Mineração
de Dados
Inteligência
Artificial
Visualização
Banco de
Dados
Estatística
Outras
Disciplinas
Otimização
MT-803: Introdução à Mineração de Dados – Aula 1 48
Influência das Disciplinas
Aprendizado de Máquina

Crie agora seu perfil grátis para visualizar sem restrições.