MT803-2012-Aula-01-Apres+Dicas+IntroDM
20 pág.

MT803-2012-Aula-01-Apres+Dicas+IntroDM


DisciplinaIntrodução à Probabilidade e A Estatística II218 materiais1.685 seguidores
Pré-visualização4 páginas
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 25
Critérios para avaliar uma revisão
\ufffdRespostas: 
\ufffdProcure mencionar o problema e sua solução 
com as suas próprias palavras.
\ufffdDescreva os principais pontos do artigo sem 
detalhes desnecessários.
\ufffdSuas respostas devem ser claras e precisas.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 26
Detalhes importantes
\ufffd Comece lendo o resumo; depois vá para as 
conclusões.
\ufffd Em seguida, leia a introdução e demais seções.
\ufffd A introdução deveria conter:
\ufffdO problema de pesquisa e sua solução;
\ufffdAs principais contribuições do artigo;
\ufffdUm mapa (roteiro) das seções do artigo.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 27
Detalhes importantes
\ufffdEm geral, as conclusões ressaltam:
\ufffdA solução do problema de pesquisa (de 
forma sucinta);
\ufffdAs contribuições do artigo;
\ufffdOs principais resultados alcançados;
\ufffdTrabalhos futuros.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 28
Questões a serem respondidas
1. Qual é o problema que está sendo abordado?
2. Como os autores solucionaram o problema?
3. Quais são as diferenças entre o artigo que está
sendo revisado com os trabalhos relacionados?
4. Quais são as principais contribuições do artigo?
5. Quais são os pontos fracos e fortes do artigo?
6. Como os autores poderiam melhorar o conteúdo e 
a apresentação do artigo?
7. Qual seria o público alvo para o artigo revisado?
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 29
Próximos Passos
\ufffd Revisar o artigo abaixo:
Gustavo E. A. P. A. Batista; Ronaldo C. Prati; Maria 
Carolina Monard. A Study of the Behavior of Several 
Methods for Balancing Machine Learning Training 
Data. SIGKDD Explorations, 6(1):20-29, 2004.
\ufffd Importante:
\ufffdEntregar a revisão até a próxima aula;
\ufffdSerá dado um \u201cfeedback\u201d a todos os alunos;
\ufffdEssa revisão não terá nota. Servirá como exercício.
Introdução à Mineração 
de dados
Conhecimento
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 31
O Problema da Explosão de Dados
\ufffd Informatização generalizada
\ufffdnegócios, governos, pesquisas
\ufffdArmazenamento
\ufffdmaior capacidade, menor custo
\ufffdEvolução da coleta de dados
\ufffdLeitores de código de barras, Sensores, ...
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 32
\ufffd Quantidades gigantescas de dados 
são coletados e armazenados em 
empresas, corporações, etc:
\ufffd Dados de comércio eletrônico;
\ufffd Dados de navegação na internet;
\ufffd Dados de compras de clientes em 
grandes lojas de departamentos, 
supermercados;
\ufffd Dados de transações bancárias, ou de 
cartão de crédito.
Ponto de Vista ComercialPonto de Vista Comercial
O Problema da Explosão de Dados
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 33
\ufffd Dados coletados e armazenados
a velocidades enormes (GB/hora)
\ufffd Sensores remotos em satélites;
\ufffd Telescópios;
\ufffd Microarrays gerando dados de 
expressões de genes;
\ufffd Simulações científicas gerando terabytes
de dados.
\ufffd Técnicas tradicionais não apropriadas 
para analisar tais dados:
\ufffd ruídos e grande dimensionalidade.
Ponto de Vista Científico: Medicina, Biologia, Engenharia
O Problema da Explosão de Dados
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 34
\ufffd A quantidade de informação é duplicada a cada 
dois anos.
\ufffdMuitas empresas usam apenas 7% dos dados 
coletados.
\ufffd Somos ricos em dados e pobres em 
informação e conhecimento.
\ufffd Necessidade: técnicas para explorar grande 
volume de dados e transformar esses dados em 
conhecimento.
Efeitos da Explosão de Dados
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 35
\ufffd Existem informações escondidas nos dados que não são 
evidentes \u2013 muitos conjuntos de dados nunca são analisados.
\ufffd Analistas levariam semanas para analisar parte desses dados.
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
4,000,000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of 
analysts
Fonte: R. Grossman, C. Kamath, V. Kumar, \u201cData Mining for Scientific and Engineering Applications\u201d
Efeitos da Explosão de Dados ...
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 36
Dado, Informação e Conhecimento
\ufffd Dado é algo bruto; é a matéria-prima da qual podemos 
extrair informação.
\ufffd Informação é o dado processado, com significado e 
contexto bem definido. 
\ufffd Conhecimento é o uso inteligente da informação; é a 
informação contextualizada e utilizada na prática.
Dados Informação Conhecimento
operações lógicas interpretações
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 37
\ufffdO processo da descoberta de novas 
informações a partir de grandes massas de 
dados.
\ufffd Descoberta de padrões não triviais, implícitos
e desconhecidos) em grandes bases de dados.
\ufffd Processo de extração de modelos úteis de um 
conjunto de dados.
O que é mineração de dados?
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 38
Diferentes pontos de vista
\ufffdDatabases: Concentra-se em conjuntos de 
dados gigantes (non-main-memory).
\ufffdAI (machine-learning): concentra-se em 
modelos complexos, mesmo que os conjuntos 
de dados sejam pequenos. 
\ufffdStatistics: concentra-se em modelos.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 39
Modelos x Processamento Analítico
\ufffdPara um especialista em Banco de Dados, 
data mining é uma forma de processamento 
analítico \u2013 consultas que examinam grandes 
quantidades de dados.
\ufffdO resultado é um conjunto de respostas (padrões, 
sequências, regras, agrupamento de objetos, etc).
\ufffdPara um estatístico, data mining é um 
processo de inferência de modelos.
\ufffdO resultado é uma lista de parâmetros do 
modelo.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 40
Mineração de Dados: Por que ?
\ufffd Técnicas de Mineração podem ajudar analistas:
\ufffd Entender e prever as necessidades de clientes;
\ufffd Descobrir fraudes;
\ufffd Descobrir perfis de comportamento de clientes.
\ufffd Técnicas de Mineração podem ajudar cientistas:
\ufffd Classificar e segmentar dados;
\ufffd Formular hipóteses.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 41
Consulta versus Mineração
O que é Mineração de Dados?
\ufffd Que produtos são comprados por clientes Classe A ?
T3CPão3
T4AQueijo1
T5CLeite4
T4AVinho1
T3CLeite3
T1AQueijo1
T2BAçúcar2
T1AVinho1
Tempo
Classe 
Social
ProdutoCliente
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 42
Consulta e Resultado
SELECT Clientes.Prod
FROM Clientes
WHERE Clientes. Faixa = \u2018A\u2019
RESPOSTA: Vinho, Queijo
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 43
Consulta versus Mineração
\ufffd Existe ligação entre a classe social e produtos
comprados numa mesma transação ?
T3CPão3
T4AQueijo1
T5CLeite4
T4AVinho1
T3CLeite3
T1AQueijo1
T2BAçúcar2
T1AVinho1
Tempo
Classe 
Social
ProdutoCliente
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 44
Resultado da Mineração 
PADRÕES:
Classe A -> vinho, queijo
Classe C -> pão, leite
\u2026
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 45
Mineração de Dados: O que é ?
\ufffd Sim
1.Agrupar documentos 
similares retornados pelo 
Google de acordo com 
seu contexto.
2. Descobrir se certos 
nomes aparecem com 
mais frequência em 
determinadas regiões da 
cidade (periferia, centro, 
bairros abastados,\u2026)
\ufffd Não
1. Fazer uma 
consulta no 
Google sobre 
\u201cData Mining \u201d. 
2. Procurar um 
nome numa lista 
telefônica.
3. Fazer uma 
consulta SQL a 
um banco de 
dados.
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 46
Exemplos
\ufffd Qual o perfil do cliente que consome mais ?
\ufffd Que produtos são comprados conjuntamente ? E 
em sequência ?
\ufffd Meu site web tem uma boa estrutura ?
\ufffd Como as chuvas, variação de temperatura, 
aplicação de pesticidas afetam as colheitas ?
\ufffd Existe uma relação entre o aquecimento global e a 
frequência e intensidade das perturbações no 
ecossistema tais como secas, furacões, 
enchentes? 
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 47
Mineração: Área Multidiciplinar
Mineração
de Dados
Inteligência
Artificial
Visualização
Banco de
Dados
Estatística
Outras
Disciplinas
Otimização
MT-803: Introdução à Mineração de Dados \u2013 Aula 1 48
Influência das Disciplinas
Aprendizado de Máquina