Buscar

análise de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 85 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 85 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 85 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Gestão e Análise 
de dados 
Prof. Thiago P. Pimentel 
 
pimentel.thiago@gmail.com 
Professor 
 Graduado em Estatística - UERJ 
 Pós graduado em Inteligência de mercado – UERJ 
 MBA executivo em Gestão em serviços – UFRJ 
 Certificação Internacional – Gerenciamento de dados estratégicos – Deloitte 
 Mestrado em Engenharia de Computação - IME 
Algumas empresas no qual tive a oportunidade de trabalhar.... 
Objetivos 
 Conhecer os fundamentos e as principais técnicas e algoritmos da área de 
Ciência de Dados. 
 
 Compreender o potencial da Ciência de Dados para a construção de métodos de 
apoio à decisão. 
 
 Desenvolver um raciocínio crítico, lógico e analítico voltado à concepção de 
soluções envolvendo a aplicação de recursos de Ciência de Dados. 
 
 Aplicar os conhecimentos assimilados em problemas de natureza diversa. 
Bibliografia 
 Goldschmidt, R., Passos, E., Bezerra, E. DataMining: Um Guia Prático. 2ªed., 
RiodeJaneiro: Elsevier, 2015. 
 
 Faceli, K., Lorena, A.C., Gama, J., Carvalho, A. C. P. Inteligência Artificial: Uma 
Abordagem de Aprendizado de Máquina. RiodeJaneiro:LTC,2011. 
 
 Mitchell, T. M. Machine Learning. McGraw-Hill, 1997. 
 
 Russell, S., Norvig, P. Inteligência Artificial. 3aed., Rio de Janeiro: Elsevier, 2013. 
 
 
 Coleta de dados em vários formatos, por meio de diversos recursos/aplicações 
em várias áreas: 
 
 Internet, dispositivos móveis, sensores, sistemas de automação, 
sistemas de informação,... 
 
 Redes sociais, redes de telecomunicações, operações com cartões de 
crédito,... 
 
 Governo, (Bio)Ciências, Marketing, Finanças, Seguros, Segurança,... 
 
 IoT (Internet of Things – Internet das Coisas) 
 
 
 Quanta informação é criada a cada ano? 
 
POSICIONAMENTO E MOTIVAÇÃO 
 
Ainda, Segundo a revista Science (2011) : o mundo foi capaz de armazenar 
295 exabytes de informação no ano de 2007. 
 
– 1 exabyte= 1 bilhão de gigabytes 
– Cerca de 800 megabytes para cada ser humano. 
– Equivalente ao conteúdo textual de mais de 300 livros. 
 
Atualmente a NASA possui dados na ordem de bilhões de gigabytes. 
 
Estima-se que em 2020, a humanidade disporá de 44zettabytes de dados. 
– 1 zettabyte = 1 trilhão de gigabytes 
 
– Taxa de crescimento de dados mundial em torno de 40% ao ano na próxima 
década. 
 
 
Fontes: 
www.sciencemag.org/content/early/2011/02/09/science.1200970.full.pdf 
http://www.nasa.gov/open/plan/data-gov.html 
www.emc.com/leadership/digital-universe/index.htm 
POSICIONAMENTO E MOTIVAÇÃO 
POSICIONAMENTO E MOTIVAÇÃO 
Grandes Desafios da Pesquisa em Computação no Brasil (SBC, 2014) 
Gestão da Informação em Grandes Volumes de Dados Multimídia Distribuídos 
Astronomia 
Biologia 
Defesa 
Educação 
Energia 
Engenharia 
Esporte 
Física 
Saúde 
Etc... 
 
Computação 
Gestão de Dados 
Análise de Dados 
Temas Relacionados 
Workflows Científicos 
Procedência de Dados 
Web Semântica 
Mineração de Dados 
Machine Learning 
Etc... 
Ciência Interdisciplinar – Perspectiva Global 
Ciência da 
Computação 
Matemática 
e Estatística 
Domínio de 
Aplicação 
Ciência 
de 
Dados 
POSICIONAMENTO E MOTIVAÇÃO 
Ciência Interdisciplinar – Perspectiva da Computação 
COMP. ALTO DESEMPENHO SISTEMAS DE INFORMAÇÃO 
IHM 
BANCO DE DADOS 
APRENDIZADO DE MÁQUINA 
INTELIGÊNCIA ARTIFICIAL 
Ciência de Dados 
... 
POSICIONAMENTO E MOTIVAÇÃO 
Ciência Interdisciplinar – Perspectiva da Matemática/Estatística 
PROBABILIDADE GRAFOS 
CÁLCULO 
... 
ÁLGEBRA LINEAR 
ANÁLISE NUMÉRICA 
INFERÊNCIA ESTATÍSTICA 
Ciência de Dados 
POSICIONAMENTO E MOTIVAÇÃO 
Uma Proposta (Porto e Ziviani, 2014) 
Gestão de Dados 
Análise de 
Dados 
Exemplos de Rede Complexa 
LINHAS DE PESQUISA EM CIÊNCIA DE DADOS 
Análise de 
Redes Complexas 
Hierarquia Dado - Informação - Conhecimento: 
CONHECIMENTO 
INFORMAÇÃO 
DADO 
2.345,20; 463,00; 10.048,21; 294,12 
Capacidade de Endividamento Mensal = 1 – Despesa Mensal / Renda Mensal 
SE Capacidade de Endividamento Mensal > 0.6 ENTÃO Crédito = Sim 
Renda Mensal, Despesa Mensal 
CONCEITOS EM ANÁLISE DE DADOS 
Registros de Dados em Espaços n-Dimensionais 
Conceito de similaridade ou distância entre pontos (vetores). 
Menor a distância entre 2 pontos  Maior a similaridade entre os objetos 
representados. 
Dados 
CONCEITOS EM ANÁLISE DE DADOS 
Dados 
Modelo de 
Conhecimento 
Pré-Processamento Pós-ProcessamentoMineração de Dados
Etapas Operacionais do Processo de KDDEtapas Operacionais do Processo de KDD
Especialista em KDDEspecialista em KDDEspecialista de DomínioEspecialista de Domínio
Interação
Iteração
Redução de Dados 
Limpeza 
Codificação 
Criação de Atributos 
Enriquecimento 
Busca por Modelos 
(de Conhecimento) 
Simplificação de Modelos 
Conversão de Modelos 
Visualização de Modelos 
etc .... 
Processo de Análise de Dados 
CONCEITOS EM ANÁLISE DE DADOS 
Macro-Objetivos (Tarefas) do Processo de Análise: 
• Predição: Histórico x Novas Situações 
• Descrição: Modelo Descritivo do Conhecimento 
Orientação do Processo de Análise: 
• Para Verificação: Hipótese Postulada x Validação 
• Para Descoberta: Extração de novos conhecimentos 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Tarefa Preditiva – Regressão 
Saída do modelo: atributo quantitativo 
... 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Tarefa Preditiva – Classificação 
Saída do modelo: atributo qualitativo (valores são rótulos pré-definidos) 
... 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Tarefa Preditiva – Predição de Ligações 
Aplicável em Redes Complexas (Grafos). 
5 
1 
2 
4 
3 
? 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Tarefa Descritiva – Descoberta de Associações 
• Regra de Associação: 
– X  Y, X e Y conjuntos de itens tal que: X  Y =  
– Regra frequente: sup(Ri)=|X e Y| / |D| >= MinSup 
– Regra válida: conf(Ri)=|X e Y| / |X| >= MinConf 
• Exemplos de Regras de Associação: 
– Café  Pão 
– Café  Pão  Leite 
– Fralda  Cerveja (???) 
Trans Leite Café Cerveja Pão Manteiga Arroz Feijão 
1 Não Sim Não Sim Sim Não Não 
2 Sim Não Sim Sim Sim Não Não 
3 Não Sim Não Sim Sim Não Não 
4 Sim Sim Não Sim Sim Não Não 
5 Não Não Sim Não Não Não Não 
6 Não Não Não Não Sim Não Não 
7 Não Não Não Sim Não Não Não 
8 Não Não Não Não Não Não Sim 
9 Não Não Não Não Não Sim Sim 
10 Não Não Não Não Não Sim Não 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Tarefa Descritiva – Clusterização 
Não envolve rótulos pré-definidos 
CONCEITOS EM ANÁLISE DE DADOS 
Diferentes características x Diferentes agrupamentos 
Exemplo de Tarefa Descritiva – Clusterização 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Tarefa Descritiva – Sumarização 
Perfil Cliente: 
Idade entre 30 e 40 anos 
Renda acima de 10k 
Escolaridade = Pós-Graduação 
… 
Pode ser precedida (resp. sucedida) pela tarefa de clusterização (resp. classificação). 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Tarefa Descritiva – Detecção de Comunidades 
7 5 
6 8 
3 
4 
2 
1 
CONCEITOS EM ANÁLISE DE DADOS 
Tarefas de mineração de dados são implementadas por algoritmos que 
analisam conjuntos de dados históricos em busca (indução) de hipóteses 
(funções) capazes de descrever as relações entre os dados. 
ƒ  ƒ 
^ 
L 
Dados 
CONCEITOS EM ANÁLISE DE DADOS 
• Todo algoritmo de análise de dados utiliza: 
– Um viés de representação para descrever as hipóteses. 
– Um viés de busca que define a forma como as hipóteses 
são pesquisadas no espaço de hipóteses. 
Exemplos de Viés de Representação 
CONCEITOS EM ANÁLISE DE DADOS 
Exemplo de Processamento de Hipótese Induzida 
Rede Neural MLP – Tarefa de Classificação 
CONCEITOS EM ANÁLISE DE DADOS 
Algoritmos Baseados em Aprendizagem Profunda 
• RNAs que realizam o aprendizado de forma hierárquica: 
– Características nos níveis mais altos da hierarquia são 
formadas pela combinação de características de mais baixo 
nível. 
CONCEITOS EM ANÁLISEDE DADOS 
Algoritmos Baseados em Aprendizagem Profunda 
• Aprendizagem de representações automatizada (ou, 
pelo menos, simplificada) 
CONCEITOS EM ANÁLISE DE DADOS 
Tarefas de Análise de Dados Algoritmos de Análise de Dados 
Descoberta de Associações Basic, Apriori, DHP, Partition, DIC, ASCX-2P 
Classificação Redes Neurais (Ex: MLP com Back-Propagation), 
C4.5, Rough Sets, Algoritmos Genéticos (Ex: 
Rule Evolver), CART, K-NN, Classificadores 
Bayesianos, SVM 
Regressão Redes Neurais (Ex: Redes MLP com Back-
Propagation), Lógica Nebulosa (Ex: Wang-
Mendel) 
Sumarização C4.5, Algoritmos Genéticos (Ex: Rule Evolver) 
Clusterização K-Means, K-Modes, K-Prototypes, Fuzzy K-
Means, EM, DBSCAN, Algoritmos Genéticos, 
Redes Neurais (Ex: Kohonen) 
Previsão de Séries Temporais Redes Neurais (Ex: Redes MLP com Back-
Propagation), Lógica Nebulosa (Ex: Wang-
Mendel) 
CONCEITOS EM ANÁLISE DE DADOS 
“BUSCA” VS “DESCOBERTA” 
Data 
Mining 
Data 
Retrieval 
Information 
Retrieval 
Busca Descoberta 
Dados 
estruturados 
Dados não-estruturados 
(Texto) 
Text 
Mining 
CONCEITOS EM ANÁLISE DE DADOS 
• Há vários tipos de “mining” : 
– Data Mining 
– Multimídia Mining (Som, Imagem, …) 
– Text Mining 
– Graph Mining 
– Web Mining 
– Educational Data Mining (EDM) 
– Social Data Mining 
– Opinion Mining. 
 
• Terminologia acima não é um consenso. 
CONCEITOS EM ANÁLISE DE DADOS 
DESCOBERTA DE CONHECIMENTO - UMA TAXONOMIA 
Descoberta de 
Conhecimento 
Dados Estruturados Dados Textuais Dados Multimídia 
Mineração de Dados 
Clássica 
Mineração de Dados 
Textuais 
Mineração de Dados 
Multimídia 
21%
33%
22%
24%
21%
47%45%
49%
57%56%
23%
14%
24%
13%
17%
6% 6%4%5%5%
1% 0%0%1%0%
-10%
0%
10%
20%
30%
40%
50%
60%
70%
Até 3
salários
mínimos
De 4 a 8
salários
mínimos
De 9 a 15
salários
mínimos
De 16 a 25
salários
mínimos
De 26 a 30
salários
mínimos 
2005-2
2006-1
2006-2
2007-1
2007-2
CONCEITOS EM ANÁLISE DE DADOS 
• SAS – Enterprise Miner 
• SPSS - Modeler 
• PolyAnalist 
• Inteligent Miner 
• Rapid Miner 
• Weka 
• Tanagra 
• Scikit-Learn 
• WizSoft (WizRule) 
• Bramining 
• Orange 
• Knime 
EXEMPLOS DE FERRAMENTAS 
e muitas outras … 
Energia 
Finanças Telecomunicações 
Medicina Meio-Ambiente 
Indústria 
Comércio 
Educação 
Segurança Esporte 
EXEMPLOS DE ÁREAS DE APLICAÇÃO 
Comércio/Marketing – Promoção de Produtos 
Exs de Regras de Associação: 
– Café  Pão de Queijo 
– Café  Água 
– Folhado  Suco 
Análise de Vendas em Loja de Rede de Fast-Food 
EXEMPLOS DE APLICAÇÃO 
Comércio/Marketing – Recomendação de Produtos 
Recomendação Personalizada (Perfil dos Compradores) 
EXEMPLOS DE APLICAÇÃO 
Predição de Ligações em Redes Complexas 
 Aplicação em redes de coautoria de publicações: 
• Informação temporal 
• Predição de ligações baseada em detecção de comunidades 
5 
1 
2 
4 
3 
? 
EXEMPLOS DE APLICAÇÃO 
Detecção de Comunidades em Redes Complexas 
 Aplicação em redes heterogêneas com informações 
de contexto: 
• Coautoria de publicações (Arxiv) 
• Conflitos entre países (MID) 
• e-Mails Corporativos (Enron) 
 
7 5 
6 8 
3 
4 
2 
1 
EXEMPLOS DE APLICAÇÃO 
Finanças: Previsão da Cotação de Ações na Bolsa de Valores 
Tarefa de Mineração: Previsão de Séries Temporais 
EXEMPLOS DE APLICAÇÃO 
Educação: Uso de Tecnologia 
Projeto MEMORE: Um Computador por Aluno 
Discente em Perspectiva Ampliada 
Coleta de Dados 
Discentes 
Central de Análise de Dados BD Central 
Transferência de Dados 
ETC... 
Gestores 
Docentes 
21%
33%
22%
24%
21%
47%45%
49%
57%56%
23%
14%
24%
13%
17%
6% 6%4%5%5%
1% 0%0%1%0%
-10%
0%
10%
20%
30%
40%
50%
60%
70%
Até 3
salários
mínimos
De 4 a 8
salários
mínimos
De 9 a 15
salários
mínimos
De 16 a 25
salários
mínimos
De 26 a 30
salários
mínimos 
2005-2
2006-1
2006-2
2007-1
2007-2
Mineração e Visualização de Dados 
21%
33%
22%
24%
21%
47%45%
49%
57%56%
23%
14%
24%
13%
17%
6% 6%4%5%5%
1% 0%0%1%0%
-10%
0%
10%
20%
30%
40%
50%
60%
70%
Até 3
salários
mínimos
De 4 a 8
salários
mínimos
De 9 a 15
salários
mínimos
De 16 a 25
salários
mínimos
De 26 a 30
salários
mínimos 
2005-2
2006-1
2006-2
2007-1
2007-2
EXEMPLOS DE APLICAÇÃO 
http://www.cienciamao.if.usp.br/tudo/int.php?cod=_harmonicos
Educação: Retenção x Evasão Escolar 
Características de Escolas com Baixa Evasão 
EXEMPLOS DE APLICAÇÃO 
Perfuração de Poços de Petróleo 
Identificação de locais baseada na presença de nanofósseis. 
EXEMPLOS DE APLICAÇÃO 
Medicina: Diagnóstico Baseado em Imagem 
Radiografia Tomografia Computadorizada Ressonância Magnética 
Mineração de Imagens –Visão Computacional 
EXEMPLOS DE APLICAÇÃO 
Curadoria de Pinturas: Classificação de Imagens 
Autêntico 
ou 
Fraude 
Projeto PORTINARI 
EXEMPLOS DE APLICAÇÃO 
Preservação de Patrimônio Histórico-Cultural 
Parâmetros de Haralick – Textura 
Coarse Grain Fine Grain 
EXEMPLOS DE APLICAÇÃO 
Fiscalização: Multagem Eletrônica 
Reconhecimento de Placas 
EXEMPLOS DE APLICAÇÃO 
Dado para Treino 
LANDSAT Images 
Método 
Recorte de Imagens e comparação 
da avaliação do modelo em 
instantes distintos 
Detecção de Áreas de Desmatamento 
Redes Neurais Convolucionais 
EXEMPLOS DE APLICAÇÃO 
Combate a Exemplos Contraditórios (Adversarial Examples) 
EXEMPLOS DE APLICAÇÃO 
Segurança: Reconhecimento de Indivíduos 
Biometria: Extração de Características vs Deep Learning 
EXEMPLOS DE APLICAÇÃO 
Reconhecimento de Indivíduos 
Processo Baseado na Dinâmica da Digitação e Aprendizado Profundo 
EXEMPLOS DE APLICAÇÃO 
Assistência Social: Apoio à Reintegração 
Caracterização de Perfil e Direcionamento de Programa 
EXEMPLOS DE APLICAÇÃO 
Coleta 
de Dados 
Detecção de 
Maliciosos 
Conhecidos 
Pré-
processamento 
Defesa / 
Proteção 
BD 
 
Consultas 
Gerenciais 
não  * 
sim 
 
Análise de 
Legitimidade 
Conjugação de 
Pareceres sobre 
Legitimidade 
sim  
Painel 
de Apoio 
suspeito  
sim  
BD 
 
não  
não  
Complementação 
de Dados 
Analista / 
Oráculo 
 
Trace 
Fluxo 
Log 
REDE 
Decisão sobre 
Legitimidade 
Pré-
processamento 
EB-CyberDef: Um ambiente integrado de defesa 
cibernética para apoio à detecção e ao combate 
de comportamentos maliciosos no tráfego de 
redes de computadores 
OBS.: * ainda não se tem 
certeza de que se trata de dado 
não malicioso 
LEGENDA (dados) 
  - a ser avaliado 
  - malicioso 
  - suspeito 
  - não malicioso 
EXEMPLOS DE APLICAÇÃO 
Publicação na Web de Dados – Coleções do Jardim Botânico 
JABOT (Relacional)  JABOTG (RDF) 
EXEMPLOS DE APLICAÇÃO 
Mineração de Regras de Associação em Grafos 
Regras de Associação de Multi-Relação 
Live_In(Nearby(Climate_Type(Humid)))  Health_Condition(Good) 
EXEMPLOS DE APLICAÇÃO 
Mineração de Regras de Associação de Multi-Relação em Datasets na 
Web de Dados 
EXEMPLOS DE APLICAÇÃO 
Detecção de Bots Sociais 
Aplicação no Twitter 
EXEMPLOS DE APLICAÇÃO 
Detecção de Fake News em Mídias Socias 
EXEMPLOS DE APLICAÇÃO 
Extração e correção de padrões em músicas 
Projeto MUSIK 
EXEMPLOS DE APLICAÇÃO 
• Análise de dados em larga escala (otimização, paralelismo e 
distribuição) 
 
• Análise de dados heterogêneos (texto, som, imagem, vídeo, gráfico, ...) 
 
• Alta dimensionalidade de dados 
 
• Tratamento de incerteza em dados (incompletude, imprecisão, 
inconsistência, ...) 
 
• Processo de análise de dados 
 
• Aprendizado “on-line” (high speed streaming data) 
 
• Evolução de modelos de conhecimento 
 
• Dentre outros... 
DESAFIOS DE PESQUISAS EM CIÊNCIA DE DADOS 
Atividades em Ciência de Dados - uma “Taxonomia” 
Ciência de Dados 
Pesquisa e 
Desenvolvimento 
(Viés Científico) 
Aplicação de 
Recursos (Viés 
Tecnológico) 
Aplicação de 
Resultados 
• Necessidade de pessoal técnico 
 
– Desafio segundo Porto e Ziviani (2014) 
 
• Processode formação: 
 
– Fundamentos e Experiência Prática 
 
• Temas relacionados 
 
– e-Ciência (Workflows Científicos) 
– Proveniência de Dados 
– Ontologias 
– Web de Dados 
– ... 
 
CONSIDERAÇÕES 
“É um processo, de várias etapas, não trivial, interativo e 
iterativo, para identificação de padrões compreensíveis, 
válidos, novos e potencialmente úteis a partir de bases de 
dados.” [Fayyad et al., 1996] 
KDD – Knowledge Discovery in Databases 
Dados 
Estruturados 
Modelo de 
Conhecimento 
Pré-Processamento Pós-ProcessamentoMineração de Dados
Etapas Operacionais do Processo de KDDEtapas Operacionais do Processo de KDD
Especialista em KDDEspecialista em KDDEspecialista de DomínioEspecialista de Domínio
Interação
Iteração
O PROCESSO DE KDD: VISÃO GERAL 
Aplicação de KDD: 
• Envolve os seguintes elementos: 
ESPECIALISTA 
DO DOMÍNIO 
 CONJUNTO 
 DE DADOS 
 PROBLEMA 
 OBJETIVOS 
DA APLICAÇÃO 
ESPECIALISTA 
 EM KDD 
 ALGORITMOS 
 E TÉCNICAS 
 RECURSOS 
PLATAFORMA 
COMPUTACIONAL 
 MODELO DE 
CONHECIMENTO 
 DESCOBERTO 
TRILHAS DO 
 PROCESSO 
 RESULTADOS 
O PROCESSO DE KDD: VISÃO GERAL 
Tipos de Profissionais em Aplicações de KDD: 
• Especialista em KDD 
• Especialista do Domínio da Aplicação de KDD 
Tipos de Conhecimento em Aplicações de KDD: 
• Conhecimento Independente do Domínio da Aplicação 
• Conhecimento Dependente do Domínio da Aplicação 
• Conhecimento em KDD Aplicado ao Domínio da 
Aplicação 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos do Problema: 
ESPECIALISTA 
DO DOMÍNIO 
 CONJUNTO 
 DE DADOS 
 PROBLEMA 
 OBJETIVOS 
DA APLICAÇÃO 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos do Problema: Conjunto de Dados 
• Estrutura tabular bidimensional (R  dom(A1) x dom(A2) x … x dom(An)) 
• Contém Casos (aspecto extensional) 
• Contém Características (aspecto intensional) 
• Esquema é o conjunto de características 
• Não necessariamente um Data Warehouse 
Ressalva: 
Conjunto Multiconjunto Coleção 
is_a is_a 
Multiconjunto: (A, m) 
onde: A é conjunto 
m: A  N 
m(x) é a frequência de x 
em A 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos do Problema: Conjunto de Dados 
Renda 
• Cada caso corresponde a um vetor em um espaço n-dimensional 
Fundamentação: Álgebra Linear. 
Conceito de similaridade ou distância entre pontos (vetores). 
Qto menor a distância entre 2 pontos, maior a similaridade entre os objetos 
representados. 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos do Problema: Conjunto de Dados – Distância 
O conceito de distância é formalizado como uma função D : E x E  R (a 
cada par de pontos associa um valor real) que atende às seguintes 
restrições: 
 
- D(x,x) = 0 
 
 
 
- D(x,y) = D(y,x) 
 
 
 
- D(x,y)  D(x,z) + D(z,y) 
x 
z 
y 
y x 
x 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos do Problema: Especialista do Domínio da Aplicação 
• Conhecimento sobre o domínio da aplicação (background knowledge) 
• Consenso quando possível 
• Dispõe de metadados sobre o conjunto de dados 
• Papel importante na formulação dos objetivos 
• Papel importante na avaliação de resultados 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos do Problema: Objetivos da Aplicação 
• Retratam restrições e expectativas acerca do modelo a ser gerado 
• Em geral dependem da opinião dos especialistas no domínio da aplicação 
• Nem sempre conseguem ser bem definidos no início do processo de KDD 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos dos Recursos: 
ESPECIALISTA 
 EM KDD 
 ALGORITMOS 
 E TÉCNICAS 
 RECURSOS 
PLATAFORMA 
COMPUTACIONAL 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos dos Recursos: Especialista em KDD 
• Dispõe de conhecimento prévio sobre como realizar KDD 
• Deve ter experiência neste tipo de trabalho técnico 
• Interage com o especialista no domínio da aplicação 
• Em geral pertence a uma equipe 
• Responsável pela condução do processo de KDD 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos dos Recursos: Algoritmos e Técnicas (Ferramentas) 
• Referem-se aos recursos de software disponíveis para aplicação 
nas etapas do Processo de KDD. 
• Algoritmos podem ser adaptados. 
• Devem ser compatíveis com a plataforma computacional disponível. 
• Uma mesma operação de KDD pode ser implementada por diversos 
destes recursos, de forma isolada ou conjugada. 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos dos Recursos: Plataforma Computacional 
• Referem-se aos recursos de hardware disponíveis para execução 
das Operações de KDD. 
• São de grande relevância em Aplicações de KDD devido ao grande 
consumo de tempo em geral requerido. 
• Mais memória e mais capacidade de processamento  maior 
dinâmica ao processo de KDD. 
• Plataformas que viabilizem computação paralela e distribuída 
podem otimizar o desempenho de inúmeras Aplicações de KDD. 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos dos Resultados: 
 MODELO DE 
CONHECIMENTO 
 DESCOBERTO 
TRILHAS DO 
 PROCESSO 
 RESULTADOS 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos dos Resultados: Mod. de Conhecimento Descoberto 
• Abstração de dados expressa em alguma linguagem obtida a partir 
da aplicação de KDD. 
• Deve ser avaliado em relação ao cumprimento das expectativas 
formuladas nos objetivos da aplicação. 
• Comparação entre modelos de conhecimento é muito comum. 
• Conjugação de modelos pode ocorrer. 
O PROCESSO DE KDD: VISÃO GERAL 
Elementos dos Resultados: Trilhas do Processo de KDD 
• Estruturas de Dados que permitem armazenamento conciso de 
fatos, ações e resultados intermediários registrados ao longo do 
processo (históricos). 
• O conteúdo destas estruturas pode ser utilizado como Problema 
em Aplicações de KDD cujo objetivo seja extrair conhecimento 
sobre como realizar o Processo de KDD. 
• Podem viabilizar um processo de aprendizado para uma Máquina 
de Assistência à Orientação do Processo de KDD. 
O PROCESSO DE KDD: VISÃO GERAL 
Macro-Objetivos da Mineração de Dados [Zaki, 2002]: 
• Predição: Histórico x Novas Situações 
• Descrição: Modelo Descritivo do Conhecimento 
Orientação das Tarefas de Mineração de Dados [Zaki, 2002]: 
• Para Verificação: Hipótese Postulada x Validação 
• Para Descoberta: Extração de novos conhecimentos 
O PROCESSO DE KDD: VISÃO GERAL 
Considerações Técnicas quanto à Realização de MD - 
Algumas Diretrizes: 
• Disponibilidade de dados suficientes 
• Utilização de conhecimento prévio 
• Verificação da relevância dos atributos 
• Busca por baixo nível de ruído 
• Suporte a grandes volumes de dados 
O PROCESSO DE KDD: VISÃO GERAL 
Considerações Técnicas quanto à Realização de MD - 
Algumas Diretrizes: 
• Suporte a vários recursos de aprendizado 
• Suporte a Bancos de Dados Heterogêneos 
• Buscar integração com DSS - Decision Suport Systems 
• Utilização de plataformas com arquitetura expansível 
O PROCESSO DE KDD: VISÃO GERAL 
Considerações Técnicas quanto à Realização de MD - 
Algumas Diretrizes: 
• Buscar estabelecer Data Warehouses 
• Disponibilidades de recursos para limpeza de dados 
• Facilidades de codificação dinâmica de atributos 
O PROCESSO DE KDD: VISÃO GERAL 
Considerações Técnicas quanto à Realização de MD - Check List 
Inicial: 
 
• Fazer um Levantamento do Hardware e Software existente. 
• Fazer uma lista de necessidades. 
Qual o propósito do KDD? 
Quais são os critérios de sucesso do KDD? 
Como será mensurado esse sucesso? 
Bancos de Dados, Redes, Aplicações, Servidores, etc. 
• Avaliar a qualidade dos dados disponíveis. 
Para que propósito foi coletado? 
O PROCESSO DE KDD: VISÃO GERAL 
 
• Fazer um inventário dos Banco de Dados disponíveis. 
 Internamente e Externamente 
• Verificar a existência de um Data Warehouse. 
Que tipo de dados estão disponíveis 
Podemos verificar os detalhes dos dados operacionais? 
• Formular o conhecimento que a organização necessita. 
Considerações Técnicas quanto à Realização deMD - Check List 
Inicial: 
O PROCESSO DE KDD: VISÃO GERAL 
 
• Identificar os grupos de engenheiros de conhecimento ou os 
grupos de decisão que aplicarão os resultados. 
 
– Que tipo de decisões precisam ser tomadas? 
– Quais padrões são úteis? 
• Analisar se o conhecimento encontrado é realmente útil para a 
organização. 
• Listar os Processos e as Transformações que serão aplicados 
aos BD’s antes que esses possam ser utilizados no KDD. 
Considerações Técnicas quanto à Realização de MD - 
Check List Inicial: 
O PROCESSO DE KDD: VISÃO GERAL 
Fim

Outros materiais