Baixe o app para aproveitar ainda mais
Prévia do material em texto
Gestão e Análise de dados Prof. Thiago P. Pimentel pimentel.thiago@gmail.com Professor Graduado em Estatística - UERJ Pós graduado em Inteligência de mercado – UERJ MBA executivo em Gestão em serviços – UFRJ Certificação Internacional – Gerenciamento de dados estratégicos – Deloitte Mestrado em Engenharia de Computação - IME Algumas empresas no qual tive a oportunidade de trabalhar.... Objetivos Conhecer os fundamentos e as principais técnicas e algoritmos da área de Ciência de Dados. Compreender o potencial da Ciência de Dados para a construção de métodos de apoio à decisão. Desenvolver um raciocínio crítico, lógico e analítico voltado à concepção de soluções envolvendo a aplicação de recursos de Ciência de Dados. Aplicar os conhecimentos assimilados em problemas de natureza diversa. Bibliografia Goldschmidt, R., Passos, E., Bezerra, E. DataMining: Um Guia Prático. 2ªed., RiodeJaneiro: Elsevier, 2015. Faceli, K., Lorena, A.C., Gama, J., Carvalho, A. C. P. Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina. RiodeJaneiro:LTC,2011. Mitchell, T. M. Machine Learning. McGraw-Hill, 1997. Russell, S., Norvig, P. Inteligência Artificial. 3aed., Rio de Janeiro: Elsevier, 2013. Coleta de dados em vários formatos, por meio de diversos recursos/aplicações em várias áreas: Internet, dispositivos móveis, sensores, sistemas de automação, sistemas de informação,... Redes sociais, redes de telecomunicações, operações com cartões de crédito,... Governo, (Bio)Ciências, Marketing, Finanças, Seguros, Segurança,... IoT (Internet of Things – Internet das Coisas) Quanta informação é criada a cada ano? POSICIONAMENTO E MOTIVAÇÃO Ainda, Segundo a revista Science (2011) : o mundo foi capaz de armazenar 295 exabytes de informação no ano de 2007. – 1 exabyte= 1 bilhão de gigabytes – Cerca de 800 megabytes para cada ser humano. – Equivalente ao conteúdo textual de mais de 300 livros. Atualmente a NASA possui dados na ordem de bilhões de gigabytes. Estima-se que em 2020, a humanidade disporá de 44zettabytes de dados. – 1 zettabyte = 1 trilhão de gigabytes – Taxa de crescimento de dados mundial em torno de 40% ao ano na próxima década. Fontes: www.sciencemag.org/content/early/2011/02/09/science.1200970.full.pdf http://www.nasa.gov/open/plan/data-gov.html www.emc.com/leadership/digital-universe/index.htm POSICIONAMENTO E MOTIVAÇÃO POSICIONAMENTO E MOTIVAÇÃO Grandes Desafios da Pesquisa em Computação no Brasil (SBC, 2014) Gestão da Informação em Grandes Volumes de Dados Multimídia Distribuídos Astronomia Biologia Defesa Educação Energia Engenharia Esporte Física Saúde Etc... Computação Gestão de Dados Análise de Dados Temas Relacionados Workflows Científicos Procedência de Dados Web Semântica Mineração de Dados Machine Learning Etc... Ciência Interdisciplinar – Perspectiva Global Ciência da Computação Matemática e Estatística Domínio de Aplicação Ciência de Dados POSICIONAMENTO E MOTIVAÇÃO Ciência Interdisciplinar – Perspectiva da Computação COMP. ALTO DESEMPENHO SISTEMAS DE INFORMAÇÃO IHM BANCO DE DADOS APRENDIZADO DE MÁQUINA INTELIGÊNCIA ARTIFICIAL Ciência de Dados ... POSICIONAMENTO E MOTIVAÇÃO Ciência Interdisciplinar – Perspectiva da Matemática/Estatística PROBABILIDADE GRAFOS CÁLCULO ... ÁLGEBRA LINEAR ANÁLISE NUMÉRICA INFERÊNCIA ESTATÍSTICA Ciência de Dados POSICIONAMENTO E MOTIVAÇÃO Uma Proposta (Porto e Ziviani, 2014) Gestão de Dados Análise de Dados Exemplos de Rede Complexa LINHAS DE PESQUISA EM CIÊNCIA DE DADOS Análise de Redes Complexas Hierarquia Dado - Informação - Conhecimento: CONHECIMENTO INFORMAÇÃO DADO 2.345,20; 463,00; 10.048,21; 294,12 Capacidade de Endividamento Mensal = 1 – Despesa Mensal / Renda Mensal SE Capacidade de Endividamento Mensal > 0.6 ENTÃO Crédito = Sim Renda Mensal, Despesa Mensal CONCEITOS EM ANÁLISE DE DADOS Registros de Dados em Espaços n-Dimensionais Conceito de similaridade ou distância entre pontos (vetores). Menor a distância entre 2 pontos Maior a similaridade entre os objetos representados. Dados CONCEITOS EM ANÁLISE DE DADOS Dados Modelo de Conhecimento Pré-Processamento Pós-ProcessamentoMineração de Dados Etapas Operacionais do Processo de KDDEtapas Operacionais do Processo de KDD Especialista em KDDEspecialista em KDDEspecialista de DomínioEspecialista de Domínio Interação Iteração Redução de Dados Limpeza Codificação Criação de Atributos Enriquecimento Busca por Modelos (de Conhecimento) Simplificação de Modelos Conversão de Modelos Visualização de Modelos etc .... Processo de Análise de Dados CONCEITOS EM ANÁLISE DE DADOS Macro-Objetivos (Tarefas) do Processo de Análise: • Predição: Histórico x Novas Situações • Descrição: Modelo Descritivo do Conhecimento Orientação do Processo de Análise: • Para Verificação: Hipótese Postulada x Validação • Para Descoberta: Extração de novos conhecimentos CONCEITOS EM ANÁLISE DE DADOS Exemplo de Tarefa Preditiva – Regressão Saída do modelo: atributo quantitativo ... CONCEITOS EM ANÁLISE DE DADOS Exemplo de Tarefa Preditiva – Classificação Saída do modelo: atributo qualitativo (valores são rótulos pré-definidos) ... CONCEITOS EM ANÁLISE DE DADOS Exemplo de Tarefa Preditiva – Predição de Ligações Aplicável em Redes Complexas (Grafos). 5 1 2 4 3 ? CONCEITOS EM ANÁLISE DE DADOS Exemplo de Tarefa Descritiva – Descoberta de Associações • Regra de Associação: – X Y, X e Y conjuntos de itens tal que: X Y = – Regra frequente: sup(Ri)=|X e Y| / |D| >= MinSup – Regra válida: conf(Ri)=|X e Y| / |X| >= MinConf • Exemplos de Regras de Associação: – Café Pão – Café Pão Leite – Fralda Cerveja (???) Trans Leite Café Cerveja Pão Manteiga Arroz Feijão 1 Não Sim Não Sim Sim Não Não 2 Sim Não Sim Sim Sim Não Não 3 Não Sim Não Sim Sim Não Não 4 Sim Sim Não Sim Sim Não Não 5 Não Não Sim Não Não Não Não 6 Não Não Não Não Sim Não Não 7 Não Não Não Sim Não Não Não 8 Não Não Não Não Não Não Sim 9 Não Não Não Não Não Sim Sim 10 Não Não Não Não Não Sim Não CONCEITOS EM ANÁLISE DE DADOS Exemplo de Tarefa Descritiva – Clusterização Não envolve rótulos pré-definidos CONCEITOS EM ANÁLISE DE DADOS Diferentes características x Diferentes agrupamentos Exemplo de Tarefa Descritiva – Clusterização CONCEITOS EM ANÁLISE DE DADOS Exemplo de Tarefa Descritiva – Sumarização Perfil Cliente: Idade entre 30 e 40 anos Renda acima de 10k Escolaridade = Pós-Graduação … Pode ser precedida (resp. sucedida) pela tarefa de clusterização (resp. classificação). CONCEITOS EM ANÁLISE DE DADOS Exemplo de Tarefa Descritiva – Detecção de Comunidades 7 5 6 8 3 4 2 1 CONCEITOS EM ANÁLISE DE DADOS Tarefas de mineração de dados são implementadas por algoritmos que analisam conjuntos de dados históricos em busca (indução) de hipóteses (funções) capazes de descrever as relações entre os dados. ƒ ƒ ^ L Dados CONCEITOS EM ANÁLISE DE DADOS • Todo algoritmo de análise de dados utiliza: – Um viés de representação para descrever as hipóteses. – Um viés de busca que define a forma como as hipóteses são pesquisadas no espaço de hipóteses. Exemplos de Viés de Representação CONCEITOS EM ANÁLISE DE DADOS Exemplo de Processamento de Hipótese Induzida Rede Neural MLP – Tarefa de Classificação CONCEITOS EM ANÁLISE DE DADOS Algoritmos Baseados em Aprendizagem Profunda • RNAs que realizam o aprendizado de forma hierárquica: – Características nos níveis mais altos da hierarquia são formadas pela combinação de características de mais baixo nível. CONCEITOS EM ANÁLISEDE DADOS Algoritmos Baseados em Aprendizagem Profunda • Aprendizagem de representações automatizada (ou, pelo menos, simplificada) CONCEITOS EM ANÁLISE DE DADOS Tarefas de Análise de Dados Algoritmos de Análise de Dados Descoberta de Associações Basic, Apriori, DHP, Partition, DIC, ASCX-2P Classificação Redes Neurais (Ex: MLP com Back-Propagation), C4.5, Rough Sets, Algoritmos Genéticos (Ex: Rule Evolver), CART, K-NN, Classificadores Bayesianos, SVM Regressão Redes Neurais (Ex: Redes MLP com Back- Propagation), Lógica Nebulosa (Ex: Wang- Mendel) Sumarização C4.5, Algoritmos Genéticos (Ex: Rule Evolver) Clusterização K-Means, K-Modes, K-Prototypes, Fuzzy K- Means, EM, DBSCAN, Algoritmos Genéticos, Redes Neurais (Ex: Kohonen) Previsão de Séries Temporais Redes Neurais (Ex: Redes MLP com Back- Propagation), Lógica Nebulosa (Ex: Wang- Mendel) CONCEITOS EM ANÁLISE DE DADOS “BUSCA” VS “DESCOBERTA” Data Mining Data Retrieval Information Retrieval Busca Descoberta Dados estruturados Dados não-estruturados (Texto) Text Mining CONCEITOS EM ANÁLISE DE DADOS • Há vários tipos de “mining” : – Data Mining – Multimídia Mining (Som, Imagem, …) – Text Mining – Graph Mining – Web Mining – Educational Data Mining (EDM) – Social Data Mining – Opinion Mining. • Terminologia acima não é um consenso. CONCEITOS EM ANÁLISE DE DADOS DESCOBERTA DE CONHECIMENTO - UMA TAXONOMIA Descoberta de Conhecimento Dados Estruturados Dados Textuais Dados Multimídia Mineração de Dados Clássica Mineração de Dados Textuais Mineração de Dados Multimídia 21% 33% 22% 24% 21% 47%45% 49% 57%56% 23% 14% 24% 13% 17% 6% 6%4%5%5% 1% 0%0%1%0% -10% 0% 10% 20% 30% 40% 50% 60% 70% Até 3 salários mínimos De 4 a 8 salários mínimos De 9 a 15 salários mínimos De 16 a 25 salários mínimos De 26 a 30 salários mínimos 2005-2 2006-1 2006-2 2007-1 2007-2 CONCEITOS EM ANÁLISE DE DADOS • SAS – Enterprise Miner • SPSS - Modeler • PolyAnalist • Inteligent Miner • Rapid Miner • Weka • Tanagra • Scikit-Learn • WizSoft (WizRule) • Bramining • Orange • Knime EXEMPLOS DE FERRAMENTAS e muitas outras … Energia Finanças Telecomunicações Medicina Meio-Ambiente Indústria Comércio Educação Segurança Esporte EXEMPLOS DE ÁREAS DE APLICAÇÃO Comércio/Marketing – Promoção de Produtos Exs de Regras de Associação: – Café Pão de Queijo – Café Água – Folhado Suco Análise de Vendas em Loja de Rede de Fast-Food EXEMPLOS DE APLICAÇÃO Comércio/Marketing – Recomendação de Produtos Recomendação Personalizada (Perfil dos Compradores) EXEMPLOS DE APLICAÇÃO Predição de Ligações em Redes Complexas Aplicação em redes de coautoria de publicações: • Informação temporal • Predição de ligações baseada em detecção de comunidades 5 1 2 4 3 ? EXEMPLOS DE APLICAÇÃO Detecção de Comunidades em Redes Complexas Aplicação em redes heterogêneas com informações de contexto: • Coautoria de publicações (Arxiv) • Conflitos entre países (MID) • e-Mails Corporativos (Enron) 7 5 6 8 3 4 2 1 EXEMPLOS DE APLICAÇÃO Finanças: Previsão da Cotação de Ações na Bolsa de Valores Tarefa de Mineração: Previsão de Séries Temporais EXEMPLOS DE APLICAÇÃO Educação: Uso de Tecnologia Projeto MEMORE: Um Computador por Aluno Discente em Perspectiva Ampliada Coleta de Dados Discentes Central de Análise de Dados BD Central Transferência de Dados ETC... Gestores Docentes 21% 33% 22% 24% 21% 47%45% 49% 57%56% 23% 14% 24% 13% 17% 6% 6%4%5%5% 1% 0%0%1%0% -10% 0% 10% 20% 30% 40% 50% 60% 70% Até 3 salários mínimos De 4 a 8 salários mínimos De 9 a 15 salários mínimos De 16 a 25 salários mínimos De 26 a 30 salários mínimos 2005-2 2006-1 2006-2 2007-1 2007-2 Mineração e Visualização de Dados 21% 33% 22% 24% 21% 47%45% 49% 57%56% 23% 14% 24% 13% 17% 6% 6%4%5%5% 1% 0%0%1%0% -10% 0% 10% 20% 30% 40% 50% 60% 70% Até 3 salários mínimos De 4 a 8 salários mínimos De 9 a 15 salários mínimos De 16 a 25 salários mínimos De 26 a 30 salários mínimos 2005-2 2006-1 2006-2 2007-1 2007-2 EXEMPLOS DE APLICAÇÃO http://www.cienciamao.if.usp.br/tudo/int.php?cod=_harmonicos Educação: Retenção x Evasão Escolar Características de Escolas com Baixa Evasão EXEMPLOS DE APLICAÇÃO Perfuração de Poços de Petróleo Identificação de locais baseada na presença de nanofósseis. EXEMPLOS DE APLICAÇÃO Medicina: Diagnóstico Baseado em Imagem Radiografia Tomografia Computadorizada Ressonância Magnética Mineração de Imagens –Visão Computacional EXEMPLOS DE APLICAÇÃO Curadoria de Pinturas: Classificação de Imagens Autêntico ou Fraude Projeto PORTINARI EXEMPLOS DE APLICAÇÃO Preservação de Patrimônio Histórico-Cultural Parâmetros de Haralick – Textura Coarse Grain Fine Grain EXEMPLOS DE APLICAÇÃO Fiscalização: Multagem Eletrônica Reconhecimento de Placas EXEMPLOS DE APLICAÇÃO Dado para Treino LANDSAT Images Método Recorte de Imagens e comparação da avaliação do modelo em instantes distintos Detecção de Áreas de Desmatamento Redes Neurais Convolucionais EXEMPLOS DE APLICAÇÃO Combate a Exemplos Contraditórios (Adversarial Examples) EXEMPLOS DE APLICAÇÃO Segurança: Reconhecimento de Indivíduos Biometria: Extração de Características vs Deep Learning EXEMPLOS DE APLICAÇÃO Reconhecimento de Indivíduos Processo Baseado na Dinâmica da Digitação e Aprendizado Profundo EXEMPLOS DE APLICAÇÃO Assistência Social: Apoio à Reintegração Caracterização de Perfil e Direcionamento de Programa EXEMPLOS DE APLICAÇÃO Coleta de Dados Detecção de Maliciosos Conhecidos Pré- processamento Defesa / Proteção BD Consultas Gerenciais não * sim Análise de Legitimidade Conjugação de Pareceres sobre Legitimidade sim Painel de Apoio suspeito sim BD não não Complementação de Dados Analista / Oráculo Trace Fluxo Log REDE Decisão sobre Legitimidade Pré- processamento EB-CyberDef: Um ambiente integrado de defesa cibernética para apoio à detecção e ao combate de comportamentos maliciosos no tráfego de redes de computadores OBS.: * ainda não se tem certeza de que se trata de dado não malicioso LEGENDA (dados) - a ser avaliado - malicioso - suspeito - não malicioso EXEMPLOS DE APLICAÇÃO Publicação na Web de Dados – Coleções do Jardim Botânico JABOT (Relacional) JABOTG (RDF) EXEMPLOS DE APLICAÇÃO Mineração de Regras de Associação em Grafos Regras de Associação de Multi-Relação Live_In(Nearby(Climate_Type(Humid))) Health_Condition(Good) EXEMPLOS DE APLICAÇÃO Mineração de Regras de Associação de Multi-Relação em Datasets na Web de Dados EXEMPLOS DE APLICAÇÃO Detecção de Bots Sociais Aplicação no Twitter EXEMPLOS DE APLICAÇÃO Detecção de Fake News em Mídias Socias EXEMPLOS DE APLICAÇÃO Extração e correção de padrões em músicas Projeto MUSIK EXEMPLOS DE APLICAÇÃO • Análise de dados em larga escala (otimização, paralelismo e distribuição) • Análise de dados heterogêneos (texto, som, imagem, vídeo, gráfico, ...) • Alta dimensionalidade de dados • Tratamento de incerteza em dados (incompletude, imprecisão, inconsistência, ...) • Processo de análise de dados • Aprendizado “on-line” (high speed streaming data) • Evolução de modelos de conhecimento • Dentre outros... DESAFIOS DE PESQUISAS EM CIÊNCIA DE DADOS Atividades em Ciência de Dados - uma “Taxonomia” Ciência de Dados Pesquisa e Desenvolvimento (Viés Científico) Aplicação de Recursos (Viés Tecnológico) Aplicação de Resultados • Necessidade de pessoal técnico – Desafio segundo Porto e Ziviani (2014) • Processode formação: – Fundamentos e Experiência Prática • Temas relacionados – e-Ciência (Workflows Científicos) – Proveniência de Dados – Ontologias – Web de Dados – ... CONSIDERAÇÕES “É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados.” [Fayyad et al., 1996] KDD – Knowledge Discovery in Databases Dados Estruturados Modelo de Conhecimento Pré-Processamento Pós-ProcessamentoMineração de Dados Etapas Operacionais do Processo de KDDEtapas Operacionais do Processo de KDD Especialista em KDDEspecialista em KDDEspecialista de DomínioEspecialista de Domínio Interação Iteração O PROCESSO DE KDD: VISÃO GERAL Aplicação de KDD: • Envolve os seguintes elementos: ESPECIALISTA DO DOMÍNIO CONJUNTO DE DADOS PROBLEMA OBJETIVOS DA APLICAÇÃO ESPECIALISTA EM KDD ALGORITMOS E TÉCNICAS RECURSOS PLATAFORMA COMPUTACIONAL MODELO DE CONHECIMENTO DESCOBERTO TRILHAS DO PROCESSO RESULTADOS O PROCESSO DE KDD: VISÃO GERAL Tipos de Profissionais em Aplicações de KDD: • Especialista em KDD • Especialista do Domínio da Aplicação de KDD Tipos de Conhecimento em Aplicações de KDD: • Conhecimento Independente do Domínio da Aplicação • Conhecimento Dependente do Domínio da Aplicação • Conhecimento em KDD Aplicado ao Domínio da Aplicação O PROCESSO DE KDD: VISÃO GERAL Elementos do Problema: ESPECIALISTA DO DOMÍNIO CONJUNTO DE DADOS PROBLEMA OBJETIVOS DA APLICAÇÃO O PROCESSO DE KDD: VISÃO GERAL Elementos do Problema: Conjunto de Dados • Estrutura tabular bidimensional (R dom(A1) x dom(A2) x … x dom(An)) • Contém Casos (aspecto extensional) • Contém Características (aspecto intensional) • Esquema é o conjunto de características • Não necessariamente um Data Warehouse Ressalva: Conjunto Multiconjunto Coleção is_a is_a Multiconjunto: (A, m) onde: A é conjunto m: A N m(x) é a frequência de x em A O PROCESSO DE KDD: VISÃO GERAL Elementos do Problema: Conjunto de Dados Renda • Cada caso corresponde a um vetor em um espaço n-dimensional Fundamentação: Álgebra Linear. Conceito de similaridade ou distância entre pontos (vetores). Qto menor a distância entre 2 pontos, maior a similaridade entre os objetos representados. O PROCESSO DE KDD: VISÃO GERAL Elementos do Problema: Conjunto de Dados – Distância O conceito de distância é formalizado como uma função D : E x E R (a cada par de pontos associa um valor real) que atende às seguintes restrições: - D(x,x) = 0 - D(x,y) = D(y,x) - D(x,y) D(x,z) + D(z,y) x z y y x x O PROCESSO DE KDD: VISÃO GERAL Elementos do Problema: Especialista do Domínio da Aplicação • Conhecimento sobre o domínio da aplicação (background knowledge) • Consenso quando possível • Dispõe de metadados sobre o conjunto de dados • Papel importante na formulação dos objetivos • Papel importante na avaliação de resultados O PROCESSO DE KDD: VISÃO GERAL Elementos do Problema: Objetivos da Aplicação • Retratam restrições e expectativas acerca do modelo a ser gerado • Em geral dependem da opinião dos especialistas no domínio da aplicação • Nem sempre conseguem ser bem definidos no início do processo de KDD O PROCESSO DE KDD: VISÃO GERAL Elementos dos Recursos: ESPECIALISTA EM KDD ALGORITMOS E TÉCNICAS RECURSOS PLATAFORMA COMPUTACIONAL O PROCESSO DE KDD: VISÃO GERAL Elementos dos Recursos: Especialista em KDD • Dispõe de conhecimento prévio sobre como realizar KDD • Deve ter experiência neste tipo de trabalho técnico • Interage com o especialista no domínio da aplicação • Em geral pertence a uma equipe • Responsável pela condução do processo de KDD O PROCESSO DE KDD: VISÃO GERAL Elementos dos Recursos: Algoritmos e Técnicas (Ferramentas) • Referem-se aos recursos de software disponíveis para aplicação nas etapas do Processo de KDD. • Algoritmos podem ser adaptados. • Devem ser compatíveis com a plataforma computacional disponível. • Uma mesma operação de KDD pode ser implementada por diversos destes recursos, de forma isolada ou conjugada. O PROCESSO DE KDD: VISÃO GERAL Elementos dos Recursos: Plataforma Computacional • Referem-se aos recursos de hardware disponíveis para execução das Operações de KDD. • São de grande relevância em Aplicações de KDD devido ao grande consumo de tempo em geral requerido. • Mais memória e mais capacidade de processamento maior dinâmica ao processo de KDD. • Plataformas que viabilizem computação paralela e distribuída podem otimizar o desempenho de inúmeras Aplicações de KDD. O PROCESSO DE KDD: VISÃO GERAL Elementos dos Resultados: MODELO DE CONHECIMENTO DESCOBERTO TRILHAS DO PROCESSO RESULTADOS O PROCESSO DE KDD: VISÃO GERAL Elementos dos Resultados: Mod. de Conhecimento Descoberto • Abstração de dados expressa em alguma linguagem obtida a partir da aplicação de KDD. • Deve ser avaliado em relação ao cumprimento das expectativas formuladas nos objetivos da aplicação. • Comparação entre modelos de conhecimento é muito comum. • Conjugação de modelos pode ocorrer. O PROCESSO DE KDD: VISÃO GERAL Elementos dos Resultados: Trilhas do Processo de KDD • Estruturas de Dados que permitem armazenamento conciso de fatos, ações e resultados intermediários registrados ao longo do processo (históricos). • O conteúdo destas estruturas pode ser utilizado como Problema em Aplicações de KDD cujo objetivo seja extrair conhecimento sobre como realizar o Processo de KDD. • Podem viabilizar um processo de aprendizado para uma Máquina de Assistência à Orientação do Processo de KDD. O PROCESSO DE KDD: VISÃO GERAL Macro-Objetivos da Mineração de Dados [Zaki, 2002]: • Predição: Histórico x Novas Situações • Descrição: Modelo Descritivo do Conhecimento Orientação das Tarefas de Mineração de Dados [Zaki, 2002]: • Para Verificação: Hipótese Postulada x Validação • Para Descoberta: Extração de novos conhecimentos O PROCESSO DE KDD: VISÃO GERAL Considerações Técnicas quanto à Realização de MD - Algumas Diretrizes: • Disponibilidade de dados suficientes • Utilização de conhecimento prévio • Verificação da relevância dos atributos • Busca por baixo nível de ruído • Suporte a grandes volumes de dados O PROCESSO DE KDD: VISÃO GERAL Considerações Técnicas quanto à Realização de MD - Algumas Diretrizes: • Suporte a vários recursos de aprendizado • Suporte a Bancos de Dados Heterogêneos • Buscar integração com DSS - Decision Suport Systems • Utilização de plataformas com arquitetura expansível O PROCESSO DE KDD: VISÃO GERAL Considerações Técnicas quanto à Realização de MD - Algumas Diretrizes: • Buscar estabelecer Data Warehouses • Disponibilidades de recursos para limpeza de dados • Facilidades de codificação dinâmica de atributos O PROCESSO DE KDD: VISÃO GERAL Considerações Técnicas quanto à Realização de MD - Check List Inicial: • Fazer um Levantamento do Hardware e Software existente. • Fazer uma lista de necessidades. Qual o propósito do KDD? Quais são os critérios de sucesso do KDD? Como será mensurado esse sucesso? Bancos de Dados, Redes, Aplicações, Servidores, etc. • Avaliar a qualidade dos dados disponíveis. Para que propósito foi coletado? O PROCESSO DE KDD: VISÃO GERAL • Fazer um inventário dos Banco de Dados disponíveis. Internamente e Externamente • Verificar a existência de um Data Warehouse. Que tipo de dados estão disponíveis Podemos verificar os detalhes dos dados operacionais? • Formular o conhecimento que a organização necessita. Considerações Técnicas quanto à Realização deMD - Check List Inicial: O PROCESSO DE KDD: VISÃO GERAL • Identificar os grupos de engenheiros de conhecimento ou os grupos de decisão que aplicarão os resultados. – Que tipo de decisões precisam ser tomadas? – Quais padrões são úteis? • Analisar se o conhecimento encontrado é realmente útil para a organização. • Listar os Processos e as Transformações que serão aplicados aos BD’s antes que esses possam ser utilizados no KDD. Considerações Técnicas quanto à Realização de MD - Check List Inicial: O PROCESSO DE KDD: VISÃO GERAL Fim
Compartilhar