Baixe o app para aproveitar ainda mais
Prévia do material em texto
SISTEMAS DE INFORMAÇÃO 1 1 1 1SISTEMAS DE INFORMAÇÃO 1 1SISTEMAS DE INFORMAÇÃO 1 1 1 Professora: Ariane Machado Lima Tema 04 O Classificador Bayesiano SISTEMAS DE INFORMAÇÃO 2 2 2 2SISTEMAS DE INFORMAÇÃO 2 2SISTEMAS DE INFORMAÇÃO 2 2 2 Classificação Dado um conjunto de elementos, queremos separá-los por classes. Algumas questões: - você sabe quantas classes? - você conhece exemplos dessas classes? SISTEMAS DE INFORMAÇÃO 3 3 3 3SISTEMAS DE INFORMAÇÃO 3 3SISTEMAS DE INFORMAÇÃO 3 3 3 Técnicas de Classificação [JAIN et al, 2000] SISTEMAS DE INFORMAÇÃO 4 4 4 4SISTEMAS DE INFORMAÇÃO 4 4SISTEMAS DE INFORMAÇÃO 4 4 4 O que são essas densidades condicionais da classe? • O que quer dizer densidade neste contexto? • Função densidade de probabilidade SISTEMAS DE INFORMAÇÃO 5 5 5 5SISTEMAS DE INFORMAÇÃO 5 5SISTEMAS DE INFORMAÇÃO 5 5 5 Revisão (rápida) de probabilidade e estatística • X é uma variável aleatória (cujo valor pode ser visto como o resultado de um experimento) que assume valores sobre Ω (espaço amostral) • Função de probabilidade: p(x) = P(X = x) • Função de distribuição de probabilidade: F(x) = P(X<=x) SISTEMAS DE INFORMAÇÃO 6 6 6 6SISTEMAS DE INFORMAÇÃO 6 6SISTEMAS DE INFORMAÇÃO 6 6 6 Revisão (rápida) de probabilidade e estatística • Se X é discreta (assume apenas valores inteiros): • F(x) = i:xi<=xΣ P(X=xi) • Se X é contínua (pode assumir valores reais não inteiros): • F (X) = ʃ-∞ x f(t) dt, sendo f a função densidade de probabilidade de X • Ou seja, a densidade só vira probabilidade quando integrado em um intervalo SISTEMAS DE INFORMAÇÃO 7 7 7 7SISTEMAS DE INFORMAÇÃO 7 7SISTEMAS DE INFORMAÇÃO 7 7 7 Revisão (rápida) de probabilidade e estatística • Exemplos de distribuições discretas: • Bernoulli (lançamento de uma moeda) • Binomial (vários Bernoulli) • Multinomial (generalização da Binomial para k possíveis resultados) • Poisson (vista como uma Binomial de eventos raros) • Exemplos de distribuições contínuas • Normal • Exponencial (intervalo entre dois sucessos consecutivos de uma Poisson) • Gumbel (EVD) SISTEMAS DE INFORMAÇÃO 8 8 8 8SISTEMAS DE INFORMAÇÃO 8 8SISTEMAS DE INFORMAÇÃO 8 8 8 Revisão (rápida) de probabilidade e estatística • Probabilidades condicionais: • P (X | Y) = probabilidade do evento X dado que ocorreu o evento Y XX YY SISTEMAS DE INFORMAÇÃO 9 9 9 9SISTEMAS DE INFORMAÇÃO 9 9SISTEMAS DE INFORMAÇÃO 9 9 9 Revisão (rápida) de probabilidade e estatística • Probabilidades condicionais: • P (X | Y) = probabilidade do evento X dado que ocorreu o evento Y • P (a ∈ X | a ∈ Y) = P ([a ∈ X] ∩ [a ∈ Y]) / P (a ∈ Y) X X YY Ω SISTEMAS DE INFORMAÇÃO 10 10 10 10SISTEMAS DE INFORMAÇÃO 10 10SISTEMAS DE INFORMAÇÃO 10 10 10 Revisão (rápida) de probabilidade e estatística • Probabilidades condicionais: • P (X | Y) = probabilidade do evento X dado que ocorreu o evento Y • P (X | Y) = P (X ∩ Y) / P(Y) X X Y Y SISTEMAS DE INFORMAÇÃO 11 11 11 11SISTEMAS DE INFORMAÇÃO 11 11SISTEMAS DE INFORMAÇÃO 11 11 11 Revisão (rápida) de probabilidade e estatística • Probabilidades condicionais: • P (X | Y) = probabilidade do evento X dado que ocorreu o evento Y • P (X | Y) = P (X , Y) / P(Y) X X Y Y Distribuição conjunta SISTEMAS DE INFORMAÇÃO 12 12 12 12SISTEMAS DE INFORMAÇÃO 12 12SISTEMAS DE INFORMAÇÃO 12 12 12 Probabilidades condicionais em classificação • X pode ser um vetor aleatório das características dos elementos que eu observo (que eu quero classificar) • Y pode ser as classes possíveis: P(Y =yi) é a probabilidade de um elemento ser da classe yi X possui uma distribuição dentro de Ω (geral, “no mundo”), e possivelmente uma distribuição diferente “dentro de” (condicionada a) uma dada classe Ex: * probabilidade de um aluno da USP ser do gênero feminino * probabilidade de um aluno da USP do curso de SI ser do gênero feminino * probabilidade de um aluno da USP do curso de pedagogia ser do gênero feminino Como isso pode nos ajudar na classificação? SISTEMAS DE INFORMAÇÃO 13 13 13 13SISTEMAS DE INFORMAÇÃO 13 13SISTEMAS DE INFORMAÇÃO 13 13 13 Probabilidades condicionais em classificação • X pode ser um vetor aleatório das características dos elementos que eu observo (que eu quero classificar) • Y pode ser as classes possíveis: P(Y =yi) é a probabilidade de um elemento ser da classe yi X possui uma distribuição dentro de Ω (geral, “no mundo”), e possivelmente uma distribuição diferente “dentro de” (condicionada a) uma dada classe Ex: * probabilidade de um aluno da USP ser do gênero feminino * probabilidade de um aluno da USP do curso de SI ser do gênero feminino * probabilidade de um aluno da USP do curso de pedagogia ser do gênero feminino Como isso pode nos ajudar na classificação? Saber o gênero do aluno pode nos ajudar a prever se ele é de SI ou pedagogia SISTEMAS DE INFORMAÇÃO 14 14 14 14SISTEMAS DE INFORMAÇÃO 14 14SISTEMAS DE INFORMAÇÃO 14 14 14 Probabilidades condicionais • Ex: densidade condicional da luminosidade dos peixes para as classes robalo e salmão • P(x|c) : densidade de probabilidade condicional (à classe) • Ex: luminosidade [DUDA, HART & STORK, 2001] SISTEMAS DE INFORMAÇÃO 15 15 15 15SISTEMAS DE INFORMAÇÃO 15 15SISTEMAS DE INFORMAÇÃO 15 15 15 Técnicas de Classificação [JAIN et al, 2000] SISTEMAS DE INFORMAÇÃO 16 16 16 16SISTEMAS DE INFORMAÇÃO 16 16SISTEMAS DE INFORMAÇÃO 16 16 16 Teoria da Decisão Bayesiana • Abordagem estatística para o problema de classificação / tomada de decisão • O classificador é ótimo dentre todas as opções (minimiza o erro), porém... • É necessário conhecer todas as probabilidades envolvidas e relevantes SISTEMAS DE INFORMAÇÃO 17 17 17 17SISTEMAS DE INFORMAÇÃO 17 17SISTEMAS DE INFORMAÇÃO 17 17 17 Teorema de Bayes • P(X,Y) = P(X|Y) P(Y) • P(Y,X) = P(Y|X) P(X) • Como P(X,Y) = P(Y,X), • P(Y|X) = P(X|Y) P(Y)/P(X) Veremos que na verdade isso tem muito mais significado... P (X | Y) = P (X,Y) / P(Y) P (Y | X) = P (Y,X) / P(X) SISTEMAS DE INFORMAÇÃO 18 18 18 18SISTEMAS DE INFORMAÇÃO 18 18SISTEMAS DE INFORMAÇÃO 18 18 18 Teoria da Decisão Bayesiana • Classes envolvidas (ou estados da natureza) • Ex: robalo (c1) e salmão (c2) • Os objetos pertencem a uma dessas classes • Dado um objeto, ele pode pertencer aleatoriamente a c1 ou a c2 • Logo, c1 e c2 podem ser vistos como valores de uma variável aleatória c • P(c) : probabilidade a priori SISTEMAS DE INFORMAÇÃO 19 19 19 19SISTEMAS DE INFORMAÇÃO 19 19SISTEMAS DE INFORMAÇÃO 19 19 19 Regra de Decisão • Você tem que chutar qual será o próximo peixe • Você apenas tem a informação das probabilidades a priori de c1 e c2 • Qual peixe você chutaria (a priori, isto é, sem olhar o peixe)? SISTEMAS DE INFORMAÇÃO 20 20 20 20SISTEMAS DE INFORMAÇÃO 20 20SISTEMAS DE INFORMAÇÃO 20 20 20 Regra de Decisão • Você tem que chutar qual será o próximo peixe • Você apenas tem a informação das probabilidades a priori de c1 e c2 • Qual peixe você chutaria? • c1 se P(c1) > P(c2) • c2 caso contrário • Isto é uma regra de decisão SISTEMAS DE INFORMAÇÃO 21 21 21 21SISTEMAS DE INFORMAÇÃO 21 21SISTEMAS DE INFORMAÇÃO 21 21 21 Teoria da Decisão Bayesiana • E para os 100 próximos peixes? SISTEMAS DE INFORMAÇÃO 22 22 22 22SISTEMAS DE INFORMAÇÃO 22 22SISTEMAS DE INFORMAÇÃO 22 22 22 Teoria da Decisão Bayesiana • E para os 100 próximos peixes? • Escolheríamos sempre a mesma classe, mesmo sabendo que há 2... • Erro? SISTEMAS DE INFORMAÇÃO 23 23 23 23SISTEMAS DE INFORMAÇÃO 23 23SISTEMAS DE INFORMAÇÃO 23 23 23 Teoria da Decisão Bayesiana • E para os 100 próximos peixes? • Escolheríamos sempre a mesma classe, mesmo sabendo que há 2... • Erro? • Número de peixes classificados errados • Aproximadamente P(c2) (se esta priori estiver correta) SISTEMAS DE INFORMAÇÃO 24 24 24 24SISTEMAS DEINFORMAÇÃO 24 24SISTEMAS DE INFORMAÇÃO 24 24 24 Probabilidades condicionais • Se eu sei mais acerca dos peixes (ex: luminosidade, tamanho, etc) – características, para CADA classe. • P(x|c) : densidade de probabilidade condicional (à classe) • Ex: luminosidade [DUDA, HART & STORK, 2001] SISTEMAS DE INFORMAÇÃO 25 25 25 25SISTEMAS DE INFORMAÇÃO 25 25SISTEMAS DE INFORMAÇÃO 25 25 25 • Se você: • conhece as prioris e as condicionais • vê um novo peixe (x) como você classificaria? • Pela fórmula de Bayes: • P(ci | x) = P(x|ci) P(ci) / P(x) P(x) = ∑j P(x, cj) = ∑j P(x|cj) P(cj) Revisitando Bayes SISTEMAS DE INFORMAÇÃO 26 26 26 26SISTEMAS DE INFORMAÇÃO 26 26SISTEMAS DE INFORMAÇÃO 26 26 26 • Se você: • conhece as prioris e as condicionais • vê um novo peixe (x) como você classificaria? • Pela fórmula de Bayes: • P(ci | x) = P(x|ci) P(ci) / P(x) P(x) = ∑j P(x, cj) = ∑j P(x|cj) P(cj) • posteriori = verossimilhança * priori / evidência Revisitando Bayes SISTEMAS DE INFORMAÇÃO 27 27 27 27SISTEMAS DE INFORMAÇÃO 27 27SISTEMAS DE INFORMAÇÃO 27 27 27 • Se você: • conhece as prioris e as condicionais • vê um novo peixe (x) como você classificaria? • Pela fórmula de Bayes: • P(ci | x) = P(x|ci) P(ci) / P(x) P(x) = ∑j P(x, cj) = ∑j P(x|cj) P(cj) • posteriori = verossimilhança * priori / evidência Revisitando Bayes Atualização da sua crença (priori) após ver os dados = posteriori SISTEMAS DE INFORMAÇÃO 28 28 28 28SISTEMAS DE INFORMAÇÃO 28 28SISTEMAS DE INFORMAÇÃO 28 28 28 Nova regra de decisão • Se você: • conhece as prioris e as condicionais • vê um novo peixe (x) como você classificaria? SISTEMAS DE INFORMAÇÃO 29 29 29 29SISTEMAS DE INFORMAÇÃO 29 29SISTEMAS DE INFORMAÇÃO 29 29 29 Nova regra de decisão • Se você: • conhece as prioris e as condicionais • vê um novo peixe (x) como você classificaria? • c1 se P(c1|x) > P(c2|x) • c2 caso contrário SISTEMAS DE INFORMAÇÃO 30 30 30 30SISTEMAS DE INFORMAÇÃO 30 30SISTEMAS DE INFORMAÇÃO 30 30 30 Nova regra de decisão • Se você: • conhece as prioris e as condicionais • vê um novo peixe (x) como você classificaria? • c1 se P(c1|x) > P(c2|x) • c2 caso contrário • Erro: P(erro | x) = • P(c1| x) se decidirmos por c2 • P(c2| x) se decidirmos por c1 SISTEMAS DE INFORMAÇÃO 31 31 31 31SISTEMAS DE INFORMAÇÃO 31 31SISTEMAS DE INFORMAÇÃO 31 31 31 Nova regra de decisão • Se você: • conhece as prioris e as condicionais • vê um novo peixe (x) como você classificaria? • c1 se P(c1|x) > P(c2|x) • c2 caso contrário • Erro: P(erro | x) = • P(c1| x) se decidirmos por c2 • P(c2| x) se decidirmos por c1 Veremos que a Regra de decisão Bayesiana tem erro mínimo SISTEMAS DE INFORMAÇÃO 32 32 32 32SISTEMAS DE INFORMAÇÃO 32 32SISTEMAS DE INFORMAÇÃO 32 32 32 Posterioris [DUDA, HART & STORK, 2001] Ex: P(ω1 = 2/3) e P(ω2 = 1/3) SISTEMAS DE INFORMAÇÃO 33 33 33 33SISTEMAS DE INFORMAÇÃO 33 33SISTEMAS DE INFORMAÇÃO 33 33 33 Ex: P(ω1 = 2/3) e P(ω2 = 1/3) Posterioris Condicionais (verossimilhanças) SISTEMAS DE INFORMAÇÃO 34 34 34 34SISTEMAS DE INFORMAÇÃO 34 34SISTEMAS DE INFORMAÇÃO 34 34 34 Regra de decisão bayesiana P(ci | x) = P(x|ci) P(ci) / P(x) • Preciso calcular P(x) para decidir? SISTEMAS DE INFORMAÇÃO 35 35 35 35SISTEMAS DE INFORMAÇÃO 35 35SISTEMAS DE INFORMAÇÃO 35 35 35 Regra de decisão bayesiana P(ci | x) = P(x|ci) P(ci) / P(x) • Preciso calcular P(x) para decidir? • Não! Como p(x) é uma constante (em relação às classes), a regra é: • c1 se P(x|c1) P(c1) > P(x|c2) P(c2) • c2 caso contrário SISTEMAS DE INFORMAÇÃO 36 36 36 36SISTEMAS DE INFORMAÇÃO 36 36SISTEMAS DE INFORMAÇÃO 36 36 36 Regra de decisão bayesiana P(ci | x) = P(x|ci) P(ci) / P(x) • Preciso calcular P(x) para decidir? • Não! Como p(x) é uma constante (em relação às classes), a regra é: • c1 se P(x|c1) P(c1) > P(x|c2) P(c2) • c2 caso contrário • Se P(c1) = P(c2)? SISTEMAS DE INFORMAÇÃO 37 37 37 37SISTEMAS DE INFORMAÇÃO 37 37SISTEMAS DE INFORMAÇÃO 37 37 37 Regra de decisão bayesiana P(ci | x) = P(x|ci) P(ci) / P(x) • Preciso calcular P(x) para decidir? • Não! Como p(x) é uma constante (em relação às classes), a regra é: • c1 se P(x|c1) P(c1) > P(x|c2) P(c2) • c2 caso contrário • Se P(c1) = P(c2), a decisão se resume à verossimilhança SISTEMAS DE INFORMAÇÃO 38 38 38 38SISTEMAS DE INFORMAÇÃO 38 38SISTEMAS DE INFORMAÇÃO 38 38 38 Generalizando (Teoria da Decisão) SISTEMAS DE INFORMAÇÃO 39 39 39 39SISTEMAS DE INFORMAÇÃO 39 39SISTEMAS DE INFORMAÇÃO 39 39 39 Generalizando... • x pode ser um vetor de características • Pode haver várias classes (c1, ..., ck) • Decido pela classe i se P(ci | x) > P(cj| x), i ≠ j • Posso realizar a ações (ao invés de apenas classificar), α1, ..., αa • Por ex, ficar indeciso e não fazer nada • Cada ação αi tem um custo para cada cj: função perda λ(αi | cj) • Perda esperada de se tomar uma ação αi ao observar x: R(αi|x) = ∑j=1..c λ(αi | cj) P(cj|x) Risco condicional SISTEMAS DE INFORMAÇÃO 40 40 40 40SISTEMAS DE INFORMAÇÃO 40 40SISTEMAS DE INFORMAÇÃO 40 40 40 Regra de Decisão Bayesiana • α(x) é uma função que escolhe αi com base em x • Risco total: R = ∫ R(α(x)|x) p(x) dx • Como minimizamos R? SISTEMAS DE INFORMAÇÃO 41 41 41 41SISTEMAS DE INFORMAÇÃO 41 41SISTEMAS DE INFORMAÇÃO 41 41 41 Regra de Decisão Bayesiana • α(x) é uma função que escolhe αi com base em x • Risco total: R = ∫ R(α(x)|x) p(x) dx • Como minimizamos R? • α(x) deve sempre escolher a ação αi que tem o menor risco condicional R(αi|x) • Regra de decisão Bayesiana • Este R mínimo (R*) é o risco de Bayes melhor resultado possível Vejamos o exemplo de classificação binária SISTEMAS DE INFORMAÇÃO 42 42 42 42SISTEMAS DE INFORMAÇÃO 42 42SISTEMAS DE INFORMAÇÃO 42 42 42 Classificação Binária • λij = λ(αi | cj), αi = classificar como classe ci • R(α1|x) = λ11 P(c1|x) + λ12 P(c2|x) • R(α2|x) = λ21 P(c1|x) + λ22 P(c2|x) Tomamos a ação α1 (isto é, classificamos como pertencente à classe c1) se R(α2|x) > R(α1|x) λ21 P(c1|x) + λ22 P(c2|x) > λ11 P(c1|x) + λ12 P(c2|x) • (λ21 - λ11) P(c1|x) > (λ12 - λ22) P(c2|x) • (λ21 - λ11) P(x|c1) P(c1) > (λ12 - λ22) P(x|c2) P(c2) • P(x|c1) (λ12 - λ22) P(c2) P(x|c2) (λ21 - λ11) P(c1) Likehood ratio (Razão de verossimilhança) > = θ SISTEMAS DE INFORMAÇÃO 43 43 43 43SISTEMAS DE INFORMAÇÃO 43 43SISTEMAS DE INFORMAÇÃO 43 43 43 Função perda zero-um Função perda zero-um: λ (αi | cj) = 0 i = j 1 i ≠ j SISTEMAS DE INFORMAÇÃO 44 44 44 44SISTEMAS DE INFORMAÇÃO 44 44SISTEMAS DE INFORMAÇÃO 44 44 44 Razão de verossimilhança [DUDA, HART & STORK, 2001]Ri: Região de decisão por i Perda 0-1 prioris iguais SISTEMAS DE INFORMAÇÃO 45 45 45 45SISTEMAS DE INFORMAÇÃO 45 45SISTEMAS DE INFORMAÇÃO 45 45 45 Razão de verossimilhança λ12 > λ21 (R1 se torna menor) [DUDA, HART & STORK, 2001]Ri: Região de decisão por i Perda 0-1 prioris iguais SISTEMAS DE INFORMAÇÃO 46 46 46 46SISTEMAS DE INFORMAÇÃO 46 46SISTEMAS DE INFORMAÇÃO 46 46 46 Classificação de múltiplas classes – taxa de erro mínima • Função perda zero-um: λ (αi | cj) = 0 i = j 1 i ≠ j • R(αi|x) = ∑j=1..c λ(αi | cj) P(cj|x) R(αi|x==∑j≠i P(cj|x) = 1- P(ci|x) • Decida por ci se P(ci|x) > P(cj|x), para todo j ≠i SISTEMAS DE INFORMAÇÃO 47 47 47 47SISTEMAS DE INFORMAÇÃO 47 47SISTEMAS DE INFORMAÇÃO 47 47 47 Resumindo • Para uma função perda genérica, não há classificador melhor que o teste bayesiano da razão de verossimilhança no sentido de minimizar o custo • Se a sua função perda é a zero-um, isso se resumo a escolher a classe com maior posteriori SISTEMAS DE INFORMAÇÃO 48 48 48 48SISTEMAS DE INFORMAÇÃO 48 48SISTEMAS DE INFORMAÇÃO 48 48 48 Problema • Normalmente não conhecemos as probabilidades condicionais P( . |ci) • Neste caso temos que estimá-las a partir de dados conhecidos, o que pode ser complexo • Mesmo conhecendo todas as probabilidadesnecessárias, o teste pode ser complexo em termos de tempo e memória SISTEMAS DE INFORMAÇÃO 49 49 49 49SISTEMAS DE INFORMAÇÃO 49 49SISTEMAS DE INFORMAÇÃO 49 49 49 Alternativas • Nestes casos, temos que optar por um classificador mais simples • Por ex: escolher uma família de densidades conhecida, ou seja, com uma forma matemática conhecida e um número finito de parâmetros. Daí basta estimar os parâmetros (ex. Normal, Poisson, ...) • CLASSIFICADOR PARAMÉTRICO • Quando não é possível escolher uma forma matemática então opta-se por um CLASSIFICADOR NÃO PARAMÉTRICO SISTEMAS DE INFORMAÇÃO 50 50 50 50SISTEMAS DE INFORMAÇÃO 50 50SISTEMAS DE INFORMAÇÃO 50 50 50 Alternativas • Nestes casos, temos que optar por um classificador mais simples • Por ex: escolher uma família de densidades conhecida, ou seja, com uma forma matemática conhecida e um número finito de parâmetros. Daí basta estimar os parâmetros (ex. Normal, Poisson, ...) • CLASSIFICADOR PARAMÉTRICO • Quando não é possível escolher uma forma matemática então opta-se por um CLASSIFICADOR NÃO PARAMÉTRICO SISTEMAS DE INFORMAÇÃO 51 51 51 51SISTEMAS DE INFORMAÇÃO 51 51SISTEMAS DE INFORMAÇÃO 51 51 51 Alternativas • Nestes casos, temos que optar por um classificador mais simples • Por ex: escolher uma família de densidades conhecida, ou seja, com uma forma matemática conhecida e um número finito de parâmetros. Daí basta estimar os parâmetros (ex. Normal, Poisson, ...) • CLASSIFICADOR PARAMÉTRICO • Quando não é possível escolher uma forma matemática então opta-se por um CLASSIFICADOR NÃO PARAMÉTRICO SISTEMAS DE INFORMAÇÃO 52 52 52 52SISTEMAS DE INFORMAÇÃO 52 52SISTEMAS DE INFORMAÇÃO 52 52 52 Métodos de Classificação [JAIN et al, 2000] SISTEMAS DE INFORMAÇÃO 53 53 53 53SISTEMAS DE INFORMAÇÃO 53 53SISTEMAS DE INFORMAÇÃO 53 53 53 Referências até aqui • DUDA, R.; HART, P.; STORK, D. Pattern Classification. John Willey, 2001 (Cap. 2.1 a 2.3) • JAIN, A.K.; DUIN, R.P.W.; MAO, J. Statistical Pattern Recognition : A Review. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 22, n. 1, p. 4-37, 2000 (seções 2 e 7) SISTEMAS DE INFORMAÇÃO 54 54 54 54SISTEMAS DE INFORMAÇÃO 54 54SISTEMAS DE INFORMAÇÃO 54 54 54 Redes Bayesianas SISTEMAS DE INFORMAÇÃO 55 55 55 55SISTEMAS DE INFORMAÇÃO 55 55SISTEMAS DE INFORMAÇÃO 55 55 55 Teorema de Bayes P(B|A) = P(A|B) P(B)/P(A) SISTEMAS DE INFORMAÇÃO 56 56 56 56SISTEMAS DE INFORMAÇÃO 56 56SISTEMAS DE INFORMAÇÃO 56 56 56 Teorema de Bayes P(C|X) = P(X|C) P(C)/P(X) posteriori = verossimilhança * priori / evidência SISTEMAS DE INFORMAÇÃO 57 57 57 57SISTEMAS DE INFORMAÇÃO 57 57SISTEMAS DE INFORMAÇÃO 57 57 57 Teorema de Bayes Probabilidades para descrever crenças ou incertezas Forma de atualizar o conhecimento, com base em conhecimento prévio e dados disponíveis É encadeável, permitindo combinar diferentes eventos (desde que se possa atribuir probabilidades a eles) Alguns problemas podem envolver várias variáveis, dependentes entre si Pode-se descrever uma REDE dessas variáveis e suas relações de dependências SISTEMAS DE INFORMAÇÃO 58 58 58 58SISTEMAS DE INFORMAÇÃO 58 58SISTEMAS DE INFORMAÇÃO 58 58 58 Redes Bayesianas Modelo gráfico para representação dessa rede Grafo dirigido e acíclico: SISTEMAS DE INFORMAÇÃO 59 59 59 59SISTEMAS DE INFORMAÇÃO 59 59SISTEMAS DE INFORMAÇÃO 59 59 59 Redes Bayesianas Modelo gráfico para representação dessa rede Grafo dirigido e acíclico: Vértices: variáveis aleatórias SISTEMAS DE INFORMAÇÃO 60 60 60 60SISTEMAS DE INFORMAÇÃO 60 60SISTEMAS DE INFORMAÇÃO 60 60 60 Redes Bayesianas Modelo gráfico para representação dessa rede Grafo dirigido e acíclico: Vértices: variáveis aleatórias Arestas: relações de dependência SISTEMAS DE INFORMAÇÃO 61 61 61 61SISTEMAS DE INFORMAÇÃO 61 61SISTEMAS DE INFORMAÇÃO 61 61 61 Redes Bayesianas Modelo gráfico para representação dessa rede Grafo dirigido e acíclico: Vértices: variáveis aleatórias Arestas: relações de dependência Ausência de aresta: independência condicional SISTEMAS DE INFORMAÇÃO 62 62 62 62SISTEMAS DE INFORMAÇÃO 62 62SISTEMAS DE INFORMAÇÃO 62 62 62 Rede Bayesiana - Definição Par (S, P) onde: S é a estrutura da rede (nós x = {x1, …, xn} e arestas) SISTEMAS DE INFORMAÇÃO 63 63 63 63SISTEMAS DE INFORMAÇÃO 63 63SISTEMAS DE INFORMAÇÃO 63 63 63 Rede Bayesiana - Definição Par (S, P) onde: S é a estrutura da rede (nós x = {x1, …, xn} e arestas) P é um conjunto de distribuições de probabilidades p(xi | pa(xi)), no qual pa(xi) são os nós pais de xi SISTEMAS DE INFORMAÇÃO 64 64 64 64SISTEMAS DE INFORMAÇÃO 64 64SISTEMAS DE INFORMAÇÃO 64 64 64 Rede Bayesiana - Definição Par (S, P) onde: S é a estrutura da rede (nós x = {x1, …, xn} e arestas) P é um conjunto de distribuições de probabilidades p(xi | pa(xi)), no qual pa(xi) são os nós pais de xi Probabilidade conjunta da rede: P(S) ou P(x) = ∏i p(xi | pa(xi)) SISTEMAS DE INFORMAÇÃO 65 65 65 65SISTEMAS DE INFORMAÇÃO 65 65SISTEMAS DE INFORMAÇÃO 65 65 65 Exemplo (supondo que você conhece esses valores) SISTEMAS DE INFORMAÇÃO 66 66 66 66SISTEMAS DE INFORMAÇÃO 66 66SISTEMAS DE INFORMAÇÃO 66 66 66 Probabilidade conjunta da rede SISTEMAS DE INFORMAÇÃO 67 67 67 67SISTEMAS DE INFORMAÇÃO 67 67SISTEMAS DE INFORMAÇÃO 67 67 67 Probabilidade conjunta da rede SISTEMAS DE INFORMAÇÃO 68 68 68 68SISTEMAS DE INFORMAÇÃO 68 68SISTEMAS DE INFORMAÇÃO 68 68 68 Probabilidade conjunta da rede SISTEMAS DE INFORMAÇÃO 69 69 69 69SISTEMAS DE INFORMAÇÃO 69 69SISTEMAS DE INFORMAÇÃO 69 69 69 Redes Bayesianas: para quê servem? SISTEMAS DE INFORMAÇÃO 70 70 70 70SISTEMAS DE INFORMAÇÃO 70 70SISTEMAS DE INFORMAÇÃO 70 70 70 Inferência em Redes Bayesianas Usadas para fazer inferência Redes bayesianas inicialmente como forma de representar conhecimento especialista sobre as incertezas envolvidas no objeto de estudo (mais à frente: como aprender a partir dos dados) Usadas para fazer inferência sobre o que você antes desconhecia (probabilidades não representadas DIRETAMENTE no modelo) Ex: Qual é a venda esperada para o Redoxon dadas as condições climáticas e intensidade do surto de gripe? SISTEMAS DE INFORMAÇÃO 71 71 71 71SISTEMAS DE INFORMAÇÃO 71 71SISTEMAS DE INFORMAÇÃO 71 71 71 Inferência: Qual a probabilidade de estarmos na estação chuvosa? (e nada mais é sabido) conjuntas Σ Σ SISTEMAS DE INFORMAÇÃO 72 72 72 72SISTEMAS DE INFORMAÇÃO 72 72SISTEMAS DE INFORMAÇÃO 72 72 72 Inferência: Qual a probabilidade de estarmos na estação chuvosa? (sabendo que o jardim foi regado) conjuntas Valores normalizados P(A|C=sim) Σ Σ SISTEMAS DE INFORMAÇÃO 73 73 73 73SISTEMAS DE INFORMAÇÃO 73 73SISTEMAS DE INFORMAÇÃO 73 73 73 Inferência: Qual a probabilidade de estarmos na estação chuvosa? (sabendo que o jardim está molhado) conjuntas Valores normalizados P(A|D=sim) Σ Σ SISTEMAS DE INFORMAÇÃO 74 74 74 74SISTEMAS DE INFORMAÇÃO 74 74SISTEMAS DE INFORMAÇÃO 74 74 74 Redes bayesianas como classificadores Como redes bayesianas podem ser utilizadas como classificadores? SISTEMAS DE INFORMAÇÃO 75 75 75 75SISTEMAS DE INFORMAÇÃO 75 75SISTEMAS DE INFORMAÇÃO 75 75 75 Redes bayesianas como classificadores Como redes bayesianas podem ser utilizadas como classificadores? - A classe é uma das variáveis - Cada característica é uma variável - A variável da classe depende das variáveis das características - Você classifica para a classe ci com maior probabilidade P(C = cj | x1, x2, …, xn) para todo j (na qual as variáveis x1, x2, …, xn são pais de C, não necessariamente exatamente todas as características, dependendo da estrutura da rede). ou seja, uma classificação baseada na probabilidade a posteriori SISTEMAS DE INFORMAÇÃO76 76 76 76SISTEMAS DE INFORMAÇÃO 76 76SISTEMAS DE INFORMAÇÃO 76 76 76 Aprendizado de redes bayesianas SISTEMAS DE INFORMAÇÃO 77 77 77 77SISTEMAS DE INFORMAÇÃO 77 77SISTEMAS DE INFORMAÇÃO 77 77 77 O que aprender? Estrutura: Variáveis (nós): número e quais Relações de dependência (arestas) Direção das arestas Probabilidades SISTEMAS DE INFORMAÇÃO 78 78 78 78SISTEMAS DE INFORMAÇÃO 78 78SISTEMAS DE INFORMAÇÃO 78 78 78 Aprendizado de redes bayesianas Pode-se criar uma rede bayesiana apenas com conhecimento especialista, ou aprendê-la a partir dos dados Métodos automáticos e semi-automáticos para aprendizado da estrutura e das probabilidades condicionais Pode não se saber as relações de dependência, mas apenas ter um conjunto de dados SISTEMAS DE INFORMAÇÃO 79 79 79 79SISTEMAS DE INFORMAÇÃO 79 79SISTEMAS DE INFORMAÇÃO 79 79 79 Aprendizado da estrutura Testes estatísticos de independência para identificar dependências e independências entre as variáveis Tem que saber as variáveis Adequar os parâmetros do teste para impedir que, dependendo do tamanho da amostra, o teste diga que as variáveis são dependentes quando na verdade não são. SISTEMAS DE INFORMAÇÃO 80 80 80 80SISTEMAS DE INFORMAÇÃO 80 80SISTEMAS DE INFORMAÇÃO 80 80 80 Aprendizado das probabilidades Rede Bayesiana M = (S, θ), sendo S a estrutura da rede e θ o vetor de todos os θi, sendo θi a tabela de probabilidades condicionais da variável xi, ou seja, - o conjunto de todos os parâmetros que definem as probabilidades condicionais de cada variável xi (P(xi | pa(xi))), ou seja, - θi é o vetor (matriz) especificando, em cada posição i,j,k, θijk = P(xi k | pa(xi) j), sendo xi k o k-ésimo valor que xi pode assumir e pa(xi) j a j-ésima configuração que os pais de xi podem assumir - Ex: para xi = D, k = 1 (xi k = sim) ou k = 2 (xi k = não), pa(xi) = (B, C), pa(xi) 1 = (B=sim, C=sim), pa(xi) 2 = (B=sim, C=não), pa(xi) 3 = (B=não, C=sim), pa(xi) 4 = (B=não, C=não), θi = matriz abaixo x i k=1 k=2 pa(xi) 1 pa(xi) 2 pa(xi) 3 pa(xi) 4 SISTEMAS DE INFORMAÇÃO 81 81 81 81SISTEMAS DE INFORMAÇÃO 81 81SISTEMAS DE INFORMAÇÃO 81 81 81 Aprendizado das probabilidades Duas coisas são assumidas (a fim de que os parâmetros possam ser aprendidos independentemente): - Independência global: os parâmetros das várias variáveis (θi) são independentes • Isso significa que podemos modificar as tabelas de cada variável independentemente - Independência local: as incertezas dos parâmetros para as diferentes configurações de pais (θijk para cada i) são independentes (isto é, a incerteza em P(A|b,c) é independente da incerteza em P(A|b´,c´) • Isso significa que os parâmetros para as duas distribuições podem ser modificados independentemente SISTEMAS DE INFORMAÇÃO 82 82 82 82SISTEMAS DE INFORMAÇÃO 82 82SISTEMAS DE INFORMAÇÃO 82 82 82 Aprendizado das probabilidades Dados completos – Estimação por máxima verossimilhança (ML – Maximum likelihood) – Estimação bayesiana (MAP – Maximum a posteriori) Dados incompletos – Estimação aproximada (algoritmo EM) SISTEMAS DE INFORMAÇÃO 83 83 83 83SISTEMAS DE INFORMAÇÃO 83 83SISTEMAS DE INFORMAÇÃO 83 83 83 Aprendizado das probabilidades - Dados completos Seja D um dataset de casos: ele é completo se cada caso (instância) é uma configuração sobre TODAS as variáveis de M (variáveis conhecidas e sem missing values) SISTEMAS DE INFORMAÇÃO 84 84 84 84SISTEMAS DE INFORMAÇÃO 84 84SISTEMAS DE INFORMAÇÃO 84 84 84 Estimação por Máxima Verossimilhança Para cada caso d є D, P(d | M) é a verossimilhança de M dado d, ou L(M | d) Assumindo que os casos são independentes (dado M): L(M | D) = Πd є D P(d | M), ou LL(M | D) = Σd Є D log P(d | M) Estimação de θ por máxima verossimilhança: cálculo dos valores que maximizam LL(M | D) LL : log-likelihood SISTEMAS DE INFORMAÇÃO 85 85 85 85SISTEMAS DE INFORMAÇÃO 85 85SISTEMAS DE INFORMAÇÃO 85 85 85 Estimação por Máxima Verossimilhança Uso das frequências como estimativas Exemplo: P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c) Possível problema: e se algumas contagens for igual a zero? - pode dar divisão por zero! (se no denominador) - se no numerador, a probabilidade naquele ponto será igual a zero. Boa estimativa? SISTEMAS DE INFORMAÇÃO 86 86 86 86SISTEMAS DE INFORMAÇÃO 86 86SISTEMAS DE INFORMAÇÃO 86 86 86 Estimação por Máxima Verossimilhança Uso das frequências como estimativas Exemplo: P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c) Possível problema: e se algumas contagens for igual a zero? - pode dar divisão por zero! (se no denominador) - se no numerador, a probabilidade naquele ponto será igual a zero. Boa estimativa? SISTEMAS DE INFORMAÇÃO 87 87 87 87SISTEMAS DE INFORMAÇÃO 87 87SISTEMAS DE INFORMAÇÃO 87 87 87 Estimação por Máxima Verossimilhança Uso das frequências como estimativas Exemplo: P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c) Possível problema: e se algumas contagens for igual a zero? - pode dar divisão por zero! (se no denominador) - se no numerador, a probabilidade naquele ponto será igual a zero. Boa estimativa? SISTEMAS DE INFORMAÇÃO 88 88 88 88SISTEMAS DE INFORMAÇÃO 88 88SISTEMAS DE INFORMAÇÃO 88 88 88 Estimação por Máxima Verossimilhança Uso das frequências como estimativas Exemplo: P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c) Possível problema: e se algumas contagens for igual a zero? - pode dar divisão por zero! (se no denominador) - se no numerador, a probabilidade naquele ponto será igual a zero. Boa stimativa? provavelmente não, principalmente se a amostra for pequena SISTEMAS DE INFORMAÇÃO 89 89 89 89SISTEMAS DE INFORMAÇÃO 89 89SISTEMAS DE INFORMAÇÃO 89 89 89 Estimação Bayesiana (Máxima a posteriori - MAP) Pseudocontadores (Dirichlet) – Inicialização dos contadores com algum valor diferente de zero (ex: 1 – correção Laplaciana) – Valor inicial pode ser igual para todos ou não – Distribuição dos valores iniciais: distribuição de Dirichlet SISTEMAS DE INFORMAÇÃO 90 90 90 90SISTEMAS DE INFORMAÇÃO 90 90SISTEMAS DE INFORMAÇÃO 90 90 90 Aprendizado das probabilidades - Dados incompletos Dados incompletos Missing values: acidentais (ex: sensor), intencionais, etc Não observáveis (variáveis latentes ou escondidas) Opções: SISTEMAS DE INFORMAÇÃO 91 91 91 91SISTEMAS DE INFORMAÇÃO 91 91SISTEMAS DE INFORMAÇÃO 91 91 91 Dados incompletos Missing values: acidentais (ex: sensor), intencionais, etc Não observáveis (variáveis latentes ou escondidas) Opções: Jogar fora os casos com missing values. Problemas: Amostra final pode ficar pequena Amostra final pode ficar enviesada Tentar trabalhar com eles Aprendizado das probabilidades - Dados incompletos SISTEMAS DE INFORMAÇÃO 92 92 92 92SISTEMAS DE INFORMAÇÃO 92 92SISTEMAS DE INFORMAÇÃO 92 92 92 Dados incompletos Missing values: acidentais (ex: sensor), intencionais, etc Não observáveis (variáveis latentes ou escondidas) Opções: Jogar fora os casos com missing values. Problemas: Amostra final pode ficar pequena Amostra final pode ficar enviesada Tentar trabalhar com eles (estimação aproximada: algoritmo EM) Aprendizado das probabilidades - Dados incompletos SISTEMAS DE INFORMAÇÃO 93 93 93 93SISTEMAS DE INFORMAÇÃO 93 93SISTEMAS DE INFORMAÇÃO 93 93 93 Algoritmo EM - Expectation-Maximization Utilizado não só em redes bayesianas, mas sempre que há valores ausentes Algoritmo iterativo: várias rodadas de dois passos: esperança e maximização: Esperança: “completa-se” o dataset utilizando o θ' atual para calcular a esperança (média) para os valores ausentes Maximização: usa-se o dataset “completado” para reestimar um novo valor de θ' por máxima verossimilhança (ou máxima a posteriori) Esses dois passos sãointercalados até alcançar convergência ou um número máximo de iterações Problema: sofre de mínimos locais Valores iniciais na primeira iteração SISTEMAS DE INFORMAÇÃO 94 94 94 94SISTEMAS DE INFORMAÇÃO 94 94SISTEMAS DE INFORMAÇÃO 94 94 94 Redes bayesianas como classificadores SISTEMAS DE INFORMAÇÃO 95 95 95 95SISTEMAS DE INFORMAÇÃO 95 95SISTEMAS DE INFORMAÇÃO 95 95 95 Redes bayesianas como classificadores Como redes bayesianas podem ser utilizadas como classificadores? - A classe é uma das variáveis - Cada característica é uma variável - A variável da classe depende das variáveis das características - Você classifica para a classe ci com maior probabilidade P(C = cj | x1, x2, …, xn) para todo j (na qual as variáveis x1, x2, …, xn são pais de C, não necessariamente exatamente todas as características, dependendo da estrutura da rede). ou seja, uma classificação baseada na probabilidade a posteriori SISTEMAS DE INFORMAÇÃO 96 96 96 96SISTEMAS DE INFORMAÇÃO 96 96SISTEMAS DE INFORMAÇÃO 96 96 96 Redes bayesianas como classificadores Problema dessa estratégia? Se o número de configurações possíveis é grande, o erro de estimação será grande (ou se a amostra fosse adequadamente grande, seria custoso estimar os parâmetros) – Lembrando que ainda existe o erro de estimação das dependências Alternativas: - Naive Bayes Classifier (NBC) - Tree Augmented NBC (TAN) SISTEMAS DE INFORMAÇÃO 97 97 97 97SISTEMAS DE INFORMAÇÃO 97 97SISTEMAS DE INFORMAÇÃO 97 97 97 Naive Bayes Classifier Variável classe não tem pais Cada variável característica tem apenas um pai: a variável classe (assume-se independência entre as características) Calcula-se P(C|X) = P(X1, X2, ..., Xn |C)P(C) como sendo = Πi P(Xi | C) * P(C) Estrutura fixa Vantagem: somente os parâmetros precisam ser aprendidos (por um dos métodos de estimação de parâmetros de redes bayesianas_ Desvantagem: assume independência das características dada a classe Resultados razoáveis SISTEMAS DE INFORMAÇÃO 98 98 98 98SISTEMAS DE INFORMAÇÃO 98 98SISTEMAS DE INFORMAÇÃO 98 98 98 SISTEMAS DE INFORMAÇÃO 99 99 99 99SISTEMAS DE INFORMAÇÃO 99 99SISTEMAS DE INFORMAÇÃO 99 99 99 SISTEMAS DE INFORMAÇÃO 100 100 100 100SISTEMAS DE INFORMAÇÃO 100 100SISTEMAS DE INFORMAÇÃO 100 100 100 SISTEMAS DE INFORMAÇÃO 101 101 101 101SISTEMAS DE INFORMAÇÃO 101 101SISTEMAS DE INFORMAÇÃO 101 101 101 SISTEMAS DE INFORMAÇÃO 102 102 102 102SISTEMAS DE INFORMAÇÃO 102 102SISTEMAS DE INFORMAÇÃO 102 102 102 SISTEMAS DE INFORMAÇÃO 103 103 103 103SISTEMAS DE INFORMAÇÃO 103 103SISTEMAS DE INFORMAÇÃO 103 103 103 SISTEMAS DE INFORMAÇÃO 104 104 104 104SISTEMAS DE INFORMAÇÃO 104 104SISTEMAS DE INFORMAÇÃO 104 104 104 SISTEMAS DE INFORMAÇÃO 105 105 105 105SISTEMAS DE INFORMAÇÃO 105 105SISTEMAS DE INFORMAÇÃO 105 105 105 SISTEMAS DE INFORMAÇÃO 106 106 106 106SISTEMAS DE INFORMAÇÃO 106 106SISTEMAS DE INFORMAÇÃO 106 106 106 SISTEMAS DE INFORMAÇÃO 107 107 107 107SISTEMAS DE INFORMAÇÃO 107 107SISTEMAS DE INFORMAÇÃO 107 107 107 SISTEMAS DE INFORMAÇÃO 108 108 108 108SISTEMAS DE INFORMAÇÃO 108 108SISTEMAS DE INFORMAÇÃO 108 108 108 SISTEMAS DE INFORMAÇÃO 109 109 109 109SISTEMAS DE INFORMAÇÃO 109 109SISTEMAS DE INFORMAÇÃO 109 109 109 SISTEMAS DE INFORMAÇÃO 110 110 110 110SISTEMAS DE INFORMAÇÃO 110 110SISTEMAS DE INFORMAÇÃO 110 110 110 SISTEMAS DE INFORMAÇÃO 111 111 111 111SISTEMAS DE INFORMAÇÃO 111 111SISTEMAS DE INFORMAÇÃO 111 111 111 SISTEMAS DE INFORMAÇÃO 112 112 112 112SISTEMAS DE INFORMAÇÃO 112 112SISTEMAS DE INFORMAÇÃO 112 112 112 SISTEMAS DE INFORMAÇÃO 113 113 113 113SISTEMAS DE INFORMAÇÃO 113 113SISTEMAS DE INFORMAÇÃO 113 113 113 SISTEMAS DE INFORMAÇÃO 114 114 114 114SISTEMAS DE INFORMAÇÃO 114 114SISTEMAS DE INFORMAÇÃO 114 114 114 SISTEMAS DE INFORMAÇÃO 115 115 115 115SISTEMAS DE INFORMAÇÃO 115 115SISTEMAS DE INFORMAÇÃO 115 115 115 Tree Augmented Naive Bayes Classifier Extensão do NBC: cada variável característica pode ter no máximo mais uma variável característica como pai A estrutura não é dada A estrutura pode ser aprendida de forma a ter, juntamente com parâmetros probabilísticos ótimos, máxima verossimilhança Página 271 de (JENSEN & NIELSEN, 2007) SISTEMAS DE INFORMAÇÃO 116 116 116 116SISTEMAS DE INFORMAÇÃO 116 116SISTEMAS DE INFORMAÇÃO 116 116 116 SISTEMAS DE INFORMAÇÃO 117 117 117 117SISTEMAS DE INFORMAÇÃO 117 117SISTEMAS DE INFORMAÇÃO 117 117 117 Características desta metodologia Supervisionado ou não-supervisionado? SISTEMAS DE INFORMAÇÃO 118 118 118 118SISTEMAS DE INFORMAÇÃO 118 118SISTEMAS DE INFORMAÇÃO 118 118 118 Características desta metodologia Supervisionado ou não-supervisionado? – Supervisionado! Você precisa saber a classificação para treinar a rede! SISTEMAS DE INFORMAÇÃO 119 119 119 119SISTEMAS DE INFORMAÇÃO 119 119SISTEMAS DE INFORMAÇÃO 119 119 119 Características desta metodologia Supervisionado ou não-supervisionado? – Supervisionado! Você precisa saber a classificação para treinar a rede! Paramétrico ou não-paramétrico? SISTEMAS DE INFORMAÇÃO 120 120 120 120SISTEMAS DE INFORMAÇÃO 120 120SISTEMAS DE INFORMAÇÃO 120 120 120 Características desta metodologia Supervisionado ou não-supervisionado? – Supervisionado! Você precisa saber a classificação para treinar a rede! Paramétrico ou não-paramétrico? – Paramétrico! Normalmente assume-se uma distribuição multinomial dos dados e uma distribuição de Dirichlet como priori (e posteriori) SISTEMAS DE INFORMAÇÃO 122 122 122 122SISTEMAS DE INFORMAÇÃO 122 122SISTEMAS DE INFORMAÇÃO 122 122 122 Software para redes bayesianas JavaBayes – pacote gráfico para inferência em redes bayesianas (Fábio Cozman, da EPUSP): http://www.pmr.poli.usp.br/ltd/Software/javabayes/ R (pacote DEAL) Naive Bayes – pacote e1071 ® Naive Bayes em Python: https://scikit-learn.org/stable/modules/ naive_bayes.html SISTEMAS DE INFORMAÇÃO 123 123 123 123SISTEMAS DE INFORMAÇÃO 123 123SISTEMAS DE INFORMAÇÃO 123 123 123 Naive Bayes no Python Sklearn: – CategoricalNB para variáveis categóricas – GaussianNB para variáveis numéricas – MultinomialNM para classificação de texto Para datasets mistos: https://pypi.org/project/mixed-naive-bayes/ SISTEMAS DE INFORMAÇÃO 124 124 124 124SISTEMAS DE INFORMAÇÃO 124 124SISTEMAS DE INFORMAÇÃO 124 124 124 Atividade 4 (para dia 15/9) Utilizar o classificador Naive Bayes utilizando: - todas as características - apenas com os componentes principais - apenas com as características selecionadas pelo selecionador 1 (e opcionalmente o selecionador 2) Para cada um deles: - dividir o dataset (já reduzido por PCA ou selecionador) em 80% para treino e 20% para teste (mantendo as proporção das classes em cada parte) - Usar os 80% para treinar o Naive Bayes e testar nos 20% - Calcular a acurácia (% de acerto) na amostra de teste SISTEMAS DE INFORMAÇÃO 125 125 125 125SISTEMAS DE INFORMAÇÃO 125 125SISTEMAS DE INFORMAÇÃO 125 125 125 Atividade 4 (para dia 15/9) Obs: 1- Usar o Naive Bayes adequado para o tipo de variáveis do seu dataset (completo ou reduzido) 2- Ex: Independente do tipo de variáveis do seu dataset original, o dataset reduzido por PCA terá sempre variáveis contínuas!!!! SISTEMAS DE INFORMAÇÃO 126 126 126 126SISTEMAS DE INFORMAÇÃO 126 126SISTEMAS DE INFORMAÇÃO 126 126 126 Referências HAN, J.; KAMBER, M.; PEI, J. Data mining: Concepts and Techniques. 3rd edition. Elsevier. 2012 HECKERMAN, D. A Tutorial on learning with bayesian networks. Technical Report MSR-TR-95-06. Microsoft Research (disponível no edisciplinas) JENSEN, F. V.; NIELSEN, T. D. Bayesian networks and decision graphs. Springer. 2nd ed. 2007. cap 6 e 8. Slides de aula do Prof. Fabio Nakano Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25 Slide 26 Slide 27 Slide 28 Slide 29 Slide 30 Slide 31 Slide 32 Slide 33 Slide 34 Slide 35 Slide 36 Slide 37 Slide 38 Slide 39 Slide 40 Slide 41 Slide 42 Slide 43 Slide 44 Slide 45 Slide 46 Slide 47 Slide 48 Slide 49 Slide 50 Slide 51 Slide 52 Slide 53 Slide 54 Slide 55 Slide 56 Slide 57 Slide 58 Slide 59 Slide 60 Slide 61 Slide 62 Slide 63 Slide 64 Slide 65 Slide 66 Slide 67 Slide 68 Slide 69 Slide 70 Slide 71 Slide 72 Slide 73 Slide 74 Slide 75 Slide 76 Slide 77 Slide 78 Slide 79 Slide 80 Slide 81 Slide 82 Slide 83 Slide 84 Slide 85 Slide 86 Slide 87 Slide 88 Slide 89 Slide 90 Slide 91 Slide 92 Slide 93 Slide 94 Slide 95 Slide 96 Slide 97 Slide 98 Slide 99 Slide 100 Slide 101 Slide 102 Slide 103 Slide 104 Slide 105 Slide 106 Slide 107 Slide 108 Slide 109 Slide 110 Slide 111 Slide 112 Slide 113 Slide 114 Slide 115 Slide 116 Slide 117 Slide 118 Slide 119 Slide 120 Slide 122 Slide 123 Slide 124 Slide 125 Slide 126
Compartilhar