Buscar

SIN5007-Tema04-ClassificadorBayesiano_RedesBayesianas_NaiveBayes

Prévia do material em texto

SISTEMAS DE
INFORMAÇÃO
1
1
1
1SISTEMAS DE
INFORMAÇÃO
1
1SISTEMAS DE
INFORMAÇÃO
1
1
1
Professora:
Ariane Machado Lima
Tema 04
O Classificador Bayesiano
SISTEMAS DE
INFORMAÇÃO
2
2
2
2SISTEMAS DE
INFORMAÇÃO
2
2SISTEMAS DE
INFORMAÇÃO
2
2
2
Classificação
Dado um conjunto de elementos, queremos 
separá-los por classes.
Algumas questões:
 - você sabe quantas classes?
 - você conhece exemplos dessas classes?
SISTEMAS DE
INFORMAÇÃO
3
3
3
3SISTEMAS DE
INFORMAÇÃO
3
3SISTEMAS DE
INFORMAÇÃO
3
3
3
Técnicas de Classificação
[JAIN et al, 2000]
SISTEMAS DE
INFORMAÇÃO
4
4
4
4SISTEMAS DE
INFORMAÇÃO
4
4SISTEMAS DE
INFORMAÇÃO
4
4
4
O que são essas densidades 
condicionais da classe?
• O que quer dizer densidade neste contexto?
• Função densidade de probabilidade
SISTEMAS DE
INFORMAÇÃO
5
5
5
5SISTEMAS DE
INFORMAÇÃO
5
5SISTEMAS DE
INFORMAÇÃO
5
5
5
Revisão (rápida) de 
probabilidade e estatística
• X é uma variável aleatória (cujo valor pode ser 
visto como o resultado de um experimento) que 
assume valores sobre Ω (espaço amostral)
• Função de probabilidade: p(x) = P(X = x)
• Função de distribuição de probabilidade: F(x) = 
P(X<=x)
SISTEMAS DE
INFORMAÇÃO
6
6
6
6SISTEMAS DE
INFORMAÇÃO
6
6SISTEMAS DE
INFORMAÇÃO
6
6
6
Revisão (rápida) de 
probabilidade e estatística
• Se X é discreta (assume apenas valores 
inteiros):
• F(x) = i:xi<=xΣ P(X=xi)
• Se X é contínua (pode assumir valores reais 
não inteiros):
• F (X) = ʃ-∞
x f(t) dt, sendo f a função 
densidade de probabilidade de X
• Ou seja, a densidade só vira probabilidade 
quando integrado em um intervalo
SISTEMAS DE
INFORMAÇÃO
7
7
7
7SISTEMAS DE
INFORMAÇÃO
7
7SISTEMAS DE
INFORMAÇÃO
7
7
7
Revisão (rápida) de 
probabilidade e estatística
• Exemplos de distribuições discretas:
• Bernoulli (lançamento de uma moeda)
• Binomial (vários Bernoulli)
• Multinomial (generalização da Binomial para k 
possíveis resultados)
• Poisson (vista como uma Binomial de eventos raros)
• Exemplos de distribuições contínuas
• Normal
• Exponencial (intervalo entre dois sucessos 
consecutivos de uma Poisson)
• Gumbel (EVD)
SISTEMAS DE
INFORMAÇÃO
8
8
8
8SISTEMAS DE
INFORMAÇÃO
8
8SISTEMAS DE
INFORMAÇÃO
8
8
8
Revisão (rápida) de 
probabilidade e estatística
• Probabilidades condicionais:
• P (X | Y) = probabilidade do evento X dado que 
ocorreu o evento Y
XX
YY
SISTEMAS DE
INFORMAÇÃO
9
9
9
9SISTEMAS DE
INFORMAÇÃO
9
9SISTEMAS DE
INFORMAÇÃO
9
9
9
Revisão (rápida) de 
probabilidade e estatística
• Probabilidades condicionais:
• P (X | Y) = probabilidade do evento X dado que 
ocorreu o evento Y
• P (a ∈ X | a ∈ Y) = P ([a ∈ X] ∩ [a ∈ Y]) / P (a ∈ Y)
X X YY
Ω
SISTEMAS DE
INFORMAÇÃO
10
10
10
10SISTEMAS DE
INFORMAÇÃO
10
10SISTEMAS DE
INFORMAÇÃO
10
10
10
Revisão (rápida) de 
probabilidade e estatística
• Probabilidades condicionais:
• P (X | Y) = probabilidade do evento X dado que 
ocorreu o evento Y
• P (X | Y) = P (X ∩ Y) / P(Y)
X X Y Y 
SISTEMAS DE
INFORMAÇÃO
11
11
11
11SISTEMAS DE
INFORMAÇÃO
11
11SISTEMAS DE
INFORMAÇÃO
11
11
11
Revisão (rápida) de 
probabilidade e estatística
• Probabilidades condicionais:
• P (X | Y) = probabilidade do evento X dado que 
ocorreu o evento Y
• P (X | Y) = P (X , Y) / P(Y)
X X Y Y 
Distribuição conjunta
SISTEMAS DE
INFORMAÇÃO
12
12
12
12SISTEMAS DE
INFORMAÇÃO
12
12SISTEMAS DE
INFORMAÇÃO
12
12
12
Probabilidades condicionais em 
classificação
• X pode ser um vetor aleatório das características dos 
elementos que eu observo (que eu quero classificar)
• Y pode ser as classes possíveis: P(Y =yi) é a probabilidade 
de um elemento ser da classe yi
 X possui uma distribuição dentro de Ω (geral, “no mundo”), 
e possivelmente uma distribuição diferente “dentro de” 
(condicionada a) uma dada classe
Ex: * probabilidade de um aluno da USP ser do gênero feminino
 * probabilidade de um aluno da USP do curso de SI ser do gênero feminino
 * probabilidade de um aluno da USP do curso de pedagogia ser do gênero 
feminino
Como isso pode nos ajudar na classificação?
SISTEMAS DE
INFORMAÇÃO
13
13
13
13SISTEMAS DE
INFORMAÇÃO
13
13SISTEMAS DE
INFORMAÇÃO
13
13
13
Probabilidades condicionais em 
classificação
• X pode ser um vetor aleatório das características dos 
elementos que eu observo (que eu quero classificar)
• Y pode ser as classes possíveis: P(Y =yi) é a probabilidade 
de um elemento ser da classe yi
 X possui uma distribuição dentro de Ω (geral, “no mundo”), 
e possivelmente uma distribuição diferente “dentro de” 
(condicionada a) uma dada classe
Ex: * probabilidade de um aluno da USP ser do gênero feminino
 * probabilidade de um aluno da USP do curso de SI ser do gênero feminino
 * probabilidade de um aluno da USP do curso de pedagogia ser do gênero 
feminino
Como isso pode nos ajudar na classificação?
Saber o gênero do aluno pode nos ajudar a prever se ele é de 
SI ou pedagogia
SISTEMAS DE
INFORMAÇÃO
14
14
14
14SISTEMAS DE
INFORMAÇÃO
14
14SISTEMAS DE
INFORMAÇÃO
14
14
14
Probabilidades condicionais
• Ex: densidade condicional da luminosidade 
dos peixes para as classes robalo e salmão
• P(x|c) : densidade de probabilidade 
condicional (à classe)
• Ex: 
luminosidade
[DUDA, HART & STORK, 2001]
SISTEMAS DE
INFORMAÇÃO
15
15
15
15SISTEMAS DE
INFORMAÇÃO
15
15SISTEMAS DE
INFORMAÇÃO
15
15
15
Técnicas de Classificação
[JAIN et al, 2000]
SISTEMAS DE
INFORMAÇÃO
16
16
16
16SISTEMAS DE
INFORMAÇÃO
16
16SISTEMAS DE
INFORMAÇÃO
16
16
16
Teoria da Decisão Bayesiana
• Abordagem estatística para o problema de 
classificação / tomada de decisão
• O classificador é ótimo dentre todas as 
opções (minimiza o erro), porém...
• É necessário conhecer todas as 
probabilidades envolvidas e relevantes 
SISTEMAS DE
INFORMAÇÃO
17
17
17
17SISTEMAS DE
INFORMAÇÃO
17
17SISTEMAS DE
INFORMAÇÃO
17
17
17
Teorema de Bayes
• P(X,Y) = P(X|Y) P(Y)
• P(Y,X) = P(Y|X) P(X)
• Como P(X,Y) = P(Y,X),
• P(Y|X) = P(X|Y) P(Y)/P(X)
Veremos que na verdade isso tem muito mais significado...
P (X | Y) = P (X,Y) / P(Y)
P (Y | X) = P (Y,X) / P(X)
SISTEMAS DE
INFORMAÇÃO
18
18
18
18SISTEMAS DE
INFORMAÇÃO
18
18SISTEMAS DE
INFORMAÇÃO
18
18
18
Teoria da Decisão Bayesiana
• Classes envolvidas (ou estados da natureza)
• Ex: robalo (c1) e salmão (c2)
• Os objetos pertencem a uma dessas classes
• Dado um objeto, ele pode pertencer 
aleatoriamente a c1 ou a c2
• Logo, c1 e c2 podem ser vistos como valores 
de uma variável aleatória c
• P(c) : probabilidade a priori 
SISTEMAS DE
INFORMAÇÃO
19
19
19
19SISTEMAS DE
INFORMAÇÃO
19
19SISTEMAS DE
INFORMAÇÃO
19
19
19
Regra de Decisão
• Você tem que chutar qual será o próximo 
peixe
• Você apenas tem a informação das 
probabilidades a priori de c1 e c2
• Qual peixe você chutaria (a priori, isto é, 
sem olhar o peixe)?
SISTEMAS DE
INFORMAÇÃO
20
20
20
20SISTEMAS DE
INFORMAÇÃO
20
20SISTEMAS DE
INFORMAÇÃO
20
20
20
Regra de Decisão
• Você tem que chutar qual será o próximo 
peixe
• Você apenas tem a informação das 
probabilidades a priori de c1 e c2
• Qual peixe você chutaria?
• c1 se P(c1) > P(c2)
• c2 caso contrário
• Isto é uma regra de decisão
SISTEMAS DE
INFORMAÇÃO
21
21
21
21SISTEMAS DE
INFORMAÇÃO
21
21SISTEMAS DE
INFORMAÇÃO
21
21
21
Teoria da Decisão Bayesiana
• E para os 100 próximos peixes?
SISTEMAS DE
INFORMAÇÃO
22
22
22
22SISTEMAS DE
INFORMAÇÃO
22
22SISTEMAS DE
INFORMAÇÃO
22
22
22
Teoria da Decisão Bayesiana
• E para os 100 próximos peixes?
• Escolheríamos sempre a mesma classe, 
mesmo sabendo que há 2...
• Erro?
SISTEMAS DE
INFORMAÇÃO
23
23
23
23SISTEMAS DE
INFORMAÇÃO
23
23SISTEMAS DE
INFORMAÇÃO
23
23
23
Teoria da Decisão Bayesiana
• E para os 100 próximos peixes?
• Escolheríamos sempre a mesma classe, 
mesmo sabendo que há 2...
• Erro?
• Número de peixes classificados errados
• Aproximadamente P(c2) (se esta priori estiver 
correta)
SISTEMAS DE
INFORMAÇÃO
24
24
24
24SISTEMAS DEINFORMAÇÃO
24
24SISTEMAS DE
INFORMAÇÃO
24
24
24
Probabilidades condicionais
• Se eu sei mais acerca dos peixes (ex: 
luminosidade, tamanho, etc) – características, 
para CADA classe.
• P(x|c) : densidade de probabilidade 
condicional (à classe)
• Ex: 
luminosidade
[DUDA, HART & STORK, 2001]
SISTEMAS DE
INFORMAÇÃO
25
25
25
25SISTEMAS DE
INFORMAÇÃO
25
25SISTEMAS DE
INFORMAÇÃO
25
25
25
• Se você:
• conhece as prioris e as condicionais
• vê um novo peixe (x)
como você classificaria?
• Pela fórmula de Bayes:
• P(ci | x) = P(x|ci) P(ci) / P(x)
P(x) = ∑j P(x, cj) = ∑j P(x|cj) P(cj)
Revisitando Bayes
SISTEMAS DE
INFORMAÇÃO
26
26
26
26SISTEMAS DE
INFORMAÇÃO
26
26SISTEMAS DE
INFORMAÇÃO
26
26
26
• Se você:
• conhece as prioris e as condicionais
• vê um novo peixe (x)
como você classificaria?
• Pela fórmula de Bayes:
• P(ci | x) = P(x|ci) P(ci) / P(x)
P(x) = ∑j P(x, cj) = ∑j P(x|cj) P(cj)
• posteriori = verossimilhança * priori / 
evidência
Revisitando Bayes
SISTEMAS DE
INFORMAÇÃO
27
27
27
27SISTEMAS DE
INFORMAÇÃO
27
27SISTEMAS DE
INFORMAÇÃO
27
27
27
• Se você:
• conhece as prioris e as condicionais
• vê um novo peixe (x)
como você classificaria?
• Pela fórmula de Bayes:
• P(ci | x) = P(x|ci) P(ci) / P(x)
P(x) = ∑j P(x, cj) = ∑j P(x|cj) P(cj)
• posteriori = verossimilhança * priori / 
evidência
Revisitando Bayes
Atualização da sua crença
(priori) após ver os dados
= posteriori
SISTEMAS DE
INFORMAÇÃO
28
28
28
28SISTEMAS DE
INFORMAÇÃO
28
28SISTEMAS DE
INFORMAÇÃO
28
28
28
Nova regra de decisão
• Se você:
• conhece as prioris e as condicionais
• vê um novo peixe (x)
como você classificaria?
SISTEMAS DE
INFORMAÇÃO
29
29
29
29SISTEMAS DE
INFORMAÇÃO
29
29SISTEMAS DE
INFORMAÇÃO
29
29
29
Nova regra de decisão
• Se você:
• conhece as prioris e as condicionais
• vê um novo peixe (x)
como você classificaria?
• c1 se P(c1|x) > P(c2|x)
• c2 caso contrário
SISTEMAS DE
INFORMAÇÃO
30
30
30
30SISTEMAS DE
INFORMAÇÃO
30
30SISTEMAS DE
INFORMAÇÃO
30
30
30
Nova regra de decisão
• Se você:
• conhece as prioris e as condicionais
• vê um novo peixe (x)
como você classificaria?
• c1 se P(c1|x) > P(c2|x)
• c2 caso contrário
• Erro: P(erro | x) = 
• P(c1| x) se decidirmos por c2
• P(c2| x) se decidirmos por c1
SISTEMAS DE
INFORMAÇÃO
31
31
31
31SISTEMAS DE
INFORMAÇÃO
31
31SISTEMAS DE
INFORMAÇÃO
31
31
31
Nova regra de decisão
• Se você:
• conhece as prioris e as condicionais
• vê um novo peixe (x)
como você classificaria?
• c1 se P(c1|x) > P(c2|x)
• c2 caso contrário
• Erro: P(erro | x) = 
• P(c1| x) se decidirmos por c2
• P(c2| x) se decidirmos por c1
Veremos que a Regra de decisão 
Bayesiana tem erro mínimo
SISTEMAS DE
INFORMAÇÃO
32
32
32
32SISTEMAS DE
INFORMAÇÃO
32
32SISTEMAS DE
INFORMAÇÃO
32
32
32
Posterioris
[DUDA, HART & STORK, 2001]
Ex: P(ω1 = 2/3) e P(ω2 = 1/3) 
SISTEMAS DE
INFORMAÇÃO
33
33
33
33SISTEMAS DE
INFORMAÇÃO
33
33SISTEMAS DE
INFORMAÇÃO
33
33
33
Ex: P(ω1 = 2/3) e P(ω2 = 1/3) 
Posterioris
Condicionais
(verossimilhanças)
SISTEMAS DE
INFORMAÇÃO
34
34
34
34SISTEMAS DE
INFORMAÇÃO
34
34SISTEMAS DE
INFORMAÇÃO
34
34
34
Regra de decisão bayesiana
P(ci | x) = P(x|ci) P(ci) / P(x)
• Preciso calcular P(x) para decidir?
SISTEMAS DE
INFORMAÇÃO
35
35
35
35SISTEMAS DE
INFORMAÇÃO
35
35SISTEMAS DE
INFORMAÇÃO
35
35
35
Regra de decisão bayesiana
P(ci | x) = P(x|ci) P(ci) / P(x)
• Preciso calcular P(x) para decidir?
• Não! Como p(x) é uma constante (em 
relação às classes), a regra é:
• c1 se P(x|c1) P(c1) > P(x|c2) P(c2)
• c2 caso contrário
SISTEMAS DE
INFORMAÇÃO
36
36
36
36SISTEMAS DE
INFORMAÇÃO
36
36SISTEMAS DE
INFORMAÇÃO
36
36
36
Regra de decisão bayesiana
P(ci | x) = P(x|ci) P(ci) / P(x)
• Preciso calcular P(x) para decidir?
• Não! Como p(x) é uma constante (em 
relação às classes), a regra é:
• c1 se P(x|c1) P(c1) > P(x|c2) P(c2)
• c2 caso contrário
• Se P(c1) = P(c2)?
SISTEMAS DE
INFORMAÇÃO
37
37
37
37SISTEMAS DE
INFORMAÇÃO
37
37SISTEMAS DE
INFORMAÇÃO
37
37
37
Regra de decisão bayesiana
P(ci | x) = P(x|ci) P(ci) / P(x)
• Preciso calcular P(x) para decidir?
• Não! Como p(x) é uma constante (em 
relação às classes), a regra é:
• c1 se P(x|c1) P(c1) > P(x|c2) P(c2)
• c2 caso contrário
• Se P(c1) = P(c2), a decisão se resume à 
verossimilhança
SISTEMAS DE
INFORMAÇÃO
38
38
38
38SISTEMAS DE
INFORMAÇÃO
38
38SISTEMAS DE
INFORMAÇÃO
38
38
38
Generalizando
(Teoria da Decisão)
SISTEMAS DE
INFORMAÇÃO
39
39
39
39SISTEMAS DE
INFORMAÇÃO
39
39SISTEMAS DE
INFORMAÇÃO
39
39
39
Generalizando...
• x pode ser um vetor de características
• Pode haver várias classes (c1, ..., ck)
• Decido pela classe i se P(ci | x) > P(cj| x), i ≠ j
• Posso realizar a ações (ao invés de apenas 
classificar), α1, ..., αa
• Por ex, ficar indeciso e não fazer nada
• Cada ação αi tem um custo para cada cj: 
função perda λ(αi | cj)
• Perda esperada de se tomar uma ação αi ao 
observar x:
R(αi|x) = ∑j=1..c λ(αi | cj) P(cj|x)
Risco condicional
SISTEMAS DE
INFORMAÇÃO
40
40
40
40SISTEMAS DE
INFORMAÇÃO
40
40SISTEMAS DE
INFORMAÇÃO
40
40
40
Regra de Decisão Bayesiana
• α(x) é uma função que escolhe αi com base 
em x
• Risco total: R = ∫ R(α(x)|x) p(x) dx
• Como minimizamos R? 
SISTEMAS DE
INFORMAÇÃO
41
41
41
41SISTEMAS DE
INFORMAÇÃO
41
41SISTEMAS DE
INFORMAÇÃO
41
41
41
Regra de Decisão Bayesiana
• α(x) é uma função que escolhe αi com base 
em x
• Risco total: R = ∫ R(α(x)|x) p(x) dx
• Como minimizamos R? 
• α(x) deve sempre escolher a ação αi que 
tem o menor risco condicional R(αi|x)
• Regra de decisão Bayesiana
• Este R mínimo (R*) é o risco de Bayes
melhor resultado possível
Vejamos o exemplo de classificação binária
SISTEMAS DE
INFORMAÇÃO
42
42
42
42SISTEMAS DE
INFORMAÇÃO
42
42SISTEMAS DE
INFORMAÇÃO
42
42
42
Classificação Binária
• λij = λ(αi | cj), αi = classificar como classe ci
• R(α1|x) = λ11 P(c1|x) + λ12 P(c2|x)
• R(α2|x) = λ21 P(c1|x) + λ22 P(c2|x)
Tomamos a ação α1 (isto é, classificamos como 
pertencente à classe c1) se R(α2|x) > R(α1|x) 
 λ21 P(c1|x) + λ22 P(c2|x) > λ11 P(c1|x) + λ12 P(c2|x)
• (λ21 - λ11) P(c1|x) > (λ12 - λ22) P(c2|x)
• (λ21 - λ11) P(x|c1) P(c1) > (λ12 - λ22) P(x|c2) P(c2)
• P(x|c1) (λ12 - λ22) P(c2)
P(x|c2) (λ21 - λ11) P(c1)
Likehood ratio
(Razão de verossimilhança)
> = θ
SISTEMAS DE
INFORMAÇÃO
43
43
43
43SISTEMAS DE
INFORMAÇÃO
43
43SISTEMAS DE
INFORMAÇÃO
43
43
43
Função perda zero-um
Função perda zero-um:
λ (αi | cj) = 0 i = j
 1 i ≠ j
SISTEMAS DE
INFORMAÇÃO
44
44
44
44SISTEMAS DE
INFORMAÇÃO
44
44SISTEMAS DE
INFORMAÇÃO
44
44
44
Razão de verossimilhança
[DUDA, HART & STORK, 2001]Ri: Região de decisão por i
Perda 0-1
prioris iguais
SISTEMAS DE
INFORMAÇÃO
45
45
45
45SISTEMAS DE
INFORMAÇÃO
45
45SISTEMAS DE
INFORMAÇÃO
45
45
45
Razão de verossimilhança
λ12 > λ21
(R1 se torna menor)
[DUDA, HART & STORK, 2001]Ri: Região de decisão por i
Perda 0-1
prioris iguais
SISTEMAS DE
INFORMAÇÃO
46
46
46
46SISTEMAS DE
INFORMAÇÃO
46
46SISTEMAS DE
INFORMAÇÃO
46
46
46
Classificação de múltiplas 
classes – taxa de erro mínima
• Função perda zero-um:
λ (αi | cj) = 0 i = j
1 i ≠ j
• R(αi|x) = ∑j=1..c λ(αi | cj) P(cj|x)
R(αi|x==∑j≠i P(cj|x) 
 = 1- P(ci|x)
• Decida por ci se P(ci|x) > P(cj|x), para todo j ≠i
SISTEMAS DE
INFORMAÇÃO
47
47
47
47SISTEMAS DE
INFORMAÇÃO
47
47SISTEMAS DE
INFORMAÇÃO
47
47
47
Resumindo
• Para uma função perda genérica, não há 
classificador melhor que o teste bayesiano 
da razão de verossimilhança no sentido de 
minimizar o custo
• Se a sua função perda é a zero-um, isso se 
resumo a escolher a classe com maior 
posteriori 
SISTEMAS DE
INFORMAÇÃO
48
48
48
48SISTEMAS DE
INFORMAÇÃO
48
48SISTEMAS DE
INFORMAÇÃO
48
48
48
Problema
• Normalmente não conhecemos as 
probabilidades condicionais P( . |ci)
• Neste caso temos que estimá-las a partir de 
dados conhecidos, o que pode ser complexo
• Mesmo conhecendo todas as probabilidadesnecessárias, o teste pode ser complexo em 
termos de tempo e memória
SISTEMAS DE
INFORMAÇÃO
49
49
49
49SISTEMAS DE
INFORMAÇÃO
49
49SISTEMAS DE
INFORMAÇÃO
49
49
49
Alternativas
• Nestes casos, temos que optar por um 
classificador mais simples
• Por ex: escolher uma família de densidades 
conhecida, ou seja, com uma forma 
matemática conhecida e um número finito 
de parâmetros. Daí basta estimar os 
parâmetros (ex. Normal, Poisson, ...)
• CLASSIFICADOR PARAMÉTRICO
• Quando não é possível escolher uma forma 
matemática então opta-se por um 
CLASSIFICADOR NÃO PARAMÉTRICO
SISTEMAS DE
INFORMAÇÃO
50
50
50
50SISTEMAS DE
INFORMAÇÃO
50
50SISTEMAS DE
INFORMAÇÃO
50
50
50
Alternativas
• Nestes casos, temos que optar por um 
classificador mais simples
• Por ex: escolher uma família de densidades 
conhecida, ou seja, com uma forma 
matemática conhecida e um número finito 
de parâmetros. Daí basta estimar os 
parâmetros (ex. Normal, Poisson, ...)
• CLASSIFICADOR PARAMÉTRICO
• Quando não é possível escolher uma forma 
matemática então opta-se por um 
CLASSIFICADOR NÃO PARAMÉTRICO
SISTEMAS DE
INFORMAÇÃO
51
51
51
51SISTEMAS DE
INFORMAÇÃO
51
51SISTEMAS DE
INFORMAÇÃO
51
51
51
Alternativas
• Nestes casos, temos que optar por um 
classificador mais simples
• Por ex: escolher uma família de densidades 
conhecida, ou seja, com uma forma 
matemática conhecida e um número finito 
de parâmetros. Daí basta estimar os 
parâmetros (ex. Normal, Poisson, ...)
• CLASSIFICADOR PARAMÉTRICO
• Quando não é possível escolher uma forma 
matemática então opta-se por um 
CLASSIFICADOR NÃO PARAMÉTRICO
SISTEMAS DE
INFORMAÇÃO
52
52
52
52SISTEMAS DE
INFORMAÇÃO
52
52SISTEMAS DE
INFORMAÇÃO
52
52
52
Métodos de Classificação
[JAIN et al, 2000]
SISTEMAS DE
INFORMAÇÃO
53
53
53
53SISTEMAS DE
INFORMAÇÃO
53
53SISTEMAS DE
INFORMAÇÃO
53
53
53
Referências até aqui
• DUDA, R.; HART, P.; STORK, D. Pattern 
Classification. John Willey, 2001 (Cap. 2.1 
a 2.3)
• JAIN, A.K.; DUIN, R.P.W.; MAO, J. Statistical 
Pattern Recognition : A Review. IEEE 
Transactions on Pattern Analysis and 
Machine Intelligence, v. 22, n. 1, p. 4-37, 
2000 (seções 2 e 7)
SISTEMAS DE
INFORMAÇÃO
54
54
54
54SISTEMAS DE
INFORMAÇÃO
54
54SISTEMAS DE
INFORMAÇÃO
54
54
54
Redes Bayesianas
SISTEMAS DE
INFORMAÇÃO
55
55
55
55SISTEMAS DE
INFORMAÇÃO
55
55SISTEMAS DE
INFORMAÇÃO
55
55
55
Teorema de Bayes
P(B|A) = P(A|B) P(B)/P(A)
SISTEMAS DE
INFORMAÇÃO
56
56
56
56SISTEMAS DE
INFORMAÇÃO
56
56SISTEMAS DE
INFORMAÇÃO
56
56
56
Teorema de Bayes
P(C|X) = P(X|C) P(C)/P(X)
posteriori = verossimilhança * priori / 
evidência
SISTEMAS DE
INFORMAÇÃO
57
57
57
57SISTEMAS DE
INFORMAÇÃO
57
57SISTEMAS DE
INFORMAÇÃO
57
57
57
Teorema de Bayes
 Probabilidades para descrever crenças ou 
incertezas
 Forma de atualizar o conhecimento, com 
base em conhecimento prévio e dados 
disponíveis
 É encadeável, permitindo combinar 
diferentes eventos (desde que se possa 
atribuir probabilidades a eles)
 Alguns problemas podem envolver várias 
variáveis, dependentes entre si
 Pode-se descrever uma REDE dessas 
variáveis e suas relações de dependências
SISTEMAS DE
INFORMAÇÃO
58
58
58
58SISTEMAS DE
INFORMAÇÃO
58
58SISTEMAS DE
INFORMAÇÃO
58
58
58
Redes Bayesianas
 Modelo gráfico para 
representação dessa 
rede
 Grafo dirigido e acíclico:
SISTEMAS DE
INFORMAÇÃO
59
59
59
59SISTEMAS DE
INFORMAÇÃO
59
59SISTEMAS DE
INFORMAÇÃO
59
59
59
Redes Bayesianas
 Modelo gráfico para 
representação dessa 
rede
 Grafo dirigido e acíclico:
 Vértices: variáveis 
aleatórias
SISTEMAS DE
INFORMAÇÃO
60
60
60
60SISTEMAS DE
INFORMAÇÃO
60
60SISTEMAS DE
INFORMAÇÃO
60
60
60
Redes Bayesianas
 Modelo gráfico para 
representação dessa 
rede
 Grafo dirigido e acíclico:
 Vértices: variáveis 
aleatórias
 Arestas: relações de 
dependência
SISTEMAS DE
INFORMAÇÃO
61
61
61
61SISTEMAS DE
INFORMAÇÃO
61
61SISTEMAS DE
INFORMAÇÃO
61
61
61
Redes Bayesianas
 Modelo gráfico para 
representação dessa 
rede
 Grafo dirigido e acíclico:
 Vértices: variáveis 
aleatórias
 Arestas: relações de 
dependência
 Ausência de aresta: 
independência condicional
SISTEMAS DE
INFORMAÇÃO
62
62
62
62SISTEMAS DE
INFORMAÇÃO
62
62SISTEMAS DE
INFORMAÇÃO
62
62
62
Rede Bayesiana - Definição
 Par (S, P) onde:
 S é a estrutura da rede (nós x = {x1, …, xn} e arestas)
SISTEMAS DE
INFORMAÇÃO
63
63
63
63SISTEMAS DE
INFORMAÇÃO
63
63SISTEMAS DE
INFORMAÇÃO
63
63
63
Rede Bayesiana - Definição
 Par (S, P) onde:
 S é a estrutura da rede (nós x = {x1, …, xn} e arestas)
 P é um conjunto de distribuições de probabilidades 
p(xi | pa(xi)), no qual pa(xi) são os nós pais de xi
SISTEMAS DE
INFORMAÇÃO
64
64
64
64SISTEMAS DE
INFORMAÇÃO
64
64SISTEMAS DE
INFORMAÇÃO
64
64
64
Rede Bayesiana - Definição
 Par (S, P) onde:
 S é a estrutura da rede (nós x = {x1, …, xn} e arestas)
 P é um conjunto de distribuições de probabilidades 
p(xi | pa(xi)), no qual pa(xi) são os nós pais de xi
 Probabilidade conjunta da rede: 
P(S) ou P(x) = ∏i p(xi | pa(xi))
SISTEMAS DE
INFORMAÇÃO
65
65
65
65SISTEMAS DE
INFORMAÇÃO
65
65SISTEMAS DE
INFORMAÇÃO
65
65
65
Exemplo (supondo que você 
conhece esses valores)
SISTEMAS DE
INFORMAÇÃO
66
66
66
66SISTEMAS DE
INFORMAÇÃO
66
66SISTEMAS DE
INFORMAÇÃO
66
66
66
Probabilidade conjunta da rede 
SISTEMAS DE
INFORMAÇÃO
67
67
67
67SISTEMAS DE
INFORMAÇÃO
67
67SISTEMAS DE
INFORMAÇÃO
67
67
67
Probabilidade conjunta da rede 
SISTEMAS DE
INFORMAÇÃO
68
68
68
68SISTEMAS DE
INFORMAÇÃO
68
68SISTEMAS DE
INFORMAÇÃO
68
68
68
Probabilidade conjunta da rede 
SISTEMAS DE
INFORMAÇÃO
69
69
69
69SISTEMAS DE
INFORMAÇÃO
69
69SISTEMAS DE
INFORMAÇÃO
69
69
69
Redes Bayesianas:
para quê servem?
SISTEMAS DE
INFORMAÇÃO
70
70
70
70SISTEMAS DE
INFORMAÇÃO
70
70SISTEMAS DE
INFORMAÇÃO
70
70
70
Inferência em Redes 
Bayesianas
 Usadas para fazer inferência
 Redes bayesianas inicialmente como forma de 
representar conhecimento especialista sobre as 
incertezas envolvidas no objeto de estudo (mais à 
frente: como aprender a partir dos dados)
 Usadas para fazer inferência sobre o que você antes 
desconhecia (probabilidades não representadas 
DIRETAMENTE no modelo)
 Ex: Qual é a venda esperada para o Redoxon dadas as 
condições climáticas e intensidade do surto de gripe?
SISTEMAS DE
INFORMAÇÃO
71
71
71
71SISTEMAS DE
INFORMAÇÃO
71
71SISTEMAS DE
INFORMAÇÃO
71
71
71
Inferência:
Qual a probabilidade de estarmos na estação 
chuvosa? (e nada mais é sabido)
conjuntas
Σ Σ
SISTEMAS DE
INFORMAÇÃO
72
72
72
72SISTEMAS DE
INFORMAÇÃO
72
72SISTEMAS DE
INFORMAÇÃO
72
72
72
Inferência:
Qual a probabilidade de estarmos na estação 
chuvosa? (sabendo que o jardim foi regado)
conjuntas Valores normalizados
P(A|C=sim)
Σ Σ
SISTEMAS DE
INFORMAÇÃO
73
73
73
73SISTEMAS DE
INFORMAÇÃO
73
73SISTEMAS DE
INFORMAÇÃO
73
73
73
Inferência:
Qual a probabilidade de estarmos na estação 
chuvosa? (sabendo que o jardim está molhado)
conjuntas Valores normalizados
P(A|D=sim)
Σ Σ
SISTEMAS DE
INFORMAÇÃO
74
74
74
74SISTEMAS DE
INFORMAÇÃO
74
74SISTEMAS DE
INFORMAÇÃO
74
74
74
Redes bayesianas como 
classificadores
 Como redes bayesianas podem ser utilizadas como 
classificadores?
SISTEMAS DE
INFORMAÇÃO
75
75
75
75SISTEMAS DE
INFORMAÇÃO
75
75SISTEMAS DE
INFORMAÇÃO
75
75
75
Redes bayesianas como 
classificadores
 Como redes bayesianas podem ser utilizadas como 
classificadores?
- A classe é uma das variáveis
- Cada característica é uma variável
- A variável da classe depende das variáveis das 
características
- Você classifica para a classe ci com maior probabilidade 
P(C = cj | x1, x2, …, xn) para todo j (na qual as variáveis x1, 
x2, …, xn são pais de C, não necessariamente exatamente 
todas as características, dependendo da estrutura da rede).
ou seja, uma classificação baseada na probabilidade a posteriori
SISTEMAS DE
INFORMAÇÃO76
76
76
76SISTEMAS DE
INFORMAÇÃO
76
76SISTEMAS DE
INFORMAÇÃO
76
76
76
Aprendizado de redes 
bayesianas
SISTEMAS DE
INFORMAÇÃO
77
77
77
77SISTEMAS DE
INFORMAÇÃO
77
77SISTEMAS DE
INFORMAÇÃO
77
77
77
O que aprender?
 Estrutura: 
 Variáveis (nós): número e quais
 Relações de dependência (arestas)
 Direção das arestas
 Probabilidades
SISTEMAS DE
INFORMAÇÃO
78
78
78
78SISTEMAS DE
INFORMAÇÃO
78
78SISTEMAS DE
INFORMAÇÃO
78
78
78
Aprendizado de redes 
bayesianas
 Pode-se criar uma rede bayesiana apenas 
com conhecimento especialista, ou 
aprendê-la a partir dos dados
 Métodos automáticos e semi-automáticos 
para aprendizado da estrutura e das 
probabilidades condicionais
 Pode não se saber as relações de 
dependência, mas apenas ter um conjunto 
de dados
SISTEMAS DE
INFORMAÇÃO
79
79
79
79SISTEMAS DE
INFORMAÇÃO
79
79SISTEMAS DE
INFORMAÇÃO
79
79
79
Aprendizado da estrutura
 Testes estatísticos de independência para 
identificar dependências e independências 
entre as variáveis
 Tem que saber as variáveis
 Adequar os parâmetros do teste para 
impedir que, dependendo do tamanho da 
amostra, o teste diga que as variáveis são 
dependentes quando na verdade não são.
SISTEMAS DE
INFORMAÇÃO
80
80
80
80SISTEMAS DE
INFORMAÇÃO
80
80SISTEMAS DE
INFORMAÇÃO
80
80
80
Aprendizado das probabilidades
 Rede Bayesiana M = (S, θ), sendo S a estrutura da rede e θ o vetor de todos 
os θi, sendo θi a tabela de probabilidades condicionais da variável xi, ou seja,
 - o conjunto de todos os parâmetros que definem as probabilidades condicionais de 
cada variável xi (P(xi | pa(xi))), ou seja,
 - θi é o vetor (matriz) especificando, em cada posição i,j,k, θijk = P(xi
k | pa(xi)
j), sendo 
xi
k o k-ésimo valor que xi pode assumir e pa(xi)
j a j-ésima configuração que os pais 
de xi podem assumir
 - Ex: para xi = D, k = 1 (xi
k = sim) ou k = 2 (xi
k = não), pa(xi) = (B, C), pa(xi)
1 = (B=sim, 
C=sim), pa(xi)
2 = (B=sim, C=não), pa(xi)
3 = (B=não, C=sim), pa(xi)
4 = (B=não, 
C=não), θi = matriz abaixo
x
i
k=1
k=2
pa(xi)
1 pa(xi)
2 pa(xi)
3 pa(xi)
4
SISTEMAS DE
INFORMAÇÃO
81
81
81
81SISTEMAS DE
INFORMAÇÃO
81
81SISTEMAS DE
INFORMAÇÃO
81
81
81
Aprendizado das probabilidades
 Duas coisas são assumidas (a fim de que os parâmetros 
possam ser aprendidos independentemente):
- Independência global: os parâmetros das várias 
variáveis (θi) são independentes
• Isso significa que podemos modificar as 
tabelas de cada variável independentemente
- Independência local: as incertezas dos parâmetros para 
as diferentes configurações de pais (θijk para cada i) são 
independentes (isto é, a incerteza em P(A|b,c) é 
independente da incerteza em P(A|b´,c´)
• Isso significa que os parâmetros para as duas 
distribuições podem ser modificados 
independentemente
SISTEMAS DE
INFORMAÇÃO
82
82
82
82SISTEMAS DE
INFORMAÇÃO
82
82SISTEMAS DE
INFORMAÇÃO
82
82
82
Aprendizado das probabilidades
 Dados completos
– Estimação por máxima verossimilhança (ML 
– Maximum likelihood)
– Estimação bayesiana (MAP – Maximum a 
posteriori)
 Dados incompletos
– Estimação aproximada (algoritmo EM)
SISTEMAS DE
INFORMAÇÃO
83
83
83
83SISTEMAS DE
INFORMAÇÃO
83
83SISTEMAS DE
INFORMAÇÃO
83
83
83
Aprendizado das probabilidades -
Dados completos
Seja D um dataset de casos:
 ele é completo se cada caso (instância) é 
uma configuração sobre TODAS as variáveis 
de M (variáveis conhecidas e sem missing 
values)
SISTEMAS DE
INFORMAÇÃO
84
84
84
84SISTEMAS DE
INFORMAÇÃO
84
84SISTEMAS DE
INFORMAÇÃO
84
84
84
Estimação por Máxima 
Verossimilhança
 Para cada caso d є D, P(d | M) é a 
verossimilhança de M dado d, ou L(M | d)
 Assumindo que os casos são independentes 
(dado M):
L(M | D) = Πd є D P(d | M), ou
LL(M | D) = Σd Є D log P(d | M)
 Estimação de θ por máxima verossimilhança: 
cálculo dos valores que maximizam LL(M | D) 
LL : log-likelihood
SISTEMAS DE
INFORMAÇÃO
85
85
85
85SISTEMAS DE
INFORMAÇÃO
85
85SISTEMAS DE
INFORMAÇÃO
85
85
85
Estimação por Máxima 
Verossimilhança
 Uso das frequências como estimativas 
Exemplo:
P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c)
Possível problema: e se algumas contagens for 
igual a zero?
- pode dar divisão por zero! (se no denominador)
- se no numerador, a probabilidade naquele ponto 
será igual a zero. Boa
estimativa?
SISTEMAS DE
INFORMAÇÃO
86
86
86
86SISTEMAS DE
INFORMAÇÃO
86
86SISTEMAS DE
INFORMAÇÃO
86
86
86
Estimação por Máxima 
Verossimilhança
 Uso das frequências como estimativas 
Exemplo:
P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c)
 Possível problema: e se algumas contagens for 
igual a zero?
- pode dar divisão por zero! (se no denominador)
- se no numerador, a probabilidade naquele ponto 
será igual a zero. Boa
estimativa?
SISTEMAS DE
INFORMAÇÃO
87
87
87
87SISTEMAS DE
INFORMAÇÃO
87
87SISTEMAS DE
INFORMAÇÃO
87
87
87
Estimação por Máxima 
Verossimilhança
 Uso das frequências como estimativas 
Exemplo:
P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c)
 Possível problema: e se algumas contagens for 
igual a zero?
- pode dar divisão por zero! (se no denominador)
- se no numerador, a probabilidade naquele ponto 
será igual a zero. Boa
estimativa?
SISTEMAS DE
INFORMAÇÃO
88
88
88
88SISTEMAS DE
INFORMAÇÃO
88
88SISTEMAS DE
INFORMAÇÃO
88
88
88
Estimação por Máxima 
Verossimilhança
 Uso das frequências como estimativas 
Exemplo:
P(A=a | B=b, C=c) = # (A=a, B=b, C=c) / # (B=b, C=c)
 Possível problema: e se algumas contagens for 
igual a zero?
- pode dar divisão por zero! (se no denominador)
- se no numerador, a probabilidade naquele ponto será igual a 
zero. Boa stimativa?
provavelmente não, principalmente se a amostra for pequena
SISTEMAS DE
INFORMAÇÃO
89
89
89
89SISTEMAS DE
INFORMAÇÃO
89
89SISTEMAS DE
INFORMAÇÃO
89
89
89
Estimação Bayesiana
(Máxima a posteriori - MAP)
 Pseudocontadores (Dirichlet)
– Inicialização dos contadores com algum 
valor diferente de zero (ex: 1 – correção 
Laplaciana)
– Valor inicial pode ser igual para todos ou 
não
– Distribuição dos valores iniciais: distribuição 
de Dirichlet
SISTEMAS DE
INFORMAÇÃO
90
90
90
90SISTEMAS DE
INFORMAÇÃO
90
90SISTEMAS DE
INFORMAÇÃO
90
90
90
Aprendizado das probabilidades -
Dados incompletos
 Dados incompletos 
 Missing values: acidentais (ex: sensor), 
intencionais, etc
 Não observáveis (variáveis latentes ou 
escondidas)
 Opções:
SISTEMAS DE
INFORMAÇÃO
91
91
91
91SISTEMAS DE
INFORMAÇÃO
91
91SISTEMAS DE
INFORMAÇÃO
91
91
91
 Dados incompletos 
 Missing values: acidentais (ex: sensor), intencionais, 
etc
 Não observáveis (variáveis latentes ou escondidas)
 Opções:
 Jogar fora os casos com missing values. Problemas:
 Amostra final pode ficar pequena
 Amostra final pode ficar enviesada
 Tentar trabalhar com eles
Aprendizado das probabilidades -
Dados incompletos
SISTEMAS DE
INFORMAÇÃO
92
92
92
92SISTEMAS DE
INFORMAÇÃO
92
92SISTEMAS DE
INFORMAÇÃO
92
92
92
 Dados incompletos 
 Missing values: acidentais (ex: sensor), intencionais, 
etc
 Não observáveis (variáveis latentes ou escondidas)
 Opções:
 Jogar fora os casos com missing values. Problemas:
 Amostra final pode ficar pequena
 Amostra final pode ficar enviesada
 Tentar trabalhar com eles (estimação aproximada: 
algoritmo EM)
Aprendizado das probabilidades -
Dados incompletos
SISTEMAS DE
INFORMAÇÃO
93
93
93
93SISTEMAS DE
INFORMAÇÃO
93
93SISTEMAS DE
INFORMAÇÃO
93
93
93
Algoritmo EM - Expectation-Maximization
 Utilizado não só em redes bayesianas, mas sempre 
que há valores ausentes
 Algoritmo iterativo: várias rodadas de dois passos: 
esperança e maximização:
 Esperança: “completa-se” o dataset utilizando o θ' atual 
para calcular a esperança (média) para os valores 
ausentes
 Maximização: usa-se o dataset “completado” para 
reestimar um novo valor de θ' por máxima verossimilhança 
(ou máxima a posteriori)
 Esses dois passos sãointercalados até alcançar 
convergência ou um número máximo de iterações
 Problema: sofre de mínimos locais
Valores iniciais na primeira iteração
SISTEMAS DE
INFORMAÇÃO
94
94
94
94SISTEMAS DE
INFORMAÇÃO
94
94SISTEMAS DE
INFORMAÇÃO
94
94
94
Redes bayesianas como 
classificadores
SISTEMAS DE
INFORMAÇÃO
95
95
95
95SISTEMAS DE
INFORMAÇÃO
95
95SISTEMAS DE
INFORMAÇÃO
95
95
95
Redes bayesianas como 
classificadores
 Como redes bayesianas podem ser utilizadas como 
classificadores?
- A classe é uma das variáveis
- Cada característica é uma variável
- A variável da classe depende das variáveis das 
características
- Você classifica para a classe ci com maior probabilidade 
P(C = cj | x1, x2, …, xn) para todo j (na qual as variáveis x1, 
x2, …, xn são pais de C, não necessariamente exatamente 
todas as características, dependendo da estrutura da rede).
ou seja, uma classificação baseada na probabilidade a posteriori
SISTEMAS DE
INFORMAÇÃO
96
96
96
96SISTEMAS DE
INFORMAÇÃO
96
96SISTEMAS DE
INFORMAÇÃO
96
96
96
Redes bayesianas como 
classificadores
 Problema dessa estratégia?
 Se o número de configurações possíveis é grande, 
o erro de estimação será grande (ou se a amostra 
fosse adequadamente grande, seria custoso estimar 
os parâmetros)
– Lembrando que ainda existe o erro de estimação das 
dependências
 Alternativas:
- Naive Bayes Classifier (NBC)
- Tree Augmented NBC (TAN)
SISTEMAS DE
INFORMAÇÃO
97
97
97
97SISTEMAS DE
INFORMAÇÃO
97
97SISTEMAS DE
INFORMAÇÃO
97
97
97
Naive Bayes Classifier
 Variável classe não tem pais 
 Cada variável característica 
tem apenas um pai: a variável classe (assume-se independência 
entre as características)
Calcula-se P(C|X) = P(X1, X2, ..., Xn |C)P(C) como sendo = Πi P(Xi |
C) * P(C)
 Estrutura fixa
 Vantagem: somente os parâmetros precisam ser aprendidos (por 
um dos métodos de estimação de parâmetros de redes bayesianas_
 Desvantagem: assume independência das características dada a 
classe
 Resultados razoáveis
SISTEMAS DE
INFORMAÇÃO
98
98
98
98SISTEMAS DE
INFORMAÇÃO
98
98SISTEMAS DE
INFORMAÇÃO
98
98
98
SISTEMAS DE
INFORMAÇÃO
99
99
99
99SISTEMAS DE
INFORMAÇÃO
99
99SISTEMAS DE
INFORMAÇÃO
99
99
99
SISTEMAS DE
INFORMAÇÃO
100
100
100
100SISTEMAS DE
INFORMAÇÃO
100
100SISTEMAS DE
INFORMAÇÃO
100
100
100
SISTEMAS DE
INFORMAÇÃO
101
101
101
101SISTEMAS DE
INFORMAÇÃO
101
101SISTEMAS DE
INFORMAÇÃO
101
101
101
SISTEMAS DE
INFORMAÇÃO
102
102
102
102SISTEMAS DE
INFORMAÇÃO
102
102SISTEMAS DE
INFORMAÇÃO
102
102
102
SISTEMAS DE
INFORMAÇÃO
103
103
103
103SISTEMAS DE
INFORMAÇÃO
103
103SISTEMAS DE
INFORMAÇÃO
103
103
103
SISTEMAS DE
INFORMAÇÃO
104
104
104
104SISTEMAS DE
INFORMAÇÃO
104
104SISTEMAS DE
INFORMAÇÃO
104
104
104
SISTEMAS DE
INFORMAÇÃO
105
105
105
105SISTEMAS DE
INFORMAÇÃO
105
105SISTEMAS DE
INFORMAÇÃO
105
105
105
SISTEMAS DE
INFORMAÇÃO
106
106
106
106SISTEMAS DE
INFORMAÇÃO
106
106SISTEMAS DE
INFORMAÇÃO
106
106
106
SISTEMAS DE
INFORMAÇÃO
107
107
107
107SISTEMAS DE
INFORMAÇÃO
107
107SISTEMAS DE
INFORMAÇÃO
107
107
107
SISTEMAS DE
INFORMAÇÃO
108
108
108
108SISTEMAS DE
INFORMAÇÃO
108
108SISTEMAS DE
INFORMAÇÃO
108
108
108
SISTEMAS DE
INFORMAÇÃO
109
109
109
109SISTEMAS DE
INFORMAÇÃO
109
109SISTEMAS DE
INFORMAÇÃO
109
109
109
SISTEMAS DE
INFORMAÇÃO
110
110
110
110SISTEMAS DE
INFORMAÇÃO
110
110SISTEMAS DE
INFORMAÇÃO
110
110
110
SISTEMAS DE
INFORMAÇÃO
111
111
111
111SISTEMAS DE
INFORMAÇÃO
111
111SISTEMAS DE
INFORMAÇÃO
111
111
111
SISTEMAS DE
INFORMAÇÃO
112
112
112
112SISTEMAS DE
INFORMAÇÃO
112
112SISTEMAS DE
INFORMAÇÃO
112
112
112
SISTEMAS DE
INFORMAÇÃO
113
113
113
113SISTEMAS DE
INFORMAÇÃO
113
113SISTEMAS DE
INFORMAÇÃO
113
113
113
SISTEMAS DE
INFORMAÇÃO
114
114
114
114SISTEMAS DE
INFORMAÇÃO
114
114SISTEMAS DE
INFORMAÇÃO
114
114
114
SISTEMAS DE
INFORMAÇÃO
115
115
115
115SISTEMAS DE
INFORMAÇÃO
115
115SISTEMAS DE
INFORMAÇÃO
115
115
115
Tree Augmented Naive Bayes 
Classifier
 Extensão do NBC: cada variável 
característica pode ter no máximo mais uma 
variável característica como pai
 A estrutura não é dada
 A estrutura pode ser aprendida de forma a 
ter, juntamente com parâmetros 
probabilísticos ótimos, máxima 
verossimilhança
 Página 271 de (JENSEN & NIELSEN, 2007)
SISTEMAS DE
INFORMAÇÃO
116
116
116
116SISTEMAS DE
INFORMAÇÃO
116
116SISTEMAS DE
INFORMAÇÃO
116
116
116
SISTEMAS DE
INFORMAÇÃO
117
117
117
117SISTEMAS DE
INFORMAÇÃO
117
117SISTEMAS DE
INFORMAÇÃO
117
117
117
Características desta 
metodologia
 Supervisionado ou não-supervisionado?
SISTEMAS DE
INFORMAÇÃO
118
118
118
118SISTEMAS DE
INFORMAÇÃO
118
118SISTEMAS DE
INFORMAÇÃO
118
118
118
Características desta 
metodologia
 Supervisionado ou não-supervisionado?
– Supervisionado! Você precisa saber a 
classificação para treinar a rede!
SISTEMAS DE
INFORMAÇÃO
119
119
119
119SISTEMAS DE
INFORMAÇÃO
119
119SISTEMAS DE
INFORMAÇÃO
119
119
119
Características desta 
metodologia
 Supervisionado ou não-supervisionado?
– Supervisionado! Você precisa saber a 
classificação para treinar a rede!
Paramétrico ou não-paramétrico?
SISTEMAS DE
INFORMAÇÃO
120
120
120
120SISTEMAS DE
INFORMAÇÃO
120
120SISTEMAS DE
INFORMAÇÃO
120
120
120
Características desta 
metodologia
 Supervisionado ou não-supervisionado?
– Supervisionado! Você precisa saber a 
classificação para treinar a rede!
Paramétrico ou não-paramétrico?
– Paramétrico! Normalmente assume-se uma 
distribuição multinomial dos dados e uma 
distribuição de Dirichlet como priori (e 
posteriori)
SISTEMAS DE
INFORMAÇÃO
122
122
122
122SISTEMAS DE
INFORMAÇÃO
122
122SISTEMAS DE
INFORMAÇÃO
122
122
122
Software para redes bayesianas
 JavaBayes – pacote gráfico para inferência em 
redes bayesianas (Fábio Cozman, da EPUSP): 
http://www.pmr.poli.usp.br/ltd/Software/javabayes/
 R (pacote DEAL)
 Naive Bayes – pacote e1071 ®
 Naive Bayes em Python:
https://scikit-learn.org/stable/modules/
naive_bayes.html
SISTEMAS DE
INFORMAÇÃO
123
123
123
123SISTEMAS DE
INFORMAÇÃO
123
123SISTEMAS DE
INFORMAÇÃO
123
123
123
Naive Bayes no Python
Sklearn:
– CategoricalNB para variáveis categóricas
– GaussianNB para variáveis numéricas
– MultinomialNM para classificação de texto
Para datasets mistos:
https://pypi.org/project/mixed-naive-bayes/ 
SISTEMAS DE
INFORMAÇÃO
124
124
124
124SISTEMAS DE
INFORMAÇÃO
124
124SISTEMAS DE
INFORMAÇÃO
124
124
124
Atividade 4 (para dia 15/9) 
Utilizar o classificador Naive Bayes utilizando:
- todas as características
- apenas com os componentes principais 
- apenas com as características selecionadas pelo selecionador 
1 (e opcionalmente o selecionador 2) 
Para cada um deles:
- dividir o dataset (já reduzido por PCA ou selecionador) em 80% 
para treino e 20% para teste (mantendo as proporção das 
classes em cada parte)
- Usar os 80% para treinar o Naive Bayes e testar nos 20%
- Calcular a acurácia (% de acerto) na amostra de teste
SISTEMAS DE
INFORMAÇÃO
125
125
125
125SISTEMAS DE
INFORMAÇÃO
125
125SISTEMAS DE
INFORMAÇÃO
125
125
125
Atividade 4 (para dia 15/9) 
Obs: 
1- Usar o Naive Bayes adequado para o tipo de variáveis do seu 
dataset (completo ou reduzido)
2- Ex: Independente do tipo de variáveis do seu dataset original, o 
dataset reduzido por PCA terá sempre variáveis contínuas!!!! 
SISTEMAS DE
INFORMAÇÃO
126
126
126
126SISTEMAS DE
INFORMAÇÃO
126
126SISTEMAS DE
INFORMAÇÃO
126
126
126
Referências
HAN, J.; KAMBER, M.; PEI, J. Data mining: Concepts and 
Techniques. 3rd edition. Elsevier. 2012
HECKERMAN, D. A Tutorial on learning with bayesian 
networks. Technical Report MSR-TR-95-06. Microsoft 
Research (disponível no edisciplinas)
JENSEN, F. V.; NIELSEN, T. D. Bayesian networks and 
decision graphs. Springer. 2nd ed. 2007. cap 6 e 8.
Slides de aula do Prof. Fabio Nakano
	Slide 1
	Slide 2
	Slide 3
	Slide 4
	Slide 5
	Slide 6
	Slide 7
	Slide 8
	Slide9
	Slide 10
	Slide 11
	Slide 12
	Slide 13
	Slide 14
	Slide 15
	Slide 16
	Slide 17
	Slide 18
	Slide 19
	Slide 20
	Slide 21
	Slide 22
	Slide 23
	Slide 24
	Slide 25
	Slide 26
	Slide 27
	Slide 28
	Slide 29
	Slide 30
	Slide 31
	Slide 32
	Slide 33
	Slide 34
	Slide 35
	Slide 36
	Slide 37
	Slide 38
	Slide 39
	Slide 40
	Slide 41
	Slide 42
	Slide 43
	Slide 44
	Slide 45
	Slide 46
	Slide 47
	Slide 48
	Slide 49
	Slide 50
	Slide 51
	Slide 52
	Slide 53
	Slide 54
	Slide 55
	Slide 56
	Slide 57
	Slide 58
	Slide 59
	Slide 60
	Slide 61
	Slide 62
	Slide 63
	Slide 64
	Slide 65
	Slide 66
	Slide 67
	Slide 68
	Slide 69
	Slide 70
	Slide 71
	Slide 72
	Slide 73
	Slide 74
	Slide 75
	Slide 76
	Slide 77
	Slide 78
	Slide 79
	Slide 80
	Slide 81
	Slide 82
	Slide 83
	Slide 84
	Slide 85
	Slide 86
	Slide 87
	Slide 88
	Slide 89
	Slide 90
	Slide 91
	Slide 92
	Slide 93
	Slide 94
	Slide 95
	Slide 96
	Slide 97
	Slide 98
	Slide 99
	Slide 100
	Slide 101
	Slide 102
	Slide 103
	Slide 104
	Slide 105
	Slide 106
	Slide 107
	Slide 108
	Slide 109
	Slide 110
	Slide 111
	Slide 112
	Slide 113
	Slide 114
	Slide 115
	Slide 116
	Slide 117
	Slide 118
	Slide 119
	Slide 120
	Slide 122
	Slide 123
	Slide 124
	Slide 125
	Slide 126

Continue navegando