Buscar

Analise desc

Prévia do material em texto

Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 54 
Sumário 
4 Análise Discriminante .............................................................................................. 55 
4.1 Introdução ......................................................................................................... 55 
4.2 Separação e classificação para duas populações ................................................. 56 
7.3 Classificação com duas populações normais multivariadas ................................ 65 
7.3.1 Classificação de populações normais considerando ΣΣΣ  21 ................ 65 
4.3.2 Classificação de Populações Normais quando 21 ΣΣ  ............................... 75 
4.4 Avaliando funções de classificação.................................................................... 77 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 55 
4 Análise Discriminante 
 
4.1 Introdução 
 
 A Análise Discriminante e Classificação é uma técnica multivariada relacionada 
com a separação de conjuntos distintos de objetos (ou observações) e com a alocação de 
novos objetos (observações) a grupos previamente definidos. Análise Discriminante é 
exploratória por natureza. Como um procedimento para separação, é geralmente 
empregado para investigar diferenças observadas quando relações causais não são bem 
compreendidas. Os procedimentos de classificação são menos exploratórios, pois 
apresentam regras bem-definidas que podem ser usadas para atribuir novos objetos. A 
classificação requer uma estrutura maior do problema do que a discriminação. 
 Os objetivos imediatos da discriminação e classificação são: 
Objetivo 1: Descrever, ou graficamente (em 3 ou menos dimensões) ou 
algebricamente, as características diferenciais dos objetos (observações) de várias 
coleções conhecidas (populações). Tenta-se encontrar “discriminantes” cujos valores 
numéricos são tais que as coleções são separadas tanto quanto possível. 
Objetivo 2: Classificar objetos (observações) em 2 ou mais classes rotuladas. A ênfase 
está na definição de regras que podem ser usadas para atribuir otimamente novos 
objetos às classes rotuladas. 
 O termo “discriminação” é empregado ao fazer referência ao Objetivo 1. Este 
termo foi introduzido por Fisher (1938) no primeiro tratamento moderno de problemas 
de separação. Um termo mais descritivo para este objetivo, entretanto, é “separação”. E 
o Objetivo 2 será referido como “classificação ou alocação”. 
 Uma função que separa objetos pode algumas vezes servir como um alocador e a 
regra que aloca objetos pode sugerir um procedimento discriminatório. Na prática, os 
objetivos 1 e 2, frequentemente se sobrepõe (overlap), e a distinção entre separação e 
alocação se torna indistinta. 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 56 
4.2 Separação e classificação para duas populações 
 
 Para fixar ideias, serão listadas situações nas quais pode haver interesse em (1) 
separar em duas classes de objetos ou (2) atribuir um novo objeto a uma de duas classes 
(ou ambas). É conveniente rotular as classes como π1 ou π2. Os objetos são separados 
ou classificados com base em suas medidas, por exemplo, p variáveis aleatórias 
associadas   ',...,,' 21 pXXXX . Os valores observados de X diferem de alguma 
maneira uma classe da outra. Podemos pensar na totalidade de valores da primeira 
classe como sendo valores de x para população π1 e aqueles da segunda classe de uma 
população de valores de x para π2. Essas duas populações podem então ser descritas 
pelas funções densidade de probabilidade f1(x) e f2(x), e consequentemente, podemos 
atribuir observações a populações ou objetos as classes (interchangeably). 
 Alguns exemplos serão destacados na Tabela 1 a seguir. 
Tabela 1 – Exemplos de problemas de discriminação e classificação envolvendo duas 
populações e variáveis medidas. 
População π1 e π2 Variáveis medidas X 
1. Machos e fêmeas Medidas antropológicas, como circunferência e 
volume de crânios antigos. 
2. Sucesso ou Fracasso (evasão 
de curso na graduação) de 
estudantes 
Escores de entrada na universidade (notas de 
vestibular), notas médias do ensino médio, número 
de atividades realizadas no ensino médio. 
3. Bons (adimplentes) e maus 
clientes (inadimplentes) 
Rendimento, idade, número de cartões de crédito, 
tamanho da família. 
4. Duas espécies de plantas Comprimento da sépala e pétala, largura da sépala e 
pétala, diâmetro do pólen. 
 
Podemos citar um exemplo de consumidores que serão separados em duas 
classes rotuladas como “compradores” e “retardatários” (aqueles que demoram para 
comprar) com base em valores observados de variáveis presumidamente relevantes tais 
como: educação, rendimento, tamanho da família, quantidade de troca de marca. 
Queremos identificar uma observação da forma x’=[x1(educação), x2(rendimento), 
x3(tamanho da família), x4(quantidade de trocas de marca)] como população π1 de 
compradores , ou população π2 de retardatários. 
Vamos nos concentrar na classificação para duas populações, retornando a 
separação mais adiante na seção 4.3. 
 Alocação ou regras de classificação são geralmente desenvolvidas a partir de 
amostras de “aprendizagem”. São examinadas características em busca de diferenças, 
medidas em objetos selecionados aleatoriamente e conhecidos como provenientes de 
uma das duas populações. O conjunto de todos os possíveis resultados amostrais é 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 57 
dividido em duas regiões: R1 e R2, tal que se uma nova observação cai em R1 ela é 
alocada à população π1 e se ela cai em R2 é alocada à população π2. Logo, um conjunto 
de valores é favorável à população π1, enquanto o outro conjunto é favorável à 
população π2. 
Como saberemos que algumas observações pertencem a uma população em 
particular, mas não temos certeza sobre outras? Isso é o que faz da classificação um 
problema. Diversas condições podem dar origem a essa aparente anomalia: 
1. Conhecimento incompleto de desempenho futuro 
Exemplo: No passado, valores extremos de certas variáveis financeiras foram 
observadas 2 anos antes da falência de uma empresa. Classificar outra empresa 
como sólida ou passível à falência com base nos valores observados desses 
indicadores pode permitir que os gerentes tomem medidas corretivas, se 
necessário, antes que seja tarde demais. 
 
2. Informação perfeita requer a distruição do objeto. 
Exemplo: O tempo de vida de uma bateria é determinado pelo uso até que ocorra 
a falha. A falha de produtos não pode ser consertada. Então, poderia ser de 
interesse classificar o produto como bom ou mau (fora das especificações) com 
base em algumas medidas feitas anteriormente. 
3. Informação indisponível ou cara. 
Exemplo: É de conhecimento geral que certos artigos federalistas “The 
Federalist Papers” foram escritos por James Madison (*1751 a †1836, foi o 4º. 
presidente dos EUA) ou Alexander Hamilton (*1755 a †1804, foi o 1º. 
Secretário do Tesouro dos Estados Unidos e estabeleceu o Primeiro Banco dos 
Estados Unidos e teve influência no desenvolvimento das bases do capitalismo 
americano) porque eles assinaram os artigos. Já outros artigos não foram 
assinados e é de interesse determinar quais dos dois homens escreveram tais 
artigos. Claramente, não há como perguntar a eles. A frequencia das palavras e o 
comprimento das sentenças pode ajudar a classificar os artigos não assinados. 
 
 Então, através desses exemplos pode-se notar que aas regras de classificação 
podem ser obtidas, mas não podemser tidas como um método livre de erros. Isso pode 
ocorrer por não haver uma distinção clara entre as características medidas das 
populações, isto é, pode haver sobreposição dos grupos. É então possível, por exemplo, 
classificar incorretamente um objeto de π2 como pertencente à π1, ou um objeto de π1 
como pertencente à π2. 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 58 
Exemplo 1: Discriminando proprietários de não proprietários de cortadores de 
grama. 
Considere dois grupos em uma cidade: π1 = proprietários de cortador de grama e π2 = 
não proprietários. O objetivo é identificar as melhores perspectivas de vendas numa 
campanha intensiva de vendas. O produtor de cortador de gramas está interessado em 
classificar famílias como proprietários com perspectiva ou sem perspectiva com base 
em x1 = rendimentos (em $1000) e x2 = tamanho do lote (em 1000 ft
2
). Amostras 
aleatórias de n1=12 proprietários e n2=12 não proprietários estão listadas a seguir. 
 
π1 = proprietários π2 = não proprietários 
x1 = rendimentos x2 = tamanho do lote x1 = rendimentos x2 = tamanho do lote 
90.0 18.4 105.0 19.6 
115.5 16.8 82.8 20.8 
94.8 21.6 94.8 17.2 
91.5 20.8 73.2 20.4 
117.0 23.6 114.0 17.6 
140.1 19.2 79.2 17.6 
138.0 17.6 89.4 16.0 
112.8 22.4 96.0 18.4 
99.0 20.0 77.4 16.4 
123.0 20.8 63.0 18.8 
81.0 22.0 81.0 14.0 
111.0 20.0 93.0 14.8 
 
 No gráfico, apresentado na Figura 1, a seguir é possível observar que os 
proprietários (pontos cor preta) tendem a ter maiores rendimentos (x1) e maiores lotes 
(x2) do que os não proprietários (pontos cor vermelha), entretanto, a variável 
rendimentos (x1) parece ser um discriminador melhor do que x2. 
 
Figura 1 – Rendimento e tamanho dos lotes de proprietários e não proprietários. 
 
 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 59 
Um bom classificador deveria resultar em poucos erros de classificação. Em 
outras palavras, as chances, ou probabilidades de classificação incorreta deveria ser 
pequena. E existem características adicionais que uma regra de classificação “ótima” 
deveria possuir. Por exemplo, pode ocorrer de que uma determinada classe tenha maior 
probabilidade de ocorrência do que a outra porque uma das populações é muito maior 
do que a outra. Uma regra de classificação ótima deveria levar essas “probabilidades a 
priori de ocorrência” em conta. Se realmente acreditamos que a probabilidade (a 
priori) de que a falência (solvência ou quebra) de uma empresa é muito pequena, 
deveríamos classificar uma empresa selecionada aleatoriamente como “não falida”, 
exceto se os dados forem favoráveis à falência. 
 Outro aspecto da classificação é o “custo”. Suponha que classificar um objeto da 
classe π1 como sendo pertencente a π2 representa um erro mais sério do que classificar 
um objeto de π2 como π1. Então, deveríamos tomar cuidado ao fazer essa atribuição. 
Como por exemplo, falhar ao diagnosticar uma doença fatal é muito mais “custoso” do 
que concluir que a doença está presente quando de fato ele não está. Um procedimento 
de classificação ótimo, sempre que possível, deverá levar em conta os custos associados 
ao erro de classificação. 
 Seja f1(x) e f2(x) as funções densidade de probabilidade associadas com o vetor 
de variáveis aleatórias px1 para as populações π1 e π2, respectivamente. Um objeto com 
medidas x associadas deve ser atribuído a uma das duas populações. Seja Ω o espaço 
amostral – isto é, a coleção de todas as observações possíveis x, seja R1 o conjunto de 
todos os valores x para os quais classificamos objetos como pertencente à população π1 
e seja R2= Ω-R1 o conjunto dos valores x remanescentes para os quais classificamos o 
objeto como pertencente à π2. Desde que cada objeto deve ser atribuído a uma e apenas 
uma das duas populações, os conjuntos R1 e R2 são mutuamente exaustivos e 
exclusivos. Para p=2, podemos ter um caso como o da Figura 2. 
Figura 2 – Regiões de classificação para duas populações. 
 
 A probabilidade condicional, P(2|1), de classificar um objeto como sendo 
proveniente de π2, quando de fato ele é proveniente da população π1 é: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 60 
  12
)()|()1|2( 112
RR
dfRPP xxX  . (1) 
Da mesma forma, P(1|2), de classificar um objeto como sendo proveniente de π1, 
quando realmente pertence à população π2 é: 

1
)()|()2|1( 221
R
dfRPP xxX  . (2) 
 A integral dada na equação (1) representa o volume formado pela função 
densidade f1(x) sobre a região R2. Similarmente, a integral definida na equação (2) 
representa o volume formado por f2(x) sobre a região R1. 
 Seja p1 a probabilidade a priori de π1 e p2 a probabilidade a priori de π2, tal que 
p1+ p2=1. As probabilidades envolvendo os erros e acertos na classificação são dadas a 
seguir: 
i) P(observação é corretamente classificada como π1) = 
= P(observação provém de π1 e é classificada corretamente como π1) 
= 1111 )1|1()()|( pPPRP  X . 
ii) P(observação é incorretamente classificada como π1) = 
= P(observação provém de π2 e é classificada incorretamente como π1) 
= 2221 )2|1()()|( pPPRP  X . 
iii) P(observação é corretamente classificada como π2) = 
= P(observação provém de π2 e é classificada corretamente como π2) 
= 2222 )2|2()()|( pPPRP  X . 
iv) P(observação é incorretamente classificada como π2) = 
= P(observação provém de π1 e é classificada incorretamente como π2) 
= 1112 )1|2()()|( pPPRP  X . (3) 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 61 
Figura 3 – Probabilidade de classificação incorreta para regiões hipotéticas quando 
p=1. 
 
Fonte: Jonhson e Wichern (2007). 
 
O esquema de classificação é avaliado em termos de suas probabilidades de má 
classificação ou classificação incorreta, ver equação (4), mas essa expressão ignora 
o custo de classificação incorreta. Ignorar custos pode causar problemas. 
 O custo de classificação incorreta pode ser definido por uma matriz de 
custos, conforme a Tabela 1. 
Tabela 1 - Custos de Classificação 
 
População verdadeira 
Classificado como 
π1 π2 
π1 0 c(2|1) 
π2 c(1|2) 0 
 
Nota-se que os custos de classificação correta serão zero, e de incorretas c(1|2) e 
c(2|1). 
O expected cost of misclassification (ECM) ou custo de classificação incorreta 
esperado é fornecido pré-multiplicando os elementos fora da diagonal principal por 
suas probabilidades de ocorrência: 
21 )2|1()2|1()1|2()1|2( pPcpPcECM  . (5) 
Uma regra de classificação razoável deveria ter um ECM tão pequeno quanto 
possível. 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 62 
RESULTADO 1. As regiões R1 e R2 que minimizam o ECM são definidas pelos 
valores x para os quais a seguintes desigualdades acontecem: 
1
2
2
1
1
)1|2(
)2|1(
)(
)(
:
p
p
c
c
f
f
R 
x
x
 


















priori a probs
de razão
custos
de razão
densidades
de razão
 
1
2
2
1
2
)1|2(
)2|1(
)(
)(
:
p
p
c
c
f
f
R 
x
x
 
 

















priori a probs
de razão
custos
de razão
densidades
de razão
. (6) 
Está claro da equação (6) que a implementação da regra do custo mínimo ECM 
requer que: (1) a razão das funções densidades seja avaliada em uma nova observação 
xo, (2) a razão de custos e (3) a razão das probabilidades a priori. 
 
 CASOS ESPECIAIS DE REGIÕES DE CUSTOS ECM 
a) p2/p1 = 1 (probabilidadesa priori iguais) 
)1|2(
)2|1(
)(
)(
:
2
1
1
c
c
f
f
R 
x
x
 e 
)1|2(
)2|1(
)(
)(
:
2
1
2
c
c
f
f
R 
x
x
 
b) c(1|2)/c(2|1) = 1 (custo de classificação incorreta iguais) 
1
2
2
1
1
)(
)(
:
p
p
f
f
R 
x
x
 e 
1
2
2
1
2
)(
)(
:
p
p
f
f
R 
x
x
 
c) p2/p1 = c(1|2) / c(2|1) = 1 ou p2/p1 = 1 / c(1|2)/c(2|1) (probabilidades a priori 
iguais e custo de classificação incorreta iguais) 
1
)(
)(
:
2
1
1 
x
x
f
f
R e 1
)(
)(
:
2
1
2 
x
x
f
f
R . (7) 
Exemplo 2 (Classificar uma nova observação em uma de duas populações) 
Um pesquisador tem dados suficiente disponíveis para estimar as funções 
densidade f1(x) e f2(x) associadas às populações π1 e π2, respectivamente. Suponha que 
c(2|1) = 5 unidades e c(1|2) = 10 unidades. Além disso, é conhecido que cerca de 20% 
de todos os objetos (para os quais as medidas x podem ser realizadas) pertencem à 
classe π2. Então, as probabilidades a priori são p1=0,8 e p2=0,2. Vamos agora calcular 
as regiões de classificação R1 e R2: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 63 
5,0
8,0
2,0
5
10
)(
)(
:
2
1
1 












x
x
f
f
R 
5,0
8,0
2,0
5
10
)(
)(
:
2
1
2 












x
x
f
f
R 
Suponha que as funções de densidade avaliadas na nova observação x0 resultou 
f1(x0)=0,3 e f2(x0)=0,4. Devemos classificar a nova observação como pertencente à 
população π1 ou π2? 
Vamos calcular a razão das densidades: 75,0
4,0
3,0
)(
)(
02
01 
x
x
f
f
. Agora comparamos 
essa razão com o valor 0,5 obtido anteriormente. Como: 
5,0
)1|2(
)2|1(
75,0
)(
)(
1
2
2
1 












p
p
c
c
f
f
x
x
 
encontramos que 10 Rx e o classificamos como pertencente à população π1. 
 Outro critério além do ECM pode ser utilizado para encontrar procedimentos 
“ótimos” de classificação. Por exemplo, poderiam ser ignorados os custos de 
classificações incorretas e escolher as regiões R1 e R2 que minimizassem a total 
probability of misclassification (TPM), ou seja, a probabilidade total de classificação 
incorreta através da seguinte equação: 
.)()(
) em enteincorretam daclassifica é e de vemobservação a(
 ) em enteincorretam daclassifica é e de vemobservação a( 
 )ou em observação uma enteincorretamr classifica(
12
2211
12
21
21
 



RR
dfpdfp
P
P
PTPM
xxxx



 (8) 
Matematicamente o TPM é equivalente a minimizar o ECM quando os custos de 
classificação incorreta são iguais, conforme já definido no caso (b) da equação (7). 
 Também poderia ser alocada a nova observação x0 à população com a maior 
probabilidade a posteriori: 
) observamos(
 ) observamos e ocorre (
)(
),(
)|(
0
01
0
01
01
x
x
x
x
x
P
P
P
P
P

  
))P(| observamos())P(| observamos(
 ))P(| observamos(
220110
110


xx
x
PP
P

 
)()(
 )(
022011
011
xx
x
fpfp
fp

 . 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 64 
 
)|(1)|( 0102 xx  PP  
)()(
 )(
022011
022
xx
x
fpfp
fp

 . (9) 
 
Classificar uma observação x0 em π1 quando )|()|( 0201 xx  PP  é equivalente a 
usar a regra (b) para TPM dada na equação (7), porque os denominadores em (9) são os 
mesmos. Então, computar as probabilidades das populações π1 e π2 após observar x0 (o 
nome é probabilidade a posteriori) é geralmente útil para o propósito de identificar 
atribuições não tão claras. 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 65 
7.3 Classificação com duas populações normais multivariadas 
 
Sejam f1(x) e f2(x) as funções densidade de probabilidade normais, a primeira 
com vetor de médias μ1 e matriz de covariância Σ1 e a segunda com vetor de média μ2 e 
matriz de covariância Σ2. 
 
7.3.1 Classificação de populações normais considerando ΣΣΣ  21 
 
Utilizando a função discriminante linear de Fisher, e considerando a densidade 
conjunta de   ',...,,' 21 pXXXX para as populações π1 e π2, tem-se: 
 
    ,'
2
1
exp
2
1
)( 1
2/12/ 




  iipi
f μxΣμx
Σ
x

 i=1,2. (10) 
Supondo que os parâmetros populacionais μ1, μ2 e Σ sejam desconhecidos: 
        





  2
1
21
1
1
2
1
1 '
2
1
'
2
1
exp
)(
)(
: μxΣμxμxΣμx
x
x
f
f
R 












1
2
)1|2(
)2|1(
p
p
c
c
 
        





  2
1
21
1
1
2
1
2 '
2
1
'
2
1
exp
)(
)(
: μxΣμxμxΣμx
x
x
f
f
R 












1
2
)1|2(
)2|1(
p
p
c
c
. 
(11) 
Então, tem-se o seguinte resultado: 
Resultado 2: Sejam as populações π1 e π2, descritas como (10). A regra de alocação que 
minimiza o Expected Cost of Misclassification (ECM), custo esperado de classificação 
incorreta, é dada por: 
Alocar x0 em π1 se: 
     






















 
1
2
21
1
210
1
21
)1|2(
)2|1(
ln'
2
1
'
p
p
c
c
μμΣμμxΣμμ (12) 
caso contrário, alocar x0 em π2. 
 
Prova: Exercício. 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 66 
Esse procedimento e o método de Fisher são iguais quando: 
1
)1|2(
)2|1(
1
2 











p
p
c
c
, então, ln(1)=0. 
Como os vetores populacionais para as médias 21,μμ e variância Σ são 
geralmente desconhecidos, para se chegar a Regra dada em (12), são utilizadas suas 
estimativas amostrais. Suponha que tenhamos n1 observações de uma variável aleatória 
com distribuição normal multivariada  pXXX ,,,' 21 X provenientes da população 
π1 e n2 observações destas quantidades e provenientes da população π2, com 
pnn  221 . Então, as matrizes de dados respectivas são: 















1
1
1
12
11
x
1
'
'
'
n
pn
x
x
x
X

 e 















2
2
2
22
21
x
2
'
'
'
n
pn
x
x
x
X

 . (15) 
Os vetores de médias e matrizes de variância e covariância são dadas por: 





11
1
1111
1x
1
1
1
11x
1 )')((
1
1
,
1
n
j
jj
pp
n
j
j
p nn
xxxxSxx 





22
1
2222
2x
2
1
2
21x
2 )')((
1
1
,
1
n
j
jj
pp
n
j
j
p nn
xxxxSxx (16) 
E a matriz de covariância agrupada: 
2
21
2
1
21
1
)1()1(
1
)1()1(
1
SSS 
















nn
n
nn
n
agrup (17) 
Regra do mínimo ECM esperado estimado para duas populações normais 
Alocar x0 em π1 se, 
      

















 
1
2
21
1
210
1
21
)1|2(
)2|1(
ln'
2
1
'
p
p
c
c
SS agrupagrup xxxxxxx (18) 
Caso contrário, alocar x0 em π2. 
 
Se na equação (13): 1
)1|2(
)2|1(
1
2 











p
p
c
c
, então, ln(1)=0, e a regra do mínimo estimado 
ECM para duas populações normais se compara a variável escalar: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 67 
  xaxxx 'ˆ'ˆ 121 

agrupSy (19) 
Avaliado em x0, com o número: 
   
    
 21
2
1
211
1
21
21
1
21
2
1
''
2
1
'
2
1
ˆ
yy
SS
Sm
agrupagrup
agrup





xxxxxx
xxxx
 (20) 
tal que: 
  11
1
211 'ˆ' xaxxx 

agrupSy 
e 
  22
1
212 'ˆ' xaxxx 

agrupSy . 
 
Exemplo 3 – Classificação com duas populações normais com Σ comuns e custos 
iguais 
Este exemplo é adaptado de Bouma (1975) referente à detecção de portadores de 
hemofilia do tipo A. Para construir um procedimentopara detectar um potencial 
portador de hemofilia A, amostras de sangue são retiradas para dois grupos de mulheres 
e são realizadas medidas sobre duas variáveis: 
)AHF atividade(log101 X 
)AHF antígeno(log102 X 
A sigla AHF significa Fator Anti-hemofílico. O primeiro grupo denominado “grupo 
normal” foi composto de n1=30 mulheres foi selecionado de uma população de 
mulheres que não carregavam o gene da Hemofilia A. O segundo grupo denominado 
“grupo de portadoras obrigatórias” de n2=22 mulheres foi selecionado de casos 
conhecidos de portadoras de Hemofilia A (filhas de portadores, mães com mais de um 
filho hemofílico, e mães com um filho hemofílico e outras com parentes hemofílicos). 
O par de observações (x1, x2) para ambos os grupos são plotados na Figura 4. 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 68 
Figura 4 – Diagrama de dispersão para o exemplo de grupo de portadores obrigatórios 
de hemofilia A e grupo normal. 
 
Fonte: Jonhson e Wichern (2007). 
 
As médias amostrais para os dois grupos são: 









0390,0
0065,0
1x e 






0262,0
2483,0
2x e 








147,108423,90
423,90158,1311
agrupS . 
Considerando custos iguais e prioris iguais, temos: 
  xxxxa 121 ''ˆˆ
 agrupSy 
   














2
1
147,108423,90
423,90158,131
0652,02418,0
x
x
 
 21 92,2861,37 xx  . 
E 
  88,0
0390,0
0065,0
92,2861,37'ˆ 11 







 xay 
  10,10
0262,0
2483,0
92,2861,37'ˆ 22 





 xay 
E o ponto médio entre essas duas médias é: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 69 
61,4)10,1088,0(
2
1
)(
2
1
ˆ 21  yym . 
Foram realizadas medidas em uma mulher (não pertencente às amostras) e foram 
observados os seguintes valores das variáveis 210,01 x e 044,02 x . Essa mulher 
deveria ser classificada como π1 (grupo normal) ou π2 (grupo de portadora obrigatória)? 
Solução: usando a função (18) com custos iguais e prioris iguais, logo ln(1)=0, obtemos: 
Alocar x0 em π1 se 61,4ˆ'ˆˆ 00  my xa 
Alocar x0 em π2 se 61,4ˆ'ˆˆ 00  my xa 
Então, para    044,0210,0' 210  xxx . Desde que: 
  61,4ˆ62,6
044,0
210,0
92,2861,37'ˆˆ 00 







 my xa . 
Portanto, classificamos a mulher como sendo da classe π2, uma portadora obrigatória. 
 Suponha agora que as probabilidades a priori dos membros dos grupos são 
conhecidos. Por exemplo, suponha que foram retiradas amostras de sangue de um primo 
de primeiro grau da família materna de um hemofílico, e realizadas as medidas x1 e x2. 
Então, a chance de ser um portador hemofílico do tipo A neste caso é de 0,25. 
Consequentemente, as probabilidades a priori de ser membro de cada grupo são 0,75 e 
0,25. Assumindo, algumas vezes não realisticamente, que os custos de classificação 
incorreta são iguais, tal que c(1|2) = c(2|1), e usando a classificação estatística dada na 
expressão (18), tem-se: 
     
    
m
agrupagrup SSw
ˆ
21
1
21
'ˆ
0
1
21 '
2
1
'ˆ
0
xxxxxxx
xa
  
Então, mw ˆ'ˆˆ 0  xa , com    044,0210,0' 210  xxx , com 61,4ˆ m e 
62,6'ˆ 0 xa , tem-se: 
01,2)61,4(62,6ˆ w . 
Agora, aplicando na regra dada na expressão (18): 
Alocar x0 em π1 se, 


















1
2
)1|2(
)2|1(
lnˆ
p
p
c
c
w 
E em caso contrário se 


















1
2
)1|2(
)2|1(
lnˆ
p
p
c
c
w alocar x0 em π2. 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 70 
Calculando-se o lado direito resulta em: 
  10,1
3
1
ln
75,0
25,0
1ln
)1|2(
)2|1(
ln
1
2 



































p
p
c
c
. 
Então, reescrevendo a regra acima tem-se: 
Alocar x0 em π1 se, 10,1ˆ w 
E em caso contrário se 10,1ˆ w alocar x0 em π2. 
 
Assim, como 10,101,2ˆ w classificamos a uma mulher em π2, como um portador 
obrigatório. 
 
Escala 
O vetor de coeficientes  21
1ˆ xxa  agrupS é único apenas pela multiplicação de 
uma constante, então, para c≠0, qualquer vetor âc também servirá como coeficientes 
discriminantes. 
O vetor  21
1ˆ xxa  agrupS é denominado vetor “escalado” ou “normalizado”. 
Duas das mais comumente normalizações empregadas são: 
1) Definir 
aa
a
a
ˆ'ˆ
ˆ
*ˆ  , então *â tem comprimento unitário. (21) 
2) Definir 
1ˆ
ˆ
*ˆ
a
a
a  , então, o primeiro elemento do novo vetor de coeficientes *â 
será igual a 1ˆ*1 a . (22) 
Em ambos os casos, *â é da forma âc . Para normalização em (1), 
aa ˆ'ˆ
1
c e em 
(2) 
1ˆ
1
a
c  . 
A magnitude de 
**
2
*
1 ˆ,...,ˆ,ˆ paaa elementos do vetor *â dado em (21) pertence ao 
intervalo  1,1 . Já em (22), 1ˆ*1 a e 
**
2 ˆ,...,ˆ paa serão todos múltiplos de 
*
1â , e restringir 
*
1â no intervalo  1,1 , facilita a comparação visual dos coeficientes. E expressar os 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 71 
coeficientes **2 ˆ,...,ˆ paa como múltiplos de 
*
1â permite acessar prontamente a importância 
relativa das variáveis pXX ,...,2 como discriminatórias. 
 Normalizar os sai 'ˆ é recomendado apenas se as variáveis Xi foram 
padronizadas. Se este não é o caso, um grande cuidado deve ser exercido na 
interpretação dos resultados. 
 
Abordagem de Fisher para Classificação com Duas Populações 
 
Fisher (1938) chegou a estatística para classificação linear dada na expressão (19) 
usando um argumento completamente diferente. A ideia de Fisher era transformar 
observações multivariadas x em observações univariadas y tal que os y’s derivados da 
população π1 e π2 fossem tão separados quanto possível. Para tanto, Fisher sugeriu 
utilizar combinações lineares dos x para criar os y, porque eles são funções simples o 
suficiente de x para ser obtidas facilmente. A abordagem de Fisher não requer que as 
populações sejam normais. Porém, isto está implícito ao assumir que as matrizes de 
covariância são iguais, porque a estimativa da matriz de covariância agrupada é usada. 
 Considere uma combinação linear dos x’s assume valores 
111211
,...,, nyyy para as 
observações da população π1 e 
222221
,...,, nyyy da população π2. A separação destes dois 
conjuntos de y’s univariados é feita considerando-se as médias 1y e 2y , expressa em 
termos de unidades de desvio padrão. Isto é: 
ys
yy 21
separação

 , tal que 
2
)()(
21
2
2
1
2
2
1
1
1
2
21





nn
yyyy
s
n
j
j
n
j
j
y é a variância agrupada. 
O objetivo é selecionar a combinação linear de x que maximiza a medida de separação 
das médias 1y e 2y . 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 72 
Resultado 3 - A combinação linear   xxxxa 121 ''ˆˆ
 agrupSy maximiza a razão 
 
2
2
21
y de amostral variância
y de amostrais médias as entre quadrado ao distância
ys
yy 
 
 
aa
xaxa
ˆ'ˆ
'ˆ'ˆ
2
21
agrupS

 
 
aa
da
ˆ'ˆ
'ˆ
2
agrupS
 (23) 
sobre todos os possíveis vetores  21 que talˆ xxda  . O máximo valor da razão dada 
em (23) será    21
1
21
2 ' xxxx  agrupSD . 
 
Exemplo 4 - Função discriminante linear de Fisher para dados de Hemofilia 
Considere a detecção de portadores de Hemofilia A no Exemplo 3. Lembrando que para 
custos iguais e prioris iguais a função discriminante linear era: 
  xxxxa121 ''ˆˆ
 agrupSy 
   














2
1
147,108423,90
423,90158,131
0652,02418,0
x
x
 
 21 92,2861,37 xx  . 
A função discriminante linear de Fisher que maximiza a separação das duas populações 
nas amostras é: 
   21
1
21
2 ' xxxx  agrupSD 
   98,10
0652,0
2418,0
147,108423,90
423,90158,131
0652,02418,0 














 . 
A solução de Fisher para um problema de separação também pode ser usada para 
classificar novas observações. 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 73 
Uma regra de alocação baseada na Função Discriminante de Fisher 
Alocar x0 em π1 se, 
     21
1
210
1
210 '
2
1
ˆ'ˆ xxxxxxx   agrupagrup SmSy 
ou 0ˆˆ0  my (25) 
E alocar x0 em π2 se 
0ˆˆ0 my ou my ˆˆ0  . 
OBS: Deve ocorrer pnn  221 , para que a matriz inversa 
1
agrupS exista. Caso 
pnn  221 a matriz 
1S será singular e não será possível construir essa regra de 
alocação. 
 
 
O procedimento é ilustrado na Figura 5 para p=2 variáveis. Todos os pontos 
amostrais são projetados sobre uma linha na direção â e direção é variada até que a 
separação entre as amostras seja máxima. 
Figura 5 – Representação do procedimento de Fisher para duas populações com p=2. 
 
Fonte: Jonhson e Wichern (2007). 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 74 
 A função discriminante linear de Fisher dada em (25) foi desenvolvida sob a 
suposição de que as duas populações tem matriz de variância comum (iguais). 
Consequentemente, não é surpresa que o método de Fisher corresponda à um caso 
particular da regra ECM dada anteriormente. O primeiro termo   xxx 121 'ˆ
 agrupSy da 
regra (18) é a função discriminante linear de Fisher que maximiza a variabilidade 
amostral univariada “entre” (between) em relação à variabilidade amostral “dentro” 
(within). A expressão completa é: 
     21
1
21
1
21 '
2
1
'ˆ xxxxxxx   agrupagrup SSw 
    





  21
1
21
2
1
' xxxxx agrupS (26) 
é chamada Função de Classificação de Anderson. Aqui novamente 
1
)1|2(
)2|1(
1
2 











p
p
c
c
, então, ln(1)=0. A Regra (18) é comparável a Regra (26), baseada 
na Função Linear Discriminante de Fisher. Então, considerando que as duas populações 
normais tem a mesma matriz de covariância, a Regra de Classificação de Fisher é 
equivalente à Regra de mínimo ECM com iguais probabilidades a priori e custos de 
classificação incorretas iguais. 
Classificação é uma boa ideia? 
 Para duas populações, a separação relativa máxima pode ser obtida considerando 
a distância D
2
. Suponha que as populações π1 e π2 são normais multivariadas com uma 
matriz de covariância comum Σ. Então, um teste já visto em Análise Multivariada I para 
testar as hipóteses: 
21:  Ho 
21:  Ha 
é dado por: 2
21
21
21
21
0
)2(
1
D
nn
nn
pnn
pnn
F 














 . 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 75 
A estatística F0 acima tem distribuição F com pv 1 e 1212  pnnv graus de 
liberdade. Se Ho é rejeitada, pode-se concluir que a separação entre as duas populações 
π1 e π2 é significativa. 
Comentário: Separação significativa não implica necessariamente boa classificação. 
Como veremos na seção 4, a eficácia de um procedimento de classificação pode se 
avaliado independentemente de qualquer teste de separação. Em contraste, se a 
separação não é significativa, a busca por uma regra de classificação útil será 
provavelmente infrutífera. 
4.3.2 Classificação de Populações Normais quando 21 ΣΣ  
 
As regras de classificação são mais complicadas quando as matrizes de 
covariância das 2 populações diferem. 
 Considere as distribuições normais multivariadas com 2,1, iiΣ substituindo a 
matriz Σ . Então, considerando a densidade conjunta de   ',...,,' 21 pXXXX para as 
populações π1 e π2, tem-se: 
 
    ,'
2
1
exp
2
1
)(
1
2/12/ 






iii
i
pi
f μxΣμx
Σ
x

 i=1,2. (10) 
Supondo que os parâmetros populacionais μ1, μ2, 1Σ e 2Σ sejam desconhecidos: 
      kR xΣμΣμxΣΣx 12211112111 '''
2
1
: 

















1
2
)1|2(
)2|1(
ln
p
p
c
c
. 
      kR xΣμΣμxΣΣx 12211112112 '''
2
1
: 

















1
2
)1|2(
)2|1(
ln
p
p
c
c
. (27) 
onde: 
 21221111
2
1
''
2
1
ln
2
1
μΣμμΣμ
Σ
Σ 









k . (28) 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 76 
As regiões de classificação são definidas pelas funções quadráticas de x. Quando 
21 ΣΣ  , o termo quadrático  xΣΣx 1211'
2
1 
 desaparece e a região definida por 
(27) se reduz aquela já definida anteriormente em (14). 
 A regra de classificação para populações normais multivariadas segue 
diretamente de (27). 
Resultado 4 – As populações π1 e π2 são descritas pelas densidades normais 
multivariadas com vetores de média e matrizes de covariância μ1, μ2, 1Σ e 2Σ , 
respectivamente. A regra de alocação que minimiza o custo esperado de classificação 
incorreta é dada por: 
Alocar x0 em π1 se, 
      k0122111012110 '''
2
1
xΣμΣμxΣΣx 

















1
2
)1|2(
)2|1(
ln
p
p
c
c
 
E alocar x0 em π2, caso contrário. 
OBS:  21221111
2
1
''
2
1
ln
2
1
μΣμμΣμ
Σ
Σ 









k . 
 Para implementar na prática o Resultado 4, basta substituir as quantidades 
populacionais por suas estimativas amostrais. As desigualdades pn 1 e pn 2 devem 
ambas acontecer para que 
1
2
1
1 e 

SS existam. Estas quantidades serão usadas no lugar 
de 
1
2
1
1 e 

ΣΣ . 
 
Regra de Classificação Quadrática (Populações normais com matrizes de 
covariância desiguais) 
Alocar x0 em π1 se, 
      k0122111012110 '''
2
1
xSxSxxSSx 

















1
2
)1|2(
)2|1(
ln
p
p
c
c
 (29) 
E alocar x0 em π2, caso contrário. 
OBS:  21221111
2
1
''
2
1
ln
2
1
xSxxSx
S
S 









k . 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 77 
A classificação com funções quadráticas é estranha em mais do que duas 
dimensões e pode levar a resultados estranhos, principalmente quando os dados não são 
(essencialmente) normais multivariados. 
 Se os dados não são normais multivariados, há duas opções disponíveis: 
1) Os dados não normais podem ser transformados para se aproximarem de uma 
normal, e um teste para igualdade das matrizes de covariância deve ser 
conduzido. Para ver se a regra linear ou a quadrática é apropriada. (Dica: os 
testes usuais de homogeneidade da covariância são grandemente afetados pela 
não normalidade. A conversão de dados não normais para normais deve ser feita 
antes do teste ser realizado). 
2) Podemos usar a regra linear ou quadrática sem preocupações sobre a forma das 
populações e esperamos que ela trabalhe razoavelmente bem. Estudos tem 
mostrado, entretanto, que existem casos de não normalidade onde a classificação 
linear tem um desempenho pobre, até mesmo para matrizes de covariâncias 
iguais. A solução é sempre checar o desempenho de qualquer procedimento de 
classificação. Pelo menos, isto deveria ser feito com os dados usados para 
construir o classificador. Idealmente,deve haver dados disponíveis para fornecer 
amostras de “treinamento” e “validação”. As amostras de “treinamento” são 
usadas para desenvolver a função de classificação e as amostras de “validação” 
podem ser usadas para avaliar seu desempenho. 
 
4.4 Avaliando funções de classificação 
 
 Uma importante maneira de julgar o desempenho de qualquer procedimento de 
classificação é calcular suas “razões de erro” ou probabilidades de classificação 
incorreta. Quando as formas da distribuição das populações são completamente 
conhecidas, as probabilidades de classificação incorretas podem ser calculadas com 
relativa facilidade. Uma vez que a função de classificação foi construída, é de interesse 
encontrar uma medida para avaliar seu desempenho em amostras futuras. 
Da expressão (8), a probabilidade total de classificação incorreta é: 
.)()(
) em enteincorretam daclassifica é e de vemobservação a(
 ) em enteincorretam daclassifica é e de vemobservação a( 
 )ou em observação uma enteincorretamr classifica(
12
2211
12
21
21
 



RR
dfpdfp
P
P
PTPM
xxxx



 (8) 
O menor valor desta quantidade é obtido por uma escolha cuidadosa de R1 e R2 é 
chamada de optimum error rate (OER) 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 78 
 
12
)()()( rateerror Optimum 2211
RR
dfpdfpOER xxxx (30) 
onde R1 e R2 são determinados pelo caso (b) da expressão (7): 
1
2
2
1
1
)(
)(
:
p
p
f
f
R 
x
x
 e 
1
2
2
1
2
)(
)(
:
p
p
f
f
R 
x
x
. 
 O desempenho de funções de classificação amostral pode ser avaliado pelo 
cálculo da actual error rate (AER), razão de erro atual, definido por: 
 
12
ˆ 22ˆ 11
)()()( rateerror actual
RR
dfpdfpAER xxxx . (32) 
tal que 21
ˆ e ˆ RR representam as regiões de classificação determinadas por amostras de 
tamanho n1 e n2. Por exemplo, se a função de classificação em (18) é empregada, as 
regiões 21
ˆ e ˆ RR são definidas pelos conjuntos de x’s para os quais as seguintes 
desigualdades são satisfeitas: 
      



















1
2
21
1
21
1
211
)1|2(
)2|1(
ln'
2
1
':ˆ
p
p
c
c
R agrupagrup xxSxxxSxx 
      



















1
2
21
1
21
1
212
)1|2(
)2|1(
ln'
2
1
':ˆ
p
p
c
c
R agrupagrup xxSxxxSxx . 
 A AER indica como a função de classificação amostral desempenhará em 
amostras no futuro. Como a razão de erro ótimo não pode, em geral, ser calculada, 
porque ela depende de funções densidade desconhecidas )(1 xf e )(2 xf . Entretanto, 
uma estimativa de uma quantidade relacionada a razão de erro atual pode ser calculada, 
e esta estimativa será dada a seguir. 
 Existe uma medida de desempenho que não depende da forma de populações e 
pode ser calculada por algum procedimento de classificação. Esta medida, chamada de 
apparent error rate (APER), razão do erro aparente, é definida como a fração de 
observações in amostras de treinamento que são erroneamente classificadas pela função 
de classificação amostral. 
 A razão do erro aparente será facilmente calculada pela matriz de confusão, que 
mostra os valores atuais dos membros preditos dos grupos. Para observações n1 
provenientes da população π1 e n2 observações da população π2, a matriz de confusão 
tem a forma: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 79 
 Membro predito (33) 
 π1 π2 
Membro 
Atual 
π1 n1C n1M = n1 – n1C n1 
π2 n2M = n2 – n2C n2C n2 
tal que: 
n1C = número de itens de π1 corretamente classificados como itens de π1. 
n1M = número de itens de π1 incorretamente classificados como itens de π2. 
n2C = número de itens de π2 corretamente classificados. 
n2M = número de itens de π2 incorretamente classificados. 
Obs: a letra C indica no índice indica que o item foi “corretamente” classificado. 
 a letra M indica no índice indica que o item foi “mal” classificado. 
A razão do erro aparente é então definida como: 
21
21
nn
nn
APER MM


 (34) 
representa a proporção de itens no conjunto de treinamento que foram mal classificados. 
 
Exemplo 6 (Cálculo da razão do erro aparente) 
Considere as regiões de classificação R1 e R2 mostradas na Figura 1 para os dados de 
cortadores de grama. Neste caso, observações a nordeste da linha sólida são 
classificados como π1, proprietários de cortador de grama, e observações a sudoeste da 
linha sólida como π2 não proprietários. Note que algumas observações são mal 
classificadas. A matriz de confusão é: 
 Classificado como 
 π1 π2 
População 
verdadeira 
π1: prop. n1C = 10 n1M = 2 n1=12 
π2 não prop. n2M = 2 n2C = 10 n2=12 
 
A razão do erro aparente, expressa como uma percentagem, é: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 80 
%.67,16%100
24
4
1212
22
21
21 

















nn
nn
APER MM 
A razão APER é muito intuitiva e fácil de calcular, entretanto, ela subestima a 
verdadeira AER e o problema não desaparece a menos que n1 e n2 sejam muito grandes. 
Essencialmente, esta estimativa otimista ocorre porque os dados que são usados para 
construir a função de classificação também são usados para avaliar a razão de erro. 
 Uma estimativa da razão de erro que pode ser construída e produzir um resultado 
melhor que a razão do erro aparente pode ser feita de duas formas: 
1) Procedimento de dividir o total da amostra em 2 partes: amostra de treinamento 
e amostra de validação. A amostra de treinamento é usada para construir a função de 
classificação e a amostra de validação é usada para avalia-la. A razão de erro é 
determinada pela proporção de erros de classificação na amostra de validação. 
Entretanto, esse método supere o problema do viés ele não usa os mesmos dados para 
fazer ambos construir e julgar a função de classificação, então ele sofre de dois defeitos 
principais: 
1. Ele requer grandes amostras. 
2. A função avaliada não é a verdadeira função de interesse. E quase todos os 
dados devem ser usados para construir a função de classificação, se não, a 
informação pode ser perdida. 
2) Método Holdout ou validação cruzada: A segunda abordagem é conhecida como 
método “holdout” (tradução: deixe fora) de Lachenbruch, de Lachenbruch e Mickey 
(1968). Esse método também é reconhecido como método jackknifing ou cross-
validation (tradução: validação cruzada). Os passos deste procedimento são: 
1) Comece com as observações do grupo π1. Omita ou exclua (holdout) uma 
observação deste grupo e desenvolva a função de classificação baseada nas n1-1, 
n2 observações restantes. 
2) Classifique a observação omitida usando a função construída no passo 1. 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 81 
3) Repita os passos 1 e 2 até que todas as observações do grupo π1 sejam 
classificadas. Defina )(1
H
Mn como sendo o número de observações omitidas mal 
classificadas nesse grupo. 
4) Repita os passos 1 a 3 para as observações do grupo π2. Defina 
)(
2
H
Mn como sendo 
o número de observações omitidas mal classificadas nesse grupo. 
Estime as probabilidades condicionais de má classificação como sendo: 
 
1
)(
1)1|2(ˆ
n
n
P
H
M 
e 
2
)(
2)2|1(ˆ
n
n
P
H
M (35) 
e a proporção total de classificação incorretas é uma estimativa aproximadamente não 
viciada, para amostras de tamanho razoável, da razão de erro atual esperada E(AER): 
21
)(
2
)(
1)(ˆ
nn
nn
AERE
H
M
H
M


 . (36) 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre– FCT/Unesp 82 
Exemplo 7 Calculando uma estimativa da razão do erro usando o procedimento 
holdout 
Para ilustrar o procedimento holdout, vamos considerar como exemplo, a versão da 
expressão (18) com custos iguais e probabilidades a priori iguais. Considere as matrizes 
e estatísticas descritivas para um problema com tamanhos amostrais n1=n2=3 de 
observações bivariadas selecionadas aleatoriamente de duas populações π1 e π2 com 
matrizes de covariâncias comum, ou seja, iguais. 











83
104
122
1X ; 






10
3
1x ; 








82
22
2 1S 











54
93
75
2X ; 






7
4
2x ; 








82
22
2 2S 
A matriz de covariância agrupada é: 
 
)2(
)1()1(
21
2211



nn
nn
agrup
SS
S => 
)233(
)13()13( 21



SS
Sagrup => 
4
22 21 SSS

agrup =>  21 22
4
1
SSS agrup => 























82
22
82
22
4
1
agrupS 









41
11
)22(
4
1
21 SSSagrup . 
Após o cálculo da Regra (18), utilizando os dados acima, essa parte será deixada para o 
aluno calcular, a matriz de confusão encontrada será: 
 Classificado como: 
 π1 π2 
Verdadeira 
população 
π1 n1C = 2 n1M = 1 n1=3 
π2 n2M = 1 n2C = 2 n2=3 
 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 83 
E o erro aparente será: %.33,33%100
6
2
33
11
21
21 

















nn
nn
APER MM 
a) Deixando forra a primeira observação  122' Hx de 











83
104
122
1X e calculamos 







83
104
1HX ; 






9
5,3
1Hx ; 






21
15,0
1 1HS e já calculada 








82
22
2 2S . 
A nova matriz de covariância agrupada será: 
)2(
)1()1(
21
2211
,



nn
nn H
agrupH
SS
S => 
)232(
)13()12( 21
,



SS
S HagrupH => 
3
21 21
,
SS
S

 HagrupH =>  21, 21
3
1
SSS  HagrupH => 
 





















82
22
21
15,0
3
1
,agrupHS => 








101
15,2
3
1
)21(
3
1
21, SSS HagrupH . 
com inversa 






5,21
110
8
1
,
1
agrupHS . 
Agora temos que classificar a amostra H retirada  122' Hx , com base em suas 
distâncias ao quadrado das médias dos grupos 21 e xx H . Esse procedimento é 
equivalente a calcular o valor da função linear   HagrupHHHH Sy xxxxa
1
,21 ''ˆˆ
 e 
compará-la ao ponto médio    21
1
,21 '
2
1
ˆ xxxx   HagrupHHH Sm (conforme as 
expressões (19) e (20)). 
Então, para a amostra retirada  122' Hx , teremos: 
Distância ao quadrado de    HHagrupHHHH S 1
1
,11 ' xxxxx 

 
  














)912(
)5,32(
5,21
110
8
1
)912()5,32( 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 84 
  












3
5,1
5,21
110
8
1
35,1 = 4,5. 
Distância ao quadrado de    2
1
,22 ' xxxxx 

HagrupHH S 
  














)712(
)42(
5,21
110
8
1
)712()42( 
  












5
2
5,21
110
8
1
52 = 10,5. 
Desde que a distância do ponto retirado (holdout)  122' Hx é menor para H1x =4,5 
do que para 2x , então, classificamos a observação Hx como sendo proveniente da 
classe π1. E nesse caso, a classificação está correta. 
b) Agora, passamos aos cálculos envolvendo a retirada do ponto  104' Hx , e os 
valores 






83
122
1HX ; 






10
5,2
1Hx , e a inversa da matriz agrupada será: 







5,24
416
8
1
,
1
agrupHS . 
Então, para a amostra retirada  104' Hx , teremos: 
Distância ao quadrado de    HHagrupHHHH S 1
1
,11 ' xxxxx 
 
  














)1010(
)5,24(
5,24
416
8
1
)1010()5,24( 
    5,4)36(
8
1
0
5,1
624
8
1
0
5,1
5,24
416
8
1
05,1 

















 
Distância ao quadrado de    2
1
,22 ' xxxxx 

HagrupHH S 
  














)710(
)44(
5,24
416
8
1
)710()44( 
    8,2)5,22(
8
1
3
0
5,712
8
1
3
0
5,24
416
8
1
30 

















 . 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 85 
Desde que a distância da amostra retirada (holdout)  104' Hx é menor para 
8,22 x do que para H1x =4,5, então, classificamos a observação Hx como sendo 
proveniente da classe π2. E nesse caso, a classificação está incorreta e a amostra é mal 
classificada. 
c) Retirando a amostra  83' Hx a regra da menor distância levará a classificação 
incorreta desta observação à classe π2. Portanto, o número de elementos mal 
classificados na segunda classe é: 2)(1 
H
Mn . 
Agora reiniciamos todo o processo novamente para as amostras da população π2. 
d) Retirando a primeira amostra  75' Hx de 











54
93
75
2X , 







10
3
1x e 








82
22
2 1S já dado anteriormente, e calculando os demais valores 
para amostra retirada: 






54
93
2HX ; 






7
5,3
2Hx ; 








82
25,0
1 2HS . 
A nova matriz de covariância agrupada será: 
































164
45,2
3
1
82
25,0
82
22
3
1
2)12(
3
1
121, SSSS HagrupH 
com inversa 






5,24
416
24
3
,
1
agrupHS . 
Encontra-se as distâncias da amostra retirada  75' Hx para os 2 grupos: 
Distância ao quadrado de    1
1
,11 ' xxxxx 

HagrupHH S 
  














)107(
)35(
5,24
416
24
3
)107()35( 
  













3
2
5,24
416
24
3
32 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 86 
  8,4)5,38(
24
3
3
2
5,020
24
3







 . 
Distância ao quadrado de    HHagrupHHHH S 2
1
,22 ' xxxxx 
 
  














)77(
)5,35(
5,24
416
24
3
)77()5,35( 
  












0
5,1
5,24
416
24
3
05,1 
  5,4)36(
24
3
0
5,1
624
24
3






 . 
Desde que a distância do ponto retirado (holdout)  75' Hx é menor para 5,42 Hx 
do que para 8,41 x então, classificamos a observação Hx como sendo proveniente da 
classe π2. E nesse caso, a classificação está correta. 
 
e) Para a amostra  93'Hx de 











54
93
75
2X , 







10
3
1x e 








82
22
2 1S já dado anteriormente, e calculando para a amostra 
retirada: 






54
75
2HX ; 






6
5,4
2Hx ; 






21
15,0
1 2HS . 
A nova matriz de covariância agrupada será: 






























101
15,2
3
1
21
15,0
82
22
3
1
)12(
3
1
21, HagrupH SSS , 
com inversa 






5,21
110
24
3
,
1
agrupHS . 
Encontra-se as distâncias da amostra retirada  93'Hx para os 2 grupos: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 87 
Distância ao quadrado de    1
1
,11 ' xxxxx 

HagrupHH S 
  














)109(
)33(
5,21
110
24
3
)109()33( 
  













1
0
5,21
110
24
3
10 
  3,0)5,2(
24
3
1
0
5,21
24
3







 . 
Distância ao quadradode    HHagrupHHHH S 2
1
,22 ' xxxxx 
 
  














)69(
)5,43(
5,21
110
24
3
)69()5,43( 
  












3
5,1
5,21
110
24
3
35,1 
  5,4)36(
24
3
3
5,1
612
24
3






 . 
Desde que a distância do ponto retirado (holdout)  93'Hx é menor para 3,01 x do 
que para 5,42 Hx , então, classificamos a observação Hx como sendo proveniente da 
classe π1. E nesse caso, a classificação está incorreta. 
 
f) Para a amostra  54'Hx de 











54
93
75
2X , então, 







10
3
1x e 








82
22
2 1S já dado anteriormente, e calculando para a amostra 
retirada: 






93
75
2HX ; 






8
4
2Hx ; 








22
22
1 2HS . 
A nova matriz de covariância agrupada será: 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 88 
)223(
)12()13( 21


 Hagrup
SS
S => 
3
12 21 H
agrup
SS
S

 =>  Hagrup 21 12
3
1
SSS  
































104
44
3
1
22
22
82
22
3
1
)12(
3
1
21, HagrupH SSS 
com inversa 






5,05,0
5,025,1
,
1
agrupHS . 
Encontra-se as distâncias da amostra retirada  75' Hx para os 2 grupos: 
Distância ao quadrado de    1
1
,11 ' xxxxx 

HagrupHH S 
  














)107(
)35(
5,05,0
5,025,1
)107()35( 
  













3
2
5,05,0
5,025,1
32 
  3
3
2
5,075,0 






 . 
Distância ao quadrado de    HHagrupHHHH S 2
1
,22 ' xxxxx 
 
  














)87(
)45(
5,05,0
5,025,1
)87()45( 
  













1
1
5,05,0
5,025,1
11 
  75,0
1
1
075,0 






 . 
Desde que a distância do ponto retirado (holdout)  75' Hx é menor para 
75,02 Hx do que para 31 x então, classificamos a observação Hx como sendo 
proveniente da classe π2. E nesse caso, a classificação está correta. 
Portanto, o número de elementos mal classificados na primeira classe é: 1)(2 
H
Mn . 
Notas de Aula: Análise Multivariada II 2020 
Profa. Miriam Rodrigues Silvestre – FCT/Unesp 89 
A matriz de confusão encontrada será: 
 Classificado como: 
 π1 π2 
Verdadeira 
população 
π1 n1C = 1 2)(1 
H
Mn 
n1=3 
π2 1)(2 
H
Mn 
n2C = 2 n2=3 
 
E o erro aparente será: %.00,50%100
6
3
33
21
)(ˆ
21
)(
2
)(
1 












nn
nn
APERE
H
M
H
M 
Desde que o erro anteriormente calculado APER=33,33% é uma medida otimista. Na 
prática, para tamanhos amostrais grandes a diferença entre APER e )(ˆ APERE pode não 
ser tão grande.

Continue navegando