Baixe o app para aproveitar ainda mais
Prévia do material em texto
Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 54 Sumário 4 Análise Discriminante .............................................................................................. 55 4.1 Introdução ......................................................................................................... 55 4.2 Separação e classificação para duas populações ................................................. 56 7.3 Classificação com duas populações normais multivariadas ................................ 65 7.3.1 Classificação de populações normais considerando ΣΣΣ 21 ................ 65 4.3.2 Classificação de Populações Normais quando 21 ΣΣ ............................... 75 4.4 Avaliando funções de classificação.................................................................... 77 Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 55 4 Análise Discriminante 4.1 Introdução A Análise Discriminante e Classificação é uma técnica multivariada relacionada com a separação de conjuntos distintos de objetos (ou observações) e com a alocação de novos objetos (observações) a grupos previamente definidos. Análise Discriminante é exploratória por natureza. Como um procedimento para separação, é geralmente empregado para investigar diferenças observadas quando relações causais não são bem compreendidas. Os procedimentos de classificação são menos exploratórios, pois apresentam regras bem-definidas que podem ser usadas para atribuir novos objetos. A classificação requer uma estrutura maior do problema do que a discriminação. Os objetivos imediatos da discriminação e classificação são: Objetivo 1: Descrever, ou graficamente (em 3 ou menos dimensões) ou algebricamente, as características diferenciais dos objetos (observações) de várias coleções conhecidas (populações). Tenta-se encontrar “discriminantes” cujos valores numéricos são tais que as coleções são separadas tanto quanto possível. Objetivo 2: Classificar objetos (observações) em 2 ou mais classes rotuladas. A ênfase está na definição de regras que podem ser usadas para atribuir otimamente novos objetos às classes rotuladas. O termo “discriminação” é empregado ao fazer referência ao Objetivo 1. Este termo foi introduzido por Fisher (1938) no primeiro tratamento moderno de problemas de separação. Um termo mais descritivo para este objetivo, entretanto, é “separação”. E o Objetivo 2 será referido como “classificação ou alocação”. Uma função que separa objetos pode algumas vezes servir como um alocador e a regra que aloca objetos pode sugerir um procedimento discriminatório. Na prática, os objetivos 1 e 2, frequentemente se sobrepõe (overlap), e a distinção entre separação e alocação se torna indistinta. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 56 4.2 Separação e classificação para duas populações Para fixar ideias, serão listadas situações nas quais pode haver interesse em (1) separar em duas classes de objetos ou (2) atribuir um novo objeto a uma de duas classes (ou ambas). É conveniente rotular as classes como π1 ou π2. Os objetos são separados ou classificados com base em suas medidas, por exemplo, p variáveis aleatórias associadas ',...,,' 21 pXXXX . Os valores observados de X diferem de alguma maneira uma classe da outra. Podemos pensar na totalidade de valores da primeira classe como sendo valores de x para população π1 e aqueles da segunda classe de uma população de valores de x para π2. Essas duas populações podem então ser descritas pelas funções densidade de probabilidade f1(x) e f2(x), e consequentemente, podemos atribuir observações a populações ou objetos as classes (interchangeably). Alguns exemplos serão destacados na Tabela 1 a seguir. Tabela 1 – Exemplos de problemas de discriminação e classificação envolvendo duas populações e variáveis medidas. População π1 e π2 Variáveis medidas X 1. Machos e fêmeas Medidas antropológicas, como circunferência e volume de crânios antigos. 2. Sucesso ou Fracasso (evasão de curso na graduação) de estudantes Escores de entrada na universidade (notas de vestibular), notas médias do ensino médio, número de atividades realizadas no ensino médio. 3. Bons (adimplentes) e maus clientes (inadimplentes) Rendimento, idade, número de cartões de crédito, tamanho da família. 4. Duas espécies de plantas Comprimento da sépala e pétala, largura da sépala e pétala, diâmetro do pólen. Podemos citar um exemplo de consumidores que serão separados em duas classes rotuladas como “compradores” e “retardatários” (aqueles que demoram para comprar) com base em valores observados de variáveis presumidamente relevantes tais como: educação, rendimento, tamanho da família, quantidade de troca de marca. Queremos identificar uma observação da forma x’=[x1(educação), x2(rendimento), x3(tamanho da família), x4(quantidade de trocas de marca)] como população π1 de compradores , ou população π2 de retardatários. Vamos nos concentrar na classificação para duas populações, retornando a separação mais adiante na seção 4.3. Alocação ou regras de classificação são geralmente desenvolvidas a partir de amostras de “aprendizagem”. São examinadas características em busca de diferenças, medidas em objetos selecionados aleatoriamente e conhecidos como provenientes de uma das duas populações. O conjunto de todos os possíveis resultados amostrais é Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 57 dividido em duas regiões: R1 e R2, tal que se uma nova observação cai em R1 ela é alocada à população π1 e se ela cai em R2 é alocada à população π2. Logo, um conjunto de valores é favorável à população π1, enquanto o outro conjunto é favorável à população π2. Como saberemos que algumas observações pertencem a uma população em particular, mas não temos certeza sobre outras? Isso é o que faz da classificação um problema. Diversas condições podem dar origem a essa aparente anomalia: 1. Conhecimento incompleto de desempenho futuro Exemplo: No passado, valores extremos de certas variáveis financeiras foram observadas 2 anos antes da falência de uma empresa. Classificar outra empresa como sólida ou passível à falência com base nos valores observados desses indicadores pode permitir que os gerentes tomem medidas corretivas, se necessário, antes que seja tarde demais. 2. Informação perfeita requer a distruição do objeto. Exemplo: O tempo de vida de uma bateria é determinado pelo uso até que ocorra a falha. A falha de produtos não pode ser consertada. Então, poderia ser de interesse classificar o produto como bom ou mau (fora das especificações) com base em algumas medidas feitas anteriormente. 3. Informação indisponível ou cara. Exemplo: É de conhecimento geral que certos artigos federalistas “The Federalist Papers” foram escritos por James Madison (*1751 a †1836, foi o 4º. presidente dos EUA) ou Alexander Hamilton (*1755 a †1804, foi o 1º. Secretário do Tesouro dos Estados Unidos e estabeleceu o Primeiro Banco dos Estados Unidos e teve influência no desenvolvimento das bases do capitalismo americano) porque eles assinaram os artigos. Já outros artigos não foram assinados e é de interesse determinar quais dos dois homens escreveram tais artigos. Claramente, não há como perguntar a eles. A frequencia das palavras e o comprimento das sentenças pode ajudar a classificar os artigos não assinados. Então, através desses exemplos pode-se notar que aas regras de classificação podem ser obtidas, mas não podemser tidas como um método livre de erros. Isso pode ocorrer por não haver uma distinção clara entre as características medidas das populações, isto é, pode haver sobreposição dos grupos. É então possível, por exemplo, classificar incorretamente um objeto de π2 como pertencente à π1, ou um objeto de π1 como pertencente à π2. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 58 Exemplo 1: Discriminando proprietários de não proprietários de cortadores de grama. Considere dois grupos em uma cidade: π1 = proprietários de cortador de grama e π2 = não proprietários. O objetivo é identificar as melhores perspectivas de vendas numa campanha intensiva de vendas. O produtor de cortador de gramas está interessado em classificar famílias como proprietários com perspectiva ou sem perspectiva com base em x1 = rendimentos (em $1000) e x2 = tamanho do lote (em 1000 ft 2 ). Amostras aleatórias de n1=12 proprietários e n2=12 não proprietários estão listadas a seguir. π1 = proprietários π2 = não proprietários x1 = rendimentos x2 = tamanho do lote x1 = rendimentos x2 = tamanho do lote 90.0 18.4 105.0 19.6 115.5 16.8 82.8 20.8 94.8 21.6 94.8 17.2 91.5 20.8 73.2 20.4 117.0 23.6 114.0 17.6 140.1 19.2 79.2 17.6 138.0 17.6 89.4 16.0 112.8 22.4 96.0 18.4 99.0 20.0 77.4 16.4 123.0 20.8 63.0 18.8 81.0 22.0 81.0 14.0 111.0 20.0 93.0 14.8 No gráfico, apresentado na Figura 1, a seguir é possível observar que os proprietários (pontos cor preta) tendem a ter maiores rendimentos (x1) e maiores lotes (x2) do que os não proprietários (pontos cor vermelha), entretanto, a variável rendimentos (x1) parece ser um discriminador melhor do que x2. Figura 1 – Rendimento e tamanho dos lotes de proprietários e não proprietários. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 59 Um bom classificador deveria resultar em poucos erros de classificação. Em outras palavras, as chances, ou probabilidades de classificação incorreta deveria ser pequena. E existem características adicionais que uma regra de classificação “ótima” deveria possuir. Por exemplo, pode ocorrer de que uma determinada classe tenha maior probabilidade de ocorrência do que a outra porque uma das populações é muito maior do que a outra. Uma regra de classificação ótima deveria levar essas “probabilidades a priori de ocorrência” em conta. Se realmente acreditamos que a probabilidade (a priori) de que a falência (solvência ou quebra) de uma empresa é muito pequena, deveríamos classificar uma empresa selecionada aleatoriamente como “não falida”, exceto se os dados forem favoráveis à falência. Outro aspecto da classificação é o “custo”. Suponha que classificar um objeto da classe π1 como sendo pertencente a π2 representa um erro mais sério do que classificar um objeto de π2 como π1. Então, deveríamos tomar cuidado ao fazer essa atribuição. Como por exemplo, falhar ao diagnosticar uma doença fatal é muito mais “custoso” do que concluir que a doença está presente quando de fato ele não está. Um procedimento de classificação ótimo, sempre que possível, deverá levar em conta os custos associados ao erro de classificação. Seja f1(x) e f2(x) as funções densidade de probabilidade associadas com o vetor de variáveis aleatórias px1 para as populações π1 e π2, respectivamente. Um objeto com medidas x associadas deve ser atribuído a uma das duas populações. Seja Ω o espaço amostral – isto é, a coleção de todas as observações possíveis x, seja R1 o conjunto de todos os valores x para os quais classificamos objetos como pertencente à população π1 e seja R2= Ω-R1 o conjunto dos valores x remanescentes para os quais classificamos o objeto como pertencente à π2. Desde que cada objeto deve ser atribuído a uma e apenas uma das duas populações, os conjuntos R1 e R2 são mutuamente exaustivos e exclusivos. Para p=2, podemos ter um caso como o da Figura 2. Figura 2 – Regiões de classificação para duas populações. A probabilidade condicional, P(2|1), de classificar um objeto como sendo proveniente de π2, quando de fato ele é proveniente da população π1 é: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 60 12 )()|()1|2( 112 RR dfRPP xxX . (1) Da mesma forma, P(1|2), de classificar um objeto como sendo proveniente de π1, quando realmente pertence à população π2 é: 1 )()|()2|1( 221 R dfRPP xxX . (2) A integral dada na equação (1) representa o volume formado pela função densidade f1(x) sobre a região R2. Similarmente, a integral definida na equação (2) representa o volume formado por f2(x) sobre a região R1. Seja p1 a probabilidade a priori de π1 e p2 a probabilidade a priori de π2, tal que p1+ p2=1. As probabilidades envolvendo os erros e acertos na classificação são dadas a seguir: i) P(observação é corretamente classificada como π1) = = P(observação provém de π1 e é classificada corretamente como π1) = 1111 )1|1()()|( pPPRP X . ii) P(observação é incorretamente classificada como π1) = = P(observação provém de π2 e é classificada incorretamente como π1) = 2221 )2|1()()|( pPPRP X . iii) P(observação é corretamente classificada como π2) = = P(observação provém de π2 e é classificada corretamente como π2) = 2222 )2|2()()|( pPPRP X . iv) P(observação é incorretamente classificada como π2) = = P(observação provém de π1 e é classificada incorretamente como π2) = 1112 )1|2()()|( pPPRP X . (3) Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 61 Figura 3 – Probabilidade de classificação incorreta para regiões hipotéticas quando p=1. Fonte: Jonhson e Wichern (2007). O esquema de classificação é avaliado em termos de suas probabilidades de má classificação ou classificação incorreta, ver equação (4), mas essa expressão ignora o custo de classificação incorreta. Ignorar custos pode causar problemas. O custo de classificação incorreta pode ser definido por uma matriz de custos, conforme a Tabela 1. Tabela 1 - Custos de Classificação População verdadeira Classificado como π1 π2 π1 0 c(2|1) π2 c(1|2) 0 Nota-se que os custos de classificação correta serão zero, e de incorretas c(1|2) e c(2|1). O expected cost of misclassification (ECM) ou custo de classificação incorreta esperado é fornecido pré-multiplicando os elementos fora da diagonal principal por suas probabilidades de ocorrência: 21 )2|1()2|1()1|2()1|2( pPcpPcECM . (5) Uma regra de classificação razoável deveria ter um ECM tão pequeno quanto possível. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 62 RESULTADO 1. As regiões R1 e R2 que minimizam o ECM são definidas pelos valores x para os quais a seguintes desigualdades acontecem: 1 2 2 1 1 )1|2( )2|1( )( )( : p p c c f f R x x priori a probs de razão custos de razão densidades de razão 1 2 2 1 2 )1|2( )2|1( )( )( : p p c c f f R x x priori a probs de razão custos de razão densidades de razão . (6) Está claro da equação (6) que a implementação da regra do custo mínimo ECM requer que: (1) a razão das funções densidades seja avaliada em uma nova observação xo, (2) a razão de custos e (3) a razão das probabilidades a priori. CASOS ESPECIAIS DE REGIÕES DE CUSTOS ECM a) p2/p1 = 1 (probabilidadesa priori iguais) )1|2( )2|1( )( )( : 2 1 1 c c f f R x x e )1|2( )2|1( )( )( : 2 1 2 c c f f R x x b) c(1|2)/c(2|1) = 1 (custo de classificação incorreta iguais) 1 2 2 1 1 )( )( : p p f f R x x e 1 2 2 1 2 )( )( : p p f f R x x c) p2/p1 = c(1|2) / c(2|1) = 1 ou p2/p1 = 1 / c(1|2)/c(2|1) (probabilidades a priori iguais e custo de classificação incorreta iguais) 1 )( )( : 2 1 1 x x f f R e 1 )( )( : 2 1 2 x x f f R . (7) Exemplo 2 (Classificar uma nova observação em uma de duas populações) Um pesquisador tem dados suficiente disponíveis para estimar as funções densidade f1(x) e f2(x) associadas às populações π1 e π2, respectivamente. Suponha que c(2|1) = 5 unidades e c(1|2) = 10 unidades. Além disso, é conhecido que cerca de 20% de todos os objetos (para os quais as medidas x podem ser realizadas) pertencem à classe π2. Então, as probabilidades a priori são p1=0,8 e p2=0,2. Vamos agora calcular as regiões de classificação R1 e R2: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 63 5,0 8,0 2,0 5 10 )( )( : 2 1 1 x x f f R 5,0 8,0 2,0 5 10 )( )( : 2 1 2 x x f f R Suponha que as funções de densidade avaliadas na nova observação x0 resultou f1(x0)=0,3 e f2(x0)=0,4. Devemos classificar a nova observação como pertencente à população π1 ou π2? Vamos calcular a razão das densidades: 75,0 4,0 3,0 )( )( 02 01 x x f f . Agora comparamos essa razão com o valor 0,5 obtido anteriormente. Como: 5,0 )1|2( )2|1( 75,0 )( )( 1 2 2 1 p p c c f f x x encontramos que 10 Rx e o classificamos como pertencente à população π1. Outro critério além do ECM pode ser utilizado para encontrar procedimentos “ótimos” de classificação. Por exemplo, poderiam ser ignorados os custos de classificações incorretas e escolher as regiões R1 e R2 que minimizassem a total probability of misclassification (TPM), ou seja, a probabilidade total de classificação incorreta através da seguinte equação: .)()( ) em enteincorretam daclassifica é e de vemobservação a( ) em enteincorretam daclassifica é e de vemobservação a( )ou em observação uma enteincorretamr classifica( 12 2211 12 21 21 RR dfpdfp P P PTPM xxxx (8) Matematicamente o TPM é equivalente a minimizar o ECM quando os custos de classificação incorreta são iguais, conforme já definido no caso (b) da equação (7). Também poderia ser alocada a nova observação x0 à população com a maior probabilidade a posteriori: ) observamos( ) observamos e ocorre ( )( ),( )|( 0 01 0 01 01 x x x x x P P P P P ))P(| observamos())P(| observamos( ))P(| observamos( 220110 110 xx x PP P )()( )( 022011 011 xx x fpfp fp . Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 64 )|(1)|( 0102 xx PP )()( )( 022011 022 xx x fpfp fp . (9) Classificar uma observação x0 em π1 quando )|()|( 0201 xx PP é equivalente a usar a regra (b) para TPM dada na equação (7), porque os denominadores em (9) são os mesmos. Então, computar as probabilidades das populações π1 e π2 após observar x0 (o nome é probabilidade a posteriori) é geralmente útil para o propósito de identificar atribuições não tão claras. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 65 7.3 Classificação com duas populações normais multivariadas Sejam f1(x) e f2(x) as funções densidade de probabilidade normais, a primeira com vetor de médias μ1 e matriz de covariância Σ1 e a segunda com vetor de média μ2 e matriz de covariância Σ2. 7.3.1 Classificação de populações normais considerando ΣΣΣ 21 Utilizando a função discriminante linear de Fisher, e considerando a densidade conjunta de ',...,,' 21 pXXXX para as populações π1 e π2, tem-se: ,' 2 1 exp 2 1 )( 1 2/12/ iipi f μxΣμx Σ x i=1,2. (10) Supondo que os parâmetros populacionais μ1, μ2 e Σ sejam desconhecidos: 2 1 21 1 1 2 1 1 ' 2 1 ' 2 1 exp )( )( : μxΣμxμxΣμx x x f f R 1 2 )1|2( )2|1( p p c c 2 1 21 1 1 2 1 2 ' 2 1 ' 2 1 exp )( )( : μxΣμxμxΣμx x x f f R 1 2 )1|2( )2|1( p p c c . (11) Então, tem-se o seguinte resultado: Resultado 2: Sejam as populações π1 e π2, descritas como (10). A regra de alocação que minimiza o Expected Cost of Misclassification (ECM), custo esperado de classificação incorreta, é dada por: Alocar x0 em π1 se: 1 2 21 1 210 1 21 )1|2( )2|1( ln' 2 1 ' p p c c μμΣμμxΣμμ (12) caso contrário, alocar x0 em π2. Prova: Exercício. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 66 Esse procedimento e o método de Fisher são iguais quando: 1 )1|2( )2|1( 1 2 p p c c , então, ln(1)=0. Como os vetores populacionais para as médias 21,μμ e variância Σ são geralmente desconhecidos, para se chegar a Regra dada em (12), são utilizadas suas estimativas amostrais. Suponha que tenhamos n1 observações de uma variável aleatória com distribuição normal multivariada pXXX ,,,' 21 X provenientes da população π1 e n2 observações destas quantidades e provenientes da população π2, com pnn 221 . Então, as matrizes de dados respectivas são: 1 1 1 12 11 x 1 ' ' ' n pn x x x X e 2 2 2 22 21 x 2 ' ' ' n pn x x x X . (15) Os vetores de médias e matrizes de variância e covariância são dadas por: 11 1 1111 1x 1 1 1 11x 1 )')(( 1 1 , 1 n j jj pp n j j p nn xxxxSxx 22 1 2222 2x 2 1 2 21x 2 )')(( 1 1 , 1 n j jj pp n j j p nn xxxxSxx (16) E a matriz de covariância agrupada: 2 21 2 1 21 1 )1()1( 1 )1()1( 1 SSS nn n nn n agrup (17) Regra do mínimo ECM esperado estimado para duas populações normais Alocar x0 em π1 se, 1 2 21 1 210 1 21 )1|2( )2|1( ln' 2 1 ' p p c c SS agrupagrup xxxxxxx (18) Caso contrário, alocar x0 em π2. Se na equação (13): 1 )1|2( )2|1( 1 2 p p c c , então, ln(1)=0, e a regra do mínimo estimado ECM para duas populações normais se compara a variável escalar: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 67 xaxxx 'ˆ'ˆ 121 agrupSy (19) Avaliado em x0, com o número: 21 2 1 211 1 21 21 1 21 2 1 '' 2 1 ' 2 1 ˆ yy SS Sm agrupagrup agrup xxxxxx xxxx (20) tal que: 11 1 211 'ˆ' xaxxx agrupSy e 22 1 212 'ˆ' xaxxx agrupSy . Exemplo 3 – Classificação com duas populações normais com Σ comuns e custos iguais Este exemplo é adaptado de Bouma (1975) referente à detecção de portadores de hemofilia do tipo A. Para construir um procedimentopara detectar um potencial portador de hemofilia A, amostras de sangue são retiradas para dois grupos de mulheres e são realizadas medidas sobre duas variáveis: )AHF atividade(log101 X )AHF antígeno(log102 X A sigla AHF significa Fator Anti-hemofílico. O primeiro grupo denominado “grupo normal” foi composto de n1=30 mulheres foi selecionado de uma população de mulheres que não carregavam o gene da Hemofilia A. O segundo grupo denominado “grupo de portadoras obrigatórias” de n2=22 mulheres foi selecionado de casos conhecidos de portadoras de Hemofilia A (filhas de portadores, mães com mais de um filho hemofílico, e mães com um filho hemofílico e outras com parentes hemofílicos). O par de observações (x1, x2) para ambos os grupos são plotados na Figura 4. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 68 Figura 4 – Diagrama de dispersão para o exemplo de grupo de portadores obrigatórios de hemofilia A e grupo normal. Fonte: Jonhson e Wichern (2007). As médias amostrais para os dois grupos são: 0390,0 0065,0 1x e 0262,0 2483,0 2x e 147,108423,90 423,90158,1311 agrupS . Considerando custos iguais e prioris iguais, temos: xxxxa 121 ''ˆˆ agrupSy 2 1 147,108423,90 423,90158,131 0652,02418,0 x x 21 92,2861,37 xx . E 88,0 0390,0 0065,0 92,2861,37'ˆ 11 xay 10,10 0262,0 2483,0 92,2861,37'ˆ 22 xay E o ponto médio entre essas duas médias é: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 69 61,4)10,1088,0( 2 1 )( 2 1 ˆ 21 yym . Foram realizadas medidas em uma mulher (não pertencente às amostras) e foram observados os seguintes valores das variáveis 210,01 x e 044,02 x . Essa mulher deveria ser classificada como π1 (grupo normal) ou π2 (grupo de portadora obrigatória)? Solução: usando a função (18) com custos iguais e prioris iguais, logo ln(1)=0, obtemos: Alocar x0 em π1 se 61,4ˆ'ˆˆ 00 my xa Alocar x0 em π2 se 61,4ˆ'ˆˆ 00 my xa Então, para 044,0210,0' 210 xxx . Desde que: 61,4ˆ62,6 044,0 210,0 92,2861,37'ˆˆ 00 my xa . Portanto, classificamos a mulher como sendo da classe π2, uma portadora obrigatória. Suponha agora que as probabilidades a priori dos membros dos grupos são conhecidos. Por exemplo, suponha que foram retiradas amostras de sangue de um primo de primeiro grau da família materna de um hemofílico, e realizadas as medidas x1 e x2. Então, a chance de ser um portador hemofílico do tipo A neste caso é de 0,25. Consequentemente, as probabilidades a priori de ser membro de cada grupo são 0,75 e 0,25. Assumindo, algumas vezes não realisticamente, que os custos de classificação incorreta são iguais, tal que c(1|2) = c(2|1), e usando a classificação estatística dada na expressão (18), tem-se: m agrupagrup SSw ˆ 21 1 21 'ˆ 0 1 21 ' 2 1 'ˆ 0 xxxxxxx xa Então, mw ˆ'ˆˆ 0 xa , com 044,0210,0' 210 xxx , com 61,4ˆ m e 62,6'ˆ 0 xa , tem-se: 01,2)61,4(62,6ˆ w . Agora, aplicando na regra dada na expressão (18): Alocar x0 em π1 se, 1 2 )1|2( )2|1( lnˆ p p c c w E em caso contrário se 1 2 )1|2( )2|1( lnˆ p p c c w alocar x0 em π2. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 70 Calculando-se o lado direito resulta em: 10,1 3 1 ln 75,0 25,0 1ln )1|2( )2|1( ln 1 2 p p c c . Então, reescrevendo a regra acima tem-se: Alocar x0 em π1 se, 10,1ˆ w E em caso contrário se 10,1ˆ w alocar x0 em π2. Assim, como 10,101,2ˆ w classificamos a uma mulher em π2, como um portador obrigatório. Escala O vetor de coeficientes 21 1ˆ xxa agrupS é único apenas pela multiplicação de uma constante, então, para c≠0, qualquer vetor âc também servirá como coeficientes discriminantes. O vetor 21 1ˆ xxa agrupS é denominado vetor “escalado” ou “normalizado”. Duas das mais comumente normalizações empregadas são: 1) Definir aa a a ˆ'ˆ ˆ *ˆ , então *â tem comprimento unitário. (21) 2) Definir 1ˆ ˆ *ˆ a a a , então, o primeiro elemento do novo vetor de coeficientes *â será igual a 1ˆ*1 a . (22) Em ambos os casos, *â é da forma âc . Para normalização em (1), aa ˆ'ˆ 1 c e em (2) 1ˆ 1 a c . A magnitude de ** 2 * 1 ˆ,...,ˆ,ˆ paaa elementos do vetor *â dado em (21) pertence ao intervalo 1,1 . Já em (22), 1ˆ*1 a e ** 2 ˆ,...,ˆ paa serão todos múltiplos de * 1â , e restringir * 1â no intervalo 1,1 , facilita a comparação visual dos coeficientes. E expressar os Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 71 coeficientes **2 ˆ,...,ˆ paa como múltiplos de * 1â permite acessar prontamente a importância relativa das variáveis pXX ,...,2 como discriminatórias. Normalizar os sai 'ˆ é recomendado apenas se as variáveis Xi foram padronizadas. Se este não é o caso, um grande cuidado deve ser exercido na interpretação dos resultados. Abordagem de Fisher para Classificação com Duas Populações Fisher (1938) chegou a estatística para classificação linear dada na expressão (19) usando um argumento completamente diferente. A ideia de Fisher era transformar observações multivariadas x em observações univariadas y tal que os y’s derivados da população π1 e π2 fossem tão separados quanto possível. Para tanto, Fisher sugeriu utilizar combinações lineares dos x para criar os y, porque eles são funções simples o suficiente de x para ser obtidas facilmente. A abordagem de Fisher não requer que as populações sejam normais. Porém, isto está implícito ao assumir que as matrizes de covariância são iguais, porque a estimativa da matriz de covariância agrupada é usada. Considere uma combinação linear dos x’s assume valores 111211 ,...,, nyyy para as observações da população π1 e 222221 ,...,, nyyy da população π2. A separação destes dois conjuntos de y’s univariados é feita considerando-se as médias 1y e 2y , expressa em termos de unidades de desvio padrão. Isto é: ys yy 21 separação , tal que 2 )()( 21 2 2 1 2 2 1 1 1 2 21 nn yyyy s n j j n j j y é a variância agrupada. O objetivo é selecionar a combinação linear de x que maximiza a medida de separação das médias 1y e 2y . Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 72 Resultado 3 - A combinação linear xxxxa 121 ''ˆˆ agrupSy maximiza a razão 2 2 21 y de amostral variância y de amostrais médias as entre quadrado ao distância ys yy aa xaxa ˆ'ˆ 'ˆ'ˆ 2 21 agrupS aa da ˆ'ˆ 'ˆ 2 agrupS (23) sobre todos os possíveis vetores 21 que talˆ xxda . O máximo valor da razão dada em (23) será 21 1 21 2 ' xxxx agrupSD . Exemplo 4 - Função discriminante linear de Fisher para dados de Hemofilia Considere a detecção de portadores de Hemofilia A no Exemplo 3. Lembrando que para custos iguais e prioris iguais a função discriminante linear era: xxxxa121 ''ˆˆ agrupSy 2 1 147,108423,90 423,90158,131 0652,02418,0 x x 21 92,2861,37 xx . A função discriminante linear de Fisher que maximiza a separação das duas populações nas amostras é: 21 1 21 2 ' xxxx agrupSD 98,10 0652,0 2418,0 147,108423,90 423,90158,131 0652,02418,0 . A solução de Fisher para um problema de separação também pode ser usada para classificar novas observações. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 73 Uma regra de alocação baseada na Função Discriminante de Fisher Alocar x0 em π1 se, 21 1 210 1 210 ' 2 1 ˆ'ˆ xxxxxxx agrupagrup SmSy ou 0ˆˆ0 my (25) E alocar x0 em π2 se 0ˆˆ0 my ou my ˆˆ0 . OBS: Deve ocorrer pnn 221 , para que a matriz inversa 1 agrupS exista. Caso pnn 221 a matriz 1S será singular e não será possível construir essa regra de alocação. O procedimento é ilustrado na Figura 5 para p=2 variáveis. Todos os pontos amostrais são projetados sobre uma linha na direção â e direção é variada até que a separação entre as amostras seja máxima. Figura 5 – Representação do procedimento de Fisher para duas populações com p=2. Fonte: Jonhson e Wichern (2007). Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 74 A função discriminante linear de Fisher dada em (25) foi desenvolvida sob a suposição de que as duas populações tem matriz de variância comum (iguais). Consequentemente, não é surpresa que o método de Fisher corresponda à um caso particular da regra ECM dada anteriormente. O primeiro termo xxx 121 'ˆ agrupSy da regra (18) é a função discriminante linear de Fisher que maximiza a variabilidade amostral univariada “entre” (between) em relação à variabilidade amostral “dentro” (within). A expressão completa é: 21 1 21 1 21 ' 2 1 'ˆ xxxxxxx agrupagrup SSw 21 1 21 2 1 ' xxxxx agrupS (26) é chamada Função de Classificação de Anderson. Aqui novamente 1 )1|2( )2|1( 1 2 p p c c , então, ln(1)=0. A Regra (18) é comparável a Regra (26), baseada na Função Linear Discriminante de Fisher. Então, considerando que as duas populações normais tem a mesma matriz de covariância, a Regra de Classificação de Fisher é equivalente à Regra de mínimo ECM com iguais probabilidades a priori e custos de classificação incorretas iguais. Classificação é uma boa ideia? Para duas populações, a separação relativa máxima pode ser obtida considerando a distância D 2 . Suponha que as populações π1 e π2 são normais multivariadas com uma matriz de covariância comum Σ. Então, um teste já visto em Análise Multivariada I para testar as hipóteses: 21: Ho 21: Ha é dado por: 2 21 21 21 21 0 )2( 1 D nn nn pnn pnn F . Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 75 A estatística F0 acima tem distribuição F com pv 1 e 1212 pnnv graus de liberdade. Se Ho é rejeitada, pode-se concluir que a separação entre as duas populações π1 e π2 é significativa. Comentário: Separação significativa não implica necessariamente boa classificação. Como veremos na seção 4, a eficácia de um procedimento de classificação pode se avaliado independentemente de qualquer teste de separação. Em contraste, se a separação não é significativa, a busca por uma regra de classificação útil será provavelmente infrutífera. 4.3.2 Classificação de Populações Normais quando 21 ΣΣ As regras de classificação são mais complicadas quando as matrizes de covariância das 2 populações diferem. Considere as distribuições normais multivariadas com 2,1, iiΣ substituindo a matriz Σ . Então, considerando a densidade conjunta de ',...,,' 21 pXXXX para as populações π1 e π2, tem-se: ,' 2 1 exp 2 1 )( 1 2/12/ iii i pi f μxΣμx Σ x i=1,2. (10) Supondo que os parâmetros populacionais μ1, μ2, 1Σ e 2Σ sejam desconhecidos: kR xΣμΣμxΣΣx 12211112111 ''' 2 1 : 1 2 )1|2( )2|1( ln p p c c . kR xΣμΣμxΣΣx 12211112112 ''' 2 1 : 1 2 )1|2( )2|1( ln p p c c . (27) onde: 21221111 2 1 '' 2 1 ln 2 1 μΣμμΣμ Σ Σ k . (28) Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 76 As regiões de classificação são definidas pelas funções quadráticas de x. Quando 21 ΣΣ , o termo quadrático xΣΣx 1211' 2 1 desaparece e a região definida por (27) se reduz aquela já definida anteriormente em (14). A regra de classificação para populações normais multivariadas segue diretamente de (27). Resultado 4 – As populações π1 e π2 são descritas pelas densidades normais multivariadas com vetores de média e matrizes de covariância μ1, μ2, 1Σ e 2Σ , respectivamente. A regra de alocação que minimiza o custo esperado de classificação incorreta é dada por: Alocar x0 em π1 se, k0122111012110 ''' 2 1 xΣμΣμxΣΣx 1 2 )1|2( )2|1( ln p p c c E alocar x0 em π2, caso contrário. OBS: 21221111 2 1 '' 2 1 ln 2 1 μΣμμΣμ Σ Σ k . Para implementar na prática o Resultado 4, basta substituir as quantidades populacionais por suas estimativas amostrais. As desigualdades pn 1 e pn 2 devem ambas acontecer para que 1 2 1 1 e SS existam. Estas quantidades serão usadas no lugar de 1 2 1 1 e ΣΣ . Regra de Classificação Quadrática (Populações normais com matrizes de covariância desiguais) Alocar x0 em π1 se, k0122111012110 ''' 2 1 xSxSxxSSx 1 2 )1|2( )2|1( ln p p c c (29) E alocar x0 em π2, caso contrário. OBS: 21221111 2 1 '' 2 1 ln 2 1 xSxxSx S S k . Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 77 A classificação com funções quadráticas é estranha em mais do que duas dimensões e pode levar a resultados estranhos, principalmente quando os dados não são (essencialmente) normais multivariados. Se os dados não são normais multivariados, há duas opções disponíveis: 1) Os dados não normais podem ser transformados para se aproximarem de uma normal, e um teste para igualdade das matrizes de covariância deve ser conduzido. Para ver se a regra linear ou a quadrática é apropriada. (Dica: os testes usuais de homogeneidade da covariância são grandemente afetados pela não normalidade. A conversão de dados não normais para normais deve ser feita antes do teste ser realizado). 2) Podemos usar a regra linear ou quadrática sem preocupações sobre a forma das populações e esperamos que ela trabalhe razoavelmente bem. Estudos tem mostrado, entretanto, que existem casos de não normalidade onde a classificação linear tem um desempenho pobre, até mesmo para matrizes de covariâncias iguais. A solução é sempre checar o desempenho de qualquer procedimento de classificação. Pelo menos, isto deveria ser feito com os dados usados para construir o classificador. Idealmente,deve haver dados disponíveis para fornecer amostras de “treinamento” e “validação”. As amostras de “treinamento” são usadas para desenvolver a função de classificação e as amostras de “validação” podem ser usadas para avaliar seu desempenho. 4.4 Avaliando funções de classificação Uma importante maneira de julgar o desempenho de qualquer procedimento de classificação é calcular suas “razões de erro” ou probabilidades de classificação incorreta. Quando as formas da distribuição das populações são completamente conhecidas, as probabilidades de classificação incorretas podem ser calculadas com relativa facilidade. Uma vez que a função de classificação foi construída, é de interesse encontrar uma medida para avaliar seu desempenho em amostras futuras. Da expressão (8), a probabilidade total de classificação incorreta é: .)()( ) em enteincorretam daclassifica é e de vemobservação a( ) em enteincorretam daclassifica é e de vemobservação a( )ou em observação uma enteincorretamr classifica( 12 2211 12 21 21 RR dfpdfp P P PTPM xxxx (8) O menor valor desta quantidade é obtido por uma escolha cuidadosa de R1 e R2 é chamada de optimum error rate (OER) Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 78 12 )()()( rateerror Optimum 2211 RR dfpdfpOER xxxx (30) onde R1 e R2 são determinados pelo caso (b) da expressão (7): 1 2 2 1 1 )( )( : p p f f R x x e 1 2 2 1 2 )( )( : p p f f R x x . O desempenho de funções de classificação amostral pode ser avaliado pelo cálculo da actual error rate (AER), razão de erro atual, definido por: 12 ˆ 22ˆ 11 )()()( rateerror actual RR dfpdfpAER xxxx . (32) tal que 21 ˆ e ˆ RR representam as regiões de classificação determinadas por amostras de tamanho n1 e n2. Por exemplo, se a função de classificação em (18) é empregada, as regiões 21 ˆ e ˆ RR são definidas pelos conjuntos de x’s para os quais as seguintes desigualdades são satisfeitas: 1 2 21 1 21 1 211 )1|2( )2|1( ln' 2 1 ':ˆ p p c c R agrupagrup xxSxxxSxx 1 2 21 1 21 1 212 )1|2( )2|1( ln' 2 1 ':ˆ p p c c R agrupagrup xxSxxxSxx . A AER indica como a função de classificação amostral desempenhará em amostras no futuro. Como a razão de erro ótimo não pode, em geral, ser calculada, porque ela depende de funções densidade desconhecidas )(1 xf e )(2 xf . Entretanto, uma estimativa de uma quantidade relacionada a razão de erro atual pode ser calculada, e esta estimativa será dada a seguir. Existe uma medida de desempenho que não depende da forma de populações e pode ser calculada por algum procedimento de classificação. Esta medida, chamada de apparent error rate (APER), razão do erro aparente, é definida como a fração de observações in amostras de treinamento que são erroneamente classificadas pela função de classificação amostral. A razão do erro aparente será facilmente calculada pela matriz de confusão, que mostra os valores atuais dos membros preditos dos grupos. Para observações n1 provenientes da população π1 e n2 observações da população π2, a matriz de confusão tem a forma: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 79 Membro predito (33) π1 π2 Membro Atual π1 n1C n1M = n1 – n1C n1 π2 n2M = n2 – n2C n2C n2 tal que: n1C = número de itens de π1 corretamente classificados como itens de π1. n1M = número de itens de π1 incorretamente classificados como itens de π2. n2C = número de itens de π2 corretamente classificados. n2M = número de itens de π2 incorretamente classificados. Obs: a letra C indica no índice indica que o item foi “corretamente” classificado. a letra M indica no índice indica que o item foi “mal” classificado. A razão do erro aparente é então definida como: 21 21 nn nn APER MM (34) representa a proporção de itens no conjunto de treinamento que foram mal classificados. Exemplo 6 (Cálculo da razão do erro aparente) Considere as regiões de classificação R1 e R2 mostradas na Figura 1 para os dados de cortadores de grama. Neste caso, observações a nordeste da linha sólida são classificados como π1, proprietários de cortador de grama, e observações a sudoeste da linha sólida como π2 não proprietários. Note que algumas observações são mal classificadas. A matriz de confusão é: Classificado como π1 π2 População verdadeira π1: prop. n1C = 10 n1M = 2 n1=12 π2 não prop. n2M = 2 n2C = 10 n2=12 A razão do erro aparente, expressa como uma percentagem, é: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 80 %.67,16%100 24 4 1212 22 21 21 nn nn APER MM A razão APER é muito intuitiva e fácil de calcular, entretanto, ela subestima a verdadeira AER e o problema não desaparece a menos que n1 e n2 sejam muito grandes. Essencialmente, esta estimativa otimista ocorre porque os dados que são usados para construir a função de classificação também são usados para avaliar a razão de erro. Uma estimativa da razão de erro que pode ser construída e produzir um resultado melhor que a razão do erro aparente pode ser feita de duas formas: 1) Procedimento de dividir o total da amostra em 2 partes: amostra de treinamento e amostra de validação. A amostra de treinamento é usada para construir a função de classificação e a amostra de validação é usada para avalia-la. A razão de erro é determinada pela proporção de erros de classificação na amostra de validação. Entretanto, esse método supere o problema do viés ele não usa os mesmos dados para fazer ambos construir e julgar a função de classificação, então ele sofre de dois defeitos principais: 1. Ele requer grandes amostras. 2. A função avaliada não é a verdadeira função de interesse. E quase todos os dados devem ser usados para construir a função de classificação, se não, a informação pode ser perdida. 2) Método Holdout ou validação cruzada: A segunda abordagem é conhecida como método “holdout” (tradução: deixe fora) de Lachenbruch, de Lachenbruch e Mickey (1968). Esse método também é reconhecido como método jackknifing ou cross- validation (tradução: validação cruzada). Os passos deste procedimento são: 1) Comece com as observações do grupo π1. Omita ou exclua (holdout) uma observação deste grupo e desenvolva a função de classificação baseada nas n1-1, n2 observações restantes. 2) Classifique a observação omitida usando a função construída no passo 1. Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 81 3) Repita os passos 1 e 2 até que todas as observações do grupo π1 sejam classificadas. Defina )(1 H Mn como sendo o número de observações omitidas mal classificadas nesse grupo. 4) Repita os passos 1 a 3 para as observações do grupo π2. Defina )( 2 H Mn como sendo o número de observações omitidas mal classificadas nesse grupo. Estime as probabilidades condicionais de má classificação como sendo: 1 )( 1)1|2(ˆ n n P H M e 2 )( 2)2|1(ˆ n n P H M (35) e a proporção total de classificação incorretas é uma estimativa aproximadamente não viciada, para amostras de tamanho razoável, da razão de erro atual esperada E(AER): 21 )( 2 )( 1)(ˆ nn nn AERE H M H M . (36) Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre– FCT/Unesp 82 Exemplo 7 Calculando uma estimativa da razão do erro usando o procedimento holdout Para ilustrar o procedimento holdout, vamos considerar como exemplo, a versão da expressão (18) com custos iguais e probabilidades a priori iguais. Considere as matrizes e estatísticas descritivas para um problema com tamanhos amostrais n1=n2=3 de observações bivariadas selecionadas aleatoriamente de duas populações π1 e π2 com matrizes de covariâncias comum, ou seja, iguais. 83 104 122 1X ; 10 3 1x ; 82 22 2 1S 54 93 75 2X ; 7 4 2x ; 82 22 2 2S A matriz de covariância agrupada é: )2( )1()1( 21 2211 nn nn agrup SS S => )233( )13()13( 21 SS Sagrup => 4 22 21 SSS agrup => 21 22 4 1 SSS agrup => 82 22 82 22 4 1 agrupS 41 11 )22( 4 1 21 SSSagrup . Após o cálculo da Regra (18), utilizando os dados acima, essa parte será deixada para o aluno calcular, a matriz de confusão encontrada será: Classificado como: π1 π2 Verdadeira população π1 n1C = 2 n1M = 1 n1=3 π2 n2M = 1 n2C = 2 n2=3 Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 83 E o erro aparente será: %.33,33%100 6 2 33 11 21 21 nn nn APER MM a) Deixando forra a primeira observação 122' Hx de 83 104 122 1X e calculamos 83 104 1HX ; 9 5,3 1Hx ; 21 15,0 1 1HS e já calculada 82 22 2 2S . A nova matriz de covariância agrupada será: )2( )1()1( 21 2211 , nn nn H agrupH SS S => )232( )13()12( 21 , SS S HagrupH => 3 21 21 , SS S HagrupH => 21, 21 3 1 SSS HagrupH => 82 22 21 15,0 3 1 ,agrupHS => 101 15,2 3 1 )21( 3 1 21, SSS HagrupH . com inversa 5,21 110 8 1 , 1 agrupHS . Agora temos que classificar a amostra H retirada 122' Hx , com base em suas distâncias ao quadrado das médias dos grupos 21 e xx H . Esse procedimento é equivalente a calcular o valor da função linear HagrupHHHH Sy xxxxa 1 ,21 ''ˆˆ e compará-la ao ponto médio 21 1 ,21 ' 2 1 ˆ xxxx HagrupHHH Sm (conforme as expressões (19) e (20)). Então, para a amostra retirada 122' Hx , teremos: Distância ao quadrado de HHagrupHHHH S 1 1 ,11 ' xxxxx )912( )5,32( 5,21 110 8 1 )912()5,32( Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 84 3 5,1 5,21 110 8 1 35,1 = 4,5. Distância ao quadrado de 2 1 ,22 ' xxxxx HagrupHH S )712( )42( 5,21 110 8 1 )712()42( 5 2 5,21 110 8 1 52 = 10,5. Desde que a distância do ponto retirado (holdout) 122' Hx é menor para H1x =4,5 do que para 2x , então, classificamos a observação Hx como sendo proveniente da classe π1. E nesse caso, a classificação está correta. b) Agora, passamos aos cálculos envolvendo a retirada do ponto 104' Hx , e os valores 83 122 1HX ; 10 5,2 1Hx , e a inversa da matriz agrupada será: 5,24 416 8 1 , 1 agrupHS . Então, para a amostra retirada 104' Hx , teremos: Distância ao quadrado de HHagrupHHHH S 1 1 ,11 ' xxxxx )1010( )5,24( 5,24 416 8 1 )1010()5,24( 5,4)36( 8 1 0 5,1 624 8 1 0 5,1 5,24 416 8 1 05,1 Distância ao quadrado de 2 1 ,22 ' xxxxx HagrupHH S )710( )44( 5,24 416 8 1 )710()44( 8,2)5,22( 8 1 3 0 5,712 8 1 3 0 5,24 416 8 1 30 . Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 85 Desde que a distância da amostra retirada (holdout) 104' Hx é menor para 8,22 x do que para H1x =4,5, então, classificamos a observação Hx como sendo proveniente da classe π2. E nesse caso, a classificação está incorreta e a amostra é mal classificada. c) Retirando a amostra 83' Hx a regra da menor distância levará a classificação incorreta desta observação à classe π2. Portanto, o número de elementos mal classificados na segunda classe é: 2)(1 H Mn . Agora reiniciamos todo o processo novamente para as amostras da população π2. d) Retirando a primeira amostra 75' Hx de 54 93 75 2X , 10 3 1x e 82 22 2 1S já dado anteriormente, e calculando os demais valores para amostra retirada: 54 93 2HX ; 7 5,3 2Hx ; 82 25,0 1 2HS . A nova matriz de covariância agrupada será: 164 45,2 3 1 82 25,0 82 22 3 1 2)12( 3 1 121, SSSS HagrupH com inversa 5,24 416 24 3 , 1 agrupHS . Encontra-se as distâncias da amostra retirada 75' Hx para os 2 grupos: Distância ao quadrado de 1 1 ,11 ' xxxxx HagrupHH S )107( )35( 5,24 416 24 3 )107()35( 3 2 5,24 416 24 3 32 Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 86 8,4)5,38( 24 3 3 2 5,020 24 3 . Distância ao quadrado de HHagrupHHHH S 2 1 ,22 ' xxxxx )77( )5,35( 5,24 416 24 3 )77()5,35( 0 5,1 5,24 416 24 3 05,1 5,4)36( 24 3 0 5,1 624 24 3 . Desde que a distância do ponto retirado (holdout) 75' Hx é menor para 5,42 Hx do que para 8,41 x então, classificamos a observação Hx como sendo proveniente da classe π2. E nesse caso, a classificação está correta. e) Para a amostra 93'Hx de 54 93 75 2X , 10 3 1x e 82 22 2 1S já dado anteriormente, e calculando para a amostra retirada: 54 75 2HX ; 6 5,4 2Hx ; 21 15,0 1 2HS . A nova matriz de covariância agrupada será: 101 15,2 3 1 21 15,0 82 22 3 1 )12( 3 1 21, HagrupH SSS , com inversa 5,21 110 24 3 , 1 agrupHS . Encontra-se as distâncias da amostra retirada 93'Hx para os 2 grupos: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 87 Distância ao quadrado de 1 1 ,11 ' xxxxx HagrupHH S )109( )33( 5,21 110 24 3 )109()33( 1 0 5,21 110 24 3 10 3,0)5,2( 24 3 1 0 5,21 24 3 . Distância ao quadradode HHagrupHHHH S 2 1 ,22 ' xxxxx )69( )5,43( 5,21 110 24 3 )69()5,43( 3 5,1 5,21 110 24 3 35,1 5,4)36( 24 3 3 5,1 612 24 3 . Desde que a distância do ponto retirado (holdout) 93'Hx é menor para 3,01 x do que para 5,42 Hx , então, classificamos a observação Hx como sendo proveniente da classe π1. E nesse caso, a classificação está incorreta. f) Para a amostra 54'Hx de 54 93 75 2X , então, 10 3 1x e 82 22 2 1S já dado anteriormente, e calculando para a amostra retirada: 93 75 2HX ; 8 4 2Hx ; 22 22 1 2HS . A nova matriz de covariância agrupada será: Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 88 )223( )12()13( 21 Hagrup SS S => 3 12 21 H agrup SS S => Hagrup 21 12 3 1 SSS 104 44 3 1 22 22 82 22 3 1 )12( 3 1 21, HagrupH SSS com inversa 5,05,0 5,025,1 , 1 agrupHS . Encontra-se as distâncias da amostra retirada 75' Hx para os 2 grupos: Distância ao quadrado de 1 1 ,11 ' xxxxx HagrupHH S )107( )35( 5,05,0 5,025,1 )107()35( 3 2 5,05,0 5,025,1 32 3 3 2 5,075,0 . Distância ao quadrado de HHagrupHHHH S 2 1 ,22 ' xxxxx )87( )45( 5,05,0 5,025,1 )87()45( 1 1 5,05,0 5,025,1 11 75,0 1 1 075,0 . Desde que a distância do ponto retirado (holdout) 75' Hx é menor para 75,02 Hx do que para 31 x então, classificamos a observação Hx como sendo proveniente da classe π2. E nesse caso, a classificação está correta. Portanto, o número de elementos mal classificados na primeira classe é: 1)(2 H Mn . Notas de Aula: Análise Multivariada II 2020 Profa. Miriam Rodrigues Silvestre – FCT/Unesp 89 A matriz de confusão encontrada será: Classificado como: π1 π2 Verdadeira população π1 n1C = 1 2)(1 H Mn n1=3 π2 1)(2 H Mn n2C = 2 n2=3 E o erro aparente será: %.00,50%100 6 3 33 21 )(ˆ 21 )( 2 )( 1 nn nn APERE H M H M Desde que o erro anteriormente calculado APER=33,33% é uma medida otimista. Na prática, para tamanhos amostrais grandes a diferença entre APER e )(ˆ APERE pode não ser tão grande.
Compartilhar