Buscar

9-discriminante

Prévia do material em texto

1 
ANÁLISE DISCRIMINANTE 
1 
Análise de agrupamentos e 
Análise das componentes principais 
Ambas as análises são técnicas de redução de dados. 
 
Objetivo da análise de agrupamentos é formar grupos, 
reduzindo o número original de elementos a poucos grupos. 
 
Objetivo da análise das componentes principais é reduzir o 
número original de variáveis. 
 
Ambas as análises fornecem os mesmos resultados. 
2 
Análise discriminante 
•Na análise discriminante os grupos ja são conhecidos à 
priori. 
•Supõe-se que as observações estão corretamente 
classificadas 
 
•Objetivo: 
•Verificar se os grupos estão discriminados 
•Classificar observações desconhecidas 
•Verificar quais variáveis são as mais importantes para a 
discriminação entre os grupos. 
 
3 
Função discriminante 
Região de recobrimento 
4 
Limites lineares 
5 
Análise Discriminante Linear 
 Decidir à qual de dois grupos pertenceriam indivíduos 
 Substituir o conjunto original das mensurações por um único valor 
Di, definido como uma combinação linear 
 Razão mínima entre a diferença entre pares de médias 
multivariadas e variância multivariada dentro dos dois grupos. 
 Para a aplicação de testes de significância: 
 observações em cada grupo escolhidas ao acaso; 
 probabilidade de um indivíduo desconhecido pertencer a um 
dos grupos ser a mesma; 
 variáveis com distribuição normal; 
 matrizes de variância dos grupos de mesmo tamanho; 
 observações usadas para o cálculo das funções discriminantes 
classificadas sem erro. 
 
 Quando matrizes de variâncias e covariâncias são diferentes 
escolher função discriminante quadrática. 6 
2 
7 8 
 Di=1x1+ 2x2+ 3x3+.... pxp 
 cálculo das funções discriminantes lineares por 
regressão linear, onde a variável dependente consiste 
no vetor de diferenças entre as médias multivariadas 
de dois grupos e as variáveis independentes matriz de 
variâncias covariâncias das variáveis em estudo 
 
 A solução do sistema de equações lineares resultante 
pode ser resolvido, por cálculo matricial, a partir de: 
 [p]=[Vp2]-1[Rp] 
 Para o cálculo dos coeficientes p, que irão constituir a 
equação da função discriminante, determina-se o 
inverso da matriz da variâncias e covariâncias 
combinadas e em seguida multiplica essa matriz pelo 
vetor de diferenças entre médias: 
9 
 O valor central do grupo A é determinado por 
 DA=AxA1+ xA2+ xA3+..... AxAp 
 e do grupo B por 
 DB =BxB1 + BxB2 + BxB3 +.....BxBp 
 
 O índice discriminante, , ou seja, o ponto na linha descrita 
pela função discriminante situado exatamente na metade 
da distância entre os centros dos grupos A e B, é 
encontrado segundo: 
 
)
2
xx
(λ...)
2
xx
(λ)
2
xx
(λD
BpAp
p
2B2A
2
1B1A
10






10 
 Para testar a significância da função encontrada, ou seja, verificar se os dois 
grupos considerados pertencem a uma única população ou à duas distintas 
populações, calcula-se a distância entre as duas médias multivariadas. 
 
 Esta medida de distância é conhecida como “distância generalizada de 
Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas 
expressa em unidades de variâncias combinadas. 
 D2= DA-DB 
 D² é usada na seguinte expressão para ser testada pela distribuição F: 
 (com "p" graus de liberdade para o numerador e " " para o denominador) 
2
BA
BA
BA
BA D
nn
nn
p)2nn(
1pnn
*F 














A hipótese nula a ser testada, estabelece que as duas médias multivariadas 
são iguais, ou que a distância entre ambos os grupos é igual a zero 
significando que se trata de um único grupo. 
 
11 
A contribuição relativa, em percentagem, de 
cada variável para o distanciamento entre os 
dois grupos é fornecida pela expressão: 
Cp=[(pRp)/D
2]*100 
 
Cp mede apenas a contribuição direta da 
variável, sem levar em consideração o seu 
inter-relacionamento com as demais 
existentes. 
 12 
3 
Funções discriminantes multigrupos 
 Discriminar entre mais de dois grupos 
 
 Análise de variância da matriz inicial parcializada em 
categorias ou grupos 
 
 Soma de quadrados entre grupos [E] mais a soma de 
quadrados dentro dos grupos [D] é igual à soma total 
de quadrados [T]: [T] = [E] + [D] 
 
 Razão [E]/[D] com alto valor: médias dos grupos bem 
diferentes entre si e os valores dentro de cada grupo 
bem concentrados ao redor dos respectivos centroides 
13 
Encontrar um conjunto de pesos lineares para as 
variáveis que tornem essa razão máxima 
Distâncias entre 
grupos são 
maximizadas 
Distâncias dentro 
dos grupos são 
minimizadas 
14 
 Se o conjunto de pesos for o vetor [A1], a análise 
discriminante pode ser efetuada ao encontrar os 
valores dos elementos de [A1] de modo que a 
expressão {[A1]´[E] [A1]}/{[A1]´[D] [A1]}, seja maximiza 
 
 Restrição para denominador igual a 1: [A1]´[D] [A1] = 
1 
 
 Razão maximizada quando [A1] for o autovetor 
correspondente ao maior autovalor de [D]-1 [E] 
 
 Encontrar,como na análise fatorial, eixos ortogonais 
[A2], [A3], etc., funções discriminantes em sucessão 
decrescente 
 
15 
 Observações projetadas no espaço definido pelos eixos 
discriminantes: [Z] = [A]´[X], 
 onde [X] é a matriz inicial de dados [N x p] e [A] a matriz [p x 
t] cujas colunas “t” são os maiores autovetores a serem 
usados nas funções discriminantes. 
 
 Os centroides dos g grupos podem ser projetados no espaço 
discriminante por [Zmk] = [A1] [Xmk], 
 onde [Xmk] contem as médias de todas as variáveis para 
cada grupo. 
 
 Escolher as duas funções discriminantes de maior peso para 
servir como eixos ortogonais para uma distribuição das 
observações dos diversos grupos e os respectivos centróides. 
 
 Uma observação multidimensional de origem desconhecida 
pode ser projetada nesse diagrama pela sua multiplicação 
pelo transposto de [A] e verificada sua distância aos diversos 
centróides 
16 
 
 
 Exemplo de análise discriminante entre dois grupos 
17 
 Exemplo de análise 
discriminante 
entre dois grupos 
 
 P:Zona 
 mineralizada 
 E: Zona 
 estéril 
 X: ? 
 
18 
4 
19 
 
Análise discriminante multigrupos. 
 
 O petróleo tanto pode ter origem em carbonatos (C) e folhelhos (F) 
de origem marinha, como em ambientes deltaicos (D) e para 
explicar a sua gênese são utilizadas diversas variáveis em 
conjunto. 
 
 São fornecidos dados referentes a 63 amostras de petróleo, nas 
quais foram obtidas as seguintes variáveis: 
 API = densidade em unidades API 
 S= porcentágem de enxofre 
 Pr/Ph= razão pristâneo/fitâneo 
 S/A= razão entre hidrocarbonetos saturados e aromáticos 
 PCIR= razão isotópica de carbono(12C/13C) no petroleo 
 GCIR= razão isotópica de carbono na fração gasolina 
 G-R= diferença entre as razoes isotópicas na fração gasolina e 
no resíduo 
20 
Amostra Ambiente API S Pr/Ph S/A PCIR GCIR G-R 
1 1C 24.6 1.69 1.1 1.1 -26.23 -26.3 -0.27 
2 2C 27 1.58 0.95 1.1 -26.62 -26.89 -0.33 
3 3C 28.1 1.53 1.02 1.2 -26.02 -26.21 -0.39 
4 4C 29.5 3.1 0.7 0.8 -26.1 -27.16 -1.42 
5 5C 32.2 2.61 0.65 0.8 -26.24 -27.2 -1.09 
6 6C 33.6 2.27 0.75 0.7 -26.5 -27.19 -0.93 
7 7C 31.7 2.52 0.7 0.9 -26.24 -27.07 -1.12 
8 8C 33 1.71 0.71 1.2 -26.27 -27 -0.97 
9 9C 34 1.95 0.62 1.2 -26.3 -26.95 -0.96 
10 10C 28 2.78 0.67 0.7 -26.57 -27.46 -0.83 
11 11C 25.5 2.26 0.82 0.9 -25.59 -25.8 -0.6 
12 12C 35.4 1.03 0.85 1.3 -25.25 -25.65 -0.5 
13 13C 35.1 1.39 0.58 1.1 -25.06 -25.52 -0.54 
14 14C 36.6 1.34 0.62 1.3 -25.02 -25.43 -0.53 
15 15C 29 1.9 0.74 0.9 -25 -25.42 -0.59 
16 16C 38.5 0.98 0.59 1.4 -24.86 -25.19 -0.41 
17 17C 30.1 1.73 0.6 0.9 -24.71 -25.14 -0.59 
18 18C 31.9 1.02 0.78 1.3 -24.54 -25.04 -0.72 
19 19C 24.4 3.87 0.57 0.3 -26.62 -26.96 -0.71 
20 20C 22.9 3.83 0.57 0.5 -26.13 -26.72 -0.73 
21 21C 18.7 4.82 0.53 0.4 -25.87 -26.13 -0.35 
22 1D 54.4 0 1.27 7.8 -25.33 -23.27 4.26 
23 2D 54.7 0.05 1.73 14.1 -25.54 -23.75 3.66 
24 3D 58.6 0.01 2.09 14.3 -25.92 -24.45 3.36 
254D 41 0.01 3.95 4.6 -24.54 -22.52 2.82 
 
21 
 
 Aplicando, inicialmente, análise de agrupamentos 
(modelo Q, método Ward, distância euclidiana e 
variáveis não padronizadas) verificar se esse conjunto 
de amostras pode ser subdividido em grupos e se esses 
grupos estão de acordo com os ambientes C, F e D . 
22 
Ward: variáveis não padronizadas
9
D
8
D
1
8
D
1
5
D
1
4
D
1
7
D
1
3
C
1
2
C
1
4
C
1
6
C
1
9
F
1
7
F
1
8
F
1
6
F
1
0
F
1
0
F
8
F
1
5
F
1
4
F
1
2
F
1
0
C
4
C
3
C
2
C
1
1
F
9
F
1
7
C
1
5
C
1
8
C
9
C
6
C
8
C
7
C
5
C
7
F
4
F
5
F
3
F
6
F
1
F
2
F
2
0
C
1
9
C
1
1
C
1
C
2
1
C
3
D
2
D
1
D
2
2
D
1
9
D
2
0
D
2
1
D
1
3
D
1
0
D
7
D
1
1
D
1
2
D
5
D
1
3
F
1
6
D
6
D
4
D
0
1000
2000
3000
4000
5000
6000
 
D
is
tâ
n
c
ia
 e
u
c
li
d
ia
n
a
23 
 
 Aplicando a análise de agrupamentos (modelo Q, 
método Ward, distância euclidiana e variáveis 
padronizadas) verificar se esse conjunto de amostras 
pode ser subdividido em grupos e se esses grupos 
estão de acordo com os ambientes C, F e D . 
24 
5 
Ward: 3 grupos
1
0
C
4
C
7
C
5
C
6
C
9
C
8
C
2
0
C
1
9
C
2
1
C
1
7
C
1
5
C
1
1
C
3
C
1
C
2
C
1
4
C
1
3
C
1
2
C
1
6
C
1
8
C
1
0
F
8
F
1
1
F
9
F
1
8
F
1
6
F
1
7
F
1
9
F
1
0
F
1
5
F
1
4
F
1
2
F
1
3
F
7
F
1
F
6
F
2
F
5
F
3
F
4
F
1
1
D
4
D
1
8
D
6
D
1
3
D
1
0
D
7
D
1
2
D
5
D
2
1
D
1
9
D
2
2
D
2
0
D
1
7
D
1
4
D
1
5
D
1
6
D
9
D
8
D
3
D
2
D
1
D
0
20
40
60
80
100
120
140
160
180
200
 
D
is
tâ
nc
ia
 e
uc
li
d
e
a
na
25 
Com a padronização das variáveis os três 
grupos encontrados agrupam amostras 
segundo os ambientes carbonatos (C), 
folhelhos (F) e deltaicos (D). 
 
Em seguida, aplicando análise discriminante, 
verificar se os grupos encontrados estão 
significativamente separados, segundo 
ambientes de deposição, e quais as variáveis 
mais importantes para essa discriminação. 
 
26 
27 28 
29 
Para verificar a relação entre amostras e variáveis e, 
portanto, a influência das variáveis na discriminação 
entre grupos sobrepor os gráficos 
 
30 
Análise de Componentes Principais 
6 
Análise Discriminante: XLStat 
Medidas cranianas foram obtidas em 7 espécies fósseis de 
oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da 
América). As afinidades taxonômicas entre essas espécies estão no 
gráfico abaixo: 
Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. 
osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri 
(De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr). 
31 32 
33 
BC-W: largura da caixa craniana na altura da região parietal-escamosal 
TR-L: comprimento máximo dos dentes molariformes 
Bu-L: comprimento máximo da “bulla” timpânica 
Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o 
processo paroxipital. 
Espécie 
 
BC-W TR-L Bu-L Bu-HP 
Su 47.0 99.0 26.0 15.0 
Su 42.0 93.0 26.0 16.0 
Su 40.0 90.0 22.0 13.0 
Su 46.0 100.0 22.0 11.0 
Su 46.0 96.0 24.0 16.0 
Su 42.0 88.0 26.0 15.0 
Su 43.0 89.0 23.0 14.0 
Su 44.0 78.0 23.0 13.0 
Su 44.0 90.0 25.0 11.0 
Su 47.0 99.0 27.0 15.0 
Su 47.0 92.0 27.0 13.0 
Me 78.0 165.0 35.0 18.0 
Me 77.0 165.0 37.0 19.0 
 
34 
35 36 
7 
37 
4 grupos indicados pela Análise Discriminante: 
1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni 
2: Subdesmatochoerus sp 
3: Desmatochoerus hatcheri + Psuedodesmatochoerus 
4: Megoreodon gigas loomisi 
 
38 
39

Continue navegando

Outros materiais