Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inferência sobre o vetor de médias Estatística multivariada Prof. José Francisco Moreira Pessanha professorjfmp@hotmail.com Distribuições amostrais Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,). px x X 1 11 1 px x X 2 21 2 np n n x x X 1 ... Os estimadores n NX P 1 ,~ 1~1 nWishartSn Ti n i i XXXX n S 11 1 n i iX n X 1 1 (vetor px1) (matriz pxp) São independentes e têm as seguintes distribuições: Grandes amostras Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população p-variada com vetor de médias e matriz de covariâncias . px x X 1 11 1 px x X 2 21 2 np n n x x X 1 ... Então, Para n-p grande n NX P 1 ,~ 21 ~ P T XSXn Inferência sobre o vetor de médias Caso univariado Seja x1, x2, ..., xn observações de uma amostra aleatória de tamanho n extraída de uma população N(,2). Teste de hipóteses: 01 00 : : H H Sob a hipótese nula 1 2 0 ~ calculado nt nS X t H0 é rejeitada ao nível de significância se t calculado > t() tabelado Estatística teste nS X 2 0 Inferência sobre o vetor de médias Caso univariado (continuação) H0 rejeito 2/ calculado se 1 2 0 nt nS X t H0 rejeito 2/ se 212 2 0 nt nS X t tabelado H0 rejeito 2/ 210 12 0 ntXSXn Inferência sobre o vetor de médias Caso multivariado Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,). px x X 1 11 1 px x X 2 21 2 np n n x x X 1 ... 0, 0,11 1 0, 0,11 0 : : pp pp H H Teste de hipóteses simultâneas Inferência sobre o vetor de médias Caso multivariado pnp T F pn np XSXn ,0 1 0 1 ~ T2 de Hotelling pnp T F pn np XSXnP ,0 1 0 1 Sob H0 010 XSXn T Estatística teste = H0 é rejeitada ao nível de significância se pnpT F pn np XSXn ,0 1 0 1 Inferência sobre o vetor de médias Exemplo 1: Considere a amostra de 3 observações de uma população normal bivariada. 38 610 96 X Avalie a estatística T2 para 0 T = (9 5). Neste caso, qual a distribuição amostral de T2 ? 0102 XSXnT T n=3 p=2 6 8 18 24 3 1 369 8106 3 11 12 1 n i iX nx x X 4 2 8881086 222 11 s 9 2 636669 222 22 s 3 2 6388668106986 12 s 93 34 S 27 4 9 1 9 1 3 1 1S Inferência sobre o vetor de médias Exemplo 1 (continnuação) 0102 XSXnT T 5 9 6 8 93 34 5 9 6 8 3 1 2 T T 9 7 1 1 27 4 9 1 9 1 3 1 1132 T Distribuição de T2 T2 calculado 1,223,2, 4 23 1321 FFF pn np pnp Inferência sobre o vetor de médias Exemplo 2: A matriz de dados abaixo apresenta medições sobre os níveis de três componentes da transpiração, coletadas em uma amostra com 20 mulheres: X1 X2 X3 n=20 p=20 X1 = taxa de suor X2 = teor de sódio X3 = teor de potássio Teste a hipótese H0: T = (4 50 10) contra H1: T (4 50 10), considerando um nível de significância de 10%. Inferência sobre o vetor de médias Exemplo 2 (continuação): agora com o R X1 X2 X3 n=20 p=20 Dados no arquivo texto T5-1.dat Carregando o arquivo no R X = read.table("T5-1.dat") Estimativas do vetor de médias e da matriz de covariâncias mu_hat=apply(X,2,mean) sigma_hat=var(X) Arquivo texto T5-1.dat X S Inferência sobre o vetor de médias Exemplo 2 (continuação) Matriz inversa de S sinv=solve(sigma_hat) T2 calculado 7388,90102 XSXnT T 20*(mu_hat-c(4,50,10))%*%sinv%*%(mu_hat-c(4,50,10)) No R é mais fácil 0X 1S 0X 0X n Inferência sobre o vetor de médias Exemplo 2 (continuação) 1726,84374,2* 320 1203 %10 1 , pnp F pn np No R é mais fácil (3*19/17)*qf(0.9,3,17) T2 calculado = 9,7388 > 8,1726 Rejeito H0 ao nível de significância de 10% Teste da Razão de Verossimilhança Seja X~Np(,) e considere a função de verossimilhança obtida a partir de uma amostra aleatória com n observações: n i ii XX nnp eL 1 12/1 2/2/ 2 1 , Os valores de e que maximizam a função de verossimilhança são as estimativas obtidas pelos estimadores de máxima verossimilhança: n i i p X n x x X 1 1 1 ˆ Ti n i i ppp p XXXX n 1 1 111 1 ˆˆ ˆˆ ˆ Teste da Razão de Verossimilhança Sob a hipótese nula H0: =0 a função de verossimilhança torna-se: n i ii XX nnp eL 1 0 1 02/1 2/2/0 2 1 , O vetor média 0 é fixo, mas pode variar. O valor mais provável de , com fixado em 0, é o que maximiza a função de verossimilhança L(0 , ): Ti n i i XX n 0 1 00 1ˆ Teste da Razão de Verossimilhança Para determinar se 0 é um valor plausível para o vetor média, a máxima verossimilhança L( 0 , ) é comparada com a máxima verossimilhança irrestrita L( , ). O resultado é a razão de verossimilhança ou LR statistic (likelihood ratio): 2 0 2 2/ 2 2 02/ 2 , 0ˆ ˆ ˆ 2 ˆ 2 ,max ,max n n np np n np np e e L L LR Lambda de Wilks 0 2 ˆ ˆ n Um valor muito pequeno para indica que a hipótese H0:=0 é improvável e portanto H0 deve ser rejeitada. Teste da Razão de Verossimilhança A hipótese H0:=0 deve ser rejeitada em favor de H0:0 quando c L L LR n 2 0, 0 ˆ ˆ ,max ,max Onde c é o percentil 1- da distribuição amostral de Quando o tamanho da amostra n é grande a distribuição amostral de – 2Ln é bem aproximada por uma distribuição qui-quadrado. 2 , 0 ~ ,max ,max 22 p L L LnLn Teste da Razão de Verossimilhança O teste baseado na estatística T2 é equivalente ao teste da razão da verossimilhança, pois há uma relação entre a estatística Lambda de Wilks e a estatística T2: 1 2 0 /2 1 1 ˆ ˆ n Tn H0:=0 é rejeita para pequenos valores de 2/n ou, equivalentemente, grandes valores de T2. 1 ˆ ˆ1 02 n n T Resumo das distribuições UNIVARIADO MULTIVARIADO Normal Normal p variada Normal Padrão Z Normal p variada com média nula e mariz de covariâncias igual a identidade t de Student T2 de Hotelling Qui-quadrada Wishart F Lambda de Wilks Região de confiança Caso univariado Seja x1, x2, ..., xn observações de uma amostra aleatória de tamanho n extraída de uma população N(,2). 1 2 ~ nt nS X 11 2 nt nS X P 11 2 1 nn t nS X tP 1 2 1 2 nn t n S Xt n S X Intervalo com 1- de confiança Probabilidade de que o intervalo contenha a verdadeira média 11 2 1 2 nn t n S Xt n S XP Região de confiança Caso multivariado Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,). px x X 1 11 1 px x X 2 21 2 np n n x x X 1 ... pnp T F pn np XSXn , 1 1 pnp T F pn np XSXn , 1 1~ Distribuição T2 de Hotelling 1 1 , 1 pnp T F pn np XSXnP Região (Elipsóide em ) com 1- de confiança Região = elipsóide Probabilidade de que a região contenha a verdadeira média X Região de confiança Exemplo 3: O departamento de controle de qualidade de uma fábrica de fornos de microondas realiza medições do nível de radiação emitida por estes aparelhos para verificar se os fornos fabricados atendem as especificações do projeto e as normas de segurança. Desenhe a região com 95% de confiança para o vetor média. Para atender esta finalidade, uma amostra de 42 fornos de microondas é selecionada e ensaios em laboratório são conduzidos para medir o nível de radiação emitida com a porta fechada e com a porta aberta. A seguir são apresentados as amostras coletadas. Forno com a porta fechada (y1) = arquivo T4-1.dat 0.15 0.09 0.18 0.10 0.05 0.12 0.08 0.05 0.08 0.10 0.07 0.02 0.01 0.10 0.10 0.10 0.02 0.10 0.01 0.40 0.10 0.05 0.03 0.05 0.15 0.10 0.15 0.09 0.08 0.18 0.10 0.20 0.11 0.30 0.02 0.20 0.20 0.30 0.30 0.40 0.30 0.05 Forno com a porta aberta (y2) = arquivo T4-5.dat 0.30 0.09 0.30 0.10 0.10 0.12 0.09 0.10 0.09 0.10 0.07 0.05 0.01 0.45 0.12 0.20 0.04 0.10 0.01 0.60 0.12 0.10 0.05 0.05 0.15 0.30 0.15 0.09 0.09 0.28 0.10 0.10 0.10 0.30 0.12 0.25 0.20 0.40 0.33 0.32 0.12 0.12 Região de confiança Exemplo 3 (continuação): y1=read.table("T4-1.dat") hist(y1[,1]) y2=read.table("T4-5.dat") hist(y2[,1]) Histogram of y2[, 1] y2[, 1] F re q u e n c y 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0 5 1 0 1 5 2 0 Histogram of y1[, 1] y1[, 1] F re q u e n c y 0.0 0.1 0.2 0.3 0.4 0 5 1 0 1 5 Distribuições assimétricas. Violação da hipótese de normalidade. Transformar as variáveis Região de confiança Exemplo 3 (continuação): x1=y1^(1/4) hist(x1) x2=y2^(1/4) hist(x2) Histogram of x1 x1 F re q u e n c y 0.3 0.4 0.5 0.6 0.7 0.8 0 2 4 6 8 1 0 Histogram of x2 x2 F re q u e n c y 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 5 1 0 1 5 2 0 Distribuições simétricas. Hipótese de normalidade satisfeita. Transformação das variáveis Região de confiança Exemplo 3 (continuação): Matriz de dados X=cbind(x1,x2) xbarra=apply(X,2,mean) S=var(X) Vetor de médias amostrais xbarra V1 V1 0.5642575 0.6029812 Matriz de covariâncias amostrais S V1 V1 V1 0.01435023 0.01171547 V1 0.01171547 0.01454530 Matriz de covariâncias inversa sinv=solve(S) sinv V1 V1 V1 203.4981 -163.9069 V1 -163.9069 200.7691 Região de confiança Exemplo 3 (continuação): Equação da região com 95% de confiança pnp T F pn np XSXn , 1 1 %5 242 1422 603,0 564,0 228,200391,163 391,163018,203 603,0 564,0 42 242.2 2 1 2 1 F T Inserindo as estatísticas amostrais e simplificando obtém-se: 23,3 40 412 603,0 564,0 228,200391,163 391,163018,203 603,0 564,0 42 2 1 2 1 T 62,6603,0564,0391,16384603,0228,20042564,0018,20342 21 2 2 2 1 Região de confiança Exemplo 3 (continuação): Para ver se é plausível o vetor média populacional ser =[0,562 0,589], basta verificar se o ponto (0,562; 0,589) está no interior da região de confiança. Isto é equivalente ao tes de hipóteses: 30,1603,0564,0391,16384603,0228,20042564,0018,20342 21 2 2 2 1 589,0 562,0 : 589,0 562,0 : 1 0 H H Se o vetor =[0,562 0,589] satisfaz a equação da região de confiança então ele está no interior da região. Neste caso, H0 não deve ser rejeitada. Fazendo 1 = 0,562 e 2 = 0,589 62,630,1 Ponto no interior da região de confiança, logo aceito H0 Região de confiança Exemplo 3 (continuação): Autovalores e autovetores de S m=eigen(S) lambda=m$values Autovalores Autovetores lambda [1] 0.026163638 0.002731895 e=m$vectors e [,1] [,2] [1,] 0.7041574-0.7100439 [2,] 0.7100439 0.7041574 Desenho da região de confiança Região de confiança Exemplo 3 (continuação): 1) Baixar o pacote ellipse no próprio R Desenho da região de confiança no R 2) Carregar o pacote ellipse Região de confiança Exemplo 3 (continuação): Desenho da região de confiança no R Desenha a região com 95% de confiança centrada no vetor média xbarra e eixos nas direções dos autovetores da matriz de covariância amostral com matriz de covariância S plot(ellipse(S,centre=xbarra,level=0.05,npoints=1000),type='l',asp=1) points(t(xbarra)) posiciona o vetor média amostral na elipse points(0.562,0.589) posiciona o ponto (0,562 ; 0,589) na elipse 0.52 0.54 0.56 0.58 0.60 0 .5 8 0 .6 0 0 .6 2 0 .6 4 V1 V 1 Região de confiança Exemplo 3 (continuação): Desenho da região de confiança no R 1 2 564,01 X 603,02 X (0,562 ; 0,589) Região de confiança Exemplo 3 (continuação): Desenho da região de confiança 1) Posicione o vetor média amostral Região de confiança Exemplo 3 (continuação): Desenho da região de confiança 2) Posicione os autovetores e1 = (0,704 ; 0,710) e2 = (-0,710 ; 0,704) Região de confiança Exemplo 3 (continuação): Desenho da região de confiança 3) Marque o comprimento dos semi-eixos 018,0%51 ,2 pnpF pnn np 64,0%51 ,1 pnpF pnn np Intervalos de confiança simultâneos Seja X~Np(,) e z uma combinação linear das variáveies aleatórias do vetor X: Xaxaxaxaz Tpp 2211 TZ a aaTZ 2 aT = Vetor de constantes aaaNz TT ,~ Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,). nj Xaxaxaxaz j T pjpjjj ,12211 Xaz T Saas TZ 2 média amostral de z variância amostral de z Intervalos de confiança simultâneos Intervalo de confiança 1- para Z = a T para um dado vetor a 1 2 ~ n T TT z z t Saa aXan n s z n s tz n s tz znZ z n 2 1 2 1 22 n Saa tXaa n Saa tXa T n T T n 22 11 Intervalos de confiança simultâneos Há várias possibilidades para o vetor a, por exemplo 001 Ta 010 Ta 011 Ta 011 Ta n s tx n s tx nn 2 1 111 2 1 11 22 n s tx n s tx nn 2 2 122 2 2 12 22 n s txx n s txx nn 2 2 11212 2 2 112 22 n s txx n s txx nn 2 2 12121 2 2 121 22 Cada vetor a está associado com um intervalo t com 1- de confiança, porém o grau de confiança de todos os intervalos considerados simultaneamente não é 1-. Intervalos de confiança simultâneos Intervalos simultâneos com 1- de confiança O grau de confiança simultâneo para todo vetor a é 1- n Saa F pn np Xaa n Saa F pn np Xa T pnp TT T pnp T ,, 1 % 1 0.52 0.54 0.56 0.58 0.60 0 .5 8 0 .6 0 0 .6 2 0 .6 4 V1 V 1 a=(1,0) a=(0,1) 0.52 0.54 0.56 0.58 0.60 0 .5 8 0 .6 0 0 .6 2 0 .6 4 V1 V 1 Intervalos de confiança simultâneos 1 2 Intervalo de confiança simultâneo de 95% para 1 Intervalo de confiança simultâneo de 95% para 2 Região de confiança de 95% exemplo 3 Intervalos simultâneos definidos pela projeção da região de confiança nos eixos das variáveis Intervalos de confiança simultâneos n s F pn np x n s F pn np x pnppnp 11 ,11 11 ,1 %5 1 %5 1 n s F pn np x n s F pn np x pnppnp 22 ,22 22 ,2 %5 1 %5 1 42 0144,0 23,3 40 412 564,0 42 0144,0 23,3 40 412 564,0 1 612,0516,0 1 42 0146,0 23,3 40 412 603,0 42 0146,0 23,3 40 412 603,0 2 651,0555,0 2 Intervalos simultâneos T2 para 1 e 2
Compartilhar