Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ANÁLISE DA VARIÂNCIA 1 INTRODUÇÃO A análise da variância, também conhecida por ANOVA, consiste de uma generalização do teste para a igualdade de duas médias populacionais. Enquanto no teste para a igualdade de duas médias utilizamos as estatísticas z ou t, conforme os desvios padrões populacionais sejam conhecidos ou não, na análise da variância, testamos k (k ≥ 2) médias populacionais com base na estatística F. Portanto, a análise da variância é um teste para igualdade de médias que utiliza variâncias para a tomada de decisões. 2 FUNDAMENTOS DA ANOVA Suponha que se deseja testar a hipótese de k (k ≥ 2) médias populacionais, ou seja, H0: µ1 = µ 2 = … = µk, (1) contra a alternativa de que pelo menos uma dessas médias seja diferente das demais. Na aplicação do método que será desenvolvido, suponha que as populações são normalmente distribuídas e as variâncias populacionais iguais (homocedasticidade), ou seja, σ σ σ σ1 2 2 2 2 2 = = = =L k (2) Análise da variância 2 Considere as k amostras extraídas das populações cujas médias serão testadas. Partindo dessas amostras, pode-se estimar a variância σ2 de três maneiras, como será mostrado a seguir. Sejam as k amostras A1, A2, … , Ak, onde: xij é o i-ésimo elemento da j-ésima amostra. x j é a média da j-ésima amostra. X é a média do conjunto das k amostras. n é o tamanho de cada amostra. N = n.k é o número de elementos do conjunto das k amostras. População 1 População 2 População k média µ1 média µ2 … média µk variância σ2 variância σ2 variância σ2 A1 A2 Ak x11, x21, … ,xn1 x12, x22, … , xn2 … x1k, x2k, … ,xnk 1o ) Variância total Consiste em estimar a variância σ2, considerando todas as amostras reunidas em uma única amostra. Isso será possível em virtude da hipótese inicial de que as variâncias populacionais são todas iguais a σ2. Essa variância será estimada por ( ) 1N Xx s k 1j n 1i 2 ij 2 t − − = ∑∑ = = , (3) 3 onde o numerador é denominado de soma total dos quadrados e representaremos por SQT. Evidentemente, essa estimativa terá sentido se a hipótese H0, dada por (1), for verdadeira, o que implica em termos todas as populações normalmente distribuídas de mesma média e mesma variância. 2o ) Variância entre amostras Sendo verdadeira a hipótese H0, pode-se estimar a variância σ2, através das médias das k amostras, ou seja, como se fosse uma amostra de k valores. Como n σ σ 2 2 X = , (4) e chamando de 2Xs a estimativa de 2 Xσ , então, a estimativa 2 es de σ 2 será ( ) 1k Xx sns k 1j n 1i 2 j 2 X 2 e − − =⋅= ∑∑ = = , (5) onde o numerador da (5) é denominado de soma de quadrados entre amostras, sendo representado por SQE. 3o ) Variância residual (ou variância dentro) Consiste em estimar a variância dentro de cada amostra e em seguida estimar um único valor de σ2, através da combinação dessas k variâncias. Análise da variância 4 Para uma amostra qualquer a estimativa individual será dada por 1n )x(x s n 1i 2 jij 2 j − − = ∑ = (6) Combinando as k variâncias, obtém-se como estimativa de σ2 ( ) kN xx k s s k 1j n 1i 2 jij k 1j 2 j 2 r − − == ∑∑∑ = == (7) O numerador de (7) é denominado de soma dos quadrados residuais, sendo representado por SQR. Para ilustrar o método considere três amostras de cinco elementos cada, cujos valores são: amostra 1: 18 23 21 24 22 amostra 2: 27 26 30 29 32 amostra 3: 16 17 18 14 20 Figura 1 - Ilustração do método da ANOVA 10 20 30 40 xi1 10 20 30 40 xi2 10 20 30 40 xi3 5 Neste exemplo, nota-se que a hipótese H0: µ1 = µ2 = µ3 seria rejeitada pela análise da variância, como mostra a Figura 1. Pelas figuras nota-se que a hipótese implícita de variância iguais parece ser satisfeita. Particularmente neste caso, teríamos s1 2 5 3= , ; s22 5 7= , e s32 5 0= , . A variância residual seria sr 2 5 33= , , que poderia estimar σ2; já que a mesma é obtida dentro das amostras. Já a variância total não seria uma estimativa válida para σ2, pois a faixa total é muito maior que a faixa em que os valores ocorrem dentro de cada amostra. Neste caso teríamos st 2 29 8= , . Não seria válida também a estimativa da variância entre amostras, onde teríamos 176,86s 2e = . Assim, nota-se que st 2 e se 2 tendem a superestimar σ2. Portanto, sendo falsa a hipótese H0, haverá uma tendência a que st 2 e se 2 superestimem σ2, o que não ocorrerá com sr 2 . Evidentemente, se H0 for verdadeira, st 2 , se 2 e sr 2 fornecerão estimativas não-tendenciosas para a variância comum σ2. Caso a hipótese H0 seja verdadeira, demonstra-se que as estimativas se 2 e sr 2 são independentes. Dessa forma, podemos comparar essas variâncias mediante a estatística Análise da variância 6 F s s e r = 2 2 (8) O teste será sempre do tipo unilateral, pois, sendo H0 falsa, F tenderá sempre a crescer. O valor crítico de F será, para um nível de significância α, dado por Fα, como mostra a Figura 6.2, com ν1 = k – 1 e ν2 = N – k. Dessa forma, a hipótese H0 será rejeitada para F > Fk-1,N-k(α) Figura 2 – Determinação da região de rejeição 3 ANÁLISE DA VARIÂNCIA A UM CRITÉRIO DE CLASSIFICAÇÃO OU A UM FATOR Neste modelo, os elementos observados são classificados segundo um critério, ou seja, existe apenas uma característica (significa R.R. α R.A. 1 - α f(F) 0 Fα F 7 que os diferentes valores obtidos na amostra são devidos apenas a essa característica) de interesse a ser testada. Sejam as k populações P1, P2, … , Pk, e as amostrascorrespondentes de tamanhos n1, n2, … , nk. P1 P2 … Pk x11 x12 x1k x21 x22 x2k M M … M xi1 xi2 xik M M M x n11 x n2 2 x n kk Considere que - xij é o i-ésimo elemento da j-ésima amostra. - x j é a média da j-ésima amostra. - X é a média do conjunto das k amostras. - N é o número total de observações das k amostras. - nj é o tamanho da j-ésima amostra. Tem-se então: (1) H0: µ1 = µ2 = … = µk = µ. (2) H1: pelo menos uma das médias µj é diferente das demais. (3) Fixar o nível de significância α. Análise da variância 8 (4) Determinar a R.R. conforme a Figura 6.2., sendo ν1 = k - 1 e ν2 = N - k. (5) Cálculo da estatística do teste - Cálculo das somas de quadrados ( )SQE x X x n x Nji n j k iji n jj k iji n j k j j j = − = − == = = == ∑∑ ∑ ∑ ∑∑ 2 11 1 2 1 11 2 (9) ( )SQR x x x x nij j iji n ij i n jj k j k i n j k j j j = − = − = = ==== ∑ ∑ ∑∑∑∑ 2 2 1 1 2 1111 (10) ( )SQT x X x x Niji n j k ij i n ij i n j k j kj j j = − = − == = == = ∑∑ ∑ ∑∑ ∑ 2 11 2 1 11 2 1 (11) onde, demonstra-se que 9 SQT = SQE + SQR (12) - Quadro da ANOVA Fonte de Variação Soma de quadrados GL Quadrado médio = s2 Estatística F Entre amostras SQE k - 1 1k SQEQME2es − == QMR QME F 2 r 2 e s s == Residual SQR N - k kN SQRQMR2rs − == Total SQT N - 1 (6) Conclusão: se F > Fk-1, N-k(α), rejeita-se H0, caso contrário, aceita-se H0. Exemplo Em uma indústria, quatro operários executam a mesma operação. Com o objetivo de identificar se existe diferença significativa entre os tempos gastos para executar a operação mencionada, foram realizadas as seguintes observações desses tempos (em segundos): Operário 1: 8,1 8,3 8,0 8,1 8,5 Operário 2: 8,4 8,4 8,5 8,3 Operário 3: 8,8 8,7 8,9 Operário 4: 8,3 8,4 8,2 8,2 8,3 8,4. Verificar se a diferença é significativa ao nível de 5%. Análise da variância 10 4 MÉTODO DE SCHEFFÉ Como foi visto, a Análise da Variância testa a existência ou não de diferença significativa entre k (k ≥ 2) médias populacionais. Mas, caso haja diferença, através da Análise da Variância somente, não se pode identificar quais médias diferem das demais. Existem diversos métodos para a solução desse problema: método de Tukey, método de Scheffé, método de Duncan e método dos contrastes ortogonais. Será visto o método de Scheffé por ser o mais geral e mais completo, apesar de perder em precisão para os demais. Para o modelo de classificação única, se duas médias µi e µj diferem significativamente, Scheffé demonstrou que x xi j− > ∆α , (13) onde ( )∆α = + − − − QMR n n k F i j k N k 1 1 1 1, ( )α (14) 5 PROBLEMAS PROPOSTOS 01. Uma empresa deseja adquirir certa máquina e verificou que existem na praça quatro marcas diferentes: A, B, C e D que satisfazem. Decidiu- se que será comprada a máquina que apresentar melhor rendimento. Foi realizado um ensaio com as quatro máquinas em períodos iguais durante 5 dias e as produções resultantes foram: A 120 123 121 125 122 B 119 121 118 120 123 C 125 127 128 127 128 D 123 121 121 120 120 11 Pergunta-se: com relação ao rendimento, existe diferença significativa entre as máquinas no nível de significância de 1%? 02. Para o problema 01, se necessário, aplicar o teste de Scheffé e concluir qual a máquina a ser adquirida. 03. Foram testados três tipos de lâmpadas elétricas e os tempos de vida (em horas) obtidos foram: lâmpada A: 1245 1354 1367 1289 lâmpada B: 1235 1300 1230 1189 1250 lâmpada C: 1345 1450 1320. Existe diferença significativa entre os tempos médios de vida dessas três marcas de lâmpadas, ao nível de significância de 1%? Se necessário, aplicar o teste de Scheffé. 04. Seis máquinas produzem parafusos. Em seguida estão relacionados os diâmetros correspondentes a uma amostra de 4 parafusos produzidos em cada máquina. A B C D E F 8 9 7 8 9 10 7 7 9 8 7 11 9 7 7 7 8 9 7 8 7 9 8 10 Testar se os diâmetros médios são iguais considerando um nível de significância de 5%. Se necessário aplique o teste de Scheffé.
Compartilhar