Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estudo sobre a aplicação da Análise de Variância Augusto Sousa da Silva Filho1 Resumo: A análise de variância é um teste estatístico amplamente difundido entre os analistas, e visa fundamentalmente verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente. Os fatores propostos podem ser de origem qualitativa ou quantitativa, mas a variável dependente necessariamente deverá ser contínua. A principal aplicação da ANOVA (analise of variance) é a comparação de médias oriundas de grupos diferentes, também chamados tratamentos, como por exemplo empresas que operam simultaneamente com diferentes rendimentos, entre muitas outras aplicações. Existem dois métodos para calcular-se a variância: dentro de grupos (MQG) e a variância das médias (MQR). Se a variância calculada usando a média (MQR) for maior do que a calculada (MQG) usando os dados pertencentes a cada grupo individual, isso pode indicar que existe uma diferença significativa entre os grupos. Este artigo mostra a aplicação da Anova através de simulações computacionais e exemplos práticos. Palavras-Chave: ANOVA, Razão F, Média Quadrática, Independência, Normalidade. Keywords: ANOVA, F ratio, mean square Independence, Normality. 1 – Introdução Segundo Souza [1998], a Análise de variância é, essencialmente um processo aritmético que visa decompor uma soma de quadrados em componentes estocasticamente independentes assoc iados a fontes de variação perfeitamente identificas. A idéia do método foi introduzida na literatura estatística por Ronald A. Fisher, estatístico da escola britânica responsável por muitas das técnicas atualmente utilizadas na análise de dados. A estatística usada para a comparação de várias médias é chamada análise da variância, ou simplesmente ANOVA. Vamos considerar somente uma técnica da ANOVA quando há apenas um critério para classificar as populações de interesse. Neste caso, utilizamos a ANOVA de um critério para analisar os dados. Por exemplo, para comparar as vidas médias de dez marcas específicas de pneus, lançamos mão da ANOVA de um critério, cujos detalhes 1 Augusto Sousa da Silva Filho: Graduado em Estatística, Especialista em Didática e Metodologia do Ensino Superior, Especialista em Gestão da Qualidade Integrada ao Meio Ambiente, Mestrando em Modelagem Matemática e Computacional. Professor da Faculdade Inforium –BH e da Faculdade IBS/Getúlio Vargas. apresentaremos neste artigo. Em muitas situações práticas, há mais de uma forma de classificar as populações. Uma firma que trabalha com pedidos pelo correio pode querer comprar tipos de postagem que oferecem diferentes descontos e têm diferentes formas de apresentação. Um livro com encadernação simples oferecido a um preço baixo ocasionará, em média, mais vendas do que o mesmo livro com encadernação de luxo a um preço mais elevado? A análise do efeito conjunto de preço e apresentação exige técnicas ainda mais elaboradas que a ANOVA. O artigo está organizado da seguinte forma. Na seção 2, será apresentado a análise de variância, na seção 3 os resultados de simulações e na seguinte é discutido os pressupostos básicos dos resíduos. Algumas considerações finais é apresentado na seção 4. 2 – Análise de Variância Segundo Casella [2010], em sua forma mais simples, a ANOVA, é um método de estimação das médias de diversas populações, freqüentemente assumidas como normalmente distribuídas. No entanto, o foco central da ANOVA está no tópico planejamento estatístico. Como podemos obter o máximo de informações sobre a maioria das populações com a menor quantidade de observações? Suponha que tenhamos a níveis diferentes de um único fator que desejamos comparar. Para Montgomery [2003], algumas vezes, cada nível do fator é chamado de um tratamento, um termo muito geral que pode ser reportado a aplicações iniciais da metodologia de planejamento de experimentos. A resposta para cada um dos k tratamentos é uma variável aleatória. Os dados observados aparecem na tabela 1, como ijy , representa a j-ésima observação sujeita ao i-ésimo tratamento. Inicialmente, consideramos o caso em que haja um número igual de observações n, em cada tratamento. Montgomery e Runger [2003], conceituam a ANOVA, da seguinte forma, onde pode-se descrever as observações na Tabela 1 pelo modelo linear estatístico: nj ai Y ijiij ,...,2,1 ,...,2,1 (1) em que ijY é uma variável aleatória denotando a ij-ésima observação, μ é um parâmetro comum a todos os tratamentos, sendo chamado de média global, τ é um parâmetro associado com o i- ésimo tratamento, sendo chamado de efeito do i-ésimo tratamento, e εij é um componente do erro aleatório. Note que o modelo poderia ter sido escrito como: nj ai Y ijij ,...,2 ,1 ,...,2 ,1 (2) sendo μi = μ + τi a média do i-ésimo tratamento. Dessa forma do modelo, vemos que cada tratamento define uma população que tem média μi, consistindo na média global μ mais um efeito τi que é devido àquele tratamento particular. Consideraremos que os erros εij sejam normal e independentes distribuídos, com média zero e variância σ2. Conseqüentemente, cada tratamento pode ser pensado como uma população normal com média μi e variância σ 2. A equação 1 é o modelo em foco para um experimento com um único fator. Além disso, uma vez que requeremos que as observações sejam tomadas em uma ordem aleatória e que o ambiente (freqüentemente chamado de unidades experimentais), em que os tratamentos são usados seja tão uniforme quanto possível, esse planejamento é chamado de planejamento experimental completamente aleatorizado. Os a níveis do fator no experimento poderiam ter sido escolhidos de duas maneiras diferentes. Ainda, segundo Montgomery e Runger [2003], primeiro, o experimentalista poderia ter escolhido, especificamente, os a tratamentos. Nessa situação, desejamos testar as hipóteses acerca das médias dos tratamentos não podendo ser as conclusões estendidas a tratamentos similares que não tenham sido considerados. Tabela 1 - Dados típicos para um experimento com um único fator Tratamento Observações Totais Médias 1 y11 Y21 y1n y1. .1y 2 y12 y12 y12 y2. .2y a ya1 ya2 yan ya. .ay ..y ..y Em adição, podemos desejar estimar os efeitos dos tratamentos. Isso é chamado de modelo com efeitos fixos. Alternativamente, os a tratamentos poderiam ser uma amostra aleatória a partir de uma população maior de tratamentos. Nessa situação, gostaríamos de ser capazes de estender as conclusões (que são baseadas na amostra de tratamentos) a todos os tratamentos na população, eles sendo ou não explicitamente considerados no experimento. Aqui os efeitos dos tratamentos τi são variáveis aleatórias e o conhecimento acerca dos tratamentos particulares investigados não é relativamente importante. Em vez disso, testamos as hipóteses sobre a variabilidade de τi e tentamos estimar essa variabilidade. Isso é chamado de modelo de efeitos aleatórios ou componentes de variância. A seguir, desenvolveremos a análise de variância para o modelo com efeitos fixos e verificaremos como ela pode ser usada para testar a igualdade dos efeitos dos tratamentos. Segundo Fisher [1935], no modelo de efeitos fixos, os efeitos dos tratamentos τi são geralmente definidos como desvios da média global μ de modo que: (3) 0 1 a i i Para Snedecor e Cochran [1980], fazendo yi representar o total das observações sujeitas ao i-ésimo tratamento e iy representar a média das observações sujeitas ao i-ésimo tratamento. Similarmente, fazendo .iy representar o total global de todas as observações e ..y representar a média global de todas as observações. Expressando matematicamente, n jiji yy 1 . nyy ii /.. i = 1, 2,..., a a i n j ijyy 1 1 .. (4) /.... Nyy sendo N o número total de observações. Assim, o subscrito “ponto” implica soma no subscrito que ele representa. Estamos interessados em testar a igualdade das médias dos a tratamentos, μ1, μ2, μ3, ..., μa. Usando a equação 3, encontramos que isso é equivalente a testar as hipóteses 0: ;0: 11 210 H H a (5) Logo, se a hipótese nula for verdadeira, cada observação consistirá na média global μ mais um componente do erro aleatório εij. Isso é equivalente a dizer que todas as N observações são tomadas de uma distribuição normal com média μ e variância σ2. Por conseguinte, se a hipótese nula for verdadeira, a mudança nos níveis do fator não tem efeito na resposta média. A análise de variância divide a variabilidade total nos dados da amostra em dois componentes. Então, o teste de hipótese na equação 5 é baseado na comparação das duas estimativas independentes da variância da população. A variabilidade total nos dados é descrita pela soma quadrática total. a i n j ijT yySQ 1 1 2 .. (6) A identidade da soma quadrática é: a i n j a i a i n j iijiij yyyynyy 1 1 1 1 1 2 . 2 ... 2 .. (7) A identidade da equação 7 mostra que a variabilidade nos dados, medida pela soma quadrática total corrigida, pode ser dividia em uma soma quadrática das diferenças entre as médias dos tratamentos e a média global e em uma soma quadrática das diferenças das observações dentro de um tratamento a partir da média dos tratamentos. As diferenças entre as médias observadas nos tratamentos e a média global medem as diferenças entre os tratamentos, enquanto as diferenças das observações dentro de um tratamento a partir da média dos tratamentos podem ser devidas somente ao erro aleatório. Logo, escrevemos a equação 7 simbolicamente como: a i n j ijT EsTratamentoT yySQ SQSQSQ 1 1 2 .. totalquadrática soma (8) e os tratamentdos quadrática soma 1 2 . a i iiisTratamento yynSQ e por fim: a i n j iijE yySQ 1 1 2 . erro do quadrática soma . Podemos ganhar considerável discernimento em como a análise de variância funciona através do exame dos valores esperados de SQTratamentos e SQE. Isso nos conduzirá a uma estatística apropriada para testar a hipótese de nenhuma diferença entre as médias dos tratamentos (ou τi = 0). O valor esperado da soma quadrática dos tratamentos é a i isTratamento naSQE 1 221 Agora, se a hipótese nula da equação 5 for verdadeira, cada τi será igual a zero e 2 1 a SQ E sTratamento Se a hipótese alternativa for verdadeira, então: 11 1 2 2 a n a SQ E a i i Trataments A razão MQTratamentos = SQTratamentos / (a-1) é chamada de média quadrática dos tratamentos. Assim, se H0 for verdadeira, MQTratamentos um estimador não tendencioso de σ 2, enquanto se H1 for verdadeira, MQTratamentos estimará σ 2 mais um termo positivo que incorpora a variação devido à diferença sistemática nas médias dos tratamentos. Usando uma abordagem similar, podemos mostrar que o valor esperado da soma quadrática dos erros é E(SQE) = a(n- 1)\σ2 . Por conseguinte, a média quadrática do erro, MQE=SQE/[a(n-1)], é um estimador não tendencioso de σ2, independente de H0 ser ou não verdadeira. Existe também uma divisão do número de graus de liberdade que corresponde à identidade da soma quadrática na equação 7. Ou seja, há an=N observações; assim, SQT tem an-1 graus de liberdade. Existem a níveis do fator; logo, SQTratamentos tem a-1 graus de liberdade. Finalmente, dentro de qualquer tratamento, existem replicatas (ou réplicas) fornecendo n-1 graus de liberdade, com os quais se estima o erro experimental. Já que há a tratamentos, temos a(n-1) graus de liberdade para o erro. Conseqüentemente, a divisão dos graus de liberdade é 111 naaan . Considere agora que cada uma das a populações possa ser modelada como uma distribuição normal. Usando essa suposição, podemos mostrar que se a hipótese nula H0 for verdadeira, a razão: E Trataments E sTratamento MQ MQ anaSQ aSQ F / 1/ 0 (9) terá uma distribuição F com (a – 1) graus de liberdade. Além disso, do valor esperado da média quadrática, sabemos que MQE é um estimador não tendencioso de σ 2. Também, sob a hipótese nula, MQTratamentos é um estimador não tendencioso de σ 2. No entanto, se a hipótese for falsa, então, o valor esperado de MQTratamentos será maior do que σ 2. Por conseguinte, sob a hipótese alternativa, o valor esperado do numerador da estatística de teste equação 9 é maior do que o valor esperado do denominador. Conseqüentemente, devemos rejeitar H0 se a estatística for grande. Isso implica uma região crítica unilateral superior. Dessa forma, rejeitamos H0 se f0 > 1,1, naf , sendo f0 calculado pela equação 9. A tabela a seguir, mostra a análise de variância para um experimento com um único fator. Tabela 2 - Análise de Variância: Modelo de efeito fixo Fonte de Variação Soma Quadrática Graus de Liberdade Média Quadrática F0 Tratamentos SQTratamentos 1a MQTratamentos E sTratamento MQ MQ Erro SQE 1na MQE Total SQT 1an 3 – Resultados Com o objetivo de verificar o efeito das médias sobre a Estatística F, foi feito um estudo simulado. Foram gerados amostras aleatórias de tamanhos n=30; n=50 e n=1000 de uma população normal com os seguintes critérios: Caso 1 – Médias diferentes com variâncias iguais; Caso 2 – Médias iguais com variâncias iguais. As figuras 1, 2 e 3 apresentam os resultados obtidos para o caso em que o tamanho da amostra varia de n=30, n=50 e n=1000, respectivamente. De acordo com estes resultados constatou-se que a mudança na estatística F é atribuível a mudança nas médias. Isso ilustra o fato de que a estatística F é muito sensível às médias amostrais, embora seja obtida através de estimativas diferentes, resultando assim em um aumento dramático da estatística de teste F. 3.1 – Exemplo Prático Um fabricante de papel usado para fabricar sacos de papel pardo está interessado em melhorar a resistência do produto à tensão. A engenharia de produto pensa que a resistência à tensão seja uma função da concentração de madeira de lei na polpa e que a faixa prática de interesse das concentrações de madeira de lei esteja entre 5 e 20%. Um time de engenheiros responsáveis pelo estudo decide investigar quatro níveis de concentração de madeira de lei: 5%, 10%, 15% e 20%. Eles decidem fabricar seis corpos de prova, para cada nível de concentração, usando uma planta piloto. Todos os 24 corpos de prova são testados, em uma ordem aleatória, em um equipamento de teste de laboratório. Os dados desse experimento são mostrados na tabela abaixo: Tabela 3 - Resistência do papel à Tensão (psi) É importante analisar graficamente os dados de um experimento planejado. A figura 4 apresenta diagramas de caixa da resistência à tensão para os quatro níveis de concentração. Essa figura indica que a variação da concentração de madeira de lei tem um efeito sobre a resistência à tensão; especificamente, maiores concentrações de madeira produzem maiores resistências observadas à tensão. Além disso, a distribuição da resistência à tensão, em um nível particular de concentração de madeira de lei, é razoavelmente simétrica e a variabilidade na resistência à tensão não varia drasticamente à medida que a concentração de madeira de lei varia. Figura 1 - Box-plot da concentração de madeira de lei As hipóteses são: Muitos pacotes computacionais têm a capacidade deanalisar dados provenientes de experimentos planejados, usando a análise de variância. A tabela abaixo apresenta a saída do Minitab para a análise de variância univariável do experimento. A saída do Minitab apresenta também intervalos de confiança de 95% para cada média individual de tratamento. A médio do i- ésimo tratamento é definida como: Uma estimativa de μi é _ .ˆ ii Y . Agora, se considerarmos que os erros sejam normalmente distribuídos, cada média do tratamento será distribuída normalmente com média μi e variância σ2/n. Assim, se σ2 fosse conhecido, poderíamos usar a distribuição normal para construir um intervalo de confiança. Usando MQE como um estimador de σ 2 (esse é o “Desvio Padrão Combinado” referido no Minitab), basearíamos o intervalo de confiança na distribuição t, uma vez que tem uma distribuição t com a(n-1) graus de liberdade. A análise para os resultados acima nos levam a rejeitamos a hipótese nula, pois 94,420;3;01,0 f . Logo, concluímos que a concentração de madeira de lei na polpa afeta significativamente a resistência do papel. Ainda podemos observar o valor P para essa estatística de teste. O valor obtido foi 61059,3 xP , o que é menor que 01,0 , e que temos uma forte evidência para concluir que H0 não seja verdadeira. Abaixo, temos a saída computacional do software Minitab para a análise de variância. General Linear Model: obs versus concentr Factor Type Levels Values concentr fixed 4 5; 10; 15; 20 Analysis of Variance for obs, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P concentr 3 382,79 382,79 127,60 19,61 0,000 Error 20 130,17 130,17 6,51 Total 23 512,96 S = 2,55114 R-Sq = 74,62% R-Sq(adj) = 70,82% Unusual Observations for obs Obs obs Fit SE Fit Residual St Resid 3 15,0000 10,0000 1,0415 5,0000 2,15 R R denotes an observation with a large standardized residual. 3.1.1. – Análise Residual e Verificação do Modelo A análise de variância univariável considera que as observações sejam normal e independentemente distribuídas com a mesma variância para cada tratamento ou nível do fator. Essas suposições devem ser verificadas através do exame dos resíduos. Um resíduo é a diferença entre uma observação yij e seu valor estimado (ou ajustado) a partir do modelo estatístico sendo estudado, denotado como ijŷ . Para o planejamento completamente aleatório .ˆ iij yy , com cada resíduo sendo iijij yye , ou seja, a diferença entre uma observação e a média correspondente observada do tratamento. Os resíduos para o experimento com percentagens de madeira de lei estão mostrados na tabela 4. Tabela 4 - Resíduos para o experimento da Resistência à Tensão Concentração de Madeira de Lei Resíduos 5% -3 -2 5 1 -1 0 10% -3,67 1,33 -2,67 2,33 3,33 -0,67 15% -3 1 2 0 -1 1 20% -2,17 3,83 0,83 1,83 3,17 -1,17 O uso de .iy para calcular cada resíduo essencialmente remove, dos dados, o efeito da concentração de madeira de lei; conseqüentemente, os resíduos contêm informação sobre a variabilidade não explicada. A suposição de normalidade pode ser verificada pela construção de um gráfico de probabilidade normal dos resíduos. Para verificar a suposição de igualdade de variâncias em cada nível do fator, plotou-se os resíduos contra os níveis do fator e comparou-se a dispersão dos resíduos. É também útil plotar os resíduos contra .iy (algumas vezes chamado de valor ajustado); a variabilidade nos resíduos não deve depender de jeito algum do valor de .iy . A seguir, veremos os gráficos construídos pelo Minitab. Figura 2 - Gráficos Residuais A suposição de independência pode ser verificada plotando-se os resíduos contra o tempo ou a ordem da corrida na qual o experimento foi feito. Um padrão de comportamento nesse gráfico, tal como seqüencias de resíduos positivos e negativos, pode indicar que as observações não são independentes. Isso sugere que o tempo ou a ordem da corrida é importante ou que as variáveis que variam com o tempo são importantes e não foram incluídas no planejamento de experimentos, o que não acontece nos resíduos para o experimento da resistência à tensão. A figura 5 mostra os gráficos de normalidade dos resíduos, independência e homogeneidade de variância e pode-se observar que não houve qualquer quebra dos pressupostos básicos para os resíduos, mostrando que adequação da análise de variância proposta. 4 – Considerações Finais Este estudo mostra que a melhor forma de comparar um conjunto de médias é mediante a analise de suas variâncias. Mediante a ANOVA, a variabilidade total fica dividida em duas componentes: a) a que se refere às diferenças entre os grupos; b) a que se deve às diferenças individuas dentro de cada grupo. Observou-se que quando as médias coincidem, a média quadrática intergrupos tende a zero, e a média intragrupos tendem a coincidir com a média quadrática total, ou seja, com a variância da população. Quando as médias são diferentes, a média quadrática intergrupos funciona como um microscópio que aumenta as diferenças, fazendo com que se rejeite a hipótese nula. Dado que deve haver homocedasticidade, a média quadrática intragrupos tem de se aproximar de cada um dos grupos em todos os casos, tanto se as médias estiverem próximas como se estiverem distantes. Referências BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. São Paulo: Saraiva, 2006. CASELLA, George; BERGER, Roger L. Inferência Estatística. São Paulo: Cengage Learning, 2010. FISHER, R.A. The logic of inductive inference., Stat. Soc., v.98, p.34-54, 1935. MONTGOMERY, Douglas C., RUNGER, George C. Estatística Aplicada e probabilidade para engenheiros. LTC: Rio de Janeiro, 2003. MONTGOMERY, Douglas C. Design and analysis of experiments. 2nd. John Wiley & Sons, New York, USA. SOUZA, Geraldo da Silva e . Introdução aos Modelos de Regressão Linear e Não Linear. Brasília: Embrapa-SPI, 1998. SNEDECOR, C.W.; W.G. COCHRAN. Statistical Methods. 7ed. Iowa State University Press, Amer. Iowa, 1980 USA. JAMES F. Reed III. Analysis of Variance (ANOVA) Models in Emergency Medicine. The Internet Journal of Emergency and Intensive Care Medicine. Volume 7 Number 2. 2004.
Compartilhar