Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Distribuição Amostral O estudo da amostragem engloba, também, a parte de distribuição amostral, onde são estudadas as aproximações entre as médias amostrais e desvio padrão das amostras com os parâmetros populacionais. Ao tomar um conjunto de dados, formado por valores atribuídos a uma variável X qualquer, X = {3; 4; 5; 6} e, em seguida, obtermos as amostras de tamanho 2, sem reposição (que significa população finita), temos: 6 !24!2 !44 2 C amostras possíveis, a saber: {(3; 4), (3; 5), (3; 6), (4; 5), (4; 6) e (5; 6)}, cujas médias são: {(3,5), (4,0), (4,5), (4,5), (5,0), (5,5)}. No caso de amostras com reposição (que significa população infinita), as amostras possíveis são: 24 = 16, a saber: {(3; 3), (3; 4), (3; 5), (3; 6), (4; 3), (4; 4), (4; 5), (4; 6), (5; 3), (5; 4), (5; 5), (5; 6), (6; 3), (6; 4), (6; 5), (6; 6)}. Para facilitar, vamos trabalhar com a primeira opção, isto é, amostras sem reposição. Assim, a média das médias amostrais é: 5,4 4 6543 , que igual à média das médias amostrais, a saber: .5,4 6 27 6 5,50,55,45,40,45,3 X Já no caso do desvio padrão populacional, tem-se: x = {[(3 - 4,5)2 + (4 - 4,5)2 + (5 - 4,5)2 + (6 - 4,5)2]/4}1/2 x = (5/4)1/2 = (1,25)1/2 = 1,118. O desvio padrão das médias amostrais é: 6455,0 6 ]4,5) - (5,5 4,5) - (5,0 4,5) - (4,5 4,5) - (4,5 4,5) - (4,0 4,5) - [(3,5 222222 X X s s O desvio padrão das médias de uma determinada amostra é o erro padrão da média, cuja fórmula é: 6455,0 14 24* 2 118,1 n X X e .05,05,0 4 2 N nf Isto prova que a média amostral sempre é igual à média da população e, no caso do desvio padrão, a relação existente entre o desvio padrão populacional e o das médias amostrais é o erro padrão da média, que equivale ao desvio padrão das médias amostrais. A mesma situação se aplica a amostras com reposição ou população infinita, a saber: 2 Fazendo-se uma relação de n n 1 , tem-se: n-1 n n n 1 1 2 0,5000 2 3 0,6667 3 4 0,7500 4 5 0,8000 5 6 0,8333 6 7 0,8571 7 8 0,8750 8 9 0,8889 9 10 0,9000 10 11 0,9091 ... ... ... 27 28 0,9643 28 29 0,9655 29 30 0,9667 30 31 0,9677 100 101 0,9901 Inferência Estatística Há duas formas de abordagem para buscar informações sobre um fenômeno qualquer: a primeira é aplicar o censo; a segunda é obter informações a respeito do fenômeno estimando os parâmetros da distribuição mediante amostragem. Amostragem - Conjunto de técnicas utilizadas para a seleção de uma amostra. A amostragem pode ser aleatória ou não aleatória. Amostragem não aleatória: - Intencional ou - voluntária. Amostragem aleatória: - Aleatória simples; sistemática; estratificada e por conglomerados. Estimação: Quando se utiliza um único número real para avaliar um parâmetro estimação por ponto. Estimador Estimativa por ponto Parâmetro X 20X μ s2x s2x = 5 σ2x sx sx = 2 σx pˆ 3,0ˆ p p 3 Como as amostras conduzem a estimativas distintas, a variabilidade não pode ser controlada neste processo. Estimativa por intervalo: A estimação mediante um intervalo real leva à estimativa por intervalo. Intervalo de confiança - Consiste num intervalo real, centrado na estimativa pontual que deverá conter o parâmetro com determinada probabilidade. A probabilidade de o intervalo conter o parâmetro chama-se nível de confiança associado ao intervalo (1 - α). Interpretação inerente à construção do Intervalo de confiança: De forma geral é mais correto afirmar que, a longo prazo, os intervalos de confiança conterão o valor de em (1 - )% dos casos. A idéia básica na construção de intervalos de confiança está fundamentada no teorema central do limite, que indica que, mediante amostras grandes (n 30), a distribuição de médias amostrais é aproximadamente normal, com média e desvio padrão da distribuição n . Assim sendo, o formato do intervalo consiste numa variação da seguinte equação: n XZ . Ao resolvermos a referida equação em relação a , colocando-o em evidência, tem-se: n ZX * . Observar a figura: Para o estudo de intervalos de confiança necessário se faz conhecer os valores críticos de Z, para testes unilaterais e bilaterais, conforme descrito por Spiegel (1994) página 256. Nível de significância (α) 0,10 0,05 0,01 0,005 0,002 Valores de Z para testes unilaterais -1,28 ou 1,28 -1,645 ou 1,645 -2,33 ou 2,33 -2,58 ou 2,58 -2,88 ou 2,88 Valores de Z para testes bilaterais -1,645 e 1,645 -1,96 e 1,96 -2,58 e 2,58 -2,81 e 2,81 -3,08 e 3,08 4 Uma breve demonstração, utilizando a distribuição normal padrão: P(1,96) ( ± 2) = 0,475 Na função densidade de probabilidade normal padrão, determinar a probabilidade de que uma escolha ao acaso de X esteja no intervalo [0, 2]. Aproxime o valor da integral definida usando (a) a regra do trapézio com n = 4 e (b) a regra de Simpson com 2n = 4. A função densidade de probabilidade normal padrão é dada por: N(x) = ଵ √ଶగ ∗ ݁ି ௫మ ଶൗ . A probabilidade de que uma escolha ao acaso de X esteja no intervalo [0, 2] é P([0, 2]), e P([0, 2]) = ଵ √ଶగ ∫ ݁ି ௫మ ଶൗ ݀ݔ ଶ Aproximando a integral acima pela regra do trapézio com n = 4. Como [a, b] = [0, 2]. x = (b – a)/n = (2 – 0)/4 = ଵ ଶ . Logo, sendo ݂(ݔ) = ݁ି௫మ ଶൗ ∶ ∫ ݁ି ௫ೣ ଶൗ ଶ dx ଵ ସ ቂ݂(0) + 2݂ ቀଵ ଶ ቁ + 2݂(1) + 2݂ ቀଶ ଷ ቁ+ ݂(2)ቃ = ଵ ସ ቂ݁ + 2݁ିଵൗ଼ + 2݁ିଵ ଶൗ + 2݁ିଽ ଼ൗ + ݁ିଶቃ =ଵ ସ [1 + 2(0,8825) + 2(0,6065) + 2(0,3246) + 0,1353)] = ଵ ସ (4,7625) = 1,191. Então, P([0, 2]) ଵ √ଶగ (1,191) = ଵ,ଵଽଵ ଶ,ହ = 0,475. Usando a regra de Simpson com 2n = 4 para fazer a aproximação da integral, tem-se: ∫ ݁ି ௫ೣ ଶൗ ଶ dx ଵ ቂ݂(0) + 4݂ ቀଵ ଶ ቁ + 2݂(1) + 4݂ ቀଶ ଷ ቁ+ ݂(2)ቃ = ଵ ቂ݁ + 4݁ିଵൗ଼ + 2݁ିଵ ଶൗ + 4݁ିଽ ଼ൗ + ݁ିଶቃ =ଵ [1 + 4(0,8825) + 2(0,6065) + 4(0,3246) + 0,1353)] = ଵ (7,1767) = 1,196. Então, P([0, 2]) ଵ √ଶగ (1,196) = ଵ,ଵଽ ଶ,ହ = 0,477. O valor exato de P([0, 2]) no exemplo em questão corresponde à área soa a curva, da parte positiva da mesma, a partir do valor da média padronizada, isto é, Zero, evidentemente, sendo menor que 0,5, que corresponde à metade da 5 área sob a curva, a partir da média, que é a metade de 1, ou 100%, que é o espaço amostral, correspondente ao intervalo entre ( - , + ). Intervalo de confiança para a média populacional quando se conhece o valor do desvio-padrão populacional. 1** 22 n ZX n ZXP XX Caso não haja possibilidade de amostragem com reposição, cujo tamanho seja superior a 5% do tamanho da população, deve-se corrigir o intervalo, para compensar os efeitos da não reposição. Assim, o intervalo fica: 1 1 ** 1 ** 22 N nN n ZX N nN n ZXP XX Quando não se conhece o parâmetro (σX), faz-se um intervalo de confiança mediante utilização da distribuição de “t” de Student. 1** 1;21;2 n s tX n s tXP X n X n Caso haja necessidade de correção, utiliza-se o seguinte intervalo: 1 1 ** 1 ** 1;21;2 N nN n stX N nN n stXP X n X n Intervalo de confiança para a proporção populacional, sem necessidade de correção: 1 ˆˆ *ˆ ˆˆ *ˆ 22 n qpZPP n qpZPP Quando necessita de correção, o intervalo é o seguinte: 1 1 * ˆˆ *ˆ 1 * ˆˆ *ˆ 22 N nN n qpZPP N nN n qpZPP Exemplos de determinação de intervalos de confiança: Um exemplo para cada caso! (Com desvio padrão populacional conhecido, sem correção) 1) Tarefas manuais em laboratório de tecnologia apresentam tempos de execução variáveis, mas o desvio padrão permanece em torno de três minutos. Uma nova tarefa está sendo executada pelos Engenheiros. Uma amostra aleatória do tempo de execução de 50 novas tarefas forneceu o valor médio de 15 minutos. Determine o I.C. de 95% para o tempo médio de execução desta nova tarefa. 1** 22 n ZX n ZXP XX 2 2 0 * d Z n X 6 .95,08316,151684,14 95,0 50 3*96,115 50 3*96,115 .min3 ;96,1 Z95%; -1 min;15 ;50 X 2 P P Xn (Com desvio padrão populacional conhecido, com correção) 2) Numa distribuidora de componentes eletrônicos as despesas mensais com reposição das 1000 substâncias são normalmente distribuídas com desvio -padrão R$3,00. Uma amostra, sem reposição de 100 substâncias revelou uma despesa média mensal de R$50,00. Determine o I.C. de 90% para a despesa média mensal com reposição no período de estocagem das substâncias nesta distribuidora. 1 1 ** 1 ** 22 N nN n ZX N nN n ZXP XX 22 2 2 22 2 *)1(* ** ZNd NZ n .90,04684,505316,49 90,0 11000 1001000* 100 3*645,150 11000 1001000* 100 3*645,150 correção! defator Usar 05,01,0 1000 100 ;90,01645,1 Z;00,50$ ;100 ;00,3$ ;1000 2 P P N nf RXnRN X (Com desvio -padrão populacional desconhecido, sem correção) 3) O tempo de espera – resposta - de um novo algoritmo de busca, em décimo de segundo, é normalmente distribuído. Uma amostra aleatória de 10 tentativas apresentou os seguintes valores: 8,75; 8,70; 8,72; 8,73; 8,76; 8,74; 8,73; 8,77; 8,74 e 8,72. Construa um intervalo com 95% de confiança para o tempo médio de resposta deste novo algoritmo que está sendo testado. 1** 1;21;2 n s tX n s tXP X n X n 2 1;2 * d st n Xn .95,07473,87147,8 95,0 10 0228,0*2622,2731,8 10 0228,0*2622,2731,8 .2622,2 ;95,01 ;0228,0s ;731,8 ;10 %59x P P tXn (Com desvio -padrão populacional desconhecido, com correção) 4) Um pequeno produtor de substâncias anti corrosivas utiliza processos artesanais na produção. Um cliente deseja encomendar 200 frascos do produto padronizados em 1kg. Após a produção, verificou-se se o lote atendia ao padrão. Uma amostra de 15 recipientes apresentou peso médio de 1,03 kg, com desvio padrão de 0,06 kg. Construa um I.C. de 95% para o peso médio dos frascos deste lote. 7 1 1 ** 1 ** 1;21;2 N nN n stX N nN n stXP X n X n . *)1(* ** 22 1;2 2 22 1;2 Xn Xn stNd Nst n .95,0062,1998,0 95,0 1200 15200* 15 06,0*1448,203,1 1200 15200* 15 06,0*1448,203,1 .1448,2 ;95,01 ;06,0 ;03,1 ;200 ;15 14;2 P P tsXNn X (I.C. para proporção populacional, sem correção) 5) Uma pesquisa com 300 habitantes de uma cidade industrial do sul da Bahia revelou que 128 consideravam a exposição a metais pesados como o principal problema de saúde. Determine um intervalo de confiança de 95% para a proporção dos habitantes desta cidade que consideram a exposição a metais pesados como principal problema de saúde. 1 ˆˆ *ˆ ˆˆ *ˆ 22 n qpZPP n qpZPP 2 2 2 ˆ*ˆ* d qpZ n 95,04827,03767,0 95,0 300 5733,0*4267,0*96,14267,0 300 5733,0*4267,0*96,14267,0 .96,1 ;95,01 ;300 ;5733,0ˆ1ˆ ;4267,0 300 128ˆ 2 PP PP Znpqp (I.C. para proporção populacional, com correção) 6) Uma pesquisa com 130 funcionários de um laboratório de tecnologia revelou que entre os 600 no total, 52 não utilizavam equipamentos de segurança ao trabalhar com reagentes. Construa um I.C. de 90% para a proporção de funcionários que desobedecem às normas de segurança. 1 1 * ˆˆ *ˆ 1 * ˆˆ *ˆ 22 N nN n qpZPP N nN n qpZPP qpZNd NqpZ n ˆ*ˆ*)1(* *ˆ*ˆ* 2 2 2 2 2 8 .90,04626,03374,0 90.0 1600 130600* 130 6,0*4,0*645,14,0 1600 130600* 130 6,0*4,0*645,14,0 .645,1 ;90,01 correção! defator Usar 05,02167,0 600 130 ;60,0ˆ1ˆ ;40,0 130 52ˆ ;600 2 PP PP Z N nfpqpN A partir dos intervalos de confiança, podem-se dimensionar amostras para as diversas situações, seja para a média ou para a proporção populacional, a saber. Utilização do desvio padrão e do erro padrão: Há algumas razões para utilização do desvio-padrão em vez do erro-padrão, a saber: O erro padrão é uma função do tamanho da amostra, sedo reduzido apenas com o aumento do valor de ‘n’, que é o tamanho da própria amostra. Outra razão é o fato do intervalo [média 2 x desvio padrão] contém 95% das médias das amostras, mas nunca irá conter 95% das observações realizadas em indivíduos. Na área de saúde, quando os médicos pensam em aplicar os resultados das pesquisas, eles geralmente querem aplicá-la em indivíduos em sua prática clínica, não em grupos de indivíduos. O desvio padrão costuma então ser a medida mais apropriada de descrição. AMOSTRAGEM Trata-se de um processo utilizado naturalmente em nossas vidas, em que utilizamos parte de uma população para tirar conclusões sobre o todo. Quando tomamos parte de uma população ao retirarmos uma amostra, fazemos o processo de amostragem e, ao estudarmos e analisarmos esta amostra, tirarmos conclusões e adotamos os resultados para toda a população, estamos fazendo inferência. Razões para fazermos amostragem: Economia; Tempo; Confiabilidade; Operacionalidade. Quando não é interessante fazer amostragem: População pequena; Característica facilmente mensurável; Necessidade de alta precisão. 9 Plano de amostragem: Para se fazer um plano de amostragem deve-se definir os objetivos da pesquisa, a população a ser amostrada, bem como os parâmetros que se precisa estimar para atingir os objetivos da pesquisa. No plano deverá constar: definição da unidade de amostragem, forma de seleção dos elementos da população e o tamanho da amostra. Exemplo de unidade de amostragem: Numa população de famílias moradoras de certa cidade, pode-se planejar a seleção de domicílios residenciais da cidade. Chegando ao domicílio (unidade de amostragem), podemos chegar à família moradora deste domicílio (elemento da população).Será estudado anteriormente as formas de seleção dos elementos que irão compor a amostra. Posteriormente iremos estudas as formas de dimensionamento de amostras. Planejamento de um levantamento por amostragem: O sucesso da amostragem está no seu adequado planejamento: Deve-se considerar os seguintes tópicos: 1. Objetivos 2. População 3. Dados a serem coletados 4. Grau de precisão 5. Métodos de medida 6. Unidade de amostra 7. Escolha de tipo de amostra 8. Pré-verificação 9. Organização do trabalho 10. Análise dos dados 11. Sugestões Tipos de amostragem 10 Divide-se em dois grandes grupos: Probabilísticos Não probabilísticos Dentre os probabilísticos: Amostragem aleatória simples Amostragem estratificada Amostragem sistemática Amostragem por área Amostragem por conglomerados ou grupos Dentre os não probabilísticos: Amostragem acidental ou de conveniência Amostragem por julgamento Amostragem por quotas Distribuição amostral (...) Intervalo de confiança (...) Dimensionamento de amostras (...) Vantagens da amostra em relação ao censo: a. Custo reduzido; b. Maior rapidez; c. Maior amplitude; d. Maior exatidão; Teorema Central do Limite ou Teorema do Limite Central: Tomada uma população com média e desvio-padrão , a distribuição de amostragem da média com base na repetição de amostras aleatórias de tamanho ‘n’ apresenta as seguintes propriedades: A média de distribuição de amostragem, ou a média das médias, é igual à média da população, com base em observações isoladas; O desvio-padrão da distribuição de amostragem é o erro padrão da média, que desempenha um papel importante em muitos procedimentos estatísticos discutidos durante o curso. Se a distribuição na população for normal, então a distribuição de amostragem da média também é normal. O que torna-se mais importante, para tamanhos de amostra suficientemente grandes, a 11 distribuição de amostragem da média é distribuída de modo aproximadamente normal, independentemente da forma da distribuição da população original. O teorema central do limite diz que, independentemente da distribuição dos dados da população, a distribuição dos dados de uma amostra tende a aproximar-se de uma distribuição normal, principalmente quando a amostra é composta de 30 ou mais elementos, (n 30), considerada uma grande amostra. Amostras de tamanho 30, inclusive, são consideradas como possuindo distribuição normal. Dimensionamento de Amostras: De forma geral, quando se quer calcular o tamanho de uma amostra, pode-se calcular a partir do erro amostral tolerável (erro admissível). 2 1 E n Exemplo: Deseja-se calcular o número de elementos de uma amostra cujo erro não ultrapasse 4%. 625 04,0 1 2 nn elementos. Quando se conhece a população, pode-se corrigir o tamanho da amostra em função do tamanho da população. Sendo assim, as três fórmulas são: 0 0* nN nNn ou N n nn 11 0 0 ou N n nn 0 0 1 Pode-se aplicar qualquer uma das três, que são citadas na literatura, e ambas são aceitas, pois o resultado final será praticamente o mesmo! Supondo-se que a população tem N = 200.000 indivíduos, faz-se: 625200000 625*200000 n n = 623 elementos. Caso a população fosse de N = 200 indivíduos, o resultado seria: 625200 625*200 n n = 152 elementos. 12 O tamanho da amostra poderá ser dimensionado a partir do intervalo de confiança, a saber: Dado o intervalo de confiança: 1** 22 n ZX n ZXP XX Diz-se que o intervalo é dimensionado a partir probabilidade da estimativa o erro admissível (d) representado pela semi-amplitude do intervalo, a saber: dXP , onde d = semi-amplitude ou erro que se admite ao se escolher determinado nível de confiança. d = Zα/2*σX/(n0)1/2 (n0)1/2*d = Zα/2*σX 2 2 0 * d Z n X Quando se conhece o tamanho da população, com correção, tem-se o seguinte intervalo de confiança: 1 1 ** 1 ** 22 N nN n ZX N nN n ZXP XX Da mesma forma que foi feito anteriormente, determina-se a probabilidade e coloca-se d em evidência, a saber: 1 ** 2 N nN n ZddXP X . Como [d = d] determina-se o fator de correção da amostra. 1* 1 *11 1 *11 1 *** 0 0 22 0 2 0 2 NnnNn N nN nn N nN nnN nN n Z n Z XX n0*(N - n) = n*N - n n0*N - n0*n = n*N - n n0*N = n*N - n + n0*n n0*N=n*(N + n0 - 1) N n n n N N nN Nn n 1 11 * 0 0 0 0 Alguns autores também usam a fórmula: N n n n 0 0 1 . As três formas de correção estão corretas e levam a resultados aproximadamente iguais. Para os demais intervalos de confiança, o processo é o mesmo, obtendo-se: Para população finita, parte-se de: 2 2 2 2 2 2 *)1(* ** :a se-chega e 1 ** ZNd NZ n N nN n Zd X Para situações em que (σX) é desconhecido, parte-se de . * :a se-chega e * 2 1;2 1;2 d st n n s td XnX n 13 Para população finita, parte-se de . *)1(* ** :a se-chega e 1 ** 2 1;2 2 2 1;2 1;2 Xn XnX n stNd Nst n N nN n std Para proporção populacional, parte-se de . ˆ*ˆ* :a se-chega e ˆˆ * 2 2 2 2 d qpZ n n qpZd Para população finita, com fator de correção, parte-se de qpZNd NqpZ n N nN n qpZd ˆ*ˆ*)1(* *ˆ*ˆ* :a se-chega e 1 * ˆˆ * 2 2 2 2 2 2 Amostragem Estratificada O que é: Consiste na subdivisão da população em subpopulações, de forma que dentro das subpopulações haja homogeneidade. Quando se aplica: Quando uma população é heterogênea, devido à baixa precisão das estimativas obtidas. Estratificação: Processo de subdivisão da população em subpopulações. Estrato: Como é chamada cada subpopulação. Na prática a população poderá se encontrar estratificada naturalmente ou a estratificação ocorrerá conforme critérios adotados pelo pesquisador, conforme conhecimento sobre a população. Inferência numa amostra aleatória estratificada: Considerando que os “h” estratos estejam organizados devidamente, pode-se organizar a seguinte notação: - Número de elementos da população no estrato h: Nh; - Números de elementos da amostra no estrato h: nh; - Tamanho da população: N = ; 1 H h hN Os tamanhos da população, do estrato h e da amostra permitem estabelecer os seguintes termos: - Fração geral de amostragem = n/N; - Fração de amostragem no estrato h = nh/Nh; - Peso do estrato h = Nh/N; - Fator de expansão no estrato h = Nh/nh; 14 - Fator geral de expansão = N/n. Em cada estrato trabalha-se como se o processo envolvesse uma amostra aleatória simples. Assim, para o estrato h, o estimador da média é: h n i h h n Y X h i 1 , sendo um estimador não tendencioso da média populacional do estrato h, μh. Dimensionamento de uma amostra estratificada:Ao se dimensionar uma amostra aleatória estratificada, dois aspectos são considerados: - determinação do tamanho da amostra - n; - determinação do tamanho da amostra em cada estrato - nh, o que é feito pelo processo denominado partilha. Procedimentos: Existem cinco (05) procedimentos que podem ser adotados no cálculo de uma amostra estratificada que serão citados em seguida. 1. Amostra aleatória estratificada com porcentagem fixa de elementos por estrato; 2. Amostra aleatória com número igual de elementos por estrato; 3. Amostra aleatória dimensionada pela partilha ótima; 4. Amostra aleatória estratificada dimensionada pela partilha de Neyman; 5. Amostra aleatória dimensionada pela partilha proporcional. Procedimento 1: É bastante simples e é geralmente utilizado quando não se tem maiores informações sobre a natureza dos dados. Dependendo do tamanho da população e dos objetivos do estudo é usual tomar 10% doe elementos de cada estrato e, portanto, o tamanho da amostra é dado por n = 0,1*N. Procedimento 2: Este procedimento não leva em consideração as características dos estratos. Em cada estrato a amostra tem o mesmo tamanho. 15 Procedimento 3: A determinação do tamanho da amostra é feita procurando: tornar mínima a variância média estimada dentro de determinado limite de custo; tornar mínimo o custo para um valor fixado da estimativa da variância da média estimada. Esta minimização exige procedimentos matemáticos complexos. Procedimento 4: Trata-se de um caso particular da “partilha ótima”, quando se considera que os custos por unidade de amostra são iguais em todos os estratos. Procedimento 5: Trata-se de um caso particular da partilha de Neyman quando se admite que as variâncias dos estratos são iguais. Existe, ainda, a amostra estratificada para proporções ou porcentagens. Este procedimento é utilizado quando se trabalha com amostragem simples para proporção de dados e é desejável dividi-los em categorias, tais como: dados que possuem determinado atributo e dados que não possuem determinado atributo. Exemplo de aplicação - Procedimento 5: Para os dados de distribuição de freqüência da faixa etária dos 194 funcionários de uma montadora de circuitos eletrônicos que cobriram suas despesas utilizando seguro-saúde. A distribuição de freqüência conforme a faixa etária dos funcionários é: Estrato Faixa Etária Nh nh 1 Faixa 1 60 9 2 Faixa 2 49 8 3 Faixa 3 35 6 4 Faixa 4 30 5 5 Faixa 5 20 3 Total Total 194 31 16 O valor da amostra determinada inicialmente, n0, já foi calculada conforme os critérios explicados em sala de aula, no caso de população finita e/ou infinita, sendo n0 = 34. Como a população estudada é finita, deve-se observar a fração amostral: 194 34 N nn = 0,1760 > 0,05. Deve-se corrigir o tamanho da amostra, a partir do fator de correção, a saber: Nn Nn n N n n n N n n n 0 0 0 0 0 0 * aindaou 1 1 ou 1 . Assim, o número de elementos da amostra é 29. A divisão proporcional nos estratos se dá a partir da seguinte formulação: N Nn n hi * . Desta forma, os estratos amostrais serão compostos dos seguintes número de elementos: n1 = 60*194 29 = 8,97 9 elementos; n2 = 49*194 29 = 7,32 8 elementos; n3 = 35*194 29 = 6 elementos; n4 = 30*194 29 = 5 elementos; n5 = 20*194 29 = 3 elementos. Por causa das aproximações, sempre para mais, por uma questão de segurança, o número de elementos da amostra ficou em (n = 31) e não (n = 29), o que não se constitui num problema, obviamente. Processo de amostragem a partir da convergência dos valores críticos do teste “t”. Exemplo ilustrativo: Os resultados da durabilidade (em meses) de brocas de duas marcas, foram os seguintes: Marca 1 114 108 104 116 117 127 106 122 112 118 130 105 Marca 2 88 76 87 89 106 85 65 120 70 98 92 - 17 1. Calcular o número de observações necessárias na marca 1, para que toda a diferença maior do que 4,0% seja significativo a 5% de erro num teste bilateral. 2. Calcular o número de observações necessárias na marca 2, para que toda a diferença maior do que 8,0% seja significativo a 5% de erro num teste bilateral. 3. Calcular o número de observações necessárias em cada uma das duas marcas (partes iguais), em nível de 5% de erro e para que a diferença entre as duas marcas maior do que 5,0% da média seja significativa. A estatística deste método iterativo é a seguinte: ݊ = ௧ഀ మ;షభൗ ∗ೇమమ మ . Solução: 1°) Item: D = 4%; Média = 114,92; s2x = 72,08; sx = 8,49; CV = 7,38%. Para n0 = 12 t = t5%(11) = 2,2010 .174905,16 4 38,7*2010,2 2 22 1 n Para n1 = 17 t = t5%(16) = 2,1199 .152976,15 4 38,7*1199,2 2 22 2 n Para n2 = 15 t = t5%(14) = 2,1448 .166591,15 4 38,7*1448,2 2 22 3 n Para n3 = 16 t = t5%(15) = 2,1314 .154640,15 4 38,7*1314,2 2 22 4 n Assim, o tamanho da amostra é: n = 15. Assim, será necessário adicionar mais 3 elementos à amostra. 2°) Item: D = 8%; Média = 88,73; s2x = 246,62; sx = 15,7041; CV = 17,69. Para n0 = 11 t = t5%(10) = 2,2281 .242742,24 8 69,17*2281,2 2 22 1 n 18 Para n1 = 24 t = t5%(23) = 2,0687 .219253,20 8 6,17*0687,2 2 22 2 n Para n2 = 21 t = t5%(20) = 2,0860 .212767,21 8 6,17*0861,2 2 22 3 n Assim, o tamanho da amostra é: n = 21. Assim, será necessário adicionar mais 10 elementos à amostra. 3°) Item: D = 5%; .2,12 82,101 19,155*100 82,101 2 73,8892,114 2 ;19,155 1011 62,246*1008,72*11 21 2 CV XXX s Para n0 = 20, ou seja, 10 para cada marca, temos GL = 2*(10 -1) = 18 e t5%(18) = 2,101. .52 5 2,12*101,2*2 2 22 1 n Para n0 = 52, ou seja, 26 para cada marca, temos GL = 2*(26 -1) = 50 e t5%(50) = 2,009. .48 5 2,12*009,2*2 2 22 2 n Para n2 = 48, ou seja, 24 para cada marca, temos GL = 2*(24 -1) = 46 e t5%(46) = 2,013. .48 5 2,12*013,2*2 2 22 3 n Assim, o tamanho da amostra deve ser de 24 para cada marca. Assim, será necessário adicionar mais 14 elementos, de cada marca, à amostra inicial. Teste de Hipóteses, Análise da variância e Qui-Quadrado. No teste de Hipóteses são utilizadas duas hipóteses, a saber: A hipótese nula H0 é a hipótese sobre a qual devem ser obtidas evidências para rejeitá-la. A hipótese H1 ou HA é a hipótese sobre a qual devem ser obtidas evidências para aceitá-la. Estas hipóteses são mutuamente excludentes, isto é: Não podem ser aceitas ou rejeitadas ao mesmo tempo. 19 Testes de hipóteses unilaterais ou bilaterais: Um teste unilateral é um teste no qual a hipótese alternativa define a mudança em alguma direção da hipótese nula, incluindo na especificação um dos símbolos: “” ou “≥”. Teste Unilateral Direito: Teste Unilateral Esquerdo: Um teste bilateral é um teste no qual a hipótese alternativa define uma mudança da hipótese nula, sem especificar nenhuma direção, incluindo na especificação o símbolo “≠”. Teste Bilateral: Tipos de erros no Teste de Hipóteses: 20 Podem ocorrer dois tipos de erros, dependendo da decisão tomada, num teste de hipóteses, sempre envolvendo a hipótese de nulidade, a saber: H0 Verdadeira H0 Falsa Aceita H0 Decisão Correta Erro Tipo II Rejeita H0 Erro Tipo I Decisão Correta Probabilidades envolvidas nas decisões: Quando H0 forVerdadeira Quando H0 for Falsa Prob. Aceitar H0 1 - Prob. Rejeita H0 1 - Poder do teste: Normalmente só se dá atenção à probabilidade de se cometer o Erro Tipo I. No entanto, a probabilidade de se cometer um erro tipo II depende de quatro fatores, a saber: O valor do parâmetro definido na hipótese nula do teste; o valor real do parâmetro; o nível de significância ; o tamanho – n – da amostra. Ao se definir: n e , antes de realizar o teste de hipóteses, é possível obter valores da probabilidade de cometer Erro Tipo II, em função de possíveis valores verdadeiros do parâmetro declarado na hipótese nula. Isso teria como objetivo conhecer quanto supostamente o teste de hipóteses controla um Erro Tipo II, ou ainda qual a probabilidade de rejeitar a hipótese nula se esta for realmente falsa. Esta probabilidade complementar de , ou 1 - , denominada poder do teste contra um possível valor verdadeiro do parâmetro declarado na hipótese nula. Muitas vezes se faz necessário comparar duas populações e, dependendo das características dos dados, pode-se escolher um teste mais adequado. 1. Teste “t” para observações (amostras) independentes com variâncias consideradas equivalentes: Neste caso, a estatística do teste e o número de graus de liberdade associados são: 2 2 11 ; 11 21 21 2 22 2 112 21 2 12 nnGL nn snsns nn s XXT P P Exemplo: Para verificar se duas dietas para manutenção dos pesos dos funcionários de uma fábrica de equipamentos elétricos são igualmente eficientes, um médico separou, ao acaso, um conjunto de funcionários em dois grupos. Cada funcionário seguiu a dieta designada para seu grupo. Decorrido certo tempo, o médico obteve a perda de peso, em quilogramas, de cada funcionário de cada grupo. Os dados estão apresentados a seguir: TABELA 1 - Perda de peso, em quilogramas, segundo a dieta. 21 Dieta 1 12 8 15 13 10 12 14 11 12 13 Dieta 2 15 19 15 12 13 16 15 - - - Elas são eficientes? Apresentaram diferença significativa? Interprete os resultados. Output: Teste-t: duas amostras presumindo variâncias equivalentes Dieta 1 Dieta 2 Média 12 15 Variância 4 5 Observações 10 7 Variância agrupada 4,4 Hipótese da diferença de média 0 gl 15 Stat t - 2,902147462 P(T<=t) uni-caudal 0,005473451 t crítico uni-caudal 1,753050325 P(T<=t) bi-caudal 0,010946902 t crítico bi-caudal 2,131449536 2. Teste “t” para observações (amostras) pareadas: Neste caso, a estatística do teste e o número de graus de liberdade associados são: (diferença = “d”). 22 1 1 ; 2 2 2 2 nGL n n d d S n S XX T d d APÓSANTES Exemplo: Foram observadas nove pessoas durante a aplicação de uma dieta de emagrecimento. Os pesos das funcionárias da linha de produção, com tendência à obesidade, antes e após a aplicação da dieta, estão na tabela a seguir: TABELA 1 - Pesagem de cada funcionária submetida à dieta antes e após o período de experiência. Funcionária 1 2 3 4 5 6 7 8 9 Antes 77 62 61 80 90 72 86 59 88 Após 80 58 61 76 79 69 90 51 81 As funcionárias apresentaram diferença significativa de peso após a dieta? Interprete os resultados. Output: Teste-t: duas amostras em par para médias Antes Após Média 75 71,66666667 Variância 146,75 162,5 Observações 9 9 Correlação de Pearson 0,920353652 Hipótese da diferença de média 0 23 Gl 8 Stat t 2 P(T<=t) uni-caudal 0,040258119 t crítico uni-caudal 1,859548033 P(T<=t) bi-caudal 0,080516238 t crítico bi-caudal 2,306004133 3. Teste “t” para observações independentes quando as variâncias são desiguais: Para verificar se as variâncias são diferentes existem duas maneiras: a primeira é verificar se uma delas é superior à outra em mais de quatro vezes, a saber: 42 2 B A S S . Outra é aplicando o teste F, que é um teste estatístico próprio para comparação de variâncias, já que a variância apresenta distribuição X2 e o quociente entre duas variâncias apresenta a distribuição de F F S S S S B A B A 22 22 2 2 . Para comparar o valor do F calculado com o tabelado, toma-se (n1 - 1) graus de liberdade para o numerador e (n2 - 1) graus de liberdade para o denominador. Neste caso, a estatística do teste e o número de graus de liberdade associados são: 11 e 2 2 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 2 2 2 1 2 1 12 n n S n n S n S n S GL n S n S XX T Esta fórmula utilizada para calcular os graus de liberdade é denominada de expressão de Welch-Satterhwaite, descrita pelos pesquisadores Welch,B.L.(1938) e Satterhwaite,F.E.(1946). Exemplo: Para verificar se determinada dieta leva a perda de peso dos funcionários de uma fábrica, um médico separou, ao acaso, um conjunto de funcionários em dois grupos: um grupo foi submetido à dieta (grupo tratado) enquanto o outro manteve os mesmos hábitos alimentares (grupo controle). Decorrido determinado período de tempo, o médico obteve a perda de peso de cada funcionário, em cada grupo. Os valores encontram-se na tabela a seguir: TABELA 1 - Perda de peso, em kg, de funcionários, segundo o grupo. Tratado 12 14 12 9 14 14 9 Controle 1 0 0 1 0,5 1 0 Verificar se há diferença significativa entre os grupos. Interprete os resultados e conclua. 24 Output: Teste-t: duas amostras presumindo variâncias diferentes Tratado Controle Média 12 0,5 Variância 5 0,25 Observações 7 7 Hipótese da diferença de média 0 gl 7 Stat t 13,27905619 P(T<=t) uni-caudal 1,60677E-06 t crítico uni-caudal 1,894578604 P(T<=t) bi-caudal 3,21354E-06 t crítico bi-caudal 2,364624251 25 Análise de Variância Pressupostos da Análise de Variância Para se fazer uma análise de variância, quatro hipóteses básicas devem ser estritamente satisfeitas: 1 - Aditividade; 2 - Independência ou aleatoriedade dos erros; 3 - Normalidade dos erros; 4 - Homogeneidade de variâncias dos erros. 1 - Aditividade Esta pressuposição pode ser verificada mediante uso do teste de aditividade de Tukey (SNEDECOR & COCHRAN, 1967; STEEL, TORRIE & DICKEY, 1997), em nível de 5% de probabilidade de erro. Os efeitos que ocorrem no modelo estatístico devem ser aditivos. A não aditividade pode ocorrer em função de alguma observação apresentar resultado muito discrepante da característica que está sendo estudada. A identificação do valor discrepante dependerá dos efeitos principais. Neste caso, a diferença entre tratamentos não é constante para as diversas repetições. Este teste só se aplica quando se utiliza o delineamento em blocos ao acaso, ficando impedido de ser usado quando o experimento é realizado no DIC. O Teste de Tukey para observar a não aditividade consiste num método de testar a interação em um delineamento de dois fatores com apenas uma observação por combinação de tratamentos. Baseado na soma de quadrados, dado por: DA jiij c j r i AD SS YYYYY S 2 ...... 11 Onde: r é o número de linhas, c o número de colunas, yij é a observação na ijª célula, ....; YeYY ji são respectivamente, a média da iª linha, a média de jª coluna e a média de tosas as observações. AS e SD são as somas de quadrados dos efeitos principais. O teste supracitadofoi publicado no periódico Biometrics, 1949, 5, 232-242. 2 - Independência dos erros ou aleatoriedade Os erros experimentais ou desvios devidos aos fatores não controlados devem ser independentes. Essa independência dos erros pode ser assegurada por um dos processos básicos da experimentação que é a casualização. As correlações entre os erros freqüentemente não são notadas, já que as suas presenças são de difícil detecção. 26 Esta pressuposição pode ser testada mediante aplicação do teste de seqüência (BEAVER et al., 1974), teste não-paramétrico. Para a aplicação deste teste os erros são ordenados segundo a distribuição dos tratamentos no experimento, com numeração das unidades experimentais, podendo ser, por exemplo, da esquerda para a direita, até a última unidade experimental. Os erros são registrados sobre as respectivas unidades experimentais e marcados com sinal “+” quando for positivo e com sinal negativo, quando for negativo. A estatística do teste (r) é igual ao número de vezes em que é trocado um sinal por outro ao percorrer a seqüência de erros estabelecidos. Numa dada seqüência, há n observações positivas e m observações negativas. rV rErz Onde: r é o número de trocas de sinais numa dada seqüência; E(r) = 1 + 2nm/(n+m); V(r) = 2nm(2nm-n-m)/{(n+m)2(n+m-1)2}; Como a estatística z tem distribuição normal de média zero e variância um, podemos usar a tabela da distribuição normal padrão. Ao testar um valor calculado, observa-se, por exemplo, a 5%, quando o valor da estatística z, em valor absoluto, for maior que o valor de z tabelado, a hipótese da distribuição aleatória dos erros será rejeitada. 3 - Normalidade dos erros Os erros experimentais devem ter distribuição normal de probabilidades. Para verificar esta pressuposição, testam-se os erros experimentais estimados. Se o resultado for satisfeito, isto implica que os valores observados se ajustam também a uma distribuição normal. Para testar a normalidade dos erros há alguns testes que podem ser aplicados, tais como: o teste de assimetria, o teste de curtose, o teste de Shapiro-Wilk e o teste de Lilliefors. O teste de Shapiro-Wilks testa se um conjunto de variáveis aleatórias são oriundas de uma distribuição de probabilidade específica. Mais comumente usado para teste de amostras de distribuição normal e de distribuição exponencial. O teste compara os valores ordenados da amostra com os valores correspondentes ordem estatística de uma distribuição específica. A estatística do teste para uma distribuição normal é dada por: 27 2 1 2 1 n j j n j jj xx xw W Onde: x(j) é a jª maior observação; x é a média da amostra; wj é a função da média e variância e covariância da ordem estatística. Um exemplo simples, feito no ambiente computacional R, demonstra a utilização do teste, a saber: shapiro.test(rnorm(100, mean = 5, sd = 3)) Shapiro-Wilk normality test data: rnorm(100, mean = 5, sd = 3) W = 0.9905, p-value = 0.7043 > shapiro.test(runif(100, min = 2, max = 4)) Shapiro-Wilk normality test data: runif(100, min = 2, max = 4) W = 0.9576, p-value = 0.002727 Na aplicação acima, observa-se que quando uma amostra é normalmente distribuída, o “p-value” associado ao teste apresentou valor alto em relação a uma amostra que apresenta outro tipo de distribuição. O teste de Lilliefors, que é uma modificação do teste de Kolmogorov-Smirnov para testar se uma população tem distribuição normal, pressupõe o cálculo de todos os valores padronizados (zi), os quais devem ser ordenados em ordem crescente, para as seguintes considerações: F(zi) = FEi = P (-∞ ≤ Z ≤ zi) = área da tabela de distribuição normal padronizada; S(zi) = Foi = ni/n, em que: FEi = freqüência esperada para os valores ≤ zi; FOi = freqüência observada para os valores ≤ zi; ni = número de valores em ordem crescente ≤ zi; n = número total de observações da amostra; ij ij i es ee z ˆ ˆˆ O valor calculado do teste é dado por: DCAL = Máximo |F(zi) - S(zi)|. O teste é bilateral, como segue: H0: é razoável estudar os dados através da distribuição normal; 28 H1: não é razoável estudar os dados através da distribuição normal. Rejeita-se a hipótese de nulidade, quando o valor de DCAL ≥ DTAB, a um nível α de significância com n observações, caso contrário não se rejeita H0. Em outras palavras, quando o valor da estatística D obtida for maior que o da tabela, a hipótese da normalidade de distribuição do erro é rejeitada. Este teste foi descrito com mais particularidades por CAMPOS, 1983. 4 - Homogeneidade das variâncias dos erros ou Homocedasticidade Os erros experimentais devem ter homogeneidade de variâncias, ou seja, devem possuir uma variância comum 2. Isto implica que a variabilidade das repetições de um tratamento deve ser semelhante a dos outros tratamentos, isto é, os tratamentos devem possuir variâncias homogêneas. Sendo o Q. M. Resíduo usado como termo de comparação na análise de variância, haverá uma perda de eficiência nas estimativas dos efeitos de tratamentos e perda de sensibilidade dos testes de comparações de médias, se ele for obtido a partir de variâncias diferentes de tratamentos. Para verificar esta pressuposição, testam-se as variâncias amostrais dos erros experimentais estimados de cada tratamento, dadas por s2i. Esta é a hipótese a que os pesquisadores têm dado maior ênfase. Para testar esta pressuposição são utilizados dois testes, o teste de Cochran e o teste de Bartlett, a saber: Teste de Cochran - É usado quando o número de graus de liberdade é o mesmo para todas as variâncias, ou seja, quando o número de repetições forem iguais para todos os tratamentos. A estatística do teste é: I i i MÁX CAL s s Ch 1 2 2 As hipóteses a serem testadas são: H0: 12 = 22 = ... = I2 vs H1: pelo menos uma das variâncias difere das demais. O valor de ChCAL será comparado ao tabelado, com (t, r-1) graus de liberdade, a um nível α de significância. Rejeita-se a hipótese H0 de homogeneidade de variâncias quando ChCAL ≥ ChTAB. Teste de Bartlett - É usado para testar se as estimativas de variâncias com ri - 1 graus de liberdade de i tratamentos são iguais, ou seja, quando o número de repetições por tratamento forem desiguais. A estatística do teste é: t i t i it i i t i ii i sr r sr rM 1 1 2 1 1 1 2 log1 1 1 log13026,2 29 Onde: ri é o número de repetições do tratamento i; si2 = variância amostral do tratamento i. As hipóteses a serem testadas são: H0: 12 = 22 = ... = I2 vs H1: pelo menos uma das variâncias difere das demais. Sob a hipótese de que os valores assumidos por si2 serão estimativas de um mesmo valor 12 (variância comum), a razão M/C tem distribuição aproximada de qui-quadrado (X2), onde C é um fator de correção dado por: t i t i i i rrt C 1 1 1 1 1 1 13 11 Rejeita-se a hipótese H0 de homogeneidade de variâncias quando o valor calculado da razão M/C ≥ X2TAB, a um nível α de significância, com t - 1 graus de liberdade. Este teste foi descrito com maiores detalhes por STEEL, TORRIE & DICKEY, 1997. Delineamento Inteiramente Casualizado - DIC O delineamento Inteiramente Casualizado - DIC apresenta o seguinte modelo matemático: Yij = μ + ti + eij Onde: Yij é o valor da observaçãoreferente ao iº tratamento, na jª repetição; μ é uma constante, referente à média; ti é o efeito do tratamento i (pode ser fixo ou aleatório); eij contribuição da variação não controlada referente à observação Yij. Isto indica que o resultado obtido ao avaliar uma unidade experimental pode ser dividido em três partes: uma constante, o efeito de um tratamento aplicado na unidade experimental e a variação aleatória que incidiu na unidade experimental considerada. Estimação dos parâmetros do modelo Estima-se m, estimativa de μ, e ti, estimativa de um tratamento i qualquer, pelo método dos mínimos quadrados, ou seja, obtêm-se as estimativas de m e ti tal que o somatório de todos os erros seja mínimo. 30 Trat. Repetições Yi. Y i. 1 2 3 ... J 1 Y11 Y12 Y13 ... Y1J Y1. Y 1. 2 Y21 Y22 Y23 ... Y2J Y2. Y 2. 3 Y31 Y32 Y33 ... Y3J Y3. Y 3. ... ... ... ... ... ... ... ... I YI1 YI2 YI3 ... YIJ YI. Y I. IJ YYY J YYYYYY J j ij I i i iIJi J j iji .. ..i i. 11 .. . .1 1 . Y Y ... Dado o modelo Yij = μ + ti + eij eij = Yij - μ - ti Aplicando-se ij a ambos os membros para englobar todas as unidades experimentais e elevando-os ao quadrado, para que valores negativos e positivos não se anulem, tem-se: iij ijij iij ij ij tmfZZetmYe ; 222 Obtém-se, então, um sistema de equações normais com infinitas soluções, pois tem-se I tratamentos. Para obter uma solução deve-se, então, usar uma restrição, a saber: i it 0ˆ . Assim: STRATAMENTOTOTAL SQ i i QS ij ijEij j iij i ij iij m J YJ IJ YIJYSQe tmY t Z tmY m Z 2 . .. 2 2 ij 2 ..ˆ :restrição a Com mínimo! Zpara condição 01*2 01*2 Análise de variância: Pelo método dos mínimos quadrados, usado para obter as estimativas de μ e t, a soma de quadrados do erro (ou resíduo) é mínima e representa a soma dos quadrados dos desvios entre cada observação e sua estimativa. 31 Na análise de variância a variação total é decomposta em variação devida ao erro e variação devida às estimativas dos parâmetros. O teorema de Pitágoras demonstra que um triângulo retângulo H2 = a2 + b2 ou b2 = H2 - a2. Como a soma de quadrados dos tratamentos e a soma dos quadrados dos erros são independentes, ou seja, ortogonais, pode-se fazer uma analogia com esse teorema, conforme ilustração da Figura 1. Figura 1 - Analogia da análise da variância com o teorema de Pitágoras. Sendo assim, tem-se: liberdade. de graus 1) - I(J 1) - (I - 1-IJ com ,SQ liberdade. de graus 1 - I com ,11 liberdade. de graus 1-IJ com ,1 E 2 .. 2 . 2 .. 2 STRATAMENTOTOTAL i iSTRATAMENTO ij ijTOTAL SQSQ Y IJ Y J SQ Y IJ YSQ Desta forma pode-se, então, organizar o quadro da análise de variância onde Quadrado Médio (variância) = Soma de Quadrados (variabilidade) / graus de liberdade. Tabela 1 - Análise de variância para tratamentos de efeito fixo C. V. G.L. S.Q. Q.M. E[QM] Tratamentos I - 1 SQTR QMTR 2 + i itI J 2 1 Erro (Resíduo) I(J - 1) SQR ou SQE QMR ou QME 2 Total IJ - 1 SQT Tabela 2 - Análise de variância para tratamentos de efeito aleatório C. V. G.L. S.Q. Q.M. E[QM] Tratamentos I - 1 SQTR QMTR 2 + J Erro (Resíduo) I(J - 1) SQR ou SQE QMR ou QME 2 Total IJ - 1 SQT 32 Alguns fundamentos da análise e variância no DIC. Experimento de avaliação de tempo de transmissão de pacotes entre duas máquinas, em décimos de segundo, de três diferentes topologias de rede de computadores. CROQUI: B C C A A B B A B A B C C C A C B A PLANILHA DE TRABALHO: TRAT REPETIÇÕES Totais 1 2 3 4 5 6 A 8,3 9,4 9,1 9,9 8,2 8,5 53,4 B 9,1 9,9 9,3 9,6 9,1 10,2 57,2 C 10,2 11,8 12,7 10,3 12,9 13,1 71 181,6 Obs.: Na planilha de trabalho ainda poderiam ser abertas colunas onde seriam colocadas mais informações, tais como: o número de repetições de cada tratamento, as médias e, também, as variâncias. 33 PLANILHA DE ENTRADA DE DADOS EM AMBIENTE COMPUTACIONAL: TRAT REP Y A=1 1 8,3 A 2 9,4 A 3 9,1 A 4 9,9 A 5 8,2 A 6 8,5 B=2 1 9,1 B 2 9,9 B 3 9,3 B 4 9,6 B 5 9,1 B 6 10,2 C=3 1 10,2 C 2 11,8 C 3 12,7 C 4 10,3 C 5 12,9 C 6 13,1 34 Conforme o modelo matemático do DIC, a saber: Yij = + ti + eij, há a formação de um sistema de equações lineares, conforme visto logo a seguir: 8,3 = + tA + eA1 9,4 = + tA + eA2 9,1 = + tA + eA3 9,9 = + tA + eA4 8,2 = + tA + eA5 8,5 = + tA + eA6 9,1 = + tB + eB1 9,9 = + tB + eB2 9,3 = + tB + eB3 9,6 = + tB + eB4 9,1 = + tB + eB5 10,2 = + tB + eB6 10,2 = + tC + eC1 11,8 = + tC + eC2 12,7 = + tC + eC3 10,3 = + tC + eC4 12,9 = + tC + eC5 13,1 = + tC + eC6 A resolução do sistema linear é feito, em ambientes computacionais, via sistema matricial, a saber: A matriz X, é chamada matriz de delineamento; A matriz Y é chamada de matriz de resultados, onde são colocados os valores das estimativas de Y – variável-resposta; A matriz é a matriz dos valores desconhecidos, que se quer determinar e, finalmente, a matriz , conhecida como matriz dos erros, valores atribuídos ao efeito do erro experimental em cada parcela (unidade experimental), que por uma questão de determinação e 35 quantificação do erro experimental, cuja magnitude deve ser considerado o menor possível, geralmente é igual a zero. 1 1 0 0 8,3 eA1 1 1 0 0 9,4 eA2 1 1 0 0 9,1 eA3 1 1 0 0 9,9 eA4 1 1 0 0 8,2 eA5 1 1 0 0 8,5 eA6 1 0 1 0 9,1 eB1 1 0 1 0 9,9 eB2 1 0 1 0 9,3 eB3 1 0 1 0 9,6 eB4 1 0 1 0 9,1 eB5 1 0 1 0 10,2 eB6 t1 X = 1 0 0 1 Y = 10,2 = eC1 = t2 1 0 0 1 11,8 eC2 t3 1 0 0 1 12,7 eC3 4 x 1 1 0 0 1 10,3 eC4 1 0 0 1 12,9 eC5 18 x 4 1 0 0 1 18 x 1 13,1 18 x 1 eC6 Esta matriz é constituída apenas por variáveis chamadas de dummy, cujos valores são apenas (0 e 1), que determinam “presença” ou “ausência” de determinado efeito, seja devido à média e/ou a tratamentos. Este é um sistema do tipo: Y = X * + { = 0}. A resolução de um sistema deste tipo, na forma matricial, que ocorre da seguinte maneira: (XT * X)-1 * Y = [(XT * X)-1 *(XT * X) = { 1}] * = (XT * X)-1 * Y. A operação de multiplicar a matriz X pela sua transversa XT, é feita com o objetivo de encontrar os valores desconhecidos, pois a quantidade de valores que se quer encontrar, neste caso, são 36 cinco, que compõem a matriz . Como não se faz divisão entre matrizes, inverte-se para resolver o sistema. Multiplicando X(18;4) por XT(4;18) obtém-se a matriz: (XT * X) (4;4), a saber: 18 6 6 6 (XT * X) = 6 6 0 0 6 0 6 0 (5 x 5) 6 0 0 6 Como sempre o determinante da matriz resultante será igual a zero (estudar as propriedades da matriz), não se encontra a inversa pelos procedimentos normalmente conhecidos, tendo-se que lançar mão de procedimentos da álgebra linear, conhecidos como inversas generalizadas, cujos métodos conhecidos são cinco: Duas formas de inversas condicionais, uma inversa de Moore Penrose; uma inversa reflexiva e uma inversa de mínimos quadrados. Uma forma prática de se obter uma inversa generalizadade uma matriz é zerar a primeira linha, a primeira coluna e, em seguida, inverter os valores da diagonal principal. Por exemplo, onde há o número 6, coloca-se 1/6 e daí por diante. Estes procedimentos geralmente acontecem enquanto os programas (ambientes computacionais) fazem (rodam) a análise estatística, não sendo visto pelo usuário comum. 37 Ao observar a planilha de trabalho, podem-se estabelecer algumas relações, a saber: Trat/Rep 1 2 3 4 5 6 Totais j Médias Variâncias A=1 8,3 9,4 9,1 9,9 8,2 8,5 53,4 6 8,9000 0,4600 B=2 9,1 9,9 9,3 9,6 9,1 10,2 57,2 6 9,5333 0,2027 C=3 10,2 11,8 12,7 10,3 12,9 13,1 71 6 11,8333 1,7027 Pode-se calcular o valor das estimativas do erro experimental para cada parcela, subtraindo-se o valor da estimativa de cada parcela pela média de cada tratamento. Assim, tem-se: Trat/Rep 1 2 3 4 5 6 Total A -0,6000 0,5000 0,2000 1,0000 -0,7000 -0,4000 0 B -0,4333 0,3667 -0,2333 0,0667 -0,4333 0,6667 0 C -1,6333 -0,0333 0,8667 -1,5333 1,0667 1,2667 0 Quando estudarmos o quadro da análise de variância do experimento (ANOVA ou ANAVA), verificaremos que o valor do Quadrado Médio do Resíduo (ou Erro) é igual ao valor da média das variâncias dos diversos tratamentos. No caso em particular, Q.M.R. = 0,7884 = 3 7027,12027,046,0 . 38 Ao estudarmos o efeito dos tratamentos (valor da média de cada tratamento subtraída da média geral), verificaremos que sua soma é nula, conforme restrição adotada para resolvermos o sistema que gerou as equações das somas de quadrados. No caso do experimento em estudo, a média geral é igual a 51,5. Assim, o efeito das estimativas dos tratamentos é: tˆ 1 = (8,9000 - 10,8889) = -1,1889 tˆ 2 = (9,5333 – 10,8889) = -0,5556 tˆ 3 = (11,8333 - 10,8889) = 1,7444 Soma = 0 A Soma de quadrados dos tratamentos é igual à soma dos efeitos dos tratamentos elevado ao quadrado, multiplicado pelo valor do número de repetições (j), a saber: S.Q.Tr. = [(-1,1889)2 + (-0,5556)2 + (1,7444)2 ] * 6 = 28,5911. A Soma de quadrados do Resíduo ou Erro é igual à soma de quadrados das estimativas do erro experimental em cada parcela, a saber: S.Q.R. = S.Q.E. = [(-0,6)2 + (0,5)2 + ... + (1,2667)2] = 11,8267. A Soma de Quadrados Total S.Q.T. resulta da doma de S.Q.R. + S.Q.Tr. = 28,5911 + 11,8267 = 40,4178. 39 Exemplo ilustrativo da aplicação do teste de Shapiro-Wilk: TRAT REPETIÇÕES Totais Médias 1 2 3 4 5 6 A 58 49 51 56 50 48 312 52,00 B 60 55 66 61 54 61 357 59,50 C 59 47 44 49 62 60 321 53,50 D 45 33 34 48 42 44 246 41,00 1.236 51,50 Média Geral do Experimento: M.G.: 51,5 Cálculo dos erros experimentais, em cada parcela: 6,00 -3,00 -1,00 4,00 -2,00 -4,00 0,50 -4,50 6,50 1,50 -5,50 1,50 5,50 -6,50 -9,50 -4,50 8,50 6,50 4,00 -8,00 -7,00 7,00 1,00 3,00 40 Exemplo do cálculo do erro para a Repetição 1, do tratamento A: eA;1 = 58 – 52,0 = 6,0. Cálculo do erro da repetição 1, do tratamento B: eA;1 = 60 – 59,5 = -0,5. E daí por diante, subtraindo-se cada valor individual por cada média do respectivo tratamento ao qual pertence. Pode-se observar facilmente que a soma algébrica dos erros positivos e negativos se anulam. Próximo passo: Colocação dos erros em ordem: i ei 1 -9,5 2 -8 3 -7 4 -6,5 5 -5,5 6 -4,5 7 -4,5 8 -4 9 -3 10 -2 11 -1 12 0,5 13 1 14 1,5 15 1,5 16 3 41 17 4 18 4 19 5,5 20 6 21 6,5 22 6,5 23 7 24 8,5 Como temos 4 tratamentos (I = 4), com 6 repetições (J = 6) cada, então o número de parcelas, ou unidades experimentais, deste experimento: I*J = 4 * 6 = 24. Então, vai-se até a Tabela T1 e destacam-se os coeficientes, conforme o respectivo número de unidades experimentais, a saber: P/n=24 0,4493 0,3098 0,2554 0,2145 0,1807 0,1512 42 0,1245 0,0997 0,0764 0,0539 0,0321 0,0107 Em seguida, calcula-se o valor da constante “g”, a saber: g = [0,4493 * (8,5 – (-9,5))] + [0,3098 * (7 – (-8))] + ... + [0,0107 * (0,5 – 1)] g = 25,1494. Valores parciais do cálculo de “g”: g 8,0874 4,647 3,4479 2,7885 2,07805 1,512 43 1,05825 0,7976 0,4584 0,18865 0,08025 0,00535 Cálculo da Soma de Quadrado dos Erros: S.Q.E. = (-9,5)2 + ... + (8,5)2 = 665. Agora, procede-se ao cálculo da estatística W: ܹ = (25,1494)ଶ665 = 0,9511∗∗ Vai-se até a Tabela T2 e destacam-se os valores referentes à estatística W, com n = 24 e α = 5% e 1%, respectivamente. W(24;5%) = 0,916 W(24;1%) = 0,884 Wc >Wt Aceita H0. 44 Como o valor do W calculado foi maior que o valor crítico, ou tabelado, então não se rejeita H0. Significa que os dados deste experimento provêm de uma população cujos erros se distribuem normalmente. Homogeneidade das variâncias – Homocedasticidade: Teste de Bartlett: As hipóteses formuladas, geralmente, são as seguintes: ቊ ܪ:ܣݏ ݒܽݎ݅â݊ܿ݅ܽݏ ݁݊ݐݎ݁ ܽݏ ݑ݈ܽçõ݁ݏ ݏã ℎ݉݃ê݊݁ܽݏ: ߪଶ = ߪଶ. ܪଵ:ܣݏ ݒܽݎ݅â݊ܿ݅ܽݏ ݁݊ݐݎ݁ ܽݏ ݑ݈ܽçõ݁ݏ ݏã ℎ݁ݐ݁ݎ݃ê݊݁ܽݏ: ߪଶ ≠ ߪଶ. Definidas as hipóteses, escolhe-se o nível de significância, geralmente 5% ou 1%. A estatística do teste é a seguinte: ଶ = (݊ − 1)݈݊ݏ̅ଶ −(݊ − 1)݈݊ݏଶ ୀଵ ୀଵ ൩ ∴ ݏ̅ଶ = ∑ (ିଵ)௦మೌసభ ∑ (ିଵ)ೌసభ ; Onde: a = I = Nº de tratamentos; ni = ji = número de repetições por tratamento; G.L. = I – 1. 45 Se o valor calculado do ଶ ficar próximo ao valor tabelado, necessário se faz a utilização do fator de correção, dado pela estatística: ܥ = 1 + 13(ܽ − 1) 1݊ − 1 − 1∑ (݊ଵ − 1)ୀଵୀଵ ൩ ; Onde: ni é o número de repetições do i-ésimo tratamento; a = número de tratamentos (I). Então, o valor do ଶ ajustado ficará: .ଶ = మ . Avaliação das regiões críticas, isto é: Região de aceitação (RA) e de rejeição (RR) de H0. 46 47 Exemplo ilustrativo da aplicação do Teste de Bartlett - Cálculos parciais: TRAT REPETIÇÕES Totais 1 2 3 4 5 6 j - 1 ࢙࢞ ln(࢙࢞) (n - 1)* ln(࢙࢞) (n - 1) * ࢙࢞ A 58 49 51 56 50 48 312 5 16,4 2,7973 13,9864 82,0000 B 60 55 66 61 54 61 357 5 19,5 2,9704 14,8521 97,5000 C 59 47 44 49 62 60 321 5 59,5 4,0860 20,4299 297,5000 D 45 33 34 48 42 44 246 5 37,6 3,6270 18,1350 188,0000 1.236 20 67,4034 665,0000 48 Os cálculos parciais restantes são os seguintes: ݏ̅ଶ = 665,000020 = 33,2500. O número de graus de liberdade: G.L. = (I – 1) = 4 – 1 = 3. (Número de tratamentos – 1). O cálculo do valor calculado da estatística do teste é: ଶ = 20 ∗ ln(33,2500) − 67,4034 = 2,677ࡺ.ࡿ.. Os valores tabelados são observados na tabela de qui-quadrado, teste paramétrico, que constam no arquivo: Tabelas Estatísticas. Para este caso, em particular, tem-se: (,;) = ૠ,ૡ. Este valor também poderá ser encontrado, usando-se a planilha Excel, na função <Inv.qui>, entrando-se com o nível de significância (5%) e o número de graus de liberdade (I – 1). A comparação, para proceder à tomada de decisão, ocorre da seguinte forma: Se ଶ > ௧ଶ ܴ݆݁݁݅ݐܽ − ݏ݁ ܪ ݁ ݈ܿ݊ܿݑ݅ − ݏ݁ ݍݑ݁ ܽݏ ݒܽݎ݅â݊ܿ݅ܽݏ ݏã ℎ݁ݐ݁ݎ݃ê݊݁ܽݏ.ܥܽݏ ܿ݊ݐݎáݎ݅ , ܽܿ݁݅ݐܽ − ݏ݁ ܪ ݁ ݎܿ݁݀݁ − ݏ݁ à ܣܱܸܰܣ. No caso de rejeição de H0, ou transformam-se os dados ou utiliza-se outros métodos, principalmente os não-paramétricos. 49 Tabela T1 – Valores dos Coeficientes ai,n para o teste de Shapiro-Wilk, onde n é o tamanho da amostra ou número de parcelas; i consiste no par ordenado de erros, dos mais extremos para os mais centrais. i n = 2 3 4 56 7 8 9 10 11 12 13 1 0,7071 0,7071 0,6872 0,6646 0,6431 0,6233 0,6062 0,5888 0,5739 0,5601 0,5475 0,5359 2 0,1677 0,2413 0,2806 0,3031 0,3164 0,3244 0,3291 0,3315 0,3325 0,3325 3 0,0875 0,1401 0,1743 0,1976 0,2141 0,2260 0,2347 0,2412 4 0,0561 0,0947 0,1224 0,1429 0,1586 0,1707 5 0,0399 0,0695 0,0922 0,1099 6 0,0303 0,0539 i n = 14 15 16 17 18 19 20 21 22 23 24 25 1 0,5251 0,5150 0,5056 0,4968 0,4886 0,4808 0,4734 0,4643 0,4590 0,4542 0,4493 0,4450 2 0,3318 0,3306 0,3290 0,3272 0,3253 0,3232 0,3211 0,3185 0,3156 0,3126 0,3098 0,3069 3 0,2460 0,2495 0,2521 0,2540 0,2553 0,2561 0,2565 0,2578 0,2571 0,2563 0,2554 0,2543 4 0,1802 0,1878 0,1939 0,1988 0,2027 0,2059 0,2085 0,2119 0,2131 0,2139 0,2145 0,2148 5 0,1240 0,1353 0,1447 0,1524 0,1587 0,1641 0,1686 0,1736 0,1764 0,1787 0,1807 0,1822 6 0,0727 0,0880 0,1005 0,1109 0,1197 0,1271 0,1334 0,1399 0,1443 0,1480 0,1512 0,1539 7 0,0240 0,0433 0,0593 0,0725 0,0837 0,0932 0,1013 0,1092 0,1150 0,1201 0,1245 0,1283 8 0,0196 0,0359 0,0496 0,0612 0,0711 0,0804 0,0878 0,0941 0,0997 0,1046 9 0,0163 0,0303 0,0422 0,0530 0,0618 0,0696 0,0764 0,0823 10 0,0140 0,0263 0,0368 0,0459 0,0539 0,0610 11 0,0122 0,0228 0,0321 0,0403 12 0,0107 0,0200 13 0,0000 50 I n = 26 27 28 29 30 31 32 33 34 35 36 37 1 0,4407 0,4366 0,4328 0,4291 0,4254 0,4220 0,4188 0,4156 0,4127 0,4096 0,4068 0,4040 2 0,3043 0,3018 0,2992 0,2968 0,2944 0,2921 0,2898 0,2876 0,2854 0,2834 0,2813 0,2794 3 0,2533 0,2522 0,2510 0,2499 0,2487 0,2475 0,2463 0,2451 0,2439 0,2427 0,2413 0,2403 4 0,2151 0,2152 0,2151 0,2150 0,2148 0,2145 0,2141 0,2137 0,2132 0,2127 0,2121 0,2116 5 0,1836 0,1848 0,1857 0,1864 0,1870 0,1874 0,1878 0,1880 0,1882 0,1883 0,1883 0,1883 6 0,1563 0,1584 0,1601 0,1616 0,1630 0,1641 0,1651 0,1660 0,1667 0,1673 0,1678 0,1683 7 0,1316 0,1346 0,1372 0,1395 0,1415 0,1433 0,1449 0,1463 0,1475 0,1487 0,1496 0,1505 8 0,1089 0,1128 0,1162 0,1192 0,1219 0,1243 0,1265 0,1284 0,1301 0,1317 0,1331 0,1344 9 0,0876 0,0923 0,0965 0,1002 0,1036 0,1066 0,1093 0,1118 0,1140 0,1160 0,1179 0,1196 10 0,0672 0,0728 0,0778 0,0822 0,0862 0,0899 0,0931 0,0961 0,0988 0,1013 0,1036 0,1056 11 0,0476 0,0540 0,0598 0,0650 0,0697 0,0739 0,0777 0,0812 0,0844 0,0873 0,0900 0,0924 12 0,0284 0,0358 0,0424 0,0483 0,0537 0,0585 0,0629 0,0669 0,0706 0,0739 0,0770 0,0798 13 0,0094 0,0178 0,0253 0,0320 0,0381 0,0435 0,0485 0,0530 0,0572 0,0610 0,0645 0,0677 14 0,0000 0,0084 0,0159 0,0227 0,0289 0,0344 0,0395 0,0441 0,0484 0,0523 0,0559 15 0,0000 0,0076 0,0144 0,0206 0,0262 0,0314 0,0361 0,0404 0,0444 16 0,0000 0,0068 0,0131 0,0187 0,0239 0,0287 0,0331 17 0,0000 0,0062 0,0119 0,0172 0,0220 18 0,0000 0,0057 0,0110 19 0,0000 51 I n = 38 39 40 41 42 43 44 45 46 47 48 49 50 1 0,4015 0,3989 0,3964 0,3940 0,3917 0,3894 0,3872 0,3850 0,3830 0,3808 0,3789 0,3770 0,3751 2 0,2774 0,2755 0,2737 0,2719 0,2701 0,2684 0,2667 0,2651 0,2635 0,2620 0,2604 0,2589 0,2574 3 0,2391 0,2380 0,2368 0,2357 0,2345 0,2334 0,2323 0,2313 0,2302 0,2291 0,2281 0,2271 0,2260 4 0,2110 0,2104 0,2098 0,2091 0,2085 0,2078 0,2072 0,2065 0,2058 0,2052 0,2045 0,2038 0,2032 5 0,1881 0,1880 0,1878 0,1876 0,1874 0,1871 0,1868 0,1865 0,1862 0,1859 0,1855 0,1851 0,1847 6 0,1686 0,1689 0,1691 0,1693 0,1694 0,1695 0,1695 0,1695 0,1695 0,1695 0,1693 0,1692 0,1691 7 0,1513 0,1520 0,1526 0,1531 0,1535 0,1539 0,1542 0,1545 0,1548 0,1550 0,1551 0,1553 0,1554 8 0,1356 0,1366 0,1376 0,1384 0,1392 0,1398 0,1405 0,1410 0,1415 0,1420 0,1423 0,1427 0,1430 9 0,1211 0,1225 0,1237 0,1249 0,1259 0,1269 0,1278 0,1286 0,1293 0,1300 0,1306 0,1312 0,1317 10 0,1075 0,1092 0,1108 0,1123 0,1136 0,1149 0,1160 0,1170 0,1180 0,1189 0,1197 0,1205 0,1212 11 0,0947 0,0967 0,0986 0,1004 0,1020 0,1035 0,1049 0,1062 0,1073 0,1085 0,1095 0,1105 0,1113 12 0,0824 0,0848 0,0870 0,0891 0,0909 0,0927 0,0943 0,0959 0,0972 0,0986 0,0998 0,1010 0,1020 13 0,0706 0,0733 0,0759 0,0782 0,0804 0,0824 0,0842 0,0860 0,0876 0,0892 0,0906 0,0919 0,0932 14 0,0592 0,0622 0,0651 0,0677 0,0701 0,0724 0,0745 0,0765 0,0783 0,0801 0,0817 0,0832 0,0846 15 0,0481 0,0515 0,0546 0,0575 0,0602 0,0628 0,0651 0,0673 0,0694 0,0713 0,0731 0,0748 0,0764 16 0,0372 0,0409 0,0444 0,0476 0,0506 0,0534 0,0560 0,0584 0,0607 0,0628 0,0648 0,0667 0,0685 17 0,0264 0,0305 0,0343 0,0379 0,0411 0,0442 0,0471 0,0497 0,0522 0,0546 0,0568 0,0588 0,0608 18 0,0158 0,0203 0,0244 0,0283 0,0318 0,0352 0,0383 0,0412 0,0439 0,0465 0,0489 0,0511 0,0532 19 0,0053 0,0101 0,0146 0,0188 0,0227 0,0263 0,0296 0,0328 0,0357 0,0385 0,0411 0,0436 0,0459 20 0,0000 0,0049 0,0094 0,0136 0,0175 0,0211 0,0245 0,0277 0,0307 0,0335 0,0361 0,0386 21 0,0000 0,0045 0,0087 0,0126 0,0163 0,0197 0,0229 0,0259 0,0288 0,0314 22 0,0000 0,0042 0,0081 0,0118 0,0153 0,0185 0,0215 0,0244 23 0,0000 0,0039 0,0076 0,0111 0,0143 0,0174 24 0,0000 0,0037 0,0071 0,0104 25 0,0000 0,0035 52 Tabela T2 – Valores críticos para o Teste de Shapiro-Wilk, onde: n = número de parcelas ou tamanho da amostra; α = Nível de significância estabelecido. N α = 0,05 α = 0,01 3 0,767 0,753 4 0,748 0,687 5 0,762 0,686 6 0,788 0,713 7 0,803 0,730 8 0,818 0,749 9 0,829 0,764 10 0,842 0,781 11 0,850 0,792 12 0,859 0,805 13 0,866 0,814 14 0,874 0,825 15 0,881 0,835 16 0,887 0,844 17 0,892 0,851 18 0,897 0,858 19 0,901 0,863 20 0,905 0,868 21 0,908 0,873 22 0,911 0,878 23 0,914 0,881 24 0,916 0,884 25 0,918 0,888 26 0,920 0,891 27 0,923 0,894 53 N α = 0,05 α = 0,01 28 0,924 0,896 29 0,926 0,898 30 0,927 0,900 31 0,929 0,902 32 0,930 0,904 33 0,931 0,906 34 0,933 0,908 35 0,934 0,910 36 0,935 0,912 37 0,936 0,914 38 0,938 0,916 39 0,939 0,917 40 0,940 0,919 41 0,941 0,920 42 0,942 0,922 43 0,943 0,923 44 0,944 0,924 45 0,945 0,926 46 0,945 0,927 47 0,946 0,928 48 0,947 0,929 49 0,947 0,929 50 0,947 0,930 54 Apesar de ser muito freqüente a necessidade de comparar duas médias amostrais, existem situações onde o pesquisador necessita comparar as médias de várias amostras concomitantemente. Nestes casos, deve-se aplicar a análise de variância, que possibilita detectar de há diferença entre as médias comparadas, todavia não indique entre quais médias há diferença, havendo necessidade de aplicação de testes complementares de comparação de médias múltiplas ou de uma técnica alternativa que é a comparação de médias, ou grupos de médias, a partir de utilização de contrastes ortogonais. Por uma questão de princípio, as variâncias das amostras não diferem significativamente entre si, isto é, podem ser consideradas como estimativas da mesma variância σ2. Além de tais valores, também será possível calcular a variância total, a variância entre as amostras e a variância dentro das amostras. As fórmulas que permitem calcular as variâncias, ou quadrados médios, têm como precursoras as somas de quadrados ou variabilidades, a saber: Resolvendo a ANOVA pelo método tradicional, primeiro efetuam-se alguns cálculos preliminares, a saber: .142,1832 6*3 6,181 .56,18721,13...3,8... .6,1811,13...3,8... 6 3 22 2222 11 2 11 IJ GC XXX XXXG J I IJij ij ij IJij Obtenção dos Graus de Liberdade: G.L. Total G.L.T. = I*J – 1 = 6*3 – 1 = 17 G.L. Tratamentos G.L.Tr. = I – 1 = 3 – 1 = 2 G.L. Resíduo = G.L.R. = G.L.T. – G.L.Tr. = 17 – 2 = 15. Cálculo das Somas de Quadrados: Soma de quadrados totais: 4178,40142,183256,1872... 2 2 n X XTQS Soma de quadrados de tratamentos (entre as amostras): 55 .5911,28142,183271...4,53* 61... 22 22 n X r T TrQS Soma de quadrados dos resíduos (dentro das amostras): S.Q.R. = S.Q.T. - S.Q.Tr. = 40,4178 – 28,5911 = 11,8267. Desta forma, fica muito mais fácil a obtenção dos valores restantes da tabela de ANOVA, conforme se pode verificar abaixo: Tabela da análise de variância (ANOVA) Causas de Variação Graus de Liberdade Soma de Quadrados Quadrado Médio F Entre as amostras t - 1 S.Q.Tr. S.Q.Tr/(t - 1) Q.M.Tr./Q.M.R. Dentro das amostras (n - 1) - (t - 1) = n - t S.Q.R. S.Q.R./(n - t) - Total n - 1 S.Q.T. - - onde: t = número de tratamentos comparados. Assim, tem-se: F.V. ou C.V. G.L. S.Q. Q.M. F. Signif. Tratamentos 2 28,5911 14,2956 18,1313 ** Resíduo 15 11,8267 0,7884 Total 17 40,4178 5%F(2;15) = 3,6823 1%F(2;15) = 6,3589. Agora podemos calcular o valor do Coeficiente de Variação do experimento, a saber: %.93,4%..100* 0889,10 7884,0%..100* ... %.. VCVC X RMQ VC Pode-se observar que, para um experimento com poucos tratamentos e poucas repetições por tratamento, tal magnitude não é considerada muito alta, o que dá credibilidade aos dados ora em investigação. 56 Forma Alternativa de obtenção das Somas de Quadrados, e consequentemente a ANOVA, mediante aplicação de cálculo matricial: Podem-se obter as Somas de Quadrados, também, de forma matricial, utilizando os efeitos de tratamentos, efeitos dos erros, assim como os totais, a saber: Trat Rep TMP Trat Rep ti eij TMP A 1 8,3 A 1 10,0889 -1,1889 -0,6000 8,3 A 2 9,4 A 2 10,0889 -1,1889 0,5000 9,4 A 3 9,1 A 3 10,0889 -1,1889 0,2000 9,1 A 4 9,9 A 4 10,0889 -1,1889 1,0000 9,9 A 5 8,2 A 5 10,0889 -1,1889 -0,7000 8,2 A 6 8,5 A 6 10,0889 -1,1889 -0,4000 8,5 B 1 9,1 B 1 10,0889 -0,5556 -0,4333 9,1 B 2 9,9 B 2 10,0889 -0,5556 0,3667 9,9 B 3 9,3 B 3 10,0889 -0,5556 -0,2333 9,3 B 4 9,6 B 4 10,0889 -0,5556 0,0667 9,6 B 5 9,1 B 5 10,0889 -0,5556 -0,4333 9,1 B 6 10,2 B 6 10,0889 -0,5556 0,6667 10,2 C 1 10,2 C 1 10,0889 1,7444 -1,6333 10,2 C 2 11,8 C 2 10,0889 1,7444 -0,0333 11,8 C 3 12,7 C 3 10,0889 1,7444 0,8667 12,7 C 4 10,3 C 4 10,0889 1,7444 -1,5333 10,3 C 5 12,9 C 5 10,0889 1,7444 1,0667 12,9 C 6 13,1 C 6 10,0889 1,7444 1,2667 13,1 Em seguida, obtêm-se as matrizes, a saber: 1 8,3 Totais = ... ... (18 x 2) 1 13,1 1 -1,1889 Trat = ... ... (18 x 2) 1 1,7444 1 -0,6 Erros = ... ... (18 x 2) 1 1,2667 Das matrizes obtidas, obtêm-se as respectivas transpostas, a saber: 57 1 ... 1 TotaisT = 8,3 ... 13,1 (2 x 18) 1 ... 1 TratT = -1,1889 ... 1,7444 (2 x 18) 1 ... 1 ErrosT = -0,6 ... 1,2667 (2 x 18) O próximo passo será multiplicar as matrizes transpostas pelas respectivas matrizes iniciais, obtendo-se matrizes quadradas, das quais se calcula os respectivos determinantes. Os respectivos determinantes divididos pelo número de unidades experimentais ou parcelas fornecem as respectivas somas de quadrados, a saber: 18 181,6 TotTTot = 181,6 1872,56 (2 x 2) det = 727,52 S.Q.T. = 40,4178 S.Q. = det/(I*J) 18 0,0000 TratTTrat = 0,0000 28,5911 (2 x 2) det = 514,64 S.Q.Tr. = 28,5911 S.Q. = det/(I*J) 18 0,0000 ErrosTErros = 0,0000 11,8267 (2 x 2) det = 212,88 S.Q.R. = 11,8267 S.Q. = det/(I*J) Como já foi mencionado, o teste F, análise da variância, indica se há, ou não, diferença entre as médias das amostras comparadas, que representam os tratamentos, mas não deixa claro entre quais médias há diferença. Assim, torna-se necessário aplicar um dos testes de comparação de médias múltiplas. Existem várias opções, a saber: Teste de Tukey, teste de Duncan, teste de Scheffé, teste “t” de Student, teste de Dunnett, teste de Bonferroni, teste de Scott Knott e o teste de Student-Newman-Keuls (SNK), além do método dos 58 contrastes ortogonais. Neste caso em particular, vamos estudar o teste de Tukey, por ser considerado o mais robusto, além de ser o mais utilizado de forma geral. Este teste tem como base a diferença mínima significativa (DMS), representada por Δ, calculada segundo as situações abaixo: Neste caso, em particular, o teste F nos indicou que há diferença significativa entre as médias dos tratamentos comparados, o eu se pode afirmar com 1% de significância ou erro. Ainda não podemos, contudo, afirmar entre quais tratamentos, representados pelas suas médias, há diferença significativa. Para tanto, necessitamos aplicar um Teste de Comparação Múltipla de Médias. No caso, o Teste de Tukey. Estatística do teste de Tukey: Para dados balanceados (mesmo número e repetições para todas as amostras ou tratamentos): ...** ˆ RMQssqr sq m Para dados desbalanceados (números distintos de repetições para amostras ou tratamentos): ki ki mmYRMQ rr YVYVq ˆˆˆ...*11)ˆ(ˆ)ˆ(ˆ 2 1*' com ri e rk repetições respectivamente. O valor de “q” é um valor tabulado, sendo um distribuição de amplitude estudentizada ou padronizada. Exemplo: Dada uma distribuição, com n observações Y1, Y2, ..., Yn de uma distribuição normal, com média μ e variância σ2, estimada por s2, baseada na padronização dada por: s YMinYMax q iiglt , Aplicação do Teste de Tukey para o exemplo acima: ...** ˆ RMQssqr sq m .3304,13625,0*67,3 6 7884,0*...* 315... qJ RMQq I RLG 59 Calculada a estatística do Teste de Tukey, deve-se colocar as médias em ordem decrescente, a saber: mˆ C = 11,8333 mˆ B = 9,5333 mˆ A = 8,9000 Em seguida, as médias são comparadas, duas a duas, mediante aplicação de contrastes. O número total de contrastes envolvidos na comparação pode ser obtido mediante combinação, envolvendo o número de médias a serem comparadas, duas a duas, a saber: .3 !23!2 !3 2;3 C Portanto, utilizaremos seis contrastes, a saber: .. 1 * 1 * 1 6333,09000,85333,9ˆˆ 9333,29000,88333,11ˆˆ 3,25333,98333,11ˆˆ SN AB AC BC mmY mmY mmY Os valores destes contrastes foram comparados ao valor da estatística do teste de Tukey, obedecendo ao seguinte critério: .. Y * Y i i SNSe Se Onde: “*” Significa que há diferença significativa entre as médias comparadas. “N.S.” significa que não há diferença significativa entre as médias comparadas. No resultado final, que é o resumo do Teste de Tukey, observa-se que médias acompanhadas da mesma letra não apresentam diferenças significativas entre si, de acordo com o teste, ao nível de significância testado, geralmente 5%. mˆ C = 11,8333ª mˆ B = 9,5333b mˆ A = 8,9000b 60 Tal procedimento, no Excel, pode ser feito rapidamente da seguinte forma: Vá ao menu: Ferramentas ou <alt> + <m>, sendo a primeira vez, procure Suplementos e ative (ferramentas de análise). Se já utilizou tal ferramenta anteriormente, vá direto a (Ferramentas de análise) e escolha a opção (Análise de variância fator único). Em seguida, retornará a seguinte tela: 61 Entre com as opções disponíveis, tais como intervalo de entrada (conjunto de dados e sua disposição); (Presença, ou não, de rótulos de dados na primeira linha – cabeçalho); Nível de significância (alfa); Onde deseja que seja postado o relatório de saída dos dados (output). No Excel, os dados devem estar na seguinte formatação:
Compartilhar