Baixe o app para aproveitar ainda mais
Prévia do material em texto
MMMaaattteeerrriiiaaalll DDDeee EEEssstttaaatttíííssstttiiicccaaa IIInnnfffeeerrreeennnccciiiaaalll Professores: Valéria da S. C. Shiguti Wanderley Akira Shiguti Brasília, 2007 ÍNDICE CONTEÚDO PÁGINA UNIDADE I – Correlação Linear Simples .............................................................................. 01 UNIDADE II – Estimação ....................................................................................................... 08 UNIDADE III – Teste de Significância ................................................................................... 14 UNIDADE IV – Análise de Variância..................................................................................... 18 UNIDADE V – Testes Não-Paramétricos................................................................................ 25 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL CORRELAÇÃO LINEAR SIMPLES 1 UNIDADE I –CORRELAÇÃO LINEAR SIMPLES INTRODUÇÃO A análise de correlação compreende análise de dados amostrais para saber como duas ou mais variáveis estão relacionadas umas com as outras em uma população. O objetivo nesse item é o estudo de situações de duas variáveis. A análise de correlação fornece um número que resume o grau de relacionamento entre duas variáveis. Ela é útil em um trabalho exploratório, quando um pesquisador ou analista procura determinar quais variáveis são potencialmente importantes e o interesse está no grau ou na força desse relacionamento. Por exemplo, quando uma variável aumenta de valor, de que maneira é influenciada a outra variável? ALGUNS CASOS DE RELACIONAMENTO DE VARIÁVEIS: 1. A idade e a resistência física? 2. Pessoas de maior renda tendem a apresentar maior escolaridade? 3. O sucesso em um emprego pode ser predito com base no resultado de testes? 4. A temperatura parece influenciar a taxa de criminalidade? Dois tipos de pesquisas são avaliados quando se pretende estudar um conjunto de dado. A pesquisa Experimental e a pesquisa de um estudo de relacionamento. A primeira manipula-se uma variável e medem-se as mudanças conseqüentes em uma outra variável, enquanto que o segundo tipo de pesquisa, mede-se ambas variáveis, procurando relacionar as mudanças que ocorrem naturalmente em uma variável – por exemplo, a rapidez na leitura – com as mudanças que ocorrem naturalmente com a outra variável – por exemplo, a inteligência. Para tal medem-se os QI’s e a rapidez em uma grande amostra de pessoas e depois se analisam os dados, para verificar se as pessoas de elevado QI tendem também a Ter melhores velocidades, e as pessoas de baixo QI, piores. Um modo de apresentar os resultados é através de um diagrama de dispersão: CORRELAÇÃO LINEAR SIMPLES OBJETIVO DO ESTUDO: medir e avaliar o grau de relação existente entre duas variáveis aleatórias. Por exemplo, podemos avaliar se a relação entre número de filhos de uma família e sua renda é forte, fraca ou nula. A correlação linear procura medir a relação entre as variáveis x e y através da disposição dos pontos (x, y) em torno de uma reta. 0 2 4 6 8 10 12 90 100 110 120 130 140 QI R ap id e z EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL CORRELAÇÃO LINEAR SIMPLES 2 MEDIDA DE CORRELAÇÃO COEFICIENTE DE PEARSON: ( )( ) ( ) ( ) − − ∑∑− = ∑ ∑∑ ∑ ∑ n y y n x x n yxxy rxy 2 2 2 2 Podemos utilizar outras notações a respeito do Coeficiente: ( )( ) ( )( ) ( ) ( ) ( ) ( )∑∑ ∑∑ ∑∑ −=∑−= −=∑−= −−=∑∑−= 2 2 2 2 2 2 yy n yyS xx n xxS xxyy n yxxyS yy xx xy Portanto, yyxx xy xy SS S r ⋅= Variação do Coeficiente de Pearson: 11 ≤≤− xyr INTERPRETAÇÃO a) Correlação Linear Positiva Gráfico de dispersão 0 < r xy < 1 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL CORRELAÇÃO LINEAR SIMPLES 3 b) Correlação Linear Perfeita Positiva c) Correlação Linear Negativa d) Correlação Linear Perfeita Negativa e) Correlação Nula Gráfico de dispersão r xy = 0 Gráfico de dispersão r xy = 1 Gráfico de dispersão r xy = -1 Gráfico de dispersão -1 < r xy < 0 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL CORRELAÇÃO LINEAR SIMPLES 4 CÁLCULO PRÁTICO DO COEFICIENTE DE PEARSON Exemplo: ( )( ) ( ) ( ) 416,08,2040 12 5 46444 5 30220 5 4630288 22 =⋅= − − − =xyr Se rxy = 0,416, então temos uma correlação linear positiva. x y x2 y2 xy - - - - - - - - - - ... ... ... ... ... - - - - - - - - - - Σ x Σ y Σ x2 Σ y2 Σ xy x y x2 y2 xy 2 10 4 100 20 4 8 16 64 32 6 6 36 36 36 8 10 64 100 80 10 12 100 144 120 30 46 220 444 288 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL CORRELAÇÃO LINEAR SIMPLES 5 TESTE DE SIGNIFICÂNCIA PARA O COEFICIENTE DE CORRELAÇÃO OBJETIVO Testar a hipótese de que o coeficiente de correlação linear entre duas variáveis é nulo contra a alternativa de que é não nulo: H0: rxy = 0 Ha: rxy ≠ 0 TESTE t Como foi visto anteriormente, o coeficiente de correlação assume valores de -1 a +1. Se resultasse num resultado igual a zero diz-se que não existe correlação entre duas variáveis. Mesmo se resultasse em rxy = 0,30 deve-se levar em consideração o tamanho da amostra. O que significa que este tamanho pode influenciar no valor do coeficiente. Ou seja, um valor de coeficiente alto tem pouco significado se fosse proveniente de uma amostra muito pequena. Para tanto, utiliza-se o teste t para verificar se o coeficiente é nulo ou não. Procedimento Para aplicar tal teste, utiliza-se a fórmula: 2 1 2 −⋅ − = n r r t xy xy onde: rxy = coeficiente de correlação linear calculado n = tamanho da amostra Este teste está associado a n-2 graus de liberdade. Exemplo: Considere o exemplo anterior: rxy = 0,416 n = 5 graus de liberdade = 3 Então: 7923,0732,1 9094,0 416,025 416,01 416,0 2 =⋅=−⋅ − =t Ao nível de significância de 5% a tabela apresentada na página seguinte fornece o valor t = 3,18, com 3 graus de liberdade. Resultado do teste Como o valor de t calculado (0,7923) é menor que o tabelado (3,18), a correlação entre as duas variáveis não é significante ao nível de 5%, ou seja, aceita-se a hipótese de que a correlação é nula. EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL CORRELAÇÃO LINEAR SIMPLES 6 0,10 0,05 0,01 1 6,31 12,71 63,66 2 2,92 4,30 9,92 3 2,35 3,18 5,84 4 2,13 2,78 4,60 5 2,02 2,57 4,03 6 1,94 2,45 3,71 7 1,89 2,36 3,50 8 1,86 2,31 3,36 9 1,83 2,26 3,25 10 1,81 2,23 3,17 11 1,80 2,20 3,11 12 1,78 2,18 3,05 13 1,77 2,16 3,01 14 1,762,14 2,98 15 1,75 2,13 2,95 16 1,75 2,12 2,92 17 1,74 2,11 2,90 18 1,73 2,10 2,88 19 1,73 2,09 2,86 20 1,72 2,09 2,85 21 1,72 2,08 2,83 22 1,72 2,07 2,82 23 1,71 2,07 2,81 24 1,71 2,06 2,80 25 1,71 2,06 2,79 26 1,71 2,06 2,78 27 1,70 2,05 2,77 28 1,70 2,05 2,76 29 1,70 2,05 2,76 30 1,70 2,04 2,75 31 1,70 2,04 2,74 32 1,69 2,04 2,74 33 1,69 2,03 2,73 34 1,69 2,03 2,73 35 1,69 2,03 2,72 36 1,69 2,03 2,72 37 1,69 2,03 2,72 38 1,69 2,02 2,71 39 1,68 2,02 2,71 40 1,68 2,02 2,70 41 1,68 2,02 2,70 42 1,68 2,02 2,70 43 1,68 2,02 2,70 44 1,68 2,02 2,69 45 1,68 2,01 2,69 46 1,68 2,01 2,69 47 1,68 2,01 2,68 48 1,68 2,01 2,68 49 1,68 2,01 2,68 50 1,68 2,01 2,68 TABELA 01. DISTRIBUIÇÃO t DE STUDENT GRAUS DE LIBERDADE α EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL CORRELAÇÃO LINEAR SIMPLES 7 EXERCÍCIOS 1. A tabela abaixo mostra os resultados de uma pesquisa com 10 famílias de uma determinada região: a) Forme os pares entre as variáveis acima e respondendo o que se pede: i) Calcule o coeficiente de correlação linear de Pearson; ii) Aplique o teste de significância ao nível de 5% de significância. 2. Uma cadeia de lojas possui 8 estabelecimentos em oito cidades de uma região. As cidades para a instalação das lojas são escolhidas quando suas características como população, nível de renda, nível educacional, concorrências, etc., guardam semelhança com as cidades onde foram instaladas as primeiras lojas, já que naquelas cidades as lojas se mostraram lucrativas. O diretor de marketing da cadeia acredita que dentro destes critérios e obedecendo aos limites racionais, pode-se prever o volume de vendas de uma loja com base na área de vendas. A tabela, que representa a área de vendas em metros quadrados e as vendas correspondentes (em R$10.000,00) no último ano, foi levantada para um estudo dessa hipótese. Tabela 2. Informações sobre área de vendas (m2) e as correspondentes vendas (em R$10.000,00) da cadeia de lojas no último ano Fonte: RH da empresa a) Calcule o coeficiente de correlação linear de Pearson; b) Aplique o teste de significância aos níveis de 1% e 5% de significância. Famílias Renda (R$100,00) Poupança (R$1.000,00) Número de filhos Média de anos de estudo da família A 10 4 8 3 B 15 7 6 4 C 12 5 5 5 D 70 20 1 12 E 80 20 2 16 F 100 30 2 18 G 20 8 3 8 H 30 8 2 8 I 10 3 6 4 J 60 15 1 8 Fonte: Toledo e Ovalle (1995) Tabela 1. Variáveis sócio-econômicas de 10 famílias de uma determinada região Área de Vendas Vendas (m2) (R$ 10,000.00) 650 71 800 92 820 84 850 80 940 97 1,000 91 1,100 90 1,120 110 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ESTIMAÇÃO 8 UNIDADE II – ESTIMAÇÃO INTRODUÇÃO O processo de estimação tem por finalidade avaliar parâmetros de uma distribuição. Podemos utilizar um único número real para avaliar um parâmetro. Neste caso estamos procedendo a uma estimação pontual. O valor da média amostral é uma estimação por ponto. Da mesma forma o valor da variância, desvio padrão e proporção amostrais são estimativas por ponto dos parâmetros variância, desvio padrão e proporção populacionais, respectivamente. Estimador Estimativa por ponto Parâmetro x x = 20 µ s2(x) s2(x) = 5 ( )xσ 2 s(x) s(X) = 2 ( )xσ pˆ pˆ = 0,3 p Fazendo uso da estimativa por ponto encontramos uma dificuldade a de que amostras diferentes conduzem normalmente a estimativas diferentes. A variabilidade não pode ser controlada neste processo. O controle estatístico desta variabilidade nos leva então a fixar a estimação através de um intervalo. INTERVALO DE CONFIANÇA É um intervalo real, centrado na estimativa pontual que deverá conter o parâmetro com determinada probabilidade. Esta probabilidade será conhecida como nível de confiança associado ao intervalo. A notação mais usual para o nível de confiança é 1-α . Se pensarmos em uma diferença entre o valor estimado e o parâmetro, já que diferentes amostras conduzem a valores diferentes de estimadores, estaremos calculando o erro-padrão de estimativa. e = |estimativa – parâmetro | O controle da precisão se resumirá na determinação do erro-padrão da estimativa. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS Considere a seguinte população x={2, 3, 4, 5}. Esta população apresenta ( ) ( ) 12,1xσ 25,1xσ 3,5 µ 2 === Se nós considerarmos todas as amostras de tamanho n=2 que podemos obter com reposição teremos: A1 = (2,2) A6 = (3,4) A2 = (2,3) A7 = (3,5) A3 = (2,4) A8 = (4,4) A4 = (2,5) A9 = (4,5) A5 = (3,3) A10 = (5,5) Cada uma destas amostras possui um valor médio: 2 x1 = 3,5 x 6 = 2,5 x 2 = 4 x 7 = 3 x 3 = 4 x8 = 3,5 x 4 = 4,5 x 9 = EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ESTIMAÇÃO 9 3 x 5 = 5 x10 = Podemos calcular a médias das médias bem como a sua variância e o seu desvio-padrão, assim: ( ) ( ) 87,0xσ 75,0xσ 3,5 x 2 === Note que: A média das médias é igual a média populacional : µ x = ; A variância das médias amostrais mantém com a variância populacional a seguinte relação : ( ) ( ) n xσxσ 2 2 = No exemplo: ( ) ( ) n xσxσ 2 2 = = 75,0 2 1,25 = Estes resultados são conclusões gerais dos seguintes teoremas: 1. Se a variável aleatória x admite distribuição Normal de probabilidade com média µ e variância ( )xσ 2 , então a distribuição amostral das médias é também normal com média µ x = e variância ( ) ( ) n xσxσ 2 2 = ; 2. Se uma variável aleatória x tem média µ e variância ( )xσ 2 , então a distribuição amostral das médias se aproxima de uma distribuição normal com média µ x = e com variância ( ) ( ) n xσxσ 2 2= , à medida que o número n de elementos tende a infinito. EXEMPLO: 1. Uma v.a. x tem distribuição normal com média 20 e desvio-padrão de 3. Calcule a probabilidade de que uma amostra de 20 elementos selecionada ao acaso tenha média maior que 21. INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL Como já foi estudado para se transformar uma distribuição Normal x em uma distribuição Normal z utilizamos a mudança de variável ( )xσ µ -x z = A transformação da distribuição x na distribuição z , é por analogia: ( )xσ x - x z = como foi visto anteriormente µ x = e ( ) ( ) n xσxσ 2 2 = , logo: ( ) n xσ µ - x z = . EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ESTIMAÇÃO 10 Em termos de distribuição normal z o nível de confiança é a probabilidade de o intervalo conter o parâmetro estimado, isto representa a área central sob a curva normal entre os pontos 2 α 2 α z e z- , Observe que a área total sob a curva normal é unitária. Se a área central é 1-α ., a notação z- 2 α representa o valor de z que deixa a sua esquerda 2 α , e a notação 2 αz representa o valor de z que deixa a sua direita a área 2 α . Desta forma: α1 z z z -P 2 α 2 α −= << Se substituirmos o valor de z por ( ) n xσ µ - x z = e utilizando alguns cálculos matemáticos encontraremos a expressão final do Intervalo de Confiança para a estimativa da média populacional. ( ) ( ) n xσz :onde α1 x µ - xP 2 α ⋅= −=+<< e ee Para calcular esta expressão deveremos pressupor o conhecimento do desvio-padrão populacional, e que a amostragem foi obtida com reposição. Além disso, é importante salientar que ( ) n xσz 2 α ⋅ representa o erro- padrão de estimativa, e que os limites são estabelecidos pelos valores (estimativa – erro, estimativa +erro) No caso em que: • desconhecemos a variância populacional (σ2) • tamanho da amostra ser menor que 30 (n<30) O intervalo de confiança para a média populacional torna-se: ( ) α1 x µ - xP −=+<< ee α α α ciasignificân de nível ao e liberdade de graus 1 com tabelana encontrado é n s :onde 2 2 n-tt te ⋅= EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ESTIMAÇÃO 11 EXEMPLO: O departamento de recursos humanos de uma grande empresa informa que o tempo de execução de tarefas que envolvem participação manual varia de tarefa para tarefa. Uma nova tarefa está sendo implantada na empresa. Uma amostra aleatória do tempo de execução de 25 destas novas tarefas forneceu o valor médio de 15 minutos e um desvio-padrão de 3 minutos. Determine um intervalo de confiança de 95% para o tempo médio de execução desta nova tarefa. INTERVALO DE CONFIANÇA PARA A PROPORÇÃO A construção do intervalo de confiança para uma proporção populacional p segue o mesmo raciocínio do intervalo de confiança para a média populacional. Basta calcular uma estimativa pontual e logo após calcular o erro-padrão da estimativa. Vale salientar que a estimativa pontual pˆ é um ótimo estimador do parâmetro (como foi visto no início desta unidade): n xnq n xp −= = ˆ ˆ A expressão do Intervalo de Confiança para a estimativa da proporção populacional será: ( ) n qˆpˆz :onde 1ˆ ˆ 2 α ⋅⋅= −=+<<− e eppepP α Basta verificar se a distribuição amostral de pˆ pode ser aproximada pela distribuição normal. As condições são: 5ˆ 5ˆ ≥ ≥ qn pn EXERCÍCIOS 1. O tempo de reação de motoristas não alcoolizados de certo país da Europa ao perceber um obstáculo em sua frente e frear tem distribuição normal. Selecionou-se uma amostra de 20 motoristas e obteve-se um tempo médio de reação igual a 0,83 segundo e desvio-padrão de 0,2 segundo. Determine um intervalo de confiança de 95% para o tempo médio de reação da população de motoristas deste país. Determine sua precisão. Caso o nível de confiança fosse de 90%, qual seria o intervalo de confiança? O que aconteceria com a precisão? 2. Foram retirados 35 parafusos de produção diária de uma máquina, encontrando-se um comprimento médio de 5,2mm. Sabendo-se que o comprimento tem distribuição normal com desvio-padrão 1,2mm, construir um intervalo de confiança para a média aos níveis de 90% e 95% e suas respectivas precisões. Comente sobre estes resultados. 3. As alturas dos alunos do IESB possuem distribuição normal. Foi retirada uma amostra aleatória de 15 alunos obtendo-se a média amostral de 175 cm com desvio-padrão de 15 cm. Construir ao nível de confiança de 90% e 95% os respectivos intervalos de confiança e precisão. O que aconteceu com a precisão com a mudança do nível de confiança? 4. Em quatro leituras experimentais de um comercial de 30 segundos, um locutor gastou em média 29,2 segundos com uma variância de 5,72 segundos2. Construir os intervalos de confiança e a precisão para a média ao nível de confiança de 90% e 95%. Comente sobre os resultados obtidos. 5. Uma amostra aleatória de 5 pessoas escolhidas de um departamento de uma empresa, que possui um desvio-padrão igual a 2 anos, apresentou a idade média de 52 anos. Determine um intervalo de confiança e a precisão para a média do departamento ao nível de 90% de confiança. O que aconteceria com a precisão se o nível de confiança passasse para 95%? EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ESTIMAÇÃO 12 6. Uma amostra de 1.001 adultos, 58% afirma que o transporte mais seguro é o avião. Construa um intervalo de confiança de 99% para a proporção de adultos que pensam serem os aviões os meios de transporte mais seguro. 7. uma amostra aleatória de 90 pessoas foi selecionada ao acaso de um grupo de 1.000 pessoas, fornecendo a proporção de fumantes pˆ =0,24. Calcule o intervalo de confiança ao nível de 95% para a proporção de fumantes nas 1.000 pessoas. 8. Uma revista semanal, em artigo sobre a participação das mulheres em um curso superior de psicologia, afirmou que atualmente a proporção de homens neste curso é superior à das mulheres. Uma pessoa interessada em testar esta afirmação levantou uma amostra ao acaso de 100 estudantes de psicologia e obteve na amostra uma porcentagem de 80% de mulheres. Responda: (a) Qual é o intervalo de confiança para a proporção de mulheres na população ao nível de 98%? (b) A afirmação da revista é certamente falsa? 9. Para definir as cores dos carros da linha a ser lançada no próximo ano, a montadora selecionou 200 pessoas a apresentou protótipos em diversas cores, anotando a preferência das pessoas. Setenta destas pessoas preferiram uma nova cor perolada, e a montadora deseja estimar, com 90%, qual é a proporção de carros desta cor que serão solicitados no próximo ano. Qual deve ser esta estimativa? EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ESTIMAÇÃO 13 Stevenson, William J. Estatística aplicada à administração. Harper & Row do Brasil, São Paulo, 1986, p.461 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTE DE SIGNIFICÂNCIA 14 UNIDADE III – TESTES DE SIGNIFICÂNCIA INTRODUÇÃO Como foi visto anteriormente, toda avaliação feita sobre um parâmetro populacional, o qual não possui nenhuma informação, pode ser resultado do processo de estimação feito através do Intervalo de Confiança. Se já possuímos alguma informação, podemos testá-la no sentido de aceitá-la como verdadeira ou rejeitá-la. O Teste de Significância tem por finalidade, a partir da elaboração de uma Hipótese Nula H0 e de uma Hipótese Alternativa Ha, verificar a aceitabilidade ou não da informação. Por isso é conhecida como Regra de Decisão. Para sermos mais claros, isto significaque a partir de uma amostra de uma determinada população iremos confirmar ou não o valor do parâmetro através da análise de decisão sobre aceitar H0 ou rejeitar H0. Quando nos propusermos a utilizar tal procedimento deveremos ter em mente que estaremos sujeitos a erros e acertos na decisão. De um modo geral, em qualquer tipo de decisão, os acertos e os erros podem ser dispostos segundo o quadro abaixo: Estado da Natureza Decisão H0 é verdadeira H0 é falsa Aceita-se H0 Decisão Correta Erro tipo II Rejeita-se H0 Erro tipo I Decisão Correta Erro Tipo I - Consiste em rejeitar H0 quando H0 é verdadeira Erro Tipo II - Consiste em aceitar H0 quando H0 é falsa Nível de Significância do Teste - é a probabilidade de se cometer o erro Tipo I, ou seja, rejeitar uma Hipótese verdadeira. O Nível de significância será denotado por α . A probabilidade do erro Tipo II não possui um nome em especial mais será conhecida como erro β . A fixação da Hipótese alternativa é que diferencia os vários tipos de Teste. EXEMPLOS 1. Julgamento do Réu Estado da Natureza Decisão Inocente Culpado Inocente Decisão Correta Erro tipo II Culpado Erro tipo I Decisão Correta O erro Tipo I, no caso, seria julgar o réu culpado, quando na verdade ele é inocente. O erro Tipo II seria julgar o réu inocente, quando na verdade ele é culpado. 2. Decisão de um médico sobre uma cirurgia Estado da Natureza Decisão Precisa Operar Não Precisa Operar Opera Decisão Correta Erro tipo II Não Opera Erro tipo I Decisão Correta O erro Tipo I seria não operar, quando na verdade o paciente precisa ser operado. O erro Tipo II seria operar, quando o paciente não precisa ser operado. EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTE DE SIGNIFICÂNCIA 15 Na realização dos testes, controlaremos o erro tipo I, procurando diminuir a probabilidade de sua ocorrência. Quando controlarmos os níveis β e α , estaremos realizando um Teste de Hipótese. TIPOS DE TESTES. 1º Tipo - > = rparâmetro:H rparâmetro:H a 0 2º Tipo - < = rparâmetro:H rparâmetro:H a 0 3º Tipo - ≠ = rparâmetro:H rparâmetro:H a 0 A realização de um Teste Compreende as seguintes etapas 1. Identificar H0; 2. Identificar Ha ( atenção, pois Ha define o tipo de teste a ser empregado) 3. Construir a região crítica para o teste escolhido; 4. Calcular o estimador e verificar se ele se situa na região de aceitação ou na região de rejeição da hipótese H0. 5. Decisão do teste – Se o estimador estiver na região de aceitação Aceita-se H0 Se o estimador estiver na região de rejeição, Rejeita-se H0 TESTE DE SIGNIFICÂNCIA PARA A MÉDIA O melhor estimador para µ e x . A distribuição amostral das médias é normal, com: ( ) n xσ µ - x z = 1º Teste - > = b µ :H b µ :H a 0 A região crítica (de Rejeição – RR) é: ( ) n xσ µ - x z = 2º Teste – < = b µ :H b µ :H a 0 A região crítica (de Rejeição – RR) é: ( ) n xσ µ - x z = EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTE DE SIGNIFICÂNCIA 16 3º Teste – ≠ = b µ :H b µ :H a 0 A região crítica (de Rejeição – RR) é: ( ) n xσ µ - x z = EXEMPLO 1. Uma amostra Aleatória de 40 elementos retirados de uma população normal com desvio padrão igual a 3 apresentou um valor médio igual a 60. Teste, ao nível de significância de 5%, a hipótese de que a média populacional seja igual a 59, supondo a hipótese alternativa µ >59. Solução: > = 59 µ :H 59 µ :H a 0 Ao nível de 5% de significância, a região crítica para a hipótese nula é: O valor de zt = 1,64 é proveniente da tabela normal onde no corpo podemos procurar o valor de 0,5 – 0,05 = 0,45. O valor de zc é dado por: ( ) n xσ µ - x zc = = 40 3 59 - 60 = 2,11 Como o valor de zc = 2,11 está na região de rejeição para a hipótese H0. Não temos motivos para aceitar H0. 2. Uma amostra aleatória de 20 elementos selecionados de uma população normal com variância 3 apresentou média 53. Teste ao nível de significância de 5% a hipótese µ =50. Solução ≠ = 50 µ :H 50 µ :H a 0 Ao nível de 10% de significância, a região crítica para a hipótese nula é: EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTE DE SIGNIFICÂNCIA 17 O valor de zc é dado por: ( ) n xσ µ - x zc = = 20 1,73 50 - 53 = 7,755 Como o valor de zc = 7,755 está na região de rejeição para a hipótese H0. Não temos motivos para aceitar H0. Exercícios 1. Uma agência de empregos alega que os candidatos por ela colocados nos últimos 6 meses têm salários médios anuais de R$9.000,00 com um desvio-padrão de R$1.000,00. Uma agência governamental extraiu uma amostra aleatória daquele grupo, encontrando um salário médio de R$8.000,00 com base em 50 empregados. Teste a afirmação da agência, contra a alternativa de que o salário médio é inferior a R$9.000,00, ao nível de significância de 0,05. 2. A DeBug Company vende um repelente de insetos que alega ser eficiente pelo prazo de 400 horas no mínimo. Uma análise de nove itens escolhidos aleatoriamente acusou uma média de eficiência de 380 horas. Teste a alegação da companhia, contra a alternativa que a duração é inferior a 400 horas, ao nível de 0,01, se o desvio-padrão é 90 horas. 3. Nove pessoas seguiram um plano especial de dieta durante dois meses. Nessa ocasião, suas perdas individuais média de peso foram de 0,82 quilo. Teste a hipótese de uma perda média real de 0 (zero) quilo, contra a alternativa de uma perda maior que zero, ao nível de significância de 0,01. Admita a normalidade da população com desvio-padrão de 0,59 quilo. 4. Um ambientalista estima que a média do lixo reciclado diariamente por um adulto nos Estados Unidos supera 454g com um desvio-padrão de 46g. Você deseja testar essa alegação. Para isso, determina que o lixo médio reciclado diariamente por pessoa para uma amostra aleatória de 12 adultos é de 545g. Ao nível de significância de 5%, você pode confirmar a alegação? 5. Uma associação de restaurantes afirma que uma família típica gasta uma média de R$811,00 por ano e com um desvio-padrão de R$100,00 em refeições fora de casa. Para testar tal alegação foi selecionada aleatoriamente uma amostra de 12 famílias e observou que gastam em média R$1.010,00. Você pode rejeitar a alegação da associação ao nível de 1% de significância? 6. Num determinado Estado, uma amostra ao acaso de 45 estudantes da oitava série tem um escore médio de 265 em um teste nacional de avaliação de matemática. Isso leva um administrador escolar deste Estado a declarar que o escore médio para os estudantes no teste é superior a 260 com desvio-padrão de 55. Ao nível de confiança de 5% há evidência suficiente que sustente a alegação do administrador? 7. A fim de acelerar o tempo que um analgésico leva para penetrar na corrente sanguínea, um químico analista acrescentou certo ingrediente à formula original, que acusa um tempo médio de 43 minutos. Em 36 observações com a nova fórmula, obteve-se um tempo médio de 42 minutos. Suponha que a distribuição seja aproximadamente normal, com desvio-padrão de 6 minutos. Que se pode concluir, ao nível de significância de 0,05, sobre a eficiência do novo ingrediente? EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ANÁLISE DE VARIÂNCIA 18 UNIDADE IV – ANÁLISE DE VARIÂNCIA INTRODUÇÃO Se houver a necessidade de se comparar médias utilizando mais de duas populações aplica-se o teste F como será discutido neste capítulo,admitindo que a variável em questão se aproxime a uma distribuição normal. Utilizando um exemplo será possível compreender a metodologia em estudo. Suponha que tenha sido aplicado um questionário a 4 amostras casuais simples (com 5 pessoas cada amostra) provenientes de populações independentes. Uma das perguntas era: “Quantos anos de casado você tem?”. As respostas são apresentadas a seguir: Tabela 01 Tempo de casamento de 4 amostras independentes com suas respectivas médias A B C D 11 8 5 4 8 5 7 4 5 2 3 2 8 5 3 0 8 5 7 0 MÉDIA 8 5 5 2 Amostras ELEMENTOS Fonte: Dados fictícios Analisando os tempos médios de casamento das 4 amostras, surge uma pergunta: “Será que existe diferença significativa entre os tempos médios de casamento entre estas amostras de tal forma que torne-as diferentes?”. Para se responder a este questionamento é preciso aplicar um teste estatístico. ANÁLISE DE VARIÂNCIA PARA EXPERIMENTOS AO ACASO Para ser possível aplicar o teste F a variável que está sendo estudada deve se aproximar a uma distribuição normal. Inicialmente é necessário estudar os motivos de variação: • Entre as populações: amostras pertencentes de populações diferentes • Dentro da mesma população: elemento “acaso” atuando como elemento influenciador A análise de variância se faz necessária para se aplicar o teste F. Tal análise separa a variabilidade devido aos “tratamentos” da variabilidade residual (acaso). Inicialmente as hipóteses são determinadas: H0: hipótese nula H1: hipótese alternativa A tabela 01 mostra as fórmulas que devem ser utilizadas para construir uma tabela de análise de variância (ANOVA). EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ANÁLISE DE VARIÂNCIA 19 Tabela 01 Fórmulas para Tabela de Análise de Variância Fonte de Variação Graus de Liberdade Soma dos quadrados Quadrados Médios Razão F Entre Grupos 1−k C r T SQTr −= ∑ 2 1−= kSQTrQMTr QMRQMTrF = Resíduo kn − SQTrSQTSQR −= kn SQRQMR −= Total 1−n ∑ −= CXSQT 2 Onde o valor de C é chamado de correção: ( ) n x C 2∑= A tabela 02 apresenta os dados de k tratamentos (quantidade de amostras). A soma das r repetições de um tratamento representa o total do mesmo. O total geral é dado pela soma dos k totais de tratamentos. Tabela 02 Notação para Análise de Variância Tratamento 1 2 3 ... k Total x11 X21 X31 ... Xk1 x12 X22 X32 ... Xk2 . . . . . . . . . . . . . . . x1r X2r X3r ... Xkr Total T1 T2 T3 ... Tk ∑ ∑= xT Nº de Repetições r r r ... r rkn ⋅= Média 1x 2x 3x ... kx Após construir a tabela ANOVA é preciso comparar os valores de F calculado com o tabelado. Este último é encontrado por intermédio das seguintes informações: • Nível de significância α • k-1 graus de liberdade no numerador • n-k graus de liberdade no denominador EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ANÁLISE DE VARIÂNCIA 20 Tabela 03. Valores de F para α=5% e α=10% segundo o número de graus de liberdade do numerador e denominador α = 0,05 g.l. DENOMI- NADOR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 242,98 243,90 244,69 245,36 245,95 246,47 246,92 247,32 247,69 248,02 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,42 19,43 19,43 19,44 19,44 19,44 19,45 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,73 8,71 8,70 8,69 8,68 8,67 8,67 8,66 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,89 5,87 5,86 5,84 5,83 5,82 5,81 5,80 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,66 4,64 4,62 4,60 4,59 4,58 4,57 4,56 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,98 3,96 3,94 3,92 3,91 3,90 3,88 3,87 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,55 3,53 3,51 3,49 3,48 3,47 3,46 3,44 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,26 3,24 3,22 3,20 3,19 3,17 3,16 3,15 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,05 3,03 3,01 2,99 2,97 2,96 2,95 2,94 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,89 2,86 2,85 2,83 2,81 2,80 2,79 2,77 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,76 2,74 2,72 2,70 2,69 2,67 2,66 2,65 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,66 2,64 2,62 2,60 2,58 2,57 2,56 2,54 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,58 2,55 2,53 2,51 2,50 2,48 2,47 2,46 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,51 2,48 2,46 2,44 2,43 2,41 2,40 2,39 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,45 2,42 2,40 2,38 2,37 2,35 2,34 2,33 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,40 2,37 2,35 2,33 2,32 2,30 2,29 2,28 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,35 2,33 2,31 2,29 2,27 2,26 2,24 2,23 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,31 2,29 2,27 2,25 2,23 2,22 2,20 2,19 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,28 2,26 2,23 2,21 2,20 2,18 2,17 2,16 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,25 2,22 2,20 2,18 2,17 2,15 2,14 2,12 α = 0,10 g.l. DENOMI- NADOR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 60,47 60,71 60,90 61,07 61,22 61,35 61,46 61,57 61,66 61,74 2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,40 9,41 9,41 9,42 9,42 9,43 9,43 9,44 9,44 9,44 3 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 5,22 5,22 5,21 5,20 5,20 5,20 5,19 5,19 5,19 5,18 4 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 3,91 3,90 3,89 3,88 3,87 3,86 3,86 3,85 3,85 3,84 5 4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 3,28 3,27 3,26 3,25 3,24 3,23 3,22 3,22 3,21 3,21 6 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 2,92 2,90 2,89 2,88 2,87 2,86 2,85 2,85 2,84 2,84 7 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 2,68 2,67 2,65 2,64 2,63 2,62 2,61 2,61 2,60 2,59 8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,52 2,50 2,49 2,48 2,46 2,45 2,45 2,44 2,43 2,42 9 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,40 2,38 2,36 2,35 2,34 2,33 2,32 2,31 2,30 2,30 10 3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,30 2,28 2,27 2,26 2,24 2,23 2,22 2,22 2,21 2,20 11 3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,23 2,21 2,19 2,18 2,17 2,16 2,15 2,14 2,13 2,12 12 3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19 2,17 2,15 2,13 2,12 2,10 2,09 2,08 2,08 2,07 2,06 13 3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,12 2,10 2,08 2,07 2,05 2,04 2,03 2,02 2,01 2,01 14 3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10 2,07 2,05 2,04 2,02 2,01 2,00 1,99 1,98 1,97 1,96 15 3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,04 2,02 2,00 1,99 1,97 1,96 1,95 1,94 1,93 1,92 16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 2,01 1,99 1,97 1,95 1,94 1,93 1,92 1,91 1,90 1,89 17 3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,98 1,96 1,94 1,93 1,91 1,90 1,89 1,88 1,87 1,86 18 3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98 1,95 1,93 1,92 1,90 1,89 1,87 1,86 1,85 1,84 1,84 19 2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,93 1,91 1,89 1,88 1,86 1,85 1,84 1,83 1,82 1,81 20 2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94 1,91 1,89 1,87 1,86 1,84 1,83 1,82 1,81 1,80 1,79 NUMERADOR NUMERADOR Exemplo: Considere o exemplo anterior: H0: os tempos médios de casamento não possuem diferenças significativas (médias são iguais) H1: os tempos médios de casamento possuem diferenças significativas (médiasnão são iguais) Tabela 04. Cálculos para tabela da análise de variância A B C D 11 ( 121 ) 8 ( 64 ) 5 ( 25 ) 4 ( 16 ) 8 ( 64 ) 5 ( 25 ) 7 ( 49 ) 4 ( 16 ) 5 ( 25 ) 2 ( 4 ) 3 ( 9 ) 2 ( 4 ) 8 ( 64 ) 5 ( 25 ) 3 ( 9 ) 0 ( 0 ) 8 ( 64 ) 5 ( 25 ) 7 ( 49 ) 0 ( 0 ) TOTAL 40 ( 1.600 ) 25 ( 625 ) 25 ( 625 ) 10 ( 100 ) 100 ( 2.950 ) Nº DE REPETIÇÕES 5 5 5 5 20 MÉDIA 8 5 5 2 TOTAL ( 658 ) Amostras ELEMENTOS Tendo apresentado os cálculos acima se constrói agora a tabela de análise de variância: EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ANÁLISE DE VARIÂNCIA 21 Tabela 05. Tabela da análise de variância com seus respectivos cálculos Fonte de Variação Graus de Liberdade Soma dos quadrados Quadrados Médios Razão F Entre Grupos 314 =− 90500 4 950.2 =−=SQTr 30 3 90 ==QMTr 06,7 25,4 30 ==F Resíduo 16420 =− 6890158 =−=SQR 25,4 16 68 ==QMR Total 19120 =− 158500658 =−=SQT Onde a correção será igual a: ( ) 500 20 100 2 ==C Desta forma teremos a tabela ANOVA: Tabela 06. Tabela da análise de variância para os tempos de casamento Fonte de Variação Graus de Liberdade Soma dos quadrados Quadrados Médios Razão F Entre Grupos 3 90 30 7,06 Resíduo 16 68 4,25 Total 19 158 Pela tabela 03, ao nível de significância de 5%, com 3 e 16 graus de liberdade do numerador e denominador respectivamente, tem-se Ftab=3,24. Desta forma, a estrutura do “gabarito” será: Conclusão do teste: Ao nível de 5% de significância, aceita-se a hipótese de que as médias não são iguais (há diferença significativa) entre as anostras, ou seja, as médias do tempo de casamento entre as 4 amostras coletadas são diferentes. TESTE DE TUKEY PARA COMPARAÇÃO DE MÉDIAS A análise de variância verifica se as médias possuem diferenças significativas ou não entre si. Agora, se o objetivo fosse identificar a(s) média(s) que apresenta(m) diferença(s) significativa(s) das demais será necessário utilizar o teste de Tukey. O teste de Tukey estabelece a diferença mínima significativa (d.m.s.) em um determinado nível que é dado por: r QMRqsmd ⋅=... onde: q = valor encontrado na tabela da página seguinte, apresentada a seguir, através das seguintes informações: aceitação rejeição Ftab = 3,24 Fcalc = 7,06 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ANÁLISE DE VARIÂNCIA 22 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ANÁLISE DE VARIÂNCIA 23 • nível de significância α • número de tratamentos • graus de liberdade no resíduo Conforme visto na tabela 06 os tempos médios dos casamentos dos 4 grupos possuem diferenças significativas. Para verificar a(s) média(s) que difere(m) das demais será utilizado o teste de Tukey. Com 5% de nível de significância, 4 tratamentos com 16 graus de liberdades dos resíduos, o valor de q será igual a 4,05. Assim: 73,392,005,485,005,4 5 25,405,4... =⋅=⋅=⋅=smd O teste de Tukey afirma que duas médias são estatisticamente diferentes quando a diferença absoluta entre elas foi maior ou igual ao valor do d.m.s. Desta forma, utilizando o exemplo anterior: Tabela 07. Valores absolutos das diferenças entre as médias dos grupos A, B, C e D MÉDIAS 8=Ax 5=Bx 5=Cx 2=Dx 8=Ax |8-5| = 3 |8-5| = 3 |8-2| = 6 5=Bx |5-5| = 0 |5-2| = 3 5=Cx |5-2| = 3 2=Dx Pela tabela 07 é fácil observar que apenas as médias A e D possuem diferença maior que a d.m.s.. Desta forma, ao nível de significância de 5% o tempo de casamento do grupo A é significativamente maior que a do grupo D. EXERCÍCIOS 1. Foram selecionadas aleatoriamente 5 famílias de cada uma das filiações religiosas: protestantes, católicos e judeus. Os três grupos de famílias são apresentados em termos do número total de membros da família (pais e filhos conjuntamente): Religião Protestante Católico Judeu 2 6 3 5 7 2 4 8 4 3 6 4 Elementos 5 4 3 Total 19 31 16 Média 3,8 6,2 3,2 Determine: a. Se há diferença significativa no número médio de filhos de acordo com a religião ao nível de 5% de significância. b. Caso haja diferença, identifique onde se apresenta esta diferença. EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL ANÁLISE DE VARIÂNCIA 24 2. Nas seguintes amostras aleatórias de classes sociais, teste a hipótese de que a amabilidade entre vizinhos não varia segundo a classe social, ao nível de significância de 5%. Caso haja diferença, identifique onde ocorreu tal diferença significativa entre as médias. Classe social Baixa Trabalhadora Média Alta 8 7 6 5 4 3 5 2 7 2 5 1 Elementos 8 8 4 3 Total 27 20 20 11 Média 6,75 5 6,25 2,75 Nota: escores mais altos indicam maior amabilidade 3. Psicólogos estudam a eficácia relativa de três programas diferentes de tratamento -A, B e C- para uso ilícito de grogas. Os dados seguintes representam o número de dias de abstinência de drogas acumulados por 15 pacientes (5 em cada programa de tratamento) para os 3 meses seguintes ao término de seu programa de tratamento. Assim, um número maior de dias indica um período mais longo sem uso de drogas. Tratamento A B C 90 81 14 74 90 20 90 90 33 86 90 5 Elementos 75 85 12 Total 415 436 84 Média 83 87,2 16,8 Teste a hipótese nula, ao nível de 5% de significância, de que esses programas de tratamento antidroga não diferem quanto a sua eficiência. Caso a hipótese nula seja rejeitada, identifique onde ocorrem diferenças significativas nas médias dos tratamentos. 4. Uma pesquisadora está interessada no efeito que o tipo de residência tem sobre a felicidade pessoal de estudantes universitários. Para isso, ela seleciona amostras de estudantes que moram em dormitórios do campus, em apartamentos fora do campus e em sua casa e pede a 12 entrevistados que classifiquem seu grau de felicidade em uma escala de 1 (não é feliz) a 10 (feliz). Teste a hipótese nula que a felicidade não difere por pito de residência ao nível de significância de 5%. Em caso de rejeição, identifique onde ocorrem as diferenças significativas. Tipo de residência Dormitórios do campus Apartamentos fora do campus Em casa 8 2 5 9 1 4 7 3 3 Elementos 8 3 4 Total 32 9 16 Média 8 2,25 4 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 25 UNIDADE V – TESTES NÃO-PARAMÉTRICOS INTRODUÇÃO Os métodos paramétricos (maioria dos métodos de inferência estatística) se baseiam em amostragem de uma população especificando parâmetros (tais como a média µ, a variância σ2 e a proporção p). Tais testes também devem enquadrar-se numa amostra proveniente de uma população normalmente distribuída. Porém, nesta unidade será abordada os métodos chamados de NÃO-PARAMÉTRICOS que não dependem daquelas exigências. Os testes de significância/hipótese não-paramétricos costumam chamar-se TESTES DE LIVRE DISTRIBUIÇÃO. Vantagens e desvantagens da utilização de testes não-paramétricos VANTAGENS DESVANTAGENS • Não exigem população normalmente distribuída • Podem ser aplicados a variáveis qualitativas • Cálculos simplificados • Perda de informação (variáveis quantitativas transformadas em qualitativas. Ex.: perda de peso registradas apenas como sinais negativos) • Ineficiência em relação aos testes paramétricos (amostras ou diferenças pequenas) O POSTO DE UMA OBSERVAÇÃO Para o cálculo da mediana e separatrizes era exigido que os dados estivessem necessariamenteordenados, a fim de verificar seus posicionamentos. Os postos significam o posicionamento destes dados de acordo com um certo critério de ordenamento (crescente ou decrescente). Exemplo: Dados originais: 5 3 40 50 12 Dados ordenados: 3 5 12 40 50 ↑ ↑ ↑ ↑ ↑ POSTOS: 1 2 3 4 5 No caso de itens repetidos, o processo usual consiste em calcular a média dos postos envolvidos e atribuir este valor numérico médio a cada um destes itens. Exemplo: Dados ordenados: 3 5 5 10 12 ↑ ↑ ↑ ↑ ↑ POSTOS: 1 2,5 2,5 4 5 Neste caso, o item de valor 5 repetiu duas vezes. Assim, a média entre os postos 2 e 3 é igual a 2,5. TESTES NÃO-PARAMÉTRICOS PARA DUAS AMOSTRAS RELACIONADAS TESTE DE McNEMAR PARA A SIGNIFÂNCIA DE MUDANÇAS Este teste é utilizado para verificar contagens ou proporções em duas amostras relacionadas com variáveis qualitativas dicotômicas. É apropriado para estudos do tipo “antes” e “depois” para, justamente, testar a significância de mudanças de estado, opinião, condição, dentre outras, onde o próprio indivíduo é o seu controle. Uma tabela de contingência 2x2 representa o conjunto de reações dos indivíduos. Devemos deixá-las bem definidas, principalmente as células A e D. EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 26 - + + A B - C D antes / Situação 1 depois / Situação 2 No esquema acima, A sujeitos mudaram da condição “+” para “-”, D sujeitos mudaram da condição “-” para “+” e os B e C sujeitos não mudaram de condição. Desta forma, deseja-se testar se as mudanças de estado/condição são aleatórias (onde o tratamento não foi efetivo), ou seja, se a probabilidade da mudança do estado “+” para “-” (P(A)) é igual ou não à probabilidade de ocorrer a mudança do estado “-” para “+” (P(D)). Assim, as hipóteses a serem testadas (referente à mudança de estado) serão: H0: P(A) = P(D) H1: P(A) ≠ P(D) A estatística do teste será: ( ) ( )∑ +−=−= DA DAEEO i ii 22 2χ com gl = 1. Agora, esta estatística pode melhorar se introduzir uma correção de continuidade ou correção de Yates: ( ) DA DA + −−= 2 2 1χ com gl = 1. Tal correção é importante para amostras pequenas (n ≤ 60). Resultado do teste: Aceitação de H0 : quando 22 tabcalc χχ < rejeição de H0 : quando 22 tabcalc χχ ≥ EXEMPLO: Depressão pós-parto Para prevenir este tipo de quadro psicopatológico, após o parto, todas as parturientes foram submetidas a acompanhamento e aconselhamento profissional. Após o tratamento registrou-se o número de casos de depressão pós-parto. A fim de justificar a continuidade do programa, a direção clínica pretende saber se o tratamento proporcionado teve ou não um efeito significativo ao nível de 5% de significância. não sim sim 8 3 não 14 5 depressão após tratamento depressão EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 27 Hipóteses: H0: P(ter depressão → não ter depressão) = P(não ter depressão → ter depressão) (situação em que as mudanças foram aleatórias e que desta forma o tratamento não surtiu efeito significtivo) H1: P(ter depressão → não ter depressão) ≠ P(não ter depressão → ter depressão) (situação em que as mudanças não foram aleatórias e que desta forma o tratamento surtiu efeito significativo) Estatística do teste: ( ) 31,0 13 4 58 158 22 ==+ −−=calcχ Resultado do teste: Como ( ) ( )84,331,0 22 =<= tabcalc χχ , aceita-se a hipótese nula. Conclusão do teste: Ao nível de significância de 5%, aceita-se a hipótese de que o tratamento não foi eficaz para alterar a incidência da depressão pós-parto. EXERCÍCIOS 1. Numa campanha política, um determinado Jornal publicou uma série de artigos apoiando um dos partidos (A) e difamado o candidato do outro (B). Numa amostra de 200 eleitores, foram observadas as seguintes mudanças, com relação ao número de eleitores entrevistados. A B B 83 47 A 52 18 depois do artigo antes do artigo Os artigos influenciaram os eleitores nível de significância de 5%? 2. Dois supermercados disputam a preferência dos consumidores de uma cidade. Um deles (A), para aumentar o seu número de fregueses, lança uma campanha publicitária, através de concursos, com vários brindes. O resultado no final da promoção apresentou a seguinte situação, numa amostra tomada ao acaso com 100 consumidores. Foi a campanha eficiente ao nível de significância de 2%? B A A 37 3 B 13 47 depois da campanha antes da campanha 3. Suponha-se que um psicólogo esteja interessado em estudar a iniciação de crianças nos contatos sociais. Ele observou que as crianças recém-admitidas em uma escola maternal em geral estabelecem contatos pessoais com adultos ao invés de manter contatos com outras crianças. Supõe, porém, que, na medida em que aumentam a familiaridade e a experiência, tais contatos passarão a voltar-se de preferência para outras crianças. O psicólogo observou 25 crianças recém-admitidas em uma escola maternal e observa a atitude de cada uma delas conforme seus primeiros contatos sociais se eram dirigidas a adultos ou crianças. Decorrido um mês ele observa as 25 crianças e as classifica segundo seu comportamento atual. Os dados se encontram a seguir. Teste, ao nível de 5% de significância, se a escola possui influência significativa na mudança do objeto de interesse da criança. criança adulto adulto 14 4 criança 3 4 30º dia 1º dia EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 28 0,99 0,98 0,9 0,8 0,7 0,5 0,3 0,2 0,1 0,05 0,02 0,01 0,001 1 0,00016 0,00063 0,01579 0,06418 0,14847 0,45494 1,07420 1,64238 2,70554 3,84146 5,41190 6,63489 10,82736 2 0,02 0,04 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 7,82 9,21 13,82 3 0,11 0,18 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 9,84 11,34 16,27 4 0,30 0,43 1,06 1,65 2,19 3,36 4,88 5,99 7,78 9,49 11,67 13,28 18,47 5 0,55 0,75 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 13,39 15,09 20,51 6 0,87 1,13 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 15,03 16,81 22,46 7 1,24 1,56 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 16,62 18,48 24,32 8 1,65 2,03 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 18,17 20,09 26,12 9 2,09 2,53 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 19,68 21,67 27,88 10 2,56 3,06 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 21,16 23,21 29,59 11 3,05 3,61 5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68 22,62 24,73 31,26 12 3,57 4,18 6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,03 24,05 26,22 32,91 13 4,11 4,77 7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,36 25,47 27,69 34,53 14 4,66 5,37 7,79 9,47 10,82 13,34 16,22 18,15 21,06 23,68 26,87 29,14 36,12 15 5,23 5,98 8,55 10,31 11,72 14,34 17,32 19,31 22,31 25,00 28,26 30,58 37,70 16 5,81 6,61 9,31 11,15 12,62 15,34 18,42 20,47 23,54 26,30 29,63 32,00 39,25 17 6,41 7,25 10,09 12,00 13,53 16,34 19,51 21,61 24,77 27,59 31,00 33,41 40,79 18 7,01 7,91 10,86 12,86 14,44 17,34 20,60 22,76 25,99 28,87 32,35 34,81 42,31 19 7,63 8,57 11,65 13,72 15,35 18,34 21,69 23,90 27,20 30,14 33,69 36,19 43,82 20 8,26 9,24 12,44 14,58 16,27 19,34 22,77 25,04 28,41 31,41 35,02 37,57 45,31 21 8,90 9,91 13,24 15,44 17,18 20,34 23,86 26,17 29,62 32,67 36,34 38,93 46,80 22 9,54 10,60 14,04 16,31 18,10 21,34 24,94 27,30 30,81 33,92 37,66 40,29 48,27 23 10,20 11,29 14,85 17,19 19,02 22,34 26,02 28,43 32,01 35,17 38,97 41,64 49,73 24 10,86 11,99 15,66 18,06 19,94 23,34 27,10 29,55 33,20 36,42 40,27 42,98 51,18 25 11,52 12,70 16,47 18,94 20,87 24,34 28,17 30,68 34,38 37,65 41,57 44,31 52,62 26 12,20 13,41 17,29 19,82 21,79 25,34 29,25 31,79 35,56 38,89 42,86 45,64 54,05 27 12,88 14,13 18,11 20,70 22,72 26,34 30,32 32,91 36,74 40,11 44,14 46,96 55,4828 13,56 14,85 18,94 21,59 23,65 27,34 31,39 34,03 37,92 41,34 45,42 48,28 56,89 29 14,26 15,57 19,77 22,48 24,58 28,34 32,46 35,14 39,09 42,56 46,69 49,59 58,30 30 14,95 16,31 20,60 23,36 25,51 29,34 33,53 36,25 40,26 43,77 47,96 50,89 59,70 Probabilidade, sob Ho, de X2 = qui-quadrado gl Tabela. Valores Críticos de Qui-Quadrado EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 29 TESTE DE WILCOXON Este teste também é chamado de Teste de postos com sinais de Wilcoxon. Utilizado para duas amostras relacionadas, além de levar em consideração os sinais das diferenças, este teste leva em consideração os valores das diferenças e dos seus postos. Desta forma, o teste de Wilcoxon atribui maior ponderação a um par que acusa maior diferença. Tal teste trabalha com o pressuposto de que a população de diferenças (obtidas a partir de pares de dados) tenha distribuição aproximadamente simétrica. Hipóteses H0: os tratamentos são equivalentes H1: há diferença entre os tratamentos Estatística do teste - procedimento Passo 1 Cálculo da diferença di de cada par de dados (subtraindo do segundo do primeiro) mantendo os sinais Passo 2 Atribua os postos dos di’s desconsiderando os sinais. Em caso de empate: • Se di = 0 → desconsidere na análise • Se aparecer diferenças com o mesmo valor numérico atribua a média dos postos referentes a estes valores (veja página 24: “O posto de uma observação”) Passo 3 Atribua a cada posto o respectivo sinal do di. Passo 4 Calcule as somas absolutas dos postos negativos e positivos separadamente. Passo 5 Considere T o menor valor encontrado na soma entre os postos negativos e positivos. Passo 6 Considere n como sendo o número de di’s não nulos Passo 7 Cálculo da estatística do teste: • Se n ≤ 25: o próprio T • Se n > 25: ( ) ( )( ) ( ) ( )( ) 24 121 4 1 : 24 121 4 1 ++=− += ++ +− = nnnpadrãodesvio nnmédia onde nnn nnT z Passo 8 Identificação do valor crítico: • Se n ≤ 25: tabela dos Valores críticos na Prova de Wilcoxon • Se n > 25: tabela da distribuição normal padronizada EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 30 Passo 9 Conclusão do teste: • Se n ≤ 25: ? Rejeição de H0: se o valor de T for no máximo o valor crítico. ? Aceitação de H0: em caso contrário. • Se n > 25: ? Rejeição de H0: se o valor de z for, em termos absolutos, maior que o valor crítico. ? Aceitação de H0: em caso contrário. 0,0025 0,01 0,005 0,05 0,02 0,01 6 0 7 2 0 8 4 2 0 9 6 3 2 10 8 5 3 11 11 7 5 12 14 10 7 13 17 13 10 14 21 16 13 15 25 20 16 16 30 24 20 17 35 28 23 18 40 33 28 19 46 38 32 20 52 43 38 21 59 49 43 22 66 56 49 23 73 62 55 24 81 69 61 25 89 77 68 Fonte: Siegel (1975) N Nível de significância para prova unilateral Nível de significância para prova bilateral Tabela. Valores Críticos de T na Prova de Wilcoxon EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 31 Exemplo: Compensa fazer um curso preparatório para um determinado teste padronizado? Com nível de 1% de significância, teste a afirmação de que um determinado curso preparatório não influi nos escores deste teste. Os dados amostrais estão apresentados a seguir: Indivíduo Antes do Teste Depois do Teste A 700 720 B 840 840 C 830 820 D 860 900 E 840 870 F 690 700 G 830 800 H 1.180 1.200 I 930 950 J 1.070 1.080 FONTE: Triola, 1999 Hipóteses: H0: Não há diferenças entre os escores (curso ineficiente) H1: Há diferenças entre os escores (curso eficiente) Cálculo da estatística do teste: Seguindo os passos de 1 a 3 acima descritos teremos os seguintes cálculos: Indivíduo Antes do Teste Depois do Teste di |di| posto das diferenças posto com sinais A 700 720 20 20 5 5 B 840 840 0 0 0 C 830 820 -10 10 2 -2 D 860 900 40 40 9 9 E 840 870 30 30 7,5 7,5 F 690 700 10 10 2 2 G 830 800 -30 30 7,5 -7,5 H 1.180 1.200 20 20 5 5 I 930 950 20 20 5 5 J 1.070 1.080 10 10 2 2 soma dos postos negativos 9,5 soma dos postos positivos 35,5 Como o menor valor encontrado entre as duas somas acima é referente à dos postos negativo, então a estatística do teste será: T = 9,5 E como n < 30, então o valor obtido pela tabela dos valores críticos de T nas provas de Wilcoxon que será: Valor Crítico = 2 Conclusão do teste: Como a estatística do teste (T = 9,5) apresentou um valor maior que o valor crítico (igual a 2), ao nível de 5% de significância a hipótese nula é aceita. Isto significa que NÃO compensa fazer o curso preparatório para um determinado teste padrozinado. EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 32 Exercícios 1. Captropil é um remédio para baixar a pressão sistólica. Ao testar indivíduos com este remédio, mediu- se sua pressão sistólica antes e depois de tomar o remédio, obtendo-se os resultados seguintes (em mm de mercúrio). Ao nível de 5% de significância, teste a afirmação de que o remédio não produziu qualquer efeito sobre os resultados da pressão sistólica. Indivíduo Antes da ingestão Depois da ingestão A 200 191 B 174 170 C 198 177 D 170 167 E 179 159 F 182 151 G 193 176 H 209 183 I 185 159 J 155 145 K 169 146 L 210 177 FONTE: Triola, 1999 2. É feita com freqüência mensuração mental de crianças, dando-lhes blocos e mandando-as construir uma torre tão alta quanto possível. Um mês depois o experimento de construção com blocos é repetido, com os seguintes tempos (dado em segundos) registrados. Com 1% de nível de significância, teste a afirmação de que não há diferença entre os dois tempos. Criança 1ª PROVA 2ª PROVA A 30 30 B 19 6 C 19 14 D 23 8 E 29 14 F 178 52 G 42 14 H 20 22 I 12 17 J 398 K 14 11 L 81 30 M 17 14 N 31 17 O 52 15 FONTE: Triola, 1999 3. Um estudo foi realizado para pesquisar a eficiência do hipnotismo na redução da dor. As medidas são dadas em centímetros, em uma escala de dor. Ao nível de 1% de significância , teste a afirmação de que o hipnotismo não tem nenhum efeito. Os resultados estão dispostos na tabela a seguir: Indivíduo Antes da hipnose Depois da hipnose A 6,6 6,8 B 6,5 2,4 C 9,0 7,4 D 10,3 8,5 E 11,3 8,1 F 8,1 6,1 G 6,3 3,4 H 11,6 2,0 FONTE: Triola, 1999 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 33 TESTES NÃO-PARAMÉTRICOS PARA DUAS AMOSTRAS INDEPENDENTES TESTE Qui-Quadrado - χ 2 O Teste Qui-quadrado é aplicado para se fazer comparações entre freqüências no lugar de se fazer comparações entre escores médios. Os dados são dispostos em uma tabela de contingência k x r (onde k é o n° de colunas e r o n° de linhas). Tal teste verifica a existência ou não de diferenças significativas entre duas populações independentes que originaram as duas amostras a respeito de uma certa característica. Hipóteses H0: não existe diferença entre as duas amostras H1: existe diferença entre as duas amostras Estatística do teste Para tabelas de contingência k x r: ( )∑ −= e eo f ff 22χ , com g.l.=(r-1)(k-1) onde: fo : freqüência observada fe : freqüência esperada Para tabelas de contingência 2 x 2: ( )( )( )( )DBCADCBA nBCADn ++++ −− = 2 2 2χ , com g.l.=1 Freqüência Esperada As freqüências esperadas devem refletir a atuação da chance sob as condições da hipótese nula. O que significa que as freqüências esperadas devem indicar igualdades por meio de todas as amostras e que devem ser proporcional a seus totais marginais. O cálculo das freqüências esperadas está apresentado a seguir: ( )( ) n fe coluna da marginal totallinha da marginal total= Valor crítico do qui-quadrado É observado na tabela (página 27) o valor crítico de acordo com as seguintes informações: o Graus de liberdade: g.l. o Nível de significância: α Conclusão do teste ? Aceitação de H0: estatística do teste < valor crítico. ? Rejeição de H0: estatística do teste > valor crítico. Exemplo Deseja-se comprovar se há diferença de qualidade de liderança segundo estatura do indivíduo (alto e baixo) ao nível de significância de 5%. A tabela abaixo apresenta as freqüências obtidas entrevistando 95 indivíduos: EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 34 baixo alto total líder 12 32 44 liderado 22 14 36 não- classificável 9 6 15 total 43 52 95 Calculando as freqüências esperadas teremos: 12 32 19,9 24,1 22 14 16,3 19,7 9 6 6,8 8,2 95 total líder liderado não- classificável 44 36 15 43 52 baixo alto total Cálculo da estatística do teste: f o f e f o - f e (f o - f e ) 2 (f o - f e ) 2 / f e lider 12 19,9 -7,9 62,41 3,14 liderado 22 16,3 5,7 32,49 1,99 não-class 9 6,8 2,2 4,84 0,71 lider 32 24,1 7,9 62,41 2,59 liderado 14 19,7 -5,7 32,49 1,65 não-class 6 8,2 -2,2 4,84 0,59 χ 2 = 10,67 alto altura e liderança baixo Obtenção do valor crítico: ( )( ) 99,5 05,0 21312 2 = = =−−= χα gl Se a estatística do teste apresentou um valor maior que o valor crítico, então a hipótese nula é rejeitada. Conclusão do teste: Ao nível de significância de 5%, rejeita-se a hipótese nula como verdadeira. Ou seja, há diferença significativa de qualidade de liderança segundo estatura do indivíduo. EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 35 Exercícios 1. O nível educacional básico em uma matéria está relacionado à localização da escola? Uma amostra aleatória de estudantes pela localização da escola e o número de estágios bem-sucedidos em três matérias está apresentada a seguir. Ao nível de 1% de significância, teste a hipótese de que as variáveis são independentes. urbana suburbana leitura 43 63 106 matemática 42 66 108 ciências 38 65 103 total 123 194 317 Matéria Localização da escola total 2. A tabela de contingência apresentada abaixo exibe como uma amostra aleatória de adultos classificou suas universidades estaduais e federais. Você poderia concluir que a classificação dos adultos está relacionada ao tipo de universidade ao nível de 1% de significância? estadual federal excelente 120 41 161 boa 405 238 643 razoável 263 481 744 deficiente 151 179 330 total 939 939 1.878 Classificação Universidade total 3. Os resultados de uma amostra aleatória de pacientes com transtornos obsessivo-compulsivo tratados com medicamentos ou placebo estão apresentados na tabela de contingência a seguir. Você poderia concluir que o tratamento está relacionado com o resultado ao nível de significância de 10%? Baseado nesses resultados, você recomendaria o uso de medicamento como parte do tratamento? melhora sem mudança placebo 39 25 64 medicamento 54 70 124 total 93 95 188 Tratamento Resultado total EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 36 TESTE DE MANN-WHITNEY PROVA U O Teste U de Mann-Whitney compara dois grupos (A e B) a fim de verificar se foram extraídos de uma mesma população ou não. Este Teste se desdobra em três casos distintos decorrentes aos tamanhos das amostras analisadas. Desta forma, estabelecendo a relação n2 > n1 , teremos: • 1º caso: n2 ≤ 8; • 2º caso: 9 ≤ n2 ≤ 20; • 3º caso: n2 ≥ 21 1º caso: n2 ≤ 8 Ilustração Um grupo de 5 adolescentes , escolhidos aleatoriamente, examina, durante 10 minutos, uma relação de nomes de objetos concretos. Em seguida, cada um dos adolescentes procura recompor, de memória e por escrito, a relação original, com a única restrição de que o tempo para essa tarefa seria igual para todos. Outro grupo, composto de 4 adolescentes, também escolhidos aleatoriamente, examina a mesma relação durante 5 minutos e tenta, a seguir, da mesma forma que o primeiro grupo, reproduzir a lista de memória. A este grupo foi concedido o mesmo tempo que ao primeiro. Na tabela abaixo, figuram os erros cometidos pelos sujeitos dos dois grupos. Queremos testar, ao nível de 5% de significância, se existe significativa diferença de desempenho entre os dois grupos relativamente à variável memória associada a tempo de estudo. TA TB n 1 =4 n 2 =5 12 10 19 14 8 15 25 9 18 Onde: TA: Tratamento A: memória associada a 5 minutos de estudo. TB: Tratamento B: memória associada a 10 minutos de estudo. Resolução 1º passo: Determinação das hipóteses: H0: Tratamento TA = Tratamento TB (as diferenças dos erros cometidos não foram influenciadas pelo tempo de estudo) H1: Tratamento TA < Tratamento TB (as diferenças dos erros cometidos foram influenciadas pelo tempo de estudo, ou seja, o Tratamento TB é melhor que o TA) 2º passo: Estatística do Teste a) Ordenar (de forma crescente ou decrescente) os valores das duas colunas em um único grupo b) Associar cada valor ao seu respectivo tratamento c) Calcular o número de vezes que cada valor do GrupoA é precedido de valores de B. d) Calcular o número de vezes que cada valor do Grupo B é precedido de valores de A. Valor 8 9 10 12 14 15 18 19 25 Tratamento A B B A B B B A A Precedido de B 0 2 5 5 Precediddo de A 1 1 2 2 2 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 37 e) O cálculo de Uo corresponde à menor soma de precedências (à maior soma chamaremos de Uo’). Desta forma teremos as seguintes somas: 0 + 2 + 5 + 5 = 12 B’s que precederam A 1 + 1 + 2 + 2 + 2 = 8 A’s que precederam B Assim: Uo = 8 => U observado Uo’ = 12 A relação entre os 2 U’s e os tamanhos das amostras podem ser resumidas pela seguinte igualdade: Uo = n1 n2 - Uo’ f) A estatística do teste será identificada em uma das tabelas (páginas 42 e 43) de acordo com as seguintes informações: o Valor de n2 o Valor de n1 o Uo Desta forma teremos P(Uo = 8) = 0,365 como sendo a estatística do teste. 3º passo: Valor crítico O valor crítico neste caso será o próprio nível de significância. No exemplo α = 0,05. 4º passo: Conclusão do teste ? Aceitação de H0: estatística do teste > valor crítico. ? Rejeição de H0: estatística do teste < valor crítico. No exemplo, como [P(Uo = 8) = 0,365] > (α = 0,05) então ocorre a aceitação de H0. Significa que: “Ao nível de significância de 5% a hipótese nula é aceita como verdadeira. Ou seja, não há evidências estatísticas de que o tempo influenciou no nível de memorização dos adolescentes.” 2º caso: 9 ≤ n2 ≤ 20 Ilustração Uma turma de 26 alunos foi dividida aleatoriamente em n1 = 10 alunos (Grupo A) e n2 = 16 alunos (Grupo B). O grupo A estudou regularmente e diariamente determinado assunto até as vésperas da prova. O Grupo B ocupou-se de outras atividades e só estudou para a prova à sua véspera. A tabela a seguir contém as notas que cada aluno tirou nessa prova. Analisar ao nível de 5% de significância se existe diferença entre os dois tratamentos (métodos de estudo). Grupo A Grupo B n 1 =10 n 2 =16 8,0 6,0 6,5 8,0 9,0 6,0 9,5 6,5 8,0 7,0 5,0 5,0 7,5 10,0 7,0 3,5 10,0 4,0 6,0 4,5 9,0 9,0 1,5 2,0 7,0 5,0 EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 38 Resolução 1º passo: Determinação das hipóteses: H0: Tratamento Grupo A = Tratamento Grupo B (as diferenças das notas não foram influenciadas pelo método de estudo) H1: Tratamento Grupo A > Tratamento Grupo B (as diferenças das notas foram influenciadas pelo método de estudo) 2º passo: Estatística do Teste a) Ordenar (de forma crescente ou decrescente) os valores das duas colunas em um único grupo b) Associar cada valor ao seu respectivo posto c) Calcular a soma dos postos de cada grupo separadamente. Nota Posto (P 1 ) Nota Posto (P 2 ) 8,0 19 6,0 10 6,5 12,5 8,0 19 9,0 22 6,0 10 9,5 24 6,5 12,5 8,0 19 7,0 15 5,0 7 5,0 7 7,5 17 10,0 25,5 7,0 15 3,5 3 10,0 25,5 4,0 4 6,0 10 4,5 5 9,0 22 9,0 22 1,5 1 2,0 2 7,0 15 5,0 7 Total 171 Total 180 Grupo A Grupo B d) Os cálculos de Uo e Uo’ são dado pelas duas fórmulas a seguir: ( ) ( ) 2 2 21 1 11 21 2 12 2 1 PnnnnU PnnnnU −++= −++= Desta forma, pelo exemplo, teremos: ( ) ( ) 116180 2 116161610 44171 2 110101610 =−++⋅= =−++⋅= U U Assim: Uo = 44 => ESTATÍSTICA DO TESTE Uo’ = 116 Vale frisar que a relação entre os 2 U’s e os tamanhos das amostras podem ser resumidas pela seguinte igualdade: Uo = n1 n2 - Uo’ EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 39 3º passo: Valor crítico O valor crítico (Uc) será identificado em uma das tabelas (páginas 44 e 45) de acordo com as seguintes informações: o Nível de significância: α (verificar se o teste é unilateral ou bilateral) o Valor de n2 o Valor de n1 No exemplo: Uc = 48 4º passo: Conclusão do teste ? Aceitação de H0: estatística do teste > valor crítico. ? Rejeição de H0: estatística do teste < valor crítico. No exemplo, como (Uo = 44) < (Uc = 48) então ocorre a rejeição de H0. Significa que: “Ao nível de significância de 5% a hipótese nula é rejeitada como verdadeira. Ou seja, há evidências estatísticas de que as notas tiveram influências pelo método de estudo.” 3º caso: n2 > 20 Ilustração Certo professor aplicou o seguinte procedimento a uma turma de 30 alunos: 21 alunos foram por ele chamados pelos próprios nomes, durante um semestre, contingentemente à apresentação das lições de casa; os restantes dos 9 alunos, por igual período, foram chamados pelo professor de “você”. Tal professor admitia que estimulado pelo próprio nome, o aluno era capaz de melhorar seu desempenho acadêmico – desempenho que foi mensurado em termos de notas escolares. Ao nível de 5% de significância, será possível afirmar que era correta a hipótese desse professor? A tabela abaixo apresenta as notas dos 30 alunos no fim do semestre em que realizou o experimento: TA TB n 1 =9 n 2 =21 6,5 6,5 8,0 3,5 8,5 6,0 10,0 7,5 8,5 6,0 4,0 3,0 7,0 7,0 6,0 5,5 5,5 6,5 6,0 6,5 5,0 5,0 6,0 3,5 6,5 10,0 8,0 7,5 4,0 5,0 Resolução 1º passo: Determinação das hipóteses: H0: Tratamento TA = Tratamento TB (o modo de relacionamento professor-aluno não influenciou no desempenho escolar) H1: Tratamento TB > Tratamento TA (o modo TB de relacionamento professor-aluno é melhor que o modo TA) EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 40 2º passo: Estatística do Teste a) Ordenar (de forma crescente ou decrescente) os valores das duas colunas em um único grupo b) Associar cada valor ao seu respectivo posto c) Calcular a soma dos postos de cada grupo separadamente. Nota Posto (P 1 ) Nota Posto (P 2 ) 6,5 18 6,5 18 8,0 25,5 3,5 2,5 8,5 27,5 6,0 13 10,0 29,5 7,5 23,5 8,5 27,5 6,0 13 4,0 4,5 3,0 1 7,0 21,5 7,0 21,5 6,0 13 5,5 9,5 5,5 9,5 6,5 18 6,0 13 6,5 18 5,0 7 5,0 7 6,0 13 3,5 2,5 6,5 18 10,0 29,5 8,0 25,5 7,5 23,5 4,0 4,5 5,0 7 Total 176,5 Total 288,5 Tratamento TA Tratamento TB d) Os cálculos de Uo e Uo’ são dado pelas duas fórmulas a seguir: ( ) ( ) 2 2 21 1 11 21 2 12 2 1 PnnnnU PnnnnU −++= −++= Desta forma, pelo exemplo, teremos: ( ) ( ) 5,1315,288 2 12121219 5,575,176 2 199219 =−++⋅= =−++⋅= U U Assim: Uo = 57,5 => U observado Uo’ = 131,5 Vale frisar que a relação entre os 2 U’s e os tamanhos das amostras podem ser resumidas pela seguinte igualdade: Uo = n1 n2 - Uo’ e) A estatística do teste então será calculada pela seguinte fórmula: EESSTTAATTÍÍSSTTIICCAA IINNFFEERREENNCCIIAALL TESTES NÃO-PARAMÉTRICOS 41 ( ) 12 1 2 2121 21 ++ − = nnnn nnU z o o No exemplo: ( )( ) ( )( )( ) 67,1 12 1219219 2 2195,57 + −≅++ − =oz 3º passo: Valor crítico O valor crítico (Zt) será identificado pela tabela da normal padronizada: No exemplo: Zc = 1,64 4º passo: Conclusão do teste ? Aceitação de H0: zt < zo < zt ? Rejeição de H0: zo > zt (bilateral à direita) ou zo < zt (bilateral à esquerda). No exemplo, como (zo = 1,67) > (zt = 1,64) ou (zo = -1,67) < (zt = -1,64) então ocorre a rejeição de H0. Significa que: “Ao nível de significância de 5% a hipótese nula é rejeitada como verdadeira. Ou seja, há evidências estatísticas de que ao chamar os alunos pelos próprios nomes ocorreu um melhor desempenho escolar.” Exercícios 1. Em determinada escola, 7 crianças foram alfabetizadas pelo método A e 11 e pelo método B. Ao final
Compartilhar