Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Teste Qui-quadrado (2) de independência Você já aprendeu sobre a descrição de dados por meio de tabelas de contingência. Agora, suponha que você queira determinar se há uma relação entre o período de trabalho (meio período ou integral) e dois acordos empregatícios diferentes (contrato ou tradicional). Essas variáveis são independentes ou dependentes? Você vai aprender como usar o teste qui-quadrado de independência para responder essa pergunta. Para fazer o teste qui-quadrado de independência, você vai usar amostras de dados que são organizados em uma tabela de contingência! O teste qui-quadrado de independência é muito utilizado nas mais diversas áreas. Ele é usado para verificar se existe associação entre duas variáveis qualitativas (categóricas), com base em uma amostra de observações dispostas numa tabela de contingência com L linhas e C colunas. O processo para a realização de um teste qui-quadrado de independência encontra-se descrito a seguir. 1.) Definir as hipóteses estatísticas a serem testadas: Para testar uma hipótese estatística, você deve estabelecer cuidadosamente um par de hipóteses – uma representa uma alegação e a outra, seu complemento. Em um teste qui-quadrado de independência a hipótese nula afirma independência (ausência de associação) entre as duas variáveis estudadas, enquanto a hipótese alternativa aponta para a associação entre elas. Observe: H0: As duas variáveis em estudo não são relacionadas, isto é, são independentes versus. Ha: Há associação entre as duas variáveis, ou seja, elas são dependentes 2.) Especificar o nível de significância (α): → Erro máximo tolerado no teste! O nível de significância () de um teste é a probabilidade de uma hipótese nula ser rejeitada, quando verdadeira. Ele é utilizado em conjunto com o valor p para decidir pela rejeição ou não da hipótese nula (H0). 3.) Calcular a estatística de teste: A estatística de teste é uma estatística amostral, ou um valor baseado nos dados amostrais. Utiliza-se uma estatística de teste para tomar uma decisão sobre a rejeição ou não da hipótese nula. Para o teste qui-quadrado de independência a estatística de teste é calculada da seguinte maneira: ( ) − = E EO Obs 2 2 onde O representa o valor observado em cada casela da tabela e o valor esperado (E) deve ser calculado para cada casela da tabela de contingência da seguinte maneira: ( ) ( ) n E coluna da totallinha da total = 2 4.) Graus de liberdade (g.l.): Para realizarmos o teste qui-quadrado de independência utilizamos uma distribuição de probabilidade denominada Qui-quadrado cujo parâmetro é o número de graus de liberdade (g.l.) que, para esse teste é obtido por: g.l. = (L-1)(C-1) onde L é o número de linhas e C é o número de colunas da tabela de contingência. 5.) Valor p: ( )22 ObsP Dada uma hipótese nula e um conjunto de dados amostrais, o valor p reflete a probabilidade de se obter tais resultados no caso da hipótese nula ser, de fato verdadeira, ou seja, quantifica o erro cometido ao rejeitar a hipótese nula. Um valor p muito pequeno sugere que os resultados amostrais são muito improváveis sob a hipótese nula, ou seja, constitui evidência contra a hipótese nula. O critério de decisão baseado no valor p é feito da seguinte maneira: ✓ Rejeitar a hipótese nula (H0) se o valor p é no máximo igual ao nível de significância (). ✓ Não rejeitar a hipótese nula (H0) se o valor p é maior do que o nível de significância (). *Curiosidade: A estatística qui-quadrado foi desenvolvida pelo estatístico inglês Karl Pearson (1857- 1936) em 1900, para propósitos ligeiramente diferentes dos nossos. Trata-se do mais antigo processo de inferência ainda usado em sua forma original. Com o trabalho de Pearson e de seus contemporâneos do início do século 20, a estatística despontou, pela primeira vez, como uma disciplina separada. 3 Observe o fluxograma para a realização do teste qui-quadrado de independência: Identificar a hipótese nula (contém a condição de igualdade) e a hipótese alternativa (complementar) Escolher o nível de significância com base na gravidade do erro tipo I. São muito comuns os valores 0,05 e 0,01. Calcular os valores esperados. Determinar a estatística de teste. Calcular o valor p. Rejeitar H0 se o valor p < α. Não rejeitar H0 se o valor p > α Formular uma conclusão que descreva a conseqüência prática dos dados e dos cálculos. 4 Exemplo (Adaptado de Bussab & Morettin, 2008) Num laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência com relação a dois adoçantes artificiais, A e B, obtendo-se os resultados seguintes: Sexo Preferência Total Adoçante A Adoçante B Feminino 60 120 180 Masculino 168 50 218 Total 228 170 398 Existe associação entre o sexo do indivíduo e a preferência pelo adoçante? Utilize um nível de 5% de significância. → 0,05 (Erro máximo tolerado no teste). Estabelecendo as hipóteses: H0: (Indepedência) →A preferência pelo adoçante independe do sexo do indivíduo Ha: (Dependência) →Existe associação entre o sexo do indivíduo e a preferência pelo adoçante Nesse exemplo deseja-se verificar a associação entre duas variáveis categóricas (sexo e preferência pelo adoçante) porém, antes de iniciarmos o processo de construção do teste qui-quadrado é necessário verificar se todas as freqüências esperadas são no mínimo iguais a 5, já que temos uma tabela 2 x 2: 𝐸11 = 180𝑥228 398 = 103,116 𝐸12 = 180𝑥170 398 = 76,884 𝐸21 = 218𝑥228 398 = 124,884 𝐸22 = 218𝑥170 398 = 93,116 Como todas as freqüências esperadas são maiores do que 5 vamos prosseguir com a análise: Estatística de teste: ( ) − = E EO Obs 2 2 𝜒𝑂𝑏𝑠 2 = (60 − 103,116)2 103,116 + (120 − 76,884)2 76,884 + (168 − 124,884)2 124,884 + (50 − 93,116)2 93,116 2 Obs =18,028 + 24,179 + 14,886 + 19,964 = 77,056 Graus de liberdade (g.l.): g.l. = (2-1)(2-1)=1 Valor p: 𝑃(𝜒2 > 𝜒𝑂𝑏𝑠 2 ) = 𝑃(𝜒2 > 77,056) ≈ 0,0005 → SE eu rejeitar a H0, cometo um erro de 0,0005 Valor p < Nível de significância → Posso rejeitar H0 5 Consultando a tabela da distribuição 2, na linha correspondente a 1 grau de liberdade, observamos que o valor mais próximo da estatística de teste ( 2 Obs = 77,056) é 12,115, indicando que o valor p é 0,0005. Como o resultado do valor p (0,0005) é menor do que o nível de significância do teste (0,05), rejeitamos a hipótese nula. Dessa forma, podemos concluir com 95% de confiança que existe associação entre o sexo do indivíduo e a preferência pelo adoçante. SE você optar por utilizar o Microsoft Excel para encontrar o valor p, utilize a função: =DIST.QUIQUA.CD(estatística de teste; grau de liberdade) Condições para o uso do teste 2: • Tabelas 2 x 2 (com duas linhas e duas colunas): nenhum E pode ser menor do que 5. Se o esperado mínimo não for alcançado, usar o teste exato de Fisher, que é a versão exata do teste qui-quadrado (que não será discutido nessa disciplina). • Tabelas 2 x C (com duas linhas e mais de duas colunas): O 2 pode ser calculado se todos os E forem > 1. • Tabelas L x C (com mais de duas linhas e mais de duas colunas): O teste 2 é um procedimento seguro se o número Esperado Médio for > 6 para testes com um nível de significância = 0,05. O Esperado Médio pode ser obtido dividindo- se o total de indivíduos estudados pelo número de caselas. 6 Exercícios em sala 1. (Triola, 1999) Fez-se um estudo de 531 pessoas feridas em acidentes de bicicleta; os resultados de uma amostra aleatória constam na tabela abaixo. Com o nível de 0,05 de significância, teste a afirmação de que existe associação entre o uso de capacete e o risco de ferimentos no rosto: FerimentosCapacete Total Com Sem Com ferimentos faciais 30 182 212 Todos os ferimentos não-faciais 83 236 319 Total 113 418 531 O que você pode concluir? Utilize um nível de 5% de significância. →0,05 Hipóteses estatísticas: H0: (Independência) → O risco de ferimentos no rosto independe do uso de capacete. Ha: (Dependência) → Existe associação entre o uso de capacete e o risco de ferimentos no rosto. Valores esperados: E11=(212x113)/531=45,115 E12=(212x418)/531=166,885 E21=(319x113)/531=67,885 E22=(319x418)/531=251,115 Estatística de teste: 𝜒𝑂𝑏𝑠 2 = ∑ (𝑂−𝐸)2 𝐸 = (30−45,115)2 45,115 + (182−166,885)2 166,885 + (83−67,885)2 67,885 + (236−251,115)2 251,115 =5,064+1,369+3,365+0,909=10,707 Grau de liberdade: (L-1)x(C-1)=(2-1)x(2-1)=1 Valor p = 0,001 → Se rejeitar H0, comete um erro de 0,001. Valor p < Nível de significância → Posso rejeitar H0! Conclusão do teste: Podemos concluir com 5% de significância que existe associação entre o uso de capacete e o risco de ferimentos no rosto. 7 2. (Triola, 1999) Fez-se uma pesquisa para determinar se existe associação entre o sexo e a confiança que o povo deposita na polícia. Os resultados amostrais constam na tabela a seguir: Confiança na polícia Sexo Total Masculino Feminino Muita 115 175 290 Alguma 56 94 150 Muito pouca ou nenhuma 29 31 60 Total 200 300 500 O que você pode concluir? Utilize um nível de 5% de significância. Hipóteses estatísticas: H0: (Independência) → NÃO existe associação entre o sexo e a confiança que o povo deposita na polícia. Ha: (Dependência) → Existe associação entre o sexo e a confiança que o povo deposita na polícia. Valores esperados: E11= (290x200)/500 = 116 E12=(290x300)/500 = 174 E21=(150x200)/500= 60 E22=(150x300)/500 = 90 E31=(60x200)/500= 24 E32=(60x300)/500 = 36 Estatística de teste: 𝜒𝑂𝑏𝑠 2 = ∑ (𝑂−𝐸)2 𝐸 = (115−116)2 116 + (175−174)2 174 + (56−60)2 60 + (94−90)2 90 + (29−24)2 24 + (31−36)2 36 =0,00862+0,00575+0,26667+0,17778+1,04167+0,69444=2,195 Grau de liberdade = (L-1)x(C-1) = (3-1)x(2-1) = 2 Valor p = 0,2 → Se eu rejeitar H0, cometo um erro igual a 0,2. Nível de 5% de significância. → Delimita o erro máximo tolerado no teste. Valor p > Nível de significância → NÃO REJEITO H0. Conclusão do teste: Conclui-se com 5% de significância que NÃO existe associação entre o sexo e a confiança que o povo deposita na polícia. 8 Exercícios de Revisão 1. Um inspetor de qualidade toma uma amostra de 220 artigos num centro de distribuição. Se sabe que cada produto pode vir de uma de três fábricas e pode ou não estar defeituoso. O inspetor avalia todos os produtos e obtém os seguintes resultados: Fábrica 1 Fábrica 2 Fábrica 3 Total Defeituoso 8 15 11 34 Não defeituoso 62 67 57 186 Total 70 82 68 220 Utilize o teste qui-quadrado a um nível de 5% de significância para verificar se ser defeituoso independe da fábrica. 2. Suponhamos que certo pesquisador tenha colhido uma amostra de 200 fumantes (homens e mulheres) e que os tenha classificado em função de três marcas de cigarro: A, B e C. A pesquisa tinha por objetivo verificar se as variáveis marca (do cigarro) e sexo (do fumante) eram dependentes (α = 5%). Utilizando o teste qui- quadrado, o que você pode concluir? Marca A Marca B Marca C Total Masculino 20 70 30 120 Feminino 40 15 25 80 Total 60 85 55 200 3. Um pesquisador quer determinar se existe uma relação entre o período de trabalho (meio período ou integral) e dois acordos empregatícios diferentes. Os resultados de uma amostra aleatória de 904 trabalhadores podem ser vistos na tabela de contingência. Período Acordo empregatício Contrato Tradicional Integral 22 720 Meio período 14 148 O pesquisador pode usar essa amostra para testar a independência usando um teste qui-quadrado de independência? Por quê? 9 DISTRIBUIÇÃO QUI-QUADRADO g.l. 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005 1 1,642 2,072 2,706 3,841 5,024 6,635 7,879 9,140 10,827 12,115 2 3,219 3,794 4,605 5,991 7,378 9,210 10,597 11,983 13,815 15,201 3 4,642 5,317 6,251 7,815 9,348 11,345 12,838 14,320 16,266 17,731 4 5,989 6,745 7,779 9,488 11,143 13,277 14,860 16,424 18,466 19,998 5 7,289 8,115 9,236 11,070 12,832 15,086 16,750 18,385 20,515 22,106 6 8,558 9,446 10,645 12,592 14,449 16,812 18,548 20,249 22,457 24,102 7 9,803 10,748 12,017 14,067 16,013 18,475 20,278 22,040 24,321 26,018 8 11,030 12,027 13,362 15,507 17,535 20,090 21,955 23,774 26,124 27,867 9 12,242 13,288 14,684 16,919 19,023 21,666 23,589 25,463 27,877 29,667 10 13,442 14,534 15,987 18,307 20,483 23,209 25,188 27,112 29,588 31,419 11 14,631 15,767 17,275 19,675 21,920 24,725 26,757 28,729 31,264 33,138 12 15,812 16,989 18,549 21,026 23,337 26,217 28,300 30,318 32,909 34,821 13 16,985 18,202 19,812 22,362 24,736 27,688 29,819 31,883 34,527 36,477 14 18,151 19,406 21,064 23,685 26,119 29,141 31,319 33,426 36,124 38,109 15 19,311 20,603 22,307 24,996 27,488 30,578 32,801 34,949 37,698 39,717 16 20,465 21,793 23,542 26,296 28,845 32,000 34,267 36,456 39,252 41,308 17 21,615 22,977 24,769 27,587 30,191 33,409 35,718 37,946 40,791 42,881 18 22,760 24,155 25,989 28,869 31,526 34,805 37,156 39,422 42,312 44,434 19 23,900 25,329 27,204 30,144 32,852 36,191 38,582 40,885 43,819 45,974 20 25,038 26,498 28,412 31,410 34,170 37,566 39,997 42,336 45,314 47,498 21 26,171 27,662 29,615 32,671 35,479 38,932 41,401 43,775 46,796 49,010 22 27,301 28,822 30,813 33,924 36,781 40,289 42,796 45,204 48,268 50,510 23 28,429 29,979 32,007 35,172 38,076 41,638 44,181 46,623 49,728 51,999 24 29,553 31,132 33,196 36,415 39,364 42,980 45,558 48,034 51,179 53,478 25 30,675 32,282 34,382 37,652 40,646 44,314 46,928 49,435 52,619 54,948 26 31,795 33,429 35,563 38,885 41,923 45,642 48,290 50,829 54,051 56,407 27 32,912 34,574 36,741 40,113 43,195 46,963 49,645 52,215 55,475 57,856 28 34,027 35,715 37,916 41,337 44,461 48,278 50,994 53,594 56,892 59,299 29 35,139 36,854 39,087 42,557 45,722 49,588 52,335 54,966 58,301 60,734 30 36,250 37,990 40,256 43,773 46,979 50,892 53,672 56,332 59,702 62,160 Área DISTRIBUIÇÃO QUI-QUADRADO ( )22 TesteP 10 GABARITO EXERCÍCIO EM SALA: 1) Hipóteses estatísticas: H0: (Independência) → O risco de ferimentos no rosto independe do uso de capacete. Ha: (Dependência) → Existe associação entre o uso de capacete e o risco de ferimentos no rosto. Valores esperados: E11=(212x113)/531=45,115 E12=(212x418)/531=166,885 E21=(319x113)/531=67,885 E22=(319x418)/531=251,115 Estatística de teste: 𝜒𝑂𝑏𝑠 2 = ∑ (𝑂−𝐸)2 𝐸 = (30−45,115)2 45,115 + (182−166,885)2 166,885 + (83−67,885)2 67,885 + (236−251,115)2 251,115 =5,064+1,369+3,365+0,909=10,707 Grau de liberdade: (L-1)x(C-1)=(3-1)x(2-1)=2 Valor p = 0,001 → Se rejeitar H0, comete um erro de 0,001. Valor p < Nível de significância → Posso rejeitar H0! Conclusão do teste: Podemos concluir com 5% de significância que existe associação entre o uso de capacete e o risco de ferimentos no rosto. 2) Valores esperados: E11=116 E12=174 E21=60 E22=90 E31=24 E32=36 Estatística de teste: 𝜒𝑂𝑏𝑠 2 = ∑ (𝑂−𝐸)2 𝐸 =0,00862+0,00575+0,26667+0,17778+1,04167+0,69444=2,195 Grau de liberdade: (L-1)x(C-1)=(2-1)x(2-1)=1 Valor p = 0,2 → NÃO Rejeito H0 11 EXERCÍCIOS DE REVISÃO: 1) Valores esperados: E11=10,82 E12=12,67 E13=10,51 E21=59,18 E22=69,33 E23=57,49 Estatística de teste: 𝜒𝑂𝑏𝑠 2 = ∑ (𝑂−𝐸)2 𝐸 =0,73415+0,42739+0,02293+0,13420+0,07813+0,00419=1,401 Grau de liberdade: (L-1)x(C-1)=(2-1)x(3-1)=2 Valor p = 0,2 → NÃO rejeito H0 2) Valores esperados: E11=36 E12=51 E13=33 E21=24 E22=34 E23=22 Estatística de teste:𝜒𝑂𝑏𝑠 2 = ∑ (𝑂−𝐸)2 𝐸 =7,111+7,078+0,273+10,667+10,618+0,409=36,156 Grau de liberdade: (L-1)x(C-1)=(2-1)x(3-1)=2 Valor p = 0,0005 → Rejeito H0 3) Valores esperados: E11=29,55 E12=712,45 E21=6,45 E22=155,55 Estatística de teste: 𝜒𝑂𝑏𝑠 2 = ∑ (𝑂−𝐸)2 𝐸 =1,9284+0,080+8,8327+0,3663=11,207 Grau de liberdade: (L-1)x(C-1)=(2-1)x(2-1)=1 Valor p = 0,001 → Rejeito H0
Compartilhar