Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inferência Estatística Material Teórico Responsável pelo Conteúdo: Prof.ª Me. Adriana Domingues Freitas Revisão Textual: Prof.ª Dr.ª Luciene Oliveira da Costa Granadeiro Teste Qui-Quadrado • Introdução; • A Estatística Qui-Quadrado; • O Cálculo da Estatística Qui-Quadrado. • Realizar inferência para comparações múltiplas; • Levar o aluno a reconhecer no teste Qui-Quadrado uma estratégia para inferência de comparações múltiplas. OBJETIVOS DE APRENDIZADO Teste Qui-Quadrado Orientações de estudo Para que o conteúdo desta Disciplina seja bem aproveitado e haja maior aplicabilidade na sua formação acadêmica e atuação profissional, siga algumas recomendações básicas: Assim: Organize seus estudos de maneira que passem a fazer parte da sua rotina. Por exemplo, você poderá determinar um dia e horário fixos como seu “momento do estudo”; Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma alimentação saudável pode proporcionar melhor aproveitamento do estudo; No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam- bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua interpretação e auxiliarão no pleno entendimento dos temas abordados; Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus- são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e de aprendizagem. Organize seus estudos de maneira que passem a fazer parte Mantenha o foco! Evite se distrair com as redes sociais. Mantenha o foco! Evite se distrair com as redes sociais. Determine um horário fixo para estudar. Aproveite as indicações de Material Complementar. Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma Não se esqueça de se alimentar e de se manter hidratado. Aproveite as Conserve seu material e local de estudos sempre organizados. Procure manter contato com seus colegas e tutores para trocar ideias! Isso amplia a aprendizagem. Seja original! Nunca plagie trabalhos. UNIDADE Teste Qui-Quadrado Introdução Nesta unidade, veremos a inferência para comparação da distribuição de múlti- plas variáveis e, para isso, usaremos o teste do Qui-Quadrado. O teste Qui-Quadrado tem por objetivo testar e comparar frequências entre amostras aleatórias. Na prática, aplicamos esse teste para verificar se determinado registro observado em uma amostra possui, ou não, desvio em relação ao valor esperado e se a diferença, quando observada dentre as classes (ou categorias) de respostas, pode ser de fato uma ocorrência para a população, ou se é apenas fruto do acaso observado na amostra. Ou seja: Inferir se há uma diferença entre a distribuição dos registros observada e a esperada, se essa diferença se deve ao acaso, na escolha da amostra, ou se de fato ela pode ser considerada um padrão para a população. Importante! O teste Qui-Quadrado verifica se uma diferença observada na amostra é estatisticamen- te significante e se representa uma característica da população. Importante! Além disso, avalia o conjunto de dados com diferentes variáveis e se existe algum tipo de associação entre duas variáveis. A Estatística Qui-Quadrado A distribuição Qui-Quadrado, assim como a normal e a t de student também pode ser representada por uma curva densidade. Observe a figura a seguir, a distribuição Qui-Quadrado é uma família de curvas, que varia de acordo com o número de graus de liberdade, possui área igual a 1. gl = 1 gl = 4 gl = 8 0 Figura 1 – Curvas de Densidade da distribuição Qui-Quadrado Fonte: Moore, Notz e Fligner (2017) 8 9 Perceba na imagem que a curva, independentemente do número de graus de liberdade, tem como característica ser assimétrica à direita e assume somente va- lores positivos. Os valores das respectivas áreas sob a curva e o eixo horizontal também são ta- belados e de fácil consulta, porém, com um detalhe importante, e que a diferencia da “t de student” e da normal: o valor informado é sempre de uma área à direita do valor observado. 0 X2 Figura 2 – Curva Qui-Quadrado Fonte: Acervo do conteudista Temos então que, em um teste Qui-Quadrado, a região crítica é determinada a partir do valor observado na tabela Qui-Quadrado, valor obtido de acordo com os graus de liberdade e nível de significância estipulado, e essa região estará, na curva densidade, sempre à direta do valor observado. Importante! No Teste Qui-Quadrado, a região crítica RC estará sempre à direita do valor observado na tabela Qui-Quadrado. Importante! Como calcular o número de graus de liberdade e consultar um valor usando a Tabela do Qui-Quadrado? Para consultar o valor na tabela Qui-Quadrado, precisamos de duas informa- ções: o número de graus de liberdade e o nível de significância α. O número de graus de liberdade para um teste Qui-Quadrado varia de acordo com o número de classes (ou categorias) nos quais os dados foram agrupados. É ob- tido, então, de acordo com a forma como esses dados foram organizados e quantas entradas de dados a amostra possui. Ou seja: tem relação direta com o número de variáveis e classes (ou categoria). Será dado por: GL = (r – 1) quando temos apenas uma entrada de dados. 9 UNIDADE Teste Qui-Quadrado Ou por: GL = (r – 1)(c – 1) quando temos mais de um entrada de dados. Onde r (do termo row em inglês) é o número de linhas (no caso, classes ou cate- gorias) e c (do termo column em inglês) o número de colunas. Observe que, para calcular GL, devemos antes observar se é uma única entrada de dados ou múltipla. Exemplo 1: uma pesquisa, com uma amostra de 240 alunos, foi realizada em uma universidade para identificar qual o gênero musical de preferência dos estudan- tes. As respostas foram coletadas e organizadas conforme tabela a seguir: Tabela 1 Gênero Respostas Clássico 18 Funk 24 Mpb 40 Pagode 24 Pop 54 Rock 42 Samba 38 Observe que os 240 registros da amostra foram organizados em uma tabela com 7 linhas e 1 coluna. Note que temos uma coluna, visto que há somente uma entrada de dados. Nesse caso, o número dos graus de liberdade será dado por: GL = (r – 1) GL = (7 – 1) = 6 Exemplo 2: em outra tabela, temos a distribuição da preferência quanto ao gê- nero de filmes que foi coletada em uma pesquisa. Tabela 2 Tipo Feminino Masculino Romance 24 20 Comédia 22 18 Ação 38 40 Terror 16 22 Observe que a distribuição não é só realizada pelo gênero de filmes, mas tam- bém em relação aos gêneros feminino e masculino. Nesse caso, não há apenas uma única entrada de dados e o número de graus de liberdade será dado por: GL = (r – 1)(c – 1) GL = (4 – 1)(2 – 1) GL = 3 . 1 = 3 10 11 Exemplo 3: na tabela a seguir, temos a distribuição dos usuários de acordo com as respectivas faixas etárias nas quatro das principais redes sociais: Tabela 3 Rede/Idade de 18 a 24 de 25 a 34 de 35 a 44 de 45 a 54 de 55 a 64 > 65 Facebook 32 26 18 14 4 6 Instagram 22 28 20 16 12 2 Twitter 20 28 26 18 6 2 Snapchat 42 30 12 9 6 1 LinkedIn 14 22 30 18 12 4 Nesse caso, temos múltiplas entradas de dados e o número de graus de liberdade será dado por: GL = (r – 1)(c – 1) GL = (5 – 1)(6 – 1) GL = 4 . 5 = 20 Note que o número de graus de liberdade será dado a partir da entrada de dados observada na amostra. Vamos seguir adiante: obtido o número de graus de liberda- de, como consultar a tabela Qui-Quadrado? Observe que os números tabelados para Qui-Quadrado dependem não só núme- ro de graus de liberdade, como também da significância α. adotada. O nível de significância α é um indicador de a informação ser improvável, enquanto o nível de confiança é o indicador de a informação ser provável. Se temos significância de 5%, temos confiança de95%. A primeira coluna da tabela corresponde aos graus de liberdade (GL) e as demais ao nível de significância adotado. A tabela abaixo é a mais usual e traz variações de 99,5% até 0,5% para o nível de significância e até 100 graus de liberdade. Tabela 4 GL/α 0,995 0,99 0,975 0,95 0,9 0,1 0,05 0,025 0,01 0,005 1 0,00004 0,00016 0,0010 0,0039 0,016 2,706 3,841 5,024 6,635 7,879 2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597 3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838 4 0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277 14,860 5 0,412 0,554 0,831 1,145 1,610 9,236 11,070 12,833 15,086 16,750 6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812 18,548 7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475 20,278 8 1,344 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090 21,955 9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666 23,589 10 2,156 2,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209 25,188 11 2,603 3,053 3,816 4,575 5,578 17,275 19,675 21,920 24,725 26,757 11 UNIDADE Teste Qui-Quadrado GL/α 0,995 0,99 0,975 0,95 0,9 0,1 0,05 0,025 0,01 0,005 12 3,074 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217 28,300 13 3,565 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688 29,819 14 4,075 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141 31,319 15 4,601 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578 32,801 16 5,142 5,812 6,908 7,962 9,312 23,542 26,296 28,845 32,000 34,267 17 5,697 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409 35,718 18 6,265 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805 37,156 19 6,844 7,633 8,907 10,117 11,651 27,204 30,144 32,852 36,191 38,582 20 7,434 8,260 9,591 10,851 12,443 28,412 31,410 34,170 37,566 39,997 21 8,034 8,897 10,283 11,591 13,240 29,615 32,671 35,479 38,932 41,401 22 8,643 9,542 10,982 12,338 14,041 30,813 33,924 36,781 40,289 42,796 23 9,260 10,196 11,689 13,091 14,848 32,007 35,172 38,076 41,638 44,181 24 9,886 10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980 45,559 25 10,520 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314 46,928 26 11,160 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290 27 11,808 12,879 14,573 16,151 18,114 36,741 40,113 43,195 46,963 49,645 28 12,461 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278 50,993 29 13,121 14,256 16,047 17,708 19,768 39,087 42,557 45,722 49,588 52,336 30 13,787 14,953 16,791 18,493 20,599 40,256 43,773 46,979 50,892 53,672 40 20,707 22,164 24,433 26,509 29,051 51,805 55,758 59,342 63,691 66,766 50 27,991 29,707 32,357 34,764 37,689 63,167 67,505 71,420 76,154 79,490 60 35,534 37,485 40,482 43,188 46,459 74,397 79,082 83,298 88,379 91,952 70 43,275 45,442 48,758 51,739 55,329 85,527 90,531 95,023 100,425 104,215 80 51,172 53,540 57,153 60,391 64,278 96,578 101,879 106,629 112,329 116,321 90 59,196 61,754 65,647 69,126 73,291 107,565 113,145 118,136 124,116 128,299 100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169 Assim como nos testes de significância, esse valor observado na tabela é o nosso valor crítico, ou seja, ele delimita a região crítica, o que implica concluir a respeito das hipóteses assumidas. No teste de Qui-Quadrado para inferência a respeito das diferenças observadas em amostras, temos sempre que: • H0: não há diferença estatisticamente significativa; • H1: há uma diferença significativa. E, ao confrontar o valor do Qui-Quadrado, calculado com o valor do Qui-Qua- drado observado, temos que: • se o valor da estatística de teste calculada pertencer à região crítica, ou seja, estiver na reta do eixo horizontal, após o valor que observamos na tabela, nós rejeitamos H0 e assumimos H1; • se o valor da estatística calculada não pertencer à região crítica, nós aceitamos H0 e rejeitamos H1. 12 13 Observe a figura 3 a seguir, temos que aceitar ou rejeitar H0, o que se dará pela observação da posição de X² calculado em relação ao X² observado na tabela: • se X² calculado < X² observado: mantemos a H0; • se X² calculado > X² observado: rejeitamos a H0. 0 x2 x2 calc < x2 obs x2 calc x2 calc x2 calc > x2 obs 0 x2 Figura 3 – Teste do Qui-Quadrado. X² calculado e X² observado Importante! Há vídeos na internet que utilizam o teste do Qui-Quadrado para inferência acerca da variância e do desvio-padrão, contudo, tais inferências não são indicadas por boa parte dos livros que tratam sobre o tema e, neste estudo, focaremos em utilizar o teste para inferência acerca de comparação de amostras com múltiplas entradas. Importante! Veremos, na sequência, como calcular a estatística Qui-Quadrado e como realizar o teste. O Cálculo da Estatística Qui-Quadrado A Estatística Qui-Quadrado é calculada por: X obs esp esp 2 = −( ) � ² Σ No qual se mede, então, a diferença entre os valores observados e os valores es- perados na amostra e quão distantes, de forma global, os valores observados estão dos esperados. Logo, para cada valor (registro) observado na tabela que representa a amostra, faz-se o quadrado da diferença entre esse valor e o respectivo valor esperado – esse quadrado se divide pelo respectivo valor esperado. Esse processo deve ser repetido para cada registro da tabela e, ao final, somamos todos esses valores e a soma re- sultada no valor da estatística Qui-Quadrado. 13 UNIDADE Teste Qui-Quadrado O valor observado (obs) diz respeito aos valores coletados na amostra, de acordo com a categorização e registrados na tabela. O valor esperado (esp) é obtido pela estimativa estatística a respeito da amostra e veremos nos exemplos como calcular, pois dependerá (e será diferente) se tiver- mos uma única entrada de dados ou múltiplas entradas. Veremos, na sequência, com os exemplos, como se dá o cálculo da estatística de teste e como se dá o cálculo do valor esperado (esp). Exemplo 4: uma pesquisa, com uma amostra de 120 funcionários, foi reali- zada em uma indústria para identificar qual o meio de transporte mais utilizado pelos funcionários. As respostas foram coletadas e organizadas conforme tabela a seguir: Tabela 5 Tipo de Locomoção Total Transporte Próprio 32 Transporte Público 58 Carona 16 A pé 10 Bicicleta 4 O teste do Qui-Quadrado nos permitirá inferir se a diferença observada entre as respostas Transporte Próprio, Transporte Público, Carona, A pé e Bicicleta são di- ferenças que representam uma característica existente na população, ou seja, para todos os funcionários da indústria, ou se essa diferença é casual e possivelmente somente observada no recorte da amostra coletada. Para cada valor observado na tabela, calcularemos o quadrado da diferença en- tre esse valor e o respectivo valor esperado e, posteriormente, ao realizarmos o quadrado dessa diferença, faremos a divisão pelo valor esperado. obs esp esp −( )² Bem, o valor observado nós temos na própria tabela, mas qual seria o valor esperado para cada uma das classes? Como temos uma única entrada de dados, o valor esperado (estatisticamente) será dado pela soma total dos registros coletados, dividido pelo número de classes (ou categorias) de respostas distintas que obtivemos na amostra. Sim, podemos pensar aqui na probabilidade de eventos equiprováveis, ou seja, pensando nos da- dos da amostra e nas possibilidades das respostas, teríamos uma divisão sem pre- ponderância de um tipo de resposta sobre as demais. 14 15 Importante! O teste Qui-Quadrado somente poderá ser aplicado se tivermos, em todas as células de valor esperado, valores maiores ou iguais a 5. Ou seja: o valor esperado não poderá ser inferior a 5. Importante! Veja que, no nosso exemplo, temos 120 respostas no total e que estão organi- zadas em cinco classes (cinco padrões identificados nas respostas), então o valor esperado para cada classe seria de 120/5 = 24. Assim, de cada valor observado na amostra, subtrairemos o valor esperado (24) e essa diferença será elevada ao quadrado e o resultado dividido pelo valorespera- do de cada registro, que, nesse caso, será o mesmo: 24. Essa é uma ação para uma única entrada de dados. Vale destacar que, quando tivermos mais de uma entrada, o cálculo, você verá adiante, será outro. Para facilitar a organização dos cálculos e seu entendimento, faremos o cálculo em uma tabela, o que também fica funcional uma vez que o processo se repete para cada valor observado. Tabela 6 Observado Esperado (obs-esp)²/esp (obs-esp)²/esp 32 24 [(32-24)²]/24 2,66667 58 24 [(58-24)²]/24 48,16667 16 24 [(16-24)²]/24 2,66667 10 24 [(10-24)²]/24 8,16667 4 24 [(4-24)²]/24 16,66667 120 120 SOMA TOTAL 78,33333 Vale retomar a explicação do cálculo realizado: de cada valor observado, sub- traímos o valor esperado, e essa diferença é elevada ao quadrado e, na sequência, dividimos pelo valor esperado. obs esp esp −( )² Veja que o detalhe da sequência do cálculo está na terceira coluna da tabela e o resultado na quarta coluna. Ao somarmos todos esses valores, temos o valor do Qui-Quadrado. Importante! Observe que a soma de todos esses valores calculados “(obs-esp)²/esp” resulta na esta- tística Qui-Quadrado. Importante! 15 UNIDADE Teste Qui-Quadrado X obs esp esp 2 =∑ −( ) � ² O valor de Qui-Quadrado nesse primeiro exemplo será X calc2 78 15385= , . A análise que temos que fazer na sequência é: o que significa esse valor? Com base nesse valor, qual será nossa inferência acerca da diferença que observamos, entre os tipos de respostas, na amostra? Dando sequência ao teste, vamos então confrontar esse valor calculado (78,15385) com o valor que será observado na tabela de dados Qui-Quadrado. Como nesse primeiro exemplo, temos uma entrada única de dados e 5 classes nas quais nossos dados foram organizados. Então, como graus de liberdade, temos: GL = (r – 1) GL = (5 – 1) = 4 Portanto, nesse exemplo, GL = 4. Sabemos que GL = 4. Qual significância devemos utilizar? Bem, essa é uma escolha do pesquisador. Como vimos no decorrer da disciplina, a gestão do nível de confiança e significância fica a critério do pesquisador. Nesse exemplo, verifica- remos com os níveis de significância de 10%, 5% e 1% respectivamente. Observe o recorte abaixo da tabela Qui-Quadrado: Tabela 7 gl/α 0,995 0,99 0,975 0,95 0,9 0,1 0,05 0,025 0,01 0,005 1 0,00004 0,00016 0,0010 0,0039 0,016 2,706 3,841 5,024 6,635 7,879 2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597 3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838 4 0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277 14,860 Veja os valores de acordo com a significância: Com GL 4, temos: • Para α = 10%, temos X2 7 779= , • Para α = 5%, temos X2 9 488= , • Para α = 1%, temos X2 13 277= , Perceba que, quanto menor a significância, maior o valor de Qui-Quadrado. Esse é o valor que delimita nossa região crítica. Caso nosso valor calculado tenha sido X² calc=78,15385 temos que, sem dú- vida alguma, ele está na região crítica, tanto para α = 10% como para α = 5% e α = 1%. Logo, negamos H0 e mantemos H1, ou seja, a diferença constatada na 16 17 amostra, com significância de 1%, revela que há essa diferença como caracterís- tica para a população. Comparações Múltiplas O teste Qui-Quadrado é especialmente utilizado quando desejamos realizar múl- tiplas comparações e verificar se existe uma associação entre determinadas vari- áveis de uma amostra. O cálculo do Qui-Quadrado continua sendo realizado por: X obs esp esp 2 =∑ −( ) � ² Porém, cabe ressaltar que, quando temos múltiplas entradas de dados, esse cál- culo fica mais extenso e, além disso, o cálculo do valor esperado para cada classe também se altera conforme veremos a seguir. Analisaremos, agora, um exemplo de uma situação problema, retirada do livro de Moore, Notz e Fligner (2017, p. 471). Exemplo 5: a General Social Survey perguntou a uma amostra de adultos sobre sua educação e se consideravam a astrologia científica. Os dados para pessoas com três níveis de educação superior foram registrados na tabela a seguir: Tabela 8 Junior College Bacharel Mestre Total Não Científica 44 122 71 237 Científica 31 62 27 120 Total 75 184 98 357 É possível inferir que pessoas com diferentes níveis de formação divergem em suas opiniões acerca de a Astrologia ser científica ou não científica? Veja que não se trata somente de verificar a diferença, como fizemos no exemplo 4, mas de verificar se há uma associação entre o nível de formação e o tipo de resposta registrado. Temos, então, uma amostra organizada em uma tabela com mais de uma entra- da de dados para a qual faremos o teste do Qui-Quadrado para inferir se há dife- rença ou não acerca das opiniões dos entrevistados que tenha relação com o nível de formação dos mesmos. Temos, então, que, em H0, há igualdade (não há diferença), e, em H1, há diferença. Sabemos que, para cada registro observado, devemos fazer o seguinte cálculo: obs esp esp −( )² 17 UNIDADE Teste Qui-Quadrado Só que o valor esperado, para registros organizados em tabelas com múltiplas entradas não é realizado, como vimos no exemplo anterior. Nesse caso, o valor esperado para cada registro será dado por: total da linha x total da coluna total da tabela Observe que, quando mencionamos linha e coluna, nós nos referimos às respec- tivas linha e coluna nas quais está o registro observado. Veja novamente a tabela dos registros iniciais observados na amostra. Para o nível Junior College, 44 pessoas classificam a Astrologia como não científica. Esse é, portanto, o valor observado. E qual será o valor esperado? Tabela 9 Junior College Bacharel Mestre Total Não Científica 44 122 71 237 Científica 31 62 27 120 Total 75 184 98 357 Para calcular o valor esperado para a célula correspondente a “Não Científica & Junior College”, faremos a multiplicação do total da linha do “Não Científica” (237) pelo total da coluna “Junior College” (75), que são respectivamente os totais da linha e coluna na qual está o valor 44 para “Não Científica & Junior College” e a divisão pelo total da tabela (357). Então, para o valor observado na tabela igual a 44, o valor esperado será dado por: totalda linha x total dacoluna totalda tabela = =� � �237 75 357 4 x 99 790, Da mesma forma, calcularemos os demais valores esperados: Para o valor observado de 122, que se refere a “Não Científica & Bacharel”, temos o seguinte cálculo para o valor esperado: totalda linha x total da coluna total da tabela = =� � �237 184 357 122 x ,,151 Para o valor de 71 que se refere ao observado de “Não Científica & Mestre”, temos o seguinte valor esperado: totalda linha x total dacoluna total da tabela = =� � �237 98 357 65 x ,, 069 18 19 Para o valor de 31 que se refere ao observado de “Científica & Junior College”, temos o seguinte valor esperado: totalda linha x total da coluna totalda tabela = =� � � , 120 75 357 25 x 2210 Para o valor de 62 que se refere ao observado de “Científica & Bacharel”, temos o seguinte valor esperado: total da linha x total dacoluna total da tabela = =� � �120 184 357 61 x ,, 849 Para o valor de 27 que se refere ao “Científica & Mestre”, temos o seguinte valor esperado: totalda linha x total dacoluna total da tabela = =� � � , 120 98 357 32 x 9941 Para organizar os cálculos e facilitar a observação dos dados, temos a seguinte tabela: Tabela 10 Júnior College Bacharel Mestre Total Não Científica 44 122 71 237 Esperado 49,790 122,151 65,059 Científica 31 62 27 120 Esperado 25,210 61,849 32,941 Devemos dar sequência ao cálculo do X², sendo assim, para cada registro, fare- mos o cálculo: obs esp esp −( )² Para organizar os valores, incluiremos uma nova linha da tabela que terá o resul- tado de [(obs-esp)²/esp]. Observe o detalhamento do cálculo para o primeiro valor: obs esp esp −( ) = −( ) = = ² � , � ² , � , , , 44 49 790 49 790 33 5241 49 790 0 673 Observe que podemos ter uma pequena questão com os arredondamentos, mas que é desprezívelnesse contexto. 19 UNIDADE Teste Qui-Quadrado A seguir, temos os valores (obs-esp)²/esp devidamente calculados: Tabela 11 Junior College Bacharel Mestre Total Não Científica 44 122 71 237 Esperado 49,790 122,151 65,059 [(obs-esp)²/esp] 0,67329 0,00019 0,54255 – Científica 31 62 27 120 Esperado 25,210 61,849 32,941 [(obs-esp)²/esp] 1,32975 0,00037 1,07153 – Lembramos que o Qui-Quadrado é obtido a partir da soma desses valores. X obs esp esp 2 =∑ −( ) � ² X² = 0,67329 + 0,00019 + 0,54255 + 1,32975 + 0,00037 + 1,07153 = 3,61768 Temos, então, para essa amostra, que X² calc = 3,61768. Vamos agora comparar com o valor tabelado. No livro, os autores não mencio- nam a significância. Adotaremos aqui α = 5%. Para o número de graus de liberdade, temos: GL = (r – 1)(c – 1) GL = (2-1)(3-1) = 2 Com 2 graus de liberdade e 5% significância, o valor observado na tabela é igual a 5,991. Como sabemos, esse valor delimita a região crítica à sua direita. Então, valores superiores a 5,991 invalidam H0 (não diferença) e valores inferiores a 5,991 inva- lidam H1 (diferença). 0 x2 = obs 5,991 x2 = calc 3,61768 Figura 4 – Teste do Qui-Quadrado do exemplo 5 Fonte: Acervo do conteudista 20 21 Temos que 3,61768 < 5,991. Observe, na figura 3, que o valor de 3,61768 não pertence à região crítica. Portanto, não podemos dizer que há diferença entre as respostas dadas em relação ao nível de formação dos entrevistados. Veja um outro exemplo: Exemplo 6: uma revendedora de automóveis estuda realizar uma campanha publicitária dirigida ao público de acordo com a faixa etária e a preferência de au- tomóveis dados os tipos de modelo: clássico ou esportivo. Fez uma pesquisa e da amostra obteve os seguintes resultados: Tabela 12 Esportivo Clássico Total Faixa Etária de 20-29 38 24 62 Faixa Etária de 30-39 26 30 56 TOTAL 64 54 118 É possível, com base nessa amostra, inferir que há uma predileção para o carro esportivo conforme se é mais jovem? Assim como uma predileção para o carro clássico à medida que se avança na idade? Temos, então, que, em H0, há igualdade (não há diferença de acordo com a idade), e, em H1, há diferença. Para calcular o Qui-Quadrado, devemos calcular antes os respectivos valores esperados. total da linha x total da coluna total da tabela O valor esperado para “Esportivo & Faixa Etária de 20-29” será dado por: total da linha x total da coluna total da tabela = =� � � � , 62 64 118 33 62 x 771 Observe a tabela a seguir já com os respectivos valores esperados: Tabela 13 Esportivo Clássico Total Faixa Etária de 20-29 38 24 62Valor Esperado (total coluna x total linha)/total geral (62*64)/118 = 33,6271 31 (62*54)/118 = 28,3729 Faixa Etária de 30-39 26 30 56Valor Esperado (total coluna x total linha)/total geral (56*64)/118 = 30,3729 (56*54)/118 = 25,6271 21 UNIDADE Teste Qui-Quadrado Na sequência, faremos a divisão entre o quadrado da diferença entre cada valor observado e seu respectivo esperado, pelo valor esperado. obs esp esp −( )² Tabela 14 Esportivo Clássico Total Faixa Etária de 20-29 38 24 62 Valor Esperado 33,62712 28,37288 [(obs-esp)² / esp] 0,568651 0,673957 Faixa Etária de 30-39 26 30 56 Valor Esperado 30,37288 25,62712 [(obs-esp)² / esp] 0,629578 0,746166 Como o valor final de Qui-Quadrado calculado é dado por: X obs esp esp 2 =∑ −( ) � ² Então temos a seguinte soma: 0,568651+ 0,673957 + 0,629578 + 0,746166. Logo: X² calc = 2,618352 = 2,62. Temos o valor de X² calc, agora vamos verificar qual o valor para X² na tabela Qui-Quadrado e confrontar os valores. Para consultar X² na tabela, temos: GL = (r – 1)(c – 1) GL = (2 – 1)(3 – 1) = 2 Para GL, temos a seguinte linha: Tabela 15 gl/α 0,995 0,99 0,975 0,95 0,9 0,1 0,05 0,025 0,01 0,005 2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597 Para Significância de 5% e GL = 2, temos X² = 5,991. 22 23 0 x2 = obs 5,991 x2 = calc 2,62 Figura 5 – Teste Qui-Quadrado Fonte: Acervo do conteudista Observe que 2,62 < 5,991, portanto, X² calc < x² obs, então, temos que X² calc não pertence à região crítica e, portanto, devemos manter H0. Portanto, podemos inferir que, com 2 graus de liberdade e 5% de significância, não há como afirmar que a idade interfere na escolha pelo modelo esportivo ou clássico. Veja que o teste evidencia quão distantes os valores observados estão dos valores esperados, assim, quanto maior o valor de X², maior a evidência contrária a H0, ou seja, maior a evidência de que a diferença observada não ocorreu ao acaso. Mas se trata de uma característica populacional e, ainda, que há uma associação entre as va- riáveis observadas. Podemos também analisar quais dados influenciam na amostra e, nesse caso, podemos fazer uma análise comparativa entre o observado e o esperado para cada registro. Logicamente, aquele que tiver maior diferença contribuirá para um maior valor do Qui-Quadrado e o contrário também é verdadeiro, aquele que tiver menor diferença contribuirá para um menor valor do Qui-Quadrado. Observe uma outra situação: Exemplo 7: uma pesquisa, a respeito da preferência por séries ou novelas foi realizada e os dados encontram-se já tabelados, conforme abaixo: Tabela 16 Novelas Séries Total Faixa Etária de 20-29 26 38 64 Valor Esperado 32,5614 31,4386 [(obs-esp)² / esp] 1,32218 1,36940 Faixa Etária de 30-39 32 18 50 Valor Esperado 25,4386 24,5614 [(obs-esp)² / esp] 1,69239 1,75283 23 UNIDADE Teste Qui-Quadrado Dessa síntese dos dados, observe que podemos obter algumas informações, sen- do a primeira em relação ao total de dados da amostra: 114 pessoas participaram dessa pesquisa. Dos participantes, temos 64 na faixa etária de 20-29 anos e 50 na faixa etária de 30-39. Aparentemente, quanto maior a faixa etária, maior a predileção por novelas e, quanto menor, maior a predileção por séries. Mas não podemos afir- mar antes de realizar o teste e, mesmo com o teste, a inferência está atrelada a um nível de significância. Observe que a maior diferença ocorre, sobretudo, para o que foi registrado na faixa etária de 30-39. Em relação ao Qui-Quadrado, temos: 1,32218 + 1,36940 + 1,69239 + 1,75283. X² = 6,1368 = 6,14. Ao nível de 5% de significância, com GL = 2, temos que esse valor está na região crítica e, portanto, podemos inferir que de fato a faixa etária influencia a escolha por série ou novelas. Podemos observar que, quanto mais se avança na idade, maior a predileção por novelas do que por séries. Bem, chegamos ao final desta unidade, tivemos por objetivo apresentar o teste Qui-Quadrado para inferência acerca das diferenças apresentadas em amostras e se, de fato, elas podem, sob um determinado nível de significância, caracterizar uma população. Além disso, apresentamos também a possibilidade da inferência para verificar a associação entre múltiplas variáveis em uma determinada amostra. Para melhor aproveitamento, releia o material teórico, refaça os exemplos, assista à videoaula e leia e acesse a indicação do material complementar. Bons estudos! 24 25 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Livros A estatística básica e sua prática Para melhor aprofundamento dos temas tratados nesta unidade, sugerimos a leitura do capítulo 25: A estatística básica e sua prática. Há exemplos e também exercícios que podem auxiliar você no aprofundamento e fixação do conteúdo. MOORE, D. S.; NOTZ, W. I.; FLIGNER M. A. A estatística básica e sua prática. Tradução de Ana Maria Lima de Farias. Rio de Janeiro: LTC, 2017. Vídeos Estatística e Probabilidade – Aula 12 – Teste Qui-quadrado No vídeo disponível a seguir, da Universidade Virtual do Estado de São Paulo (UNIVESP), você verá um exemplo do teste Qui-Quadrado. Sugerimos assistir ao vídeo e resolver os dois exemplos para, depois, assistir à resolução da professora. https://youtu.be/4QfHVbpAoSg Tabela da Distribuição Qui Quadrado O prof. Conrad Pinheiro, do canal “Professor Guru”, explicaa distribuição Qui- Quadrado. Contudo, alertamos, conforme Moore, Notz e Fligner (2017), para o fato de que não é indicado utilizar o teste do Qui-Quadrado para inferências acerca do desvio-padrão e variância. Mas indicamos o vídeo como oportunidade ver algumas características da distribuição Qui-Quadrado. https://youtu.be/fom6T3bsAL8 Teste de Qui Quadrado – Resumo – Bioestatística Em outro exemplo, você verá o teste de Qui-Quadrado aplicado à área da Bioestatística. https://youtu.be/qKQuCYkt3BI 25 UNIDADE Teste Qui-Quadrado Referências MOORE, D. S.; NOTZ, W. I.; FLIGNER M. A. A estatística básica e sua prática. Tradução de Ana Maria Lima de Farias. Rio de Janeiro: LTC, 2017. 26
Compartilhar