Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Prova #3 Introdução à Inferência Estatística Professor Thiago Fonseca Morello Nome______________________________________________ RA________________ Turno__________ INSTRUÇÕES PARA RESOLUÇÃO DA PROVA (LER ATENTAMENTE) 1. Não é permitido o uso de calculadoras, smartphones, notebooks, qualquer tipo de aparato eletrônico/computacional, ou de qualquer material de consulta incluindo tabelas de FDs retiradas de livros-texto. Desligar todos os equipamentos durante a prova; 2. O tempo para resolução é de 2 horas: não será concedido tempo adicional; 3. Não ultrapassar o espaço reservado, no caderno de respostas (este documento) para a resolução de cada questão: todo o texto escrito fora do espaço reservado será desconsiderado; 4. Será fornecido papel para rascunho em quantidade suficiente. Por favor, utilizar o rascunho para chegar a respostas consistentes e concisas e reservar tempo para transcrevê-las neste caderno de respostas; 5. As respostas às questões deverão constar nas lacunas indicadas. A resolução (contendo justificativas e explicações) de cada item deverá ser apresentada na caixa abaixo do enunciado respectivo (caso haja tal caixa). Itens sem resolução (caixa em branco) serão anulados; 6. Preencher a caneta ou a lápis (cuidar para que fique claro e nítido se usar lápis); 7. A prova foi projetada para requerer apenas contas elementares. Deparar-se com contas difíceis é sinal de resolução equivocada; 8. Ao final da prova há um suplemento com coeficientes de confiança e valores críticos. Identificar a correspondência entre as figuras no suplemento e as questões é parte da prova, por isso não há indicação explícita; 9. Toda a informação necessária para resolver a prova pode ser encontrada na mesma, mediante leitura atenta e paciente (caso tenha-se estudado seriamente, é claro). Perguntas referentes ao conteúdo não serão respondidas. 10. A pontuação dos itens é equivalente à divisão equitativa da pontuação da respectiva questão. Q.1) [2 pontos] (teste de diferença de média com variâncias iguais e desconhecidas, precedido por teste de variâncias) O Sistema Único de Saúde (SUS) contratou uma Universidade para verificar se um tratamento psicossocial para pacientes com doenças crônicas efetivamente aumenta a qualidade de vida. Foram sorteados aleatoriamente seis indivíduos submetidos ao tratamento há exatamente dois anos (grupo de tratamento) e seis indivíduos que nunca foram submetidos ao tratamento (grupo de controle). De acordo com os resultados na tabela abaixo, o tratamento aumenta ou não a qualidade de vida? Os números se referem a um indicador de qualidade de vida que varia entre 0 (baixo) a 100 (alto). Atenção: este problema pressupõe a realização de dois testes, um teste de comparação (razão) de variâncias (estágio 1) e um teste de diferença de médias (estágio 2). 1 2 3 4 5 6 Média Variância Controle 53 51 44 60 49 40 50 50 Tratamento 60 65 70 70 75 50 65 100 (a.1) [Estágio 1] Definir as hipóteses (denotar por σc 2 a variância do grupo de controle e σT 2 a variância do grupo de tratamento). A resposta é: H0: σC2 = σT2 vs H1: σC2 ≠ σT2 (a.2) [Estágio 1] Calcule o valor observado da estatística do teste. Posicionar σT 2 no numerador e σc 2 no denominador. A resposta é: 2 𝐹 = 𝑆𝑇 2 𝑆𝑐2 = 100 50 = 2 2 (a.3) [Estágio 1] Determine a região crítica para um nível de significância de 5%. Atenção: trata-se de um teste bilateral. A resposta é: RC(p;5%) = [0;0,14] U [7;∞] (figura 1, há M-1 = 5 e N-1 = 5 graus de liberdade no numerador e denominador). (a.4) [Estágio 1] Com base nos itens anteriores, selecione a opção correta abaixo. □ Rejeitar a hipótese nula □ Não rejeitar a hipótese nula R: a decisão correta é não rejeitar. Atenção: independentemente do resultado do primeiro estágio, assuma que as variâncias das duas populações são iguais e desconhecidas no que segue. Assuma também que a FD das duas populações (tratamento e controle) é normal. (b.1) [Estágio 2] Defina as hipóteses do teste de diferença de médias (dica: reler enunciado neste momento). A resposta é: H0: μT = μC vs H1: μT > μC; pois de acordo com o enunciado procura-se evidência de que o grupo de tratamento tenha maior qualidade de vida, i.e., de que o tratamento aumente a qualidade de vida. O teste é, pois, unilateral. (b.2) [Estágio 2] Calcule o valor observado da estatística do teste. Atenção: assuma que as variâncias das duas populações são iguais e desconhecidas. Dica: a fórmula para cálculo do desvio padrão do estimador é dada por: �̂� = 𝑆𝑝√ 1 𝑁 + 1 𝑀 , sendo Sp 2 o estimador não-viesado de uma única variância com duas amostras e N e M são os tamanhos amostrais dos grupos de controle e tratamento. A resposta é: 3 ou -3. 𝑇 = �̅�𝑇 − �̅�𝐶 − 𝛥0 √𝑆𝑝 2 𝑁 + 𝑆𝑝2 𝑀 , 𝑆𝑝 2 = (𝑁 − 1)𝑆𝑇 2 + (𝑀 − 1)𝑆𝐶 2 𝑁 + 𝑀 − 2 𝑆𝑝 2 = (𝑁 − 1)𝑆𝑇 2 + (𝑀 − 1)𝑆𝐶 2 𝑁 + 𝑀 − 2 = (6 − 1)50 + (6 − 1)100 10 = 250 + 500 10 = 75 𝑇 = �̅�𝑇 − �̅�𝐶 − 𝛥0 √𝑆𝑝 2 𝑁 + 𝑆𝑝2 𝑀 = 65 − 50 √𝑆𝑝2 ( 1 𝑁 + 1 𝑀) = 15 √75 ( 1 6 + 1 6) = 15 √150 ( 1 6) = 15 √25 = 3 Caso a estatística seja calculada subtraindo-se a média do grupo de controle pela média do grupo de tratamento, o resultado seria -3. (b.3) [Estágio 2] Determine a região crítica para um nível de significância de 5%. Atenção: verifique o enunciado. A resposta é: RC(μT- μc;0,05) = [1,81;∞], conforme figura 2, pois tem-se 6+6-2 = 10 graus de liberdade (caso a estatística seja calculada subtraindo-se a média do grupo de controle pela média do grupo de tratamento, tem-se RC(μC- μT;0,05) = [-∞;-1,81;]). (b.4) [Estágio 2] Com base no teste de hipóteses realizado, marque um “X” na única opção correta: (i) □ Rejeita-se H0 e afirma-se que o tratamento aumenta a qualidade de vida (ii) □ Rejeita-se H0 e afirma-se que o tratamento reduz a qualidade de vida 3 (iii) □ Não se rejeita H0 e afirma-se que o tratamento não tem efeito na qualidade de vida R: A resposta correta é (i), pois a estatística assumiu, com base nas amostras, valor superior ao valor crítico positivo (sendo a estatística calculada a partir da subtração da média do grupo de tratamento pela média do grupo de controle), tendo-se, pois, aí uma evidência forte de que a qualidade de vida do grupo de tratamento é maior. Q.2) [2 pontos] (teste de homogeneidade) Com base na Pesquisa por Amostra de Domicílio, realizada em 2015, deseja-se verificar se homens (M) e mulheres (F) diferem em função da participação em ocupações oferecidas pelo mercado de trabalho. Para isso, vai-se aplicar um teste de homogeneidade para as variáveis (i) gênero (“M” ou “F”) e (ii) ocupação. Definindo-se Xi, i = M, F, como a variável categórica “ocupação”, e “x” como um valor genérico de tal variável (ou seja, uma dada ocupação), as hipóteses a serem testadas são: H0: p(XM = x) = p(XF = x) = p(X = x) vs H1: p(XM = x) ≠ p(XF = x) Sendo que p(X = x) corresponde à probabilidade de uma determinada categoria de ocupação tomando-se os dois grupos de gênero como um todo (este um detalhe importante). (a) Preencha a tabela abaixo com as fórmulas algébricas para cálculo das frequências relativas esperadas para cada um dos dois grupos (M e F). Utilize a notação algébrica que se encontra na linha e na coluna “total”. # Ocupação M F Total 1 Dirigentes em geral T1 2 Profissionais das ciências e das artes e técnicos de nível médio T2 3 Trabalhadores de serviços T3 4 Trabalhadores da produção T4 5 Outros T5 Total TM TF T R: # Ocupação M F Total 1 Dirigentes em geral T1/ T T1/ TT1 2 Profissionais das ciências e das artes e técnicos de nível médio T2/ T T2/ T T2 3 Trabalhadores de serviços T3/ T T3/ T T3 4 Trabalhadores da produção T4/ T T4/ T T4 4 5 Outros T5/ T T5/ T T5 Total TM TF T (b) Considerando que nas últimas três colunas “O” significa “observado” e “E”, esperado, obtenha o valor da estatística do teste a partir da tabela abaixo. A resposta é: 38,77. Frequências absolutas esperadas (Ei) (Oi - Ei) 2 /Ei # Ocupação M F M F Total 1 Dirigentes em geral 4,62 3,38 0,03 0,05 0,08 2 Profissionais das ciências e das artes e técnicos de nível médio 16,17 11,83 0,77 0,67 1,45 3 Trabalhadores de serviços 38,70 28,30 6,20 3,93 10,14 4 Trabalhadores da produção 35,23 25,77 4,36 19,82 24,18 5 Outros 1,27 0,93 0,27 2,66 2,92 Total TM TF NA NA 38,77 R: Trata-se de 38,77, exatamente a soma dos quadrados das diferenças entre frequências absolutas esperadas e observadas, divididos pelo valor esperado, ou seja, ∑ ∑ (𝑂𝑖,𝑗−𝐸𝑖,𝑗) 2 𝐸𝑖,𝑗 2 𝑖=1 5 𝑗=1 . (c) Para um nível de significância de 5%, obtenha a região crítica do teste consultando o suplemento ao final deste caderno de questões. Para isso, tenha em mente que o número de graus de liberdade é equivalente a: A – (B – 1) Em que A ≡ número de células da tabela do item a com frequências relativas (desconsiderar, pois, as células da linha e da coluna de totais e as células especificando os níveis de cada variável), B ≡ número de totais de colunas e linhas utilizados para calcular as frequências esperadas, sem contar o total geral (T; ver item “a” acima). A resposta é: RC = {9,5; ∞}, conforme figura 3, uma vez que o número de graus de liberdade é equivalente a número de células (excluindo totais de colunas e linhas) – número de restrições = 10 – (5+2-1) = 4. (d) Decida: □ Rejeitar a hipótese nula □ Não rejeitar a hipótese nula R: a decisão correta é a de rejeitar a hipótese nula. Q.3) [2 pontos] (teste de correlação) Na tabela abaixo há a remuneração mensal (em milR$), X, e as horas mensalmente trabalhadas, Y, em uma amostra de 10 indivíduos (PNAD 2014). Com base nesta amostra, 5 deseja-se testar a hipótese de que o valor populacional da correlação entre as duas variáveis é zero. Implemente este teste, completando as tarefas a seguir (𝐷�̂� = desvio padrão amostral). i Xi Yi �̃�𝑖 = 𝑋𝑖 − �̅� 𝐷𝑃(𝑋)̂ �̃�𝑖 = 𝑌𝑖 − �̅� 𝐷𝑃(𝑌)̂ �̃�𝑖�̃�𝑖 1 1500 44 0,02 0,69 0,01 2 1500 40 0,02 0,43 0,01 3 2000 40 0,68 0,43 0,29 4 1300 40 -0,24 0,43 -0,10 5 724 30 -1,00 -0,23 0,23 6 600 8 -1,16 -1,67 1,95 7 1000 40 -0,64 0,43 -0,27 8 724 1 -1,00 -2,13 2,13 9 3000 48 1,99 0,95 1,89 10 2500 44 1,33 0,69 0,92 Soma/10 NA NA NA NA 0,7 Q.3.a) Calcule o valor da estatística do teste, T, para isso utilizando a fórmula T = r√ 𝑁−2 1−𝑟2 , em que r é o coeficiente de correlação linear de Pearson (utilize a aproximação 8 0,51 ~ 16). A resposta é: 2,8. T = r√ 𝑁 − 2 1 − 𝑟2 = 0.7√ 10 − 2 1 − 0.72 = 0.7√ 8 0.51 ~0.7√16 = 2.8 Q.3.b) Reporte a região crítica do teste unilateral H0: ρ = 0 vs H1: ρ > 0 com nível de significância de 5% [Atenção: a estatística T possui N-2 graus de liberdade]. A resposta é: RC(ρ;5%) = [1,81; ∞]. R: Segundo a figura 2, em que há uma FD t de Student com 8 graus de liberdade, o valor crítico referente à cauda superior da FD é 1,81 (importante recordar que o número de graus de liberdade é N-2). Q.3.c) Decida; a correlação entre remuneração e horas trabalhadas, na população, é: □ negativa □ nula □ positiva R: Uma vez que a estatística do teste pertence à região crítica unicaudal superior, é correto afirmar que a correlação é positiva. Q.4) [2 pontos] Um fabricante garante que 80% dos equipamentos que fornece a uma fábrica estão de acordo com as especificações exigidas. O exame de uma amostra de 100 peças desse equipamento revelou 30 defeituosas. Teste a afirmativa do fabricante, no nível de 10%. Q.4.a) Escolha uma das opções abaixo para realizar o teste, não há resposta correta (ou seja, este item não será avaliado). □ Teste Bilateral, H1: μ ≠ 0,8 □ Teste Unilateral, H1: μ < 0,8 Q.4.a) Defina as hipóteses do teste. A resposta é: H0: ______________ vs H1: ______________. (teste bilateral para proporção de não-defeituosos) H0: p = 0,8 vs H1: p ≠ 0,8 6 (teste bilateral para proporção de defeituosos) H0: p = 0,2 vs H1: p ≠ 0,2 (teste unilateral para proporção de não-defeituosos) H0: p = 0,8 vs H1: p < 0,8 (teste unilateral para proporção de defeituosos) H0: p = 0,2 vs H1: p > 0,2 Q.4.b) Calcule o valor observado da estatística do teste. A resposta é: -2,5. (atenção: apresentar detalhes do cálculo na caixa abaixo e utilizar o valor da proporção definido por H0 para calcular a variância). (trata-se de um teste para a proporção populacional) Possibilidade 1, teste para a proporção de não-defeituosos 𝑍 = �̂� − 𝑝0 √𝑝0(1 − 𝑝0) 𝑁 = 70 100 − 0,8 √0,8(1 − 0,8) 100 = 0,7 − 0,8 √0,16 100 = − 0,1 4 100 = −2,5 Possibilidade 2, teste para a proporção de defeituosos 𝑍 = �̂� − 𝑝0 √𝑝0(1 − 𝑝0) 𝑁 = 30 100 − 0,2 √0,2(1 − 0,2) 100 = 0,3 − 0,2 √0,16 100 = 0,1 4 100 = 2,5 Q.4.c) Determine a região crítica para um nível de significância de 5%. (Q.4.c.1) Se você selecionou, acima, um teste bilateral, responda aqui: RC(p;5%) = [-∞;-1,96] U [1,96;∞]; (Q.4.c.2) Se você selecionou, acima, um teste unilateral, responda aqui: RC(p;5%) = [-∞;-1,64] para o teste para a proporção de não-defeituosos, RC(p;5%) = [1,64; ∞] para a proporção de defeituosos. Q.4.d) Considerando a região crítica e o valor observado da estatística do teste, a evidência é favorável ou desfavorável à hipótese nula? Responda e explique em detalhe. R: Zobs = -2,5 pertence às RCs dos testes bilateral e unilateral, e, pois, a evidência é desfavorável à H0. Esta deve, pois, ser rejeitada. Q.4.e) Estime o intervalo de confiança para a proporção populacional de equipamentos aderentes às especificações. Tome um nível de confiança de 95% e utilize a aproximação √0,21~0,5 𝑒 1,96~2. A resposta é: IC(p;95%) = {______; ______}. R: A forma geral do IC é: 𝐼𝐶(𝑝; 0,95) = {�̂� − 𝑧𝛾√ �̂�(1 − �̂�) 𝑁 ; �̂� + 𝑧𝛾√ �̂�(1 − �̂�) 𝑁 } De acordo com o gráfico 1, para uma variável aleatória Z com distribuição normal padrão, P(Z < zγ ou Z > zγ) = 0,05 com zγ = 1,96 ~ 2. Com isso: 7 {�̂� − 𝑧𝛾√ �̂�(1 − �̂�) 𝑁 ; �̂� + 𝑧𝛾√ �̂�(1 − �̂�) 𝑁 } = {0,7 − 2√ 0,7(1 − 0,7) 100 ; 0,7 + 2√ 0,7(1 − 0,7) 100 } = {0,7 − 2 1 10 √0,21; 0,7 + 2 1 10 √0,21} ~{0,7 − 2 ∗ 0,05; 0,7 + 2 ∗ 0,05} = {0,7 − 0,1; 0,7 + 0,1} = {0,6; 0,8} (𝑜𝑢 {0.6019; 0.798} 𝑠𝑒𝑚 𝑎 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎çã𝑜 1,96~2) (Q.5) [2 pontos] Assuma que está disponível uma amostra em que foram observadas duas características dos indivíduos, capacidade cognitiva e nível educacional. Detalhe o procedimento que você executaria para medir a relação entre essas duas variáveis utilizando, para isso, apenas uma de duas técnicas estatísticas, (i) regressão linear ou (ii) teste de independência. Atenção: (i) selecionar apenas uma técnica, (ii) caso você selecione a técnica de regressão linear, adicionar à resposta a interpretação do coeficiente angular. R1, teste de independência O primeiro passo consistiria em categorizar as duas variáveis, transformando-as, de variáveisoriginalmente contínuas, em variáveis discretas. Para isso, poderiam ser utilizados limiares de corte sugeridos pela literatura específica ou poderia-se tomar os quartis (valor mínimo, limiar para 25% da amostra, limiar para 50% da amostra (mediana), limiar para 75% da amostra e valor máximo). Feito isso, seriam contadas as ocorrências de todas as combinações possíveis entre categorias das duas variáveis, e como resultado, elaborada uma tabela de dupla entrada. Então seria aplicado o teste de independência, cujas hipóteses seriam H0: pij = pi * pj vs H1: pij ≠ pi * pj, sendo ij uma combinação da i-ésima categoria de uma variável aleatória e da j-ésima categoria da outra VA, pi e pj as frequências relativas (marginais) de cada categoria (i.e., tratam-se das taxas de ocorrência de cada categoria na população) e pij a frequência relativa da combinação. A estatística do teste seria dada por ∑ (𝑂𝑖,𝑗 − 𝐸𝑖,𝑗) 2 /𝐸𝑖,𝑗 𝑁 𝑖=1 = 𝑁 ∑ (�̂�𝑖,𝑗 − �̂�𝑖�̂�𝑗) 2 /�̂�𝑖�̂�𝑗 𝑁 𝑖=1 , em que �̂�𝑖,𝑗 , �̂�𝑖, �̂�𝑗, são as frequências relativas observadas e N é o tamanho amostral (notando que �̂�𝑖,𝑗 é a frequência da combinação da categoria “i” da primeira variável e da categoria “j” da segunda variável). Após calcular a estatística seria necessário calcular a região crítica dada por RC = {χ1;∞}, com P(χ 2 < χ1) = α = 0,05, sendo χ 2 uma variável aleatória com (I-1)(J-1) graus de liberdade, I ≡ número de categorias da primeira variável e J ≡ número de categorias da segunda variável. Caso o valor observado da estatística pertencesse à região crítica, a independência seria rejeitada e seria possível afirmar que há relação entre as duas variáveis. Deste modo, a relação entre o valor observado da estatística e o valor crítico χ1 seria uma medida da magnitude da relação existente entre as duas variáveis. Infelizmente este teste não permite afirmar nada quanto à direção (positiva ou negativa) da relação entre as duas variáveis, apenas é possível afirmar se a relação entre elas tem ou não magnitude significativa. R2, regressão linear Seriam estimados coeficiente angular e intercepto que minimizassem a soma dos quadrados dos erros de ajuste da reta de regressão linear ao padrão bidimensional (gráfico de dispersão) descrito pelos dados. Ou seja, trata-se do estimador de mínimos quadrados ordinários para os dois parâmetros de uma reta, coeficiente angular (β1) e intercepto (β0), cujas fórmulas se encontram abaixo. 𝛽1̂𝑀𝑄𝑂 = 𝑥𝑦̅̅ ̅ − �̅��̅� 𝑥2̅̅ ̅ − �̅�2 𝛽0̂𝑀𝑄𝑂 = �̅� − �̂�𝑀𝑄𝑂�̅� 8 Se a estimativa do coeficiente angular assumir valor razoavelmente distante de zero, seria possível afirmar que há relação entre as duas variáveis, e que esta se dá em uma direção (positiva ou negativa) apontada pelo sinal da estimativa pontual para o coeficiente angular. Quanto à interpretação do coeficiente angular, seja assumido que este tenha sinal positivo e que a variável dependente seja a capacidade cognitiva, por simplicidade. Neste caso, o coeficiente equivale à variação da média da variável explicada, capacidade cognitiva, que seria provocada pelo aumento, em uma unidade, do nível de escolaridade. Ou, alternativamente, trata-se da diferença, em termos da capacidade cognitiva média, entre dois grupos que diferem em função do nível de escolaridade em exatamente uma unidade. Suplemento: funções de distribuição de probabilidades (FDs) Figura 1 F de Snedecor com gl1 = gl2 = 5, F(5,5) Lendo a figura 1 acima: as letras A e B indicam polígonos abaixo da curva da distribuição F e dentro de intervalos específicos do eixo horizontal. Tem-se: Polígono A (à esquerda), compreendido no intervalo [0;0,14], possui área equivalente à probabilidade de 2,5%; Polígono B (à esquerda), compreendido no intervalo [0,14;0,2], área equivalente a 2,5%; Polígono B (à direita), compreendido no intervalo [5;7], área equivalente a 2,5 %; Polígono A (à direita), compreendido no intervalo [7;∞], área equivalente a 2,5%. Figura 2 FD t de Student com 8 ou 10 graus de liberdade 9 Lendo a figura 2 acima: as letras A e B indicam polígonos abaixo da curva da distribuição t de Student e dentro de intervalos específicos do eixo horizontal. Tem-se: Polígono A (à esquerda), compreendido no intervalo [-∞;-2,23], possui área equivalente à probabilidade de 2,5%; Polígono B (à esquerda), compreendido no intervalo [-2,23;-1,81], área equivalente a 2,5%; Polígono B (à direita), compreendido no intervalo [1,81;2,23], área equivalente a 2,5%; Polígono A (à direita), compreendido no intervalo [2,23;∞], área equivalente a 2,5%. Figura 3 FD qui-quadrado com 4 graus de liberdade Lendo a figura 3 acima: as letras A e B indicam polígonos abaixo da curva da distribuição qui-quadrado e dentro de intervalos específicos do eixo horizontal. Tem-se: Polígono B, compreendido no intervalo [9,5;11], área equivalente a 2,5%; Polígono A, compreendido no intervalo [11; ∞], possui área equivalente à probabilidade de 2,5%; Figura 4 FD normal padrão (N(0,1)) Lendo a figura 4 acima: as letras A e B indicam polígonos abaixo da curva da distribuição normal padrão e dentro de intervalos específicos do eixo horizontal. Tem-se: 10 Polígono A (à esquerda), compreendido no intervalo [-∞;-1,96], possui área equivalente à probabilidade de 2,5%; Polígono B (à esquerda), compreendido no intervalo [-1,96;-1,64], área equivalente a 2,5%; Polígono B (à direita), compreendido no intervalo [1,64;1,96], área equivalente a 2,5 %; Polígono A (à direita), compreendido no intervalo [1,96;∞], área equivalente a 2,5%.
Compartilhar