Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal Rural do Rio de Janeiro - UFRRJ Disciplina: Me´todos Estat´ısticos Quantitativos - Professor: Renato Nunes Pre´-Prova II Para as questo˜es de 1 a 3 considere o modelo de regressa˜o linear simples, Y = β0 +β1X + ε. 1. Qual e´ a varia´vel dependente? Qual a varia´vel independente? E qual e´ o me´todo utilizado para estimar β0 e β1? 2. Quais as suposic¸o˜es feitas pelo modelo de erros normais? O que estas suposic¸o˜es acarretam para Y? 3. O teste F da tabela ANOVA e´ equivalente ao teste t-student para as hipo´teses H0 : β1 = 0 contra Ha : β1 6= 0. Mostre a equivaleˆncia entre as duas estat´ısticas de teste elevando o teste t ao quadrado. QUESTA˜O 4: Julgue os itens abaixo, relativos a` Regressa˜o Linear Simples, e marque, a seguir, a opc¸a˜o que apresenta a resposta correta. Para Julgar os itens, ca´lculos devera˜o ser feitos e devem ficar registrados. (I) Pretende-se usar um modelo de regressa˜o linear passando pelo origem Yi = βXi + εi para ajustar n pares de valores observados (x1, y1), (x2, y2), ..., (xn, yn). Supo˜e-se que os erros εi tenham me´dia 0, sejam normalmente distribu´ıdos, todos com mesma variaˆncia, e sejam na˜o correlacionados. Se βˆ e´ a estimativa de mı´nimos quadrados de β, a estimativa de mı´nimos quadrados de β e´ dada por βˆ = n∑ i=1 XiYi n∑ i=1 X2i (II) O coeficiente de determinac¸a˜o, R2, mede a porcentagem da variaˆncia total dos valores y’s que e´ explicada pela regressa˜o e, desse modo, quanto maior o valor do coeficiente de determinac¸a˜o, melhor e´ o ajuste do modelo. (III) Um elevado coeficiente de determinac¸a˜o (R2 ≥ 70) referente a um modelo de regressa˜o linear para uma amostra na˜o muito grande, na˜o implica, necessariamente, que a reta de regressa˜o passe pro´xima a todos os pontos amostrados e que o modelo esteja bem ajustado. (IV) Pelo gra´fico correspondente a` reta obtida pelo me´todo dos mı´nimos quadrados com base em 10 pares de observac¸o˜es (x1, y1), (x2, y2), ..., (x10, y10), verifica-se que a reta passa pelo ponto (2, 100). O modelo adotado foi Yi = β0 + β1Xi + εi , em que Yi representa o valor da varia´vel dependente na i-e´sima observac¸a˜o, Xi e´ o valor da varia´vel explicativa na i-e´sima observac¸a˜o e εi e´ o erro aleato´rio com as respectivas hipo´teses consideradas para a regressa˜o linear simples. β0 e β1 sa˜o os paraˆmetros do modelo, cujas estimativas foram obtidas pelo me´todo dos mı´nimos quadrados. Dado que as me´dias das observac¸o˜es de Xi e Yi sa˜o iguais a 10 e 75, respectivamente, enta˜o a previsa˜o do valor de Y, quando X = 16, e´ igual a 56,25. 1 Um analista deseja avaliar se o tempo (Y), em dias, que um processo judicial leva para ser conclu´ıdo esta´ relacionado com a quantidade (X) de ju´ızes dispon´ıveis no tribunal em que tal processo foi julgado. O quadro abaixo apresenta a tabela de ana´lise de variaˆncia (ANOVA) correspondente a essa avaliac¸a˜o por regressa˜o linear simples, em que Y e´ a varia´vel resposta e X e´ a varia´vel regressora, com base no me´todo de mı´nimos quadrados. Considerando essas informac¸o˜es e os conceitos de ana´lise de regressa˜o linear e infereˆncia estat´ıstica, julgue os itens V e VI. FV GL SQ QM Fc Regressa˜o 1 2061,49 2061,49 433,09 Res´ıduos 78 371,01 4,76 - Total 79 2432,50 - - (V) Se o valor zero for contemplado pelo intervalo de confianc¸a do coeficiente linear, e´ correto afirmar que o coeficiente ajustado na˜o foi estatisticamente significativo. (VI) O desvio padra˜o amostral da varia´vel resposta Y foi inferior a 6. a) Apenas I e II esta˜o corretos. b) Apenas V e VI esta˜o corretos. c) Apenas I e IV esta˜o corretos. d) Apenas V esta´ errada. e) Todas esta˜o corretas. QUESTA˜O 5. Considere o modelo com equac¸a˜o base sem constante aditiva, Yi = β1xi + εi, (i = 1, ..., n). a) Determine o estimador de mı´nimos quadrados para o paraˆmetro β1. QUESTA˜O 6. Suponha que um pesquisador esta´ determinando a func¸a˜o de demanda do produto A em determinado mercado, com base em uma se´rie de 8 pares de valores Xi e Yi, em que Yi e´ o prec¸o pelo qual foi vendida a quantidade Xi do produto em determinado intervalo de tempo. Admitindo que a elasticidade - prec¸o da demanda do produto e´ constante e que o modelo matema´tico utilizado pelo pesquisador e´: Y = AXB responda: (a) Que transformac¸a˜o de varia´vel (anamorfose) devera´ ser feita para determinar as estima- tivas dos paraˆmetros por meio do me´todo dos mı´nimos quadrados? (b) Sabendo que a estimativa do coeficiente de regressa˜o obtida e´ -1,24, com desvio padra˜o estimado em 0,10, teste, ao n´ıvel de significaˆncia de 5%, a hipo´tese de que a elasticidade- prec¸o e´ igual a -1. QUESTA˜O 7. A partir de n pares de valores Xi, Yi obtemos, pelo me´todode mı´nimos qua- drados, a equac¸a˜o de regressa˜o Yˆi = a+ bXi. Sendo Zi = Yi +Xi, temos n pares de valores Zi, Xi, a partir dos quais obtemos a equac¸a˜o de regressa˜o: Zˆi = c+ dXi 2 Que relac¸a˜o existe entre b e d? E entre a e c? QUESTA˜O 8. Um professor de estat´ıstica solicitou a seu orientando Renato que estimasse os coeficientes de regressa˜o referente aos dados abaixo: X1 X2 Y 0 1 1 1 0 1 1 1 4 1 2 5 1 3 4 O professor pediu a Renato que admitisse que as varia´veis esta˜o relacionadas de acordo com o modelo Yi = β0 + β1Xi1 + β2Xi2 + εij, em que os εij sa˜o varia´veis aleato´rias independentes, homoceda´sticas, com me´dia zero e distribuic¸a˜o normal. Renato tinha em mente que precisava fazer o seguinte ca´lculo: θ = (XTX)−1XTY Inicialmente ele calculou (XTX)−1, pore´m teve dificuldades e fez o ca´lculo treˆs vezes e de todas as tentativas encontrou resultados diferentes e esta˜o representadas abaixo: a) (XTX)−1 = 1, 2 −0, 9 −0, 2−0, 9 1, 3 −0, 1 −0, 2 −0, 1 0, 2 b) (XTX)−1 = 1, 2 −0, 9 −0, 2−0, 9 1, 3 −0, 1 −0, 2 −0, 1 −0, 2 c) (XTX)−1 = 1, 2 −0, 9 −0, 2−0, 9 1, 3 −0, 1 0, 2 0, 1 0, 2 Renato ja´ estava irritado de fazer tantos ca´lculos e resolveu escolher a matriz representada pelo item (a) e continuar os ca´lculos. Ele encontrou que β0 = 0; β1 = 2 e β2 = 1. O professor pediu para que voceˆ: (a.1) verificasse se Renato fez a opc¸a˜o correta escolhendo a matriz do item (a). (a.2) Considerando os valores estimados: fac¸a a ana´lise de variaˆncia da regressa˜o, calcule o R2 e fac¸a interpretac¸a˜o do Resultado referente a ANOVA e o R2. Caso o Renato tenha feito os ca´culos errado, o θ a ser considerado para esses ca´lculos deve ser o correto. QUESTA˜O 9. Um estudo sobre a poluic¸a˜o na a´gua em um determinado munic´ıpio foi con- duzido por um grupo de pesquisadores. Um dos problemas mais desafiadores enfrentados pela a´rea de controle de poluic¸a˜o nas a´guas e´ paresentado pela indu´stria de couro. Os dejetos dos curtumes sa˜o quimicamente complexos. Eles sa˜o caracterizados por altos valores de demanda de oxigeˆnio bioqu´ımico, so´lidos vola´teis e outras medidas de poluic¸a˜o. Considere os dados expe- rimentais da tabela a seguir, obtidos de 33 amostras de dejetos quimicamente tratados em um estudo conduzido pelo Instituto Polite´cnico e pela Universidade Estadual da Virg´ınia. Foram registradas as leituras de x, aporcentagem de reduc¸a˜o no total de so´lidos, e y, a porcentagem de reduc¸a˜o na demanda de oxigeˆnio qu´ımico, para 33 amostras. Responda: 3 9.1 Ajuste um modelo de regressa˜o linear simples e fac¸a o teste de falta de ajuste. Tire suas concluso˜es com base nos resultados desse teste e tambe´m sobre o modelo. 9.2 Qual a porcentagem da variabilidade total da Atividade cerebral e´ explicada pela modelo? 9.3 Com base no shapiro.test, voceˆ pode assumir que a dose e a Atividade cerebral sa˜o conjuntamente distribu´ıdas normalmente? Observac¸a˜o Reduc¸a˜o de Demanda de Oxigeˆ- so´lidos, x (%) nio qu´ımico, y (%) 1 3 5 2 7 11 3 11 21 4 15 16 5 18 16 6 27 28 7 29 27 8 30 25 930 35 10 31 30 11 31 40 12 32 32 13 33 34 14 33 32 15 34 34 16 36 37 17 36 38 18 36 34 19 37 36 20 38 38 21 39 37 22 39 36 23 39 45 24 40 39 25 41 41 26 42 40 27 42 44 28 43 37 29 44 44 30 45 46 31 46 46 32 47 49 33 50 51 > dados<-read.table("dados.txt",h=T) > attach(dados) > modelo<-lm(y~x) > modelo 4 Call: lm(formula = y ~ x) Coefficients: (Intercept) x 3.830 0.904 > summary(modelo) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -5.939 -1.783 -0.228 1.506 8.157 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.8296 1.7684 2.17 0.038 * x 0.9036 0.0501 18.03 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 Residual standard error: 3.23 on 31 degrees of freedom Multiple R-squared: 0.913, Adjusted R-squared: 0.91 F-statistic: 325 on 1 and 31 DF, p-value: <2e-16 > anova(modelo) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 3391 3391 325 <2e-16 *** Residuals 31 323 10 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 > shapiro.test(residuals(modelo)) Shapiro-Wilk normality test data: residuals(modelo) W = 0.9507, p-value = 0.1393 > modelo1<-lm(y~factor(x)) > anova(modelo,modelo1) Analysis of Variance Table Model 1: y ~ x Model 2: y ~ factor(x) Res.Df RSS Df Sum of Sq F Pr(>F) 1 31 323 2 8 167 23 156 0.32 0.98 5 QUESTA˜O 10. Os seguintes dados representam as notas de qu´ımica e os nu´meros de aulas perdidas de uma amostra aleato´ria de 12 calouros de certa universidade juntamente com suas pontuac¸o˜es em um teste de inteligeˆncia administrado enquanto ainda estavam no ensino me´dio: Estudante Notas de Notas do Aulas Perdidas, qu´ımica, Y teste, X1 X2 1 85 65 1 2 74 50 7 3 76 55 5 4 90 65 2 5 85 55 6 6 87 70 3 7 94 65 2 8 98 70 5 9 81 55 4 10 91 70 3 11 76 50 1 12 74 55 4 Admite-se que as varia´veis esta˜o relacionadas de acordo com o modelo Yi = β0 + β1Xi1 + β2Xi2 + εi, em que εi sa˜o varia´veis aleato´rias independentes, homoceda´sticas, com me´dia zero e distribuic¸a˜o normal. (a) Determine as estimativas dos paraˆmetros de regressa˜o linear mu´ltipla de Y em relac¸a˜o a X1 e X2. (b) Estime a nota de qu´ımica para um aluno que obteve 60 no teste de inteligeˆncia e que perdeu quatro aulas. (c) Fac¸a a ana´lise de variaˆncia da regressa˜o. Notas: Todos os itens da questa˜o 10 devera˜o ser feitos no R e , tambe´m, manualmente. Deve-se elaborar um relato´rio contendo os resultados dos testes e respectivas interpreta- c¸o˜es. A organizac¸a˜o na apresentac¸a˜o da questa˜o tambe´m sera´ considerada. QUESTA˜O 11. E´ dada uma amostra com 4 pares de valores: X Y 2 6 1 8 1 9 4 13 Admite-se que as varia´veis X e Y esta˜o relacionadas conforme o modelo Yi = β0 + β1Xi + εi em que β0 e β1 sa˜o paraˆmetros e os εi sa˜o varia´veis aleato´rias independentes com distribuic¸a˜o normal de me´dia zero e variaˆncia σ2. Determine: (a) As estimativas dos paraˆmetros da regressa˜o linear. 6 (b) Calcule o coeficiente de determinac¸a˜o da regressa˜o. (c) Teste, ao n´ıvel de significaˆncia de 5%, a hipo´tese H0 : β1 = 5 contra a hipo´tese alternativa H1 : β1 6= 5. Baseado na questa˜o 12, a seguir o que voceˆ conseguiria concluir a respeito da seguinte afir- mac¸a˜o: Numa regress~ao linear simples o valor de F da ana´lise de varia^ncia da regress~ao e´ igual ao quadrado do valor de t(β1), relativo a` hipo´tese da nulidade β1 = 0 ( em que β1 e´ o coeficiente de regress~ao). QUESTA˜O 12. Com base em 52 pares de valores das varia´vies X e Y foi obtida a equa- c¸a˜o de regressa˜o Yi = −0.4 +Xi A estimativa do desvio padra˜o da estimativca do coeficiente de regressa˜o e´ 0.1. Calcule o co- eficiente de determinac¸a˜o e teste a hipo´tese de que o coeficiente angular da equac¸a˜o e´ igual a zero, ao n´ıvel de significaˆncia de 1%. QUESTA˜O 13. Em problemas de tratamento te´rmico deseja-se estabelecer uma relac¸a˜o entre a temperatura da estufa e uma caracter´ıstica da qualidade (dureza, por exemplo) de uma pec¸a. Desta forma, pretende-se determinar os valores de temperatura em °C que ”otimizam” a per- formance do processo de tratamento te´rmico em relac¸a˜o a estrutura metalogra´fica do material, avaliada em relac¸a˜o de dureza em HB. Considere que em um experimento, a dureza de pisto˜es foi medida em diferentes n´ıveis de temperatura escolhidos conforme interesse (T1=220ºC, T2=225ºC, T3=230ºC e T4=235ºC ). Para cada ponto de temperatura foram submetidos ao tratamento te´rmico 5 pisto˜es. Os dados observados sa˜o apresentados na Tabela 1.1 e o objetivo e´ estabelecer uma relac¸a˜o entre a varia´vel de entrada (temperatura) e a varia´vel de sa´ıda (dureza). Obs. Temperatura(ºC) Dureza (HB) Obs. Temperatura(ºC) Dureza (HB) 1 220 137 11 230 128 2 220 137 12 230 124 3 220 137 13 230 126 4 220 136 14 230 129 5 220 135 15 230 126 6 225 135 16 235 122 7 225 133 17 235 122 8 225 132 18 235 122 9 225 133 19 235 119 10 225 133 20 235 122 Admite-se que as varia´veis X e Y esta˜o relacionadas de acordo com o modelo Yi = β0+β1Xi+εi, em que εi sa˜o varia´veis aleato´rias independentes, homoceda´sticas, com distribuic¸a˜o normal de me´dia zero e variaˆncia σ2. 13.1 Qual a equac¸a˜o da reta de regressa˜o? Qual a interpretac¸a˜o dos paraˆmetros do modelo? 13.2 O coeficiente de regressa˜o estimado e´ significativamente diferente de 0, ao n´ıvel de signi- ficaˆncia de 5%? 7 i. Escreva as hipo´teses em causa. ii. Indique o p-value do teste. iii. Conclua. 13.3 O β0 estimado e´ significativamente diferente de 0, ao n´ıvel de significaˆncia de 5%? i. Escreva as hipo´teses em causa. ii. Indique o p-value do teste. iii. Conclua. 13.4 Qual e´ a proporc¸a˜o de variabilidade de Y explicada por x? 13.5 Com base no shapiro.test, voceˆ pode assumir que as varia´veis X e Y sa˜o conjuntamente distribu´ıdas normalmente? i. Escreva as hipo´teses em causa. ii. Indique o p-value do teste. iii. Conclua. 13.6 O modelo de regressa˜o linear e´ adequado? i. Escreva as hipo´teses em causa. ii. Indique o p-value do teste. iii. Conclua. > Temperatura<-c(rep(220,5),rep(225,5),rep(230,5),rep(235,5)) > Dureza<-c(137,137,137,136,135,135,133,132,133,133,128, + 124,126,129,126,122,122,122,119,122) > ############################################ > ### Modelo #### > ############################################ > modelo<-lm(Dureza~Temperatura) > modelo Call: lm(formula = Dureza ~ Temperatura) Coefficients: (Intercept) Temperatura 364.180 -1.032 > anova(modelo) Analysis of Variance Table Response: Dureza Df Sum Sq Mean Sq F value Pr(>F) Temperatura 1 665.64 665.64 291.1 1.468e-12 *** Residuals 18 41.16 2.29 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 8 > summary(modelo) Call: lm(formula = Dureza ~ Temperatura) Residuals: Min 1Q Median 3Q Max -2.82 -0.82 0.18 1.02 3.02 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 364.18000 13.76493 26.46 7.34e-16 *** Temperatura -1.03200 0.06049 -17.06 1.47e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.512 on 18 degrees of freedom Multiple R-squared: 0.9418, Adjusted R-squared: 0.9385 F-statistic: 291.1 on 1 and 18 DF, p-value: 1.468e-12 > shapiro.test(residuals(modelo)) Shapiro-Wilk normality test data: residuals(modelo) W = 0.9595, p-value = 0.5334 > modeloI<-lm(Dureza~factor(Temperatura)) > anova(modelo,modeloI) Analysis of Variance Table Model 1: Dureza ~ Temperatura Model 2: Dureza ~ factor(Temperatura) Res.Df RSS Df Sum of Sq F Pr(>F) 1 18 41.16 2 16 30.40 2 10.76 2.8316 0.08855 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1QUESTA˜O 14: Um investigador deseja estudar a relac¸~ao entre os sala´rios e o tempo de experie^ncia no cargo de gerente de age^ncias banca´rias de um grande banco. Ale´m disso, gostaria de saber se existem diferenc¸as quando s~ao levados em conta os sala´rios de homens e mulheres, separadamente. Os dados coletados apresentam 12 mulheres e 15 homens. Ao analisar esses dados no pacote estat´ıstico R, voceˆs depararam com a seguinte situac¸a˜o. 1. Reta estimada sem discriminar sexo yˆ = 1, 83 + 0, 0998x (1) Teste de Shapiro-Wilk shapiro.test(res_pad) 9 Shapiro-Wilk normality test data: res_pad W = 0.86245, p-value = 0.002052 2. Reta estimada para mulheres yˆ = 1, 95 + 0, 0734x (2) Teste de Shapiro-Wilk shapiro.test(res_pad) Shapiro-Wilk normality test data: res_pad W = 0.98584, p-value = 0.9975 3. Reta estimada para homens yˆ = 1, 97 + 0, 0986x (3) Teste de Shapiro-Wilk shapiro.test(res_pad) Shapiro-Wilk normality test data: res_pad W = 0.97118, p-value = 0.8751 Ao checar uma das pressuposic¸o˜es ba´sicas da ana´lise de variaˆncia, observou que o modelo sem discriminar o sexo na˜o atende as pressuposic¸o˜es, mas ao analisar os dados separando por sexo, observa-se que que a pressuposic¸a˜o de normalidade foi atendida. Gostaria que voceˆ levantasse aqui a(s) possibilidade(s) disso ter ocorrido. QUESTA˜O 15. Uma empresa de plano de prevideˆncia privada abriu uma licitac¸a˜o para uma pesquisa que sera´ descrita a seguir: Num estudo retrospectivo sobre possı´vel relac¸~ao entre "o tempo de utilizac¸~ao de um plano de previde^ncia"e o "tempo de contribuic¸~ao do beneficia´rio", ambos medi- dos em meses, uma amostra de 100 beneficia´rios de um plano de previde^ncia tive- ram essas duas varia´veis registradas. Varia´vel reposta: Y = tempo de contribuic¸~ao, em meses. Varia´vel explicativa: X = tempo de utilizac¸~ao do benefı´cio, em meses ( tempo en- tre a data da aposentadoria e a data do falencimento do beneficia´rio). Considere que ha´ repetic¸~ao para essa varia´vel. Supondo que voceˆ esteja apto a concorrer a essa licitac¸a˜o. Apresente um relato´rio para convencer o responsa´vel dessa empresa, que tem conhecimento estat´ıstico, indicando passo a passo como voceˆ pretende analisar esses dados. 10
Compartilhar