Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal de Minas Gerais ICEx - Departamento de Estatística Quarta Lista 1. Para cada conjunto de dados, o que o digrama de dispersão indica a respeito da relação entre as duas variáveis? Pode-se verificar se é razoável considerar que existe uma relação linear (forte ou fraca, significativa ou não significativa, ou não existe) entre variáveis? Justifique sua resposta. a) Não obstante os atrasos nos grandes aeroportos agora serem menos frequentes, é útil saber quais aeroportos têm probabilidade de fazê-lo perder o horário de seus compromissos. A seguir o diagrama de dispersão entre as chegadas e partidas atrasadas, durante o mês de agosto em 13 aeroportos. Correlação entre chegadas e partidas atrasadas = 0,897 com Valor_P= 0,000. Resposta: Pode-se considerar que existe uma relação linear positiva forte (maior que 0,7). Ou seja, quanto maior o numero de chegadas atrasadas maior e numero de partidas atrasadas. Para testar se a correlação é significativa as hipóteses são: Como p-valor = p(|tobs|>t)=0,000 < α rejeitamos a hipótese nula. Há evidencias que a correlação é significativa para qualquer nível de significância . b) Os salários iniciais dos contadores e auditores de Rochester, NY, acompanham as de muitas cidades dos Estados Unidos. A seguir o diagrama de dispersão, entre o salário inicial (em milhares de dólares) e o índice do custo de vida (baseado nos preço dos alimentos, moradia, impostos e outros custos). Correlação entre salário e índice = -0,746 com Valor_P= 0,013. 0: 0: 1 0 H H Resposta: Pode-se considerar que existe uma relação linear negativa forte (menor que - 0,7). Ou seja, quanto menor o indice de custo de vida maior é o salario inicial dos contadores. Para testar se a correlação é significativa as hipóteses são: Como p-valor = p(|tobs|>t)=0,013 < α rejeitamos a hipótese nula. Há evidencias que a correlação é significativa para um nível de significância de 5%. 2. a) Quando a variação não-explicada ou soma de quadrados dos resíduos será igual a (0) zero? Resposta: Quando toda a variabilidade da variável dependente (Y) é explicada pelo modelo. b) Se os resíduos não forem normais, os testes de hipóteses não serão válidos? Resposta: Não, por que para usar as estatísticas dos testes “t” e/ou ”F”, a distribuição do vetor de resíduos tem que ser normal. c) Quais são os supostos da análise de regressão e como elas podem ser avaliadas? Resposta: As suposições do modelo de regressão são: 1. A variável X é uma variável supostamente controlada e não esta sujeita a variações aleatórias. 2. Dado um valor da variável Xi, os erros tem valor esperado zero 3. Os erros tenham a mesma variabilidade em todos os níveis da variável explicativa X. 4. Os erros são normais. Essas suposições podem ser avaliadas através da analise de resíduos. Assinale verdadeiro ou falso. Justifique sua resposta: d) Se os erros de um modelo de regressão têm a mesma variabilidade em todos os níveis da variável X, de diz que os erros são homocedásticos. Resposta: Verdadeira e) Se rejeitarmos a H0 : Var(explicada pela regressão) = Var(resíduos), podemos concluir que a regressão explica mais do que não explica. Resposta: Falso 0: 0: 1 0 H H ANOVA gl SQ MQ F F de significação Regressão 1 312050 312050 54,745614 7,62662E-05 Resíduo 8 45600 5700 Total 9 357650 3. O departamento regional de trânsito de uma grande região quer determinar se há alguma relação entre a idade de um ônibus e o custo anual de manutenção. A seguir o diagrama de dispersão entre idade do ônibus (anos) e custo de manutenção ($). A Correlação entre a idade de ônibus e custo de manutenção = 0,934 com Valor_P= 0,000. (a) O que o digrama de dispersão indica a respeito da relação entre as duas variáveis? Resposta: Através do diagrama de dispersão observamos que existe relação linear positiva entre a idade do ônibus e o custo de manutenção. Pelo gráfico observamos que quanto maior idade do ônibus maior é o custo anual de manutenção. (b) Há uma correlação linear significativa entre as duas variáveis? Resposta: Para testar se a correlação é significativa as hipóteses são: Como p-valor = p(|tobs|>t)=0,000 < α rejeitamos a hipótese nula. Há evidencias que a correlação é significativa entre as duas variáveis para qualquer um nível de significância . (c) Defina a equação estimada desses dados. Resposta: Custo = 220 + 131,66 Idade ônibus + erro (d) Interprete as estimativas encontradas para os coeficientes da reta de regressão. Resposta: O custo de manutenção médio será de $220 para um ônibus com zero anos de idade. Estatística de regressão R múltiplo 0,934077646 R-Quadrado 0,872501049 R-quadrado ajustado 0,85656368 Erro padrão 75,49834435 Observações 10 Coeficientes Erro padrão Stat t valor-P Interseção 220 58,4807661 3,761921 0,005529 Idade ônibus (anos) 131,6666667 17,7951304 7,399028 7,63E-05 0: 0: 1 0 H H A cada acréscimo de um 1 ano de vida de um ônibus o custo de manutenção médio aumenta $131,66. (e) Verifique se há uma relação significativa usando o teste F. Qual é a sua conclusão? Use α=0,05. Resposta: No Teste F as hipóteses são: H0 : O modelo linear não é apropriado; H1: O modelo linear é apropriado; A estatística de teste é Fobs=54,74. Como p-valor = P(|Fobs|>F)=0,000 < α rejeitamos H0. Há evidencias que o modelo linear é apropriado. (f) Considerando um nível de 5% de significância, os coeficientes da reta de regressão podem ser considerados estatisticamente diferentes de zero? Justifique. Resposta: No Teste t para o coeficiente β0 as hipóteses são: A estatística de teste é tobs=3,76. Como o p-valor=P(|tobs|>t)=0.005 < α rejeitamos H0. Há evidencias que o coeficiente β0 é significativo. No Teste t para o coeficiente β1 as hipóteses são: A estatística de teste é tobs=7,39. Como o p-valor=P(|tobs|>t)=0.00 < α rejeitamos H0. Há evidencias que o coeficiente β1 é significativo. (g) Qual é a porcentagem da variabilidade da resposta que é explicada pela variável explicativa? Resposta O 87,25 % da variabilidade do custo de manutenção é explicada pela idade do ônibus. (h) A equação de regressão estimada proporcionou um bom ajuste? Explique. Resposta Sim, como o R2 > 0.7, podemos considerar que o ajuste do modelo de regressão estimada é bom. 0: 0: 01 00 H H 0: 0: 11 10 H H (i) Qual a estimativa da variância da parte da variável resposta que não é explicada pelo modelo de regressão. Resposta A estimativa da variância da parte da variável resposta que não é explicada pelo modelo de regressão é σ2e=5700. (j) Temos presença de observações discrepantes? Resposta Pelo gráfico de resíduos padronizados versus valores ajustados, não observamos pontos abaixo de -2 e acima de 2 . Então não temos presença de observações discrepantes. (k) As suposições a respeito dos termos de erro e da forma do modelo parecem razoáveis em função da plotagem residual? Sim, as suposições a respeito dos termos de erro e da forma do modelo parecem razoáveis: i. No gráfico de resíduos versus idade do ônibus observamos que o valor médio do resíduoesta em torno de zero; ii. No gráfico de resíduos versus idade do ônibus observamos que os pontos estão distribuídos aleatoriamente. Logo, a variância do resíduo é constante; iii. Pelo gráfico de probabilidade normal observamos uma relação linear. Logo, o suposto de normalidade dos resíduos não foi violada. iv. No plotagem dos resíduos na ordem observada, observa-se aleatoriedade. (l) Obtenha a previsão para o custo de manutenção de um ônibus especificado que tem 4 anos. Resposta Para X=4 temos que a previsão é y=220 + 131.6*(4)=746.64 A previsão do custo de manutenção de um ônibus com 4 anos é 746,64.
Compartilhar