Baixe o app para aproveitar ainda mais
Prévia do material em texto
Trabalho de Ana´lise de Regressa˜o Isadora Cassador Coˆnsoli Silva 1 Aplicac¸a˜o 4 No arquivo Aplicacao4.txt sa˜o descritas as seguintes varia´veis referentes a 50 estados norte-americanos: expvida (expectativa de vida nos anos 1969-70), crime (taxa de criminalidade por 100000 habitantes 1976), estud (por- centagem de estudantes que concluem o segundo grau 1970), ndias (nu´mero de dias do ano com temperatura abaixo de zero grau Celsius na cidade mais impor- tante do estado), dens (densidade demogra´fica). O objetivo do estudo e´ tentar explicar a varia´vel expvida usando um modelo de regressa˜o normal linear dadas as demais varia´veis. Passos a serem seguidos: 1. Realize uma ana´lise descritiva dos dados individualmente, incluindo algu- mas medidas de dispersa˜o e localizac¸a˜o, histogramas e boxplots, interpretando os resultados. Veja abaixo a estrutura dos dados: Figure 1: Estrutura dos dados Figure 2: Ana´lise descritiva dos dados A partir dos dados e gra´ficos apresentados acima, podemos notar que a varia´vel expectativa de vida para o ano de 1969 e 1970 variou de quase 68 anos ate´ cerca de 73 anos, e teve, em me´dia, mais idosos com expectativa de vida entre 70 e 71 anos. Ale´m disso, o histograma na˜o aparenta ser sime´trico e nem ter distribuic¸a˜o normal. Segundo o site ssp.sp.gov.br a taxa de crimes por 100 mil habitantes tem a fi- nalidade de permitir a comparabilidade entre locais com diferentes tamanhos de 2 Figure 3: Histograma e boxplot da expectativa de vida em 1969-70 populac¸a˜o e neutralizar o crescimento populacional, permitindo a comparac¸a˜o a me´dio e a longo prazo.Dessa forma, a taxa de criminalidade apresenta o nu´mero de ocorreˆncias criminais para cada 100 mil habitantes, que atingiu o ma´ximo de 15 v´ıtimas a cada 100000 habitantes dos 50 estados norte americanos no ano de 1976. De acordo com a Figura 5, em me´dia, apenas 53% dos estudantes dos estados americanos em questa˜o conclu´ıram o segundo grau 1970. Tambe´m na˜o parece haver simetria no histograma, pois ha´ descontinuidade e a altura das barrin- has do gra´ficos sobem e descem sem haver uma padronizac¸a˜o, demonstrando variabilidade dos dados. 3 Figure 4: Taxa de criminalidade por 100000 habitantes 1976 Ja´ a Figura 6, nos mostra o boxplot dos dias do ano com temperatura abaixo de zero graus Celsius na cidade mais importante do estado americano (Nova Iorque). Podemos perceber que houve, em me´dia, cerca de 104 dias do ano que teve temperaturas abaixo de zero, ou seja, pouco mais de 28% dos dias de 1970 foi frio. 4 Figure 5: Porcentagem de estudantes que concluem o segundo grau 1970 Figure 6: Nu´mero de dias do ano com temperatura abaixo de zero grau Celsius na cidade mais importante do estado A Figura 7, nos mostra a densidade demogra´fica dos 50 estados norte amer- icanos, em que esta e´ expressada pela relac¸a˜o entre a populac¸a˜o e a superf´ıcie do territo´rio, geralmente aplicada a seres humanos e medida em habitantes por quiloˆmetro quadrado. Ou seja, e´ a distribuic¸a˜o do nu´mero de pessoas em todo o territo´rio de uma unidade administrativa ou funcional. Podemos perceber enta˜o, que mais de 75% dos dados esta˜o concentrados abaixo de 0,5 hab/km2, ale´m disso, temos 6 pa´ıses que se distanciaram bastante disso, que sa˜o os pontos discrepantes do gra´fico. O que nos indica ser alguns pa´ıses com maior densidade populacional. 5 Figure 7: Boxplot da densidade demogra´fica 2. Analise gra´ficos de dispersa˜o entre covaria´veis e varia´vel resposta, avaliando a relac¸a˜o entre as varia´veis. Calcule os coeficientes de correlac¸a˜o e discuta os resultados; Para calcularmos o Coeficiente de Correlac¸a˜o Linear de Pearson entre as varia´veis, utilizamos a func¸a˜o cor do R, e obtivemos os seguintes resultados: > cor(x1, y) − 0.7808458 > cor(x2, y) 0.5822162 > cor(x3, y) 0.262068 > cor(x4, y) − 0.2607797 Observac¸ao: as varia´veis x1, x2, x3, x4 e y, representam respectivamente, crime, estud, ndias, dens e expvida. 6 Figure 8: Gra´ficos de dispersa˜o O diagrama de dispersa˜o da Figura 8 (a) mostra uma relac¸a˜o curvil´ınea entre as varia´veis ’crime’ e ’expvida’. Ja´ entre as varia´veis ’estud’ e ’crime’ (Figura 8 (b)), mostra uma relac¸a˜o aparentemente crescente, pore´m fraca, enquanto que entre as varia´veis ’ndias’ e ’expvida’ na˜o ha´ uma relac¸a˜o bem definida. E o u´ltimo gra´fico de dispersa˜o entre as varia´veis ’dens’ e ’expvida’ parece na˜o haver relac¸a˜o entre as varia´veis, pois ha´ um comportamento similar ao de uma constante no eixo x. Observamos que o R retornou o valor -0.7808458 para a varia´vel x1, o que evidencia uma relac¸a˜o linear negativa entre as varia´veis x1 e y. Para avaliar se esse resultado e´ significativo, podemos realizar um Teste de Hipo´teses para a o Coeficiente de Correlac¸a˜o (supondo que as suposic¸o˜es do teste sejam satisfeitas): 7 Figure 9: TH para o coeficiente de correlac¸a˜o entre x1 e y Como o Valor P do teste (p-value= 2.26e-11) e´ bem pequeno, conclui-se que o valor do Coeficiente de Correlac¸a˜o Linear de Pearson tem significaˆncia estat´ıstica. Na figura abaixo mostramos os gra´ficos de dispersa˜o cruzando todas as varia´veis. Figure 10: Gra´ficos de dispersa˜o cruzando as varia´veis dos dados. 3. Ajuste um modelo de regressa˜o linear, supondo que os erros sejam nor- mais, homosceda´sticos e independentes; Veja na figura abaixo o comando no R para o ajuste do modelo considerando todas as varia´veis (x1,x2,x3,x4) 8 Figure 11: Comando no R para o ajuste do modelo O teste t da significaˆncia da regressa˜o rejeita H0 : β1 = β2 = β3 = 0, ao n´ıvel de 5% de significaˆncia (p-valor igual a 2.609e-12) Os erros padra˜o (na sa´ıda, a coluna Std.Error) dos coeficientes de regressa˜o sa˜o muito baixos. A partir dos comandos apresentados na Figura 11, foram obtidas as sa´ıdas (resultados) referentes a` tabela da ANOVA (Figura 12) Figure 12: Tabela da ANOVA Como o n´ıvel descritivo do teste foi bem menor do que o n´ıvel de significaˆncia (α = 5%), assumimos que ha´ relac¸a˜o linear entre a varia´vel resposta e pelo menos uma varia´vel regressora, ao n´ıvel de 5% de significaˆncia. 9 4. Fac¸a uma ana´lise residual para avaliar a adequac¸a˜o do modelo. Proponha ajustes alternativos, caso sua ana´lise de res´ıduos indique essa necessidade; Sabemos que um aspecto importante para a validac¸a˜o de um ajuste de regressa˜o linear mu´ltipla e´ a ana´lise de res´ıduos, que mostra a significaˆncia do modelo e avalia as contribuic¸o˜es das varia´veis regressoras. Veja a figura com os gra´ficos abaixo: Figure 13: Gra´ficos dos res´ıduos do modelo Note que no envelope abaixo, os dados, em geral, esta˜o dentro dos intervalos de confianc¸a. 10 Figure 14: Envelope 5. Avalie se a contribuic¸a˜o de algum componente do modelo resultante na˜o apresenta resultados significativos. Elimine essas componentes e reajuste o modelo. Refac¸a, se necessa´rio, uma ana´lise de res´ıduos para avaliar a adequac¸a˜o do modelo resultante; Segue abaixo todas as possibilidades de interac¸o˜es para o ajuste do modelo: Figure 15: Modelo com todas as interac¸o˜es duplas 11 Figure 16: Ana´lise de res´ıduos do modelo com todas as interac¸o˜es duplas Podemos notar o histograma de res´ıduos parenta ser normal, no entanto nenhuma das interac¸o˜es foi significante para o modelo, logo, teremos que buscar outros ajustes. A seguir, apresentaremos va´rias imagens com opc¸o˜es de ajuste de modelo, a fim de encontrar o que melhor explica o nosso conjunto de dados. 12 Figure 17: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+ β3ndias+β4dens+β5crime∗estud+β6crime∗ndias+β7crime∗dens+β8estud∗ndias+ β9estud ∗ dens Figure 18: Ana´lise do res´ıduo do modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+β3ndias+β4dens+β5crime∗estud+β6crime∗ndias+ β7crime ∗ dens+ β8estud ∗ ndias+ β9estud ∗ dens 13 Figure 19: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+ β3ndias+β4dens+β5crime∗estud+β6crime∗ndias+β7crime∗dens+β8estud∗ ndias Figure 20: Ana´lise dos res´ıduos do modelo sem mais uma das interac¸o˜es duplas: y = β0 + β1crime+ β2estud+ β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗ ndias+ β7crime ∗ dens+ β8estud ∗ ndias 14 Figure 21: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+ β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗ ndias+ β7crime ∗ dens Figure 22: Ana´lise de res´ıduos do modelo sem mais uma das interac¸o˜es duplas: y = β0 + β1crime+ β2estud+ β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗ ndias+ β7crime ∗ dens 15 Figure 23: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+ β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗ ndias Figure 24: Ana´lise dos res´ıduos do modelo sem mais uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+β3ndias+β4dens+β5crime∗estud+β6crime∗ndias 16 Figure 25: Modelo sem mais uma das interac¸o˜es duplas: y = β0 + β1crime + β2estud+ β3ndias+ β4dens+ β5crime ∗ estud Figure 26: Ana´lise de res´ıduos do modelo sem mais uma das interac¸o˜es duplas: y = β0 + β1crime+ β2estud+ β3ndias+ β4dens+ β5crime ∗ estud 17 Na ana´lise dos componentes para contribuic¸o˜es do modelo resultante na˜o identificamos interac¸o˜es duplas significativas o suficiente para explicar o melhor ajuste, de tal forma que exclu´ımos as componentes de interac¸a˜o e ficamos com o modelo mais simples (princ´ıpio da Parcimoˆnia) e pelo crite´rio de AIC (em que encontramos o menor valor para o modelo com todas as covaria´veis). 6. Apresente o modelo final ajustado e interprete suas estimativas Como acabamos de mencionar na questa˜o anterior, o melhor modelo ajustado foi o mais simples, ou seja, aquele que continha todas as covaria´veis. y = β0 + β1crime+ β2estud+ β3ndias+ β4dens y = 71, 50 − 0, 2858crime+ 0, 044estud− 0, 0071ndias− 0, 4568dens Podemos notar pelo modelo acima que quando as covaria´veis sa˜o nulas, a expectativa de vida corresponde, em me´dia, a 71,5 anos. Em seguida, quando consideramos a covaria´vel crime, temos que, para cada 1% de aumento na taxa de criminalidade nos estados americanos, diminu´ımos a expectativa de vida em 28,58%. E quando consideramos a covaria´vel estud (% de estudantes que conclu´ıram o segundo grau), vemos que a cada 1% no aumento de escolaridade dos jovens, au- mentamos a expectativa de vida em 4,4%. Ale´m disso, esta covaria´vel foi a u´nica que apresentou coeficiente positivo, ou seja, o estudo, quando incrementado no modelo, foi a u´nica covaria´vel que aumenta a contribuic¸a˜o na expectativa de vida. Ja´ a covaria´vel ndias (nu´mero de dias do ano com temperatura abaixo de zero grau Celsius na cidade mais importante do estado), indica que a cada dia do ano a mais que a temperatura e´ abaixo de zero/negativa a expectativa de vida reduz cerca de 0,7%. Enquanto que a covaria´vel dens (densidade demogra´fica) obteve o maior coe- ficiente em mo´dulo. E mostra que a cada uma unidade aumentada em unidades de densidade demogra´fica, a expectativa de vida reduziu em 45,68% . 18
Compartilhar