Buscar

Relatório do Trabalho de Regressão no LaTex

Prévia do material em texto

Trabalho de Ana´lise de Regressa˜o
Isadora Cassador Coˆnsoli Silva
1
Aplicac¸a˜o 4 No arquivo Aplicacao4.txt sa˜o descritas as seguintes varia´veis
referentes a 50 estados norte-americanos: expvida (expectativa de vida nos anos
1969-70), crime (taxa de criminalidade por 100000 habitantes 1976), estud (por-
centagem de estudantes que concluem o segundo grau 1970), ndias (nu´mero de
dias do ano com temperatura abaixo de zero grau Celsius na cidade mais impor-
tante do estado), dens (densidade demogra´fica). O objetivo do estudo e´ tentar
explicar a varia´vel expvida usando um modelo de regressa˜o normal linear dadas
as demais varia´veis. Passos a serem seguidos:
1. Realize uma ana´lise descritiva dos dados individualmente, incluindo algu-
mas medidas de dispersa˜o e localizac¸a˜o, histogramas e boxplots, interpretando
os resultados.
Veja abaixo a estrutura dos dados:
Figure 1: Estrutura dos dados
Figure 2: Ana´lise descritiva dos dados
A partir dos dados e gra´ficos apresentados acima, podemos notar que a
varia´vel expectativa de vida para o ano de 1969 e 1970 variou de quase 68 anos
ate´ cerca de 73 anos, e teve, em me´dia, mais idosos com expectativa de vida
entre 70 e 71 anos. Ale´m disso, o histograma na˜o aparenta ser sime´trico e nem
ter distribuic¸a˜o normal.
Segundo o site ssp.sp.gov.br a taxa de crimes por 100 mil habitantes tem a fi-
nalidade de permitir a comparabilidade entre locais com diferentes tamanhos de
2
Figure 3: Histograma e boxplot da expectativa de vida em 1969-70
populac¸a˜o e neutralizar o crescimento populacional, permitindo a comparac¸a˜o a
me´dio e a longo prazo.Dessa forma, a taxa de criminalidade apresenta o nu´mero
de ocorreˆncias criminais para cada 100 mil habitantes, que atingiu o ma´ximo de
15 v´ıtimas a cada 100000 habitantes dos 50 estados norte americanos no ano de
1976.
De acordo com a Figura 5, em me´dia, apenas 53% dos estudantes dos estados
americanos em questa˜o conclu´ıram o segundo grau 1970. Tambe´m na˜o parece
haver simetria no histograma, pois ha´ descontinuidade e a altura das barrin-
has do gra´ficos sobem e descem sem haver uma padronizac¸a˜o, demonstrando
variabilidade dos dados.
3
Figure 4: Taxa de criminalidade por 100000 habitantes 1976
Ja´ a Figura 6, nos mostra o boxplot dos dias do ano com temperatura abaixo
de zero graus Celsius na cidade mais importante do estado americano (Nova
Iorque). Podemos perceber que houve, em me´dia, cerca de 104 dias do ano que
teve temperaturas abaixo de zero, ou seja, pouco mais de 28% dos dias de 1970
foi frio.
4
Figure 5: Porcentagem de estudantes que concluem o segundo grau 1970
Figure 6: Nu´mero de dias do ano com temperatura abaixo de zero grau Celsius
na cidade mais importante do estado
A Figura 7, nos mostra a densidade demogra´fica dos 50 estados norte amer-
icanos, em que esta e´ expressada pela relac¸a˜o entre a populac¸a˜o e a superf´ıcie
do territo´rio, geralmente aplicada a seres humanos e medida em habitantes por
quiloˆmetro quadrado. Ou seja, e´ a distribuic¸a˜o do nu´mero de pessoas em todo
o territo´rio de uma unidade administrativa ou funcional. Podemos perceber
enta˜o, que mais de 75% dos dados esta˜o concentrados abaixo de 0,5 hab/km2,
ale´m disso, temos 6 pa´ıses que se distanciaram bastante disso, que sa˜o os pontos
discrepantes do gra´fico. O que nos indica ser alguns pa´ıses com maior densidade
populacional.
5
Figure 7: Boxplot da densidade demogra´fica
2. Analise gra´ficos de dispersa˜o entre covaria´veis e varia´vel resposta, avaliando
a relac¸a˜o entre as varia´veis. Calcule os coeficientes de correlac¸a˜o e discuta os
resultados;
Para calcularmos o Coeficiente de Correlac¸a˜o Linear de Pearson entre as
varia´veis, utilizamos a func¸a˜o cor do R, e obtivemos os seguintes resultados:
> cor(x1, y)
− 0.7808458
> cor(x2, y)
0.5822162
> cor(x3, y)
0.262068
> cor(x4, y)
− 0.2607797
Observac¸ao: as varia´veis x1, x2, x3, x4 e y, representam respectivamente,
crime, estud, ndias, dens e expvida.
6
Figure 8: Gra´ficos de dispersa˜o
O diagrama de dispersa˜o da Figura 8 (a) mostra uma relac¸a˜o curvil´ınea entre
as varia´veis ’crime’ e ’expvida’. Ja´ entre as varia´veis ’estud’ e ’crime’ (Figura
8 (b)), mostra uma relac¸a˜o aparentemente crescente, pore´m fraca, enquanto
que entre as varia´veis ’ndias’ e ’expvida’ na˜o ha´ uma relac¸a˜o bem definida. E
o u´ltimo gra´fico de dispersa˜o entre as varia´veis ’dens’ e ’expvida’ parece na˜o
haver relac¸a˜o entre as varia´veis, pois ha´ um comportamento similar ao de uma
constante no eixo x.
Observamos que o R retornou o valor -0.7808458 para a varia´vel x1, o que
evidencia uma relac¸a˜o linear negativa entre as varia´veis x1 e y.
Para avaliar se esse resultado e´ significativo, podemos realizar um Teste de
Hipo´teses para a o Coeficiente de Correlac¸a˜o (supondo que as suposic¸o˜es do
teste sejam satisfeitas):
7
Figure 9: TH para o coeficiente de correlac¸a˜o entre x1 e y
Como o Valor P do teste (p-value= 2.26e-11) e´ bem pequeno, conclui-se
que o valor do Coeficiente de Correlac¸a˜o Linear de Pearson tem significaˆncia
estat´ıstica. Na figura abaixo mostramos os gra´ficos de dispersa˜o cruzando todas
as varia´veis.
Figure 10: Gra´ficos de dispersa˜o cruzando as varia´veis dos dados.
3. Ajuste um modelo de regressa˜o linear, supondo que os erros sejam nor-
mais, homosceda´sticos e independentes;
Veja na figura abaixo o comando no R para o ajuste do modelo considerando
todas as varia´veis (x1,x2,x3,x4)
8
Figure 11: Comando no R para o ajuste do modelo
O teste t da significaˆncia da regressa˜o rejeita H0 : β1 = β2 = β3 = 0, ao
n´ıvel de 5% de significaˆncia (p-valor igual a 2.609e-12)
Os erros padra˜o (na sa´ıda, a coluna Std.Error) dos coeficientes de regressa˜o
sa˜o muito baixos.
A partir dos comandos apresentados na Figura 11, foram obtidas as sa´ıdas
(resultados) referentes a` tabela da ANOVA (Figura 12)
Figure 12: Tabela da ANOVA
Como o n´ıvel descritivo do teste foi bem menor do que o n´ıvel de significaˆncia
(α = 5%), assumimos que ha´ relac¸a˜o linear entre a varia´vel resposta e pelo menos
uma varia´vel regressora, ao n´ıvel de 5% de significaˆncia.
9
4. Fac¸a uma ana´lise residual para avaliar a adequac¸a˜o do modelo. Proponha
ajustes alternativos, caso sua ana´lise de res´ıduos indique essa necessidade;
Sabemos que um aspecto importante para a validac¸a˜o de um ajuste de
regressa˜o linear mu´ltipla e´ a ana´lise de res´ıduos, que mostra a significaˆncia
do modelo e avalia as contribuic¸o˜es das varia´veis regressoras. Veja a figura com
os gra´ficos abaixo:
Figure 13: Gra´ficos dos res´ıduos do modelo
Note que no envelope abaixo, os dados, em geral, esta˜o dentro dos intervalos
de confianc¸a.
10
Figure 14: Envelope
5. Avalie se a contribuic¸a˜o de algum componente do modelo resultante
na˜o apresenta resultados significativos. Elimine essas componentes e reajuste o
modelo. Refac¸a, se necessa´rio, uma ana´lise de res´ıduos para avaliar a adequac¸a˜o
do modelo resultante;
Segue abaixo todas as possibilidades de interac¸o˜es para o ajuste do modelo:
Figure 15: Modelo com todas as interac¸o˜es duplas
11
Figure 16: Ana´lise de res´ıduos do modelo com todas as interac¸o˜es duplas
Podemos notar o histograma de res´ıduos parenta ser normal, no entanto
nenhuma das interac¸o˜es foi significante para o modelo, logo, teremos que buscar
outros ajustes.
A seguir, apresentaremos va´rias imagens com opc¸o˜es de ajuste de modelo, a
fim de encontrar o que melhor explica o nosso conjunto de dados.
12
Figure 17: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+
β3ndias+β4dens+β5crime∗estud+β6crime∗ndias+β7crime∗dens+β8estud∗ndias+ β9estud ∗ dens
Figure 18: Ana´lise do res´ıduo do modelo sem uma das interac¸o˜es duplas: y =
β0+β1crime+β2estud+β3ndias+β4dens+β5crime∗estud+β6crime∗ndias+
β7crime ∗ dens+ β8estud ∗ ndias+ β9estud ∗ dens
13
Figure 19: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+
β3ndias+β4dens+β5crime∗estud+β6crime∗ndias+β7crime∗dens+β8estud∗
ndias
Figure 20: Ana´lise dos res´ıduos do modelo sem mais uma das interac¸o˜es duplas:
y = β0 + β1crime+ β2estud+ β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗
ndias+ β7crime ∗ dens+ β8estud ∗ ndias
14
Figure 21: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+
β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗ ndias+ β7crime ∗ dens
Figure 22: Ana´lise de res´ıduos do modelo sem mais uma das interac¸o˜es duplas:
y = β0 + β1crime+ β2estud+ β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗
ndias+ β7crime ∗ dens
15
Figure 23: Modelo sem uma das interac¸o˜es duplas: y = β0+β1crime+β2estud+
β3ndias+ β4dens+ β5crime ∗ estud+ β6crime ∗ ndias
Figure 24: Ana´lise dos res´ıduos do modelo sem mais uma das interac¸o˜es duplas:
y = β0+β1crime+β2estud+β3ndias+β4dens+β5crime∗estud+β6crime∗ndias
16
Figure 25: Modelo sem mais uma das interac¸o˜es duplas: y = β0 + β1crime +
β2estud+ β3ndias+ β4dens+ β5crime ∗ estud
Figure 26: Ana´lise de res´ıduos do modelo sem mais uma das interac¸o˜es duplas:
y = β0 + β1crime+ β2estud+ β3ndias+ β4dens+ β5crime ∗ estud
17
Na ana´lise dos componentes para contribuic¸o˜es do modelo resultante na˜o
identificamos interac¸o˜es duplas significativas o suficiente para explicar o melhor
ajuste, de tal forma que exclu´ımos as componentes de interac¸a˜o e ficamos com
o modelo mais simples (princ´ıpio da Parcimoˆnia) e pelo crite´rio de AIC (em que
encontramos o menor valor para o modelo com todas as covaria´veis).
6. Apresente o modelo final ajustado e interprete suas estimativas
Como acabamos de mencionar na questa˜o anterior, o melhor modelo ajustado
foi o mais simples, ou seja, aquele que continha todas as covaria´veis.
y = β0 + β1crime+ β2estud+ β3ndias+ β4dens
y = 71, 50 − 0, 2858crime+ 0, 044estud− 0, 0071ndias− 0, 4568dens
Podemos notar pelo modelo acima que quando as covaria´veis sa˜o nulas, a
expectativa de vida corresponde, em me´dia, a 71,5 anos.
Em seguida, quando consideramos a covaria´vel crime, temos que, para cada
1% de aumento na taxa de criminalidade nos estados americanos, diminu´ımos
a expectativa de vida em 28,58%.
E quando consideramos a covaria´vel estud (% de estudantes que conclu´ıram o
segundo grau), vemos que a cada 1% no aumento de escolaridade dos jovens, au-
mentamos a expectativa de vida em 4,4%. Ale´m disso, esta covaria´vel foi a u´nica
que apresentou coeficiente positivo, ou seja, o estudo, quando incrementado no
modelo, foi a u´nica covaria´vel que aumenta a contribuic¸a˜o na expectativa de
vida.
Ja´ a covaria´vel ndias (nu´mero de dias do ano com temperatura abaixo de
zero grau Celsius na cidade mais importante do estado), indica que a cada dia
do ano a mais que a temperatura e´ abaixo de zero/negativa a expectativa de
vida reduz cerca de 0,7%.
Enquanto que a covaria´vel dens (densidade demogra´fica) obteve o maior coe-
ficiente em mo´dulo. E mostra que a cada uma unidade aumentada em unidades
de densidade demogra´fica, a expectativa de vida reduziu em 45,68% .
18

Outros materiais