aula1 - Aulas Estatística - UFMA

•

UCAM

0

Monte Carlo

05/10/2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.368 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Análise de Regressão
Profa Alcione Miranda dos Santos
Departamento de Saúde Pública
UFMA
Introdução
� Uma das preocupações estatísticas ao analisar dados, é 
a de criar modelos que explicitem estruturas do fenômeno 
em observação.
� O modelo de regressão é um dos métodos estatísticos 
mais usados para investigar a relação entre variáveis. 
� Análise de regressão: metodologia estatística que 
estuda (modela) a relação entre duas ou mais variáveis.
Tipos de Modelos de Regressão
Regressão
Modelo
Simples MultíploMultiplo
Linear LinearNãoLinear
Não
Linear
Uma variável 
dependente
Duas ou mais variáveis 
dependentes
� Quantificando a força dessa relação: 
correlação.
� Explicitando a forma dessa relação: 
regressão.
A presença ou ausência de relação linear pode 
ser investigada sob dois pontos de vista:
Coeficiente de Correlação de Pearson
� A correlação é calculada independente da unidade de medida das 
variáveis.
� A técnica usada para calcular este coeficiente, supõe que a associação 
entre as variáveis seja linear, ou seja, expressa por uma reta ou linha. 
� Se a relação apresentada no diagrama de dispersão não for do tipo 
linear, o coeficiente de correlação de Pearson não deve ser calculado. 
� Fórmula:
∑∑
∑
==
=
−×−
−−
=
n
i
i
n
i
i
n
i
ii
yyxx
yyxx
r
1
2
1
2
1
)()(
))((
Coeficiente de correlação de Pearson
� O coeficiente de correlação pode variar entre –1 
(correlação negativa perfeita) e +1 (correlação positiva 
perfeita).
� Valores negativos do coeficiente de correlação indicam 
uma correlação do tipo inversa, isto é, quando x 
aumenta y diminui. 
� Valores positivos do coeficiente de correlação ocorrem 
quando x e y variam no mesmo sentido, isto é, quando x 
aumenta y aumenta ou quando x diminui y também 
diminui. 
Exemplo 1: Um psicólogo está investigando a relação entre o tempo que 
um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade 
(X) e acuidade visual (Z, medida em porcentagem).
X : idade
Y : tempo de reação
20 30 40
90
100
110
120
130
X
Y
Pelo gráfico: média de Y aumenta 
conforme as pessoas envelhecem
⇓⇓⇓⇓
Modelo de regressão
Correlação entre Y e X = 0,7681
Correlação no STATA
� Comando: corr y x
� Para o exemplo anterior, temos
corr tempo idade
(obs=20)
| tempo idade
-------------+------------------
tempo | 1.0000
idade | 0.7681 1.0000
Diagramas de dispersão
Comando STATA: scatter y x
Modelo de regressão linear simples
yi = ββββ0 + ββββ1xi +ei , i=1,...,n
sendo
yi: valor da variável dependente (resposta) para o i-ésimo elemento da 
amostra;
xi: valor (conhecido) da variável independente ou preditora para o i-ésimo
elemento da amostra;
β0 e β1 são parâmetros desconhecidos;
ei: erro amostral.
Suposição: os erros amostrais são independentes com distribuição N(0, σ2), i=1,2,...,n.
Esta suposição deve ser verificada!!! (como??)
Modelo de regressão linear simples
PopulaçãoPopulação Amostra
Amostra AleatóriaAleatória
Y Xi i i==== ++++ ++++$ $ $ββββ ββββ εεεε0 1Y Xi i i==== ++++ ++++$ $ $ββββ ββββ εεεε0 1
☺☺☺☺☺☺☺☺ $$
☺☺☺☺☺☺☺☺ $$
☺☺☺☺☺☺☺☺ $$☺☺☺☺☺☺☺☺ $$
☺☺☺☺☺☺☺☺ $$
Y Xi i i==== ++++ ++++ββββ ββββ εεεε0 1
Erro amostral
� O erro amostral é uma variável aleatória não observável, e é 
estimado pelos resíduos, isto é, a diferença entre o valor observado
Y, e o estimado pela reta , isto é
Yˆ
2
^
1
2
1
)(ˆ ii YY
n
i
i
n
i
−=∑∑
==
ε
0
20
40
60
0 20 40 60
X
Y
Estimação dos parâmetros
� Qual modelo de regressão deve ser ajustado?
Estimação dos parâmetros
� Método de mínimos quadrados
Objetivo: minimizar a soma dos quadrados dos erros
SQ(β0, β1)= Σ(yi- )2
= Σ(yi- β0 - β1xi)2
Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar
os conceitos de cálculo diferencial com derivadas parciais. 
iYˆ
 xy
SS
SS
xnx
yxnyx
xx
xy
n
i
i
n
i
ii
10
1
22
1
1
ˆˆ
ˆ
ββ
β
−=
=
−
−
=
∑
∑
=
=
Reta ajustada: ii xy 10 ˆˆˆ ββ +=
Portanto, os estimadores dos parâmetros são:
Interpretação dos parâmetros
� Intercepto β0 - valor esperado para a variável 
dependente yi quando xi é igual a zero
� Coeficiente angular β1 - variação esperada na 
variável resposta, quando a variável 
independente aumenta uma unidade.
Exemplo 1: Um psicólogo está investigando a relação entre o tempo que o 
indivíduo leva para reagir a um certo estimulo (em segundos) e algumas de suas 
características tais como sexo, idade (em anos completos) e acuidade visual 
(medida em porcentagem). O resultado de 20 indivíduos estão mostrado na tabela 
abaixo (Adaptado de Bussab, 1986).
8040M117209030M10610
6040M127197030F1169
9040F112189025F1018
9040F113178025M1107
9035M108169025M1046
7035M1181510025F985
8035F105149020F1004
9035F112138020M1063
8030F1001210020F922
9030M109119020M961
acuidadeidadesexotempoiacuidadeidadesexotempoi
1.Tempo de reação ⇒⇒⇒⇒ variável dependente ou resposta
idade ⇒⇒⇒⇒ variável independente
⇓⇓⇓⇓
modelo de regressão linear simples
2. Tempo de reação ⇒⇒⇒⇒ variável dependente ou resposta
sexo, idade, acuidade visual ⇒⇒⇒⇒ var. independentes
⇓⇓⇓⇓
modelo de regressão linear múltipla
� Primeiramente, vamos considerar um modelo de regressão linear 
simples, sendo X : idade e Y : tempo de reação
9
0
1
0
0
1
1
0
1
2
0
1
3
0
T
e
m
p
o
20 25 30 35 40
idade
Dados: n=20, Σyi= 2150, Σxi=600, Σxiyi=65400, Σxi2=19000
50,8030.90,050,107ˆ
90,0
30.2019000
5,107.30.2065400
ˆ
0
21
=−=
=
−
−
=
β
β
Estimação dos parâmetros:
ii xy 90,050,80ˆ +=Reta ajustada: 
� Interpretação : Para um aumento de 1 ano na 
idade, o tempo médio de reação aumenta 0,90. 
� Dada a reta ajustada, podemos prever, por 
exemplo, o tempo médio de reação para pessoas 
de 20 anos
1β
ˆ
50,9820.90,050,80)20(yˆ ====++++====
Vantagem: permite estimar o tempo médio de reação para idades não 
observadas
20,11033.90,050,80)33(yˆ ====++++====
Valor predito
Valor predito
NOTA: A estimativa pode ser melhorada com a construção de intervalos de confiança
Análise de Variância para o MRLS
� No desenvolvimento de um teste ANOVA, considere a definição de 
três tipos de resíduos, ou fontes de variação, expressos pelas 
seguintes Somas dos Quadrados (SQ):
TOTAL cuja soma dos quadrados é dada por:
2
_
)( YYSQT −Σ=
RESÍDUOS com a soma dos quadrados expressa através de:
22
10
2 )ˆˆ()ˆ( eXYYYSQE Σ=−−Σ=−Σ= ββ
MODELO, resultante das distâncias entre os valores do modelo e a média:
2
_
22
_
)ˆ()ˆ()( YYYYYYSQR −Σ=−Σ−−Σ=
SQT
n-1SQTn-1Total
SQE
n-2SQEn-2Resíduo
SQR
SQE/(n-2)
SQR
1SQR1Regressão
FSQMSQg.l.
Fontes de 
Variação
A tabela ANOVA para o MRLS é definida de acordo com o que se 
apresenta em seguida.
Regressão Linear Simples no STATA
� Comando: regress y x1
� No exemplo anterior, temos
regress tempo idade
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 1, 18) = 25.90
Model | 810 1 810 Prob > F = 0.0001
Residual | 563 18 31.2777778 R-squared = 0.5899
-------------+------------------------------ Adj R-squared = 0.5672
Total | 1373 19 72.2631579 Root MSE = 5.5927
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------idade | .9 .1768552 5.09 0.000 .5284409 1.271559
_cons | 80.5 5.451045 14.77 0.000 69.04778 91.95222
------------------------------------------------------------------------------
ββββ0 ββββ1
SQR
SQE
Após executado o comando regress, os valores preditos podem ser 
obtidos usando o comando predict. Por exemplo,
regress tempo idade
predict yest
label var yest “valores preditos tempo“
list yest
Regressão Linear Múltipla
Vamos supor que temos X1, X2,..., Xp-1 variáveis preditoras. Definamos modelo 
de regressão multíplo, em termos das variáveis preditoras: 
 ipipiii XXXY εββββ +++++= −− 1,122110 ...
Sendo:
β0, β1,..., βp-1, parâmetros desconhecidos;
εi erro amostral
A análise de uma regressão múltipla segue, basicamente, os mesmos critérios 
da análise de uma regressão simples. 
Suposição: os erros amostrais são independentes com distribuição N(0, σ2), i=1,2,...,n.
Exemplo 2: Considere novamente o exemplo 1. Vamos agora, 
trabalhar com as seguintes variáveis:
X1: idade X2: sexo X3: acuidade Y: tempo
Assim, o modelo de regressão linear múltiplo será dado por
 iiiii XXXY εββββ ++++= 3,322110
Observe que, agora dispomos de variáveis quantitativas e qualitativas no 
modelo.
Uma ferramenta útil no processo de escolha preliminar das possíveis variáveis 
explicativas que deverão entrar no modelo é a matriz de correlação entre as 
variáveis quantitativas. 
Para nosso exemplo, temos a seguinte matriz de correlação:
regress tempo idade sexo acuidade
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 31.39
Model | 1173.60282 3 391.200941 Prob > F = 0.0000
Residual | 199.397178 16 12.4623236 R-squared = 0.8548
-------------+------------------------------ Adj R-squared = 0.8275
Total | 1373 19 72.2631579 Root MSE = 3.5302
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .679224 .1229709 5.52 0.000 .4185374 .9399106
sexo | -2.791534 1.675998 -1.67 0.115 -6.344491 .7614219
acuidade | -.4014109 .0937644 -4.28 0.001 -.6001826 -.2026393
_cons | 125.4305 9.626618 13.03 0.000 105.023 145.838
------------------------------------------------------------------------------
pwcorr tempo idade acuidade, sig
| tempo idade acuidade
-------------+---------------------------
tempo | 1.0000 
|
|
idade | 0.7681 1.0000 
| 0.0001
|
acuidade | -0.7553 -0.3990 1.0000 
| 0.0001 0.0814
|
Ajustando o modelo de regressão com estas variáveis, temos:
 3,21 40,079,268,043,125 iiii XXXY −−+=Reta ajustada:
regress tempo idade sexo acuidade
predict yest
label var yest “valores preditos tempo“
list yest
Também podem ser calculados os valores preditos:
Avaliação do Modelo
� Algumas avaliações devem ser realizadas para se ter alguma idéia da 
eficácia e adequação do modelo. 
� Dentre as técnicas utilizadas para avaliar a eficácia do modelo, o 
coeficiente de correlação seria uma primeira possibilidade.
� Outra medida de adequação é o coeficiente de determinação do 
modelo. 
� A determinação do “melhor” modelo, ou do modelo que melhor se 
ajusta aos dados, está relacionada com a estimativa dos parâmetros 
que tornem os resíduos tão próximos de zero quanto possível. 
� Deve-se então, testar a significância estatística dos parâmetros do 
modelo.
Avaliando a significância do parâmetro 
 )( k
k
scalt β
β
=
Hipóteses:
 0:
0:0
≠
=
ka
k
H
H
β
β
Estatística de teste:
Critério do teste:
Se |tcal| ≤ t(1-α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a 
mesma.
Nota: Quando não dispomos da tabela t-student, podemos utilizar o p-valor, 
fornecido por vários programas estatísticos. Se p-valor menor que o nível de 
significância, rejeitamos H0.
regress tempo idade sexo acuidade
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 31.39
Model | 1173.60282 3 391.200941 Prob > F = 0.0000
Residual | 199.397178 16 12.4623236 R-squared = 0.8548
-------------+------------------------------ Adj R-squared = 0.8275
Total | 1373 19 72.2631579 Root MSE = 3.5302
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .679224 .1229709 5.52 0.000 .4185374 .9399106
sexo | -2.791534 1.675998 -1.67 0.115 -6.344491 .7614219
acuidade | -.4014109 .0937644 -4.28 0.001 -.6001826 -.2026393
_cons | 125.4305 9.626618 13.03 0.000 105.023 145.838
------------------------------------------------------------------------------
Para determinarmos quais parâmetros são estatisticamente significantes, 
basta observar o p-valor fornecido na tabela ANOVA.
 3,21 40,079,268,043,125 iiii XXXY −−+=
Considere o modelo de regressão múltipla ajustado anteriormente:
Apenas a variável sexo não é estatisticamente significante, considerando 
um nível de significância de 5%.
Coeficiente de Determinação
� Ao se analisar a reta de regressão 
observamos que os pontos (xi, yi) 
estão distribuídos acima e abaixo da 
mesma. 
� O coeficiente de determinação deve 
ser interpretado como a proporção de 
variação total da variável dependente 
que é explicada pela variação da 
variável independente X. 
� O coeficiente de determinação, no 
caso univariado, é igual ao quadrado 
do coeficiente de correlação. 
� Observe que o coeficiente de 
determinação é sempre positivo, 
enquanto que o coeficiente de 
correlação pode admitir valores 
negativos e positivos. 
( ) ( )
( ) SQT
SQE
YY
YYYY
r
n
i
i
n
i
i
n
i
i
=
−
−−−
=
∑
∑∑
=
==
1
2
1
2
1
2
2
ˆ( ) ( )
( ) SQT
SQE
YY
YYYY
r
n
i
i
n
i
i
n
i
i
=
−
−−−
=
∑
∑∑
=
==
1
2
1
2
1
2
2
ˆ
Coeficiente de determinação
Coeficiente de Determinação no STATA
� No exemplo 1, temos
regress tempo idade
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 1, 18) = 25.90
Model | 810 1 810 Prob > F = 0.0001
Residual | 563 18 31.2777778 R-squared = 0.5899
-------------+------------------------------ Adj R-squared = 0.5672
Total | 1373 19 72.2631579 Root MSE = 5.5927
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .9 .1768552 5.09 0.000 .5284409 1.271559
_cons | 80.5 5.451045 14.77 0.000 69.04778 91.95222
------------------------------------------------------------------------------
R2 x 100 = 59% ( porcentagem de variância explicada pelo modelo).
Coeficiente de Determinação no STATA
� No exemplo 2, temos
regress tempo idade sexo acuidade
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 3, 16) = 31.39Model | 1173.60282 3 391.200941 Prob > F = 0.0000
Residual | 199.397178 16 12.4623236 R-squared = 0.8548
-------------+------------------------------ Adj R-squared = 0.8275
Total | 1373 19 72.2631579 Root MSE = 3.5302
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .679224 .1229709 5.52 0.000 .4185374 .9399106
sexo | -2.791534 1.675998 -1.67 0.115 -6.344491 .7614219
acuidade | -.4014109 .0937644 -4.28 0.001 -.6001826 -.2026393
_cons | 125.4305 9.626618 13.03 0.000 105.023 145.838
------------------------------------------------------------------------------