Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de Regressão Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Introdução � Uma das preocupações estatísticas ao analisar dados, é a de criar modelos que explicitem estruturas do fenômeno em observação. � O modelo de regressão é um dos métodos estatísticos mais usados para investigar a relação entre variáveis. � Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis. Tipos de Modelos de Regressão Regressão Modelo Simples MultíploMultiplo Linear LinearNãoLinear Não Linear Uma variável dependente Duas ou mais variáveis dependentes � Quantificando a força dessa relação: correlação. � Explicitando a forma dessa relação: regressão. A presença ou ausência de relação linear pode ser investigada sob dois pontos de vista: Coeficiente de Correlação de Pearson � A correlação é calculada independente da unidade de medida das variáveis. � A técnica usada para calcular este coeficiente, supõe que a associação entre as variáveis seja linear, ou seja, expressa por uma reta ou linha. � Se a relação apresentada no diagrama de dispersão não for do tipo linear, o coeficiente de correlação de Pearson não deve ser calculado. � Fórmula: ∑∑ ∑ == = −×− −− = n i i n i i n i ii yyxx yyxx r 1 2 1 2 1 )()( ))(( Coeficiente de correlação de Pearson � O coeficiente de correlação pode variar entre –1 (correlação negativa perfeita) e +1 (correlação positiva perfeita). � Valores negativos do coeficiente de correlação indicam uma correlação do tipo inversa, isto é, quando x aumenta y diminui. � Valores positivos do coeficiente de correlação ocorrem quando x e y variam no mesmo sentido, isto é, quando x aumenta y aumenta ou quando x diminui y também diminui. Exemplo 1: Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade (X) e acuidade visual (Z, medida em porcentagem). X : idade Y : tempo de reação 20 30 40 90 100 110 120 130 X Y Pelo gráfico: média de Y aumenta conforme as pessoas envelhecem ⇓⇓⇓⇓ Modelo de regressão Correlação entre Y e X = 0,7681 Correlação no STATA � Comando: corr y x � Para o exemplo anterior, temos corr tempo idade (obs=20) | tempo idade -------------+------------------ tempo | 1.0000 idade | 0.7681 1.0000 Diagramas de dispersão Comando STATA: scatter y x Modelo de regressão linear simples yi = ββββ0 + ββββ1xi +ei , i=1,...,n sendo yi: valor da variável dependente (resposta) para o i-ésimo elemento da amostra; xi: valor (conhecido) da variável independente ou preditora para o i-ésimo elemento da amostra; β0 e β1 são parâmetros desconhecidos; ei: erro amostral. Suposição: os erros amostrais são independentes com distribuição N(0, σ2), i=1,2,...,n. Esta suposição deve ser verificada!!! (como??) Modelo de regressão linear simples PopulaçãoPopulação Amostra Amostra AleatóriaAleatória Y Xi i i==== ++++ ++++$ $ $ββββ ββββ εεεε0 1Y Xi i i==== ++++ ++++$ $ $ββββ ββββ εεεε0 1 ☺☺☺☺☺☺☺☺ $$ ☺☺☺☺☺☺☺☺ $$ ☺☺☺☺☺☺☺☺ $$☺☺☺☺☺☺☺☺ $$ ☺☺☺☺☺☺☺☺ $$ Y Xi i i==== ++++ ++++ββββ ββββ εεεε0 1 Erro amostral � O erro amostral é uma variável aleatória não observável, e é estimado pelos resíduos, isto é, a diferença entre o valor observado Y, e o estimado pela reta , isto é Yˆ 2 ^ 1 2 1 )(ˆ ii YY n i i n i −=∑∑ == ε 0 20 40 60 0 20 40 60 X Y Estimação dos parâmetros � Qual modelo de regressão deve ser ajustado? Estimação dos parâmetros � Método de mínimos quadrados Objetivo: minimizar a soma dos quadrados dos erros SQ(β0, β1)= Σ(yi- )2 = Σ(yi- β0 - β1xi)2 Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar os conceitos de cálculo diferencial com derivadas parciais. iYˆ xy SS SS xnx yxnyx xx xy n i i n i ii 10 1 22 1 1 ˆˆ ˆ ββ β −= = − − = ∑ ∑ = = Reta ajustada: ii xy 10 ˆˆˆ ββ += Portanto, os estimadores dos parâmetros são: Interpretação dos parâmetros � Intercepto β0 - valor esperado para a variável dependente yi quando xi é igual a zero � Coeficiente angular β1 - variação esperada na variável resposta, quando a variável independente aumenta uma unidade. Exemplo 1: Um psicólogo está investigando a relação entre o tempo que o indivíduo leva para reagir a um certo estimulo (em segundos) e algumas de suas características tais como sexo, idade (em anos completos) e acuidade visual (medida em porcentagem). O resultado de 20 indivíduos estão mostrado na tabela abaixo (Adaptado de Bussab, 1986). 8040M117209030M10610 6040M127197030F1169 9040F112189025F1018 9040F113178025M1107 9035M108169025M1046 7035M1181510025F985 8035F105149020F1004 9035F112138020M1063 8030F1001210020F922 9030M109119020M961 acuidadeidadesexotempoiacuidadeidadesexotempoi 1.Tempo de reação ⇒⇒⇒⇒ variável dependente ou resposta idade ⇒⇒⇒⇒ variável independente ⇓⇓⇓⇓ modelo de regressão linear simples 2. Tempo de reação ⇒⇒⇒⇒ variável dependente ou resposta sexo, idade, acuidade visual ⇒⇒⇒⇒ var. independentes ⇓⇓⇓⇓ modelo de regressão linear múltipla � Primeiramente, vamos considerar um modelo de regressão linear simples, sendo X : idade e Y : tempo de reação 9 0 1 0 0 1 1 0 1 2 0 1 3 0 T e m p o 20 25 30 35 40 idade Dados: n=20, Σyi= 2150, Σxi=600, Σxiyi=65400, Σxi2=19000 50,8030.90,050,107ˆ 90,0 30.2019000 5,107.30.2065400 ˆ 0 21 =−= = − − = β β Estimação dos parâmetros: ii xy 90,050,80ˆ +=Reta ajustada: � Interpretação : Para um aumento de 1 ano na idade, o tempo médio de reação aumenta 0,90. � Dada a reta ajustada, podemos prever, por exemplo, o tempo médio de reação para pessoas de 20 anos 1β ˆ 50,9820.90,050,80)20(yˆ ====++++==== Vantagem: permite estimar o tempo médio de reação para idades não observadas 20,11033.90,050,80)33(yˆ ====++++==== Valor predito Valor predito NOTA: A estimativa pode ser melhorada com a construção de intervalos de confiança Análise de Variância para o MRLS � No desenvolvimento de um teste ANOVA, considere a definição de três tipos de resíduos, ou fontes de variação, expressos pelas seguintes Somas dos Quadrados (SQ): TOTAL cuja soma dos quadrados é dada por: 2 _ )( YYSQT −Σ= RESÍDUOS com a soma dos quadrados expressa através de: 22 10 2 )ˆˆ()ˆ( eXYYYSQE Σ=−−Σ=−Σ= ββ MODELO, resultante das distâncias entre os valores do modelo e a média: 2 _ 22 _ )ˆ()ˆ()( YYYYYYSQR −Σ=−Σ−−Σ= SQT n-1SQTn-1Total SQE n-2SQEn-2Resíduo SQR SQE/(n-2) SQR 1SQR1Regressão FSQMSQg.l. Fontes de Variação A tabela ANOVA para o MRLS é definida de acordo com o que se apresenta em seguida. Regressão Linear Simples no STATA � Comando: regress y x1 � No exemplo anterior, temos regress tempo idade Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 25.90 Model | 810 1 810 Prob > F = 0.0001 Residual | 563 18 31.2777778 R-squared = 0.5899 -------------+------------------------------ Adj R-squared = 0.5672 Total | 1373 19 72.2631579 Root MSE = 5.5927 ------------------------------------------------------------------------------ tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------idade | .9 .1768552 5.09 0.000 .5284409 1.271559 _cons | 80.5 5.451045 14.77 0.000 69.04778 91.95222 ------------------------------------------------------------------------------ ββββ0 ββββ1 SQR SQE Após executado o comando regress, os valores preditos podem ser obtidos usando o comando predict. Por exemplo, regress tempo idade predict yest label var yest “valores preditos tempo“ list yest Regressão Linear Múltipla Vamos supor que temos X1, X2,..., Xp-1 variáveis preditoras. Definamos modelo de regressão multíplo, em termos das variáveis preditoras: ipipiii XXXY εββββ +++++= −− 1,122110 ... Sendo: β0, β1,..., βp-1, parâmetros desconhecidos; εi erro amostral A análise de uma regressão múltipla segue, basicamente, os mesmos critérios da análise de uma regressão simples. Suposição: os erros amostrais são independentes com distribuição N(0, σ2), i=1,2,...,n. Exemplo 2: Considere novamente o exemplo 1. Vamos agora, trabalhar com as seguintes variáveis: X1: idade X2: sexo X3: acuidade Y: tempo Assim, o modelo de regressão linear múltiplo será dado por iiiii XXXY εββββ ++++= 3,322110 Observe que, agora dispomos de variáveis quantitativas e qualitativas no modelo. Uma ferramenta útil no processo de escolha preliminar das possíveis variáveis explicativas que deverão entrar no modelo é a matriz de correlação entre as variáveis quantitativas. Para nosso exemplo, temos a seguinte matriz de correlação: regress tempo idade sexo acuidade Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 3, 16) = 31.39 Model | 1173.60282 3 391.200941 Prob > F = 0.0000 Residual | 199.397178 16 12.4623236 R-squared = 0.8548 -------------+------------------------------ Adj R-squared = 0.8275 Total | 1373 19 72.2631579 Root MSE = 3.5302 ------------------------------------------------------------------------------ tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- idade | .679224 .1229709 5.52 0.000 .4185374 .9399106 sexo | -2.791534 1.675998 -1.67 0.115 -6.344491 .7614219 acuidade | -.4014109 .0937644 -4.28 0.001 -.6001826 -.2026393 _cons | 125.4305 9.626618 13.03 0.000 105.023 145.838 ------------------------------------------------------------------------------ pwcorr tempo idade acuidade, sig | tempo idade acuidade -------------+--------------------------- tempo | 1.0000 | | idade | 0.7681 1.0000 | 0.0001 | acuidade | -0.7553 -0.3990 1.0000 | 0.0001 0.0814 | Ajustando o modelo de regressão com estas variáveis, temos: 3,21 40,079,268,043,125 iiii XXXY −−+=Reta ajustada: regress tempo idade sexo acuidade predict yest label var yest “valores preditos tempo“ list yest Também podem ser calculados os valores preditos: Avaliação do Modelo � Algumas avaliações devem ser realizadas para se ter alguma idéia da eficácia e adequação do modelo. � Dentre as técnicas utilizadas para avaliar a eficácia do modelo, o coeficiente de correlação seria uma primeira possibilidade. � Outra medida de adequação é o coeficiente de determinação do modelo. � A determinação do “melhor” modelo, ou do modelo que melhor se ajusta aos dados, está relacionada com a estimativa dos parâmetros que tornem os resíduos tão próximos de zero quanto possível. � Deve-se então, testar a significância estatística dos parâmetros do modelo. Avaliando a significância do parâmetro )( k k scalt β β = Hipóteses: 0: 0:0 ≠ = ka k H H β β Estatística de teste: Critério do teste: Se |tcal| ≤ t(1-α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a mesma. Nota: Quando não dispomos da tabela t-student, podemos utilizar o p-valor, fornecido por vários programas estatísticos. Se p-valor menor que o nível de significância, rejeitamos H0. regress tempo idade sexo acuidade Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 3, 16) = 31.39 Model | 1173.60282 3 391.200941 Prob > F = 0.0000 Residual | 199.397178 16 12.4623236 R-squared = 0.8548 -------------+------------------------------ Adj R-squared = 0.8275 Total | 1373 19 72.2631579 Root MSE = 3.5302 ------------------------------------------------------------------------------ tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- idade | .679224 .1229709 5.52 0.000 .4185374 .9399106 sexo | -2.791534 1.675998 -1.67 0.115 -6.344491 .7614219 acuidade | -.4014109 .0937644 -4.28 0.001 -.6001826 -.2026393 _cons | 125.4305 9.626618 13.03 0.000 105.023 145.838 ------------------------------------------------------------------------------ Para determinarmos quais parâmetros são estatisticamente significantes, basta observar o p-valor fornecido na tabela ANOVA. 3,21 40,079,268,043,125 iiii XXXY −−+= Considere o modelo de regressão múltipla ajustado anteriormente: Apenas a variável sexo não é estatisticamente significante, considerando um nível de significância de 5%. Coeficiente de Determinação � Ao se analisar a reta de regressão observamos que os pontos (xi, yi) estão distribuídos acima e abaixo da mesma. � O coeficiente de determinação deve ser interpretado como a proporção de variação total da variável dependente que é explicada pela variação da variável independente X. � O coeficiente de determinação, no caso univariado, é igual ao quadrado do coeficiente de correlação. � Observe que o coeficiente de determinação é sempre positivo, enquanto que o coeficiente de correlação pode admitir valores negativos e positivos. ( ) ( ) ( ) SQT SQE YY YYYY r n i i n i i n i i = − −−− = ∑ ∑∑ = == 1 2 1 2 1 2 2 ˆ( ) ( ) ( ) SQT SQE YY YYYY r n i i n i i n i i = − −−− = ∑ ∑∑ = == 1 2 1 2 1 2 2 ˆ Coeficiente de determinação Coeficiente de Determinação no STATA � No exemplo 1, temos regress tempo idade Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 25.90 Model | 810 1 810 Prob > F = 0.0001 Residual | 563 18 31.2777778 R-squared = 0.5899 -------------+------------------------------ Adj R-squared = 0.5672 Total | 1373 19 72.2631579 Root MSE = 5.5927 ------------------------------------------------------------------------------ tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- idade | .9 .1768552 5.09 0.000 .5284409 1.271559 _cons | 80.5 5.451045 14.77 0.000 69.04778 91.95222 ------------------------------------------------------------------------------ R2 x 100 = 59% ( porcentagem de variância explicada pelo modelo). Coeficiente de Determinação no STATA � No exemplo 2, temos regress tempo idade sexo acuidade Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 3, 16) = 31.39Model | 1173.60282 3 391.200941 Prob > F = 0.0000 Residual | 199.397178 16 12.4623236 R-squared = 0.8548 -------------+------------------------------ Adj R-squared = 0.8275 Total | 1373 19 72.2631579 Root MSE = 3.5302 ------------------------------------------------------------------------------ tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- idade | .679224 .1229709 5.52 0.000 .4185374 .9399106 sexo | -2.791534 1.675998 -1.67 0.115 -6.344491 .7614219 acuidade | -.4014109 .0937644 -4.28 0.001 -.6001826 -.2026393 _cons | 125.4305 9.626618 13.03 0.000 105.023 145.838 ------------------------------------------------------------------------------
Compartilhar