Text Material Preview
ANALISIS DE REGRESION LINEAL SIMPLE (2 variables cuantitativas) Existencia de relación Sentido de la relación Fuerza de la relación Modelo de la relación Gráfico de dispersión Coeficiente de correlación Gráfico de dispersión Gráfico de coordenadas cartesianas Ordenadas: variable dependiente Abscisas: variable independiente Coeficiente de correlacion lineal r de Pearson Existencia relación lineal Sentido y fuerza de la relación -1 ≤ r ≤ 1 Ejemplo: Y= esperanza de vida. x=alfabetización País Esp.vida alfabetización Y X Acerbaján 67 98 67-64,9=2,1 98-78,3=19,7 -2,1*19,7 =-41,4 4,4 388 Afganistán 45 29 Alemania 73 99 Arabia Saudí 66 62 Argentina 68 95 Armenia 68 98 Australia 74 100 …. … Rusia 64 99 Senegal 55 38 Singapur 73 88 Siria 65 64 Somalia 54 24 Media: 64,9 78,3 r= 0,809 MODELO DE REGRESIÓN LINEAL (MRL) Buscamos una recta que sintetice la relación estimación de la variable dependiente (VD) X= variable independiente (VI) α= ordenada al origen en la POBLACION. β= pendiente de la recta en la POBLACION. Estimamos a partir de una muestra: a= ordenada al origen en la MUESTRA. b= pendiente de la recta en la MUESTRA. Para un individuo i, la estimación será: RESIDUO del MRL No es un modelo determinístico. Es un modelo probabilístico o estocástico: existe una parte de la variación de Y que no logramos captar a partir de la variación de X. e = y – = y - a – bx RESIDUO El término de error/residuo e incluye cuatro aspectos que no podemos cuantificar: Los comportamientos puramente aleatorios. El efecto de otras variables independientes no incluidos en el análisis y que deberían ser incluidas. Las imperfecciones en la medición de las variables. Los errores derivados de la forma funcional elegida. Cuál es la mejor recta? Buscamos la recta que minimiza la suma de cuadrados de los residuos Cómo calculamos a y b? Método de los mínimos cuadrados Pasa por el centro de la nube de puntos (punto definido por la media de las dos variables) EJEMPLO SPSS: espvida y alfab Bondad del ajuste 1. Coeficiente de correlación lineal r de Pearson Bondad del ajuste 2. Coeficiente de Determinacion (es el cuadrado del r de Pearson) ES LA PROPORCIÓN DE LA VARIACIÓN DE LA VARIABLE Y EXPLICADA POR LA VARIABLE X (EL MODELO DE REGRESIÓN) Coeficiente de Determinación Es un estadístico cuyo valor depende de la muestra: No se puede comparar dos coeficientes de dos muestras distintas y decir que uno explica mejor que el otro. Sí es posible comparar modelos jerárquicos obtenidos con la misma muestra. (dos modelos son jerárquicos si el más complejo incluye todas las variables independientes del más sencillo más al menos otra más.) Supuestos del modelo de regresión lineal Relación lineal entre las variables Supuestos sobre el error ei Distribución Normal, con media =0 y varianza constante (es la misma para todos los valores de x= homocedasticidad) No exista autocorrelación (los casos sean independientes entre ellos) Supuesto de distribucion normal con media 0 : se verifica mediante prueba de bondad de ajuste de Kolmogorov o SH-W y Q-Q plot Si los valores de residuos se acercan a la línea hay normalidad Supuesto de Homogeneidad de varianzas: mediante gráfico de residuos Vs Predichos Si no se observan valores muy mayores (o menores) de residuos en alguna zona del grafico se interpreta que las varianzas de los residuos son homogéneas Ejemplos de falta de homogeneidad en los residuos (errores) Para verificar supuestos, en la solapa gráficos pedimos SRESID: residuo studentizado ZPRED: es la Y estimada, estandarizada Cuando trabajamos con una muestra tenemos que hacer inferencia estadística para generalizar los resultados a la población de origen El estadístico b está aproximando el parámetro β El estadístico r está aproximando el parámetro ρ Tenemos que probar que los coeficientes B sean distintos de cero. CONTRASTE DE LA B Ho: los coeficientes son igual a 0 (B=0. no existe asociación) Hi: los coeficientes son mayor o menor a 0 (B>0; B<0). Se aplica una prueba t y se decide a partir de la significación (o nivel de confianza, que es su complemento) 2. Probamos que el parámetro ρ(RHO) sea distinto de 0. Ho: ρ =0. Hi: ρ>0 ; ρ <0 Se aplica una prueba t y se decide a partir de la significación Cuando trabajamos con una muestra: Ejemplo SPSS Formas funcionales para mejorar el ajuste (reducir e) Transformamos las variables en su logaritmo (en gral cuando una de las variables refiere a ingresos) z=log(y) o w=log(x) Incorporamos funciones polinómicas + ++ Trabajo Práctico 1 Existen distintas hipótesis respecto a los motivos de las diferencias en los niveles de fecundidad en las distintas poblaciones. Algunos autores sostienen que el nivel de educación de la mujer es un factor determinante. Otros autores afirman que existen otras variables que intervienen en este problema, tal es el caso del nivel de desarrollo del país, que vendrá determinado por el porcentaje de urbanización, pbi, tasa de mortalidad, mortalidad infantil, esperanza de vida, etc. Para analizar este problema, usamos la base de datos de Mundo95.sav. Analizamos la relación entre la variable Fecundidad y diferentes variables (alfabetización, mortalidad infantil, PBI, esperanza de vida…). Realizar: Gráficos de dispersión Coeficiente de correlación con distintas variables. Modelo de regresión lineal simple. Coeficiente de determinación. Comentar los resultados. 1. En base a los datos de la Encuesta Permanente de Hogares, crear un modelo de regresión lineal para explicar el comportamiento de los ingresos en la ciudad de Córdoba. Trabajo Práctico 2