Logo Passei Direto
Material
Study with thousands of resources!

Text Material Preview

ANALISIS DE 
REGRESION LINEAL SIMPLE
(2 variables cuantitativas)
Existencia de relación
Sentido de la relación
Fuerza de la relación
Modelo de la relación
Gráfico de dispersión
Coeficiente de correlación
Gráfico de dispersión
Gráfico de coordenadas cartesianas
Ordenadas: variable dependiente
Abscisas: variable independiente
Coeficiente de correlacion lineal r de Pearson
Existencia relación lineal
Sentido y fuerza de la relación
-1 ≤ r ≤ 1
Ejemplo:
Y= esperanza de vida. 
x=alfabetización
	País	Esp.vida	alfabetización	 	 	 	 	 
	 	Y	X					
	Acerbaján	67	98	67-64,9=2,1	98-78,3=19,7	-2,1*19,7
=-41,4	4,4	388
	Afganistán	45	29	 	 	 	 	 
	Alemania	73	99	 	 	 	 	 
	Arabia Saudí	66	62	 	 	 	 	 
	Argentina	68	95	 	 	 	 	 
	Armenia	68	98	 	 	 	 	 
	Australia	74	100	 	 	 	 	 
	….	 	 	 	 	 	 	 
	…			 	 	 	 	 
	Rusia	64	99	 	 	 	 	 
	Senegal	55	38	 	 	 	 	 
	Singapur	73	88	 	 	 	 	 
	Siria	65	64	 	 	 	 	 
	Somalia	54	24	 	 	 	 	 
	Media:	64,9	78,3	 	 			
r= 0,809
MODELO DE REGRESIÓN LINEAL (MRL)
Buscamos una recta que sintetice la relación
		
					estimación de la variable dependiente (VD)
					X= variable independiente (VI)
					α= ordenada al origen en la POBLACION.
					β= pendiente de la recta en la POBLACION. 
					Estimamos a partir de una muestra:
					a= ordenada al origen en la MUESTRA.
					b= pendiente de la recta en la MUESTRA. 
Para un individuo i, la estimación será:
RESIDUO del MRL
No es un modelo determinístico. Es un modelo probabilístico o estocástico: existe una parte de la variación de Y que no logramos captar a partir de la variación de X. 
	
 	
			e = y – = y - a – bx RESIDUO
El término de error/residuo e incluye cuatro aspectos que no podemos cuantificar:
Los comportamientos puramente aleatorios.
El efecto de otras variables independientes no incluidos en el análisis y que deberían ser incluidas.
Las imperfecciones en la medición de las variables.
Los errores derivados de la forma funcional elegida. 
Cuál es la mejor recta? Buscamos la recta que minimiza la suma de cuadrados de los residuos
Cómo calculamos a y b? Método de los mínimos cuadrados
Pasa por el centro de la nube de puntos (punto definido por la media de las dos variables)
EJEMPLO SPSS: espvida y alfab
Bondad del ajuste
1. Coeficiente de correlación lineal r de Pearson
Bondad del ajuste
2. Coeficiente de Determinacion (es el cuadrado del r de Pearson)
ES LA PROPORCIÓN DE LA VARIACIÓN DE LA VARIABLE Y EXPLICADA POR LA VARIABLE X (EL MODELO DE REGRESIÓN)
Coeficiente de Determinación 
Es un estadístico cuyo valor depende de la muestra:	
No se puede comparar dos coeficientes de dos muestras distintas y decir que uno explica mejor que el otro.
Sí es posible comparar modelos jerárquicos obtenidos con la misma muestra. 
(dos modelos son jerárquicos si el más complejo incluye todas las variables independientes del más sencillo más al menos otra más.)
Supuestos del modelo de regresión lineal
Relación lineal entre las variables
Supuestos sobre el error ei
Distribución Normal, con media =0 y varianza constante (es la misma para todos los valores de x= homocedasticidad)
No exista autocorrelación (los casos sean independientes entre ellos)
Supuesto de distribucion normal con media 0 : se verifica mediante prueba de bondad de ajuste de Kolmogorov o SH-W y Q-Q plot
Si los valores de residuos se acercan a la línea hay normalidad
Supuesto de Homogeneidad de varianzas: mediante gráfico de residuos Vs Predichos
Si no se observan valores muy mayores (o menores) de residuos en alguna zona del grafico se interpreta que las varianzas de los residuos son homogéneas
Ejemplos de falta de homogeneidad en los residuos (errores)
Para verificar supuestos, en la solapa gráficos pedimos
SRESID: residuo studentizado
ZPRED: es la Y estimada, estandarizada
Cuando trabajamos con una muestra tenemos que hacer inferencia estadística para generalizar los resultados a la población de origen
El estadístico b está aproximando el parámetro β
El estadístico r está aproximando el parámetro ρ
Tenemos que probar que los coeficientes B sean distintos de cero. 
	
CONTRASTE DE LA B
Ho: los coeficientes son igual a 0 (B=0. no existe asociación)
Hi: los coeficientes son mayor o menor a 0 (B>0; B<0). 
Se aplica una prueba t y se decide a partir de la significación (o nivel de confianza, que es su complemento)
2. Probamos que el parámetro ρ(RHO) sea distinto de 0.
Ho: ρ =0.
Hi: ρ>0 ; ρ <0
Se aplica una prueba t y se decide a partir de la significación
Cuando trabajamos con una muestra:
Ejemplo SPSS
Formas funcionales para mejorar el ajuste (reducir e)
Transformamos las variables en su logaritmo (en gral cuando una de las variables refiere a ingresos)
z=log(y) o w=log(x)
Incorporamos funciones polinómicas
 +
 ++
Trabajo Práctico 1
Existen distintas hipótesis respecto a los motivos de las diferencias en los niveles de fecundidad en las distintas poblaciones. Algunos autores sostienen que el nivel de educación de la mujer es un factor determinante. Otros autores afirman que existen otras variables que intervienen en este problema, tal es el caso del nivel de desarrollo del país, que vendrá determinado por el porcentaje de urbanización, pbi, tasa de mortalidad, mortalidad infantil, esperanza de vida, etc. 
Para analizar este problema, usamos la base de datos de Mundo95.sav. Analizamos la relación entre la variable Fecundidad y diferentes variables (alfabetización, mortalidad infantil, PBI, esperanza de vida…). Realizar:
Gráficos de dispersión
Coeficiente de correlación con distintas variables.
Modelo de regresión lineal simple.
Coeficiente de determinación.
Comentar los resultados. 
1. En base a los datos de la Encuesta Permanente de Hogares, crear un modelo de regresión lineal para explicar el comportamiento de los ingresos en la ciudad de Córdoba. 
Trabajo Práctico 2