Logo Studenta

TAREA 4 Regresión simple-correlación y regresión múltiple

¡Estudia con miles de materiales!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
FACULTAD DE ECONOMÍA Y PLANIFICACIÓN
DEPARTAMENTO DE ESTADÍSTICA E INFORMÁTICA
CURSO: MÉTODOS ESTADÍSTICOS PARA LA INVESTIGACIÓN
TAREA 4: Regresión simple-correlación y regresión múltiple
Profesora: Ing. Denise Rosalyn Chalan Llajaruna
Integrantes:
- Custodio Jaimes, Rosa María 20181002
- Omonte Vargas, Jhon Antony 20190180
- Rojas Espinoza, José Miguel 20181022
- Ruiz Anchelia, Fernanda Elizabeth 20190188
- Ruiz Rodriguez, Jesus Omar 20190137
Grupo: 7
Ciclo: 2021-I
La Molina, 2021
1. Un productor de fresas está interesado en realizar un estudio con la finalidad de
relacionar el área de las parcelas ( ) y la producción de las fresas (Kg). Los datos de las𝑚2
mediciones se presentan a continuación:
X: Área ( )𝑚2 20.
5
18.
2
19.
5
14 18.
7
15.
4
17.
6
16.
1
12 16 15 17
Y: Producción
(Kg)
37.
2
38 39 29.
4
36.
9
30.
3
35.
4
34.
2
28.
2
33.
6
29.
1
34.
5
a. Determine el tipo de correlación que existe entre las variables en estudio. Comente el
resultado.
● Cálculos previos
𝑖=1
12
∑ 𝑥𝑖𝑦𝑖 = 6855. 6
𝑖=1
12
∑ 𝑥𝑖 = 200
1=1
12
∑ 𝑦𝑖 = 405. 8
𝑖=1
12
∑ 𝑥2𝑖 = 3397. 6
𝑖=1
12
∑ 𝑦2𝑖 = 13877
𝑆𝑃𝑋𝑌 = 
𝑖=1
12
∑ 𝑥𝑖𝑦𝑖 −
(
𝑖=1
12
∑ 𝑥𝑖)(
1=1
12
∑ 𝑦𝑖)
𝑛 = 6855. 6 −
(200)(405.8)
12 = 92. 277
𝑆𝐶𝑋 = 
𝑖=1
12
∑ 𝑥2𝑖 −
(
𝑖=1
12
∑ 𝑥𝑖)2
𝑛 = 3397. 6 −
(200)2
12 = 64. 227
𝑆𝐶𝑌 = 
𝑖=1
12
∑ 𝑦2𝑖 −
(
𝑖=1
12
∑ 𝑦𝑖)2
𝑛 = 13877 −
(405.8)2
12 = 154. 16
𝑟 = 𝑆𝑃𝑋𝑌
𝑆𝐶𝑋*𝑆𝐶𝑌
= 92.277
64.277*154.16
= 0. 9274
● Existe una muy alta correlación positiva entre el área de las parcelas y la producción
de fresas, a mayor tamaño del espacio cultivado, mayor nivel de producción.
b. Con un nivel de significancia del 5%, ¿existe correlación entre el área de la parcela y la
producción de fresas?
● Prueba de Hipótesis
P1) Planteamiento de Hipótesis
H0: .ρ = 0 (𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑦 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠
H1: .ρ ≠ 0 (𝐸𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑦 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠
P2) Nivel de significación: α = 0. 05
P3) Estadístico de prueba
𝑇 = 𝑟
(1−𝑟2)/(𝑛−2)
= 0.9274
(1−0.92742)/(12−2)
= 7. 8381
P4) Criterio de decisión y conclusión
𝑡
(α/2, 𝑛−2)
= 𝑡
(0.025, 10)
= − 2. 228
𝑡
(1−α/2, 𝑛−2)
= 𝑡
(0.975, 10)
= 2. 228
Como T > → H0 se rechaza.𝑡
(1−α/2, 𝑛−2)
P5) Conclusión
A un nivel de significancia de 5% se rechaza H0.luego se puede afirmar que existe
correlación entre el área de parcelas y la producción de fresas.
c. Estime la línea de regresión lineal simple e interprete los coeficientes.
modelo de regresión lineal: Ŷ𝑖 = 𝑏
𝑂
+ 𝑏
1
𝑋
𝑖
donde b1= y bo= Ȳ- ẋ𝑆𝑃𝑋𝑌𝑆𝐶𝑋 𝑏1
. b1= 𝑆𝑃𝑋𝑌𝑆𝐶𝑋 =
92.277
64.277 = 1. 4356
= Ȳ- ẋ =. 𝑏
𝑂
𝑏
1
33. 8167 − 1. 4356 * 16. 67 = 9. 545
entonces:
Ŷ𝑖 : 9. 545 + 1. 4356𝑋 
d. Efectué el análisis de varianza y la prueba correspondiente.
𝑆𝐶(𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛) =𝑏1 * 𝑆𝑃𝑋𝑌 = 1. 4356 * 92. 277 = 132. 47 
= =𝑆𝐶(𝑡𝑜𝑡𝑎𝑙) 𝑆𝐶𝑌 154. 16
Fuentes de
variación
GL SC CM Fc
Regresión 1 132.47 132.47 61.07
Error 10 21.69 2.169
Total 11 154.16
P1) Prueba de Hipótesis
𝐻𝑂 = β1 = 0 (𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑙𝑖𝑛𝑒𝑎𝑙 𝑑𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠)
𝐻1 = β1 ≠ 0 (𝐸𝑥𝑖𝑠𝑡𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑙𝑖𝑛𝑒𝑎𝑙 𝑑𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠) 
P2) Nivel de significación: α = 0. 05
P3) Estadístico de prueba
𝐹𝑐 = 𝐶𝑀(𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛)𝐶𝑀(𝐸𝑟𝑟𝑜𝑟) = 61. 07
P4) Criterio de decisión
𝐹
(1−α, 𝐺𝐿𝑅𝑒𝑔,𝐺𝐿𝐸𝑟𝑟𝑜𝑟)
= 𝐹
(0.95, 1;10)
= 4. 965
Cómo Fc > ; se rechaza H0𝐹
(0.95, 1;10)
P5) Conclusión
A un nivel de significancia de 5% se rechaza H0.luego se puede afirmar que la producción
de fresas depende linealmente del área de las parcelas .
2. El gerente de una empresa dedicada a la producción de incineradores de desperdicios
municipales está interesado en mejorar el diseño de estos. Para la realización de un estudio
contrató a un ingeniero ambiental. El ingeniero ambiental le comentó al gerente que
requiere información acerca del contenido energético de los desperdicios (en Kcal/Kg) para
evaluarlo en función del porcentaje de plástico (X1), porcentaje de papel (X2), porcentaje de
orgánicos (X3) y porcentaje de humedad (X4), todos calculados en base al peso de los
desperdicios. Para el estudio se tomó muestra de treinta depósitos de desperdicios. Algunos
resultados se muestran a continuación:
Análisis de regresión: Y vs. X1, X2, X3, X4
Para el desarrollo de las siguientes preguntas considere el modelo usando todas las
variables explicativas y asuma el cumplimiento de supuestos necesarios.
a. Complete el cuadro ANVA:
Fuente GL SC CM Fcal
Regresión 4 500030 125007.5 16.457
Error 25 189900 7596
Total 29 689930
b. Pruebe si al menos una de las variables influye linealmente sobre el contenido energético
de los desperdicios. Use un nivel de significancia del 1%.
A) Prueba Global
P1) Prueba de hipótesis
H0: β1 = β2 = β3 = β4 = 0
H1: Existe al menos un βi diferente de 0.
P2) Nivel de significación: α = 0.01
P3) Prueba Estadística
Fc = 16.457
P4) Criterio de decisión
F crit = 4.177420235
Cómo Fc > Fcrít, se rechaza Ho.
P5) Conclusión
A un nivel de 1% de significancia, existe evidencia estadística para rechazar Ho. Por lo
tanto, se puede afirmar que al menos una de las variables independientes influyen
linealmente sobre el contenido energético de los desperdicios.
B) Prueba de efectos adicionales
P1) Prueba de hipótesis
H0: β1 = 0 H0: β2 = 0 H0: β3 = 0 H0: β4 = 0
H1: β1 ≠ 0 H1: β2 ≠ 0 H1: β3 ≠ 0 H1: β4 ≠ 0
P2) Nivel de significación: α = 0.01
P3) Prueba Estadística
Dados los valores en la tabla de coeficientes:
tc_X1 3.93
tc_X2 1.55
tc_X3 1.39
tc_X4 -5.69
P4) Criterio de decisión
Gráfica de 2 colas (distribución T)
tcrit_1 -2.787435814
tcrit_2 2.787435814
P5) Conclusión
● Para X1
A un nivel de significancia del 1%, se rechaza H0. Por lo tanto, la variable X1, si
influye en el modelo de regresión.
● Para X2
A un nivel de significancia del 1%, no se rechaza H0. Por lo tanto, la variable X2, no
influye en el modelo de regresión.
● Para X3
A un nivel de significancia del 1%, no se rechaza H0. Por lo tanto, la variable X3, no
influye en el modelo de regresión.
● Para X4
A un nivel de significancia del 1%, se rechaza H0. Por lo tanto, la variable X4, si
influye en el modelo de regresión.
c. Escriba la línea de regresión e interprete sus coeficientes de regresión.
La ecuación de regresión lineal múltiple estimada es:
Y = 1470 + 30.97(X1) + 9.94(X2) + 7.42(X3) - 26.57(X4)
Interpretación de los coeficientes de regresión:
● b1
30.97, Cuando el porcentaje de plástico en los desperdicios se incremente en 1%, el
contenido energético de los desperdicios aumentará en 30.97% manteniendo
constante el porcentaje de papel, el porcentaje de orgánico y el porcentaje de
humedad en los desperdicios.
● b2
9.94, Cuando el porcentaje de papel en los desperdicios se incremente en 1%, el
contenido energético de los desperdicios aumentará en 9.94% manteniendo
constante el porcentaje de plástico, el porcentaje de orgánico y el porcentaje de
humedad en los desperdicios
● b3
7.42, Cuando el porcentaje de orgánicos en los desperdicios se incremente en 1%,
el contenido energético de los desperdicios aumentará en 7.42% manteniendo
constante el porcentaje de plástico, el porcentaje de papel y el porcentaje de
humedad en los desperdicios.
● b4
-26.57, Cuando el porcentaje de humedad en los desperdicios se incremente en 1%,
el contenido energético de los desperdicios disminuirá en 26.57% manteniendo
constante el porcentaje de plástico, el porcentaje de papel y el porcentaje de
orgánico en los desperdicios.
d. Calcule e interprete (1- )100%.𝑟2
Coeficiente de determinaciónmúltiple
= 0.7248 (1- )*100%= 27.52%𝑟2 𝑟2
Fuente GL SC
Regresión 4 500030
Error 25 189900
Total 29 689930
El 27.52% se debe al error propio del muestreo y a otras variables que no han sido
consideradas en el modelo.

Continuar navegando