Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA FACULTAD DE ECONOMÍA Y PLANIFICACIÓN DEPARTAMENTO DE ESTADÍSTICA E INFORMÁTICA CURSO: MÉTODOS ESTADÍSTICOS PARA LA INVESTIGACIÓN TAREA 4: Regresión simple-correlación y regresión múltiple Profesora: Ing. Denise Rosalyn Chalan Llajaruna Integrantes: - Custodio Jaimes, Rosa María 20181002 - Omonte Vargas, Jhon Antony 20190180 - Rojas Espinoza, José Miguel 20181022 - Ruiz Anchelia, Fernanda Elizabeth 20190188 - Ruiz Rodriguez, Jesus Omar 20190137 Grupo: 7 Ciclo: 2021-I La Molina, 2021 1. Un productor de fresas está interesado en realizar un estudio con la finalidad de relacionar el área de las parcelas ( ) y la producción de las fresas (Kg). Los datos de las𝑚2 mediciones se presentan a continuación: X: Área ( )𝑚2 20. 5 18. 2 19. 5 14 18. 7 15. 4 17. 6 16. 1 12 16 15 17 Y: Producción (Kg) 37. 2 38 39 29. 4 36. 9 30. 3 35. 4 34. 2 28. 2 33. 6 29. 1 34. 5 a. Determine el tipo de correlación que existe entre las variables en estudio. Comente el resultado. ● Cálculos previos 𝑖=1 12 ∑ 𝑥𝑖𝑦𝑖 = 6855. 6 𝑖=1 12 ∑ 𝑥𝑖 = 200 1=1 12 ∑ 𝑦𝑖 = 405. 8 𝑖=1 12 ∑ 𝑥2𝑖 = 3397. 6 𝑖=1 12 ∑ 𝑦2𝑖 = 13877 𝑆𝑃𝑋𝑌 = 𝑖=1 12 ∑ 𝑥𝑖𝑦𝑖 − ( 𝑖=1 12 ∑ 𝑥𝑖)( 1=1 12 ∑ 𝑦𝑖) 𝑛 = 6855. 6 − (200)(405.8) 12 = 92. 277 𝑆𝐶𝑋 = 𝑖=1 12 ∑ 𝑥2𝑖 − ( 𝑖=1 12 ∑ 𝑥𝑖)2 𝑛 = 3397. 6 − (200)2 12 = 64. 227 𝑆𝐶𝑌 = 𝑖=1 12 ∑ 𝑦2𝑖 − ( 𝑖=1 12 ∑ 𝑦𝑖)2 𝑛 = 13877 − (405.8)2 12 = 154. 16 𝑟 = 𝑆𝑃𝑋𝑌 𝑆𝐶𝑋*𝑆𝐶𝑌 = 92.277 64.277*154.16 = 0. 9274 ● Existe una muy alta correlación positiva entre el área de las parcelas y la producción de fresas, a mayor tamaño del espacio cultivado, mayor nivel de producción. b. Con un nivel de significancia del 5%, ¿existe correlación entre el área de la parcela y la producción de fresas? ● Prueba de Hipótesis P1) Planteamiento de Hipótesis H0: .ρ = 0 (𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑦 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠 H1: .ρ ≠ 0 (𝐸𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑦 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠 P2) Nivel de significación: α = 0. 05 P3) Estadístico de prueba 𝑇 = 𝑟 (1−𝑟2)/(𝑛−2) = 0.9274 (1−0.92742)/(12−2) = 7. 8381 P4) Criterio de decisión y conclusión 𝑡 (α/2, 𝑛−2) = 𝑡 (0.025, 10) = − 2. 228 𝑡 (1−α/2, 𝑛−2) = 𝑡 (0.975, 10) = 2. 228 Como T > → H0 se rechaza.𝑡 (1−α/2, 𝑛−2) P5) Conclusión A un nivel de significancia de 5% se rechaza H0.luego se puede afirmar que existe correlación entre el área de parcelas y la producción de fresas. c. Estime la línea de regresión lineal simple e interprete los coeficientes. modelo de regresión lineal: Ŷ𝑖 = 𝑏 𝑂 + 𝑏 1 𝑋 𝑖 donde b1= y bo= Ȳ- ẋ𝑆𝑃𝑋𝑌𝑆𝐶𝑋 𝑏1 . b1= 𝑆𝑃𝑋𝑌𝑆𝐶𝑋 = 92.277 64.277 = 1. 4356 = Ȳ- ẋ =. 𝑏 𝑂 𝑏 1 33. 8167 − 1. 4356 * 16. 67 = 9. 545 entonces: Ŷ𝑖 : 9. 545 + 1. 4356𝑋 d. Efectué el análisis de varianza y la prueba correspondiente. 𝑆𝐶(𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛) =𝑏1 * 𝑆𝑃𝑋𝑌 = 1. 4356 * 92. 277 = 132. 47 = =𝑆𝐶(𝑡𝑜𝑡𝑎𝑙) 𝑆𝐶𝑌 154. 16 Fuentes de variación GL SC CM Fc Regresión 1 132.47 132.47 61.07 Error 10 21.69 2.169 Total 11 154.16 P1) Prueba de Hipótesis 𝐻𝑂 = β1 = 0 (𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑙𝑖𝑛𝑒𝑎𝑙 𝑑𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠) 𝐻1 = β1 ≠ 0 (𝐸𝑥𝑖𝑠𝑡𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑙𝑖𝑛𝑒𝑎𝑙 𝑑𝑒 𝑒𝑙 á𝑟𝑒𝑎 𝑑𝑒 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑙𝑎 𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑓𝑟𝑒𝑠𝑎𝑠) P2) Nivel de significación: α = 0. 05 P3) Estadístico de prueba 𝐹𝑐 = 𝐶𝑀(𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛)𝐶𝑀(𝐸𝑟𝑟𝑜𝑟) = 61. 07 P4) Criterio de decisión 𝐹 (1−α, 𝐺𝐿𝑅𝑒𝑔,𝐺𝐿𝐸𝑟𝑟𝑜𝑟) = 𝐹 (0.95, 1;10) = 4. 965 Cómo Fc > ; se rechaza H0𝐹 (0.95, 1;10) P5) Conclusión A un nivel de significancia de 5% se rechaza H0.luego se puede afirmar que la producción de fresas depende linealmente del área de las parcelas . 2. El gerente de una empresa dedicada a la producción de incineradores de desperdicios municipales está interesado en mejorar el diseño de estos. Para la realización de un estudio contrató a un ingeniero ambiental. El ingeniero ambiental le comentó al gerente que requiere información acerca del contenido energético de los desperdicios (en Kcal/Kg) para evaluarlo en función del porcentaje de plástico (X1), porcentaje de papel (X2), porcentaje de orgánicos (X3) y porcentaje de humedad (X4), todos calculados en base al peso de los desperdicios. Para el estudio se tomó muestra de treinta depósitos de desperdicios. Algunos resultados se muestran a continuación: Análisis de regresión: Y vs. X1, X2, X3, X4 Para el desarrollo de las siguientes preguntas considere el modelo usando todas las variables explicativas y asuma el cumplimiento de supuestos necesarios. a. Complete el cuadro ANVA: Fuente GL SC CM Fcal Regresión 4 500030 125007.5 16.457 Error 25 189900 7596 Total 29 689930 b. Pruebe si al menos una de las variables influye linealmente sobre el contenido energético de los desperdicios. Use un nivel de significancia del 1%. A) Prueba Global P1) Prueba de hipótesis H0: β1 = β2 = β3 = β4 = 0 H1: Existe al menos un βi diferente de 0. P2) Nivel de significación: α = 0.01 P3) Prueba Estadística Fc = 16.457 P4) Criterio de decisión F crit = 4.177420235 Cómo Fc > Fcrít, se rechaza Ho. P5) Conclusión A un nivel de 1% de significancia, existe evidencia estadística para rechazar Ho. Por lo tanto, se puede afirmar que al menos una de las variables independientes influyen linealmente sobre el contenido energético de los desperdicios. B) Prueba de efectos adicionales P1) Prueba de hipótesis H0: β1 = 0 H0: β2 = 0 H0: β3 = 0 H0: β4 = 0 H1: β1 ≠ 0 H1: β2 ≠ 0 H1: β3 ≠ 0 H1: β4 ≠ 0 P2) Nivel de significación: α = 0.01 P3) Prueba Estadística Dados los valores en la tabla de coeficientes: tc_X1 3.93 tc_X2 1.55 tc_X3 1.39 tc_X4 -5.69 P4) Criterio de decisión Gráfica de 2 colas (distribución T) tcrit_1 -2.787435814 tcrit_2 2.787435814 P5) Conclusión ● Para X1 A un nivel de significancia del 1%, se rechaza H0. Por lo tanto, la variable X1, si influye en el modelo de regresión. ● Para X2 A un nivel de significancia del 1%, no se rechaza H0. Por lo tanto, la variable X2, no influye en el modelo de regresión. ● Para X3 A un nivel de significancia del 1%, no se rechaza H0. Por lo tanto, la variable X3, no influye en el modelo de regresión. ● Para X4 A un nivel de significancia del 1%, se rechaza H0. Por lo tanto, la variable X4, si influye en el modelo de regresión. c. Escriba la línea de regresión e interprete sus coeficientes de regresión. La ecuación de regresión lineal múltiple estimada es: Y = 1470 + 30.97(X1) + 9.94(X2) + 7.42(X3) - 26.57(X4) Interpretación de los coeficientes de regresión: ● b1 30.97, Cuando el porcentaje de plástico en los desperdicios se incremente en 1%, el contenido energético de los desperdicios aumentará en 30.97% manteniendo constante el porcentaje de papel, el porcentaje de orgánico y el porcentaje de humedad en los desperdicios. ● b2 9.94, Cuando el porcentaje de papel en los desperdicios se incremente en 1%, el contenido energético de los desperdicios aumentará en 9.94% manteniendo constante el porcentaje de plástico, el porcentaje de orgánico y el porcentaje de humedad en los desperdicios ● b3 7.42, Cuando el porcentaje de orgánicos en los desperdicios se incremente en 1%, el contenido energético de los desperdicios aumentará en 7.42% manteniendo constante el porcentaje de plástico, el porcentaje de papel y el porcentaje de humedad en los desperdicios. ● b4 -26.57, Cuando el porcentaje de humedad en los desperdicios se incremente en 1%, el contenido energético de los desperdicios disminuirá en 26.57% manteniendo constante el porcentaje de plástico, el porcentaje de papel y el porcentaje de orgánico en los desperdicios. d. Calcule e interprete (1- )100%.𝑟2 Coeficiente de determinaciónmúltiple = 0.7248 (1- )*100%= 27.52%𝑟2 𝑟2 Fuente GL SC Regresión 4 500030 Error 25 189900 Total 29 689930 El 27.52% se debe al error propio del muestreo y a otras variables que no han sido consideradas en el modelo.
Compartir