Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
EJERCICIOS RESUELTOS DE ANÁLISIS Y DISEÑO DE EXPERIMENTOS INDUSTRIALES Eric Caroca Sepúlveda Iván Cornejo García Daniel Navia López Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales ©Eric Caroca, Iván Cornejo, Daniel Navia Primera Edición Editorial USM Año 2015 ISBN: 978-956-356-010-7 Fotografía y diseño de portada: Daniela Henríquez Esquivel Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 1 ÍNDICE Prólogo…...……………………………………………………………………………………………………………2 CAPÍTULO 1: Descripción de Datos Estadígrafos y elementos gráficos…………..…….3 CAPÍTULO 2: Aleatoriedad y Probabilidad Distribución z ...................................... 20 CAPÍTULO 3: Estimadores Muestrales Distribución t, test de hipótesis e intervalo de confianza de un estadígrafo ........................................................................... 29 CAPÍTULO 4: Comparación de 2 Tratamientos Test de hipótesis e intervalo de confianza ............................................................................................................ 42 CAPÍTULO 5: Comparación de k Tratamientos y Bloqueo Randomizado ANOVA, ANOVA 2 vías ...................................................................................................... 75 CAPÍTULO 6: Probabilidad Conjunta y Estadística Multivariables Covarianza, correlación lineal, probabilidad multivariable, probabilidad bayesiana................ 99 CAPÍTULO 7: Diseño Experimental 2n Algoritmo de Yates ................................. 122 CAPÍTULO 8: Diseño Experimental Superficies de Respuesta ........................... 152 CAPÍTULO 9: Análisis de Regresión Regresión Lineal y no lineal, bondad de ajuste ......................................................................................................................... 176 CAPÍTULO 10: Herramientas de Software TI-89TM, Excel® ................................. 234 Anexo A: Tablas de Distribución ....................................................................... 249 2 PRÓLOGO Este texto nace de la motivación del estudiante de Ingeniería Civil Química, Eric Caroca, reuniendo el material desarrollado por él y los académicos Iván Cornejo y Daniel Navia. Todos pertenecientes al Departamento de Ingeniería Química y Ambiental de la Universidad Técnica Federico Santa María, en el Campus Santiago San Joaquín. El objetivo de este libro es apoyar al estudio del curso de Análisis y Diseño de Experimentos, entregando un completo compendio de ejercicios resueltos que esperamos los complementen con un trabajo metódico de comprensión de los fundamentos teóricos. La publicación de este libro es posible gracias al apoyo financiero de la Editorial USM. Agradecemos el apoyo de la Universidad Técnica Federico Santa María, del Departamento de Ingeniería Química y Ambiental, y de nuestras familias. Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 3 CAPÍTULO 1: Descripción de Datos Estadígrafos Los estadígrafos son instrumentos estadísticos que permiten describir un conjunto de datos. Están los de tendencia central que buscan aquel valor que mejor describe el conjunto y los de dispersión, que cuantifican la distancia entre cada dato y el promedio o media del conjunto de datos. Poblacional Muestral Tendencia Central Media: 𝜇 =∑𝑥𝑖 𝑛 𝑖=1 Promedio: �̅� = ∑𝑥𝑖 𝑛 𝑖=1 Mediana: Valor que divide el conjunto de datos en dos partes iguales al estar ordenados en orden creciente. Dispersión Varianza Poblacional: 𝜎2 = 1 𝑛 ∑(𝜇 − 𝑥𝑖) 2 𝑛 𝑖=1 Desviación estándar poblacional: 𝜎 = √𝜎2 = √ 1 𝑛 ∑(𝜇 − 𝑥𝑖) 2 𝑛 𝑖=1 Varianza Muestral: 𝑠2 = 1 𝑛 − 1 ∑(�̅� − 𝑥𝑖) 2 𝑛 𝑖=1 Desviación estándar muestral: 𝑠 = √𝑠2 = √ 1 𝑛 − 1 ∑(�̅� − 𝑥𝑖) 2 𝑛 𝑖=1 Donde: 𝑥𝑖: dato número 𝑖. 𝑛: número total de datos. Moda: dato que presenta mayor frecuencia absoluta (dato que más se repite). Para este capítulo se explicita la obtención de estos estadígrafos, dado que es el tópico central, sin embargo no se realiza en los siguientes porque es algo básico para el desarrollo del ejercicio. Histograma. Un histograma es una representación gráfica de un conjunto de datos, en donde estos son agrupados en clases representadas por un rectángulo donde su altura representa la correspondiente frecuencia. Elementos de una clase: Rango: corresponde a la distancia entre el valor mínimo y máximo de una clase: Capítulo 1: Descripción de Datos 4 𝑟𝑎𝑛𝑔𝑜 = 𝑚á𝑥 − 𝑚í𝑛|𝑐𝑙𝑎𝑠𝑒𝑖 Etiqueta de clase: es el valor que representa a la clase. Numéricamente es el promedio entre los valores mínimo y máximo de la clase. 𝐸𝑡𝑖𝑞𝑢𝑒𝑡𝑎 𝑑𝑒 𝐶𝑙𝑎𝑠𝑒 = (𝑚á𝑥 +𝑚í𝑛)𝑐𝑙𝑎𝑠𝑒𝑖 2 Tipos de frecuencia: Frecuencia absoluta: número de veces que se presenta un dato de la clase. 𝑓𝑖 =∑𝑥𝑖 𝑛 𝑖=1 Frecuencia relativa: corresponde a la frecuencia absoluta normalizada por el número total de datos: 𝑓𝑟 = 𝑓𝑖 𝑛 Frecuencia acumulada: número de datos desde el mínimo hasta la clase correspondiente. Es equivalente a la suma de todas las frecuencias absolutas hasta la frecuencia correspondiente. 𝑓𝑎𝑐𝑐 =∑𝑓𝑖 𝑛 𝑖=1 Frecuencia acumulada porcentual: Es la frecuencia acumulada normalizada por el número total de datos. La frecuencia acumulada relativa de la última clase siempre es 1. 𝑓𝑎𝑐𝑐,𝑟 = 𝑓𝑎𝑐𝑐 𝑛 Ver ejercicio 1.1. y/o 1.4 para observar la forma gráfica de un histograma Diagrama de caja y bigote (boxplot) Representación gráfica de un conjunto de datos que describe varias características importantes, al mismo tiempo, como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo. Cuartiles. Se obtienen ordenando los datos de menor a mayor y en base a esto se determinan: Mínimo: Primer valor del conjunto de datos (corresponde al dato con menor valor) 1°Cuartil: Dato donde se agrupan el primer 25% de datos. 2°Cuartil: Dato donde se agrupan el 50% de datos. Es equivalente a la mediana. 3°Cuartil: Dato donde se agrupan el 75% de datos. Máximo: último valor del conjunto de datos (es el dato con valor más alto) Ver ejercicio 1.6 y 1.7 para observar la forma gráfica de un boxplot. Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 5 Discriminación de datos anómalos Método de las 2 desviaciones estándar Este método rápido y exploratorio permite detectar datos anómalos (outliers) de manera sencilla, pero poco robusta. Para esto se deben obtener el promedio y desviación estándar del conjunto de datos. Si los datos se distribuyen normalmente, aproximadamente el 95% de estos se encontrarán dentro del intervalo [�̅� − 2𝑠, �̅� + 2𝑠]. Los datos que se encuentran fuera de este intervalo pueden ser considerados outliers. Se tienen que recalcular los estadígrafos para su uso posterior. Gráfico de probabilidad normal El gráfico de probabilidad normal permite determinar la normalidad de un conjunto de datos, es decir, si se asemeja a la curva gaussiana típica de una distribución normal. Esto permite detectar datos anómalos (outliers) de forma más robusta. Construcción: i) Se ordenan los datos de menor a mayor y a cada uno se le asigna un índice 𝑖. ii) Se obtienen los Cuantiles teóricos (𝑄𝑖) según: 𝑄𝑖 = 𝑖 − 0,5 𝑛 iii) Se genera un gráfico 𝑥𝑖 v/s 𝑄𝑖 iv) La figura correspondiente al gráfico se asemeja a una recta. Los datos de los extremos que no estén en la tendencia de la recta son datos anómalos. EJERCICIOS 1.1.- Un termómetro de un reactor continuo que es diseñado para una operación isotérmica a 50[°C]registra las siguientes mediciones en un intervalo de 30 minutos: Tabla 1.1. Mediciones de temperatura en reactor de operación continua T[°C] 56,26 54,46 42,59 53,10 59,03 58,73 50,55 49,77 44,79 50,49 53,82 51,77 51,14 50,14 51,05 a) Calcule el promedio, varianza y desviación estándar del conjunto de datos. ¿El reactor opera a la temperatura de diseño? Comente posibles diferencias. b) Elabore un histograma de frecuencia y frecuencia acumulada. ¿Los datos presentan una distribución de tipo normal? Capítulo 1: Descripción de Datos 6 a) Este ejercicio es sencillo y sólo se pide el cálculo de los estadígrafos respectivos, se debe tener en cuenta que el conjunto de datos es una muestra, por lo que los estadígrafos son de tipo muestral. Promedio: �̅� = 1 15 (49,77 + 53,10 + 51,77 + 56,26 + 44,79 + 59,03 + 51,14+ 54,46 + 50,49 + 58,73 + 50,14 + 42,59 + 53,82 + 50,55 + 51,05) = 51,58[°𝐶] Varianza muestral: 𝑠2 = 1 15 − 1 ∑(𝑥𝑖 − 51,58) 2 15 𝑖=1 = 19,86[°𝐶2] Desviación estándar muestral: 𝑠 = √𝑠2 = √ 1 15 − 1 ∑(𝑥𝑖 − 51,58) 2 15 𝑖=1 = 4,46[°𝐶] La temperatura de diseño del reactor es 50[°C], no obstante los datos no muestran este valor y su promedio no coincide con este valor, por lo que es posible pensar que el reactor no opera a la temperatura de diseño, sin embargo es importante recalcar que este conjunto es una muestra y no representa con certeza absoluta el sistema, se deben realizar análisis estadísticos para inferir con mayor certeza que el reactor opera a la temperatura de diseño (ver Intervalo de confianza). Además desde el punto de vista operacional es imposible que el reactor opere a la temperatura de diseño en todo momento, es de esperar fluctuaciones que ronden en torno al valor del diseño, así es de interés observar que la dispersión de los datos, la desviación estándar, sea pequeña. b) La construcción de un histograma implica la decisión de definir el número de clases y por consiguiente el rango de estas. Si no se escoge un número adecuado de clases el histograma pierde representatividad. Se recomienda raíz del número de datos como un buen valor para partir. Se puede aumentar o disminuir el número de clases, criteriosamente, si eso da una mejor apreciación del panorama general. Número de clases=√𝑛 = √15 = 3,8 ≈ 4. Rango de clase= 𝑚á𝑥𝑖𝑚𝑜−𝑚í𝑛𝑖𝑚𝑜 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 = 59,03−42,59 4 = 4,11 ≈ 4. Sin embargo al tomar rango de 4[°C] se obtienen 5 clases, por lo que se considera un rango de 4,5[°C]. Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 7 Rango 𝑓𝑖 𝑓𝑎𝑐𝑐 [ 42 - 47 [ 2 2 [ 47 - 51 [ 4 6 [ 51 - 56 [ 6 12 [ 56 - 60 [ 3 15 Los histogramas se presentan en la Figura 1.1. Figura 1.1. Histogramas de Frecuencia Absoluta y Frecuencia Absoluta Acumulada. 1.2.- La siguiente tabla de frecuencias muestra las edades de los trabajadores de una sección de una pequeña empresa: Tabla 1.2. Tabla de frecuencia de edad de trabajadores de empresa. Rango de edad frecuencia 18-23 2 24-29 5 30-35 13 36-41 8 Calcule el promedio, la desviación estándar, mediana y moda. En este caso no se cuentan con los valores discretos sino con una tabla que muestra la frecuencia para distintos rangos de edad. Se considera el valor representativo de cada clase, es decir, la marca de clase y se asume que todos los valores de dicha clase corresponden a su marca de clase. De esta forma los estadígrafos se calculan según: 0 1 2 3 4 5 6 7 44,5 49 53,5 58 Fr e cu en ci a A b so lu ta Temperatura [°C] 0 2 4 6 8 10 12 14 16 44,5 49 53,5 58 Fr ec u en ci a A b so lu ta A cu m u la d a Temperatura [°C] Capítulo 1: Descripción de Datos 8 �̅� = ∑ 𝑓𝑖 ∙ 𝑀𝐶𝑖 𝑛 𝑛 𝑖=1 𝑠 = √∑ 𝑓𝑖 ∙ (𝑀𝐶𝑖 − �̅�) 2 𝑛 − 1 𝑛 𝑖=1 En la Tabla siguiente se muestra el desarrollo para la obtención de estos estadígrafos. Rango de edad 𝑓𝑖 𝑀𝐶𝑖 𝑓𝑖 ∙ 𝑀𝐶𝑖 𝑀𝐶𝑖 − �̅� (𝑀𝐶𝑖 − �̅�) 2 𝑓𝑖 ∙ (𝑀𝐶𝑖 − �̅�) 2 18-23 2 20,5 41 -11,8 138,9 277,8 24-29 5 26,5 132,5 -5,8 33,5 167,4 30-35 13 32,5 422,5 0,2 0,0 0,6 36-41 8 38,5 308 6,2 38,6 308,9 𝑛 =∑𝑓𝑖 = 28 ∑𝑓𝑖 ∙ 𝑀𝐶𝑖 𝑛 𝑖=1 = 904 ∑𝑓𝑖 ∙ (𝑀𝐶𝑖 − �̅�) 2 𝑛 𝑖=1 = 754,7 �̅� = 904 28 = 32,3[𝑎ñ𝑜] 𝑠 = √ 754,7 28 − 1 = 5,3[𝑎ñ𝑜] La Mediana es el dato que divide el conjunto de datos en dos partes iguales estando estos ordenados de menor a mayor, se obtiene dividiendo el número de datos por 2: 28 2 = 14, el dato número 14, equivalente al dato que tiene frecuencia acumulada 14, se encuentra en la tercera clase, por lo tanto la mediana es su marca de clase, 32,5 [año]. La Moda es el dato que tiene mayor frecuencia, o sea 32,5 [año]. 1.3.- En un municipio se desea conocer la aprobación de los ciudadanos a la gestión del nuevo alcalde durante su primer año de administración. Para ello se diseña una encuesta con una serie de preguntas que se traducen en un porcentaje de aprobación. La comuna es dividida en 3 sectores enviando un encuestador a cada uno, pidiéndoles que tomen encuestas en casas aleatorias. Los resultados de las encuestas se presentan en la Tabla 1.3. Tabla 1.3. Porcentajes de aprobación a gestión del alcalde por cada encuestador Encuestador 1 Encuestador 2 Encuestador 3 56 41 39 79 35 47 39 91 36 69 60 97 59 70 56 Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 9 El director del proceso asume como válida la encuesta, sabiendo la disparidad de encuestas realizadas, por lo que decide publicar los resultados. a) ¿Cuál es la aprobación hacia el alcalde? Un encargado considera que la disparidad del número de datos por parte de los encuestadores altera los resultados por lo que decide equiparar el número de datos sacando los máximos y mínimos de los conjuntos de datos quedando de la forma siguiente: Tabla 1.4. Porcentajes de aprobación a gestión del alcalde modificados por el encargado Encuestador 1 Encuestador 2 Encuestador 3 41 39 47 56 59 60 91 69 56 b)¿El resultado es modificado?, ¿Es correcta la modificación hecha por el encargado?. Comente modificaciones para obtener un resultado más fidedigno. a) El estadígrafo que representa a un conjunto de datos es el promedio, ahora bien, se debe decidir cómo calcular este: el promedio del promedio de cada encuestador o el promedio de todos los datos en su conjunto. Como el sistema de dividir la comuna en 3 sectores no tiene otro fin que enviar un encuestador a cada uno el promedio se debe calcular de la segunda forma: �̅� = 56 + 39 + 97 + 41 + 91 + 39 + 36 + 59 + 79 + 69 + 70 + 35 + 47 + 60 + 56 15 = 58,3%. b) El nuevo promedio es 57,6%, por lo que el resultado sí es modificado. �̅� = 41 + 56 + 91 + 39 + 59 + 69 + 47 + 60 + 56 9 = 57,6% Es esperable que el número de encuestas por sector sean iguales (suponiendo que los 3 sectores tienen igual número de población) para tener un mismo peso en el promedio y no mostrar tendencias hacia un valor. En este estudio no se da esta situación, el sector 2 tiene un 47% de peso en el promedio, no obstante es incorrecto eliminar datos para equiparar el número bajo el criterio empleado, existen técnicas para eliminar datos anómalos de un conjunto de datos con distribución normal (con un gráfico de probabildad normal) lo que no se ha comprobado en este estudio, de todas maneras los resultados se alteran (sensibilidad del promedio al número de datos) pero de manera más suave. Eliminar valores solo es correcto cuando su inclusión falsea o distorsiona el conjunto de Capítulo 1: Descripción de Datos 10 indicadores que representan el set de datos. Existen diversas técnicas para evitar la inclusión de anomalías en el análisis de los datos. Modificaciones para obtener un resultado más fidedigno: Asegurar que el número deencuestas por encuestador sean similares manteniendo la aleatoriedad en la toma de estas. 1.4.- En el proceso del cobre sulfurado, el concentrado que va hacia los hornos de fundición y convertidores se produce en una columna de flotación. En este sistema, se separa el cobre de la escoria, arrastrándolo mediante burbujas de aire hacia el tope de la columna (obteniendo un concentrado con mayor ley). Para producir la separación, es necesario modificar la tensión superficial de las burbujas de aire utilizando agentes de flotación. Como ingeniero(a) de procesos, se le ha pedido que estudie y evalúe el comportamiento de dos agentes de flotación en la columna: Xantato y Aeroflat, de acuerdo a la ley de concentrado que producen, y a partir de este estudio decida qué reactivo es mejor (desde el punto de vista de aumentar la ley y de asegurar una producción lo menos variable posible). Para lo anterior, ha diseñado un experimento aleatorio cuyos resultados se presentan en la Tabla 1.5. Tabla 1.5. Ley de concentrado obtenida con distintos agentes de flotación Xantato (ley%) Aeroflat (ley%) 33,8 31,1 30,6 30,8 30,2 30,1 29,1 29,2 37,4 33,4 31,1 27,5 31,9 32,7 28,8 28,1 32,6 31,2 35,6 Con los datos entregados: a) Calcule el promedio y la mediana de la ley de concentrado de cobre para cada agente de flotación estudiado. De acuerdo a estos resultados: ¿Qué agente recomienda? ¿Qué puede indicar sobre la posible ocurrencia de datos anómalos al comparar el promedio y la mediana para ambos agentes? Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 11 b) Calcule la desviación estándar de la ley de concentrado de cobre para cada agente de flotación. De acuerdo a estos resultados ¿Qué agente recomienda? c) En una misma gráfica presente el histograma de frecuencia relativa para ambos reactivos. ¿Observa una diferencia apreciable en términos de posición y dispersión de los datos? ¿Mantiene la recomendación dada en el inciso a? Para el histograma, utilice los siguientes límites de clases: Xantanto: [𝟐𝟖, 𝟑𝟎[, [𝟑𝟎, 𝟑𝟐[, [𝟑𝟐,𝟑𝟒[, [𝟑𝟒, 𝟑𝟔[, [𝟑𝟔,∞[ Aeroflat: [𝟐𝟕, 𝟐𝟗[, [𝟐𝟗,𝟑𝟏[, [𝟑𝟏, 𝟑𝟑[, [𝟑𝟑,∞[ a) Para los datos se obtiene que: �̅� 𝑥𝑚𝑒𝑑𝑖𝑎𝑛𝑎 Xantanto 32,11 31,5 Aeroflat 30,46 30,8 De los datos entregados, se puede notar que el Xantanto parece ser el agente que presenta una mayor ley, por lo que este sería el escogido. Con respecto a la comparación entre la media y la mediana de ambos agentes, se observa que existe una diferencia de aproximadamente un 2% para el Xantato y de 1% para el Aeroflat, por lo que se sospecha que los datos se encuentran distribuidos de manera normal, sin la presencia de datos anómalos. Que la mediana sea similar al promedio indica simetría de la distribución de datos, lo que es sospecha de distribución normal, para evaluar esto es necesario revisar la forma de la distribución. b) Para evaluar la “regularidad” de la producción, se puede analizar la desviación estándar que producen los distintos agentes de flotación: 𝑠 = 1 𝑛 − 1 ∑(𝑥𝑖 − �̅�) 2 𝑛 𝑖=1 En la siguiente tabla se muestran los resultados: 𝑠 Xantanto 2,79 Aeroflat 1,76 A partir de los datos tabulados, se observa que el Aeroflat parece ser el agente que produce una menor dispersión de los datos y por lo tanto, es de esperar que la producción sea menos variable. Capítulo 1: Descripción de Datos 12 c) Los histogramas de frecuencia relativa se construyen a partir de la Tabla que se muestra a continuación: Xantato Límites Intervalo Inferior Superior 𝑀𝐶 𝑓 𝑓𝑟 28 30 29 2 0,2 30 32 31 4 0,4 32 34 33 2 0,2 34 36 35 1 0,1 36 38 37 1 0,1 Aeroflat Límites Intervalo Inferior Superior 𝑀𝐶 𝑓 𝑓𝑟 27 29 28 1 0,125 29 31 30 3 0,375 31 33 32 3 0,375 33 35 34 1 0,125 Figura 1.2. Histograma de frecuencia relativa para agentes de flotación xantato y aeroflat. El histograma de la Figura 1.2, muestra que aun cuando desde el punto de vista del indicador de posición promedio indique que el Xantato presenta un mejor desempeño desde el punto de vista de la ley de concentrado, la dispersión producida por ambos agentes es tal que no se observa una diferencia apreciable entre ellos. Por lo tanto, la elección del agente, desde el punto de vista de su promedio, es irrelevante (puesto que al parecer son iguales) y se podrían usar otros criterios como el económico para decidir qué agente utilizar. 1.5.- El gerente de una planta de procesos le ha pedido que informe sobre el pH de los riles que salen de la planta. La comunidad ha manifestado una creciente preocupación, a través del alcalde, acerca de la inocuidad de dichos deshechos. Luego de llevar a cabo un muestreo por varios días del proceso se han colectado los siguientes datos: Tabla 1.5. pH de ril de planta de proceso, muestreo diario. Fecha 03- may 04- may 05- may 06- may 07- may 08- may 09- may 10- may 11- may 12- may 13- may 14- may pH 7,5 7,5 6,3 4,5 90 9,8 6,9 11,7 7,1 8,5 5,1 8,5 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 28 30 32 34 36 Fr e cu en ci a R el at iv a ley [%] Xantato Aeroflat Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 13 a) Clasifique los datos en las siguientes clases: ]-∞ , 6 ] - ]6 , 8] - ]8 , 10] - ]10, +∞[. Luego realice el histograma de frecuencia y de frecuencia acumulada. b) Calcule el promedio y la mediana de los datos. ¿Cuál representa más la tendencia central del resultado del proceso para éste caso particular? ¿Por qué? c) Se ha detectado que el dato del 7 de Mayo en realidad es falso, ese día el medido presentó un desperfecto y entregó un valor incoherente. Calcule la desviación estándar con y sin ese dato anómalo. Comente si aquel dato falso afecta de manera apreciable la representatividad de los indicadores sobre el proceso. d) ¿Qué recomendación daría usted sobre la frecuencia del muestreo para llevar a cabo el estudio de manera que sea funcional a lo exigido? a) Clase <6 ]6, 8] ]8, 10] >10 𝑓𝑖 2 5 3 2 𝑓𝑎𝑐𝑐 2 7 10 12 Figura 1.3. Histogramas de frecuencia absoluta y absoluta acumulada para pH de ril. b) Promedio: �̅� = ∑𝑥 𝑛 = 14,5. Datos ordenados: 4,5 5,1 6,3 6,9 7,1 7,5 7,5 8,5 8,5 9,8 11,7 90 Mediana: 7,5. Para este caso, 7,5 representa mucho mejor la tendencia que 14,5. El dato del 7 de Mayo influye demasiado en el cálculo del promedio (Figura 1.3) 0 1 2 3 4 5 6 <6 ]6, 8] ]8, 10] >10 Fr ec u en ci a A b so lu ta pH [-] 0 2 4 6 8 10 12 14 <6 ]6, 8] ]8, 10] >10 Fr ec u en ci a A b so lu ta A cu m u la d a pH [-] Capítulo 1: Descripción de Datos 14 Figura 1.3. Representación de registro de pH destacando posición de mediana y promedio. c) Desviación estándar muestral: Con y sin el dato anómalo queda: La representatividad se ve afectada significativamente. Según los indicadores dicen, se espera que la mayoría del tiempo (95%) el pH se encuentre �̅� ± 2𝑠, es decir, [-33 , 62] y [3,6 , 11,6] en los casos con y son el dato anómalo respectivamente. Con claridad, el segundo intervalo es representativo, mientras que el primero carece de sentido. d) Recomendaría revisar la normativa ambiental en busca de si se basa en datos puntuales, promedios día/hora/semana, etc. Es importante analizar los datos de la misma forma en que se piden. También hay que señalar que si se utilizan datos promedio de intervalos mayores a los requeridos, se puede estar obviando de forma importante la variabilidad de los datos. 0 20 40 60 80 100 pH [-] Con dato anómalo Sin dato anómalo 𝑥𝑖 𝑥𝑖 − �̅� (𝑥𝑖 − �̅�) 2 𝑥𝑖 𝑥𝑖 − �̅� (𝑥𝑖 − �̅�) 2 4,5 -9,95 208,8 4,5 -3,1 57,5 5,1 -9,35 99,0 5,1 -2,59,5 6,3 -8,15 87,4 6,3 -1,3 6,2 6,9 -7,55 66,4 6,9 -0,7 1,6 7,1 -7,35 57,0 7,1 -0,5 0,5 7,5 -6,95 54,0 7,5 -0,1 0,2 7,5 -6,95 48,3 7,5 -0,1 0,0 8,5 -5,95 35,4 8,5 0,9 0,8 8,5 -5,95 35,4 8,5 0,9 0,8 9,8 -4,65 21,6 9,8 2,2 4,9 11,7 -2,75 7,6 11,7 4,1 17,0 90 75,55 5708 𝑠 23,8 𝑠 2,0 Promedio Mediana Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 15 1.6.- La temperatura de descarga de efluentes de industrias, corresponde a un importante factor que influye en el ecosistema del cuerpo de agua donde descarga (río o mar mediante emisarios submarinos). En la planta donde usted se desempeña como encargado de la planta de depuración, se ha implementado un sistema de monitoreo que consiste en tomar una medida de temperatura al efluente a las 12.30h del día, todos los días. La Tabla 1.6, resume la información de los últimos 15 días. Tabla 1.6. Registro temperatura de efluente industrial durante 15 días. día T[°C] 1 43 2 47 3 51 4 48 5 52 6 50 7 46 8 49 9 45 10 52 11 46 12 51 13 44 14 49 15 46 a) Calcular la media muestral y la mediana ¿Qué puede indicar sobre su diferencia? b) Obtener la varianza muestral y la desviación estándar muestral. c) Construir un diagrama de Caja y Bigotes, indicando: mínimo, 1er ,2do, 3er cuartil y máximo. Sólo basándose en este diagrama, indique entre qué valores se deberían encontrar el 50% de los datos más frecuentes. d) ¿Es la estrategia de muestreo adecuada si se desea evaluar de manera representativa el desempeño del sistema de acondicionamiento térmico? a) El promedio se calcula con �̅� = 1 𝑛 ∑𝑥𝑖 𝑛 𝑖=1 Con 𝑛 = 10 y 𝑇 ≡ 𝑥 se obtiene: �̅� = 47,9°𝐶 Con respecto a la mediana, corresponde al valor que divide en dos partes iguales (inferior y superior), los datos. Si se ordena la Tabla 1, se obtiene: Orden 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 T[°C] 43 44 45 46 46 46 47 48 49 49 50 51 51 52 52 Donde el elemento 8°, corresponde al valor del centro. De esta forma, la mediana es: 𝑥𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 48°𝐶 Capítulo 1: Descripción de Datos 16 La diferencia de menos de 1% entre los indicadores muestrales de posición indicaría que no hay puntos alejados de la tendencia general de los datos (outliers) b) Mediante las definiciones 𝑠2 = 1 𝑛 − 1 ∑(𝑥𝑖 − �̅�) 2, 𝑠 = √𝑠2 Se obtiene que: 𝑠2 = 8,5 (°𝐶)2, 𝑠 = 2,9 °𝐶 c) A partir de la Tabla ordenada, se obtiene el resto de los cuartiles (presentados en Tabla inferior). A partir de esto se obtiene el diagrama. Figura 1.4. Diagrama de caja y bigote para registros de temperatura en efluente industrial Q Valor (°C) Cuartil 0 (min) 43 Cuartil 1 46 Cuartil 2 48 Cuartil 3 51 Cuartil 4 (max) 52 A partir del diagrama de Caja y Bigotes, se puede notar que el 50% de los datos más probables debiesen estar entre los cuartiles 1 y 3, es decir, entre 46 y 51. d) La estrategia de muestreo no parece ser la más adecuada si se desea obtener un comportamiento representativo del funcionamiento del sistema de acondicionamiento térmico. Esto pues se podría estar en presencia de sesgo experimental al muestrear sólo un turno de trabajo, sin considerar que una medida en ningún caso representa de manera adecuada el comportamiento de todo un día. Si existe alguna limitante que impida tomar más muestras, al menos esto debería hacerse aleatorizando el horario de toma de muestra. 40 42 44 46 48 50 52 54 Te m p er a tu ra [ °C ] Máx Q3 Q2 Q1 Min Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 17 1.7.- En un río, al cual se descargan aguas de una central termoeléctrica, se comienza a presentar mortandad de los peces. Los lugareños culpan a la empresa por descargar sus aguas a una mayor temperatura, lo que disminuye la solubilidad del oxígeno en el agua y termina matando a los peces, sin embargo la central se defiende indicando que sus descargas cumplen la norma y que todo está registrado y fiscalizado. Sin esperar el actuar de la entidad fiscalizadora un grupo de estudiantes de una universidad deciden evaluar la hipótesis de los lugareños. Para registrar la concentración de oxígeno disuelto en el río consiguen un analizador de oxígeno ya usado y en situación de ser desechado que de todas maneras utilizan argumentando que un mayor número de mediciones debería disminuir el error producto de las fallas por tiempo de uso del instrumento, sus mediciones se presentan en la Tabla 1.7. Tabla 1.7. Mediciones de Concentración de oxígeno disuelto [mg/L] en río realizadas por grupo de estudiantes. 5,8 3,0 8,0 11,0 8,8 11,4 2,1 6,1 10,6 3,4 4,5 2,5 2,3 3,6 4,2 2,2 4,9 5,4 7,5 5,6 Si la concentración típica de oxígeno disuelto en el agua es entre 7 y 12 [mg/L]. a) Calcule promedio, desviación estándar, mediana y moda del conjunto de datos. En base a estos resultados indique si existe baja en la concentración de oxígeno disuelto en el río. b) La central enterada del estudio indica que no son válidas pues el instrumento utilizado no es ideal lo que entregaría resultados sesgados (concentrados en un extremo) señal de factores externos que alteran los resultados. Compruebe si se cumple lo mencionado por la central a partir de un histograma. La empresa de igualmente decide realizar su propio estudio y replican el experimento de los estudiantes, pero con un analizador de oxígeno nuevo. Entregando las mediciones en la Tabla 1.8. Tabla 1.8. Mediciones de Concentración de oxígeno disuelto [mg/L] en río realizadas por Central Termoeléctrica. 11,1 11,3 12,2 8,8 9,2 11,1 10,4 11,2 12,0 12,1 9,9 8,1 9,6 7,8 9,7 8,9 10,2 12,7 11,4 9,1 c) Determine si existe diferencia entre ambos experimentos a partir de un diagrama de caja y bigote (boxplot) d) ¿Se comprueba la hipótesis de los lugareños? ¿Qué medidas se deberían tomar? Capítulo 1: Descripción de Datos 18 a) El cálculo de los estadígrafos a partir de sus definiciones entrega: �̅� 5,6 𝑠 3,0 En base a los resultados se puede detectar una baja en la concentración de oxígeno, sin embargo la desviación estándar es alta si se considera un instrumento de precisión por lo que pueden existir problemas generados por el analizador ya usado. No existe moda porque todos los datos tienen frecuencia 1. Cálculo de la mediana: Los datos ordenados se presentan a continuación: 2,1 2,2 2,3 2,5 3,0 3,4 3,6 4,2 4,5 4,9 5,4 5,6 5,8 6,1 7,5 8,0 9,8 10,6 11,0 11,4 La mediana es el dato que divide al conjunto en 2 partes iguales, en este caso se encuentra entre el dato 10 y 11, así que se considera su promedio: 𝑀𝑒 = 4,9+ 5,4 2 = 5,2 b) Construcción de Histograma. Se toma como referencia que el número de clases sea igual a √𝑛. Así el número de clases se aproxima a 5. √20 = 4,5 ≈ 5. El rango de la clase se calcula dividiendo el rango completo de datos por el número de clases: 𝑅𝑎𝑛𝑔𝑜 = 11,4−2,1 5 = 1,9 Clase Límites Clase frecuencia 1 2,1 4,0 7 2 4,0 5,8 5 3 5,8 7,7 3 4 7,7 9,5 1 5 9,5 11,4 4 Figura 1.5. Histograma para medición de estudiantes respecto a la concentración de flúor en río. Se observa un sesgo hacia las clases menores, es decir a las concentraciones más bajas, la empresa tiene razón. 0 1 2 3 4 5 6 7 8 3,1 4,9 6,8 8,6 10,5 Fr e cu en ci a A b so lu ta Concentración Flúor [mg/L] Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 19 c) Construcción de Diagrama de Caja y bigote: Estudiantes Central Mínimo 2,1 7,8 Q1 3,3 9,2 Mediana 5,2 10,3 Q3 7,6 11,3 Máximo 11,4 12,7 Figura 1.6. Diagrama de caja y bigote para experimentos de estudiantes y central. Existe diferencia entre ambos métodos. El experimento de los estudiantes es asimétrico ymuestra una concentración de datos hacia los 3 primeros cuartiles. El experimento de la central es más simétrico (señal de posible normalidad de los datos) y menos disperso (señal de bajo error en las mediciones). Desde el punto de vista de concentración de oxígeno disuelto los datos se encuentran dentro del rango de normalidad en el experimento de la central, considerando el valor real y los errores asociados. d) El experimento de los estudiantes es erróneo por el instrumento utilizado, siendo válido el de la central. La concentración de oxígeno en el río está dentro de los parámetros normales, de modo que no es culpa del aumento de temperatura de las aguas de descarga de la central (dada la relación de causalidad de estas variables: concentración de oxígeno disuelto-temperatura del agua). Los lugareños se equivocan en relación a su hipótesis. Las medidas a tomar deben enfocarse en encontrar la causa de la mortandad de los peces en base a otras variables (sean antrópicas o naturales) y realizar estudios en torno a estas. 0 2 4 6 8 10 12 14 Estudiantes Central C o n ce n tr ac ió n F lú o r [m g/ L] 20 CAPÍTULO 2: Aleatoriedad y Probabilidad Distribución Normal. La probabilidad es una medida que permite cuantificar la frecuencia en la ocurrencia de un determinado evento con respecto a una población. Cuando los datos presentan una distribución normal la probabilidad de obtener un valor 𝑥 corresponde a la PDF (función de densidad de probabilidad) 𝑃𝐷𝐹 = 1 𝜎√2𝜋 exp (− 1 2 ( 𝑥 − 𝜇 𝜎 ) 2 ) Una forma de suponer que los datos presentan distribución normal es a partir del teorema del límite central que establece que cuando se extraen una serie de muestras aleatorias de una población estas tendrán una distribución normal mientras mayor sea el número de datos. Para calcular la probabilidad que ocurra un evento definido como un intervalo se utiliza la CDF (función de densidad de probabilidad acumulada), que es la integral de la PDF en el intervalo deseado: 𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫ 1 𝜎√2𝜋 exp (− 1 2 ( 𝑥 − 𝜇 𝜎 ) 2 )𝑑𝑥 𝑏 𝑎 Figura 2.a. Densidades de probabilidad normal para distintas distribuciones normales. Esta forma característica se llama Campana de Gauss 0,0 0,1 0,2 0,3 0,4 0,5 0,6 -4 -3 -2 -1 0 1 2 3 4 P D F x 𝜇 = 1 𝜎 = 2 𝜇 = −2 𝜎 = 0,7 𝜇 = 0 𝜎 = 1 Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 21 Figura 2.b. CDF de una distribución normal. La forma característica se denomina sigmoide. Distribución z. La solución a la CDF no tiene solución analítica, y para facilitar su resolución se encuentra tabulados los valores para la variable adimensionalizada 𝑧, la cual convierte cualquier distribución de variable normal de media 𝜇 y desviación estándar 𝜎: 𝑁(𝜇, 𝜎), en una distribución normal de media 0 y desviación estándar 1, 𝑁(0,1). 𝑧 = 𝑥 − 𝜇 𝜎 En Anexo A Tabla A.1. se encuentra la tabla de distribución 𝑧, que entrega la probabilidad de cola izquierda (de −∞ al valor de 𝑧). 0,00 0,10 0,20 0,30 0,40 0,50 -3 -2 ,2 -1 ,4 -0 ,6 0 ,2 1 1 ,8 2, 6 P D F x 0,00 0,20 0,40 0,60 0,80 1,00 -3 -1 1 3 C D F x Capítulo 2: Aleatoriedad y Probabilidad 22 EJERCICIOS 2.1.-Según datos del censo de 2012 la población activa del país se distribuye de la siguiente manera: Tabla 2.1. Población de 15 años o más activa, por grupo de edad (INE, 2012) 1 Grupo de edad Cantidad 15 a 24 916.687 25 a 34 1.845.803 35 a 44 1.833.599 45 a 54 1.622.264 55 a 64 872.123 65 a + 205.860 ¿Cuál es la probabilidad de encontrar una persona activa que se encuentre en el rango de edad mayor a 50 años? Para obtener la probabilidad se deben obtener primeramente los estadígrafos, como estos datos son poblacionales estos corresponderán a la media y desviación estándar poblacional. En la tabla siguiente se muestra el desarrollo para la obtención de estos. rango 𝑀𝐶𝑖 𝑓𝑖 𝑓𝑖 ∙ 𝑀𝐶𝑖 (𝑀𝐶𝑖 − 𝜇) 2 𝑓𝑖 ∙ (𝑀𝐶𝑖 − 𝜇) 2 15 a 24 19,5 916.687 17.875.396,5 417 382.158.185 25 a 34 29,5 1.845.803 54.451.188,5 109 200.329.827 35 a 44 39,5 1.833.599 72.427.160,5 0,2 320.219 45 a 54 49,5 1.622.264 80.302.068 92 148.950.868 55 a 64 59,5 872.123 51.891.318,5 383 334.423.141 65 a + 69,5 205.860 14.307.270 875 180.148.233 Suma 7.296.336 291.254.402 1.246.330.472 𝜇 =∑ 𝑓𝑖 ∙ 𝑀𝐶𝑖 𝑛 𝑛 𝑖=1 = 39,9[𝑎ñ𝑜] 𝑠 = √∑ 𝑓𝑖 ∙ (𝑀𝐶𝑖 − 𝜇) 2 𝑛 𝑛 𝑖=1 = 13,1[𝑎ñ𝑜] 𝑛 =∑𝑓𝑖 = 7296336 𝑧 = 50 − 39,9 13,1 = 0,77 1 INE, 2012. Resultados XVIII Censo Población 2012. Santiago, Chile: s.n., p. 271. Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 23 𝑃(𝑥 > 50) = 𝑃(𝑧 > 0,77) = 1 − 𝑃(𝑧 < 0,77) = 1 − 0,7794 = 0,2206 = 22,06% A pesar que este ejercicio es sencillo, hay un supuesto que debe ser verificado y este es que los datos presenten una distribución normal y en base a las proyecciones sobre la población del país es presumible que no se presente tendencia normal. Una aproximación para ver la normalidad de datos es un histograma. Según el histograma de la figura 2.1. los datos pareciesen no tener distribución normal, pero sí alguna cercanía. Existen herramientas más robustas para determinar la normalidad de un conjunto de datos como el gráfico de probabilidad normal e indicadores estadígrafos como la curtosis. Figura 2.1. Histograma de personas activas en Chile según censo 2012. 2.2- Obtener las siguientes probabilidades: a) 𝑷(𝝁 − 𝟐𝝈 < 𝑥 < 𝜇 + 2𝝈) b) Se tiene una población que presenta una distribución 𝑵(𝟐, 𝟐), encontrar el valor de 𝒂 que satisface: 𝑷(𝝁 − 𝒂 < 𝑥 < 𝜇 + 𝑎) = 𝟎, 𝟑𝟖𝟑𝟎 a) 𝑃(𝜇 − 2𝜎 < 𝑥 < 𝜇 + 2𝜎) = 𝑃 ( (𝜇−2𝜎)−𝜇 𝜎 < 𝑥−𝜇 𝜎 < (𝜇+2𝜎)−𝜇 𝜎 ) = 𝑃(−2 < 𝑧 < −2) = 𝑃(𝑧 < 2) − 𝑃(𝑧 < −2) = 0,9772 − 0,0228 = 0,9544 = 95,44% b) 𝑃(𝜇 − 𝑎 < 𝑥 < 𝜇 + 𝑎) = 𝑃(2 − 𝑎 < 𝑥 < 2 + 𝑎) = 𝑃 ( (2−𝑎)−2 2 < 𝑥−𝜇 𝜎 < (2+𝑎)−2 2 ) = 𝑃 (− 𝑎 2 < 𝑧 < 𝑎 2 ) = 𝑃 (𝑧 < 𝑎 2 ) − 𝑃 (𝑧 < − 𝑎 2 ) = 𝑃 (𝑧 < 𝑎 2 ) − [1 − 𝑃 (𝑧 < 𝑎 2 )] = 2𝑃 (𝑧 < 𝑎 2 ) − 1 = 0,3830 𝑃 (𝑧 < 𝑎 2 ) = 0,692 Se busca en Tabla que valor de z entrega una probabilidad de cola izquierda de 0,692. → 𝑎 2 = 0,502 → 𝛼 = 1,00 0 200 400 600 800 1000 1200 1400 1600 1800 2000 19,5 29,5 39,5 49,5 59,5 69,5 Fr e cu e n ci a A b so lu ta [e n m ile s] Edad [año] Capítulo 2: Aleatoriedad y Probabilidad 24 2.3.- En la línea de envasado de una empaquetadora automática de arroz para envases de 500 [g] durante el 2012 se tienen los siguientes resultados: media 501[g] y varianza 20[g 2 ]. La empresa tiene una tolerancia de calidad de ±4[g], es decir, si un envase de arroz está fuera de este rango es rechazado. A inicios del 2013 el ingeniero a cargo propone un nuevo sistema de control que asegura un resultado de una media de 500[g] y varianza 10[g2]. Este nuevo sistema de control incurriría en una inversión de $400.000 y el costo de pérdida por cada paquete rechazado es $300. Si la producción es de 12.000 envases totales al año. ¿Conviene implementar el nuevo sistema? Para determinar si es conveniente implementar el nuevo sistema se debe determinar cual implica un mayor gasto (incluyendo inversión y pérdidas). La forma de estimar esto es a través de la probabilidad de obtener productos fuera de especificación. Sistema Antiguo 𝜇 501 𝜎2 20 𝜎 4,47 Rango de tolerancia 496-504 Probabilidad de rechazo (𝑃𝑅): 𝑃𝑅 = 𝑃(𝑥 < 496) + 𝑃(𝑥 > 504) 𝑧1 = 496 − 501 4,47 = −1,12 𝑧2 = 504 − 501 4,47 = 0,67 → 𝑃𝑅 = 𝑃(𝑧 < −1,12) + 𝑃(𝑧 > 0,67) = 𝑃(𝑧 < −1,12) + 1 − 𝑃(𝑧 < 0,67) = 0,1318 + 1− 0,7488 = 0,3829 = 38,29% Costo estimado por pérdidas: 𝐶 = 300 [ $ 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 ] ∙ 12000 [ 𝑝𝑎𝑞𝑢𝑒𝑡𝑒 𝑎ñ𝑜 ] ∙ 0,3829 [ 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝑝𝑎𝑞𝑢𝑒𝑡𝑒 ] = 1378597 [ $ 𝑎ñ𝑜 ] Sistema Nuevo 𝜇 500 𝜎2 10 𝜎 3,16 Rango de tolerancia 496-504 Probabilidad de rechazo (𝑃𝑅): 𝑃𝑅 = 𝑃(𝑥 < 496) + 𝑃(𝑥 > 504) 𝑧1 = 496 − 500 3,16 = −1,26 𝑧2 = 504 − 500 3,16 = 1,26 Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 25 → 𝑃𝑅 = 𝑃(𝑧 < −1,26 ) + 𝑃(𝑧 > 1,26) = 𝑃(𝑧 < −1,26 ) + 1 − 𝑃(𝑧 < 1,26) = 0,1030 + 1 − 0,8970 = 0,2059 = 20,59% Costo estimado por pérdidas: 𝐶 = 300 [ $ 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 ] ∙ 12000 [ 𝑝𝑎𝑞𝑢𝑒𝑡𝑒 𝑎ñ𝑜 ] ∙ 0,2059 [ 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝑝𝑎𝑞𝑢𝑒𝑡𝑒 ] = 741252 [ $ 𝑎ñ𝑜 ] Costo total: 𝐶𝑇 = 𝐶 + 𝐼𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛 = 1141252 El gasto por el sistema nuevo de control es menor que para el antiguo desde el primer año de utilización, por ello es conveniente realizar el cambio. 2.4.- El departamento de desarrollo de la embotelladora Moka-Kola, está implementando un sistema de mejoras que reduzca la tasa de rechazo de sus productos. En particular, los ingenieros han planificado intervenir la máquina de llenado de latas puesto que, según experiencia previa, es un sistema crítico dentro de la línea de producción. Para llevar a cabo las mejoras, se le ha encomendado a usted evaluar el funcionamiento actual de este equipo, para lo cual se remite a información histórica proveniente del departamento de calidad, que indica que la media de llenado es de 360[cc] y su desviación estándar es de 3[cc]. a) Si la norma indica que una lata que contenga más de 373[cc] o menos de 358[cc] debe ser devuelta a la línea, determinar la probabilidad de devolución de una lata. b) Si la máquina en cuestión produce 10.000 latas al día, y el costo asociado a la devolución de cada lata es de $10, estimar las pérdidas mensuales por este concepto (asuma que el mes tiene 30 días) a) La probabilidad de rechazo (𝑃𝑅) es: 𝑃𝑅 = 𝑃(𝑥 ≤ 358) + 𝑃(𝑥 ≥ 373) Adimensionalizando en 𝑧 𝑃𝑅 = 𝑃 ( 𝑥 − 𝜇 𝜎 ≤ 358 − 𝜇 𝜎 ) + 𝑃( 𝑥 − 𝜇 𝜎 ≥ 373 − 𝜇 𝜎 ) → 𝑃𝑅 = 𝑃(𝑧 ≤ −0,67) + 𝑃(𝑧 ≥ 4,33) 𝑃(𝑧 ≤ −0,67) = 0,252 Capítulo 2: Aleatoriedad y Probabilidad 26 𝑃(𝑧 ≥ 4,33) = 1 − 𝑃(𝑧 ≤ 4,33) ≈ 0 Por lo tanto: 𝑃𝑅 =0,252 Una tasa de rechazo del 25% es muy elevada y esto da evidencia de la necesidad de mejorar el proceso de llenado. Las pérdidas estimadas del sistema se obtienen a continuación: b) Las pérdidas esperadas por concepto de devolución mensual está dado por: 𝐶𝑜𝑠𝑡𝑜 𝐷𝑒𝑣 𝑀𝑒𝑛𝑠𝑢𝑎𝑙 = 𝐿𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑑𝑎𝑠 𝐿𝐷í𝑎𝑠 ∙ 𝐶𝑜𝑠𝑡𝑜 𝐿𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑑𝑎𝑠 ∙ 𝐿𝐷í𝑎𝑠 ∙ 𝐷í𝑎𝑠 𝑀𝑒𝑠 = 0.252 ∙ 10 ∙ 10.000 ∙ 30 = $756.000 2.5.- El reactor de la planta donde trabaja ha estado presentando problemas de rendimiento. Teóricamente se sabe que a mayor temperatura se obtiene una mayor conversión, por ello lo recomendado es operar el equipo sobre los 425 [°C]. También se sabe que si se superan los 450 [°C] se favorece una reacción indeseable que baja la conversión. Así que el control de temperatura debe ser debidamente llevado a cabo. Usted, que es el ingeniero de procesos encargado de esa área, está preocupado y ha decidido llevar a cabo un estudio de las temperaturas en el reactor. Se han tomado datos que representan la operación del proceso (ver Tabla 2.2). En base a ello responda las siguientes preguntas: *Asuma una distribución normal para las temperaturas. Tabla 2.2 Temperaturas del reactor. Hora Día del mes T [°C] 0 5 444,1 4 5 441,2 8 5 445,7 12 5 452,1 16 5 448,6 20 5 451,2 0 6 440,9 4 6 444,3 8 6 449,3 12 6 441,7 16 6 442,9 20 6 449,9 0 7 440,5 4 7 442,5 8 7 442,7 12 7 441,6 a) ¿Cuál es el valor promedio de temperatura del reactor? ¿Es adecuado? ¿Explica (por si solo) el bajo rendimiento? b) ¿Dónde, en torno al promedio, se encuentra el 90% de los datos? ¿Explica ese rango el bajo rendimiento?. c) ¿Cuántos días al mes el reactor se encuentra sobre la temperatura máxima recomendada?. Asuma 30 días por mes. Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 27 a) El promedio, (x)/n=445, es adecuado considerando que se desea operar a la máxima temperatura, pero por debajo de los 450 [°C]. Aquél dato no explica por sí solo el bajo rendimiento. b) Usando como distribución de referencia una distribución normal, se busca un "a" tal que: 𝑃(−𝑎 ≤ 𝑧 ≤ 𝑎) = 0,90 Tomando la distribución acumulada desde el lado izquierdo, se puede calcular: 𝑃(−𝑎 ≤ 𝑧 ≤ 𝑎) = 0,90 → 𝑃(𝑧 ≤ 𝑎) − 𝑃(𝑧 ≤ −𝑎) = 0,95 − 0,05 = 0,90. Tal como se observa en la figura: Buscando en la tabla de datos entregada, los valores que dan el 0.95 y el 0.05 son +1.645 y -1.645 respectivamente. Claro que hay que desnormalizarlo para obtener los límites en unidades de ingeniería. El promedio y desviación estándar son 445 y 4,0 respectivamente. Los rangos son: +𝑎 = +1.645 = 𝑥−�̅� 𝑠 = 𝑥−445 4 → 𝑥 = +1.645 ∙ 4 + 445 = 𝟒𝟓𝟏, 𝟔 −𝑎 = −1.645 = 𝑥−�̅� 𝑠 = 𝑥−445 4 → 𝑥 = −1.645 ∙ 4 + 445 = 𝟒𝟑𝟖, 𝟐 El 90% del tiempo la temperatura se encuentra entre 451,6 y 438,2 [°C]. El rango, si bien no baja de los 425 [°C], sube de los 450 [°C] (incluso si solo se considera el 90% del tiempo). En aquellos momentos en que la temperatura es más alta de lo recomendado, el rendimiento puede verse disminuido considerablemente, ya que, no es el caso de que haya menos conversión, si no, que se promueve la reacción indeseada. c) De acuerdo a los valores calculados y la tabla CDF entregada: 𝑃(𝑥 ≥ 450) = 𝑃(𝑧 ≥ (450 − 445)/4) = 𝑃(𝑧 ≥ 1,25) = 1 − 𝑃(𝑧 ≤ 1,25) = 1 − 0,8944 = 0,1056. La probabilidad de encontrar un valor sobre el límite recomendado, 450 [°C], es del 10,56%. Es decir, el observar valores de ese orden en los datos obtenidos no representa situaciones puntuales. Calculando, 30∙0,1056≈3 días al mes el reactor funciona promoviendo la reacción indeseada. 2.6.-Para una variable aleatoria 𝒙, que se distribuye de manera normal, con media poblacional cero (𝝁 = 𝟎), y desviación estándar poblacional igual a uno (𝝈 = 𝟏), calcular: a) La probabilidad que una medida de 𝒙 esté por debajo de 1,53 b) La probabilidad que una medida de 𝒙 se encuentre entre -0,7 y 1,25 c) La probabilidad que la medida de 𝒙 esté por sobre su media poblacional P(z≤-1.645)=0.05 P(z≤+1.645)=0.95 Capítulo 2: Aleatoriedad y Probabilidad 28 Considerando que 𝑥~𝑁(0,1), 𝑥~𝑧, por lo tanto a) P(𝑥 < 1,54) = 𝑃(𝑧 < 1,54) = 0,94 b)P(−0,7 < 𝑥 < 0,95) = P(−0,7 < 𝑧 < 0,95) = P(𝑧 < 0,95) − P(𝑧 < −0,7) = 0,89 − 0,24 = 0,65 c) P(𝑥 < 0,5) = P(𝑧 < 0) = 0,5 2.7.-Los registros diarios durante todo un año de una planta de potabilización de agua indican que luego del proceso de fluorización el agua resulta con una concentración media de 0,60 [mgeq/L] de Flúor y con una varianza de 0,0081 [mgeq 2L-2]. La Norma Chilena NCh409/1 establece que la concentración de flúor máxima permitida en el agua potable es 1,5 [mgeq/L]. Además la empresa se autoregula bajo un parámetro interno que establece que la concentración de flúor en el agua no puede exceder los 0,9 [mgeq/L] ni ser menor a 0,5 [mgeq/L]. Asuma que los datos se comportan de manera normal. a) ¿Qué tan probable es que la empresa no cumpla la norma? b) ¿Cuántos días al año la empresa opera bajo su parámetro interno? Para obtener los valores de 𝑧 se requiere conocer la desviación estándar: 𝜎 = √𝜎2 = √0,081 = 0,09 a) 𝑃(𝑥 > 1,5) ≅ 𝑃 (𝑧 > 1,5−0,6 0,09 = 10) De tabla 𝑃(𝑧 < 10) ≈ 1 Entonces 𝑃(𝑧 > 10) = 1 − 𝑃(𝑧 < 10) ≈ 0 La empresa cumple la norma el aproximadamente el 100% de las veces b) 𝑃(0,5 < 𝑥 < 0,9) = 𝑃(𝑥 < 0,9) − 𝑃(𝑥 < 0,5) = 𝑃 (𝑧 < 0,9−0,6 0,09 = 3,33) − 𝑃 (𝑧 < 0,5−0,60,09 = −1,11) = 0,9996 − 0,1335 = 0,8611 = 86,11% Si consideramos que se trabaja todo el año (se potabiliza agua todos los días) los días que trabaja dentro del rango (𝑇)son: 𝑇 = 365 ∙ 0,8611 = 316[𝑑í𝑎] Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 29 CAPÍTULO 3: Estimadores Muestrales Distribución t Esta distribución se utiliza cuando no existen datos poblacionales (𝜎 principalmente), es decir el tamaño de la muestra es pequeño. La forma de esta distribución es normal dependiente del tamaño de la muestra. Con esta distribución se pueden obtener probabilidades de manera análoga a 𝑧 y realizar análisis estadísticos para al valor del estimador muestral de la media. 𝑡 = �̅� − 𝜇 𝑠𝑥/√𝑛 = �̅� − 𝜇 𝑠�̅� Donde: 𝑠𝑥: desviación estándar muestral del conjunto de datos 𝑥 𝑛: número de datos con los cuales se ha calculado el promedio muestral �̅� 𝑠�̅�: desviación estándar muestral de �̅�, calculada a partir del teorema del límite central como 𝑠𝑥/√𝑛 Los valores de la función de densidad de probabilidad acumulada (CDF), para 𝑡 se encuentran tabulados en Anexo A Tabla A.2. Esta tabla entrega la probabilidad de cola derecha para un valor de 𝛼 determinado (de 𝑡 al valor ∞). Test de Hipótesis El test de hipótesis es un tipo de análisis estadístico que permite discriminar si la media de una población se encuentra en cierto valor a partir de datos muestrales (donde se obtiene un valor de 𝑡). Consta de una hipótesis nula (𝐻0) y una hipótesis alternativa (𝐻1). Bajo cierto nivel de confianza (donde se obtiene un valor de 𝑡𝑐) se establece una zona de aceptación de 𝐻0, según criterios dependiendo del tipo de hipótesis nula. El valor de 𝛼 se desprende del nivel de confianza 𝑁𝐶 según: 𝑁𝐶% = (1 − 𝛼)% Hipótesis Nula: 𝐻0: 𝜇 = 𝜇0 Estadístico 𝑡: 𝑡 = �̅� − 𝜇0 𝑠/√𝑛 Hipótesis Alternativa Zona de Rechazo (𝐻0: 𝐹 → 𝐻1: 𝑉) 𝐻1: 𝜇 ≠ 𝜇0 𝑡 > 𝑡(𝛼/2,𝜈) 𝑜 𝑡 < −𝑡(𝛼/2,𝜈) 𝐻1: 𝜇 > 𝜇0 𝑡 > 𝑡(𝛼,𝜈) 𝐻1: 𝜇 < 𝜇0 𝑡 < −𝑡(𝛼,𝜈) 30 (a) (b) (c) Figura 3.a. Distribución de referencia para 𝑯𝟎:𝝁 = 𝝁𝟎, con región crítica para (a) 𝑯𝟏: 𝝁 ≠ 𝝁𝟎, (b) 𝑯𝟏:𝝁 > 𝝁𝟎, (c) 𝑯𝟏: 𝝁 < 𝝁𝟎. Intervalo de confianza El intervalo de confianza es otro tipo de análisis estadístico que permite estimar con cierto nivel de confianza dentro que valores puede encontrarse la media de una población a partir del promedio de una muestra. Para un estadígrafo, el intervalo de confianza de dos lados para la media (𝜇) está definido según: 𝐼𝐶: 𝜇 ∈ �̅� ± 𝑡 ( 𝛼 2 ,𝜈) 𝑠 √𝑛 El intervalo de confianza de dos lados es equivalente al test de hipótesis con 𝐻1: 𝜇 ≠ 𝜇0, por lo que ambos análisis entregan las mismas conclusiones. La analogía se mantiene para 𝐻1: 𝜇 > 𝜇0 y 𝐻1:𝜇 < 𝜇0 si se utilizan los intervalos de confianza de un lado. 0 𝒕(𝜶/𝟐,𝝂) 𝜶/𝟐 𝜶/𝟐 𝒕𝝂 −𝒕(𝜶/𝟐,𝝂) 0 𝒕(𝜶,𝝂) 𝜶 𝒕𝝂 0 −𝒕(𝜶,𝝂) 𝜶 𝒕𝝂 Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 31 EJERCICIOS 3.1.-Si la vida media de operación de una pila de linterna es de 24 horas y está distribuida normalmente con una desviación de 3 horas. a) ¿Cuál es la probabilidad de que una muestra aleatoria de 100 pilas tenga una media mayor a 30 minutos del promedio? b)Se estima que la información anteriormente utilizada no es representativa del producto ya que se han realizado diversas modificaciones al proceso, por lo que se toma una muestra de 101 pilas y se determina la vida media de operación obteniendo coincidentemente 24 horas y desviación estándar de 3 horas. En base a este segundo estudio ¿Cuál es la probabilidad de que una muestra aleatoria de 101 pilas tenga una media que se desvíe por más de 30 minutos del promedio? a) Para responder la pregunta y calcular la probabilidad se debe determinar primero la naturaleza de los datos. La información entregada, vida media y desviación, son datos poblacionales así que la probabilidad a calcular será utilizando z (El dato de las 100 pilas es un distractor para este ejercicio). 𝑧 = 24,5 − 24 3 = 1,17 𝑃(𝑥 > 24,5) = 1 − 𝑃(𝑧 ≤ 1,17) = 1 − 0,879 = 0,121 = 12,1% b) En este caso los datos sí son muestrales y se debe aplicar t para calcular la probabilidad. 𝑡 = 24,5 − 24 3/√101 = 1,675 𝑃(𝑥 > 24,5) = 𝑃(𝑡 > 1,675, 𝜈 = 100) = 0,0485 = 4,85% 3.2.- Un fábrica de galletas produce de paquetes de 320 [g]. Un cliente reclama que rara vez recibe productos con dicha masa, más bien, contienen a veces más y a veces menos. El supervisor revisa el contenido de 10 paquetes dentro de un despacho, hallando la siguiente masa en cada uno de ellos: Tabla 3.1. Masa de galletas en paquetes revisados Paquete 1 2 3 4 5 6 7 8 9 10 Masa [g] 100 320 310 350 330 350 310 350 340 300 En base a los 10 paquetes analizados ¿Cuál sería la probabilidad de hallar un producto con contenido menor al promedio de los paquetes supervisados? Capítulo 3: Estimadores Muestrales 32 Observando los datos se detecta que la masa del paquete 1 es un dato anómalo comparado con el resto de los datos y la especificación del producto, lo que es corroborado con el gráfico de probabilidad normal demostrando que el dato del paquete 1 es un outlier. Descartando el dato del paquete 1 se calculan los estadígrafos necesarios para el cálculo de la probabilidad utilizando distribución t (los datos son muestrales). �̅� = 328,9 [𝑔] 𝑠 = 19,64 [𝑔] 𝑛 = 9 Figura 3.1. Gráfico de Probabilidad normal de datos de paquetes de galletas 𝑡 = 320− 328,9 19,64 √9 = −1,359 Utilizando la propiedad: 𝑃(𝑡 ≤ 𝑡0) + 𝑃(𝑡 ≤ −𝑡0) = 1 Se tiene: 𝑃(𝑡 ≤ −1,359) = 1 − 𝑃(𝑡 ≥ −1,359) = 1 − [1 − 𝑃(𝑡 ≥ 1,359)] = 𝑃(𝑡 ≥ 1,359) 𝑃(𝑡 ≥ 1,359, 𝜈 = 8) = 0,1056 = 10,56% 3.3.- En un reactor se lleva a cabo una reacción ácida. Se realizan 12 mediciones aleatorias para determinar el pH de la solución. Las mediciones se presentan en la tabla 3.2: Tabla 3.2. Mediciones de pH en reactor. 2,94 2,75 2,75 2,81 2,90 2,90 2,82 2,95 3,00 2,95 3,00 3,05 Calcule el intervalo de confianza para un 70%, 95% y 99% de nivel de confianza. ¿Qué implicancia tienen? �̅� = 2,90 𝑠 = 0,099 𝑛 = 12 0 0,2 0,4 0,6 0,8 1 50 150 250 350 Q i [ -] Masa galletas [g] Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 33 Nivel de confianza [%] 𝜶 𝒕 (𝝂, 𝜶 𝟐 ) 𝒕 𝒔 √𝒏 mínimo máximo 70 0,3 1,088 0,033 2,87 2,93 95 0,05 2,201 0,069 2,83 2,97 99 0,01 3,106 0,101 2,80 3,00 Mientras mayor confianza se tenga, mayor es el rango del intervalo de confianza. 3.4.- Un equipo de campaña electoral de un candidato para diputado por un distrito de 15000 votantes realiza una encuesta para conocer el apoyo hacia su candidato. Realizan una encuesta a 101 personas, donde determinan un promedio de aprobación de 15,2% y desviación estándar de 2,3. Estiman el apoyo de la población mediante intervalo de confianza con un nivel de confianza de 95%. Posterior a este resultado, consideran que la cantidad de encuestados es muy pequeña, por ello deciden sumar 900 encuestas a las ya existentes, obteniéndose como resultado un promedio de aprobación de 14,7% y una desviación estándar de 2,6. Estiman nuevamente el apoyo de la población mediante intervalo de confianza con un nivel de confianza de 95%. Analice como cambia el intervalo de confianza entre la primera y segunda encuesta. Intervalo para la primera encuesta: �̅� = 15,2 𝑠 = 2,3 𝑛 = 101 𝑡 (𝜈 = 100, 𝛼 2 = 95%) = 1,984 𝐼𝐶 = 15,2 ± 1,984 2,3 √101 = [14,75;15,65] Intervalo para la segunda encuesta: �̅� = 14,7 𝑠 = 2,6 𝑛 = 1001 𝑡 (𝜈 = 1000, 𝛼 2 = 95%) = 1,962 𝐼𝐶 = 14,7 ± 1,962 2,6 √1001= [14,53;14,86] Aunque entre las dos encuestas hay variación del promedio y desviación, la modificación principal al intervalo de confianza la hace el tamaño de la muestra, lo que acorta el rango del intervalo. 3.5.- Una empresa productora de tubos de pvc presenta problemas en la cortadora de tubos al final de la línea y rara vez se obtiene un producto con la longitud especificada. Se detecta la falla y se detiene la producción, se alcanzaron a producir 3000 tubos. Se toma una muestra de 25 tubos y se determina que el promedio: 1,55[m] y varianza 0,16[m2]. a) ¿Cuál es la probabilidad de encontrar un tubo de longitud mayor a 1,65[m]? b) La especificación del producto es un largo de 1,70[m]. Con un 95% de certidumbre, ¿se puede asegurar que dicho lote de 3000 tubos cumple con los requerimientos? c) Si según registros de la empresa la varianza de los tubos producidos es 1,24[m 2 ]. ¿Se puede asegurar que dicho lote cumple con los requerimientos? Capítulo 3: Estimadores Muestrales 34 a) �̅� = 1,55 𝑠2 = 0,16 → 𝑠 = √𝑠2 = 0,4 𝑛 = 25 𝑡 = 𝑥 − �̅� 𝑠 √𝑛 = 1,65 − 1,55 0,4 √25 = 1,25 𝑃(𝑡 = 1,25; 𝜐 = 24) = 0,138 = 13,8% b) Se debe realizar un test de hipótesis de dos colas: 𝐻0: 𝜇 = 1,70 𝐻1: 𝜇 ≠ 1,70 Como se va a estimar µ a partir del parámetro �̅� y se cuenta con el dato de 𝑠𝑥 se utiliza la distribución t. 𝑡 = �̅� − 𝜇 𝑠𝑥𝑛̅̅ ̅̅ = �̅� − 𝜇 𝑠𝑥 √𝑛 = 1,55− 1,70 0,4 √25 − 1,83 De tabla t se lee t con 95% de nivel de n y 24 grados de libertad: 𝑡(𝑁𝐶=95%,𝜐=24) = 2,064 Se realiza el siguiente análisis: ¿𝑡 ∈ [−𝑡(𝑁𝐶=95%,𝜐=24), 𝑡(𝑁𝐶=95%,𝜐=24)]? −2,064 < 𝑡 = −1,83 < 2,064 (𝐻0𝑒𝑠 𝑉)Entonces con un 95% de certidumbre se puede asegurar que la media de los tubos de ese lote es 1,70 [m] c) A diferencia del punto b) en este caso contamos con la varianza poblacional 𝜎2 = 1,24, por lo que el análisis ahora debe realizarse mediante distribución z: 𝐻0: 𝜇 = 1,70 𝐻1: 𝜇 ≠ 1,70 𝑧 = �̅� − 𝜇 𝜎𝑥𝑛̅̅ ̅̅ = �̅� − 𝜇 𝜎𝑥 √𝑛 = 1,55 − 1,70 √1,24 25 = −0,67 De tabla z se lee 𝑧𝛼/2 y 𝑧1−𝛼/2 donde 𝛼 se determina del nivel de confianza deseado, generalmente se toma un 95% Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 35 1 − 𝛼 = 0,95 Por tanto se lee 𝑧(𝛼/2=0,025) = 0,510 𝑧(1−𝛼/2=0,975) = 0,835 Se realiza el siguiente análisis: ¿𝑧 ∈ [𝑧(𝛼/2=0,025), 𝑧(1−𝛼/2=0,975)]? 𝑧 = −0,67 no pertenece a aquel intervalo, (𝐻0 𝑒𝑠 𝐹) por lo que con un 95% de certidumbre se puede asegurar que la media de los tubos de ese lote no es 1,70 [m]. ¿En qué se diferencian b) y c) que entregan inferencias distintas?. En que en b) se utiliza la desviación de una muestra y en c) se utiliza la desviación poblacional y el nivel de certeza de los datos es mayor en el segundo caso que en el primero. 3.6.-De acuerdo a lo que indica la empresa de margarina, su producto es completamente light. Sin embargo, un grupo de consumidores están convencidos que la causa de su aumento de peso sostenido es la cantidad de grasas saturadas de la margarina. Para probar su punto, han tomado 6 muestras aleatorias de margarina y les han hecho un análisis de laboratorio para determinar su contenido de grasas saturadas, obteniendo los siguientes resultados en porcentajes : Tabla 3.3. Contenido de grasas saturadas (%) en muestras de margarina 16,8 17,2 17,4 16,9 16,5 17,1 Si se sabe que el nivel máximo de grasas saturadas para que una margarina sea considerada light es de 𝟏𝟔, 𝟒%, determinar mediante un intervalo de confianza (IC) si los consumidores están en lo cierto con un 99% de certeza. A partir de los datos tabulados, se puede obtener sus parámetros estimados: 𝑥𝑛̅̅ ̅ = 16,98 𝑠𝑥 = 0,32 Para realizar una inferencia en relación al contenido de grasas, es necesario utilizar la distribución t (puesto que se conoce 𝑠𝑥) Utilizando la ecuación del intervalo de confianza: 16,98 − tα 2 ,ν 0,32 √6 ≤ μ ≤ 16.98 + tα 2 ,ν 0,32 √6 De tabla, considerando un nivel de certeza del 99%: tα 2 ,ν = t0,005;5 = 4,032 Reemplazando: Capítulo 3: Estimadores Muestrales 36 16,98− 4,032 0,32 √6 ≤ μ ≤ 16,98 + 4,032 0,32 √6 16,46 ≤ μ ≤ 17,51 Se observa que el intervalo de confianza del 99% está por sobre el límite crítico para considerar un producto light, por lo tanto se puede inferir que la media del contenido de grasas de la mantequilla está por sobre los límites para ser considerada light con un 99% de certeza, es decir, los consumidores tienen razón en términos de la composición del producto. Para realizar una inferencia con respecto a las enfermedades cardiovasculares habría que analizar la correlación entre el número de accidentes y la concentración de las grasas saturadas en el intervalo en estudio. 3.7.-La planta de producción de 𝑯𝟐𝑺𝑶𝟒 en la que usted trabaja está en fase de revamping (aumento de capacidad). El objetivo de la intervención que se está realizando es aumentar el rendimiento de la reacción catalizada, representada en la ecuación (3.1). Como alternativa, se baraja el reemplazo del catalizador de la reacción. Sin embargo, la nueva alternativa es más cara, por lo que se tomará la decisión de cambio, sí y sólo sí, el rendimiento medio de la reacción con el nuevo catalizador es a lo menos del 20% (valor obtenido luego de un análisis económico y que corresponde a aumentar el rendimiento de la reacción en 5% con respecto al valor medio actual). Tabla 3.4. Rendimiento de reacción de corridas experimentales. Exp Rendimiento [%] 1 19,5 2 21,3 3 24,7 4 20,1 5 18,7 6 21 7 21,5 8 19,8 9 21,8 10 17,9 Para tomar la decisión, usted propone realizar 10 corridas experimentales con el nuevo catalizador. Los resultados de los experimentos realizados de manera aleatoria, es decir: todos los experimentos hechos con la misma cantidad de catalizador nuevo, aleatorizando a los operarios (quienes no sabían que se trataba de un nuevo producto), se muestran en la Tabla 3.4. 𝑺𝑶𝟐 + 𝟏 𝟐 𝑶𝟐 +𝑯𝟐𝑶 𝑲 →𝑯𝟐𝑺𝑶𝟒 (3.1) A partir de estos datos. a) Plantee el test de hipótesis correspondiente, indicando claramente la hipótesis nula y la alternativa b) Obtenga la carga de veracidad de la hipótesis nula con un 95% de certeza, y a partir de este valor infiera. Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 37 c) A partir del resultado obtenido en b), plantee su recomendación sobre la disyuntiva de cambiarse de catalizador o no El test de hipótesis en este caso es: 𝐻0: 𝜇 = 20 equivalente a aceptar el cambio de catalizador 𝐻1: 𝜇 < 20 equivalente a no cambiar el catalizador La prueba consiste entonces en obtener el valor de 𝑡0 a partir de: 𝑥10̅̅ ̅̅ = 20,63 𝑠𝑥 = 1,9 𝑡 = (𝑥10̅̅ ̅̅ − 𝜇0) 𝑠𝑥/√10 = 0,1 Y evaluar la veracidad de 𝑡0: 𝑠𝑖 𝑡 ∈ (−𝑡𝛼,𝜈 ,∞) → 𝐻0: 𝑉 Con 𝑡𝛼,𝜈 = 1,83, se puede indicar con un 95% que no hay razón para dudar de la hipótesis nula Lo que implicaría que se recomienda el cambio de catalizador, porque al menos el rendimiento del nuevo es del 20% 3.8.- Un ingeniero analiza la resistencia a la compresión del hormigón. Este parámetro se distribuye normalmente con 𝝈𝟐 = 𝟏𝟎𝟎𝟎[𝒑𝒔𝒊𝟐]. Una muestra aleatoria de 12 especímenes tiene una resistencia a la compresión de �̅� = 𝟑𝟐𝟓𝟎[𝒑𝒔𝒊]. a) Construya un intervalo de confianza del 95% para la resistencia a la compresión. ¿Qué indica este valor? b) Construya un intervalo de confianza del 99% para la resistencia a la compresión. Comparar la anchura de este intervalo de confianza con el ancho de la parte (a). a) Inicialmente se debe determinar el valor de 𝛼 2 . Un 95% de confianza implica un 𝛼 = 0,05 → 𝛼 2 = 0,025.Ahora se debe buscar que valor de z entrega una probabilidad de 1 − 𝛼 2 = 1− 0,025 = 0,975 𝑧0,025 = 1,96 𝐼𝐶 = �̅� ± 𝑧𝛼/2 𝜎 √𝑛 = 3250 ± 1,96√ 1000 12 = [3232 − 3268] b)Un 99% de confianza implica un 𝛼 = 0,01 → 𝛼 2 = 0,005. Así: 𝑧0,005 = 2,58 𝐼𝐶 = �̅� ± 𝑧𝛼/2 𝜎 √𝑛 = 3250 ± 2,58√ 1000 12 = [3227 − 3274] Capítulo 3: Estimadores Muestrales 38 El intervalo a un 99% de confianza es más amplio que el intervalo a 95% y es numéricamente efecto del valor de z. 3.9.- Se tomaron 100 muestras aleatorias de agua de un lago de agua dulce y se les midió la concentración de calcio en mg/L. El intervalo de confianza del 95% en la concentración de calcio es 0,49-0,82. a) ¿Podría un Intervalo de Confianza del 90% calculado a partir de los mismos datos de la muestra ser más ancho? b) Considere la siguiente afirmación: Hay una probabilidad del 95% de que la media se encuentre entre 0,49 y 0,82. ¿Es correcta esta afirmación?. c) Considere la siguiente afirmación: Si se repite 1000 veces el procedimiento realizado, el 95% de los intervalos de confianza obtenidos contendrá el valor verdadero de la media. ¿Es correcta esta afirmación?. a) No, mientras menos certeza o porcentaje de confianza el intervalo es más corto. b) La afirmación es falsa. Es una interpretación incorrecta a lo que se refiere a un intervalo de confianza. La probabilidad de que la media se encuentre en cualquier valor del intervalo de confianza es 0 ó 1. El porcentaje indica la confianza con la que se entrega el intervalo. c) Sí, es una interpretación correcta del intervalo de confianza. El límite superior e inferior son variables aleatorias 3.10.- Una industria de alimentos en conserva trata sus residuos líquidos en reactores biológicos y luego los descarga a un río cercano. La carga orgánica presente en los efluentes, cuantificada a través de la DBO5 es medida cada semana. En la Figura 3.1. se presentan los resultados para las 12 primeras semanas del año en curso. La norma Chilena establece un límite máximo de descarga para la DBO5 de 300[mgO2/L] 2. a) ¿Cuál es la probabilidad de que una muestra no cumpla la norma? ¿Tomaría algunas medidas en base a este resultado? Figura 3.1. Contenido de DBO5 en riles de industria de alimentos en los ensayos de los 3 primeros meses del año. 2 Decreto 90. Ministerio Secretaría General de la Presidencia “Establece norma de emisión para la regulación de contaminantes asociados a las descargas de residuos líquidos a aguas marinas y continentales superficiales”. Artículo 4. 278 300 258 342 193 243 264 185 247 204 260 368 150 200 250 300 350 400 1 2 3 4 5 6 7 8 9 10 11 12 D B O 5 [ m gO 2 /L ] Semana Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 39 Durante el 4° mes la industria es multada por exceder más de una vez el límite máximo establecido en un mismo mes, los resultados son presentados en la Figura 3.2. La empresa alarmada analiza la posibilidad de que este hecho puede repetirse. b) ¿Cuál es la probabilidad de que una muestra no cumpla la norma, incluyendo ahora los resultados del 4° mes?, ¿La industria debería preocuparse? Figura 3.2. Contenido de DBO5 en riles de industria de alimentos en los ensayos durante el cuarto mes del año a) �̅� = 262 𝑠 = 55 𝑛 = 12 Al ser datos muestrales debe utilizarse t 𝑡 = 300 − 262 55/√12 = 2,39 𝑃(𝑥 > 300) = 𝑃(𝑡 > 2,39; 𝜈 = 11) = 0,0179 = 1,79% La probabilidad de ocurrencia del suceso es baja, por lo que no es urgentemente necesario tomar medidas. b) �̅� = 260 𝑠 = 59 𝑛 = 16 Al ser datos muestrales debe utilizarse t 𝑡 = 300 − 260 59/√12 = 2,58 𝑃(𝑥 > 300) = 𝑃(𝑡 > 2,58; 𝜈 = 15) = 0,0105 = 1,05% Al igual que el caso anterior, la probabilidad de que ocurra el suceso es baja, por lo que no es recomendable tomar medidas, son hechos extraordinarios en términos probabilísticos. 304 202 182 337 150 170 190 210 230 250 270 290 310 330 350 13 14 15 16 D B O 5 [ m gO 2 /L ] Semana Capítulo 3: Estimadores Muestrales 40 3.11.- El proceso de conversión del cobre sulfurado en una minera se lleva a cabo en un horno flash, el cual últimamente ha presentado problemas al entregar un eje de menor ley a la presupuestada, el ingeniero a cargo presume que el problema se debe a la temperatura del horno la cual sería insuficiente para que se lleven a cabo las reacciones requeridas. 2𝐶𝑢𝐹𝑒𝑆2 + 𝑂2 → 𝐶𝑢2𝑆 + 2𝐹𝑒𝑆 + 𝑆𝑂2 𝐶𝑢2𝑆 + 𝑂2 → 2𝐶𝑢 + 𝑆𝑂2 1220 − 1240 [°𝐶] Figura 3.3. Esquema y reacciones en un Horno Flash Para determinar la temperatura del horno con mayor exactitud, deciden recurrir a termocuplas de sacrificio, que es literalmente, lanzar una termocupla al horno, que registre la temperatura y se destruya. Para validar los datos se realizan réplicas de las mediciones: Tabla 3.4. Mediciones de temperatura de termocuplas de sacrificio. Temperatura [°C] 1218 1258 1173 1143 a) ¿El horno alcanza la temperatura requerida? b) ¿Se puede justificar que la temperatura sea la causal del problema del horno? c) Critique, comente cambios u otros estudios para obtener mejores conclusiones. a) Para determinar si el horno alcanza la temperatura requerida debería conocerse la temperatura del horno en todo momento, sin embargo cuentan con el sistema de termocuplas de sacrificio que entregan un conjunto de datos (una muestra) y se debe obtener una respuesta de tipo poblacional, así que se recurre al intervalo de confianza de esta temperatura. �̅� = 1198 𝑠 = 50 𝑛 = 4 Se considera un 95% de confianza: 𝑡𝛼 2 =0,025;𝜈=3 = 3,182 Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 41 𝐼𝐶 = �̅� ± 𝑡𝛼/2;𝜈 𝑠 √𝑛 = 1198 ± 3,182 50 √4 = [1118 − 1278] b) El rango de temperatura de la reacción 1220-1240 pertenece al intervalo de confianza, pero hay una gran zona de este que está fuera de la zona de operación. Por lo que es bastante seguro que el horno no alcance la temperatura de operación. Como comentario para asegurar que se obtiene la temperatura de operación debería resultar un intervalo de confianza similar al rango de operación. Sí se puede justificar que la baja en la ley pueda deberse a la temperatura dentro del horno. c) Buscar una manera más exacta de medir la temperatura dado la gran incertidumbre que implica utilizar termocuplas de sacrificio. De igual manera utilizar un método que permita obtener más datos y que sea de forma económica. 42 CAPÍTULO 4: Comparación de 2 tratamientos Comparación de dos tratamientos La comparación de dos tratamientos, corresponde a un procedimiento estadístico que permite inferir a partir de datos muestrales, si existe un efecto estadísticamente significativo en una respuesta de interés, cuando esta se somete a dos tratamientos distintos. La comparación de la media de dos tratamientos (set de datos independientes) se puede realizar a través de intervalo de confianza y test de hipótesis Intervalo de Confianza Comparación de intervalos de confianza individuales. Se establece el intervalo de confianza de la media para cada set de datos y se comparan. Si estos se solapan significa que no existe diferencia significativa entre las medias, por lo que los tratamientos serían idénticos y la diferencia observada (promedios obtenidos) se debe a factores aleatorios. 𝐼𝐶𝑖: 𝜇𝑖 ∈ �̅�𝑖 ± 𝑡𝑖(𝛼 2 ,𝜈) 𝑠𝑖 √𝑛𝑖 𝑖 = 1,2. Intervalo de Confianza de la diferencia de las medias (análisis pareado). En este caso se calcula sólo un intervalo de confianza que considera la diferencia de las medias construido a partir de la diferencia de los promedios.Δ�̅� = �̅�1 − �̅�2 𝐼𝐶: Δ𝜇 ∈ Δ�̅� ± 𝑡 ( 𝛼 2 ,𝜈) 𝑠𝑝𝑜𝑛𝑑√ 1 𝑛1 + 1 𝑛2 𝑠𝑝𝑜𝑛𝑑 = √ 𝜈1𝑠1 2 + 𝜈2𝑠2 2 𝜈1 + 𝜈2 Donde el valor de 𝜈 para el cálculo de 𝑡 es considerado como la suma de los grados de libertad: 𝜈 = 𝜈1 + 𝜈2 Si 0 pertenece a este intervalo significa que las medias son iguales y no existe diferencia significativa entre los tratamientos, por el contrario, si 0 no pertenece, existe diferencia significativa y un tratamiento tendrá mayor media que el otro, según el signo de los límites del intervalo y como se define la diferencia de los promedios. Test de hipótesis de diferencia de las medias De manera análoga al intervalo de confianza de un set de datos, este test de hipótesis considera la diferencia de las medias: Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 43 Hipótesis Nula: 𝐻0: 𝜇 = Δ𝜇 Estadístico 𝑡: 𝑡 = Δ�̅� − Δ𝜇 𝑠𝑝𝑜𝑛𝑑/√𝑛 𝑠𝑝𝑜𝑛𝑑 = √ 𝜈1𝑠1 2 + 𝜈2𝑠2 2 𝜈1 + 𝜈2 Hipótesis Alternativa Zona de Rechazo (𝐻0: 𝐹 → 𝐻1: 𝑉) 𝐻1: 𝜇 ≠ 𝜇 𝑡 > 𝑡(𝛼/2,𝜈) 𝑜 𝑡 < −𝑡(𝛼/2,𝜈) 𝐻1: 𝜇 > 𝜇 𝑡 > 𝑡(𝛼,𝜈) 𝐻1: 𝜇 < 𝜇 𝑡 < −𝑡(𝛼,𝜈) El valor de 𝜈 para el cálculo de 𝑡 es tomado como la suma de los grados de libertad. Test pareado El análisis pareado de datos, permite bloquear el efecto de una variable que no está siendo objeto de estudio, por ejemplo, cuando se toman dos medidas sobre una misma muestra (“antes” y después” de un determinado tratamiento). En este caso, es posible bloquear el efecto de la diferencia que hay entre las muestras que están siendo sujetas a estudio, lo que permite aislar el efecto que produce el tratamiento en estudio. De esta forma, se compara la diferencia de las medidas para cada muestra, lo que implica generar un nuevo set de datos que describa esta diferencia: Δi = 𝑥 1 𝑖 − 𝑥 2 𝑖 Donde 𝑥1 y 𝑥2 corresponde al primer y segundo tratamiento aplicado a la muestra respectivamente. Luego, se aplica test de hipótesis o intervalo de confianza de un estadígrafo a este nuevo conjunto de datos. Test de Varianzas En este capítulo se introduce una herramienta estadística que permite determinar si dos varianzas poblacionales son significativamente iguales o distintas, tópico aplicado en diversos temas posteriores como la falta de ajuste. Este análisis se denomina test de varianzas y se utiliza la distribución de Fisher. La distribución de Fisher corresponde a una función de densidad de probabilidad de la variable F, definida como: 𝐹 = 𝑠1 2/𝜎1 2 𝑠2 2/𝜎2 2 Lo que permite realizar los siguientes test de hipótesis Capítulo 4: Comparación de 2 Tratamientos 44 Hipótesis Nula: 𝐻0: 𝜎1 2 = 𝜎2 2 Estadístico 𝐹0: 𝐹0 = 𝑠1 2 𝑠2 2 Hipótesis Alternativa Zona de Rechazo (𝐻0: 𝐹 → 𝐻1: 𝑉) 𝐻1: 𝜎1 2 ≠ 𝜎2 2 𝐹0 > 𝐹(𝛼/2,𝜈1,𝜈2) 𝑜 𝐹0 < 1/𝐹(𝛼 2 ,𝜈2,𝜈1) 𝐻1: 𝜎1 2 > 𝜎2 2 𝐹0 > 𝐹(𝛼,𝜈1,𝜈2) 𝐻1: 𝜎1 2 < 𝜎2 2 𝐹0 < 𝐹(𝛼,𝜈1,𝜈2) (a) (b) (c) Figura 5.a. Distribución de referencia para 𝑯𝟎:𝝈𝟏 𝟐 = 𝝈𝟐 𝟐, con región crítica para (a) 𝑯𝟏:𝝈𝟏 𝟐 ≠ 𝝈𝟐 𝟐, (b) 𝑯𝟏:𝝈𝟏 𝟐 > 𝝈𝟐 𝟐, (c) 𝑯𝟏:𝝈𝟏 𝟐 < 𝝈𝟐 𝟐. El ejercicio 4.6 incluye Test de Varianzas 𝑭 𝜶 𝟐,𝝂𝟏,𝝂𝟐 𝜶/𝟐 𝜶/𝟐 𝑭 𝟏− 𝜶 𝟐,𝝂𝟏,𝝂𝟐 𝑭 𝜶,𝝂𝟏,𝝂𝟐 𝜶 𝑭 𝜶,𝝂𝟏,𝝂𝟐 𝜶 Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 45 EJERCICIOS 4.1.- La Tabla 4.1. muestra el voltaje entregado por dos sistemas de laboratorio diferentes de generación alterna. ¿Existe diferencia significativa entre ambos sistemas?, fundamente. Realice análisis mediante intervalo de confianza e hipótesis nula de dos tratamientos. Tabla 4.1. Voltaje entregado por dos sistemas de laboratorio Voltaje A [V] 4,9 2,6 -1,2 9,2 8,1 6,9 12,3 0,0 8,5 5,2 Voltaje B [V] 9,2 5,6 5,5 0,3 12,6 4,8 0,8 14,9 4,2 1,7 Se calculan los estadígrafos para cada conjunto de datos A B Promedio 5,56 5,96 Desviación estándar 4,23 4,90 tamaño 10 10 i) Mediante intervalo de confianza: ∆�̅� = �̅�𝐴 − �̅�𝐵 = −0,31 𝐼𝐶 = ∆�̅� ± 𝑡 ( 𝛼 2 ,𝜐) ∙ 𝑠𝑝𝑜𝑛𝑑√ 1 𝑛𝐴 + 1 𝑛𝐵 𝑠𝑝𝑜𝑛𝑑 = √ 𝑠𝐴 2𝜐𝐴 + 𝑠𝐵 2𝜐𝐵 𝜐𝐴 + 𝜐𝐵 = √ 4,232 ∙ 9 + 4,902 ∙ 9 9 + 9 = 4,58 𝑠𝑝𝑜𝑛𝑑√ 1 𝑛𝐴 + 1 𝑛𝐵 = 4,58√ 1 10 + 1 10 = 2,04 𝑡 ( 𝛼 2 ,𝜐) = 𝑡(0,025;18) = 2,10 → 𝐼𝐶 = −0,31 ± 2,10 ∙ 2,04 = {−4,59; 3,97} 0 ∈ 𝐼𝐶 En intervalo de confianza pasa por cero, por lo que con un 95% de confianza se asegura que entre ambos procedimientos no existe diferencia significativa. Capítulo 4: Comparación de 2 Tratamientos 46 ii) Mediante Hipótesis nula: 𝐻0: ∆ 𝜇 = 𝜇𝐴 − 𝜇𝐵 = 0 𝐻1: ∆ 𝜇 ≠ 0 𝑡 = ∆�̅� − ∆𝜇 𝑆𝐸 = ∆�̅� − ∆𝜇 𝑠𝑝𝑜𝑛𝑑√ 1 𝑛𝐴 + 1 𝑛𝐵 = −0,31 − 0 4,58√ 1 10+ 1 10 = 0,15 𝑡 ( 𝛼 2 ,𝜐) = 𝑡(0,025;18) = 2,10 Se realiza el siguiente análisis: ¿𝑡 ∈ [−𝑡(0,025;18), 𝑡(0,025;18)]? −2,01 < 𝑡 = 0,15 < 2,01 𝐻0 𝑒𝑠 𝑉, por lo tanto con un 95% de confianza se asegura que entre ambos procedimientos no existe diferencia significativa. 4.2.- Para la producción de jabón se lleva a cabo la siguiente reacción química de saponificación: 𝑹𝑪𝑶𝑶𝑹´+𝑵𝒂𝑶𝑯 → 𝑵𝒂𝑶𝑶𝑪𝑹+ 𝑹´𝑶𝑯 Una planta desea implementar un nuevo sistema de adición de solución acuosa de NaOH 20%p/p reemplazando el sistema actual de agregar pastillas sólidas y agua, con el fin de mejorar el rendimiento de la producción. Se realiza un estudio donde se recolectan los siguientes datos: Tabla 4.2. Conversión de reacción de saponificación con dos métodos. Método Conversión [%] Pastillas 56,5 60,6 64,9 63,1 61,8 62,1 66,5 65,9 69,3 68,5 74,1 70,5 72,7 78,1 77,7 82,5 Solución 58,3 59,7 62,0 63,0 65,9 66,7 69,5 70,9 72,5 73,4 74,8 76 77,8 79,5 82,6 ¿Existe beneficio significativo al reemplazar el sistema de suministro de NaOH al proceso? Pastillas Solución �̅� 68,43 70,17 𝑠 7,17 7,42 𝑛 16 15 𝜈 15 14 Ejercicios Resueltos de Análisis y Diseño de Experimentos Industriales 47 𝐼𝐶 = ∆�̅� ± 𝑡 ( 𝛼 2 ,𝜐) ∙ 𝑠𝑝𝑜𝑛𝑑√ 1 𝑛𝐴 + 1 𝑛𝐵 ∆�̅� = 70,17− 68,43 = 1,75 𝑠𝑝𝑜𝑛𝑑 = √ 7,172 ∙ 15 + 7,422 ∙ 14 15 + 14 = 7,29 𝑡 (𝜐 = 29, 𝛼 2 = 0,025) = 2,045 𝐼𝐶 = 1,75 ± 2,045 ∙ 7,29√ 1 15 + 1 16 = [−3,61; 7,11] Como el 0 pertenece al intervalo de confianza no existe diferencia significativa entre los métodos y no hay beneficio significativo al reemplazar el sistema de suministro de NaOH 4.3.-El proceso de cracking del petróleo se realiza ayudado por catalizadores, principalmente por alúmina (Al2O3), la cual está en forma de gránulos. En la tabla se muestra la producción de naftas (gasolina) producto del cracking de una refinería en los últimos 6 meses del 2012. A comienzos del 2013 se implementa un catalizador de mayor tamaño de partícula (que resulta ser más económico), al finalizar el mes de Enero evalúan si este cambio produjo una mejora. Tabla 4.3. Producción semanal de nafta en refinería de petróleo Año 2012 2013 Mes Julio Agosto Septiembre Octubre Noviembre Diciembre Enero Toneladas semanales 35 36 36 36 34 35 33 32 32 32 35 32 33 36 35 35 34 33 34 32 35 34 36 34 34 32 34 34 Analice si existe diferencia significativa utilizando Test de Hipótesis. En base al análisis, ¿con cuál catalizador se quedaría? Para plantear el test de hipótesis deben conocerse los estadígrafos de cada conjunto de datos Catalizador 1 (antiguo) Catalizador 2 (nuevo) �̅� 34,0 34,8 𝑠 1,43 1,26 𝑛 24 4 𝜈 23 3 Capítulo 4: Comparación de 2 Tratamientos 48 El test de hipótesis que se plantea busca determinar si el catalizador nuevo obtiene mejores resultados que el antiguo: 𝐻0: ∆ 𝜇 = 𝜇1 − 𝜇2 = 0 𝐻1: ∆ 𝜇 > 0 𝑡 = ∆�̅� − ∆𝜇 𝑆𝐸 = ∆�̅� − ∆𝜇 𝑠𝑝𝑜𝑛𝑑√ 1 𝑛𝐴 + 1 𝑛𝐵 = −0,8 − 0 1,41√ 1 23+ 1 3 = 1,02
Compartir