Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL DE LA RIOJA DEPARTAMENTO ACADÉMICO DE CIENCIAS APLICADAS A LA PRODUCCIÓN, AL AMBIENTE Y AL URBANISMO CÁTEDRA DE ESTADISTICA - CÁTEDRA DE ESTADÍSTICA - ii Sede / Delegación: U.N.LaR. - Sede Capital Departamento Académico: Departamento Académico de Ciencias y Tecnologías Aplicadas a la Producción, al Ambiente y al Urbanismo Carrera: Ingeniería Agroindustrial Plan de Estudio Ordenanza Nº 349/08 Asignatura: Estadística Curso: 2° Régimen: Cuatrimestral Equipo de Cátedra: Prof. Adjunto: Ing. Ramiro Rodolfo de Priego Prof. JTP: Lic. Luís Federico Russo Castore Ayudante de Primera Crédito Horario: 90 horas - CÁTEDRA DE ESTADÍSTICA - iii CONTENIDO CÁTEDRA DE ESTADÍSTICA UNIDAD 1: ESTADÍSTICA DESCRIPTIVA 1.1. LA ESTADÍSTICA. ORIGEN, CONCEPTOS Y EL PAPEL EN LA INGENIERIA Y EN LA CIENCIA 2 1.2. RAMAS DE LA ESTADÍSTICA 3 1.3. POBLACIÓN Y MUESTRA 3 1.4. DATOS, VARIABLES Y ESCALAS 4 1.4.1. DATOS 4 1.4.2. VARIABLES 5 1.4.3. ESCALAS 5 1.5. TIPOS DE MUESTREOS PROBABILÍSTICOS 7 1.6. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 9 1.6.1. ORGANIZACIÓN DE DATOS CUALITATIVOS 9 1.6.2. ORGANIZACIÓN DE DATOS CUANTITATIVOS 12 1.7. MEDIDAS DE TENDENCIA CENTRAL 21 1.7.1. MEDIA ARITMÉTICA 21 1.7.2. MEDIANA 23 1.7.3. MODA 25 1.7.4. VENTAJAS E INCONVENIENTES DE LAS MEDIDAS DE TENDENCIA CENTRAL 27 1.8. MEDIDAS DE VARIABILIDAD 29 1.8.1. RANGO O RECORRIDO 30 1.8.2. RANGO O RECORRIDO INTERCUARTÍLICO 30 1.8.3. DESVIACIÓN MEDIA 31 1.8.4. DESVIACIÓN MEDIANA 31 - CÁTEDRA DE ESTADÍSTICA - iv 1.8.5. VARIANZA Y DESVIACIÓN TÍPICA 32 1.8.6. TEOREMA DE CHEBYCHEV Y REGLA EMPÍRICA 35 1.8.7. COEFICIENTE DE VARIACIÓN 36 1.9. MEDIDAS DE POSICIÓN NO CENTRALES 37 1.9.1. CUARTILES Y PERCENTILES 37 1.10. MEDIDAS DE FORMA 39 1.10.1. ASIMETRÍA 40 1.10.2. CURTOSIS 43 1.11. DIAGRAMA DE CAJA 45 BIBLIOGRAFÍA 48 UNIDAD 1 ESTDÍSTICA DESCRIPTIVA CÁTEDRA DE ESTADÍSTICA - CÁTEDRA DE ESTADÍSTICA - 2 1.1. LA ESTADÍSTICA. ORIGEN, CONCEPTOS Y EL PAPEL EN LA INGENIERIA Y EN LA CIENCIA Desde el punto de vista etimológico, el término Estadística tiene su raíz en la palabra estadista, y esta a su vez, en el latín status, constituyéndose como la exteriorización cuantitativa de las cosas del estado, es decir, la ciencia del estado. También se llamó aritmética política de acuerdo con la traducción literal del inglés. Los antecedentes de la estadística son tan remotos como lo puede ser la historia del hombre, ya que las sociedades humanas, por más primitivas que hayan sido, estaban interesadas en enumerar sus características más importantes. Así, se utilizaban representaciones gráficas y otras medidas en pieles, rocas y paredes de cuevas para controlar el número de personas, animales o ciertas mercancías. Hacia el año 3.000 a.C. los babilonios usaban ya pequeños envases moldeados de arcilla para recopilar datos sobre la producción agrícola y de los géneros vendidos o cambiados y en documentos asirios, egipcios y griegos que preceden a los más cercanos del imperio Romano en el que la preocupación por la actividad censal de los individuos y bienes del estado tenía una clara finalidad tributaria y militar. Posteriormente, el avance general del conocimiento generado en los últimos tres siglos, transformó la estadística convirtiéndola en una ciencia susceptible no solamente de describir la realidad, sino de modelizarla utilizando los métodos del análisis matemático vinculándola al cálculo de probabilidades. La conceptualización que se hace de la estadística varía en un amplio rango de definiciones. Vessereau decía que "la estadística no es solamente un instrumento en manos de los jefes de estado, ministros, hombres de negocios, banqueros, o aseguradores; interviene en los dominios más diversos... La idea primera y, además, fundamental de la Estadística es de recuento o inventario", asignándole el rol de instrumento de aplicación en varias disciplina. Spiegel y Stephens vinculan conceptualmente la estadística con la metodología de la investigación a partir de que "la estadística se ocupa de los métodos científicos para recolectar, organización, resumir, presentar y analizar datos, así como sacar conclusiones válidas y tomar decisiones con base en este análisis". Con la definición de Pliego se hace una distinción entre la estadística descriptiva o deductiva y la inferencial o inductiva. "La Estadística, por tanto, se configura como la tecnología del método científico que proporciona instrumentos para la toma de decisiones cuando estas se adoptan en ambiente de incertidumbre, siempre que esta incertidumbre pueda ser medida en términos de probabilidad. Por ello, la estadística se preocupa de los métodos de recogida y descripción de datos, así como de generar técnicas para el análisis de esta información". A partir de la obra de Hines, Montgomery, Godsman y Borro, se hace referencia a la importancia de la estadística en el manejo de la información en las distintas disciplinas. "La estadística https://es.wikipedia.org/wiki/Idioma_ingl%C3%A9s https://es.wikipedia.org/wiki/Siglo_XXXI_a._C. - CÁTEDRA DE ESTADÍSTICA - 3 trata de la recopilación, presentación, análisis y uso de la información para resolver problemas, tomar decisiones, desarrollar estimaciones, y diseñar y desarrollar productos y procedimiento. Un conocimiento de la estadística básica y de los métodos estadísticos es útil para cualquier persona; sin embargo, puesto que ingenieros, científicos y profesionales en administración científica trabajan todos los días con la información, dominar esta disciplina es particularmente importante”. Por último, Báez comenta que "explícita o implícitamente se reconoce a la matemática en tanto teoría que brinda el marco conceptual y valida los procedimientos para que la estadística se desarrolle". Así, la estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos que desarrollaron la teoría de las probabilidades con la cual se adhirió a la estadística a las ciencias formales. Así, a partir de los conceptos presentados, la aplicación de la estadística en el campo de la ingeniería puede constituirse en una herramienta poderosa para diseñar nuevos productos, perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos de producción. La estadística es un elemento decisivo en el incremento de la calidad ya que las técnicas estadísticas pueden emplearse para describir y comprender la variabilidad de los procesos productivos, impactando en la productividad global, en el mercado y la posición competitiva. En general, la variabilidad es el resultado de cambios en las condiciones bajo las que se hacen las observaciones. En el contexto de la manufactura, estos cambios pueden ser debido a diferencias en las propiedades de los materiales utilizados, en la forma que trabajan los operarios, en las variables del proceso tales como temperatura, presión o concentración y en factores ambientales como la humedad y la temperatura ambiente. 1.2. RAMAS DE LA ESTADÍSTICA Dependiendo del propósito del estudio, la estadística puede ser: 1. Descriptiva o deductiva. La estadística descriptiva comprende aquellos métodos usados para recopilar, organizar y describir la información que se ha recogido en forma de muestra con el fin de describir sus características. 2. Inferencial o inductiva. La estadística inferencialcomprende aquellos métodos y técnicas usadas para hacer generalizaciones, predicciones o estimaciones sobre una característica de la población o la toma de una decisión con respecto a una población a partir de una muestra de ella. 1.3. POBLACIÓN Y MUESTRA La población puede definirse como el conjunto de individuos o elementos que son objeto de estudio o también la que esta formada por la totalidad de las observaciones en las cuales se tiene cierto interés. El tamaño de la población puede ser finito, cuando el número de elementos que la - CÁTEDRA DE ESTADÍSTICA - 4 forman es numerable, es decir, se puede contar o infinito, cuando el número de elementos que la forman es incontable o tan grande que puede considerarse infinito. Una muestra estadística se define como un subconjunto de la población. La selección de una muestra que sea representativa de una población es un problema importante en la investigación estadística ya que esta puede proporcionar una visión útil de la naturaleza de la población que se estudia, mientras que una muestra no representativa de la población de estudio puede derivar en conclusiones totalmente erróneas. La selección de elementos de una población pueden realizarse a partir de un muestreo aleatorio o probabilístico en donde cada elemento de la población tiene la misma probabilidad de ser elegido, o bien, a partir de un muestreo no aleatorio o no probabilístico, caracterizándose por que algunos elementos de la población tienen mayores probabilidades de ser elegidos que otros. El muestreo puede realizarse con reemplazo de los elementos seleccionados, implicando esto que una vez seleccionado un elemento, este se regresa al marco donde tiene la misma probabilidad de ser elegido de nuevo. La probabilidad de selección de cada elemento es 1/N y la misma permanece constante hasta alcanzar el tamaño de muestra n deseado, pero, suele considerarse más adecuado tener una muestra de elementos diferentes en lugar de permitir la repetición de mediciones del mismo elemento. La otra forma en que puede efectuarse el muestreo es sin reemplazo en donde el elemento seleccionado no regresa al marco y por lo tanto no puede elegirse otra vez. Así, la probabilidad de que algún elemento específico de la población sea elegido en el primer intento es 1/N y la probabilidad de que cualquier individuo no seleccionado, salga elegido en el segundo intento será 1/N-1 continuando el proceso hasta alcanzar el tamaño de muestra n deseado. 1.4. DATOS, VARIABLES Y ESCALAS 1.4.1. DATOS Una unidad de observación, experimental o elemento es la entidad sobre la cual se efectúa mediciones o bien, se intenta realizar clasificaciones en determinadas categorías. El dato, es el registro, numérico o no, que se obtiene como resultado de observar cierta característica de interés en una unidad experimental. Por ejemplo, si se necesita realizar un análisis sobre el peso de latas de tomate en conserva, la unidad experimental es la lata de conserva y el peso de esta constituye un dato mientras que el conjunto de datos obtenidos de cada unidad experimental o elemento será la base para realizar el análisis. - CÁTEDRA DE ESTADÍSTICA - 5 1.4.2. VARIABLES Los elementos o unidades experimentales que conforman la población poseen una serie de cualidades, propiedades o rasgos comunes denominados caracteres y la variación de estos caracteres entre los elementos constituye la variable. Los variables se pueden clasificar en: Variables cualitativas o categóricas. Son aquellas que por su propia naturaleza no se pueden medir y se describen mediante palabras. Son producto de conteo. Por ejemplo, el género, nacionalidad, tipo de trabajo o modelo de auto. Variables cuantitativas o numéricas. Son aquellos que se pueden describir mediante números, es decir, que son susceptibles de cuantificación o de medición. Por ejemplo, puntajes de un examen, el peso, salario de una persona o minutos de demora en recorrer una distancia. Dentro de las variables cuantitativas o numéricas se pueden encontrar dos clases de variables: 1. Variables discretas. Una variable de este tipo toma un número finito o infinito numerable de valores, o bien, si entre dos valores consecutivos puede tomar a lo sumo un número finito de valores. Por ejemplo, cantidad de hijos, cantidad de empleados de una fábrica o cantidad de moléculas raras en una muestra de agua. 2. Variables continuas. Una variable de este tipo toma un número infinito de valores en un intervalo, o expresado de otra manera, considerando dos valores consecutivos puede tomar cualquier otro. Por ejemplo, peso de una persona, altura, salarios de empleados de una empresa o metros de tela producidos por un telar. 1.4.3. ESCALAS Para realizar un correcto análisis de datos es fundamental conocer la clasificación que hace referencia a las propiedades métricas de las escalas bajo las cuales pueden aparecer las observaciones. Esta clasificación de las escalas es: Escala nominal. Esta escala representa una categoría o identifica un grupo de pertenencia y sólo permite establecer relaciones de igualdad o desigualdad entre los elementos de la variable. La asignación de los valores se realiza en forma aleatoria por lo que no cuenta con un orden lógico. Por ejemplo, a la variable género, puede asignársele un valor a los varones y otro diferente a las mujeres pero no se puede establecer que uno es mayor que el otro. Escala ordinal. Esta escala representa una categoría o identifica un grupo de pertenencia contando con un orden lógico. Este tipo de escala permite establecer relaciones de igualdad o desigualdad y a su vez identificar si una categoría es mayor o menor que otra. Por ejemplo, la variable nivel de educación corresponde a esta escala, ya que se puede establecer que una persona con título de postgrado tiene un nivel de educación superior al de una persona con título de bachiller. En esta - CÁTEDRA DE ESTADÍSTICA - 6 escala no se puede determinar la distancia entre sus categorías, ya que no es cuantificable o medible. Escala de intervalos. Esta escala representa magnitudes, con la propiedad de igualdad de la distancia entre puntos de escala de la misma amplitud. Con este tipo de escala se puede realizar comparaciones de igualdad o desigualdad, establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, es decir, el cero es arbitrario, por lo que este valor no indica ausencia de la característica sino que la misma está presente y su valor es cero. Esto a su vez implica que las operaciones de multiplicación y división no sean realizables. La medición en una escala de intervalos se fundamenta en suponer que puede conocerse exactamente la diferencia entre los elementos medidos según esta escala, por ejemplo, la diferencia entre los valores 9 y 10 es la misma que entre los valores 1 y 2, o entre 19 y 20. Un cambio unitario en la escala reflejará siempre el mismo cambio en el elemento medido. Por ejemplo, la temperatura, la ubicación en una autopista respecto de un punto de referencia o el nivel de aceite en un motor medido con una vara graduada corresponden a variables medidas con esta escala. Escala de proporción. Esta escala posee las mismas características de la escala de intervalo con la diferencia que cuenta con un cero absoluto, es decir, el valor cero representa la ausencia de la característica, permitiendo realizar cualquier operación aritmética, por lo tanto los números pueden compararse como proporciones y nos permite indicar cuántas veces es más grande un objeto que otro, además de señalar la cantidad en que difieren. Por ejemplo, las magnitudes físicas tales como el peso, longitud, o velocidad se miden con esta escala, al igual que la eficiencia productiva o el combustibleconsumido por día por una caldera. EJERCICIO 1.1. Diferenciar los tipos de variables de la lista propuesta. Longitud de barras de acero Variable cuantitativa continua Estado civil Variable cualitativa Peso de la bolsa de azúcar Variable cuantitativa continua Cantidad de defectuosos por lote Variable cuantitativa discreta Nivel de educación Variable cualitativa Cantidad de reclamos por día Variable cuantitativa discreta Ingreso per cápita Variable cuantitativa continua Nacionalidad Variable cualitativa EJERCICIO 1.2. Una muestra de 150 rollos de tela correspondiente a la producción del mes de Julio 2017 reveló que 9 de están fuera de tolerancia en cuanto a su gramaje. Determinar: 1. La población, muestra y la unidad de observación como así también el tipo de variable de estudio. - CÁTEDRA DE ESTADÍSTICA - 7 Población Cantidad de rollos producidos en Julio 2017 Muestra 150 rollos seleccionados Unidad de observación El rollo Variable de estudio Gramaje - Numérica continua - Escala de proporción 2. ¿Que se puede inferir sobre la totalidad de la producción del mes de Julio 2.017? El 0,06 o 6% de los rollos producidos en el mes de Julio 2.017 se encuentran fuera de tolerancia en cuanto a su gramaje. 3. ¿Que cálculo se verifico? Se calculó una proporción y un porcentaje. EJERCICIO 1.3. Especificar en cada caso la escala de medición empleada. Estado civil Escala nominal Nivel de satisfacción (alto, medio y bajo) Escala ordinal Eficiencia productiva Escala de proporción Genero Escala nominal Nivel de educación Escala ordinal Nacionalidad Escala nominal 1.5. TIPOS DE MUESTREOS PROBABILÍSTICOS Antes de estudiar como debe tomarse una muestra de la población, se puede preguntar por que razón tomar muestras. La alternativa es intentar obtener información de cada elemento de la población, lo que constituye un censo. Hay tres razones por las que una muestra es preferible a un censo, la primera es que en muchas aplicaciones realizar un censo resultaría muy costoso, la segunda es que muchas veces se necesita obtener la información con rapidez y finalmente, con los métodos estadísticos es posible obtener resultados con el nivel de precisión deseado mediante el muestreo. Los tipos de muestreos probabilísticos o aleatorios utilizados son: Muestreo aleatorio simple. En un muestreo aleatorio simple cada elemento de una población tiene la misma probabilidad de ser elegido. Además, cada muestra de un tamaño n determinado tiene la misma probabilidad de ser elegida que cualquier otra muestra del mismo tamaño. Este tipo de muestreo es la técnica de muestreo aleatorio más elemental y constituye la base para otras técnicas. Uno de los métodos utilizados para obtener una muestra aleatoria es usar una tabla de números aleatorios. La misma esta formada por una serie de dígitos que se generan en forma aleatoria y se colocan en la secuencia en que se generaron y cada dígito o secuencia de dígitos de la tabla se puede leer en sentido horizontal o vertical. Para usar una tabla de números aleatorios - CÁTEDRA DE ESTADÍSTICA - 8 primero se debe asignar números de códigos a los elementos de la población y se obtiene la muestra aleatoria leyendo la tabla y seleccionando los elementos del marco de población cuyos números de código coinciden con los dígitos encontrados en la tabla. Las muestras aleatorias simples siempre son diferentes de sus poblaciones en algunos aspectos y en ocasiones podrían ser considerablemente diferentes. Así, dos muestras de la misma población también serán diferentes entre si. Este fenómeno se conoce como variación del muestreo y por eso los experimentos tienen resultados diferentes cuando se repiten aún en condiciones prácticamente iguales. La ventaja de una muestra aleatoria simple es que no hay ningún mecanismo sistémico que la haga poco representativa. Las diferencias entre la muestra y su población son atribuibles completamente a la variación aleatoria. Debido a que la teoría matemática sobre la variación aleatoria se comprende bien, se pueden usar modelos matemáticos para estudiar la relación entre muestras aleatorias simples y sus poblaciones. Muestreo sistemático. En un muestreo sistemático, se dividen N elementos del marco poblacional en k grupos, realizando el cociente entre el tamaño de la población N y el tamaño de la muestra deseado n, es decir k = N/n, donde k se redondea al entero más cercano. Para obtener una muestra sistemática, el primer individuo o elemento se selecciona al azar entre los k elementos del primer grupo del marco de población y, para el resto de la muestra se elige un elemento cada k en la lista completa de la población. Cuando el marco de población consiste en listados predeterminados es más rápido y fácil obtener una muestra sistemática que una muestra aleatoria simple. En estas situaciones el muestreo sistemático es un mecanismo conveniente para obtener los datos deseados. Muestreo estratificado. En un muestreo estratificado, primero se dividen los N elementos de la población en subpoblaciones separadas o estratos de acuerdo con algunas características en común. Los estratos suelen ser grupos homogéneos de elementos, que a su vez son heterogéneos entre diferentes grupos o estratos. Por ejemplo, si en un estudio esperamos encontrar un comportamiento muy diferente entre hombres y mujeres, puede ser conveniente definir dos estratos, uno por cada sexo. Si la selección de estos estratos es correcta los hombres deberían comportarse de forma parecida entre ellos, las mujeres deberían comportarse de forma muy similar entre ellas y hombres y mujeres deberían mostrar comportamientos dispares entre sí. Si la anterior condición se cumple, estratos homogéneos internamente y heterogéneos entre sí, el uso del muestreo aleatorio estratificado reduce el error muestral, mejorando la precisión de nuestros resultados al realizar un estudio sobre la muestra. Estos métodos de muestreo son más eficientes que el muestreo aleatorio simple o el sistemático porque garantizan la representación de elementos de toda la población, lo que asegura una mayor precisión en las estimaciones de los parámetros poblacionales fundamentales a raíz de la homogeneidad de elementos dentro de cada estrato. - CÁTEDRA DE ESTADÍSTICA - 9 Muestreo por conglomerados. En un muestreo por conglomerados, se divide los N elementos de la población en varios conglomerados, de manera que cada conglomerado sea representativo de la población completa. Después, se obtiene una muestra aleatoria de los conglomerados y se estudian todos los elementos dentro de cada conglomerado seleccionado. Los conglomerados pueden ser asignaciones naturales, como departamentos, ciudades, manzanas, familias o edificio de departamento. Tanto en el muestreo por conglomerados como en el muestreo estratificado, se divide la población en grupos. Sin embargo, los principios detrás de ambas técnicas son en cierto modo opuestos. El muestreo estratificado es especialmente adecuado cuando los estratos son muy homogéneos internamente y muy diferentes entre sí, asegurando que tenemos representantes en nuestra muestra que provienen de todos los estratos. Por el contrario, el muestreo por conglomerados es muy adecuado cuando los grupos en que dividimos la población son muy similares entre sí, por lo que no hay gran diferencia entre estudiar individuos de un grupo o de otro. Es por ello que pese a que ambas técnicas dividen la población, en estratos o conglomerados, el proceso de selección de elementos es totalmente diferente. Los métodos de muestreo por conglomerados pueden ser más eficientes, en relación al costo, que los métodos de muestreo aleatorio simple, sobre todo si la población en cuestión se encuentra esparcida en una vasta región geográfica. Sin embargo, los métodos de muestreo por conglomerados tienden a ser menos eficientesque los métodos de muestreo aleatorio simple o de muestreo estratificado y necesitan una muestra total más grande para obtener resultados tan precisos como los que se obtienen con los procedimientos más eficientes. 1.6. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS Una vez generado los datos, el objetivo es resumir la información destacando las características más importantes de los datos. Existen técnicas estadísticas descriptivas cuya finalidad es presentar la información en tablas, obtener medidas numéricas que resuman la información y otras tienen carácter netamente gráficos. Por lo tanto, la forma adecuada de trabajar los datos dependerá de las características de estos y del objetivo del análisis. 1.6.1. ORGANIZACIÓN DE DATOS CUALITATIVOS Para comenzar con la organización de los datos, se construye una tabla de frecuencias para variables cualitativas o categóricas, en la cual se asocia cada categoría de la variable con la cantidad de veces que se repite la misma. Para ilustrarlo, se desarrolla el ejercicio descripto más abajo. EJERCICIO 1.4. Con los datos correspondientes al año 2.016 sobre hechos delictivos cometidos en la Provincia de La Rioja construir una tabla de frecuencia y representaciones gráficas. https://www.netquest.com/blog/es/muestreo-probabilistico-muestreo-estratificado - CÁTEDRA DE ESTADÍSTICA - 10 Tabla 1.1. Homicidios Dolosos y Culposos, Tentativas y Lesiones. Provincia de La Rioja. Año 2016 Cantidades de Hechos. Delitos Cantidad de delitos Porcentaje Homicidios Dolosos 10 0,492% Tentativas de Homicidio 1 0,049% Muertes en Acc. Viales 70 3,448% Homicidios Culposos * 0 0,000% Lesiones Dolosas 460 22,660% Lesiones Culposas en Acc. Viales 1.489 73,349% Otras Lesiones Culposas 0 0,000% Total 2.030 100% Fuente: Ministerio de Seguridad de la Nación - Sistema Nacional de Información Criminal (SNIC). *Los datos sobre Homicidios Culposos excluyen los accidentes viales. Los mismos presentan una distribución anormal que podría ser explicada por diversos criterios de categorización, y a su vez por distintos niveles de judicialización de accidentes. La información resumida en la Tabla 1.1. se puede representar gráficamente a partir de un diagrama de barras en donde la longitud de cada barra es proporcional, a partir de una escala, a la frecuencia de cada una de las categorías. Figura 1.1. Gráfico de bastones. Homicidios Dolosos y Culposos, Tentativas y Lesiones. Provincia de La Rioja. Año 2.016 Cantidades de Hechos. 0 200 400 600 800 1000 1200 1400 1600 Homicidios Dolosos Tentativas de Homicidio Muertes en Acc. Viales Homicidios Culposos * Lesiones Dolosas Lesiones Culposas en Acc. Viales Otras Lesiones Culposas Delitos C an ti d ad La Tabla 1.1. se denomina tabla de distribución de frecuencia ya que la misma muestra como se distribuyen los diferentes hechos delictivos a lo largo del año 2.016 en la Provincia de La Rioja. La columna Cantidad de delitos corresponde a la frecuencia absoluta, la cual determina el número de veces que se repite cada categoría de la variable. - CÁTEDRA DE ESTADÍSTICA - 11 Tabla 1.2. Tabla de frecuencias relativas. Homicidios Dolosos y Culposos, Tentativas y Lesiones. Provincia de La Rioja. Año 2016 Cantidades de Hechos. Delitos Frec. relativa hi Porcentaje Homicidios Dolosos 0,00492 0,492% Tentativas de Homicidio 0,00049 0,049% Muertes en Acc. Viales 0,03448 3,448% Homicidios Culposos * 0,00000 0,000% Lesiones Dolosas 0,22660 22,660% Lesiones Culposas en Acc. Viales 0,73349 73,349% Otras Lesiones Culposas 0,00000 0,000% Total 1 100% Fuente: Elaboración propia. En la Tabla 1.2., la columna Frecuencia relativa representa la proporción de veces que ocurre cada una de las categorías mientras que la columna Porcentaje es la misma frecuencia expresada en tantos por cien. EJERCICIO 1.5. Se tomó una muestra de personas económicamente activas de cierto barrio y se les pregunta tipo de trabajo. Estos se resumen en la Tabla 1.3. Tabla 1.3. Tipos de trabajo por Género. Tipo de trabajo Género Total Masculino Femenino Adm. Pública Prov. 54 38 92 Adm. Pública Nac. 18 10 28 Prof. Independiente 35 20 55 Empleado Industrial 21 4 25 Desocupados 12 8 20 Otros Trabajos 9 3 12 Total 149 83 232 Fuente: Elaboración propia. Este tipo de tablas se denominan tablas de contingencias y se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa o categórica. En este caso, se trabaja con dos variables, la primera el género y la segunda recoge el tipo de trabajo. Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el total de elementos o unidades observacionales. https://es.wikipedia.org/wiki/Variable_estad%C3%ADstica#Variables_cualitativas - CÁTEDRA DE ESTADÍSTICA - 12 Figura 1.2. Gráfico de bastones. Tipos de trabajo por género. 0 10 20 30 40 50 60 Adm. Pública Prov. Adm. Pública Nac. Prof. Independiente Empleado Industrial Desocupados Otros Trabajos Tipo de Trabajo G é n e ro Masculino Femenino 1.6.2. ORGANIZACIÓN DE DATOS CUANTITATIVOS Cuando la variable de estudio es cuantitativa o numérica, se debe distinguir entre variable discreta y continua. Además se debe tener en cuenta la cantidad de datos que conforman la muestra o población. Cuando la cantidad de observaciones es relativamente poca, el análisis de los datos se puede realizar sin agrupar los mismos como se muestra en el siguiente ejercicio. EJERCICIO 1.6. Se realizó un seguimiento durante 16 días de la producción diaria de un telar circular, manteniendo constante la velocidad de trabajo y a los mismos maquinistas, con el fin de analizar el comportamiento del mismo frente al hilado proveniente de un proveedor determinado. Las producciones observadas son: Tabla 1.4. Producción diaria de telar circular. Día Producción kg Día Producción kg Día Producción kg Día Producción kg 1 1.200 5 1.143 9 1.090 13 1.021 2 1.180 6 1.172 10 1.177 14 1.162 3 1.210 7 1.226 11 1.219 15 1.191 4 1.075 8 1.115 12 990 16 1.104 Fuente: Elaboración propia. - CÁTEDRA DE ESTADÍSTICA - 13 Figura 1.3. Diagrama de puntos. Producción diaria de telar circular. 985 1.005 1.025 1.045 1.065 1.085 1.105 1.125 1.145 1.165 1.185 1.205 1.225 Producción diaria La Figura 1.3. representa un diagrama de puntos. Este diagrama es una gráfica muy útil para visualizar un conjunto pequeño de datos. La gráfica permite ver con rapidez y facilidad la ubicación o tendencia central de los datos, así como su variabilidad. Cuando el número de observaciones es pequeño, a menudo es difícil identificar algún patrón de variación específico, sin embargo, con frecuencia el diagrama de puntos es útil y puede proporcionar información sobre características pocos usuales de los datos. Cuando la cantidad de observaciones es considerable y la variable de estudio es de tipo discreta, los datos pueden organizarse agrupándolos sin intervalos. Así, para ilustrarlo, desarrollamos el siguiente ejercicio. EJERCICIO 1.7. El Departamento de Calidad de una empresa dedicada a la producción y envasado de tomates en conservas, presentó un relevamiento de la cantidad de botellas fuera de especificación con respecto a su capacidad, 1 litro, en 80 lotes de 100 unidades cada uno, seleccionados al azar, resultando los siguientes valores: Tabla 1.5. Cantidad de botellas fuera de especificación con respecto a su capacidad por lote de 100 unidades. Lote Unidad Lote Unidad Lote Unidad Lote Unidad Lote Unidad 1 4 17 5 33 2 49 6 65 4 2 3 18 7 34 5 50 3 66 6 3 6 19 4 35 5 51 4 67 5 4 7 20 6 36 8 52 2 68 4 5 4 21 5 37 4 53 7 69 8 6 6 22 3 38 4 54 3 70 5 7 5 23 6 39 5 55 4 71 6 8 3 24 6 40 6 56 6 72 6 9 625 4 41 4 57 7 73 6 10 5 26 5 42 6 58 6 74 7 11 6 27 3 43 8 59 4 75 8 12 5 28 4 44 5 60 5 76 5 13 7 29 4 45 8 61 3 77 6 14 5 30 2 46 5 62 4 78 7 15 3 31 6 47 7 63 6 79 6 16 6 32 7 48 5 64 6 80 5 Fuente: Elaboración propia. - CÁTEDRA DE ESTADÍSTICA - 14 Estos datos pueden organizarse en una tabla de frecuencias para variables cuantitativas o numéricas, en la cual se asocia cada valor de la variable con la cantidad de veces que se observa dicho valor. Tabla 1.6. Tabla de distribución de frecuencias. Botellas fuera de especificación con respecto a su capacidad por lote de 100 unidades. Xi Conteo fi hi Hi Fi Hi% 2 III 3 0,0375 0,0375 3 3,75 3 IIIIIIII 8 0,1000 0,1375 11 13,75 4 IIIIIIIIIIIIIII 15 0,1875 0,3250 26 32,50 5 IIIIIIIIIIIIIIIIII 18 0,2250 0,5500 44 55,00 6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 0,8250 66 82,50 7 IIIIIIIII 9 0,1125 0,9375 75 93,75 8 IIIII 5 0,0625 1,0000 80 100,00 Total - 80 1 - - - Fuente: Elaboración propia. En la Tabla 1.6. fi y hi representan las frecuencias absoluta y relativa respectivamente las cuales fueron definidas en el punto anterior. Para completar la distribución, son importantes las frecuencias absolutas y relativas acumuladas, las cuales quedan definidas como la suma de las frecuencias, absoluta o relativa, de los valores menores o iguales en función a un valor considerado. La utilidad de cada una de las frecuencias la podemos explicar considerando, por ejemplo, la cuarta fila de la Tabla 1.6. en donde las columnas fi y hi establecen que 18 lotes o el 22,5% de los mismos presentan 5 unidades fuera de especificación mientras que las restantes columnas determinan que 44 lotes o el 55% de estos, presentan entre 2 y 5 unidades fuera de especificación. Figura 1.4. Gráfico de bastones. Cantidad de botellas fuera de tolerancia. 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 2 3 4 5 6 7 8 Botellas fuera de especificación Fr e cu e n ci a re la ti va La Figura 1.4. muestra un gráfico de bastones y la frecuencia representada de esta forma indica que entre dos valores sucesivos de la variable no existen valores intermedios. - CÁTEDRA DE ESTADÍSTICA - 15 Figura 1.5. Gráfico escalonado. Cantidad de botellas fuera de tolerancia. 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 0 1 2 3 4 5 6 7 8 Botellas fuera de especificación Fr ec u en ca r el at iv a ac u m u la d a Observando la Figura 1.5., la misma muestra un gráfico escalonado donde cada valor de la variable experimenta un salto igual a su frecuencia relativa. Estas mismas gráficas pueden realizarse reemplazando las frecuencias relativas por sus respectivas absolutas. Cuando la variable de estudio es de tipo continua y la cantidad de datos es considerable, el conjunto de datos puede organizarse agrupándolos en intervalos. Primero se debe definir la cantidad de intervalos y la amplitud de los mismos. Es recomendable no usar menos de 5 ni más de 15 intervalos y tratar de que no queden intervalos de clase con frecuencia nula. Es importante resaltar que con este tipo de organización se pierde la información de los valores individuales de la variable y estos quedan representados por los intervalos de clase. En primer lugar, se debe determinar el número de intervalos, conocidos también como intervalos de clase k. Para calcular k pueden usarse varios procedimientos. Uno es la regla de Sturges, cuya fórmula corresponde a k = 1 + 3.3 log (n) y que conviene siempre que el número de datos sea mayor a diez. Así mismo, el número de intervalos puede ser calculado a través de la raíz cuadrada del número total de datos, cantidad que debe redondearse siempre al número entero inmediato o también elevando la base 2 a un exponente k de forma tal que el resultado sea mayor o igual a n. Una vez determinada la cantidad de intervalos, la amplitud de los mismos se determina por: k Xmín - Xmáx = Ci - CÁTEDRA DE ESTADÍSTICA - 16 Donde el numerador determina el rango o recorrido de la distribución y Ci es la amplitud de los intervalos. Los límites de cada intervalo, inferior y superior, se construyen partiendo con el menor valor observado, Xmín, como límite inferior del primer intervalo y sumándole el valor de la amplitud para definir el límite superior de este. El límite inferior del segundo intervalo coincide con el superior del anterior el cual, sumándole también la amplitud determinamos el límite superior y así se procede hasta completar la cantidad de intervalos k calculados y de esta forma cada intervalo queda definido por un límite inferior y otro superior. EJERCICIO 1.8. Se desea analizar la tensión de rotura a partir de un ensayo de tracción consistente en someter a una probeta normalizada a un esfuerzo axial de tracción creciente hasta que se produce la rotura de la misma. Este ensayo se realiza sobre 80 probetas como muestras de una aleación de aluminio y litio y se registra su tensión de rotura en libras por pulgadas cuadrada (psi), con los siguientes resultados: Tabla 1.7. Valores de resistencia a la tensión de rotura de 80 probetas de aleación de aluminio y litio. 105,12 221,57 183,45 186,58 121,21 181,09 180,90 143,20 97,32 154,64 153,32 174,78 120,32 168,87 167,53 141,85 245,56 228,44 174,63 199,32 181,95 158,83 176,71 110,35 163,89 131,18 154,47 115,24 160,68 208,46 158,27 133,63 207,51 180,87 190,58 193,84 194,74 133,14 156,31 123,77 134,77 178,63 76,77 167,55 184,25 135,74 229,85 146,15 218,19 157,07 101,56 171,65 165,32 172,28 158,92 169,55 199,26 151,52 142,13 163,41 145,41 171,81 148,25 158,49 160,45 175,46 149,03 87,95 160,85 237,70 150,27 135,67 196,37 201,23 200,15 176,87 150,48 170,38 118,46 149,17 Fuente: Elaboración propia. Aplicamos uno de los criterios descripto anteriormente para construir la tabla de distribución de frecuencias: 80128 = 802 = n2 7k ≥ ≥ ≥ Considerando la totalidad de los datos n, utilizaremos 7 intervalos de clase. Observando los datos, vemos que el mayor valor que toma la variable es de 245,56 psi y el menor es de 76,77 psi, definiendo los mismos: Determinamos la amplitud de los intervalos: 24,11 = 7 76,77 - 245,56 = k Xmín - Xmáx = C i https://es.wikipedia.org/wiki/Probeta_(mec%C3%A1nica) https://es.wikipedia.org/wiki/Tracci%C3%B3n - CÁTEDRA DE ESTADÍSTICA - 17 Como los intervalos de clase deben incluir a todos los valores observados es aconsejable redondear el valor de la amplitud a un número entero superior para asegurar que el mayor valor que toma la variable quede incluido. A partir de estos valores podemos construir una tabla de distribución de frecuencias donde en lugar de escribir los valores observados de la variable, los reemplazamos por 7 intervalos de 25 psi de amplitud. En el caso de que algún valor de la variable coincida con uno de los límites, se puede ubicar en cualquiera de los dos intervalos pero siempre siguiendo el mismo criterio. Tabla 1.8. Tabla de distribución de frecuencias. Resistencia a la tensión de rotura de probetas de aleación de aluminio y litio. Intervalos Conteo MC fi hi Fi Hi % 76,77 - 101,77 IIII 89,27 4 0,0500 4 5,00 101,77 - 126,77 IIIIIII 114,27 7 0,0875 11 13,75 126,77 - 151,77 IIIIIIIIIIIIIIIII 139,27 17 0,2125 28 35,00 151,77 - 176,77 IIIIIIIIIIIIIIIIIIIIIIIIIII 164,27 27 0,3375 55 68,75 176,77 - 201,77 IIIIIIIIIIIIIIIII 189,27 17 0,2125 72 90,00 201,77 - 226,77 IIII 214,27 4 0,0500 76 95,00 226,77 - 251,77 IIII 239,27 4 0,0500 80 100,00 Total - 80 1 - - Fuente: Elaboración propia. Si consideramos la tercera fila de la Tabla 1.8., las columnas fi y hi establecen que 17 probetas o el 21,25% de las mismas presentan una tensión de rotura comprendida entre 126,77 y 151,77 psi mientras que las restantes columnas determinan que 28 probetas o el 35% de estas, presentan una tensión de rotura de 76,77 a 151,77 psi.La representación gráfica empleada en este tipo de distribución es el histograma de frecuencias, Figura 1.6. Figura 1.6. Histograma de frecuencias. Tensión de rotura. 0 5 10 15 20 25 30 89,27 114,27 139,27 164,27 189,27 214,27 239,27 Tensión de rotura Fr e cu e n ci a ab so lu ta - CÁTEDRA DE ESTADÍSTICA - 18 El histograma de frecuencias es un gráfico de barras verticales adyacentes y muestra la forma en que se distribuyen los datos y se construye levantando sobre cada intervalo un rectángula de área proporcional a la frecuencia correspondiente a dicho intervalo. Se pueden emplear la frecuencia absoluta o la relativa. Sirven para obtener una primera vista general de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua. Así, esta gráfica ofrece una visión permitiendo observar una tendencia de la muestra o población. De esta forma, podemos evidenciar comportamientos, observar el grado de homogeneidad, o, en contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los valores que toman. También es posible no evidenciar ninguna tendencia. Otra gráfica también muy utilizada es la de sustituir el histograma por un polígono de frecuencias, empleando indistintamente las absolutas o relativas, Figura 1.7. Se construye uniendo la marca de clase, punto medio de cada intervalo, y el área que queda por debajo del polígono de frecuencias es igual al área contenida dentro del correspondiente histograma. Figura 1.7. Polígono de frecuencias. Tensión de rotura. 0 5 10 15 20 25 30 89,27 114,27 139,27 164,27 189,27 214,27 239,27 Tensión de rotura Fr e cu e n ci a ab so lu ta La Figura 1.8 muestra otra representación gráfica utilizada, empleando las frecuencia acumuladas, tanto las absolutas como las relativas, denominado ojiva. Figura 1.8. Ojiva de frecuencias relativas acumuladas. Tensión de rotura. 0,0% 20,0% 40,0% 60,0% 80,0% 100,0% 89,27 114,27 139,27 164,27 189,27 214,27 239,27 Tensión de rotura Fr e cu e n ci a re la ti va a cu m u la d a - CÁTEDRA DE ESTADÍSTICA - 19 Para construirlo se levanta en el extremo superior de cada intervalo una ordena igual a la frecuencia acumulada correspondiente y determinando así un punto en el plano para cada intervalo. Al unir cada uno de los puntos queda definida la ojiva en donde cada uno de ellos mide el número de observaciones para las cuales la variable ha tomado valores menores o iguales a la abscisa, en este caso práctico, la tensión de rotura. La altura correspondiente al extremo superior del último intervalo será igual a la frecuencia total si trabajamos con las frecuencias absolutas acumuladas y 1 si lo hicimos con las frecuencias relativas acumuladas. EJERCICIO 1.9. Los datos que se presentan a continuación corresponden a la viscosidad cinemática a 50 °C de dos lotes de aceite para uso lubricante producidos con una semana de diferencia. Tabla 1.9. Valores de viscosidad cinemática de aceite lubricante a 50 °C medidos en cStokes (mm2/s). Lote1 13,35 14,54 15,36 15,32 14,12 14,38 16,12 13,15 15,55 12,62 14,97 13,76 15,24 14,54 15,31 15,21 15,28 15,99 16,57 14,89 14,85 15,27 14,53 14,63 14,15 14,69 14,32 15,42 15,27 16,84 15,66 15,85 13,38 14,18 15,47 15,14 17,25 14,97 14,81 14,39 Fuente: Elaboración propia. Lote2 15,85 13,72 15,19 13,47 14,19 14,22 16,96 14,95 15,28 14,46 16,21 14,99 13,69 15,35 14,32 13,77 13,84 15,66 14,52 12,84 14,88 14,35 14,37 16,47 16,98 15,29 14,67 16,48 14,28 15,79 15,69 16,18 13,93 15,29 14,49 16,18 16,69 15,62 14,61 14,43 Fuente: Elaboración propia. Elaborar una tabla de frecuencias y representar las mismas gráficamente. - CÁTEDRA DE ESTADÍSTICA - 20 Tabla 1.10. Tabla de distribución de frecuencias para los valores de viscosidad cinemática. Variable Clase LI LS MC FA FR FAA FRA Lote 1 1 [ 12,62 13,55 ) 13,08 4 0,10 4 0,10 Lote 1 2 [ 13,55 14,47 ) 14,01 7 0,18 11 0,28 Lote 1 3 [ 14,47 15,40 ) 14,94 19 0,48 30 0,75 Lote 1 4 [ 15,40 16,32 ) 15,86 7 0,18 37 0,93 Lote 1 5 [ 16,32 17,25 ] 16,79 3 0,08 40 1,00 Variable Clase LI LS MC FA FR FAA FRA Lote 2 1 [ 12,84 13,67 ) 13,25 2 0,05 2 0,05 Lote 2 2 [ 13,67 14,50 ) 14,08 14 0,35 16 0,40 Lote 2 3 [ 14,50 15,32 ) 14,91 10 0,25 26 0,65 Lote 2 4 [ 15,32 16,15 ) 15,74 6 0,15 32 0,80 Lote 2 5 [ 16,15 16,98 ] 16,57 8 0,20 40 1,00 Nota: La tabla de frecuencias fue construida utilizando el software InfoStat, organizando los datos en intervalos para cada uno de los lotes. Figura 1.9. Histograma de frecuencias. Viscosidad cinemática Lote 1. 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 13,08 14,01 14,94 15,86 16,79 Viscosidad cinemática Fr e cu e n ci a re la ti va Figura 1.10. Histograma de frecuencias. Viscosidad cinemática Lote 2. 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 35,0% 40,0% 13,25 14,08 14,91 15,74 16,57 Viscosidad cinemática Fr e cu e n ci a re la ti va Las Figuras 1.9 y 1.10 representan los histogramas de ambos lotes de aceite. En el primer histograma, se observa que la distribución de la viscosidad es bastante homogénea, presentando una gran concentración para el valor de 14,94 cStokes correspondiente a la marca de clase del tercer intervalo y descendiendo de forma casi proporcionada a derecha e izquierda. En el histograma - CÁTEDRA DE ESTADÍSTICA - 21 correspondiente al segundo lote se destaca una concentración importante de los valores de viscosidad sobre el segundo intervalo cuya marca de clase corresponde a 14,08 cStokes, y una marcada concentración a la derecha para valores mal altos de la viscosidad cinemática. Figura 1.11. Polígono de frecuencias. Viscosidad cinemática Lote 1 y Lote 2. Lote 1 Lote 2 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 13,25 14,08 14,91 15,74 16,57 Viscosidad cinemática Fr e cu e n ci a re la ti va La Figura 1.11 muestra los polígonos de frecuencia de ambos lotes representados en la misma gráfica, permitiendo así la comparación entre ellos. 1.7. MEDIDAS DE TENDENCIA CENTRAL La tabla de distribución de frecuencias ofrece toda la información disponible pero en numerosos casos no puede interpretarse toda esa extensa información, por lo que se intenta resumirla en una serie de valores que fijen el comportamiento global del fenómeno a partir de los datos individuales. Así, las medidas de tendencia central son algunos de estos valores que permiten resumir la información en un único valor y representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. 1.7.1. MEDIA ARITMÉTICA Una de las medidas de tendencia central usada con mayor frecuencia es la media aritmética o promedio. Así, dado un conjunto de observaciones numéricas, la media se define como la suma de todos los valores del conjunto dividida por el número de observaciones. Sean x1, x2,…, xN datos correspondientes a una población, la media poblacional se simboliza μ y queda definida: N x .f = μ N x = μ i N 1=i i N 1=i i ∑∑ - CÁTEDRA DE ESTADÍSTICA - 22 Sean x1, x2,…, xn datos correspondientes a una muestra, la media muestral se simboliza x y queda definida: n x .f = X n x = X i n 1=i i n 1=i i ∑∑ Esta medida de tendencia central presenta ciertas propiedades de interés, las cuales pueden expresarse como: La media aritmética queda definida sólo para variables cuantitativas. La media aritmética es muy sensible a los valores extremos. Así, la media aritmética es una medida calculada a partir de todos y cada uno de los datos de una serie, en consecuencia resume apropiadamente la información del conjunto. Sin embargo, por esta propiedad, en ciertas situaciones puede perder eficaciacomo medida representativa del conjunto de datos y dar conclusiones erróneas. Cuando en la muestra existen valores extremos o atípicos, estos influirán en el valor de la media, pudiendo llegar a distorsionarla de tal modo que no representa al común de los datos del conjunto. La media aritmética no se puede calcular si hay un intervalo con una amplitud indeterminada. La media aritmética está comprendida entre el valor máximo y el valor mínimo del conjunto de datos. La suma de las desviaciones de los valores de la variable respecto a su media es cero. Sean Xx = d , . . . ,xx = d ,xx = d nn2211 --- las desviaciones de los valores de la variable a partir de su media, la sumatoria de estas desviaciones es: ( ) 0 =Xx =d n 1=i ii ∑∑ Por esta propiedad se dice que la media aritmética es el centro de gravedad de la distribución de la variable. La media muestral es donde el diagrama de puntos se equilibra. Si a todos los valores de una variable se les suma una constante k, la media aritmética queda aumentada en esa constante k. Es decir, la media aritmética queda afectada por los cambios de origen. Sea la distribución (xi + k ; fi), producto de un cambio de origen, la media queda definida: ( ) k+X= n f k+ n x .f = n f . k+x =X n 1=i i n 1=i ii n 1=i ii ∑∑∑ Si a todos los valores de una variable se multiplican por una constante k, la media aritmética queda multiplicada por esa constante k. Es decir, la media aritmética queda afectada por los - CÁTEDRA DE ESTADÍSTICA - 23 cambios de escala. Sea la distribución (Xi . k ; fi), producto de un cambio de escala, la media queda definida: ( ) X . k= n x .f . k = n .f k .x =X n 1=i ii n 1=i ii ∑∑ Si de un conjunto de valores se obtienen dos o más subconjuntos, la media aritmética de todo el conjunto se relaciona con todas las medias aritméticas de los diferentes subconjuntos como la suma de las medias aritméticas de estos. Sean yx z , . . . ,yx z ,yx z nnn222111 , la media del conjunto queda definida: n y = Y n x = X n z = Z n 1=i i n 1=i i n 1=i i ∑∑∑ ( ) Y+X= n y + n x = n y+x = n y+x = n z =Z n 1=i i n 1=i i n 1=i i n 1=i i n 1=i ii n 1=i i ∑∑∑∑∑∑ EJERCICIO 1.10. Determinar la media de la resistencia a la tensión de 80 muestras de una aleación de aluminio y litio del EJERCICIO 1.8. La media aritmética se determina a partir de la marca de clase, punto medio del intervalo y es el valor que adopta la variable para cada uno de los datos que caen dentro de cada intervalo. La media aritmética de la resistencia a la tensión de las 80 muestras de una aleación de aluminio y litio queda definida: psi 162,39 80 60,991.12 n x .f X i n 1i i ∑ 1.7.2. MEDIANA La mediana es otra medida de tendencia central, se simboliza Me y se define como el valor de la variable que ocupa la posición central de un conjunto de observaciones cuando las mismas están ordenadas por sus valores creciente, dividiendo al conjunto en dos partes iguales. Esta medida de tendencia central presenta ciertas propiedades de interés, las cuales pueden expresarse como: La mediana está comprendida entre el valor máximo y el valor mínimo del conjunto de datos. La mediana puede no coincidir con ninguno de los valores de los datos. La mediana no contempla todos los valores de los datos sino tan solo el valor considerado como mediana. - CÁTEDRA DE ESTADÍSTICA - 24 La mediana es invariante si se disminuye el valor de una observación inferior a ella o si se aumenta un valor superior. La mediana conserva los cambios de origen y de escala permitiendo que se exprese en las mismas unidades que los datos. Es un estadístico resistente ya que con pequeñas fluctuaciones de la muestra no cambia su valor. La mediana queda definida en distribuciones en las que los datos son ordinales. Para datos sin agrupar, en una cantidad impar de estos, la mediana queda definida por la observación que ocupa la posición central, (n+1)/2, mientras que si la cantidad de datos es par, la mediana se calcula a partir de la media aritmética de los dos valores centrales, n/2 y (n+2)/2. EJERCICIO 1.11. Determinar el valor de la mediana para un conjunto de 11 observaciones que representan los tiempos en minutos que una persona tiene que esperar el ómnibus para llegar a su trabajo. 7 - 8 - 9 - 10 - 10 - 10 - 15 - 15 - 17 - 20 - 24 (n + 1)/2 = 12/2 = 6º posición Me = 10 minutos Si la cantidad de observaciones es par, para un conjunto de 12 observaciones que representan una nueva muestra de los tiempos en minutos que una persona tiene que esperar el ómnibus para llegar a su trabajo, el valor de la mediana es: 8 - 9 - 10 - 10 - 10 - 11 - 13 - 15 - 18 - 17 - 20 - 25 n/2 = 12/2 = 6º posición (n + 2)/2 = 14/2 = 7º posición Me = (11 + 13)/2 = 12 minutos En el caso de datos agrupados sin intervalo, la mediana queda determinada por la posición, en porcentaje, que contiene el 50% de los datos y el valor que toma corresponde al valor de la variable contenido en ese porcentaje. EJERCICIO 1.12. Observando la Tabla 1.6 correspondiente a la distribución de frecuencias de botellas fuera de especificación con respecto a su capacidad por lote de 100 unidades, determinar el valor de la mediana. La mediana queda definida por la frecuencia Hi% cuyo valor es de 55,00%, por lo tanto decimos que la mediana está contenida en esa fila y el valor que toma la variable para ese porcentaje es de 5 botellas fuera de especificación por lote. - CÁTEDRA DE ESTADÍSTICA - 25 Cuando los datos están agrupados con intervalo, la mediana queda determinada por la posición, en porcentaje, que contiene el 50% de los datos y el valor queda definido: i i 1i- C . f F - 2 n + Li = Me Donde: Me = Mediana. Li = Límite inferior del intervalo que contiene a la mediana. n = Total de datos. Fi-1 = Frecuencia acumulada del intervalo anterior al que contiene a la mediana. fi = Frecuencia absoluta del intervalo que contiene a la mediana. Ci = Amlitud del intervalo que contiene a la mediana. EJERCICIO 1.13. Considerando el EJERCICIO 1.8 de la resistencia a la tensión de rotura de de las probetas de aleación de aluminio y litio, calcular la mediana. La Tabla 1.8 nos permite identificar que en el cuarto intervalo está contenido al valor de la mediana, el cual queda definido: psi 162,88 = 25 . 27 28 - 2 80 + 151,77 = C . f F - 2 n + Li = Me i i 1i- 1.7.3. MODA La moda se simboliza Mo y se define como el valor de la variable de mayor frecuencia. La moda puede no existir e incluso no ser única. Su determinación es muy sencilla, ya que en los casos de datos sin agrupar y agrupados sin intervalos, el valor que toma el modo es el valor de mayor frecuencia. Las principales características de esta medida de tendencia central son: Se cálculo sencillo. Su interpretación muy clara. Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por esto el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos. Así por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. https://es.wikipedia.org/w/index.php?title=Variable_cualitativa&action=edit&redlink=1 - CÁTEDRA DE ESTADÍSTICA - 26 Cuando los datos están agrupados en intervalo, en donde todos estos presentan la misma amplitud, la moda está contenida en el intervalo que presenta una mayor frecuencia absoluta y el valor queda definido: i 1i-1+i 1+i C . f + f f + Li = Mo Donde: Mo = Moda. Li = Límite inferior del intervalo que contiene a la moda. fi-1 = Frecuencia absoluta del intervalo anterior al que contiene a la moda. fi+1 = Frecuencia absoluta del intervalo posterioral que contiene a la moda. Ci = Amplitud del intervalo que contiene a la moda. EJERCICIO 1.14. A partir de la Tabla 1.8 correspondiente a la distribución de frecuencias de la tensión de rotura de las 80 probetas de aluminio litio, determinar el valor modal. Observando la tabla, podemos identificar que en el cuarto intervalo está contenido al valor modal, el cual queda definido: psi 164,27 = 25 . 17 + 17 17 + 151,77 = c . f + f f + Li = Mo i 1-i1+i 1+i Cuando los intervalos presentan amplitudes diferentes debemos trabajar con densidades de frecuencia, definida como el cociente entre la frecuencia absoluta y la amplitud del intervalo, f i/Ci. De esta forma, la mayor densidad de frecuencia determina el intervalo modal y el valor queda definido: i 1i-1+i 1+i C . d + d d + Li = Mo Donde: Mo = Moda. Li = Límite inferior del intervalo que contiene a la moda. di-1 = Densidad de frecuencia del intervalo anterior al que contiene a la moda. di+1 = Densidad de frecuencia del intervalo posterior al que contiene a la moda. Ci = Amplitud del intervalo que contiene a la moda. EJERCICIO 1.15. Se analiza una muestra por lote correspondiente a un total de 450 lotes para determinar las concentraciones de impurezas, resumiendo los datos en una tabla de distribución de frecuencia. Determinar el valor de la moda. - CÁTEDRA DE ESTADÍSTICA - 27 Tabla 1.11. Tabla de distribución de frecuencias para la concentración de impurezas. Intervalos fi Ci di 0 - 25 26 20 1,30 25 - 50 155 25 6,20 50 - 100 187 50 3,74 100 - 150 58 50 1,16 150 - 200 24 50 0,48 Total 400 - - Fuente: Elaboración propia. Observando la tabla, podemos identificar que en el segundo intervalo está contenido al valor modal, el cual queda definido: 43,55 = 25 . 1,30 + 3,74 3,74 + 25 = C . d + d d + Li = Mo i 1i-1+i 1+i 1.7.4. VENTAJAS E INCONVENIENTES DE LAS MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central son índices que permiten resumir un conjunto de datos en una sola expresión, de modo que se pueda apreciar mejor el significado de los datos y como cualquier estadística, cobran sentido cuando se emplean para hacer comparaciones u otras operaciones. Cuando se tiene datos de escalas de intervalo o de proporción, en general se utiliza la media porque es una medida que atiende en forma exhaustiva toda la información disponible, los valores, las distancias y proporcionalidad entre ellos y la frecuencia de cada uno. El modo solo atiende a las frecuencias y la mediana solo utiliza el orden expresado por los valores numéricos y no atiende el valor de las observaciones extremas. La media tiene importantes propiedades matemáticas, no así la mediana y el modo. El modo en escala por intervalo, se utiliza para una primera estimación rápida de la tendencia central puesto que se determina fácilmente, sin necesidad de cálculo alguno, con solo observar la tabla de distribución de frecuencia e interviene en él cálculo de algunas medidas de asimetría. La mediana en escala por intervalo es recomendada cuando en un conjunto de datos existen pocos datos extremos que son incomparables con el resto de los datos ya que no se ve afectada por los valores extremos, mientras que la media es muy sensible a estos valores y por lo tanto en estos casos la mediana es el valor que mejor representa el conjunto de datos. Cuando se tiene una distribución de frecuencias con intervalos abiertos, no puede calcularse la media y en estos casos se elige como mejor medida la mediana ya que en su cálculo solo participa el intervalo mediano. Cuando la forma de la distribución de frecuencia es asimétrica ya sea a izquierda o derecha, la mejor medida de tendencia central es la mediana ya que se encuentra entre las otras dos, - CÁTEDRA DE ESTADÍSTICA - 28 media y modo. Si es simétrica, como las tres medidas son iguales, se puede elegir cualquiera y en esos casos se prefiere la media, dependiendo esto del tipo de investigación que se haya planificado. EJERCICIO 1.16. La tabla que aparece a continuación recoge los tiempos que 30 usuarios de internet pasaron realizando búsquedas en línea. Comparar las medidas de tendencia central. Tabla 1.12. Tiempos de búsqueda en internet. 3 6 9 4 6 10 4 6 10 5 7 10 5 7 10 5 7 10 5 7 10 5 7 12 5 8 55 6 8 60 Fuente: Spiegel Murray; Stephens Larry. (2001, p. 72). Tabla 1.13. Medidas resumen. Variable n Media Mediana Tiempos 30 10,40 7,00 Nota: La tabla resumen fue construida utilizando el software InfoStat. Obsérvese que la distribución presenta dos valores extremos, que son los tiempos de 55 y 60, por lo tanto, en este caso consideramos a la mediana la más representativa de los tiempos que la media. EJERCICIO 1.17. La siguiente tabla registra la información de la cantidad de turistas que entraron a España durante el mes de Enero de los años 1990 y 1992, así como el gasto efectuado en dólares según su procedencia. Determinar la media de crecimiento del gasto entre los dos años. Tabla 1.15. Gasto en US$ de turistas que entraron a España en Enero de los años 1990 y 1992. País Año 1990 Año 1992 Gasto Turistas fi . xi Gasto Turistas fi . xi Francia 300 37.500 11.250.000 350 45.000 15.750.000 Alemania 500 25.000 12.500.000 750 20.000 15.000.000 Inglaterra 450 14.000 6.300.000 500 16.000 8.000.000 Holanda 350 10.000 3.500.000 350 12.500 4.375.000 Bélgica 400 6.500 2.600.000 400 7.500 3.000.000 Total - 93.000 36.150.000 - 101.000 46.125.000 Fuente: F. Martín Javier Pliego. (2003, p. 66). Las medias para los respectivos años son: - CÁTEDRA DE ESTADÍSTICA - 29 US$ 388,70 = 93.000 000.150.36 = n x .f = X i n 1=i i 90 ∑ US$ 456,68 = 101.000 000.125.46 = n x .f = X i n 1=i i 92 ∑ La tasa de crecimiento anual entre los gastos medios de 1990 y 1992 es: 2 9092 r) + (1 . X = X Donde r representa la tasa de crecimiento anual. 8,39% = 0,0839 = 1 - 70,388 68,456 = 1 - X X = r 90 92 1.8. MEDIDAS DE VARIABILIDAD En el punto anterior se definió una serie de medidas de tendencia central cuyo objetivo es sintetizar o resumir la información disponible y se necesita, para una determinada distribución de frecuencias, que tan representativas son estas medidas síntesis de toda la información. Medir la representatividad de esas medidas equivale a cuantificar la separación de los valores de la distribución respecto a dichas medidas. Así, si se quiere estudiar en que grado una media aritmética marca una tendencia central generalizable del comportamiento de todos los elementos del conjunto estudiado, población o muestra, se tendrá que analizar la separación o desviación de cada valor respecto a la media. Así, a la mayor o menor separación de los valores respecto a otro, que se pretende sea su medida de síntesis o resumen, se llama dispersión o variabilidad. Para entender el concepto de representatividad de las medidas de tendencia central supongamos, por ejemplo, que las especificaciones para una característica de calidad son que esta debe tener dimensiones de 800 ± 5. Para ver si se cumple con las especificaciones se toma una muestra aleatoria grande y se obtiene una media de 801, el modo de 800 y la mediana de 801. Al estar estos valores dentro de las especificaciones se podría creer que el proceso esta cumpliendo con las especificaciones. Sin embargo esto no necesariamente es cierto ya que en la muestra se podría haber dado datos desde 750 hasta 850 y la media de todos ellos ser 801. Pero también podría ocurrir que el rango de variación de los datos vaya de 797 a 803, con lo que sí se cumpliría con las especificaciones. En otras palabras, las medidas de tendencia central no son suficientes como criterio de calidad ya que no toman en cuenta que tan dispersos están los datos. - CÁTEDRA DE ESTADÍSTICA - 30 Un valor pequeño para una medida devariabilidad indica que los datos se encuentran acumulados cercanamente alrededor de la media, considerándose representativa de los datos. Por el contrario, una medida de variabilidad grande indica que la media no es confiable, es decir, que no es representativa de los datos. 1.8.1. RANGO O RECORRIDO El rango se simboliza Rx y se define como la diferencia entre el máximo valor de la variable y el mínimo que toma esta, y se expresa: Xmín - Xmáx = Rx El rango es una medida fácil de interpretar pero, dado que su cálculo se basa solo en dos observaciones, la mayor y la menor, puede sufrir una distorsión importante si el conjunto de datos presenta algunos valores extremos atípicos. También, el rango es adecuado para un conjunto pequeño de observaciones pero cuando este es grande pierde importancia como medida de variabilidad. Un uso importante del rango se encuentra en el control estadístico de calidad. EJERCICIO 1.18. A partir de los tiempos que 30 usuarios de internet pasaron realizando búsquedas en línea, correspondientes al EJERCICIO 1.16. Determinar el rango. 57 = 3 - 60 = Xmín - Xmáx = Rx 1.8.2. RANGO O RECORRIDO INTERCUARTÍLICO El rango intercuartílico se simboliza RIC y se define como la diferencia entre el cuartil de orden 3 y el de orden 1, y se expresa: Q - Q = RIC 13 El rango intercuartílico refleja la variabilidad de las observaciones entre los cuartiles de orden 1 y 3 en el conjunto de los datos de tal forma que esta medida no es afectada por la presencia de valores extremos atípicos. Esta medida de variabilidad tiene su principal aplicación cuando se utiliza la mediana como medida de centralización. EJERCICIO 1.19. Determinar el rango intercuartílico de la cantidad de botellas fuera de especificación con respecto a su capacidad, 1 litro, en 80 lotes de 100 unidades cada uno. Observando la Tabla 1.6 correspondiente a la distribución de frecuencias de botellas fuera de especificación con respecto a su capacidad por lote de 100 unidades, el primer cuartil está contenido en la tercera fila y corresponde al valor 4 unidades fuera de especificación por lote mientras que el tercer cuartil está contenido en la quinta fila y toma el valor de 6 botellas fuera de especificación por lote. El rango intercuartílico queda definido: lote por espc. de fuera botellas 2 = 4 - 6 = Q - Q = RIC 13 - CÁTEDRA DE ESTADÍSTICA - 31 1.8.3. DESVIACIÓN MEDIA La desviación media se simboliza DM y se define como el promedio de los valores absolutos de las diferencias entre cada observación del conjunto de datos con su respectiva media, y se expresa: n x - x .f = DM n x - x = DM i n 1=i i n 1=i i ∑∑ La desviación media es una medida interesante de la variabilidad en un contexto de evidencia empírica, donde en muchas ocasiones el interés es sobre las desviaciones y no en los signos. a diferencia del rango, emplea para su cálculo la totalidad de las observaciones y es de fácil interpretación, ya que se conceptualiza como el promedio de las desviaciones respecto de la media y además es menos sensible a los valores extremos del conjunto de datos que otras medidas de variabilidad, como la varianza o el desvío típico. A pesar de sus ventajas, esta medida de variabilidad se emplea con poca frecuencia debido a las complicaciones que pueden surgir al realizar inferencia sobre una población. EJERCICIO 1.20. Un inspector de calidad mide a intervalos de tiempo regulares el pH de una solución utilizando el mismo instrumento. A partir de las mediciones obtenidas, determinar la desviación media. 7,15 - 7,20 - 7,18 - 7,19 - 7,21 - 7,20 - 7,16 - 7,18 La media aritmética es: 7,18 = 8 47,57 = n x = X n 1=i i∑ La desviación media queda definida: 0,016 = 8 13,0 = n x - x = DM n 1=i i∑ Podemos concluir que en términos absolutos tenemos un desvío medio en los valores medidos del pH de 0,016. 1.8.4. DESVIACIÓN MEDIANA La desviación mediana se simboliza DMe y se define como el promedio de los valores absolutos de las diferencias entre cada observación del conjunto de datos con el valor mediano de este, y se expresa: n eM - x = DMe n 1=i i∑ - CÁTEDRA DE ESTADÍSTICA - 32 Cuando se emplea la mediana como medida de centralización con el propósito de mitigar las distorsiones que pueden provocar los valores extremos, conviene utilizar la desviación mediana como medida de variabilidad. EJERCICIO 1.21. Determinar la desviación mediana para el conjunto de 11 observaciones del EJERCICIO 1.11 que representan los tiempos en minutos que una persona tiene que esperar el ómnibus para llegar a su trabajo. 7 - 8 - 9 - 10 - 10 - 10 - 15 - 15 - 17 - 20 - 24 La mediana ya fue calculada y corresponde a un valor de 10 minutos, por lo que resta determinar el valor de la desviación mediana, el cual queda definido: minutos 4,27 = 11 47 = n eM - x = DMe n 1=i i∑ Así, el valor de la desviación mediana para las 11 observaciones es de 4,27 minutos. 1.8.5. VARIANZA Y DESVIACIÓN TÍPICA De todas las medidas de variabilidad, la varianza y su raíz cuadrada, desviación típica, son las más importantes. Si se promedia las diferencias entre cada valor de las observaciones del conjunto de datos y el correspondiente valor de la media de este, por la propiedad de la media aritmética ese valor es cero, pero elevando cada diferencia al cuadrado se eliminan las diferencias negativas. Así, dado un conjunto de observaciones numéricas, la varianza, en esencia, se define como el promedio del cuadrado de las diferencias entre el valor de cada observación del conjunto de datos y el correspondiente valor de la media de este. Sean x1, x2,…, xN datos correspondientes a una población, la varianza poblacional se simboliza 2σ y queda definida: ( ) ( ) ( ) N μ . N - x .f = σ N μ . N - x = σ N μ - x =σ N 1=i 22 ii 2 N 1=i 22 i 2 N 1=i 2 i 2 ∑∑∑ Sean x1, x2,…, xn datos correspondientes a una muestra, la varianza muestral se simboliza s2 y queda definida: 1 - n X . n - x .f S 1 - n X . n - x S 1 - n X - x S n 1i 22 ii 2 n 1i 22 i 2 n 1i 2 i 2 ∑∑∑ La varianza muestral se basa en el cuadrado de las diferencias de los valores muestrales con respecto a su media pero no se considera el promedio de estas diferencias. En lugar de esto, el denominador queda definido como el tamaño muestral menos uno. La razón por la que la varianza muestral se divide por (n - 1) es por que en la ecuación se utilizó como medida de tendencia - CÁTEDRA DE ESTADÍSTICA - 33 central la media muestral en ves de la poblacional. Por lo tanto, se puede decir que para compensar el uso de la media muestral como aproximación a la media poblacional, en el cálculo de la varianza muestral se usa (n - 1) en vez de n. Se dedicará más atención a este tema en la UNIDAD 5. Esta medida de variabilidad presenta ciertas propiedades de interés, las cuales pueden expresarse como: La varianza nunca puede ser negativa ya que es una suma de cuadrados. Si a todos los valores de una variable se les suma una constante k, la varianza no varía. Es decir, la varianza no se ve afectada por un cambio de origen. Sea la distribución (xi; fi), la media y la varianza son: ( ) 1 - n X - x =S n x = X N 1=i 2 i 2 n 1=i i ∑∑ Sumando la constante k a cada valor de la varia, tenemos una nueva distribución (xi + k; fi) cuya media y varianza quedan definidas: k + x =´x k + x = ́x ii ( ) ( ) ( ) 1 - n x - x = 1 - n k) - X( - k) + x( = 1 - n ´X - ́x =´S N 1=i 2 i N 1=i 2 i N 1=i 2 i 2 ∑∑∑ Si a todos los valores de una variable se multiplican por una constante k, la varianza queda multiplicada por el cuadrado de la constante k. Es decir, la varianzaqueda afectada por los cambios de escala. Sea la distribución (xi; fi), la media y la varianza son: ( ) 1 - n X - x =s n x = X n 1=i 2 i 2 n 1=i i ∑∑ Multiplicando la constante k a cada valor de la varia, tenemos una nueva distribución (xi . k; fi) cuya media y varianza quedan definidas: k . x =´x k . X = ́X ii ( ) ( ) ( ) ( ) S . k= 1 - n X - x k = 1 - n X - xk = 1 - n k . X - k . x = 1 - n ´X - ́x =´S 22 N 1=i 2 i 2 N 1=i 2 i 2 N 1=i 2 i N 1=i 2 i 2 ∑∑∑∑ La varianza puede utilizarse para comparar la variabilidad de dos o más distribuciones y para el cálculo de la misma implica que deben elevarse al cuadrado las discrepancias con la media, resultando difícil su interpretación. Así, para expresar la variabilidad en las unidades de medida originales, se utiliza - CÁTEDRA DE ESTADÍSTICA - 34 la raíz cuadrada de la varianza obteniendo la desviación típica, la cual se define como la raíz cuadrada de la varianza. Sean x1, x2,…, xN datos correspondientes a una población, la desviación típica poblacional se simboliza σ y queda definida: 2σ =σ Sean x1, x2,…, xn datos correspondientes a una muestra, la desviación típica muestral se simboliza s y queda definida: 2S =S Esta medida de variabilidad presenta ciertas propiedades de interés, que se deducen a partir de las de la varianza, las cuales pueden expresarse como: La desviación típica nunca puede ser negativa ya que es la raíz cuadrada de la varianza. No se ve afectada por un cambio de origen. Queda afectada por los cambios de escala, donde S . k =´S . EJERCICIO 1.22. La Tabla 1.16 muestra los CI de 480 alumnos de una escuela primaria. Determinar la media, varianza y desviación típica. Tabla 1.16. Marca de clase y sus respectivas frecuencias absolutas. CI de alumnos de escuela primaria. MC 70 74 72 82 86 90 94 98 102 106 110 114 118 122 126 fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2 Fuente: Spiegel Murray; Stephens Larry. (2001, p. 102). El coeficiente intelectual se define : acronológic edad mental edad =CI Así, en un niño de 8 años que, de acuerdo con ciertos procedimientos educativos, tiene una edad mental equivalente a un niño de 10 años, su CI es de 10/8 = 1,25 = 125% o sencillamente 125, quedando sobreentendido que se habla de porcentaje. La media aritmética es: 95,77 = 480 968.45 = n x .f = X i n 1=i i∑ La varianza y la desviación típica quedan definidas: - CÁTEDRA DE ESTADÍSTICA - 35 ( ) 117,55 = 1 - 480 594.402.508, - 816.458.4 = 1 - n X . n - x .f = S N 1=i 22 ii 2 ∑ 10,84 117,55 S =S 2 Por lo tanto, la muestra de 480 alumnos presenta un valor medio de coeficiente intelectual de 95,77% con una desviación típica de 10,84%. 1.8.6. TEOREMA DE CHEBYCHEV Y REGLA EMPÍRICA Tanto la varianza como la desviación típica pueden utilizarse para comparar distribuciones, pero también puede utilizarse para estimar el porcentaje de valores que se encuentra a una distancia específica de la media. Así, el teorema de Chebychev establece que la probabilidad de que una variable discreta o continua se encuentran a una distancia específica de k desviaciones típicas de la media es menor o igual a 1 - 1/k2 para cualquier valor de k mayor o igual a 1. Este teorema proporciona un intervalo aproximado para el valor estimado y a pesar de tener cierto grado de imprecisión, es bastante útil dado que se puede aplicar a un amplio abanico de variables independientemente de sus distribuciones. EJERCICIO 1.23. A partir de las 480 observaciones de alumnos de escuela primaria, correspondiente al EJERCICIO 1.22, aplicando el teorema de Chebychev determinar un intervalo para el CI con un k = 2. Para un valor de k = 2, la probabilidad de que la media del CI se encuentre a 2 desviaciones típicas se de 1 - 1/22 = 0,75. Los límites quedan definidos: 74,09 = 10,84 . 2 - 5,779 = S . 2 - X = infL 117,45 = 10,84 . 2 + 5,779 = S . 2 + X = supL Por lo tanto, podemos decir que la probabilidad de que el coeficiente intelectual se encuentre entre 74,09 y 117,45 es del 75%. También es posible establecer estimaciones fiables para distribuciones grandes y moderadamente asimétricas a partir de la regla empírica la cual establece que aproximadamente, el 68% de los datos se encuentran entre la media más menos un desvío típico, el 95% de los datos se encuentran entre la media más menos dos desvío típico y el 99% de los datos se encuentran entre la media más menos 3 desvío típico. EJERCICIO 1.24. Una empresa de fabricación de neumáticos realizó un seguimiento a una gran cantidad de sus clientes en la que se estudió la vida útil de los mismos. Se pudo determinar que los neumáticos poseen una vida útil media de 31.000 km con una desviación típica de 2.950 km. Usando la regla empírica determinar un intervalo para la vida útil media del 68%, 95% y 99%. - CÁTEDRA DE ESTADÍSTICA - 36 Los límites para un intervalo del 68% quedan definidos: km 28.050 = 2.950 - 31.000 = S - X = infL km 33.950 = 2.950 + 1.0003 = S + X = supL Por lo tanto, la probabilidad de que la vida útil media de los neumáticos se encuentre entre 28.050 km y 33.950 km es del 68%. Los límites para un intervalo del 95% quedan definidos: km 25.100 = 2.950 . 2 - 31.000 = S . 2 - X = infL km 36.900 = 2.950 . 2 + .00031 = S . 2 + X = supL Así, la probabilidad de que la vida útil media de los neumáticos se encuentre entre 25.100 km y 36.900 km es del 95%. Los límites para un intervalo del 99% quedan definidos: km 22.150 = 2.950 . 3 - 31.000 = S . 3 - X = infL km 39.850 = 2.950 . 3 + .00031 = S . 3 + X = supL Así, la probabilidad de que la vida útil media de los neumáticos se encuentre entre 22.150 km y 39.850 km es del 99%. 1.8.7. COEFICIENTE DE VARIACIÓN Cuando se desea comparar las medias aritméticas de dos o mas distribuciones en las que estas no sean iguales o estén expresadas en diferentes unidades de medida, se emplea el coeficiente propuesto por Pearson, el cual se define como el cociente entre la desviación típica y la media aritmética. Se simboliza CV y queda definido: X S = CV A diferencia de las medidas de anteriores anteriores, el coeficiente de variación es una indicación relativa de la variabilidad y carece de unidades, A partir de esta expresión, el coeficiente de variación nos indica la cantidad de veces que la desviación típica contiene a la media, por lo tanto cuanto mayor sea el CV, menor será la representatividad de la media. También puede expresa como porcentaje, empleándose:: 100% . X S = CV Es importante destacar que el CV, por un lado, presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen, por ello es importante que https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica - CÁTEDRA DE ESTADÍSTICA - 37 todos los valores sean positivos y su media dé, por tanto, un valor positivo. Por otro lado, este coeficiente depende de la desviación típica y en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor el CV pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican una gran variabilidad de datos. EJERCICIO 1.25. A partir del EJERCICIO 1.9. determinar cual de los dos lotes de aceite la distribución es más homogénea o la media más representativa. Tabla 1.17. Medidas descriptivas para la viscosidad cinemática de los dos lotes de aceite. Variable n Media D.E. CV Mín Máx Mediana Lote 1 40 14,93 0,96 6,42 12,62 17,25 14,97 Lote 2 40 15,00 1,03 6,84 12,84 16,98 14,92 Nota: La tabla de medidas descriptivas fue construida utilizando el software InfoStat, para cada uno de los lotes. Observando la Tabla 1.17 concluimos que el lote 1 presenta una distribución de
Compartir