Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Apuntes de Estadística Descriptiva Elsa Karina López Lugo Francisco Juárez García Primera Edición, 2004 © 2004 Francisco Juárez García Instituto Nacional de Psiquiatría Ramón de la Fuente, Dirección de Investigación Epidemiológicas y Psicosociales Calzada México Xochimilco 101, Col. San Lorenzo Huipulco, 14370 México, D. F. Tel.: 56 55 28 11 ext. 202 fax: 55 13 34 46 e-mail: pacojg@imp.edu.mx Reservados todos los derechos ISBN: Impreso en México / Printed in Mexico Agradeceremos todos los comentarios relativos a esta guía, estos deben ser enviados a la dirección arriba mencionada. El presente trabajo debe ser citado como sigue: López, E. K. y Juárez, F. (2004). Apuntes de Estadística Descriptiva. México, D. F.: Instituto Nacional de Psiquiatría Ramón de la Fuente. 3 Contenido Presentación ....................................................................................................................................... 5 Introducción al Análisis Estadístico de Datos................................................................................... 6 La estadística en Psicología .............................................................................................................. 6 Importancia y utilidad en la Psicología .......................................................................................... 6 Tipos de estadística .......................................................................................................................... 6 Estadística Descriptiva .................................................................................................................. 7 Estadística Inferencial ................................................................................................................... 7 Conceptos básicos para el análisis estadístico ................................................................................... 7 Variables ....................................................................................................................................... 7 La estadística y la computadora ...................................................................................................... 10 Codificación de datos .................................................................................................................. 10 Frecuencias ...................................................................................................................................... 15 Tabla de frecuencias ....................................................................................................................... 15 Tabla de frecuencia de datos no agrupados .................................................................................. 15 Tabla de frecuencia de datos agrupados ....................................................................................... 16 Columna de datos o categorías .................................................................................................... 17 Frecuencia absoluta (f) ................................................................................................................ 17 Frecuencia absoluta acumulada (fa) ............................................................................................. 17 Frecuencias relativas o porcentajes (%) ....................................................................................... 17 Frecuencias relativas acumuladas o porcentajes acumulados (%a) ............................................... 19 Requerimientos para la elaboración de tablas:................................................................................. 19 Representación Gráfica de Datos .................................................................................................... 20 Datos Cualitativos .......................................................................................................................... 20 Gráfica de barras ......................................................................................................................... 20 Gráfica Circular .......................................................................................................................... 20 Gráfica Pictórica o Pictograma .................................................................................................... 21 Datos Cuantitativos ........................................................................................................................ 21 Histograma.................................................................................................................................. 21 Polígono de frecuencia ................................................................................................................ 21 Gráfica Lineal o Poligonal........................................................................................................... 22 Requerimientos para la elaboración de gráficas .............................................................................. 22 Gráficas engañosas ......................................................................................................................... 22 Medidas de Tendencia Central ....................................................................................................... 23 Media aritmética ( x ) ..................................................................................................................... 23 Moda (Mo) ..................................................................................................................................... 24 Mediana (Md) ................................................................................................................................. 24 Medidas de Posición ........................................................................................................................ 27 Cuartiles ......................................................................................................................................... 27 Percentiles ...................................................................................................................................... 27 Medidas de Dispersión o Variabilidad ............................................................................................ 31 Valores mínimo y máximo ............................................................................................................. 31 4 Rango o amplitud ........................................................................................................................... 31 Varianza ......................................................................................................................................... 32 Desviación Estándar o Típica (s) .................................................................................................... 34 Medidas de Distribución.................................................................................................................. 36 Características de la Curva Normal ............................................................................................... 40 Bibliografía: ..................................................................................................................................... 42 5 Presentación En el aprendizaje de la Psicología es necesario considerar diversas herramientas que permitirán el óptimo desarrollo en el campo profesional. Entre estas herramientas se encuentran las relacionadas con investigación, la manera de realizarla (método) y la forma de analizar los datos obtenidos y de interpretar los resultados(estadística) La estadística es una herramienta invaluable dentro de la Psicología. El dominio de esta materia permite, no solo el análisis de las investigaciones propias, sino también permite la comprensión de los trabajos realizados por otros, como es el caso de los artículos científicos. Esta material tiene como finalidad brindar a herramientas metodológicas utilizadas en Psicología y despertar el interés en la investigación en esta área. En un primer momento se reflexiona acerca de la importancia de aprender la estadística, más allá de su relación con las matemáticas, como una forma de organizar e interpretar datos, en el trabajo creativo necesario para la investigación. Posteriormente se sientan las bases para poder realizar un análisis estadístico de los datos para, finalmente a revisar cada uno de los procesos estadísticos descriptivos. Objetivos: Al finalizar el lector: Reconocerá la estadística cómo una herramienta importante en el campo de la Psicología Podrá elegir el estadístico adecuado para describir las características de los sujetos de una investigación, de acuerdo con el nivel de medición de las variables Interpretará los resultados obtenidos Nivel: Introductorio 6 Introducción al Análisis Estadístico de Datos La estadística en Psicología La estadística es una rama de las matemáticas aplicadas. que tiene como objetivo la descripción y el análisis de los fenómenos de interés social. La mayor parte de los fundamentos de estadística aplicada y su uso apropiado pueden dominarse sin hacer referencia a habilidades en matemáticas avanzadas, de hecho, los conocimientos que se requieren para el aprendizaje de la estadística están relacionados con las matemáticas básicas y el álgebra. Importancia y utilidad en la Psicología En la Psicología una de las funciones más importantes que realizamos es la observación de los fenómenos que acontecen a nuestro alrededor. Sin embargo para que estas observaciones se consideren sin interferir el criterio del observador, es necesario echar mano de herramientas científicas que nos permitan hacer válido el proceso de recolección de datos. En todas las disciplinas, y en la psicología en particular, la estadística permite dar una explicación más científica de los fenómenos de estudio. Debido a su objetividad en la medición de dichos fenómenos. En Psicología los números nos sirven para: Describir a los sujetos de una población. Decir cuántas personas hay y con qué características. Obtener parámetros para ubicar a los sujetos de una población con base en una característica. Por ejemplo: En la interpretación de las pruebas psicológicas comparamos a cada persona con una norma ya establecida. Hacer predicciones de cómo se comportarán los fenómenos a futuro. Con mediciones sistemáticas a lo largo del tiempo los modelos estadísticos van a permitir suponer cómo se seguirán comportando posteriormente. La importancia de medir en Psicología está presente en todas sus áreas de trabajo: Investigación: Ayuda a conocer y prevenir problemas sociales e individuales. Clínica: Permite conocer las características individuales de los pacientes y sus padecimientos, para así poder ayudarlos más efectivamente. Educativa: Determina las características y las necesidades de la población escolar para desarrollar programas que les permitan mejorar. Organizacional: En empresas es importante conocer las características de los empleados, para así poder ubicarlos en el mejor puesto o potencializar sus habilidades. Tipos de estadística Existen dos corrientes que han influenciado el desarrollo de los métodos estadísticos: El primero se relaciona con las actividades de conteo, medición, descripción, tabulación, ordenamiento y levantamiento censal. Este tipo de estadística permite describir la población con la que se está trabajando. Estadística Descriptiva. El segundo tipo está basada en la exactitud de la probabilidad matemática y se originó de los juegos del azar. Permite hacer inferencias del comportamiento: Estadística Inferencial. 7 Estadística Descriptiva La mente humana no puede extraer fácilmente toda la importancia de una serie de datos desorganizados, sin la ayuda de técnicas especiales. De manera que cuando los conjuntos de datos muy grandes deben experimentar un proceso de organización y resumen para que sean entendibles para las personas que no estén familiarizadas con la investigación. Es por ello que la Estadística Descriptiva proporciona herramientas para organizar, simplificar y resumir información básica a partir de un conjunto de datos que de otra forma sería poco manejable. Incluye la tabulación, representación y descripción de conjuntos de datos tanto de variables numéricas como de variables categóricas. Es la primera tarea a realizar en el análisis de los datos, ya que su misión es describir los datos, valores o puntuaciones obtenidos para cada variable y sirve de base para otros análisis más avanzados. Estadística Inferencial Proporciona métodos para estimar las características de un grupo total o población, basándose en datos de un subconjunto obtenido de la población o muestra de observaciones. Realiza inferencias objetivas basadas en los datos obtenidos. Utiliza la estadística descriptiva como el primer paso antes de la realización de inferencias. Conceptos básicos para el análisis estadístico El objetivo del presente escrito es dar a conocer los principales usos de la estadística descriptiva, así como el desarrollo de sus estadísticos y fórmulas. Para ello, es necesario que antes se conozcan algunos conceptos que servirán como base para el mejor entendimiento de los contenidos. Variables Las variables son todos aquellos atributos que se pueden medir, controlar y estudiar en una investigación. Las variables son construcciones hipotéticas o propiedades que se estudian. Una variable es una propiedad que adquiere distintos valores. Es una cosa que varía. Es un atributo o concepto al que se le asignan números o valores. 8 Las variables adquieren valor para la investigación científica cuando pueden ser relacionadas con otras variables. Existen diferentes clasificaciones de las variables, las cuales dependen de: A. La cantidad de valores Dicotómica. Es aquella variable en la que sólo existen dos valores. Generalmente se refiere a la existencia o no existencia de la característica o a la clasificación en dos categorías. Ejemplo: Sexo: Masculino y femenino. Politómicas. Es cuando el fenómeno puede presentarse en tonalidades o matices diferentes, o en grados, magnitudes o medidas distintas. Ejemplo: Edad, religión, estado civil, sueldo, estatura, etc. Por sus características, las variables politómicas pueden convertirse en dicotómicas, al agrupar los números o las categorías, pero no puede existir el procedimiento inverso. Esto depende de los objetivos de investigación. Ejemplo de ello es la variable estado civil que originalmente es politómica al tener muchos valores, pero que puede convertirse en dicotómica como lo muestra el siguiente esquema: Soltero Casado Divorciado Unión libre Viudo Con pareja Sin pareja ESTADO CIVIL POLITÓMICA ESTADO CIVIL DICOTÓMICA B. El tipo de valores Categórica. Es aquella en la que el fenómeno tiene valores referidos a clasificaciones o categorías sin un correlato numérico directo. Ejemplo: Sexo (hombres y mujeres), estado civil (soltero, casado, divorciado, etc.). Numérica. Es cuando los valores de la variable se presentan naturalmente en números. Esto es, las respuestas a las preguntas van a ser datos numéricos. Ejemplo: Edad, Peso, Talla, etc. Las variables continuas pueden convertirse en categóricas, al agrupar los números en categorías, pero no puede existir el procedimiento inverso. Ejemplo: La edad es una variable numérica por naturaleza,pero en ocasiones debe convertirse en categórica para el mejor manejo de la información, como se muestra a continuación: EDAD NUMÉRICA 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 EDAD CATEGÓRICA Adolescentes Jóvenes Adultos jóvenes C. El nivel de medición En la interpretación de una variable influye la escala con la que fue medida. Así, existen 4 escalas o niveles de medición: 9 Nominal Es el nivel de medida más básico. Agrupa unidades en categorías basándose en uno o más atributos o propiedades. No existe un correlato numérico. Las categorías no reflejan ningún orden o jerarquía entre unas y otras. Ejemplos: Sexo, estado civil, carrera, religión, deporte favorito, ocupación, pasatiempo, etc. Ordinal Las observaciones pueden colocarse en un orden jerárquico. Se utilizan categorías que no representan un orden. No existe una diferencia exacta entre un valor y otro. Esto es, no se sabe si hay la misma distancia entre una categoría y otra. No hay indicación de cuanto se posee del atributo. Ejemplos: Escolaridad, grado académico, puesto en el trabajo, semestre, etc. Intervalar o de intervalo Son valores numéricos. Los números son consecutivos y marcan intervalos iguales o cantidades iguales entre ellos. No tienen un cero absoluto, esto es, el cero no representa la ausencia de la característica, puede ser un valor más de la escala. Se sabe cuanto se diferencian los objetos uno de otro. Por su forma de ser medidas, las variables referidas a características psicológicas son intervalares. Ejemplos: Temperatura, depresión, actitud, etc. Se compara un sujeto con respecto a otro o con respecto a la media poblacional. Ejemplo: La diferencia entre un C. I. de 120 a 125 es la misma que entre 112 y 117 (125-120 = 5, 117-112= 5). De proporción o razón Tiene las mismas características que los intervalares, pero el cero es absoluto, esto es, el cero indica la ausencia de la característica. Inicia la medición a partir de cero. Se compara un sujeto con respecto al cero absoluto. Las medidas físicas, en su mayoría, tienen este nivel de medición. Ejemplos: Longitud, tiempo, peso, área, costo por estudiante, calificaciones, etc. Características de los niveles de medición Nominal Ordinal Intervalar Proporción A diferente de B A mayor que B A excede en X unidades a B A excede en X % a B 10 Aplicaciones en psicología En todas las áreas de la psicología, y especialmente en investigación, se utilizan variables con diferentes niveles de medición: Estos nos indican la forma o escala por la que fueron medidas dichos datos. Se clasifican en: Nominales. Pacientes clasificados por padecimientos, fumadores y no fumadores, personas que tienen una enfermedad o no la tienen, etc. Ordinales. Nivel de patología: Ausente, leve, moderado, alto Intervalares. Calificación de inteligencia, autoestima, depresión. De razón. Tiempo en el que la rata cruza un laberinto, tiempo de reacción, promedio escolar. La estadística y la computadora Otra herramienta indispensable en la actualidad para el desarrollo de la Psicología, es la computadora, instrumento mediante el cual podemos hacer una cantidad de tareas con mayor facilidad y rapidez. Entre estas tareas se encuentran: Elaboración de textos y gráficas para artículos o tareas con buena presentación. Presentaciones visuales de nuestros trabajos. Bases de datos que permitan el acceso más rápido de la información que buscamos. Por ejemplo: la biblioteca. Análisis de datos de manera más rápida y precisa. Este último se realiza, en Psicología, mediante paquetes de análisis estadístico de datos como el programa SPSS (Statistical Package for Social Sciences). Dicho programa nos permite desde obtener una descripción general de nuestros sujetos, hasta un análisis complicado que nos permita predecir como se comportará el fenómeno a futuro. En la actualidad el análisis de datos se lleva a cabo por computadora. Ya prácticamente nadie lo hace de forma manual, especialmente si hay un volumen de datos considerable. Es por ello que casi todas las instituciones de educación superior, centros de investigación y empresas, disponen de sistemas de cómputo para archivar y analizar datos. Codificación de datos Una vez que se han aplicado los cuestionarios de una investigación, es necesario preparar los datos obtenidos para poder analizarlos estadísticamente. Para ello hay que realizar dos actividades: Codificar las respuestas Realizar una guía de codificación Codificar las respuestas Es asignar números preestablecidos a cada una de las respuestas dadas al cuestionario aplicado. Esto es, asignar valores a cada una de las opciones de una variable. La razón de codificar es hacer que los datos de investigación sean comparables entre sí y poder tener un mayor control de ellos. Aunque se pueden capturar categorías alfabéticas, cuando se utilizan letras para la computadora las letras minúsculas y mayúsculas son caracteres diferentes, lo que permite una combinación muy grande de ellos en una misma palabra, por ejemplo: En una variable cuyas opciones de respuesta son no 11 o si, la palabra Si es diferente de la palabra si y de la palabra SI y de la palabra sI, como puede apreciarse, aún con dos letras, la combinación posible es de cuatro opciones distintas posibles que se pueden capturar, con cuatro códigos completamente distintos, de una sola de las opciones, más otras cuatro de la respuesta No. Si en lugar de eso definimos para la opción Si el código 1 y para el No el código 2, esta situación se vuelve más controlable. Procedimiento para codificar Primeramente es necesario identificar las variables y las respuestas que puede adquirir cada una de ellas. En el siguiente ejemplo se tienen: una variable nominal (sexo), una ordinal (escolaridad) y una intervalar (edad). Variables Sexo Escolaridad Edad Respuestas Hombre Mujer Primaria Secundaria Preparatoria Licenciatura 6 8 12 17 Posteriormente se asignan valores determinados por el investigador a las opciones de cada variable categórica, cabe aclarar que las variables continuas mantienen su valor pues su significado numérico no necesita mayor interpretación. Es así que las variables categóricas como sexo y escolaridad se les asigna un valor, para las variables nominales no importa cuál le corresponda a cada opción pues únicamente permitirán identificar y diferenciar (en este caso hombre con 1 y mujer con 2, aunque esto puede invertirse) y para la variable ordinal los códigos deben reflejar el orden que representan las categorías (la menor escolaridad es primaria por lo que le corresponde el valor más pequeño, seguida de secundaria y preparatoria, la mayor es licenciatura por lo que debe asignársele el valor mas alto). Variables Sexo Escolaridad Edad Respuestas Hombre Mujer Primaria Secundaria Preparatoria Licenciatura 6 8 12 17 Valores 1. Hombre 2. Mujer 1. Primaria 2. Secundaria 3. Preparatoria 4. Licenciatura 6 8 12 17 La asignación de códigos a las variables se realiza de manera arbitraria, esto es, cada investigador asigna los códigos que el mismo establece. Sin embargo, cuando dicha investigación va a ser retomada en un tiempo lejano o por otras personas, es difícil adivinar los códigos asignados, es por ello que se debe realizar una guía de codificación que permita evitar errores al respecto. Guía de codificación La guía de codificación es como un índice en donde se especifican todas y cada una de las variables del estudio, sus características y los valores que se les asignaron al codificarlas. 12 Es una herramienta muy importante por las siguientes razones: Contiene toda la información que se requiere a lo largo del proceso. Homogeneiza la elaboraciónde bases de datos y documentos derivados del análisis. Permite que otra persona identifique las características de los datos utilizados, por lo que sirven de consulta para investigaciones posteriores. Los elementos que conforman una guía de codificación son: Nombre de la variable (NAME). Se requiere un nombre resumido con el cual se identificará la variable en el análisis. Debe: Ser una clave de máximo 8 caracteres Comenzar con una letra No debe incluir espacios, acentos, ni caracteres especiales como: ¿?#$%(/)\+-*. Tipo de variable (TYPE). Se refiere al tipo de datos que contendrá la variable. Existen muchos, pero los más usuales son: ► Alfabética. Cuando las respuestas del cuestionario están dadas en letras y no en números. Limita la realización de análisis estadísticos, por lo que se recomienda primeramente codificar la variable y pasarla a numérica, ya que así se tendrán más posibilidades para el análisis. ► Numérica. Permite la captura de números solamente. Es el más recomendado ya que permite realizar más análisis estadísticos que los otros tipos. Además, al hacer la codificación siempre se asignan números a las categorías, por lo que es el tipo más usado. Número de campos (WIDTH) y decimales (DECIMALS). Se trata del número de dígitos que componen la respuesta de la variable. Se cuenta el número de espacios necesarios para capturar todas las opciones de una variable. En el conteo deben incluirse el punto y los decimales. Ejemplo: Sexo: Se codificó como (1) Hombre y (2) Mujer, para capturar estas opciones se requiere de una columna o espacio. Esto puede simbolizarse como 1.0, ya que se utilizará una columna sin decimales. Escolaridad: Se codificó como (1) Primaria, (2) Secundaria, (3) Preparatoria y (4) Licenciatura, para capturar estas opciones se requiere de una columna o espacio. Al igual que la anterior se simboliza como 1.0. Edad: Para esta variable se captura la respuesta directa de los sujetos que en este caso va de 6 a 17 años. Para poder capturar esta variable se requieren dos columnas. En este caso se describe como 2.0, es decir una variable de dos espacios sin decimales. Estatura en metros: Para variables con decimales, debe contabilizarse la posición del punto decimal, por lo que en este ejemplo que se tienen estaturas de 1.54 a 1.72 metros, se ocuparán cuatro columnas de las cuales dos de ellas están después del punto decimal. Para referirnos al formato de esta variable se puede 1 2 1 2 3 4 6 8 1 2 1 7 13 escribir como 4.2, indicando que utilizará cuatro columnas, de las cuales las últimas dos son ocupadas por decimales. Etiqueta de la variable (LABEL). Permite escribir el nombre completo de la variable o la pregunta que se indaga. Se pueden utilizar hasta 80 caracteres, con sus respectivos espacios, acentos y otros caracteres como paréntesis, comillas, diagonales o apóstrofes. Valores (VALUES). Es donde se indica a qué se refiere cada uno de los valores codificados. Sólo se utiliza para variables categóricas cuyos valores se codificaron, Se debe especificar: ► Código de la variable ► Etiquetas de los valores Variable Códigos Etiqueta del valor Escolaridad 1 2 3 4 Primaria Secundaria Preparatoria Licenciatura Valores perdidos (MISSING VALUES). Se asigna un valor determinado a las situaciones donde no se obtiene respuesta o ésta no entra dentro del rango de respuesta establecido por el investigador. Generalmente se utiliza el “9” o cadenas de nueves para asignar este valor. Está estrechamente relacionada con el número de espacios que se le asignó a cada variable. Ejemplo: En una variable como el sexo que ocupa solo un espacio su valor perdido es “9” Variable Numero de Campos Valor perdido Escolaridad 1 9 Pasatiempo 2 99 Sueldo mensual 5 99999 Nivel de medición (MEASURE). Indica el nivel de medida de la variable, lo que ayuda a elegir los estadísticos a utilizar. Pueden ser de tres tipos: nominal, ordinal y escalar. En este último se agrupan las variables numéricas (De razón e intervalar). La guía de codificación se debe realizar utilizando una tabla como la siguiente, donde cada renglón indica una variable. Esto es, tendremos tantos renglones como variables en el estudio. 1 . 7 2 1 . 6 8 1 . 5 4 1 . 6 5 14 GUÍA DE CODIFICACIÓN Nombre de variable Tipo Campos Etiqueta de la variable Valores Valores perdidos Nivel de medición Una vez que se tienen las respuestas de los sujetos listas para analizar, se utiliza la estadística descriptiva de tres maneras: Tablas de frecuencia Gráficas Análisis estadísticos 15 Frecuencias La recolección de datos constituye la materia prima con la que debe trabajar un investigador para analizar sus datos, obtener resultados y probar sus hipótesis sobre la naturaleza de la realidad social. La información estadística puede comunicarse más fácilmente si se organiza en tablas y se muestra en gráficas, las cuales se describen a continuación: Tabla de frecuencias Al resumir grandes colecciones de datos, resulta útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase, lo cual se denomina frecuencia de clase. Así, las frecuencias son el número de veces que ocurre un evento. Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase se conoce como distribución de frecuencias o tabla de frecuencias. La comparación entre distribuciones de frecuencia es un procedimiento que se utiliza a menudo para aclarar resultados y agregar información. Existen dos tipos de tablas de frecuencia: De datos no agrupados De datos agrupados Tabla de frecuencia de datos no agrupados La distribución de frecuencias no agrupadas contiene en una columna todos los valores posibles y en la otra la cantidad de veces que este número o categoría se presenta, esto es, su frecuencia (f). Ejemplos: Tabla 1. Sexo Tabla 2. Edad Categoría f Categoría f Mujeres 200 60 1 Hombres 600 61 1 Total 800 62 2 63 3 64 5 66 4 67 6 68 3 70 4 71 6 72 3 73 1 74 1 Total 40 La tabla 1 muestra la distribución del género de 800 empleados, donde 600 son hombres y el resto mujeres. 16 En la tabla 2 se observa que se entrevistaron a 40 personas entre 60 y 74 años, donde las edades más frecuentes fueron 67 y 71 años. Tabla de frecuencia de datos agrupados Es aquella que sus valores se presentan en intervalos. Se utilizan únicamente con variables numéricas y cuando la variabilidad de los datos es muy amplia. Pasos para construir una distribución de frecuencia agrupada: 1. Calcular el rango. El rango es la diferencia entre el valor más grande y el valor más pequeño de la distribución de datos. Suponiendo que el mayor dato sea 74 y el menor sea 60, el rango corresponde a: 74 – 60 = 14. 2. Determinar el número de intervalos. Lo más indicado es tomar entre 5 y 20 intervalos de clase, según la distribución de los datos. Generalmente se utilizan 7 que no es tan pequeño ni tan grande, pero esto siempre depende del interés del investigador, de sus objetivos y de la variabilidad de datos. Así, si los datos varían poco es recomendable agruparlos en pocos intervalos y viceversa. 3. Determinar el ancho del intervalo (w). Se calcula dividiendo el rango entre el número deseado de intervalos. Siempre debe ser un número entero o redondearse para que lo sea. Se debe dividir el rango en un número de intervalos de clase del mismo tamaño. 4. Especificar los límites del intervalo. Deben ser estandarizados para evitar las decisiones contrarias en cada caso: o Límite inferior. El intervalo debe comenzar con un múltiplo de w.El primer intervalo comienza con el múltiplo de w que sea menor o igual al mínimo del rango. Ejemplo: si w es = 3 y el valor mínimo de la distribución es 62 deberá iniciarse en 60. o Límite superior. Debe sumarse el límite inferior de cada intervalo con el resultado de restar una al rango. El intervalo debe comenzar con un múltiplo de w. El primer intervalo comienza con el múltiplo de w que sea menor o igual al mínimo del rango: límites inferiores + (w-1). Esto con el objeto de que en cada intervalo queden exactamente el número de dígitos establecido en el rango: 28, 29, 30, 31. 5. Hallar las frecuencias de clase. Contar los valores que caen en cada intervalo para encontrar la frecuencia de cada intervalo. Es importante considerar que no siempre resulta exacto el número de intervalos debido a la regla de los rangos. Ejemplo (tomando los datos de la tabla de edad anterior): Paso 1. minmaxrango xx , 146074rango Paso 2. No. de Intervalos = 5 Paso 3. intervalos de No. rango w , 8.2 5 14 w , redondeado = 3 Paso 4. Límite inferior: base el valor más pequeño con incrementos de w: 60, 63, 66, 69, 72 Limite superior = límites inferiores + (w-1): 62, 65, 68, 71, 74 17 Paso 5. Obtener las frecuencias de clase Intervalo f 60-62 4 63-65 8 66-68 13 69-71 10 72-74 5 40 Todas las tablas de frecuencias de datos, tanto las agrupadas como las no agrupadas, deben contener las siguientes columnas: Columna de datos o categorías Consiste en datos recogidos que no han sido organizados numéricamente. Para darle orden a una fila de datos se construye un conjunto de datos numéricos en orden creciente o decreciente. Cuando se trata de variables categóricas, la fila de datos contiene cada una de las categorías de la variable. Frecuencia absoluta (f) Es el conteo de los datos de cada una de las categorías. Es el número de veces en que se repite cada uno de los eventos. La sumatoria total de cada uno de esto eventos constituye el número total de sujetos de la muestra. Frecuencia absoluta acumulada (fa) La Frecuencia acumulada se define como el número total de casos que tengan cualquier puntaje dado o uno que sea mas bajo. La frecuencia acumulada para cualquier categoría se obtiene sumando la frecuencia total para todas las categorías abajo de ella. Esto es, tomar la frecuencia de la categoría y sumarla a la frecuencia de la categoría posterior, y así consecutivamente. La última frecuencia acumulada debe ser igual al número de sujetos entrevistados. Una tabla que presente tales frecuencias acumuladas se denomina distribución de frecuencias acumulada, tabla de frecuencias acumuladas, o bien, distribución acumulada. Ejemplo: Edad Frecuencia Frecuencia acumulada 60-62 4 4 63-65 8 12 66-68 13 25 69-71 10 35 72-74 5 40 Frecuencias relativas o porcentajes (%) La frecuencia relativa de una clase es su frecuencia dividida por la frecuencia total de todas las clases y multiplicada por 100. Se expresa generalmente como porcentaje. Por ejemplo, la frecuencia relativa de la clase 66–68 (ver la tabla de frecuencias) es 13 (frecuencia de clase): 5.32100 40 13 18 La suma de las frecuencias relativas de todas las clases debe dar 100% o un dato muy cercano, considerando las variantes debidas a los decimales. Ejemplo general: Intervalo F % 60-62 4 10 63-65 8 20 66-68 13 32.5 69-71 10 25 72-74 5 12.5 Total 40 100 Si se sustituyen las frecuencias por las correspondientes frecuencias relativas, la tabla resultante se denomina distribución de frecuencias relativas, distribución de porcentajes, o bien, tabla de frecuencias relativas. Un porcentaje es la relación que se establece entre una de las partes con respecto al todo o total multiplicado por cien. Por ejemplo, si un conjunto de personas es dividido en dos subconjuntos (hombres y mujeres), el coeficiente que resulta de dividir el número de hombres con relación al total de personas y multiplicado por cien, indica el número de hombres por cada cien personas que integran ese conjunto: Mujeres 200 Hombres 600 Total 800 %25)100( 800 200 )100( personasdetotal mujeresde# mujeresde% %75)100( 800 600 )100( personasdetotal hombresde# hombresde% La principal función de los porcentajes es la de poder comparar de manera más precisa, ya que con las frecuencias la interpretación puede ser errónea. Ejemplo: En la Facultad de Ciencias Políticas y Sociales se inscribieron, en el año de 1967, un total de 1365 alumnos. Si se desea conocer el tipo de escuela primaria de la que provienen (pública o privada) y, además, su relación con el sexo, es conveniente transformar los datos absolutos a porcentajes, con el fin de establecer mejor dicha relación. Así: Escuela Mujeres Hombres Total Oficial 146 668 814 Privada 225 336 561 Total 371 1004 1375 Los datos absolutos no indican claramente en qué medida los hombres y mujeres provienen, en mayor o menor proporción, de escuelas oficiales. Si bien se puede apreciar que la mayor parte de las mujeres provienen de escuelas particulares y que los hombres provienen, en mayor proporción, de escuelas oficiales, 19 resulta difícil señalar cómo se da esta diferencia, pues las relaciones se ven oscurecidas por la dimensión absoluta de las cifras. Si se reducen el total de mujeres y el total de hombres a la base de 100 y se evalúan los porcentajes correspondientes a ambos subconjuntos (escuelas oficiales y privadas), las diferencias se presentan con claridad. De esta forma se observa lo siguiente: Escuelas Mujeres Hombres Total f % f % f % Oficial 146 39 668 67 814 59 Privada 225 61 336 33 561 41 Total 371 100 1004 100 1375 100 Al reducir los valores absolutos a relativos, se aprecia que de cada 100 mujeres inscritas, 39 provienen de escuelas oficiales y que de cada 100 hombres inscritos, 67 provienen de escuelas oficiales. Frecuencias relativas acumuladas o porcentajes acumulados (%a) Se define como el porcentaje total de casos que tengan cualquier puntaje dado o uno que sea mas bajo. El porcentaje acumulado para cualquier categoría se obtiene sumando el porcentaje total para todas las categorías abajo de el. Esto es, tomar el porcentaje de la categoría y sumarlo al porcentaje de la categoría anterior. El último porcentaje acumulado debe dar 100. Ejemplo general: Intervalo F fa % % a 60-62 4 4 10 10 63-65 8 12 20 30 66-68 13 25 32.5 62.5 69-71 10 35 25 87.5 72-74 5 40 12.5 100 Total 40 100 Requerimientos para la elaboración de tablas: Además de las columnas las tablas de frecuencia deben cumplir con ciertos requisitos como son: Ser autoexplicativa, esto es, que no se necesite recurrir a otra fuente para entender su contenido. Llevar un título corto pero que describa claramente lo que contiene. Especificar a que se refiere cada una de las columnas y las categorías. Puede llevar una nota al pie donde se indiquen aclaraciones sobre la tabla o la fuente de donde provino- 20 Representación Gráfica de Datos Hecha la recopilación de los datos, el siguiente paso es la correcta organización para que brinde información fiel y de utilidad. De la misma manera que las tablas de frecuencia, las gráficas permiten presentar de manera resumida los datos encontrados en una investigación. Una gráfica es la representación de datos, generalmente numéricos, mediante líneas, superficies o símbolos, para ver la relación que esos datos guardan entre sí. Son de gran utilidad debido a que permiten la visualización rápida de los resultados, son atractivas por lo que captan la atención del lector, además de que son fáciles de entender e interpretar. Sin embargo, pese a que son muy utilizadas es necesario tener en cuenta que las gráficas no son de uso indiscriminado, esto es, dependiendo de los datos recolectadoes el tipo de gráfica que se va a utilizar. Para hacer la elección, es necesario considerar la naturaleza de los datos de acuerdo con el propósito para el cual fueron recopilados. Si las observaciones se hicieron atendiendo a ciertas cualidades o atributos de una población se les llama datos cualitativos. Si, por el contrario, las observaciones se hicieron atendiendo a características que pueden representarse numéricamente como son: estatura, peso, temperatura, volumen, costos, entre otras, de una población se les llama datos cuantitativos. A continuación se representan las gráficas más apropiadas tanto para datos cualitativos como para cuantitativos. Datos Cualitativos Gráfica de barras Es una forma muy usual para representar datos cualitativos. Se hacen dibujando rectángulos o barras, que indican diversos valores bajo una escala común y teniendo un mismo origen que representa cero. Las barras pueden presentarse vertical u horizontalmente. La escala de valores se coloca sobre dos rectas perpendiculares, en el eje X se ponen las categorías y en el Y las frecuencias o porcentajes. Este tipo de gráfica puede utilizarse tanto para variables nominales como para ordinales. Gráfica 1. Número de Alumnos por Materia Gráfica Circular Este tipo de gráfica se representa, generalmente, en un círculo y las divisiones que presenta son proporcionales a las diferencias cuantitativas que se tratan de representar. La abertura de cada sector del círculo representa el porcentaje correspondiente. Asimismo, este tipo de gráfica debe utilizarse exclusivamente para variables nominales o que describan las características de la población. Gráfica 2. Porcentajes de la población de México por grupos de edad 21 Gráfica Pictórica o Pictograma Son llamadas también gráfica de figuras, estadística de figuras o lenguaje estadístico internacional. Son equivalentes a las gráficas de barras, pero son más llamativas y de fácil comprensión por su sencillez. En lugar de barras se utilizan dibujos referentes a lo que se quiere expresar. Dichos dibujos expresan cantidades parciales o totales: Signos de pesas para dinero, sacos de harina para agricultura, etc. Para interpretar estas gráficas basta conocer el valor de cada figura o signo. Datos Cuantitativos Histograma El histograma puede interpretarse como una gráfica especial de barras o rectángulos, los cuales se trazan de tal manera que su ancho es igual al intervalo de clase; como todos los intervalos son iguales, todos los rectángulos tienen el mismo ancho. La altura de cada barra es igual a la frecuencia correspondiente a dicho intervalo. Para tal efecto, se trazan dos ejes coordenados: en el horizontal se marcan los intervalos de clase y en el vertical las frecuencias. Así pues, esta gráfica se utiliza para variables de tipo intervalar o de razón y sus barras deben ir juntas. Gráfica 4. Distribución de edad de un grupo de adolescentes Polígono de frecuencia Es una gráfica lineal que se obtiene marcando los puntos medios de cada intervalo de clase en las abscisas y como ordenada la frecuencia correspondiente al intervalo. Posteriormente, se unen con rectas dichos puntos para formar la poligonal que se limita en los puntos medios del intervalo anterior y del intervalo que sigue a los marcados en la tabla. Puede ser una gráfica que combina las gráficas lineales con el histograma. Este tipo de gráfica se utiliza para variables intervalares o de razón. Gráfica 5. Número de síntomas de depresión en un grupo de mujeres mayores 22 Gráfica Lineal o Poligonal Las gráficas lineales se representan en una cuadrícula a base de líneas horizontales y verticales, expresando a la izquierda y, en la base de dicha cuadrícula, dos tipos diferentes de escalas normalmente que se refieren a cantidad y tiempo. Sirven fundamentalmente para comparar y observar la evolución de ascenso y descenso en todo tipo de fenómeno, sea social, económico, industrial, comercial, físico, etc. Este tipo de gráfica sirve también para llevar un registro pormenorizado de cualquier fenómeno y está considerada como una de las gráficas más exactas. Se utiliza principalmente para variables de razón. Gráfica 6. Crecimiento Poblacional en la República Mexicana Requerimientos para la elaboración de gráficas Al igual que las tablas de frecuencia, las gráficas deben cumplir con ciertos requisitos como son: Ser autoexplicativa, esto es, que no se necesite recurrir a otra fuente para entender su contenido. Llevar un título corto pero que describa claramente lo que contiene la gráfica. Especificar a que se refiere cada uno de los ejes (sexo, edad, etc.) y las unidades representadas (frecuencia, porcentaje). Puede llevar una nota al pie donde se indiquen aclaraciones sobre la gráfica o la fuente de donde provino- En la elaboración de un documento es recomendable poner gráfica y tablas para representar diferente datos, pero nunca debe ponerse una gráfica y una tabla para representar lo mismo. Gráficas engañosas Una forma muy común de mentir con la estadística es a través de las gráficas. En muchas ocasiones se presentan gráficas que son ambiguas por lo que la interpretación de ellas puede variar, mientras que en otros momentos las gráficas están presentadas propositivamente para resaltar un resultado no muy relevante, pero encaminado a influir en la percepción del lector. De esta manera, se amplían las escalas de las gráficas, haciendo ver diferencias importantes donde no las hay, o por el contrario, se minimizan las escalas para que se ven pocas diferencias entre los grupos. Es por ello que debe serse muy cuidadoso al interpretar una gráfica, tomando en cuenta, los datos que se están graficando, el número de personas entrevistadas y sobre todo la escala de medida que se grafica (frecuencias, porcentajes, etc.). 23 Medidas de Tendencia Central Son aquellas que nos indican que tanto se agrupan los datos o se acercan a un punto medio. Media aritmética ( x ) La media aritmética, o promedio aritmético, se define como la suma de todos los valores entre el número total de ellos. Es un puntaje que equilibra todos los puntajes ubicados a uno y otro lado de ella. Es el promedio que se encuentra usualmente. Las fórmulas son las siguientes: Para datos no agrupados: Para datos agrupados: n x x n fx x En donde: x = calificación o punto medio de la calificación n = número de calificaciones o datos f = frecuencia Se interpreta como el promedio de los datos obtenidos, es decir, el dato alrededor del cual se encuentran los demás datos de la distribución. Por ejemplo: si promediamos la edad de un grupo de alumnos de secundaria probablemente obtengamos 14 años, lo que las edades de los alumnos están alrededor de esta edad pudiendo ser mayores o menores. La media no es siempre el puntaje que ocurre más a menudo, ni el más cercano al medio en una distribución. Media es el punto alrededor del cual las desviaciones positivas y negativas de la distribución se equilibran. Ejemplos: Datos no agrupados Si quisiéramos encontrar la media del coeficiente intelectual de los 8 entrevistados. En resultado indica que el coeficiente intelectual del grupo en promedio fue 107.87. Entrevistado C.I. 87.107 8 863 n x x Leticia 125 Francisco 92 Sara 72 Miguel 125 Rebeca 120 Rocío 99 Benjamín 130 Pablo 100 Total 863 Datos agrupados Si obtenemos el promedio de calificaciones de matemáticas de un grupo de secundaria, el resultado indica que en promedio la calificación del grupo fue 6.76, esto es, que hay tanto calificaciones mayores como menores a esta. x f fx 76.6 25 169 n fx x 10 1 10 9 3 27 8 6 48 7 4 28 6 5 30 5 2 10 4 4 16 Total 25169 24 Moda (Mo) La moda es el valor que se presenta con mayor frecuencia en un conjunto de datos. De todas las medidas de tendencia central, la moda es la más fácil de determinar, puesto que, en el caso de las distribuciones con datos no agrupados, se obtiene por inspección, no por cómputo. Por otra parte, cuando los datos están agrupados, la moda se define como el promedio los valores mínimo y máximo del intervalo de mayor frecuencia. A una distribución que cuenta con una sola moda se le denomina unimodal. Las bimodales refieren dos valores que tienen frecuencias máximas similares. Las multimodales, por su parte, son distribuciones de mediciones que tienen varias modas. Se interpreta como el dato que se repite el mayor número de veces en una distribución, es decir, es el dato de mayor frecuencia. Entrevistado C.I. x f fx Leticia 125 10 1 10 Francisco 92 9 3 27 Sara 72 8 6 48 Miguel 125 7 4 28 Rebeca 120 6 5 30 Rocío 99 5 2 10 Benjamín 130 4 4 16 Pablo 100 Total 25 169 Total 864 La moda o coeficiente intelectual más frecuente es 125 que se presenta en dos entrevistados La calificación de matemáticas más frecuente en un grupo de secundaria es 8. Este dato constituye la moda. Mediana (Md) Es el valor o punto en una serie que divide los valores ordenados en dos grupos de igual tamaño. De manera que el 50 % de los sujetos tiene puntajes iguales o menores a la mediana y el otro 50 % de individuos, tiene calificaciones iguales o mayores a la mediana. Procedimiento para datos no agrupados: Ordenar los datos de manera ascendente o descendente. Identificar la posición de la mediana, esto es, al sujeto que está justo en medio de la distribución mediante alguna de las siguientes fórmulas. Cuando n es par: Cuando n es impar: 2 1 n Md 2 n Md El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como posición de la mediana. Identificar el valor o calificación que pertenece al sujeto que está a la mitad de la distribución. Ese valor corresponde al valor numérico de la mediana. 25 Ejemplo de datos no agrupados: X f fa 5.11 2 23 2 . n Md Md = 11.5 = 4 7 2 2 6 3 5 5 4 9 4 5 14 3 4 18 2 3 21 1 2 23 Total 23 El dato obtenido de la fórmula (11.5) se busca en las frecuencias acumuladas. En este caso cae en la Fa 14 en donde se encuentran los sujetos del 10 al 14. Posteriormente se ubica el valor correspondiente al sujeto. El valor es 4. Lo que indica que la Mediana es igual a 4. Interpretación: Se obtuvieron las calificaciones de 23 personas, observando que el 50% de ellas obtuvieron un puntaje igual o mayor a 4. Procedimiento para datos agrupados: Identificar la posición de la mediana, esto es, al sujeto que está justo en medio de la distribución mediante alguna de las fórmulas anteriores. El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como posición de la mediana. El intervalo donde se encuentre esta será el que se utilice en la fórmula. Identificar el valor o calificación que pertenece al sujeto que está a la mitad de la distribución, dentro del intervalo seleccionado. Para lo cual se utiliza la siguiente fórmula: )( )5.0( i f faan LRIMd Donde: LRI = Límite real inferior del intervalo donde se encuentra la mediana faa = Frecuencia acumulada anterior f = Frecuencia del intervalo i = Tamaño del intervalo El resultado de la fórmula es el valor numérico de la mediana. Ejemplo de datos agrupados: Se aplicó un examen cuya calificación mayor fue 98 y la menor 64, elabore 7 intervalos y obtenga la mediana 26 x f x f x f x f x f 64 1 71 4 78 5 85 4 92 2 65 2 72 3 79 6 86 4 93 2 66 1 73 3 80 6 87 4 94 4 67 2 74 4 81 6 88 4 95 3 68 2 75 5 82 7 89 5 96 2 69 3 76 5 83 7 90 5 97 2 70 5 77 5 84 4 91 3 98 2 i f fa LRI 64-68 8 8 63.5 69-73 18 26 68.5 74-78 24 50 73.5 79-83 32 82 78.5 84-88 20 102 83.5 89-93 17 119 88.5 94-98 13 132 93.5 5.66 2 133 2 1 . n Md 81)5( 32 5066 5.78)5( 32 50)1325.0( 5.78)( )5.0( i f faan LRIMd Interpretación: Se aplicó un examen a 132 personas, observando que la calificación mayor fue 98 y la menor 64. El 50% de las personas obtuvo una calificación entre 64 y 81, mientras que la otra mitad obtuvo entre 81 y 98. 27 Medidas de Posición Son aquellas que se utilizan para conocer el lugar exacto que ocupa un dato dentro de la distribución. Las medidas de distribución más populares son el cuartil, el percentil y el decil. Cuartiles Son puntos que parten la distribución en cuatro partes o cuartos. El punto que divide el cuarto inferior (25%) de los tres cuartos superiores de la distribución, es el primer cuartil (Q1). El segundo cuartil (Q2) es idéntico a la mediana, ya que divide a la población en 2 partes iguales. El tercer cuartil (Q3) divide el cuarto superior de los tres cuartos inferiores de la distribución. La división se realiza de acuerdo a la proporción de frecuencias observadas. Percentiles Son puntos que dividen en centésimas (cien partes iguales) la distribución. Esto es, son puntos bajo los cuales cae un porcentaje dado “P” de los casos. P50 es equivalente a la mediana y al punto Q2. Asimismo, P25 es equivalente a Q1 y, por último, P75 equivale a Q3. Cálculo de las medidas de posición de datos NO agrupados: Cuartiles Ordenar los datos de manera ascendente. Identificar la posición del cuartil mediante alguna de las siguientes fórmulas. 4 1 n Q 4 2 2 n Q 4 3 3 n Q El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como posición del cuartil. Identificar el valor numérico del cuartil localizando la calificación que pertenece a la posición. Percentiles Ordenar los datos de manera ascendente. Identificar la posición del percentil que se desea con la siguiente fórmula. 100 xn Px El resultado de la fórmula se busca en las frecuencias acumuladas. A ese dato se le conoce como posición del percentil. 28 Identificar el valor numérico del percentil localizando la calificación que pertenece a la posición. Ejemplo de datos no agrupados Se les preguntó a un grupo de padres la edad en meses en que sus hijos habían tenido la primera expresión verbal. Los datos se muestran a continuación: 13 17 15 16 15 17 15 16 15 19 17 18 15 16 21 15 16 13 17 16 18 15 15 19 16 18 19 23 17 23 17 14 16 20 18 13 15 18 16 18 20 21 20 16 16 23 18 15 18 16 16 18 16 21 16 17 22 21 17 24 Obtener los cuartiles 1,2 y 3 y los percentiles 15 y 80. Valores f Fa Porcentaje % acumulado 13 3 3 5.00 5.00 14 1 4 1.66 6.66 15 10 14 16.66 23.32 16 14 28 23.33 46.65 17 8 36 13.33 59.98 18 9 45 15.00 74.98 19 3 48 5.00 79.98 20 3 51 5.00 84.98 21 4 55 6.66 91.64 22 1 56 1.66 93.3 23 3 59 5.00 98.3 24 1 60 1.66 99.96 Total 60 99.96 1615 4 60 1 Q 1730 4 )60(2 2 Q 1845 4 )60(3 3 Q 159 100 )60(15 15 P 1948 100 )60(80 80 P Los resultados se interpretan de la siguiente manera: El 25% de los bebes dicen su primera palabra entre los 13 y los 16 meses; el 50% antes de los 17 meses; el 25% entre los 18 y los 24 meses; el 15% de los bebes entre los 13 y los 15 meses y el 20% que se tarda más en hablar lo hace entre los 19 y los 24 meses. Cálculo de las medidas de posición para datos agrupados: El procedimiento tanto para cuartiles como para percentiles es el mismo, lo único que cambia es el multiplicador en la fórmula. Es por ello que se explicarán juntos los procedimientos. Identificar la posición distribución mediante alguna de las fórmulas anteriores. 29 Identificar el valor numérico con alguna de las siguientes fórmulas:)( )4/( i f faaxn LRIQ x )( )100/( i f faaxn LRIPx Donde: LRI = Límite real inferior del intervalo donde se encuentra la medida buscada faa = Frecuencia acumulada anterior f = Frecuencia del intervalo i = Tamaño del intervalo x = Número de percentil o cuartil que se quiere obtener. Ejemplo de datos agrupados Se aplicó una prueba para conocer el nivel de autoestima de un grupo de empleados de una empresa. Obtener los cuartiles y los percentiles 10 y 60. Intervalos f fa % % acumulado Punto Medio LMI 50 – 54 6 6 3.09 3.09 52 49.5 55 – 59 12 18 6.18 9.27 57 54.5 60 – 64 21 39 10.82 20.09 62 59.5 P10 65 – 69 32 71 16.49 36.59 67 64.5 Q1 70 – 74 46 117 23.71 60.29 72 69.5 Q2 P60 75 – 79 39 156 20.10 80.39 77 74.5 Q3 80 – 84 20 176 10.30 90.69 82 79.5 85 – 89 18 194 9.27 99.96 87 84.5 Total 194 99.96 5.48 4 194 1 Q 97 4 )194(2 2 Q 5.145 4 )194(3 3 Q 4.19 100 )194(10 10 P 4.116 100 )194(60 60 P 98.65)5( 32 395.48 5.64)5( 32 39)19425.0( 5.64)( )25.0( 1 i f faan LRIQ 32.72)5( 46 7197 5.69)5( 46 71)1945.0( 5.69)( )5.0( 2 i f faan LRIQ 30 15.79)5( 39 1175.145 5.75)5( 39 117)19475.0( 5.75)( )75.0( 3 i f faan LRIQ 83.59)5( 21 184.19 5.59)5( 21 18)100/)194(10( 5.59)( )100/)(10( 10 i f faan LRIP 43.74)5( 46 714.116 5.69)5( 46 71)100/)194(60( 5.69)( )100/)(60( 60 i f faan LRIP Los resultados se interpretan de la siguiente manera: El 25% de los sujetos obtuvo 65.98 o menos en la prueba; el 50% de los empleados obtuvo más de 72.32; el 75% sacó de 79.15 para arriba en la prueba, estos son lo que tienes una mayor autoestima. Además, el 60% de los empleados obtuvo un puntaje menor o igual a 74.43, mientras solo el 10% tiene menos de 59.83, esto es, los de menor autoestima en el grupo. 31 Medidas de Dispersión o Variabilidad Las dos características más importantes de cualquier conjunto de datos son: Su tendencia central Su variabilidad o dispersión Estos conceptos nos sirven para resumir las características principales de un conjunto de datos. Ambos son requisito indispensable para poder interpretar una observación. Las medidas de tendencia central están relacionadas con el promedio o valor típico o representativo de la distribución. Mientras que la variabilidad entre los valores, se refiere a qué tan grandes son las diferencias entre ellos. Las medidas de variabilidad cuantifican el grado de dispersión o la extensión de las diferencias individuales en la distribución. Las medidas de dispersión son: Valor mínimo y máximo Rango Varianza Desviación estándar o típica Valores mínimo y máximo Estos valores sirven para describir a la población y funcionan como indicadores para determinar dónde se encuentran los sujetos con respecto a la variable evaluada. Asimismo, van a utilizarse para obtener el rango de la distribución. Rango o amplitud El rango mide la extensión total de un conjunto de datos y se calcula utilizando únicamente dos números. Para encontrar el rango se restan los dos extremos de la medición, la medición más grande menos medición más pequeña. MINMAX XXR El rango sirve para describir la distribución de datos y se interpreta como el valor que indica la cantidad de unidades que se encuentran comprendidas entre el valor mínimo y el valor máximo de la distribución. Se interpreta como el valor que indica la amplitud de la base de la curva de distribución. El rango de la muestra aún cuando es fácil de calcular, a menudo es calificado de ineficiente porque ignora toda la información disponible en los valores intermedios de la muestra. Sin embargo, para muestras pequeñas, la eficiencia es suficientemente alta. Así el rango de la muestra goza de una aceptación favorable y uso amplio, debido a la facilidad para calcularlo en aplicaciones estadísticas como control de calidad, donde las muestras son pequeñas. Ejemplo Durante un mes determinado del verano, los ocho vendedores de aparatos electrónicos de una empresa vendieron el siguiente número de ventiladores: 8, 11, 5, 14, 8, 11, 16, 11. Obtener el rango. 32 MINMAX XXR R = 16 – 5 = 11 unidades Interpretación: La amplitud de lo vendido es de 11, lo que indica que hay una diferencia de 11 unidades entre el que más vendió y el que menos vendió. Varianza Es una medida de dispersión que se abrevia S 2 e indica que tanto se alejan los datos con relación a la media. La varianza se basa en el cuadrado de la diferencia entre cada uno de los valores del conjunto de datos y la media del grupo. La varianza toma en cuenta la distancia de cada medida con respecto a la media; esta distancia se llama desviación. Si una sola medición cae a la izquierda de la media sobre una gráfica de datos, se dice que la medida tiene una desviación negativa con respecto a la media; si cae a la derecha de la media, se dice que tiene una desviación positiva. Si tratamos de calcular la distancia promedio de cada medida con respecto a la media, la suma de las desviaciones positivas invalida la suma de las desviaciones negativas. El resultado de la suma numérica es cero, es decir, representa una medida inútil de variabilidad. Para evitar este problema se elevan las desviaciones al cuadrado (de este modo se eliminan los signos negativos) y entonces, se promedia la suma de los cuadrados. Este cálculo produce la varianza que indica la desviación con respecto a la media de cada medida de la muestra. La varianza para datos agrupados se obtiene restando el punto medio del intervalo mayor del punto medio del intervalo más pequeño, obteniendo así los valores de x. La varianza se obtiene mediante la siguiente fórmula: Para datos no agrupados: Para datos agrupados: n xx s )( 2 2 n xfx s )( 2 2 La varianza no tiene una interpretación descriptiva, pero es básica para el cálculo de análisis estadísticos más avanzados. Ejemplo A continuación se presentan varias muestras de calificaciones obtenidas por cuatro grupos en una prueba. Conjunto Calificaciones de la prueba Media 1 70, 70, 70, 70, 70 70 2 68, 69, 70, 71, 72 70 3 60, 70, 70, 70, 80 70 4 60, 65, 70, 75, 80 70 En los cuatro conjuntos la media es la misma, 70, pero los conjuntos son, desde luego, completamente diferentes. No hay variabilidad alrededor de la media en el conjunto uno, mientras que existe una gran variabilidad alrededor de la media en el conjunto cuatro. Es obvio que la media en sí misma no refleja en 33 forma alguna la variabilidad de estas calificaciones. Por tanto para encontrar el número que refleje la variabilidad de las calificaciones de la prueba se emplea el rango, mediante el cual se determina la diferencia entre la calificación más alta y la más baja. Conjunto Calificaciones de la prueba Media Rango 1 70, 70, 70, 70, 70 70 0 (70-70=0) 2 68, 69, 70, 71, 72 70 4 (72-68=4) 3 60, 70, 70, 70, 80 70 20 (80-60=20) 4 60, 65, 70, 75, 80 70 20 (80-60=20) Como puede observarse, el rango sólo toma la medida mayor y menor, así que para considerar todas las medidas se utiliza la varianza, la cual toma en cuenta la distancia de cada medida con respecto a la media. A continuación se desglosa el cálculo de la varianza de uno de los conjuntos de calificaciones Valor Media x Desviación (x- x ) Desviación al cuadrado (x- x ) 2 68 70 -2 (-2) 2 = 4 69 70 -1 (-1) 2 = 1 70 70 0 0 2 = 0 71 70 1 1 2 = 1 72 70 2 2 2 = 4 Total = 350 Total = 0 (x- x ) 2 =10 Como N = 5, la varianza es igual a: 2 5 10)( 2 2 n xx s Si de la misma manera calculamos la varianza para cada conjunto, los resultados nos indican que a mayor variabilidad en los datosmayor será la varianza, aunque la media de cada conjunto sea la misma. Conjunto Calificaciones de la prueba Media Rango Varianza 1 70, 70, 70, 70, 70 70 0 (70-70=0) 0 2 68, 69, 70, 71, 72 70 4 (72-68=4) 2 3 60, 70, 70, 70, 80 70 20 (80-60=20) 40 4 60, 65, 70, 75, 80 70 20 (80-60=20) 50 34 Desviación Estándar o Típica (s) La desviación típica equivale al promedio de la variabilidad de los datos. Es una medida de dispersión utilizada en la interpretación de los datos. Sirve para conocer la normalidad de una distribución, puesto que la normalidad refiere la suma y resta de dos desviaciones a la media. Su fórmula es: Para datos no agrupados: Para datos agrupados: n s xx )( 2 n s xfx )( 2 Se interpreta como el dato que refiere el promedio de la distancia a la que se encuentran las puntuaciones con respecto a la media. Si la desviación estándar es pequeña con respecto a la media, indica que las calificaciones son homogéneas, es decir están muy cercanas, pero si es grande, las puntuaciones son heterogéneas, esto es, muy diferentes entre sí. Ejercicio de datos no agrupados Obtener la media y la desviación estándar de la edad de los asistentes a un curso de capacitación: Edad x- x (x- x ) 2 25 -12.88 165.89 27 -10.88 118.37 32 -5.88 34.57 33 -4.88 23.81 38 0.12 0.01 39 1.12 1.25 43 5.12 26.21 48 10.12 102.41 56 18.12 328.33 Total 341 800.89 n x x 88.37 9 341 x n s xx )( 2 43.9 9 89.800 s El promedio de la edad de los asistentes es 37.88 años y el promedio de la distancia a la que se encuentran las edades con respecto a la media es 9.43. Esto significa que las edades se desvían en promedio 24 años hacia arriba y hacia abajo de la media. 35 Ejercicio para datos agrupados Se aplicó una prueba de matemáticas a 200 estudiantes que deseaban ingresar a la Licenciatura en Ingeniería. Obtener la media y la desviación estándar. Calificaciones f pm (x) Fx x- x (x- x ) 2 32 – 34 2 33 66 -21.99 479.61 35 – 37 4 36 144 -18.99 357.21 38 – 40 4 39 156 -15.99 252.81 41 – 43 16 42 672 -12.99 166.41 44 – 46 16 45 720 -9.99 98.01 47 – 49 18 48 864 -6.99 47.61 50 – 52 22 51 1122 -3.99 15.21 53 – 55 22 54 1188 -0.99 0.81 56 – 58 24 57 1368 2.11 4.41 59 – 61 22 60 1320 5.11 26.01 62 – 64 16 63 1008 8.11 65.61 65 – 67 12 66 792 11.11 123.21 68 – 70 10 69 690 14.11 198.81 71 – 73 6 72 432 17.11 292.41 74 – 76 4 75 300 20.11 404.01 77 – 79 2 78 156 23.11 533.61 Total 200 10998 3065.76 99.54200/10998 n fx x 32.15 200 76.3065)( 2 n S xx El promedio de las calificaciones de la prueba de matemáticas es 54.99, mientras que el promedio de la distancia a la cual se encuentran las calificaciones con respecto a la media es 15.32. Esto indica que las calificaciones se desvían 15 puntos por arriba y por abajo del promedio o media. Las medidas de tendencia central, por sí solas, no son suficientes, lo cual puede comprobarse si se considera el hecho de que dos o más conjuntos de datos pueden tener la misma media, mediana o moda sin que dichos conjuntos sean los mismos. Por lo tanto, son necesarias también las medidas de variabilidad o dispersión para describir los valores de forma más individual. 36 Medidas de Distribución Basadas en las gráficas que existen para representar los datos encontrados en variables numéricas, existen variaciones de las mismas que permiten conocer como se distribuyen los datos del fenómeno estudiado (Hopkins, Hopkins, y Glass, 1997). Entre las distribuciones más frecuentes en Psicología se encuentran: a) Rectangular. Distribución simétrica con una frecuencia constante para todos los valores. Por ejemplo nacimientos por cada día de la semana. No tiene una moda ya que todos los valores tienen aproximadamente la misma frecuencia. La media y la mediana pueden ser las mismas. b) Bimodal. Cuando existen 2 modas en la distribución. Por ejemplo en la distribución de las estaturas de hombres y mujeres, ya que sus estaturas difieren generalmente. Puede ser que una moda sea ligeramente más pequeña que la otra, en eso caso se habla de moda mayor y menor. Esta distribución también se presenta cuando las opiniones hacia un fenómeno se encuentran polarizadas. Por ejemplo la actitud hacia el aborto. La media y la mediana pueden ser las mismas. c) Normal. Se llama distribución de campana o distribución normal. Tiene dos características principales: - Es simétrica respecto a la línea vertical de la mediana (Asimetría = 0) - La moda y la media son iguales a la mediana - Unimodal - 96% de la población cae dentro (normal) y el 4% cae fuera (anormal) Por ejemplo la estatura de las mujeres. d) Asimétricas. Son distribuciones que no son iguales para ambos lados. La asimetría puede ser desde ligera hasta muy extrema. Dependiendo de la dirección puede ser: - Positivas. Se alarga hacia la derecha, hacia el extremo de valores más alto. Por ejemplo: Número de faltas a una materia en un semestre. - Negativas. Se alarga hacia la izquierda, hacia el extremo de valores más bajo. Por ejemplo: Las calificaciones de un examen muy fácil. En las distribuciones asimétricas la media es jalada hacia los valores extremos de la cola, por lo que en la positiva es mayor que la mediana y la moda, mientras que en la negativa es menor. Numero de personas que consultan la página de la Secretaría de Salud 1000 6000 11000 16000 en er o m ar zo m ay o ju lio se pt ie m br e no vi em br e 37 Estatura Mujeres Hombres Media 163.75 167.25 Mediana 163 168 Moda 163 168 Distribución Positiva Negativa Estatura Mujeres Hombres 158 1 0 159 2 1 160 3 1 161 4 1 162 5 1 163 6 1 164 5 2 165 4 3 166 3 4 167 2 5 168 1 6 169 1 5 170 1 4 171 1 3 172 1 2 173 0 1 TOTAL 40 40 Distribución Normal La distribución normal es la representación gráfica de las observaciones de un fenómeno y se denomina campana de Gauss. Se ha encontrado que si un fenómeno es observado en repetidas ocasiones, este tiene variaciones naturales que se distribuyen de manera regular y que de manera gráfica se convierten en la curva normal. Por ejemplo: la estatura se distribuye normalmente en al tener personas de la misma edad. Muchas medidas en psicología tienen una distribución parecida a la de la curva normal. Aunque nunca se tiene una curva distribución normal perfecta, pero se acerca a esta entre más sujetos se incluyen. Para saber el grado en que una curva de distribución se parece a una curva normal, se utilizan dos medidas: curtosis y asimetría. COMPARACION DE ESTATURAS DE HOMBRES Y MUJERES 0 1 2 3 4 5 6 7 1 5 8 1 5 9 1 6 0 1 6 1 1 6 2 1 6 3 1 6 4 1 6 5 1 6 6 1 6 7 1 6 8 1 6 9 1 7 0 1 7 1 1 7 2 1 7 3 ESTATURAS F R E C U E N C IA Mujeres Hombres 38 Curtosis Describe el grado en que las proporciones observadas difieren de las de la curva normal. Se refiere a la amplitud de la curva en una distribución normal, esto es la agudeza que presenta el perfil de una curva unimodal. La curtosis está relacionada con el número de sujetos que estamos observando. En la medida que el número de sujetos es más pequeño, la curva se hace más anchas y conforme crece el número de sujetos las curva es menos ancha y se parece más a una distribución normal. De acuerdo a la curva que reflejen las distribuciones pueden ser de 3 tipos Cuando los puntajes obtenidos al aplicar una prueba psicológica tienden a agruparse en el centro de la distribución en un intervalo reducido de valores, se tiene una curva aguda o leptocúrtica. Cuando esto ocurre, se dice que el grupo es homogéneo con respecto a lo que se mide. Cuando el resultado de la curtosis es positivo y mayor a 1, indicaque hay más casos en medio de la curva que en una distribución normal. > 1 Si el intervalo en el que tienden a agruparse los puntajes de un agrupo no es tan reducido, la curva se denomina semiaguda o mesocúrtica. Esta equivale a la curva normal. La distribución normal tiene una curtosis igual a 1. Entre más se aleje este valor del 1, menos se parecerá a una distribución normal estricta. = 1 Un caso opuesto a la curva leptocúrtica es el que corresponde a una distribución donde existe un intervalo amplio de puntajes con una agrupación mínima en el centro. A esta curva se le llama aplanada o platocúrtica. Los datos en esta distribución son heterogéneos entre sí. Una curtosis menor a 1 o negativa indica más casos en los extremos de la curva que en una distribución normal. < 1 39 As<0 Asimetría o sesgo (Skeeness) Describe la falta de simetría en una distribución. La asimetría (As) se presenta cuando una curva de distribución, en una de sus colas, se extiende más lejos que la otra en una dirección. Existen dos tipos de asimetría: Sesgo Negativo: Describe distribuciones simétricas en las que la mediana excede a la media, la cola de la distribución es hacia los valores bajos. Cuando la cola se extiende hacia la izquierda, el valor del estadístico es negativo Sesgo Positivo: Describe distribuciones asimétricas en las que la media excede a la mediana, la cola de la distribución es hacia los valores altos. Es cuando está más extendida la cola de la derecha de la curva, el valor del estadístico es positivo. Si la asimetría es igual a cero, se obtiene una curva normal. El llamado coeficiente de asimetría se calcula con la siguiente fórmula: s Mox As donde: As = Coeficiente de asimetría de Pearson Mo = Moda X = Media aritmética muestral S = Desviación estándar muestral As=0 As>0 POSITIVA AAA NEGATIVA POSITIVA NORMAL 40 Características de la Curva Normal La curva normal es un modelo teórico o ideal sobre cómo debe comportarse la distribución de las variables en una muestra, se obtuvo de una ecuación matemática. Se utiliza como parámetro de comparación para diferentes fenómenos. Sus principales características son (Ritchey, 2002): Las variables que representan debe ser numérica, esto es, con un nivel de medición intervalar o de razón. Representa una curva de distribución de frecuencias en la que la mediana, la moda y la media de una variable son iguales y dividen en dos partes iguales a la distribución. Tiene forma de campana Es geométricamente simétrica, lo cual indica que la mitad derecha es el espejo perfecto de la mitad izquierda. Aunque los valores de la Media y la desviación estándar cambiaran dependiendo de las variables observadas, cada curva normal es simétrica y tiene siempre el mismo porcentaje de observaciones que cae entre la media y las desviaciones. Permite conocer la distribución de situaciones reales. Muchas variables relacionadas a atributos psicológicos, como la inteligencia medida en términos de Coeficiente Intelectual (CI), se distribuyen en la población tomando la forma de la curva normal, en que la mayoría de los casos se encuentran en el centro (Moda), existiendo pocos casos en los extremos, siguiendo el ejemplo del CI, existen pocos sujetos con inteligencia muy baja por un lado y pocos genios por el otro, esto es lo que da a la curva normal su característica forma de campana (Ritchey, 2002). El área bajo la curva. Representa el 100%, 50% de cada lado Es igual a 1 (convertida en términos de probabilidad) Se calcula sumando y restando desviaciones estándar a la media. %26.681 sx %952 sx %993 sx Utilizando esta información se puede calcular el área comprendida entre dos puntos con base en las puntuaciones crudas. Por ejemplo: Una población de 1000 sujetos, tiene una media de edad de 75 años y una desviación estándar de 8, ¿cuántas personas tienen entre 67 y 75 años? -3 -2 -1 0 +1 +2 +3 68.26% 95% 99% 34.13% 41 Sustituyendo la media (75) en el centro y las desviaciones estándar a la izquierda o negativas (- 8) y a la derecha o positivas (+8), la respuesta es el 34.13% del total de la población es decir 341 sujetos tienen entre 67 y 75 años. Sin embargo si tenemos a un sujeto evaluado en 2 variables o 2 escalas diferentes, es difícil hacer la comparación con los puntajes brutos. Para ello se utilizan las calificaciones estandarizadas. Las calificaciones estandarizadas son puntuaciones que pueden ser comparadas transformando los valores brutos y sirven de parámetros de comparación. Las calificaciones estandarizadas más conocidas son los puntajes z y se refieren a calificaciones expresadas en unidades de desviaciones estándar de la media. La distribución de calificaciones Z tiene parámetros fijos: 0x 1s s xx z x = Valor bruto Ejemplo: Se quiere comparar la inteligencia de dos personas, cada una de ellas medidas con escalas diferentes. Para lograr esta comparación se convierten las calificaciones naturales (x) en calificaciones estandarizadas (z). Observando que los puntajes naturales indican que el segundo sujeto tiene mayor inteligencia que el primeo, los puntajes Z indican que el sujeto medido con la escala A tiene un coeficiente mayor. x x s z Depresión Escala A 80 90 5 -2 Depresión Escala B 90 100 7 -1.43 Depresión Escala A: Depresión Escala B: 2 5 9080 z 47.1 7 10090 z 51 59 67 75 83 91 99 34.13% 341 42 Bibliografía: 1. Christensen, H. (1983). Estadística paso a paso. México: Trillas. 2. Coolican, H. (1997). Métodos de Investigación y Estadística en Psicología. México: Manual Moderno. 3. Downie, M. & Heath, R. (1973). Métodos estadísticos aplicados. México: Harper & Row Latinoamericana. 4. Elorza, H. (2000). Estadística para las ciencias sociales y del comportamiento. México:Oxford. 5. Ferrán, M. (1996). SPSS para Windows. Programación y análisis estadístico. Madrid: McGraw- Hill. 6. Glass, G. y Stanley, J. (1970). Métodos estadísticos aplicados a las Ciencias Sociales. Madrid: Prentice Hall. 7. Hernández, S.R., Fernández, C.C. y Baptista, L.P. (1999). Metodología de la Investigación. México: McGraw-Hill. 8. Hopkins, K.D., Hopkins, B.R. y Glass, G.V. (1997). Estadística Básica para las Ciencias Sociales y del Comportamiento. México: Prentice Hall. 9. Kerlinger, F.N. (1998). Investigación del Comportamiento. México: McGraw-Hill. 10. Leach, C. (1983). Fundamentos de Estadística. México: Limusa. 11. Levin, J. (1979). Fundamentos de Estadística en la Investigación Social. México: Harla. 12. Maxim, P.S. (2002). Métodos Cuantitativos aplicados a las ciencias sociales. México: Oxford University Press. 13. Ostle, B. (2000). Estadística Aplicada. México: Limusa Noriega Editores. 14. Ritchey, F. J. (2002). Estadística para las Ciencias Sociales: El Potencial de la Imaginación Estadística. México: Mc Graw Hill. 15. Siegel, S. (1982). Estadística no paramétrica aplicada a las ciencias de la conducta. México: Trillas. 16. SPSS Inc. (1998). SPSS Manual. USA: SPSS Inc.
Compartir