Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística descriptiva PARAMETROS Y ESTADISTICOS Marta Alperin Profesora Adjunta de Estadística alperin@fcnym.unlp.edu.ar http://www.fcnym.unlp.edu.ar/catedras/estadistica mailto:alperin@fcnym.unlp.edu.ar • Medidas de tendencia central: Moda, Mediana, Media aritmética, propiedades, ventajas e inconvenientes, Media geométrica. • Medidas de dispersión: Rango, Rango intercuartilico, Varianza, Desvío estándar. • Medidas de forma: asimetría y apuntamiento o curtosis. • Ejemplo de cálculo con datos agrupados. Estadística descriptiva: Descripción de los datos con estadísticos y parámetros Para inferir como es la población necesitamos medidas rigurosamente definidas. Para describir las distribuciones se definen medidas o valores que dan cuenta de la: a. Tendencia central a. Dispersión o variabilidad de los datos c. Forma Nuestro interés es describir la muestra y la población. Cualquier medida referida a la: • el tamaño de muestra lo representaremos con n, los de la población con N. • MUESTRA recibe el nombre de “Estadístico o Estadística” y se designa con letras mayúsculas (X, Y, W, con algún adorno). • POBLACIÓN recibe el nombre de “Parámetros” y se designan con letras griegas (σ, ρ, ц, Ф, γ, etc.). a.Tendencia central 1. Moda 2. Mediana 3. Promedio o Media Aritmética 4. Media Geométrica 1. Moda: la Moda de una serie de datos es el valor que aparece con más frecuencia que cualquier otro. Ejemplo: para el siguiente conjunto de datos del largo del ala de mariposas emperador (mm) X̂ Observación: la moda es inestable ya que puede cambiar con el método de redondeo de los datos. En distribuciones que aumentan o disminuyen continuamente y a ritmo constante, la moda podrá ser un valor extremo más que un valor de tendencia central. Puede haber distribuciones con 2 modas (bimodales) o mas de 2 (multimodales). A B C D E F G 6,2 9,3 4,8 7,2 5,5 5,5 5,5 moda Datos agrupados La moda se encuentra en la clase de mayor frecuencia, la clase modal. CLX 21 1 .mod.inf.ˆ L.inf.mod = límite inferior de la clase modal, Δ1 = valor absoluto de la diferencia entre la frecuencia de la clase premodal y modal Δ2 = valor absoluto de la diferencia entre la frecuencia de la clase posmodal y modal C = amplitud del intervalo de la clase modal Histograma 0 5 10 15 20 25 30 Contenido de Limo (g) 0 5 10 15 20 25 30 N o . d e d a to s Valor de la MODA Mediana: La Mediana de una serie, cuando los valores se disponen según sus magnitudes, es el valor medio. Es una medida de posición que divide a una serie dejando a su izquierda el 50% de los valores menores a él y a su derecha el 50% de los valores mayores a él. -Datos sin agrupar. n impar, el valor coincide con el valor central. n par, se encuentra entre los dos valores centrales. X ~ A B C D E 6,2 9,3 4,8 7,2 5,5 Observación: una característica importante de la mediana es que no se deja influenciar con la magnitud de los valores de las colas de una distribución. {4,8; 5,5; 6,2; 7,2; 9,3} mediana -Datos agrupados La clase mediana es la clase cuya frecuencia acumulada supera primero el valor de la mitad mas uno de los datos [(n+1)/2] C fme fapn medLX 2/1 ..inf. ~ Lme = límite inferior de la clase mediana fap = frecuencia acumulada en la clase que precede inmediatamente a la clase que tiene a la mediana fme = frecuencia de la clase que tiene a la mediana C = amplitud del intervalo Polígono de frecuencia acumulada (Ojiva) 4 8 12 15 19 23 27 Contenido de limo (g) F (x ) 100 20 80 40 60 OJIVA Valor de la Mediana 50 Ejemplo: para el siguiente de datos del diámetro de concreciones del Valle de la Luna (mm): Promedio o Media Aritmética: la media aritmética, , para un conjunto de “n” observaciones {x1, x2, ..., xn}, es igual a las suma de los “n” valores dividido el número total de valores (n). La media poblacional se designa con μ. X A B C D E 6,2 9,3 4,8 7,2 5,5 Ejemplo: para el siguiente conjunto de datos de diámetro cefálico de cobayos (mm) n xxx X n ...21 n i i n x X 1 n i ix n X 1 1 6,6 5 5,52,78,43,92,6 X n i ii n af X 1 n i ii n cf X 1 Para datos agrupados • Discretos •Continuos fi: frecuencia a: valor de la variable fi: frecuencia del intervalo de clase c: marca de clase del intervalo mm Propiedades: 1º Es un valor típico, es el centro de gravedad, es un punto de equilibrio. Su valor puede sustituir al valor de cada dato de la serie sin cambiar el total dado que: 2º La suma algebraica de las desviaciones con relación a la media es “0” 3º La suma del cuadrado de las desviaciones de los datos respecto a la media es menor que las desviaciones al cuadrado de cualquier otro punto. Observación: una característica importante de la media es su inestabilidad. Por ejemplo con el agregado de datos extremos su valor cambia sustancialmente. n i ix n X 1 1 n i ixXn 1 n i i Xx 1 0 n i i mínimoXx 1 2 Media Geométrica: la media geométrica, G, para un conjunto de n observaciones {x1, x2, ..., xn}, es igual a la raíz n-ésima del producto de las n observaciones. Ejemplo: para el siguiente conjunto de datos de leyes de Cu (ppm) A B C D E 6,2 9,3 4,8 7,2 5,5 n nxxxG 21 4,60,109605,52,78,43,92,6 55 G Observaciones - G de un conjunto de números positivos es siempre menor a la media aritmética. - G es un mejor estimador de tendencia central cuando la distribución de frecuencias es de asimetría a la derecha (ej. distribución lognormal). - Se utiliza para calcular medidas de tendencia central de datos que se expresan como porcentajes, los llamados datos composicionales. ppm Para datos agrupados n fn n ff xxxG ...22 1 1 Relaciones entre Mediana, Moda, Media •Distribución con asimetría positiva o cola a la derecha: Moda>Mediana>Media •Distribución con asimetría negativa o de cola izquierda Media>Mediana>Moda •En distribuciones simétricas Media = Mediana =Moda . Precipitación (mm) Marca de Clase (ci) Frecuencia observada (fi) Frecuencia acumulada Frecuencia relativa % Frecuencia relativa acumulada % 0-50 25 21 21 22,58 22,58 50-100 75 34 55 36,56 59,14 100-150 125 26 81 27,96 87,10 150-200 175 8 89 8,60 95,70 200-250 225 4 93 4,30 100,0 PR EC IPITAC ION ES D E N OVIEMBR E 0 50 100 150 200 250 Precipitaciones (mm) 0 5 10 15 20 25 30 35 40 45 N o . d e o b se rv a ci o n e s 50 100 150 200 Precipitación (mm) 0 10 20 30 40 50 60 70 80 90 100 F re c u e n c ia r e la ti v a a c u m u ld a % Ejemplo: el partido de Bolivar se ubica en el centro de la provincia de Buenos Aires, en la Pampa húmeda. Pose relieve ligeramente ondulado con muy buenas condiciones físicas. Los suelos son aptos para una amplia gama de usos como los cultivos de cereales y oleaginosas, así como de pasturas implantadas. La precipitación es una variable muy importante para establecer no solo el balance hidrológico de una región, sino también para planificar el uso del suelo. Se presenta la distribución de la precipitación caída en Bolivar desde 1911-2002 durante el mes de noviembre agrupada en 5 clases n i ii n fc X 1 mmX 74,97 93 8625 CLX 21 1 mod.inf.ˆ Clase que contiene la moda: [50-100] L.inf.mod: 50 Δ1 = 21 - 34 = 13 C = 50 Δ2 = 26 - 34 = 8 C fme fapn medLX 2/1 ..inf. ~ (n+1)/2= (93+1)/2 = 47 Clase que contiene a la mediana: [50-100] L.inf.med. = 50 fme = 34 fap = 21 C = 50 Distribución con asimetría positiva o cola a la derecha: Moda> Mediana>Media80,95>88,24>97,74 mmX 24,8850 34 2147 50 ~ Estadísticos de tendencia central Promedio 8625)4225()8175()26125()475()2125( 1 n i ii fc Moda Mediana Precipitación (mm) Marca de Clase (ci) Frecuencia observada (fi) Frecuencia acumulada (fi ac.) ci fi 0-50 25 21 21 525 50-100 75 34 55 2550 100-150 125 26 81 3250 150-200 175 8 89 1400 200-250 225 4 93 900 Suma 93 8625 mmX 95,8050 813 13 50ˆ b. Dispersión 1. Amplitud, rango o recorrido 2. Rango intercuartilico 3. Varianza o variancia 4. Desvío estándar 5. Coeficiente de variación Amplitud, rango ó recorrido: El rango para un conjunto de n observaciones {x1, x2, ..., xn}, es la diferencia entre el valor máximo y el mínimo. Ejemplo: largo (cm) de lombrices californianas A B C D E 6,2 9,3 4,8 7,2 5,5 En este caso la amplitud es: A = 9,3 - 4,8 = 4,5 cm Otras medidas de dispersión: Definición: El cuantil xα divide a la muestra de datos en dos partes: el α% de los valores es menor que α y el (1 – α) de los valores es mayor que xα. Existen otros valores de la variable semejantes a la Mediana que dividen a la población y la muestra en 4 (cuartiles), 10 (deciles) y 100 (percentiles). C fm fapN LX %)( %.inf.% L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada en la clase que precede inmediatamente a la clase que tiene al α% fm: frecuencia de la clase que tiene al α% C : amplitud del intervalo Rango inercuartilico Los cuartiles son 3: X0,25 (primer cuartil); X0,50 (segundo cuartil o mediana) y X0,75 (tercer cuartil). • El rango intercuartilico RI es una medida de dispersión basada en el recorrido de los cuartiles. RI = X0,75 – X0,25 • Otros autores prefieren usar el recorrido basado en los percentiles RI = X0,90 – X0,10 Varianza Podríamos pensar en expresar la variación de los datos con respecto a la media como el promedio de las diferencias entre cada dato a la media. n XxXxXx n ...21 pero Recordar la 2º propiedad de la media: el promedio de las desviaciones respecto a la Media siempre es cero. Especimen xi xi - X A 9 4 B 2 -3 C 7 2 D 5 0 E 4 -1 F 6 1 G 5 0 H 2 -3 Suma 40 0 Promedio: 40/8=5 )(),...,(),( 21 XxXxXx n 0 ...21 X n xxx n Varianza es el promedio del cuadrado de las desviaciones de los datos con respecto a la media: Especimen xi xi - X (xi - X) 2 A 9 4 16 B 2 -3 9 C 7 2 4 D 5 0 0 E 4 -1 1 F 6 1 1 G 5 0 0 H 2 -3 9 Suma 40 0 40 Promedio: 40/8=5 Varianza: 40/8=5 La varianza se expresa en el cuadrado de las unidades de la variable. N xxx n 22 2 2 12 ... N i ix N 1 22 1 n i i Xx n S 1 22 1 1 Población Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino de Magallanes de Punta Tombo: Observación: Los valores altos tienen gran influencia en la varianza Muestra Cuando la S2 se usa para calcular σ2, la 3º propiedad de la media tiende a subestimar S2 . El sesgo se reduce cuando se usa (n -1) lo que produce un estimador mayor de σ 2. Desvío estándar La desvío estándar de n observaciones (x1 , x2 , ... , xn), es la raíz cuadrada positiva de la varianza: N i ix N 1 2)( 1 n i i Xx n S 1 2)( 1 1 para la Población para la Muestra N i ii n fXc S 1 2 1 N i ii N fc 1 2 ci: marca de intervalo de clase fi: frecuencia de intervalo de clase Datos agrupados Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino de Magallanes de Punta Tombo: 23,25 52 parasitos Coeficiente de variación • Es una medida que da cuenta de la variabilidad relativa de las observaciones. Para el ejemplo del número de parásitos de los pingüinos magallanes Promedio: 4 parásitos y Desvío estándar: 2,23 parásitos Coeficiente de variación: 0,5575 o 55,75% Observaciones: • El coeficiente de variación refleja una mezcla desconocida de la variabilidad natural, la variabilidad introducida durante el proceso de muestreo y de causas aleatorias. • El coeficiente de variación es útil para comparar la variabilidad entre varias muestras, aun si las mediciones fueran realizadas en diferentes unidades. • Es una medida que se utiliza como guía para evaluar la conveniencia de efectuar o no la transformaciones de los datos. Para la población: γ = σ/μ XPara la muestra CV = S / • Se calcula como el cociente entre el desvío estándar y la media. • Puede tomar valores positivos o negativos. • Carece de unidades pero suele expresarse en forma porcentual. Rango o Amplitud Coeficiente de variación 1058125)4.225()8.175()26.125()34.75()21.25( 22222 1 2 n i ii fc 7439062586252 2 1 n i ii fc n i n i iii nfcfc n s i 1 1 22 1 1 mms 98,5280,2806 CV%=54% 54,0 74,97 98,52 mm mm CV Estadísticos de dispersión A=250-0 = 250 mm A:Valor máximo – Valor mínimo CV = S / Varianza Desvío estándar Precipitación (mm) Marca de Clase (ci) Frecuencia observada (fi) ci fi ci 2 ci 2 fi 0-50 25 21 525 625 13125 50-100 75 34 2550 5625 191250 100-150 125 26 3250 15625 406250 150-200 175 8 1400 30625 245000 200-250 225 4 900 50625 202500 Suma 93 8625 1058125 22 8,2806 193 19,7998991058125 mms X nfcfc n fXc n s n i ii n i iii n i i 2 11 2 1 2 1 1 )( 1 1 c. Forma 1. Coeficiente de Simetría 2. Curtosis Coeficiente de simetría: Informa si los datos están equilibrados en torno a la media o si hay mas a la derecha o izquierda. Se define como: Se puede demostrar que: CS < 0, la asimetría es negativa (a) CS > 0, la asimetría es positiva (b) CS = 0 asimetría nula (simetría) (c) 3 3 S X CS n i i Xx n X 1 33 1donde: Coeficiente de Exceso E o de Kurtosis o Curtosis K mide el grado de achatamiento de un histograma con respecto al modelo teórico Normal. Se define como: Se puede demostrar que: E > 0, histograma más puntiagudo que el Normal (a) E < 0, histograma más achatado que el Normal (b) E = 0 histograma sin achatamiento (c) a) Histograma puntiagudo o b) Histograma achatado o c) Histograma normal o leptocurtico platicurtico mesocurtico 4 4 S X E n i i Xx n X 1 44 1 donde: Asimetría y Curtosis Ejemplos para distribuciones con la misma media y el mismo número de datos Las figuras de la izquierda (a, c y e) tienen bajo grado de asimetría. Las figuras de la derecha (b, d y f) son marcadamente asimétricas, la Moda está desplazada respecto a la media. Las 2 distribuciones de cada fila tienen curtosis semejantes: • a y b son las más “picudas” o leptocurticas, • c y d son mesocurticas ,y • e y f son las más “aplastadas” o platicurticas Precipitación (mm) Marca de Clase (ci) Frecuencia observada (fi) (xi- )3 (xi- )3 fi (xi- ) 4 (xi- )4 fi 0-50 25 21 -384875.167 -8082378.5 27995819.6 587912212 50-100 75 34 -11759.0268 -399806.912 267400.27 9091609.18 100-150 125 26 20257.1132 526684.943 552208.905 14357431.5 150-200 175 8 461173.253 3689386.03 35630245.5 285041964 200-250 225 4 2060989.39 8243957.57 262281510 1049126041 Suma 93 3977843.13 1945529258 4 4 S X E n i i Xx n X 1 4 4 )( 1 3 3 S X CS n i i Xx n X 1 3 3 )( 1 74,97X S= 52,98 S3= 148708,53 5,42772 93 13,3977843 3 X 29,0 53,148708 51,42772 CS S4= 7888577,58 4,20919669 93 19455292584 X 66,258,7888577 4,20919669 E CS>0 la disitribución tiene asimetría positiva (cola derecha) E >0 la distribución es mas puntiaguda que una distribución normal Estadísticos de forma Coeficiente de Exceso o de Curtosis Coeficiente de Simetría donde, donde, Agradezco su atención
Compartir