Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística aplicada Profesor: Juan Manuel Hernández López https://www.dropbox.com/sh/knmqra97i82gw7d/A ADMQDMwRE9voTaKNXD3WPJBa?dl=0 Estadística descriptiva La estadística descriptiva es la rama de las Matemáticas que recolecta, presenta y caracteriza un conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los mesespoblación, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas características de ese conjunto El término estadística se deriva de la palabra latina status (que significa “estado”)significa “estado”) John Graunt (1620-1674) Science 06 Jul 2007: Vol. 317, Issue 5834, pp. 82 DOI: 10.1126/science.1139940 25 30 0 10000 20000 30000 40000 50000 0 5 10 15 20 F r e c u e n c i a r e l a t i v a , % Numero de palabras por dia Hombres Mujeres Definiciones Estadística Es un conjunto de métodos para planear estudios y experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos son las observaciones recolectadas (como mediciones, géneros, respuestas de encuestas).Datos Muestra Población es el conjunto completo de todos los elementos (puntuaciones, personas, medidas, etcétera) que se va estudiar. El conjunto es completo porque incluye a todos los sujetos que se estudiarán. es un subconjunto de miembros seleccionados de una población. Definiciones Parámetro Es una medición numérica que describe algunas características de una población. Estadístico es una medición numérica que describe algunas características de una muestra. Datos cuantitativos consisten en números que representan conteos o mediciones. se dividen en diferentes categorías que se distinguen por algunas características no numéricas. . Datos cualitativos Datos discretos cuando el número de valores posibles es un número finito o un número que “puede contarse” (es decir, el número de valores posibles es 0, 1, 2, etcétera). Datos continuos resultan de un infinito de posibles valores que corresponden a alguna escala continua que cubre un rango de valores sin huecos, interrupciones o saltos. 1. Datos discretos: El número de huevos que ponen las gallinas son datos discretos porque representan conteos. 2. Datos continuos: Las cantidades de leche que producen las vacas son datos continuos porque son mediciones que pueden tomar cualquier valor dentro de un continuo. Durante un intervalo de tiempo dado, una vaca produce una cantidad de leche que puede ser cualquier valor entre 0 y 5 galones. Es posible obtener 2.343115 galones, porque la vaca no está restringida a cantidades discretas de 0, 1, 2, 3, 4 o 5 galones. EJERCICIOS 2. 1. En la ciudad de Nueva York hay 3250 botones para caminar, que los peatones emplean en las intersecciones de tránsito. Se descubrió que el 77% de dichos botones no funciona (según datos del artículo “For Exercise in New York Futility, Push Button”, de Michael Luo, New York Times). 2. Con base en una muestra de 877 ejecutivos encuestados, se encontró que el 45% de ellos no contrataría a alguien con un error ortográfico en su solicitud de empleo ¿Cuál es un parámetro y cual es un estadístico? Justifique cada una de sus respuestas su solicitud de empleo 3. Se selecciona una muestra de hogares y el número promedio (media) de personas por familia es de 2.58 (según datos de la Oficina censal estadounidense). 4. En la actualidad, el 42% de los gobernadores de las 50 entidades de Estados Unidos son demócratas. 5. En un estudio de los 2223 pasajeros del Titanic, se encontró que 706 sobrevivieron cuando se hundió. 6. Se selecciona una muestra de estadounidenses y se descubre que la cantidad de tiempo promedio (media) que ven la televisión es de 4.6 horas al día. 7. Los números en las camisetas de los corredores de maratones. 8. Las calificaciones que da la revista Consumer Reports de “la mejor compra, recomendado, no recomendado”. Determine cuál de los cuatro niveles de medición (nominal, ordinal, de intervalo, de razón) es el más apropiado, justifique su respuesta. 9. Los números de seguridad social. 10. El número de respuestas “sí” recibidas cuando se les preguntó a 500 estudiantes si alguna vez se habían embriagado en la universidad. 11. Los años de aparición de cigarras: 1936, 1953, 1970, 1987 y 2004. 12. Los salarios de mujeres que son directoras generales de corporaciones. Edad Peso Altura Calcula los parámetros estadísticos que conozca. Cuando disponemos de un conjunto de datos, debemos identificar: 1. La característica que representan dichos datos (variable). 2. La población de la que proceden los datos (conjunto Estadística Descriptiva total de individuos de interés). 3. La naturaleza de los datos: 3.1. Variables cualitativas o atributos 3.2. Variables cuantitativas: Toma valores numéricos a) Cuantitativas Discretas: b) Cuantitativas Continuas PRESENTACIÓN GRÁFICA DE DATOS lista valores delos datos (ya sea de manera individual o por grupos de intervalos), junto con sus frecuencias (o conteos) correspondientes Una distribución de frecuencias (o tabla de frecuencias): – Frecuencias absolutas: Contabilizan el número de individuos de– Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad o clase. – Frecuencias relativas (porcentajes): Es el cociente entre la frecuencia absoluta y el número total de datos. Contabilizan el porcentaje de individuos de cada modalidad. – Frecuencias acumuladas: Contabilizan el número de individuos que toman un valor menor o igual que el dado en una modalidad. Sólo tienen sentido para variables cuantitativas (numéricas) � GRÁFICOS DE SECTORES � Este tipo de diagramas consideran una figura geométrica en que la distribución de frecuencias se reparte dentro de la figura como dentro de la figura como puede ser una dona, pastel, círculo o anillo, en el que cada porción dentro de la figura representa la información porcentual del total de datos. TIPOS DE GRÁFICOS � GRÁFICOS DE SECTORES �Características de los gráficos de sectores � - No muestran frecuencias acumuladas. � - Se prefiere para el tratamiento de datos cualitativos cualitativos � - La mayor área (o porción de la figura) representa la mayor frecuencia. � - Suelen utilizarse para representar tablas tipo A. TOTAL VOTOS REPRESENTACION CANDIDATO 1 200 15% CANDIDATO 2 250 18% CANDIDATO 3 300 22% CANDIDATO 4 275 20% CANDIDATO 5 345 25% 1370 100% GRÁFICOS DE COLUMNAS �Los gráficos de barras representan las frecuencias mediante columnas (o barras), a través de la altura de las mismas en un plano cartesiano. �Características de los gráficos de columnas � - No muestran frecuencias acumuladas.� - No muestran frecuencias acumuladas. � - Se prefiere para el tratamiento de datos cualitativos � - La columna (o barra) con mayor altura representa la mayor frecuencia. � - Suelen utilizarse para representar tablas tipo A. TOTAL VOTOS REPRESENTACION CANDIDATO 1 200 15% CANDIDATO 2 250 18% CANDIDATO 3 300 22% CANDIDATO 4 275 20% CANDIDATO 5 345 25% 1370 100% HISTOGRAMA � Se puede considerar como un gráfico de columnas especial. Se realiza sobre el primer cuadrante del plano cartesiano. � Las frecuencias absolutas se colocan en el eje vertical y también puede emplearse las frecuencias relativas. Otra diferencia importante es que no existe espacio entre las barras.es que no existe espacio entrelas barras. CARACTERÍSTICAS DE LOS HISTOGRAMAS � - No muestran frecuencias acumuladas. � - Se prefiere para el tratamiento de datos cuantitativos. � - La columna (o barra) con mayor altura representa la mayor frecuencia.representa la mayor frecuencia. � - Suelen utilizarse para representar tablas tipo B. � - La sumatoria de las alturas de las columnas equivalen al 100% de los datos. RANGO f F h H 20-22 12 12 7% 7% 23-25 34 46 20% 27% 26-28 43 89 26% 53% 29-31 67 156 40% 93% 32-34 12 168 7% 100% 168 100% GRÁFICAS DE PARETO � Es una gráfica de barras para datos cualitativos, donde las barras se ordenan de acuerdo con las frecuencias POLÍGONOS DE FRECUENCIAS � Este gráfico se utiliza para el caso de variables cuantitativas, tanto discretas como continuas, partiendo del diagrama de columnas, barras o histograma, según el tipo de tabla de frecuencia manejada. � Características de los polígonos de frecuenciasfrecuencias � - No muestran frecuencias acumuladas. � - Se prefiere para el tratamiento de datos cuantitativos. � - El punto con mayor altura representa la mayor frecuencia. � - El área bajo la curva representa el 100% de los datos. OJIVAS � En este gráfico se emplea un polígono de frecuencia o curva suavizada con una característica muy particular: muestra las frecuencias absolutas o relativas acumuladas. f F h H 20 22,00 12 12 7% 7% 23 25,00 34 46 20% 27% 26 28,00 43 89 26% 53% 29 31,00 67 156 40% 93% 32 34,00 12 168 7% 100% 168 100% RANGO LIMITE MENOR 20 FRECUENCIA LIMITE 0 SERIE DE TIEMPO 200 250 300 Resist a la tensión 0 50 100 150 200 5 1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 5 0 5 5 6 0 6 5 7 0 7 5 8 0 Una gráfica de puntos es aquella donde se marca cada valor de un dato como un punto a lo largo de una escala de valores. Los puntos que representan valores iguales se apilan. Gráficas de puntos PRESENTACIÓN GRÁFICA DE DATOS Principios para una representación gráfica: • Para conjuntos pequeños de datos (<20), utilice una tabla •Una gráfica de datos debería lograr que el observador se enfoque en la verdadera naturaleza de los datos • No distorsione los datos. • Casi toda la tinta de una gráfica debe utilizarse para los datos y no• Casi toda la tinta de una gráfica debe utilizarse para los datos y no para otros elementos de diseño. • No utilice imágenes que contengan características como líneas diagonales, puntos o tramas sombreadas, porque crean la ilusión de movimiento. • No emplee áreas de volúmenes para datos que en realidad tienen una naturaleza unidimensional. •Nunca publique gráficas circulares porque desperdician tinta en componentes no relacionados con los datos y carecen de una escala apropiada. The Visual Display of Quantitative Information, 2a. edición, por Edward Tufte DESCRIPCIÓN NUMÉRICA DE LOS DATOS �Media �Varianza �Moda �Mediana�Mediana �Sesgo �Rango �Desviación estándar �Varianza, etc. MEDIDAS DE TENDENCIA CENTRAL � LA MEDIA ARITMÉTICA Equivale al cálculo del promedio simple de un Medidas de tendencia central: Son indicadores estadísticos que muestran hacia que valor (o valores) se agrupan los datos. � Equivale al cálculo del promedio simple de un conjunto de datos. Para diferenciar datos muestrales de datos poblacionales, la media aritmética se representa con un símbolo para cada uno de ellos: si trabajamos con la población, este indicador será µµ; en el caso de que estemos trabajando con una muestra, el símbolo será X. LA MEDIA ∑ = = +++ = n i i n x nn xxx x 1 21 1... La media muestral =inn 1 La media de la población ∑ = = N i ixN 1 1µ LA MEDIA GEOMÉTRICA n n n n i xxxxMg ...21== ∏ n i i 21 1 ∏ = LA MODA � El valor de mayor frecuencia � Si hay dos, la distribución es bi-modal MEDIANA • Representa el valor de la variable de posición central en un conjunto de datos ordenados. MEDIANA LA MEDIANA �Mediana (Me): Valor que divide una serie de datos en dos partes iguales. La cantidad de datos que queda por debajo y por arriba de la mediana son iguales. � La definición de geométrica se refiere al punto que divide en dos partes a un segmento. Por ejemplo, la mediana del segmento AB es el punto ejemplo, la mediana del segmento AB es el punto C. � Existen entonces dos segmentos iguales: � AC = CB LA MEDIANA � Ejemplo: mediana para datos no agrupados (cantidad de datos impar) � Encontrar la mediana para los siguientes datos: � 4 1 2 3 4 2 2 1 5 5 3 LA MEDIANA Visualización geométrica de la moda, la mediana y la media de una función arbitraria de densidad de probabilidad VARIANZA DESVIACIÓN STANDART El rango de un conjunto de datos es la diferencia entre el valor máximo y el valor mínimo. Rango : (valor máximo) - (valor mínimo) MEDIDAS DE VARIABILIDAD Varianza Rango Desviación estándar Es la medida de variación de los valores con respecto a la media. Es un tipo de desviación promedio de los valores con respecto a la media Varianza Desviación estándar ∑ = −= n i in xx n s 1 22 )(1 Es el valor que queda en medio de los valores mínimo y máximo. Esto es: CENTRO DE AMPLITUD Es el número de desviaciones estándar que un valor x se encuentra por arriba o por debajo de la media. Se calcula utilizando las siguientes expresiones: MEDIDAS DE POSICIÓN RELATIVA Puntuaciones z Comparación de estaturas Con una estatura de 190.5 cm, Lyndon Johnson fue el presidente de Estados Unidos más alto del siglo pasado. Con una estatura de 215.9 cm, Shaquille O’Neal fue el jugador más alto del equipo de básquetbol Miami Heat. ¿Quién es relativamente más alto: Lyndon Johnson entre los presidentes del siglo pasado o Shaquille O’Neal entre los jugadores de su equipo Miami Heat? La estatura media de los presidentes del siglo pasado era de 181.61 cm, con una desviación estándar de 5.33 cm. Los jugadores de básquetbol del equipouna desviación estándar de 5.33 cm. Los jugadores de básquetbol del equipo Miami Heat tienen una estatura media de 203.20 cm, con una desviación estándar de 8.38. CUARTILES Y PERCENTILES Cuartil Q1 Separa el 25% inferior de los valores ordenados del 75% superior. Q2 Igual a la mediana; separa el 50% inferior de los valores ordenados del 50% superior. Q3 Separa el 75% inferior de los valores ordenados del 25% superior. UNA GRÁFICA DE CUADRO (O DIAGRAMA DE CUADRO Y BIGOTES) Es una gráfica de un conjunto de datos que consiste en una línea, que se extiende desde el valor mínimo hasta el valor máximo, y una caja con líneas trazadas en el primer cuartil, Q1, la mediana y el tercer cuartil, Q3. MEDIDAS DE POSICIÓN RELATIVA Puntuaciones z Para obtener un estimado de la desviación estándar, utilice: donde el rango = (valor máximo) - (valor mínimo). Para interpretar un valor conocido de la desviación estándar: Si se conoce la desviación estándar “s”, utilícela para calcular estimados de los valores Regla práctica del intervalo 4 rango s = desviación estándar “s”, utilícela para calcular estimados de los valores muéstrales mínimos y máximos “comunes” por medio de valor mínimo “común” = (media) - 2 (desviación estándar) valor máximo “común” = (media) + 2 (desviación estándar) EJERCICIOS � 1. ¿Por qué usar gráficas? ¿Cuál es el principal objetivo de los datos gráficos? � 2. Dada la distribución siguiente, constrúyase una tabla estadística en la que aparezcan las frecuencias absolutas, las frecuencias relativas y las frecuencias acumuladas relativas crecientes:acumuladas relativas crecientes: 3. A continuación se muestran lasedades de motociclistas en el momento en que resultaron mortalmente heridos en accidentes de tránsito (según datos del U. S. Department of Transportation). Si su objetivo es resaltar el peligro que representan las motocicletas para la gente joven, ¿cuál sería más efectivo?: Construya un histograma, una gráfica de Pareto, una gráfica circular, una gráfica de puntos, un grafico de tallo y hoja y determine ¿Cuál gráfico cumple mejor el objetivo de resaltar los peligros de conducir motocicletas?. 4. Las temperaturas medias registradas durante el mes de mayo en ciudad de México, en grados centígrados, están dadas por la siguiente tabla: Construya la representación gráfica que considere correspondiente. 5. Los datos que se dan a continuación corresponden a los pesos en Kg. De ochenta personas: ¿Calcule el porcentaje de personas de peso menor que 65 Kg.? ¿Cuántas personas tienen peso mayor o igual que 70 Kg. pero menor que 85? Haga una representación gráfica de los datos 1. Se ha preguntado a un conjunto de “n” personas: ¿qué opinión tienen acerca de la instalación de playas en la Ciudad de México en que el Gobierno del Distrito Federal ha hecho a partir de 2007?. Las “n” respuestas se encuentran en una escala que va de 1 a 9, donde 1 representa un total desacuerdo con la medida mientras que 9 quiere significar un acuerdo total. Si se plantean las siguientes preguntas: ¿Cuántas personas fueron encuestadas? ¿Cuál fue la respuesta más frecuente? ¿Cuántas personas tienen, como máximo, una actitud de cuatro puntos en la escala? 2. Parte de un estudio de control de calidad tuvo como objetivo mejorar una línea de producción, se midieron los pesos (en onzas) de 50 barras de jabón. Los resultados son los siguientes, ordenados del más pequeño al más grande. a) Construya un diagrama de tallos y hojas para estos datos. b) Construya un histograma para estos datos. c) Construya un diagrama de puntos para estos datos. d) Construya un diagrama de caja para estos datos. ¿El diagrama de caja indica datos atípicos? 3. En un estudio sobre la relación entre las alturas y los diámetros del tronco de árboles, estudiantes de botánica reunieron datos muéstrales. A continuación se presentan las circunferencias de los árboles (en pies). 1pie = 30.48 cm Utilice las circunferencias y calcule a) la media, b) la mediana, c) la moda, d) la mitad del rango, e) el rango, f) la desviación estándar, g) la varianza, h) Q1, i) Q3. •Convierta la circunferencia de 13.7 pies a una puntuación z. •En el contexto de estos datos muéstrales, ¿la circunferencia de 13.7 pies es•En el contexto de estos datos muéstrales, ¿la circunferencia de 13.7 pies es “infrecuente”? ¿Por qué? •Utilice la regla práctica del intervalo e identifique cualquier otra circunferencia que sea infrecuente. •Utilice las mismas circunferencias de los árboles para construir una distribución de frecuencias. Utilice siete clases, donde la primera clase tenga un límite inferior de 1.0, con una anchura de clase de 2.0. •Utilice la distribución de frecuencias y construya un histograma e identifique la naturaleza general de la distribución (como uniforme, normal o sesgada). •Construya una gráfica de caja e identifique los valores que conforman el resumen de los 5 números. TAREA � Teoría de conjuntos- Diagramas de Venn y un ejemplo � ¿Qué son los Factoriales? � ¿Qué son las Permutaciones? � ¿Qué son las Combinaciones? PROBABILIDAD 1. f. Verosimilitud o fundada apariencia de verdad. 2. f. Cualidad de probable (ǁ que puede suceder). 3. f. Mat. En un proceso aleatorio, razón entre el número de casos favorables y el número de casos posibles. Constituye un proceso con un resultado que no se puede predecir certeramente con anterioridad. Un experimento PROBABILIDAD Se dice, al conjunto de todos los posibles resultados de un experimento. Es Espacio muestral { } (S) Se dice, al conjunto de todos los posibles resultados de un experimento. Es decir, el espacio muestral está formado por todos los resultados que ya no pueden desglosarse más. Se denomina a un subconjunto de un espacio muestral Evento ó Suceso Dado 1 Nacimientos Experimento ó procedimiento 3 Nacimientos Evento {f ,m}{1, 2, 3, 4, 5, 6} 1 ó 2 ó 3 ó 4 ó 5 ó 6 f ó m 2 niñas y 1 niño Espacio muestral {fff , ffm, fmf, fmm, mff, mfm, mmf, mmm} � La relación entre eventos y el correspondiente espacio muestral se puede ilustrar de forma gráfica mediante estos diagramas. � Espacio muestral � rectángulo � Eventos � círculos LOS AXIOMAS DE LA PROBABILIDAD � Primer axioma La probabilidad de un suceso es un número real mayor o igual que 0. P (A) ≥ 0 � Segundo axioma La probabilidad del total, , es igual a 1.La probabilidad del total, , es igual a 1. P (S) = 1 � Tercer axioma Si dos sucesos A y B, son mutuamente excluyentes o independientes, entonces: P (A o B) = P (A) + P (B) Si ø denota el espacio vacío, entonces P(ø) = 0 El complemento de un suceso A, denotado por A consiste en todos los resultados en los cuales el suceso A no ocurre. P(Ac) = 1 - P(A) La probabilidad de un suceso imposible es 0. La probabilidad de un suceso que ocurrirá con certeza es 1. Para cualquier suceso A, la probabilidad de A se encuentra entre 0 y 1, inclusive. Es decir, 0 < P(A) < 1. Valores posibles para probabilidades ENFOQUES DE LA PROBABILIDAD 1. Aproximación de la probabilidad por frecuencias relativas. Realice (u observe) un procedimiento un gran número de veces y cuente las veces que el suceso A ocurre en realidad.veces y cuente las veces que el suceso A ocurre en realidad. Con base en estos resultados reales, P(A) se estima de la siguiente forma: P (A) = número de veces que ocurrió A número de veces que se repitió el ensayo ENFOQUES DE LA PROBABILIDAD � 2. Método clásico de la probabilidad (requiere resultados igualmente probables) Suponga que un procedimiento dado tiene n sucesos simples distintos y que cada uno de esos sucesos simplessimples distintos y que cada uno de esos sucesos simples tiene la misma posibilidad de ocurrir. Si el suceso A puede ocurrir en s de estas n formas, entonces: P (A) = número de formas en que puede ocurrir A número de sucesos simples diferentes S n = ENFOQUES DE LA PROBABILIDAD � 3. Probabilidades subjetivas P(A), la probabilidad del suceso A, se estima con base en el conocimiento de las circunstancias relevantes. Si usted apuesta $5 al número 13 de la ruleta, su probabilidad de ganar es 1>38 y las posibilidades de pago están dadas por el casino como 35:1. a. Calcule las posibilidades reales en contra del resultado de 13. b. ¿Cuánta ganancia neta podría obtener si gana apostando al 13? c. Si el casino estuviera funcionando solamente por diversión y las posibilidades de pago se modificaran para igualar las posibilidades reales en contra del 13, ¿cuánto ganaría usted si el resultado fuera 13? Posibilidades Esta posibilidad están indicada por el cociente P(Ā) >P(A), casi siempre expresado en la forma a:b, donde a y b son enteros que no tienen factores comunes. Las posibilidades reales en contra de que ocurra un suceso A Las posibilidades reales a favor del suceso A Son el recíproco de las posibilidades reales en contra de ese suceso. Si las posibilidades en contra de A son a:b, entonces las posibilidades a favor de A son b:a. En contra del suceso A, representan la proporción de la ganancia neta (si usted gana) con respecto a la cantidad de la apuesta. Posibilidades de pago en contra del suceso A = (ganancia neta) : (cantidad apostada) Las posibilidades de pago P(A U B) P(A) + P(B) - P(A ∩ B) donde P(A ∩ B) denota la probabilidad de que A y B ocurran al mismo tiempo,como resultado en un ensayo de un procedimiento. Regla formal de la suma Los sucesos A∩B son disjuntos (o mutuamente excluyentes) cuando ambos no pueden ocurrir al mismo tiempo. (Es decir, los sucesos disjuntos no se traslapan). Regla de los sucesos complementarios Regla básica de la multiplicación. P(A ∩ B) = P(el suceso A ocurre en un primer ensayo y el suceso B ocurre en un segundo ensayo) Supongamos que el primer reactivo de un examen es del tipo falso/verdadero y que el segundo es de opción múltiple con cinco respuestas posibles (a, b, c, d y e). ¿Cuál es la probabilidad de que ambas sean correctas? P(A y B) = P(A) *P(B) y e). ¿Cuál es la probabilidad de que ambas sean correctas? P(V) =1/2 y P(c) =1/5; P(V ∩ c) =1/10, PROBABILIDAD CONDICIONAL Pr ( A|B) = Pr (A ∩ B) P(B│A) representa la probabilidad de que un suceso B ocurra después de suponer que el suceso A ya ocurrió. (Podemos leer B │ A como “B dado A” o como “el suceso B ocurre después de que el suceso A ya ocurrió”). Pr ( A|B) = Pr (A ∩ B) Pr (A) Cuando dos sucesos A y B son independientes se cumple que Pr (A|B)= P (A) UN EJEMPLO fármaco Placebo Total Mejora 500 300 800 No cambia 300 250 550 Empeora 60 180 240 Total 860 730 1590 Pr (mejora) = 800 / 1590 = 0,503 Pr (Mejora | fármaco) = 500 / 860 = 0,581 3. Examen de drogas. Si se elige al azar a dos de los sujetos incluidos en la tabla, sin reemplazo, calcule la probabilidad de que la primera persona seleccionada tenga un resultado de prueba positivo y que la segunda tenga un resultado de prueba negativo. Primera selección: P(resultado de prueba positivo) = 143/300 Segunda selección: P(resultado de prueba negativo) = 157/299 P(el primer sujeto tiene un resultado de prueba positivo y el segundo sujeto tiene un resultado de prueba negativo) = (143/300)*(157/299) =.0.25 Si usted apuesta $5 al número 13 de la ruleta, su probabilidad de ganar es 1/38 y las posibilidades de pago están dadas por el casino como 35:1. a. Calcule las posibilidades reales en contra del resultado de 13. b. ¿Cuánta ganancia neta podría obtener si gana apostando al 13? c. Si el casino estuviera funcionando solamente por diversión y las posibilidades de pago se modificaran para igualar las posibilidades reales en contra del 13, ¿cuánto ganaría usted si el resultado fuera 13? a. Con P(13)=1/38 y P(no 13)=37/38, tenemos Solución a. Con P(13)=1/38 y P(no 13)=37/38, tenemos posibilidades reales en contra del 13 son 35:1, tenemos Posibilidades reales en contra del 13= P(no 13)/P(13)=(37/38)/(1/38)= 37/1 o 37:1 b. Puesto que las posibilidades de pago en contra del 13 son 35:1, tenemos 35:1 (ganancia neta):(monto apostado) entonces, hay una ganancia de $35 por cada $1 apostado. Para una apuesta de $5, la ganancia neta es de $175. El apostador que gane podría recoger $175 más la apuesta original de $5. La cantidad total obtenida debería ser $180, con una ganancia neta de $175. c. Si las posibilidades de pago cambiaran de 35:1 a 37:1, usted obtendría una ganancia neta de $37 por cada $1 apostado. Si usted apuesta $5, su ganancia neta sería de $185. 1. Cuando el fármaco Viagra se probó clínicamente, 117 pacientes reportaron dolor de cabeza y 617 no (de acuerdo con datos de Pfizer, Inc.). Utilice esta muestra para estimar la probabilidad de que un usuario de Viagra sufra dolor de cabeza. ¿Es infrecuente que un usuario de Viagra sufra dolor de cabeza? ¿Es la probabilidad lo bastante alta como para preocupar a los usuarios de Viagra? 2. Construcción del espacio muestral.2. Construcción del espacio muestral. Ambos progenitores tienen los genes de color de ojos café>azul, y cada uno contribuye con un gen para su hijo. Suponga que si el hijo tiene al menos un gen café, ese color dominará y los ojos serán cafés. (La determinación real del color de los ojos es un tanto más complicada). a. Haga una lista de los posibles resultados diferentes. Suponga que estos resultados son igualmente probables. b. ¿Cuál es la probabilidad de que un hijo de estos padres tenga el par de genes azul>azul? c. ¿Cuál es la probabilidad de que el hijo tenga ojos cafés? Para cualquier entero positivo n, n!= n(n -1)(n- 2) . . . (3)(2)(1). También se define a 0! =1. Constituye un ordenamiento de un conjunto de elementos. Permutación El número de permutaciones de k objetos elegidos de un grupo de n elementos es n!/(n − k)! Combinaciones El número de permutaciones de k elementos elegidos de un grupo de n elementos es (n/k)= n!/k!(n − k)! 4. Calcule lo siguiente: a. Si se elige al azar a uno de los 300 sujetos de prueba, calcule la probabilidad de que la persona resulte positiva, dado que en realidad consumió marihuana. b. Si se elige al azar a uno de los 300 sujetos de prueba, calcule la probabilidad de que la persona realmente haya consumido marihuana, dado que tuvo un resultado de prueba positivo. P(positivo│consumo de marihuana) = 119/122 = 0.975 P (positivo │ consumo de marihuana)= P(consumo de marihuana y positivo) P(consumo de marihuana) a) P(consumo de marihuana) P (positivo │ consumo de marihuana)= (119/300)/(122/300) = 0.975 P (consumo de marihuana │positivo) = 119/143 = 0.832 P (consumo de marihuana │positivo) = P(positivo y consumo de marihuana) P(positivo) b) 5. Un genetista desarrolla un procedimiento para aumentar la probabilidad de engendrar una niña. En una prueba inicial, 20 parejas utilizan el método, lo que da como resultado 20 niñas en 20 nacimientos. Suponiendo que el procedimiento de selección del género no tiene efecto, calcule la probabilidad de que nazcan 20 niñas en 20 nacimientos, debido al azar. Con base en los resultados, ¿existe una fuerte evidencia que apoye la afirmación del genetista de que el procedimiento es eficaz para incrementar la probabilidad de engendrar una niña? P(los 20 bebés son niñas) = P(el primero es niña, y el segundo es niña, y el tercero es niña . . . y el vigésimo es niña) 6. La dueña de una nueva computadora crea una contraseña de dos caracteres. Seleccionó al azar la letra del alfabeto para el primer carácter y un dígito (0, 1, 2, 3, 4, 5, 6, 7, 8, 9) para el segundo carácter. ¿Cuál es la probabilidad de que su contraseña sea “K9”? ¿Servirá esta contraseña para evitar que otra persona tenga acceso a su computadora? y el vigésimo es niña) = P(niña) * P(niña) *…*P(niña) =0.5*0.5 *…*0.5 =0.520 = 0.000000954 Combinación de métodos descriptivos y probabilidades para formar un modelo teórico de comportamiento Una es una distribución que indica la probabilidad de cada valor de la variable aleatoria. Distribución de probabilidad Es aquella que tiene un número finito de valores o un número de valores variable aleatoria discreta Es aquella que tiene un solo valor numérico determinado por el azar, para cada resultado de un procedimiento. (x) variable aleatoria Es aquella que tiene un número finito de valores o un número de valores contable. Es aquella que tiene un número infinito de valores, y esos valores pueden asociarse con mediciones en una escala continua, de manera que no existan huecos o interrupciones. variable aleatoria continua Distribución de probabilidad media de una distribución de probabilidad varianza de una distribución de probabilidad desviación estándar de una distribución de probabilidad Construyan la tabla de probabilidades, determinando la media, la varianza y la desviación estándar ·1. Se desconoce la probabilidad asociada a la distribución de probabilidad. ·2. Se conoce, por registros de procesos, que la probabilidad asociada a la distribución es aproximadamente igual en todos los ensayos. Estos dos aspectos nos obligan a asumir que la probabilidad p1 p2 p3 pk ; ; ;K; Distribuciónde probabilidad variable aleatoria discreta Estos dos aspectos nos obligan a asumir que la probabilidad p1 p2 p3 pk ; ; ;K; asignada a cada valor de la variable, es la misma; para facilitar una primera aproximación. Es decir, asumimos una distribución uniforme. Distribución de probabilidad Uniforme Si una variable aleatoria X puede tomar n valores distintos con iguales probabilidades, la distribución es uniforme y viene dada por P(x) =1/n donde x = x1, x2, x3,⋯, xn Ejemplo . El número X de casas que una compañía de bomberos puede atender depende de la distancia x que un camión de bomberos puede cubrir en un periodo específico. Supóngase que para P( X < 20) = P( X >27) = 0 ; se desea establecer una distribución de probabilidad para x ={21, 22, 23, 24, 25, 26}. x 21 22 23 24 25 P(x) 1/6 1/6 1/6 1/6 1/6 Es un procedimiento que cumple con todos los siguientes requisitos: 1. El procedimiento tiene un número fijo de ensayos. 2. Los ensayos deben ser independientes. (El resultado de cualquier ensayo Distribución de probabilidad Binomial 2. Los ensayos deben ser independientes. (El resultado de cualquier ensayo individual no afecta las probabilidades de los demás ensayos). 3. Todos los resultados de cada ensayo deben estar clasificados en dos categorías (generalmente llamadas éxito y fracaso). 4. La probabilidad de un éxito permanece igual en todos los ensayos. Usos – aplicaciones: Control de calidad, tratamientos de encuestas … Uso de la fórmula de probabilidad binomial para x 0, 1, 2, . . . , n donde “n” número de ensayos x = número de éxitos en n ensayos p = probabilidad de éxito en cualquier ensayo q = probabilidad de fracaso en cualquier ensayo (q =1 - p)q = probabilidad de fracaso en cualquier ensayo (q =1 - p) Ejemplo Calcular la probabilidad de seleccionar exactamente a 7 méxico- estadounidenses cuando se eligen al azar 12 miembros del jurado de una población en la que el 80% de los habitantes son méxico-estadounidenses. Es decir, calcule P(7) dado que n =12, x =7, p = 0.8 y q =0.2. P(7) = 0.05315 La probabilidad de x éxitos en n ensayos, para cualquier orden El número de resultados con exactamente x éxitos en n ensayos media de una distribución de probabilidad varianza de una distribución de probabilidad desviación estándar de una distribución de desviación estándar de una distribución de probabilidad La distribución de Poisson es un modelo de probabilidad que se utiliza para medir la probabilidad de ocurrencia de un fenómeno aleatorio en un intervalo de tiempo o en una región. Distribución de probabilidad de Poisson • La variable aleatoria x es el número de veces que ocurre un suceso durante un intervalo. • Las ocurrencias deben ser aleatorias. • Las ocurrencias deben ser independientes entre sí. • Las ocurrencias deben estar uniformemente distribuidas dentro del intervalo empleado. La probabilidad de que el suceso ocurra x veces durante un intervalo está dada por: Representa la media de resultados que ocurren en un intervalo de tiempo o espacio.tiempo o espacio. La media es µ. La desviación estándar es σ=√ µ Al analizar los impactos de las bombas V-1 en la Segunda Guerra Mundial, el sur de Londres se subdividió en 576 regiones, cada una con área de 0.25 km2. En total, 535 bombas impactaron el área combinada de 576 regiones. a. Si se selecciona al azar una región, calcule la probabilidad de que haya sido impactada exactamente en dos ocasiones. b. Con base en la probabilidad calculada en el inciso a), ¿cuántas de las 576 regiones se esperaría que fueran impactadas exactamente dos veces? Solución El número medio de impactos por región es µ = número de impactos de bomba/número de regiones =535/576 = 0.929 a) P(2) = 0.170 b) 576 * 0.170 = 97.9 calcular las probabilidades y los valores esperados para 0, 1, 2, 3, 4 y 5 impactos µ = np Requisitos para utilizar la distribución de Poisson como una aproximación a la distribución binominal 1. n > 100 2. np < 10 µ = np Entonces: 1.En una prueba del fármaco Lipitor, el 16.7% de los sujetos tratados con 10 mg de atorvastatin tuvieron dolor de cabeza. Suponga que se selecciona a 6 sujetos al azar, los cuales fueron tratados con el medicamento y calcule la probabilidad de que los 6 sufran dolor de cabeza. Ejercicios 2. El programa de televisión 60 minutos, de la CBS, ha sido exitoso por muchos años. Recientemente tuvo un índice de audiencia de 20, lo que significa que de todos los televisores encendidos, el 20% estaban sintonizados en 60 minutos (según datos de Nielsen Media Research). Suponga que un anunciante desea verificar ese valor del 20% realizando su propia encuesta, y que inicia unaverificar ese valor del 20% realizando su propia encuesta, y que inicia una encuesta piloto con 10 hogares que tienen el televisor encendido en el momento en que se transmite el programa 60 minutos. a. Calcule la probabilidad de que ninguno de los hogares esté sintonizando 60 minutos. b. Calcule la probabilidad de que al menos uno de los hogares esté sintonizando 60 minutos. c. Calcule la probabilidad de que a lo sumo uno de los hogares esté sintonizando 60 minutos. d. Si a lo sumo un hogar está sintonizando 60 minutos, ¿será incorrecto el valor de un índice de audiencia del 20%? ¿Por qué?. 3. Los dientes de león se estudian para conocer sus efectos sobre los cultivos y el crecimiento del césped. En una región se descubrió que el número medio de dientes de león por metro cuadrado es de 7.0 (según datos de Manitoba Agriculture and Food). a. Calcule la probabilidad de que no haya dientes de león en una área de 1 m2. b. Calcule la probabilidad de al menos un diente de león en una área de 1 m2. c. Calcule la probabilidad de dos dientes de león, cuando mucho, en una área de 1 m2 4. En el juego Pick 4 de Kentucky, usted paga $1 para seleccionar una secuencia de cuatro dígitos, como 2283. Si participa en este juego una vez al día, calcule la probabilidad de ganar exactamente una vez en 365 días. Es bien sabido que los hombres tienden a pesar más y a ser más altos que las mujeres. El índice de masa corporal (IMC) es una medida que se basa en el peso y en la estatura. A continuación se muestran los valores de IMC de hombres y mujeres elegidos de manera aleatoria. ¿Parece existir una diferencia en la variación entre los dos conjuntos de datos? Hombres: 23.8, 23.2, 24.6, 26.2, 23.5, 24.5, 21.5, 31.4, 26.4, 22.7, 27.8, 28.1. Mujeres: 19.6, 23.8, 19.6, 29.1, 25.2, 21.4, 22.0, 27.5, 33.5, 20.6, 29.9, 17.7. Una compañía aérea tiene un avión de 55 plazas. Como casi siempre hay pasajeros que fallan, la compañía decide vender más billetes que plazas hay pasajeros que fallan, la compañía decide vender más billetes que plazas hay en el avión. Se sabe que un viajero tiene un 90% de probabilidades de acudir al aeropuerto y coger el vuelo. Un día la compañía vende 60 billetes, ¿cuál es la probabilidad de que ese día se presenten 55 pasajeros y por lo tanto haya overbooking? En el departamento de mantenimiento de máquinas se recibe un promedio de 6 solicitudes de servicio por día.. a. ¿Cuál es la probabilidad de que se reciban exactamente 3 solicitudes por día? b. Estimar la media, la varianza y la desviación estándar. Si una variable aleatoria continua tiene una distribución con una gráfica simétrica y en forma de campana, decimos que tiene una distribución normal. Variable aleatoria CONTINUA 1. Debe presenta forma de campana 2. Posee una media igual a 0 3. Tiene una desviación estándar igual a 1. Características Distribución de probabilidad Uniforme Una variable aleatoria continua tiene una distribución uniforme si sus valores se dispersan uniformemente a través del rango de posibilidades. Lagráfica de una distribución uniforme tiene forma rectangular. curva de densidad Es una gráfica de una distribución de probabilidad continua. Debe satisfacer las siguientes propiedades: 1. El área total bajo la curva debe ser igual a 1. 2. Cada punto de la curva debe tener una altura vertical igual o mayor que 0. (Es decir, la curva no puede estar por debajo del eje x). Un profesor de estadística planea sus clases con tanto cuidado que sus duraciones están distribuidas uniformemente entre 50.0 y 52.0 min. (Como las clases de estadística son tan interesantes, generalmente dan la impresión de ser más cortas). Esto es, cualquier tiempo entre 50.0 y 52.0 min es posible, y todos los valores posibles tienen la misma probabilidad. Si seleccionamos aleatoriamente una de las clases y permitimos que x sea la variable aleatoria que representa la duración de esa clase, entonces x tiene una distribución que puede graficarse, como se muestra abajo. Cuando estudiamos las distribuciones de probabilidad discretas, identificamos dos requisitos: ΣP(x)=1 y 0 < P(x) < 1 para todos los valores de x Distribución normal estándar La distribución normal estándar es una distribución normal de probabilidad con µ= 0 y σ = 1, y el área total debajo de su curva de densidad es igual a 1. La Precision Scientific Instrument Company fabrica termómetros que se supone deben dar lecturas de 0°C al punto de congelación del agua. Las pruebas de una muestra grande de estos instrumentos revelaron que en el punto de congelación del agua, algunos termómetros daban lecturas por debajo de 0° (denotadas con números negativos), y otros daban lecturas por encima de 0° (denotadas con números positivos). Suponga que la lectura media es 0°C y que la desviación estándar de las lecturas es 1.00°C. También suponga que las lecturas se distribuyen de manera normal. Si se elige al azar un termómetro, calcule la probabilidad de que, al punto de congelación del agua, la lectura sea menor que 1.58°. Utilice los termómetros del ejemplo anterior y calcule la probabilidad de seleccionar al azar un termómetro con una lectura (en el punto de congelación del agua) por arriba de 1.23°. Una vez más, haga una selección aleatoria de la misma muestra de termómetros y calcule la probabilidad de que el termómetro elegido tenga lecturas (en el punto de congelación del agua) entre -2.00° y 1.50°. Procedimiento para el cálculo de una puntuación z a partir de una área conocida 1. Dibuje una curva en forma de campana e identifique la región bajo la curva que corresponde a la probabilidad dada. Si no se trata de una región acumulativa a partir de la izquierda, trabaje con una región acumulativa conocida de la izquierda. 2. Usando el área acumulativa de la izquierda, localice la probabilidad más cercana en el cuerpo e identifique la puntuación z correspondiente. Use los mismos termómetros anteriores, con lecturas de temperatura al punto de congelación del agua distribuidas normalmente, con una media de 0°C y una desviación estándar de 1°C. Calcule la temperatura correspondiente a P95, el percentil 95. Es decir, calcule la temperatura que separa el 95% inferior del 5% superior. Suponga que puntuaciones z se distribuyen normalmente, con una media de 0 y una desviación estándar de 1. a. Si P(0 < z <a) = 0.3907, calcule a. b. Si P(-b < z < b) = 0.8664, calcule b.b. Si P(-b < z < b) = 0.8664, calcule b. c. Si P(z > c) = 0.0643, calcule c. d. Si P(z > d) = 0.9922, calcule d. e. Si P(z < e) = 0.4500, calcule e. Suponga que puntuaciones z se distribuyen normalmente, con una media de 0 y una desviación estándar de 1. a. Si P(0 < z <a) = 0.3907, calcule a. b. Si P(-b < z < b) = 0.8664, calcule b. c. Si P(z > c) = 0.0643, calcule c. d. Si P(z > d) = 0.9922, calcule d. a. 1.23 b. 1.50 c. 1.52d. Si P(z > d) = 0.9922, calcule d. e. Si P(z < e) = 0.4500, calcule e. c. 1.52 d. –2.42 e. –0.13 En un estudio de tres semanas sobre la productividad de los trabajadores, se recolectó la siguiente información sobre el número de piezas aceptables que produjeron un grupo de empleados. 56 34 58 45 55 56 60 34 23 90 78 56 34 89 78 23 67 90 89 78 56 56 56 78 23 98 89 78 34 45 26 70 79 45 89 78 98 89 78 54 45 34 56 5745 89 78 98 89 78 54 45 34 56 57 67 56 78 67 56 78 20 67 45 23 24 45 76 98 45 28 44 45 56 87 Halle: a La mediana. b La varianza y la desviación estándar, c. Represente los datos en un diagrama de caja. d. Represente los datos en un gráfico de Pareto Un fabricante de neveras afirma que solamente el 10% de las neveras requiere reparación dentro del período de garantía. a.- ¿Cuál es la probabilidad de que a lo sumo 6 de 20 neveras fallen antes de finalizar la garantía? b.- ¿Cuál es la probabilidad de que fallen entre 3 y 6 (inclusive el 3 y el 6) de 20 neveras, antes de finalizar la garantía? c.- ¿Cuál es la probabilidad de que más de 6 neveras fallen antes de finalizar la garantía?garantía? d. ¿Cuál es la probabilidad de que 6 neveras fallen antes de finalizar la garantía? Los estudiantes de Ingeniería Química compraron una máquina tragamonedas configurada de tal forma que existe una probabilidad de 1/2000 de ganarse el premio mayor en cualquier ensayo individual. Aun cuando nadie consideraría seriamente hacer trampa a los estudiantes, suponga que un Estudiante de FIME afirma haber jugado con la máquina cinco veces y haber ganado en dos ocasiones. a. Calcule la probabilidad de exactamente dos premios en cinco ensayos. b. Calcule la probabilidad de al menos dos premios en cinco ensayos. Los ingenieros deben tomar en cuenta la anchura de las cabezas de los hombres cuando diseñan cascos para motocicletas. La anchura de las cabezas de los hombres se distribuye normalmente, con una media de 6.0 in y una desviación estándar de 1.0 in (según datos de una encuesta antropométrica de Gordon, Churchill, et al.). Debido a limitaciones económicas, los cascos serán diseñados para que se ajusten a todos los hombres, excepto al 2.5% con anchuras más pequeñas y al 2.5% con anchuras más grandes. Calcule las anchuras de cabeza mínima y máxima que se ajustarán a los cascos. En la actualidad, las monedas de 25 centavos tienen pesos que se distribuyen normalmente con una media de 5.670 g y una desviación estándar de 0.062 g. Una máquina expendedora se configura para aceptar únicamente las monedas que pesen entre 5.550 y 5.790 g. a. Si se insertan 280 monedas diferentes de 25 centavos en la máquina expendedora, ¿cuál es el número esperado de monedas rechazadas? b. Si se insertan 280 monedas diferentes de 25 centavos en la máquina expendedora, ¿cuál es la probabilidad de que la media se ubique entre los límites de 5.550 y 5.790 g?
Compartir