Logo Passei Direto

Bioestadistica cualitativa-Esteban Egaña Morales

Material
¡Estudia con miles de materiales!

Vista previa del material en texto

Bioestadística cualitativa
Bioestadística cualitativa.indd 1 25/06/2010 12:19:36 p.m.
Bioestadística cualitativa
M. Sc. Esteban Egaña Morales
Profesor de Bioestadística del Instituto de Ciencias Básicas 
y Preclínicas Victoria de Girón
Bioestadística cualitativa.indd 3 25/06/2010 12:19:36 p.m.
Edición, composición e ilustraciones: Ing. José Quesada Pantoja
Diseño: Yisleidy Llufrío
© Esteban Egaña Morales, 2010
© Sobre la presente edición:
 Editorial Ciencias Médicas, 2010
ISBN 978-959-212-617-6
Editorial Ciencias Médicas
Centro Nacional de Información de Ciencias Médicas
Calle 23, No. 117 e/ N y O, Edificio Soto, El Vedado,
Ciudad de La Habana, CP 10400, Cuba.
http:///www.sld.cu/sitios/ecimed/
Correo electrónico: ecimed@infomed.sld.cu
Teléfonos: 838 3375 / 832 5338
Catalogación Editorial Ciencias Médicas
Egaña Morales, Esteban
 Bioestadística cualitativa. —La Habana: Editorial 
Ciencias Médicas, 2010.
 294 p.: il., tab.
WA 950
Bioestadística, interpretación estadística de datos, estadística como asunto 
Bioestadística cualitativa.indd 4 25/06/2010 12:19:36 p.m.
A mi esposa, Olga Fernández Alonso, estadística también, que con amor me 
ha ayudado mucho, y a mi hijo Giani, que ha seguido nuestros pasos en la 
matemática y ya comienza a superarnos, lo que nos reconforta.
Bioestadística cualitativa.indd 5 25/06/2010 12:19:36 p.m.
Prefacio
Las pruebas de hipótesis estadísticas que no exigen el conocimiento 
previo de la distribución poblacional se denominan no paramétricas o 
de libre distribución, en contraposición a las más conocidas pruebas 
paramétricas, que si lo exigen. En este libro solo se tratarán pruebas de 
hipótesis para datos en escalas nominales y ordinales que constituyen 
la gran mayoría de las no paramétricas, además de elementos de la 
estadística descriptiva, correspondientes a estos datos, a esto se debe 
la denominación de estadística cualitativa, teniendo en cuenta la clasi-
ficación, poco precisa, de las variables en cualitativas y cuantitativas, 
así como la reciente proliferación del término investigación cualitativa, 
que se escucha frecuentemente en los medios sociales.
A causa del desconocimiento de las pruebas no paramétricas, en 
las ciencias sociales y otras afines han aparecido artículos, libros, po-
nencias y cursos de la llamada investigación cualitativa y metodología 
de la investigación, que por lo común niegan el uso de la estadística 
en la investigación. Las investigaciones se dividen al efecto en dos 
grandes grupos: las experimentales, que se basan en la realización de 
experimentos con objetos y procesos de la realidad objetiva que generan 
datos, que es necesario cuantificar y procesar estadísticamente, y las 
teóricas que no necesitan realizar experimentos en la realidad objetiva 
porque por ser teóricas solo trabajan con sus modelos teóricos y el ra-
zonamiento lógico y matemático a partir de axiomas y proposiciones. 
Pero estas investigaciones teóricas son mucho menos frecuentes que las 
experimentales y es por eso que los métodos estadísticos se usan en la 
mayoría de las investigaciones, es decir, en las experimentales.
Lo que sucede es que hay gran desconocimiento de los métodos 
estadísticos en general y de los no paramétricos en particular. Muchas 
personas no saben que las variables cualitativas también se cuantifican, 
mediante las frecuencias las nominales y por el orden y el rangueo las 
ordinales, en este libro se ofrecen más de 40 procedimientos estadísticos 
de esta índole. Las pruebas de hipótesis no paramétricas son menos po-
tentes que las paramétricas por utilizar menos información de los datos, 
Bioestadística cualitativa.indd 7 25/06/2010 12:19:37 p.m.
solo la nominal unas, otras la nominal y ordinal, pero ninguna la métrica, 
o sea se utilizan sólo cuando las variables están en escalas nominal u 
ordinal o cuando están en escala de intervalo o razón y no cumplen las 
condiciones que exigen las pruebas paramétricas correspondientes, algo 
muy corriente. Lo de menor potencia se puede resolver aumentando un 
poco el tamaño de las muestras. 
En la investigación médica y biológica aparecen con frecuencia 
datos en escalas nominales y ordinales, es decir, cualitativas, pero hay 
que tener cuidado con esta última denominación, porque un número n es 
también una cualidad, la común a todos los conjuntos de n elementos. 
Este libro está orientado a superar el desconocimiento acerca de gran 
cantidad de métodos estadísticos ampliamente aplicables en esta y otras 
ciencias y tecnologías, de las que la investigación médica se nutre y a 
las que también tributa. La introducción de conocimientos debe empezar 
por la enseñanza en los centros académicos y de investigación médica, 
por lo que este texto es para los estudiantes, incluidos los residentes y 
demás cursos de superación, así como de consulta para los profesionales 
que investigan, principalmente.
La necesidad obligó a las investigaciones biológicas y médicas a 
utilizar la estadística y a reconocerla como una especialidad propia, la 
bioestadística, que no es más que la estadística aplicada en la biología y 
la medicina, o sea, la que abarca los métodos estadísticos más aplicados 
en estas, aunque, ¿cuáles métodos estadísticos no se usan en ellas? Algu-
nos matemáticos y estadísticos desdeñan los métodos no paramétricos, 
incluidos los aplicables a variables en escalas nominales y ordinales, 
por ser menos potentes, pero, ¿qué hacer si se presentan en la realidad 
datos en estas escalas o no se cumplen las condiciones que exigen los 
correspondientes métodos paramétricos que son bastante restrictivos?, 
¿aplicárselos indebidamente como hacen algunos por desconocimiento 
o comodidad? Desde todos los puntos de vista, resulta más apropiado 
y beneficioso aplicar rigurosamente los métodos no paramétricos y 
utilizar en cada caso el más apropiado y el que más información pueda 
extraer de los datos.
La tecnología estadística, basada fundamentalmente en la teoría de 
las probabilidades y la matemática en general, ofrece métodos y procedi-
mientos para estudiar la realidad objetiva, ya hace algún tiempo el gran 
Laplace afirmaba que: “en el fondo la teoría de probabilidades es apenas 
el sentido común expresado en números”. Pero las teorías, incluida la de 
probabilidades, por su naturaleza, trabajan con entes y procesos ideales, 
así como con sus relaciones. Para el tratamiento de los entes y procesos 
de la realidad objetiva, y por tanto no ideales, están las tecnologías, como 
es el caso de la estadística.
Bioestadística cualitativa.indd 8 25/06/2010 12:19:37 p.m.
Ambas, la teoría de probabilidades y la estadística, permiten una 
mejor y mayor comprensión del mundo, mediante el estudio de los 
fenómenos aleatorios que constituyen la inmensa mayoría de los exis-
tentes y permiten orientarse mejor en ellos, a no aceptar afirmaciones a 
priori, sin fundamentación, al menos estadística, e interpretar con mayor 
conciencia la confiabilidad de una estimación y la significación o no 
de una diferencia o una asociación, la probabilidad de equivocación en 
una decisión, así como diferenciar el procesamiento estadístico, cons-
ciente y riguroso, de los datos de la manipulación con mala intención o 
errónea por desconocimiento o a propósito. Esto nos situará en mejores 
condiciones de argumentar nuestras propias afirmaciones. 
La mayoría de los fenómenos de la naturaleza y la sociedad son 
aleatorios, algunos evidentemente y otros se revelan como tales al afinar 
la medición y tratarlos multilateralmente en la madeja de los múltiples 
factores que sobre ellos influyen. Para su estudio, a menudo todos o una 
buena parte de ellos, juntos se consideran un único factor aleatorio.
De modo que los profesionales de la medicina como los de la 
biología, armados de al menos algunos conocimientos de esta teoría 
y su aplicación a la realidad, estarán más capacitados para interpretar 
y transformar, en beneficio de la sociedad, los fenómenosde nuestro 
mundo y habrán abierto la puerta de acceso al conocimiento de las leyes 
probabilísticas que gobiernan una buena parte de él, en fin tendrán una 
mejor concepción del mundo.
La tecnología informática ha aportado y aporta la posibilidad de sua-
vizar extraordinariamente la aplicación de los métodos probabilístico-
estadísticos, de modo que ya no se requiere, necesariamente, dominar el 
aparato de cálculo y procesamiento numérico, sino solamente interpretar 
los resultados del método estadístico aplicado y claro está, conocer algún 
manejo de los datos en algún software estadístico actual; esto es muy 
conveniente para la difusión de la estadística entre los profesionales y 
estudiantes no matemáticos.
La medicina, inmersa en este mundo no es ajena a este proceso 
universal y por tanto tampoco debe ser ajena al estudio y dominio de 
una buena parte de los métodos estadísticos menos conocidos como 
los no paramétricos.
No obstante estar dedicado este libro al procesamiento estadístico de 
datos en escalas nominales y ordinales, se han incluido como modelos 
para introducir los métodos no paramétricos unos pocos y básicos mé-
todos paramétricos como los de correlación lineal, así como pruebas de 
hipótesis para la media de una población, como punto de partida para las 
correspondientes pruebas para las variables nominales y ordinales. El 
resto es estadística descriptiva y pruebas de hipótesis para variables en 
Bioestadística cualitativa.indd 9 25/06/2010 12:19:37 p.m.
escalas nominales y ordinales ordenadas por escalas de cuantificación 
y número de poblaciones.
La clasificación en escalas nominales, ordinales, de intervalo y de 
razón es más amplia y por tanto más discriminatoria que la clasificación 
en solo dos clases como son las discretas y continuas, cualitativas y 
cuantitativas, categóricas y numéricas. Los métodos o procedimientos 
estadísticos se ajustan mejor a esta clasificación, por la necesidad de 
diferenciar entre la escala nominal y la ordinal y, claro está, la de in-
tervalo y razón, cuyos métodos o procedimientos estadísticos no trata, 
teniendo en cuenta que la mayoría de los textos se limitan a estos, 
que son más conocidos y si acaso mencionan unos pocos métodos no 
paramétricos. 
En realidad se escribió este libro como complemento al tomo 2 
de Informática médica, o Bioestadística, de un colectivo de autores 
encabezado por José A. Torres Delgado, que solo trata los métodos 
paramétricos, elementos de metodología de la investigación y de esta-
dísticas de salud y de los no paramétricos solo la prueba ji cuadrado y 
una prueba de proporciones muy limitadas. 
También se incluye en este libro, como complementos, además de 
cuestiones de interés de la estadística, algunos elementos del procesa-
miento de datos con las facilidades que proporciona la hoja de cálculos 
de Microsoft Excel, muy útiles para conformar los archivos o matrices 
de datos en la forma que lo requieren los distintos métodos estadísticos y 
calcular los estadígrafos y probabilidades que no aparecen programados 
en el software estadístico actual.
Bioestadística cualitativa.indd 10 25/06/2010 12:19:37 p.m.
Contenido
Introducción / 1
Capítulo 1. Estadística descriptiva / 5
1.1. Escalas de cuantificación / 5
1.2. Distribuciones de frecuencias según las escalas de cuantificación / 7
1.3. Representaciones gráficas de las distribuciones de frecuencias / 13
1.4. Distribuciones de frecuencias por intervalos de clase y bivariada / 18
1.5. Indicadores de tendencia central / 24
1.6. Indicadores de posición / 28
1.7. Indicadores de dispersión / 30
1.8. Conjuntos, matrices, ficheros o archivos de datos en las diferentes 
escalas / 33
1.9. Indicadores de correlación / 35
1.10. Coeficientes de correlación de Spearman, punto biserial 
y V de Cramér / 39
1.11. Coeficientes de correlación de Kendall / 54
1.12. Valores críticos de los coeficientes de correlación / 60
1.13. Diseño de experimentos / 65
Capítulo 2. Pruebas de hipótesis / 68
2.1. Conceptos básicos de pruebas de hipótesis / 68
2.2. Algoritmo general para realizar una dócima de hipótesis / 70
2.3. Dócimas para la media de una población / 71
2.4. Decisión sobre la base de una probabilidad / 77
Capítulo 3. Dócimas para muestrasen escalas nominales / 79
3.1. Dócimas para una población / 79
3.2. Dócimas para dos poblaciones / 96
3.3. Dócimas para más de dos poblaciones / 116
Capítulo 4. Dócimas para muestras en escalas ordinales / 121
4.1. Dócimas para una población / 121
4.2. Dócimas para dos poblaciones / 134
4.3. Dócimas para más de dos poblaciones / 167
Bioestadística cualitativa.indd 11 25/06/2010 12:19:37 p.m.
http://booksmedicos.org
Capítulo 5. Problemas y suplementos / 175
5.1. Opciones de Excel para el procesamiento estadístico / 175
5.2. Problemas resueltos y propuestos / 222
5.3. Distribución de las pruebas (dócimas o test) de hipótesis por escala 
de cuantificación de las variables, el número de poblaciones 
y el tipo de muestras / 240
5.4. Ejemplo de cómo informar el resultado de la aplicación de una 
prueba de hipótesis con un software estadístico / 242
5.5. Elementos de regresión logística / 243
5.6. Registro de la información observada como variables / 253
5.7. Hacer comparables las variables mediante rangueo, estandarización 
y recodificación / 261
5.8. Proporciones y algunas de sus aplicaciones en medicina / 264
5.9. Estimación puntual y por intervalo de una proporción / 266
5.10. Media, varianza y coeficiente de correlaciónde las variables 
dicotómica / 269
5.11. Confiabilidad y validez / 271
5.12. Transformación de una tabla de contingencia en matriz de datos / 273
5.13. Demostración de la relación entre los coeficientes de correlación 
rangos de Spearman y lineal de Pearson / 275
5.14. Deducción de la fórmula del estadígrafo ji cuadrado de la dócima 
de independencia en tablas de contingencia de dos por dos / 276
5.15. ¿Son cualitativas las “investigaciones cualitativas”? / 278
Bibliografía / 289
Índice de materias / 291
Bioestadística cualitativa.indd 12 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
1
Introducción
En toda investigación experimental se requiere cuantificar la infor-
mación obtenida del experimento para registrarla en un medio en que 
se pueda anotar, generalmente en forma de una matriz de datos o base 
de datos en una simple hoja de papel o un archivo de algún software de 
computadora tabulado habitualmente en columnas encabezadas por los 
nombres de las variables (campos) y filas en que aparecen los valores 
de las variables (registros de los individuos). Salvo por un objetivo es-
pecífico que recomiende otra cosa, se debe registrar lo observado en la 
escala de cuantificación superior, para obtener la máxima información 
posible en lo registrado y poder discriminar adecuadamente el tipo de 
procesamiento estadístico a utilizar.
Por esta razón y por el hecho de que el método estadístico a aplicar 
depende de la escala de cuantificación en que se encuentren los datos 
es que lo primero que se tratará son las escalas de cuantificación con 
la máxima capacidad discriminadora posible que es la que considera 
cuatro escalas: nominal, ordinal, de intervalo y de razón. 
Inmediatamente después se aborda el problema de las distribuciones 
de frecuencias según las escalas de cuantificación:
– Si la escala es nominal solamente se pueden construir con ellas 
distribuciones de frecuencias absolutas y relativas.
– Si la escala es ordinal se pueden construir, además, distribuciones 
acumulativas absolutas y relativas y aplicar métodos estadísticos 
basados en el orden o los rangos de los puntajes. 
El primer procedimiento estadístico empleado en las investigaciones 
experimentales son las distribuciones de frecuencias, que sirven para 
explorar los datos y descubrir sus primeras regularidades. Muchos 
trabajos investigativos experimentales aplican estas distribuciones, 
comentando separadamente una frecuencia absoluta o porcentual aquíy otra más adelante aisladamente, es preferible situarlas todas en una 
tabla de frecuencias que puede, además, representarse gráficamente con 
varios tipos de gráficas estadísticas que permitirán evidenciar regulari-
dades en el conjunto de datos muestrales.
Bioestadística cualitativa.indd 1 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
2
Una distribución de frecuencia no es más que una agrupación de los 
datos para simplificar su interpretación inicial. A menudo hay que llegar 
a un máximo agrupamiento y simplificación de los datos al calcular con 
ellos indicadores de tendencia central, posición, dispersión, asociación 
y correlación, consistentes en un único puntaje que describe e identifica 
a todo un conjunto de datos. Tanto las distribuciones de frecuencias 
como estos indicadores describen conjuntos de datos, valores de una 
variable, o la relación de una variable con otra u otras. Es objetivo 
de la estadística describir, estimar parámetros, decidir acerca de las 
distribuciones o parámetros poblacionales a partir de datos muestrales 
consistentes en conjuntos de datos o de observaciones de un grupo de 
individuos o repetidas de un único individuo.
Pero los datos son “tercos”, para aplicar los métodos estadísticos 
se requiere, además, un manejo eficiente de los datos, que incluye la 
creación de archivos, bases o matrices de datos, su transformación o 
recodificación por fila o columna, su transposición, su división para 
crear subconjuntos de datos, la mezcla de dos o más filas o columnas de 
una matriz de datos o de dos matrices de datos en una sola. También es 
conveniente saber identificar cuando las variables son independientes y 
cuando apareadas o igualadas, la escala de cuantificación en que están 
y como están dispuestas. En general se trata de acomodar los datos al 
procedimiento estadístico que se desea aplicar o a como lo exige el 
software estadístico a utilizar, pero todo eso sin perder de vista el no 
alterar la información que los datos originales contienen. Todas estas 
situaciones se pueden observar en los ejemplos que acompañan a cada 
procedimiento, que se pide repetir creadoramente en los problemas 
propuestos para que el lector adquiera habilidad en ello. Para el proce-
samiento requerido son muy útiles los software estadísticos, las hojas 
de cálculo como el Microsoft Excel y los procesadores de texto, así 
como la vinculación creadora entre ellos.
Un curso de estadística moderno es inconcebible sin el uso de un 
conjunto de computadoras personales y software estadísticos y de uso 
general como apoyo, es muy conveniente que el profesor cree previa-
mente un archivo o matriz de datos con unas 11 variables de todas las 
escalas: tres en escalas nominales comparables, tres en escalas ordinales 
con seis o siete valores comparables entre sí, tres en escalas de intervalo 
o razón también comparables y dos para facilitar la formación de grupos 
o muestras independientes, una con dos valores y la otra con tres. Al 
menos dos de estas variables deben tener distribución normal y corre-
lación alta entre varios pares de variables. Las parejas y ternas tanto de 
las variables en una misma escala representarán variables apareadas o 
igualadas y las que tienen pocos valores servirán para dividir los datos 
Bioestadística cualitativa.indd 2 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
3
en grupos o muestras independientes. El total de datos se sugiere que sea 
de 50 como mínimo, para que cuando se subdividan en grupos estos sean 
de un tamaño no muy pequeño. Se debe tener en cuenta, además, que 
el estudiante debe saber trabajar con un número grande de elementos, 
lo que se acerca más a la realidad.
Con esta tabla o archivo de datos, de 11 columnas por 50 filas o 
más, se podrán resolver prácticamente todos los problemas de apli-
cación de los distintos métodos estadísticos básicos que incluyan los 
programas, en particular los de pruebas de hipótesis. Con este archivo 
de datos habrá la posibilidad de aplicar pruebas de dos, tres y más 
variables independientes o igualadas, así como de construir tablas de 
frecuencias bivariadas con dos, tres y más categorías, pero este archivo 
necesariamente tendría que ser de datos ficticios en mayor o menor 
grado, salvo que se tenga mucha experiencia en la especialidad hacia 
la cual va dirigido, para lograr que sea representativo de muchas situa-
ciones que se dan en la realidad relacionadas con ellas. Dos modelos 
de estos archivos son el denominado DatosM2 elaborado con registros 
de psiquiatría y dirigido hacia la docencia en las distintas carreras de 
ciencias médicas, y DatosMT para la evaluación de los estudiantes, que 
se incluyen en el libro. 
Bioestadística cualitativa.indd 3 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
5
Capítulo 1
Estadística descriptiva
Se tratarán procedimientos estadísticos que permitirán descubrir regula-
ridades en los conjuntos de datos, reduciendo las variables a un conjunto de 
clases o categorías acompañadas de sus frecuencias llamadas distribuciones de 
frecuencias univariadas y bivariadas, así como sus representaciones gráficas, 
indicadores numéricos de tendencia central, posición, dispersión y correlación, 
que incluyen elementos descriptivos de regresión lineal y cuatro coeficientes 
de correlación que cubren prácticamente todos los casos que se dan en una 
matriz de datos.
1.1. Escalas de cuantificación
De forma general una medición consiste en establecer una correspondencia 
entre un conjunto de manifestaciones de una propiedad a medir y un conjunto 
de entes que se asumen como los valores de la medición.
Si a este conjunto de elementos se le provee de una estructura, es decir, se 
define en él una o más relaciones entre sus elementos de forma tal que reflejen 
las relaciones existentes entre la forma de manifestación de la propiedad que se 
mide, entonces este conjunto provisto de esa estructura pasa a ser un modelo por 
medio del cual es posible el estudio de esa propiedad, es decir, a partir de este 
momento se sustituye la investigación directa sobre los objetos y fenómenos 
que la poseen por el estudio de esa estructura.
Este modelo por medio del cual se concreta el proceso de medición, que 
determina qué procesamiento estadístico puede realizarse, posteriormente, 
con esa información recopilada se denomina escala de medición o mejor de 
cuantificación.
Hay cuatro escalas de cuantificación: nominal, ordinal, intervalo y razón 
o proporción.
Se parte de un conjunto A. Se dirá que sus elementos están en:
– Escala nominal: cuando se define una relación de equivalencia entre 
ellos; esto es, se establece un número determinado de clases o categorías 
tales que cada elemento pertenezca a una y solo una clase.
Bioestadística cualitativa.indd 5 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
6
– Escala ordinal: si están en una escala nominal entre cuyas clases está 
definido un orden de modo que cualesquiera que sean dos de ellas una 
será mayor o superior, en algún sentido, que la otra. Esta estructura 
satisface las exigencias de una relación de orden. A partir de esta escala 
las clases se denominan puntajes.
– Escala de intervalo: si están en una escala ordinal en que se ha definido 
una métrica esto es una unidad de medida, una distancia entre sus 
puntajes consecutivos de modo tal que la proporción o razón entre las 
longitudes de dos intervalos cualesquiera permanece invariable ante 
toda transformación de la escala en otra escala de intervalo, o sea. ante 
toda transformación del tipo y = ax + b.
– Escala de razón: si están en una escala de intervalo que posee un cero 
absoluto, en ella la razón entre dos puntajes cualesquiera permanece 
invariable ante toda transformación de la escala en otra escala de razón, 
o sea, ante toda transformación del tipo y = ax.
Por ejemplo, la clasificación de las personas que van a una consulta médica 
puede incluir:
– Si presentan o no una patología y se obtiene una variable dicotómica o 
binaria.− El tipo de patología que presenta (variable en escala nominal).
− El grado en que presentan la patología principal (variable en escala 
ordinal).
− Su temperatura corporal en grados Celsius (variable en escala de 
intervalo).
− Su peso en kilogramos (variable en escala de razón).
Esta clasificación en cuatro escalas permite una mayor y mejor discrimina-
ción de los métodos estadísticos que las que se mencionarán a continuación. 
1.1.1. Otras clasificaciones de las variables
Una variable es un ente que puede tomar los distintos valores de un conjunto 
determinado, se denotan habitualmente con letras mayúsculas X, Y, Z y sus po-
sibles valores forman el conjunto que se ha denominado conjunto de datos. 
– Variable discreta: la que solo puede tomar un conjunto a lo sumo 
numerable de valores (sus valores pueden representarse por letras 
subindizadas con los números naturales, en forma de una sucesión: 
X1, X2, X3,..., por ejemplo, la cantidad de hijos de un matrimonio, el 
puntaje obtenido en una prueba, el color del pelo, el número de días 
transcurridos desde el nacimiento, entre otros.
– Variable continua: la que puede tomar todos los valores de un intervalo 
de números reales no reducido a un punto ni vacío, por ejemplo, el tiempo 
de reacción ante un estímulo y el peso de un conjunto de personas. 
Bioestadística cualitativa.indd 6 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
7
– Variable de conteo: la variable discreta y en escala ordinal, que cuenta 
unidades. En ocasiones, y cuando el número de sus valores posibles 
distintos es grande, puede considerarse en escala de intervalo o razón 
e incluso, por aproximación, una variable continúa.
– Variable dicotómica o binaria: la que tiene solo dos valores posibles 
distintos cualesquiera, los más simples son 0 y 1, y pueden interpretarse 
como ausencia y presencia, respectivamente, de una propiedad o 
cualidad. La variable dicotómica, independientemente de los valores 
que tome se considerará, a los efectos estadísticos, en escala nominal.
También suelen clasificarse como variables cualitativas o categóricas a las 
no numéricas en escalas nominales y ordinales, y como cuantitativas a todas 
las numéricas. Por esta razón dentro de las cualitativas hay que distinguir 
adicionalmente los casos de escala nominal y ordinal y dentro de las cuantita-
tivas también las variables en escalas ordinales y las en escalas de intervalo y 
razón, todo esto hace a esta clasificación compleja y no discrimina más que la 
clasificación en continua y discreta, por lo que es más práctico no utilizar, por 
lo menos en la clasificación de los métodos estadísticos, esta clasificación de 
variables cualitativas y cuantitativas y utilizar las cuatro escalas de cuantificación 
directamente para describir las variables.
Una vez discutidos y precisados los tipos de variables y sus escalas se está en 
condiciones de abordar las distribuciones de frecuencias, el cálculo de algunos 
indicadores numéricos de tendencia central, dispersión y asociación, así como las 
pruebas de hipótesis, diferenciando siempre, su comportamiento, según la escala 
de cuantificación al aplicarlas. Su necesidad se comenzará a ver de inmediato. 
1.2. Distribuciones de frecuencias según las escalas 
de cuantificación
Ejemplo 1.1: 
En un análisis realizado se registraron 48 pacientes femeninos con valores 
de la hemoglobina por debajo de 120 g/L y se anotó su municipio de residencia: 
Marianao (M), Cerro (C), Playa (P) y Guanabacoa (G) obteniéndose:
M G P P C G M P M G P C P G M P M G P P C G M P
M G P C P G M P M G P P C G M P M G P C P G M P
Se puede observar a simple vista que son cuatro los municipios de residencia 
de los 48 pacientes, que cada paciente reside en uno y solo un municipio y que 
entre estos municipios no hay definido un orden ni unidad de medida, por lo 
que se puede afirmar que los datos anteriores están en escala nominal.
Bioestadística cualitativa.indd 7 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
8
En la tabla 1.1 se muestra lo que se denomina una distribución de frecuencias 
de estos 48 datos en cuatro clases.
Tabla 1.1. Distribución de frecuencias 
Municipio Frecuencia 
Marianao 12
Playa 18
Cerro 6
Guanabacoa 12
Total 48
Se puede observar, además, que Playa tiene la mayor frecuencia (18), Cerro 
tiene la menor (6), y Marianao y Guanabacoa tienen la misma (12).
Una distribución de frecuencias es todo agrupamiento de los datos en clases 
o categorías acompañadas de las frecuencias de clase. 
La utilidad de la misma radica en que permite descubrir regularidades en 
un conjunto de datos.
La distribución de frecuencias de la tabla 1.1 recibe el nombre de distribu-
ción por conteo de valores distintos, porque para construirlas se toman como 
clases los valores distintos del conjunto de datos, de la variable en cuestión y 
luego se contabiliza cuantos valores del conjunto coinciden con cada clase y 
esta cantidad será la frecuencia de la clase en cuestión. Así se procede con cada 
una de las clases restantes para completar la distribución de frecuencias. Esta 
distribución se utiliza cuando el número de clases distintas es pequeño.
Una distribución de frecuencias, de datos en escala nominal como estos, puede 
contener cualquiera de los tipos de frecuencias que aparecen en la tabla 1.2.
Tabla 1.2. Tipos de frecuencias variables en escalas nominales
Frecuencia
Municipio Absoluta Relativa Porcentual Tasa por 10 000
Marianao 12 0,250 25,0 2 500
Playa 18 0,375 37,5 3 750
Cerro 6 0,125 12,5 1 250
Guanabacoa 12 0,250 25,0 2 500
Total 48 1,000 100,0 10 000
La tabla 1.2 constituye un ejemplo de distribución de frecuencias de datos en 
escala nominal en que las clases son los municipios de residencia que aparecen 
representados por la letra inicial de su nombre.
– La frecuencia absoluta de una clase es igual al número de observaciones 
que pertenecen a esta clase. La suma de las frecuencias absolutas de 
Bioestadística cualitativa.indd 8 25/06/2010 12:19:39 p.m.
http://booksmedicos.org
9
todas las clases de una distribución de frecuencias es igual al número 
total de observaciones.
– La frecuencia relativa de una clase es igual a su frecuencia absoluta 
dividida entre la suma de las frecuencias absolutas de todas las 
clases. 
 La suma de las frecuencias relativas de todas las clases de una distribución 
de frecuencias es igual a 1, salvo por cuestiones de aproximación. La 
frecuencia relativa de una clase coincide además con la proporción de 
individuos que caen en esa clase
– La frecuencia porcentual de una clase es igual a su frecuencia relativa 
multiplicada por 100. 
– La tasa por 10000 de una clase es igual a su frecuencia relativa 
multiplicada por 10 000.
Se denomina tasa a la frecuencia relativa multiplicada por un múltiplo k de 
10, así la taza por 10k es igual a la frecuencia relativa multiplicada por 10k, para 
k = 2 se tiene la frecuencia porcentual que es igual a la relativa multiplicada 
por 102, por ejemplo, para k = 4 será taza por 10 000, ya que 104 = 10 000. Las 
tasas se utilizan para evitar dar porcentajes con muchos decimales o fracciones 
de unidades, que no son asequibles a una amplia población y pueden crear 
problemas de interpretación como, por ejemplo, cuando se dice que la taza de 
mortalidad infantil es de 4,7 por 1000 nacidos vivos, de expresarse en porcen-
taje sería 0,047 % además de la dificultad propia de los decimales y algunos 
podrían interpretar que se muere 4 niños y algo más de la mitad de otro niño 
por cada mil. En este caso es más apropiado decir 47 por 10 000 para que no 
se hagan semejantes interpretaciones. Otro ejemplo, la frecuencia relativa de 
de siameses unidos por la cabeza en un lugar es de 0,00000002 (2 x 10–8), la 
taza porcentual es del 0,000002 % (2 x 10–6 %) y la tasa por 10 000 es 0,0002 
(2 x 10–4) , pero mejor se expresa diciendo que es de 2 por 10 000.
Problema propuesto 1.1:
Construya distribuciones de frecuencias absolutas, relativas, porcentuales 
y acumulativasde las tres variables: sexo, raza y grado de retrazo mental de la 
tabla 1.3, matriz de datos DatosM2.
Tabla 1.3. Matriz de datos DatosM2
Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
1 M N L 3 2 2 9,88 67,1 69,2 29,5
2 F O M 6 2 3 7,31 70,5 70,1 39,1
3 M N L 3 5 3 3,04 50,8 41,8 35
4 F O M 4 5 3 12,8 53,1 47,6 35,4
Bioestadística cualitativa.indd 9 25/06/2010 12:19:39 p.m.
http://booksmedicos.org
10
Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
5 F N G 5 3 6 7,23 63,2 63,6 60,4
6 F B M 5 2 4 14,67 57,1 51,9 47,7
7 M B G 3 2 2 7,33 73 71,3 53,4
8 F N S 3 4 5 17,45 32,5 27,1 52,9
9 F N L 3 3 2 16,26 63,8 67,5 23,9
10 F O L 2 5 2 6,08 43,1 34,8 33,8
11 M O M 6 3 3 7,02 43 31,6 36,1
12 M O S 6 1 5 7,61 46,3 37,7 53,3
13 M O M 6 6 3 10,35 57,9 52,5 37,1
14 M B G 3 4 6 7,8 57,3 52,2 75,5
15 F B L 5 2 3 8,33 52,4 46 34,7
16 M O M 2 6 4 9,16 28,9 22,7 46,7
17 M B M 5 5 3 5,13 40,2 28,8 39,4
18 M N M 2 3 3 11,81 60,2 59,2 42,7
19 M B S 5 4 4 6,37 23,8 17,3 49,5
20 M N M 4 5 3 20,51 45,2 37,2 39,4
21 M O M 6 6 3 13,34 28,6 21,6 40,8
22 F O S 4 2 4 12,28 51,9 45,8 51
23 F B M 5 6 3 9,19 37,8 28,5 39,9
24 F O M 2 2 3 13,94 52,5 46,3 40,2
25 M O G 3 3 2 8,69 17 15,2 53,9
26 F N G 5 4 5 18,12 61,2 62,5 56,4
27 F N L 5 5 2 9,33 73,1 75,3 23,6
28 M N L 4 3 2 19,63 60,1 59 30,1
29 F N M 3 3 3 Au-sente 58,6 55,9 42,5
30 F O M 4 4 3 4,75 55 49,4 40,9
31 M B S 5 2 4 12,37 54,7 49,1 48,6
32 M O G 3 5 2 7,96 37,6 28,3 55,3
33 M O G 4 3 4 9,38 56,3 49,9 55,5
34 F B M 5 5 3 9,75 50,2 40,8 39,8
35 M B L 6 4 2 5,8 55,6 49,6 24
36 M O S 1 6 4 12,22 31,3 26,8 47,7
37 M B S 2 5 4 12,11 51,8 44,3 49,9
38 M B S 2 6 4 12,06 49,7 40,5 52,6
39 M O M 4 6 3 3,7 79,3 75,7 45,2
40 M O S 6 3 4 8,82 53,5 48,5 48,2
41 M B L 6 3 2 5,42 34,7 28,1 30,6
Bioestadística cualitativa.indd 10 25/06/2010 12:19:39 p.m.
http://booksmedicos.org
11
42 F B L 3 3 2 12,12 42 28,9 28,4
43 F N L 5 2 2 13,75 28,7 22,4 24,4
44 F O M 2 5 3 11,11 43,4 36,4 40,8
45 M N L 4 2 2 1 47,6 38,6 28,8
46 M N M 4 3 4 11,56 48,9 38,6 47,5
47 F O M 6 2 3 11,01 61 60,6 43,9
48 M O S 1 6 4 7,27 38,8 28,6 48,5
49 M O G 3 2 6 4,09 30,3 26,7 57,3
50 M O M 2 4 3 7,52 56,9 50,2 45,3
Leyenda:
GRM: grado de retraso mental.
EV1, EV2 y EV3: representan las escalas de Mad Vinelad en que valores más altos más grave el 
retraso mental. 
CI1, CI2 y CI3: representan los coeficientes de inteligencia registrados en tres momentos distintos 
de la vida de los individuos. 
EdC: representa la edad cronológica.
Observación: Hay paquetes estadísticos modernos que asignan números a 
los valores de las variables no numéricas para poder procesarlas como numé-
ricas, esto trae como consecuencia que realice operaciones con ellas que no 
proceden, que no se corresponden, como por ejemplo, ofrecen como resultado 
las distribuciones de frecuencias acumulativas de sexo y raza, que no es posible 
obtener a menos que se defina un orden entre sus valores. 
Ejemplo 1.2:
Se observan 300 personas y se clasifican según su aspecto físico o peso en obe-
sa (O), gruesa (G), buen peso (B), delgada (D) y muy delgada (M) (tabla 1.4)
Tabla 1.4. Resultados de la clasificación según aspecto físico y peso
M G B D G B O B O M D D G B D G D O O O O D M D G
O M G D B D G B D O B M D B G B B G O B B M D G B
O O D O B O B O D M B B G B B O O B M O O O B D G
M B O O M D O B G M D D B D O G B M G D G G D B B
G D O O M B B D G M M M D G G G B D D G D B O M B
B D B D D G D M M B B D D B B G B G D B D O B M G
D D O D D B B G B B B G D D M M G G B B B G B B B
B B D G G G M D D D O B B D G O G D G M D G O B O
O G D B B G M D M B D D D B G D G B M G B B G G O
G O D B G D G O O B G G O G O G B B B B O D M B B
D M O M D O B B B D G B M M O D B B M B B B D D B
M M O M B O O G O D M D G B B D O B G D D D D M D
Bioestadística cualitativa.indd 11 25/06/2010 12:19:40 p.m.
http://booksmedicos.org
12
Se ejemplifica con 300 datos a propósito para que ver que no es un proble-
ma grave procesar tantos datos con el software estadístico y para que quede en 
evidencia la necesidad de construir distribuciones de frecuencia para descubrir 
regularidades en el conjunto de datos. 
Observando detenidamente en estos datos se registran solo cinco clases 
distintas, cada individuo pertenece a una y solo una clase, entre estas clases está 
definido un orden, que va de menor a mayor: muy delgado, delgado, buen peso, 
grueso y obeso, pero no existe una unidad de medida que permita saber cuanto 
más pesado es el obeso que el grueso o el buen peso que el delgado, por lo que 
se puede afirmar que estos datos están en escala ordinal, aunque provengan de 
una variable continua.
Se puede construir con ellos una distribución de frecuencias con los distintos 
tipos de frecuencias (tabla 1.5).
Tabla 1.5. Distribución de frecuencias del aspecto físico del grupo 1
Aspecto físico
Frecuencias
Absolutas Relativas Acumulativas Acumulativas relativas
Muy delgado 38 0,127 38 0,127
Delgado 71 0,237 109 0,363
Buen Peso 86 0,287 195 0,650
Obeso 48 0,160 243 0,810
Grueso 57 0,190 300 1,000
Suma 300 1,001
La suma de las frecuencias relativas no da 1,000 por error de redondeo de los números a 
tres cifras decimales.
– La frecuencia acumulativa de una clase es igual a la suma de las 
frecuencias absolutas de esta clase y de las clases anteriores. Puede 
ser relativa, porcentual, acumulativa. Solo tiene sentido para datos en 
escalas ordinales o superior.
Observaciones: 
1. En el caso de las variables en escalas nominales no se pueden construir 
frecuencias acumulativas porque entre sus clases no hay orden, en ellas 
no está definido el concepto de clase anterior a otra.
2. Las clases de esta distribución de frecuencias están ordenadas de menor 
a mayor peso. También se podrían ordenar de mayor a menor peso o 
sencillamente considerarlas ordenadas de mayor a menor delgadez. De 
menor a mayor es el ordenamiento que se considera en lo ulterior, salvo 
que se diga lo contrario. 
Bioestadística cualitativa.indd 12 25/06/2010 12:19:40 p.m.
http://booksmedicos.org
13
3. Si en la distribución de frecuencias de la tabla 1.1 se eliminan las clases 
y se quedan solo las cuatro frecuencias, estos números que representarán 
las cuatro clases distintas y no se habrá perdido información relevante 
para el procesamiento estadístico de estos datos. De modo que las 
frecuencias han cuantificado el conjunto de datos en escala nominal o 
cualitativos.
1.3. Representaciones gráficas de las distribuciones 
de frecuencias
1.3.1. Histograma de frecuencias
Es una gráfica de barras, generalmente verticales, cuyas alturas son pro-
porcionales a las frecuencias y cuyo ancho es común. Se traza sobre un eje 
horizontal, donde se marcan las clases, y sobre ellas las barras correspondientes, 
y se consideran en un eje vertical, las frecuencias. Por ejemplo para los datos 
del ejemplo 1.2, se tienen las figuras 1.1 y 1.2.
Figura 1.1. Histograma de frecuencias o gráfica de barras en el plano.
Figura 1.2. Histograma de frecuencias tridimensional.
Bioestadística cualitativa.indd 13 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
14
1.3.2. Gráfica circular o de pastel
Consiste en un círculo (pastel) dividido en tantos sectores (tajadas del pas-
tel) como clases haya y cuyas áreas (ángulos o arcos) son proporcionales a las 
frecuencias de las correspondientes clases (figuras 1.3 y 1.4).
Figura 1.3. Gráfica circular o de pastel en el plano.
Figura 1.4. Gráfica circular o de pastel tridimensional.
1.3.3. Polígono de frecuencias
También llamada gráfica de líneas o poligonal es una gráfica en que sobre 
un eje de coordenadas se trazan, sobre las marcas de clase, puntos a alturas 
proporcionales a las frecuencias de cada clase que luego se unen con segmentos 
de rectas, que pueden no trazarse, para formar la línea poligonal, a veces se 
trazan segmentos de rectas adicionales desde la última y la primera clase hasta el 
eje horizontal para cerrar el polígono. Por ejemplo, para los datos del ejemplo 1.2, 
se tienen las figuras 1.5, 1.6 y1.7.
Ejemplo 1.3
En la tabla 1.6 aparece la distribución de frecuencias del aspecto físico de 
otro grupo de 300 individuos cuya distribución se compara con la de la tabla 
1.5 en las figuras 1.8 y 1.9.
Bioestadística cualitativa.indd 14 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
15
Figura 1.5. Polígono de frecuencias o gráfica de líneas.
Figura 1.6. Histograma y polígono de frecuencias del aspecto físico.
Figura 1.7. Histograma y polígono acumulativo de la distribución de aspecto físico.
Tabla 1.6. Distribución de frecuencias del aspecto físico del grupo 2
Aspecto físico Frecuencia absoluta
Obeso 50
Grueso 70
Buen peso 90
Delgado 60
Muy delgado 30
Suma 300
Bioestadística cualitativa.indd 15 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
16
Figura 1.8. Histograma comparativo de los dos grupos.
Figura 1.9. Polígono comparativo de los dos grupos.
Para comparar mediante gráficas de pastel se requiere construir, por separa-
do, un pastel de cada variable. Existen, además, otros muchos tipos de gráficas 
de distribuciones de frecuencias que en general son combinaciones o variantes 
de los descritos.
Problema propuesto 1.2:
Construya el histograma, el polígono y la gráfica circular de la variable del 
ejemplo 1.3, así como las gráficas de pastel comparativas de los grupos 1 y 2. 
Las gráficas estudiadas pueden tener distintos usos, por lo general:
– La gráfica de pastel se usa preferentemente para datos en escala nominal, 
pues no se puede definir en ella un orden preciso 
– El polígono, gráfica poligonal o de líneas da idea de continuidad en 
la variable en cuestión y, por tanto, es apropiada preferentemente para 
datos que provengan de variables continuas.
Bioestadística cualitativa.indd 16 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
17
– La gráfica de barras o histograma en el caso de barras separadas es 
apropiada para datos de variables discretas y, en el caso de barras 
pegadas una a continuación de la otra para variables continuas.
Observaciones:
1. En la actualidad, como se pueden construir las gráficas fácilmente con 
un software, habitualmente se hacen los distintos tipos de gráficas que 
más gusten y se observan para escoger luego de compararlas, la más 
apropiada para la distribución o la que mejor refleje lo que se desea 
representar o simplemente la que más le guste al investigador. 
2. En los histogramas se pueden sustituir las barras por figuras convenientes. 
La gráfica de pastel solo es apropiada para una sola variable, pero se 
pueden presentar varios pasteles comparativos de varias variables, en 
este caso pueden graficarse mejor mediante una barra o figura divididas 
en partes con áreas correspondientes a las distintas variables. Las gráficas 
poligonales se pueden trazar con cintas u otros elementos similares. 
Ejemplo 1.4:
Se registra el estado de salud de 40 niños como mal (M), regular (R), bien 
(B) y excelente (E) y se obtiene la lista:
R, M, E, E, M, M, R, B, M, M, B, B, B, B, B, E, B, B, R, R,
R, E, B, B, B, R, B, B, R, M, E, B, B, R, R, B, B, R, R, R
En las tablas 1.7 y 1.8 se muestra la construcción de una distribución de 
frecuencias con las frecuencias relativas y acumulativas y su representación 
gráfica elemental mediante un histograma en posición horizontal.
Con un determinado objetivo se decide agrupar los excelentes y bien en la 
categoría satisfactorio y regular y mal en la categoría no satisfactorio, entonces 
se obtiene la tabla 1.9 con otra distribución de frecuencias del estado de salud 
de los 40 niños, agrupados en solo dos clases. Se han reagrupado las clases y 
reducido a dos valores solamente. 
Tablas 1.7. Distribución de frecuencias e histograma
Clases
Frecuencia
Histograma
Absoluta
Mal 6 ▄▄▄▄▄▄
Regular 12 ▄▄▄▄▄▄▄▄▄▄▄▄
Bien 17 ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
Excelente 5 ▄▄▄▄▄
Total 40
Bioestadística cualitativa.indd 17 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
18
Tabla 1.8. Distribución de frecuencias relativas y acumulativas
 
Clases
Frecuencia acumulativa
Relativa Absoluta Relativa
Mal 0,150 6 0,150
Regular 0,300 18 0,450
Bien 0,425 35 0,875
Excelente 0,125 40 1,000
Total 1,000
Tabla 1.9. Distribución de frecuencias con dos clases 
Clases Frecuencia
Satisfactorio 22
No satisfactorio 18
Total 40
1.4. Distribuciones de frecuencias por intervalos 
de clase y bivariada 
1. 4.1. Distribución de frecuencias por intervalos de clase
Las distribuciones de frecuencias pueden ser:
– Por conteo de valores distintos como las de las tablas 1.1 a la 1.9, se 
aplica cuando el número de valores distintos de la variable es muy 
escaso y entonces se toman estos valores como clases, esto es común 
en el caso de variables en escalas nominales y ordinales.
– Por intervalos de clase como las que se verán en las tablas 1.10 y 1.11, 
y se aplica cuando el número de valores distintos de la variable es muy 
numeroso y no conviene construir un número muy grande de clases, que por 
lo general es el caso de las variables en escalas de intervalos y razón. 
De modo que lo que decide es que si la variable tiene muchos valores 
distintos la distribución debe ser por intervalos y si tiene pocos o muy pocos 
valores distintos la distribución debe ser por conteo de valores distintos. No se 
excluye el uso de distribuciones por intervalos de algunas variables en escalas 
nominal y ordinal, que en realidad no son verdaderos intervalos sino más bien 
agrupaciones de clases. Un ejemplo de lo expresado son las distribuciones de 
las tablas 1.8 y 1.9 en que los valores de la variable peso están agrupados. En 
las nominales, en ocasiones, se pueden encontrar agrupamientos de clases, como 
por ejemplo si se trata de datos de colores se pudieran agrupar, por ejemplo, en 
muy oscuros, oscuros, claros y muy claros. 
Bioestadística cualitativa.indd 18 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
19
1.4.2. Algoritmo para construirlas 
Si los las variables están al menos en escala de intervalo se procede así:
1. Se halla el recorrido: R = dato mayor – dato menor, en el ejemplo.
2. Se fija el número k de intervalos de clases. Se recomienda no menos de 
cinco ni más de veinte. 
3. Se halla la longitud o amplitud común de los intervalos L.
 
k
R
L = siempre aproximada por exceso. 
 También se puede fijar primero la longitud de intervalo L y hallar después 
el número de intervalos k por la fórmula k
R
L
= . 
4. El dato menor o un número menor suficientemente cercano será el límite 
inferior d del primer intervalo de clase y a partir de él se hallan los demás 
límites o extremos de los intervalos de clase sumando L sucesivamente 
de modo que los k intervalos serán: ]d , d + L]; ]d + L, d + 2L]; ]d + 2L, 
d + 3L];...; ]d + (k – 1)L, (d + kL)], si d + kL supera al máximo. 
 Donde d es el mínimo o un número menor suficientemente cercano y k 
el número de clases propuesto.
 Estos intervalos son abiertos por la izquierda, por lo que no incluyen los 
extremos inferiores, que se incluyen en el intervalo de clase anterior, y 
cerrados por la derecha que si incluyen el extremo superior.
5. Una vez construidos los intervalos de clase se procede a calcular las 
frecuencias de cada clase.
El ejemplo 1.5 muestra el cumplimiento de estos pasos.
Ejemplo 1.5:
Los datos de la tabla 1.10 corresponden a la cantidad de veces, en 1 año, que 
han asistido a la consulta 50 niños asmáticos de un área de salud de Marianao. 
Las observaciones se han ordenando previamente para facilitar el trabajo.
Tabla 1.10. Veces que asistieron a consulta 50 niños asmáticos 
 de Marianao
31 36 36 37 39 41 41 42 42 42
42 43 44 44 44 44 44 44 44 45
45 45 45 45 46 46 46 46 46 47
47 47 48 48 48 48 49 49 50 50
51 52 52 53 53 55 55 56 57 59
El número de veces que ha asistido a consulta es una variable de conteo, en escala ordi-
nal. El máximo, 59 y el mínimo, 31 del conjunto se han destacado.
Bioestadística cualitativa.indd 19 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
20
– Paso 1: R = 59 – 31 = 28.
–Pasos 2 y 3: fijando k = 6 se tiene que . 
– Paso 4: comenzando por el número 30, menor y no muy distante del 
mínimo 31 y sumando la longitud calculada a 30 sucesivamente se 
obtienen 35, 40, 45, 50, 55 y 60, se para en 60 porque es el primer 
resultado que supera el máximo valor de los datos, que es 59 y también 
igual a 30 + 6(5). Se obtendrán los seis intervalos: ]30; 35], ]35; 40 ], 
]40; 45 ], ]45; 50 ], ]50; 55], ]55; 60]. Estos intervalos son abiertos por 
la izquierda, por lo que no se incluyen en los intervalos sus extremos 
inferiores y cerrados por la derecha, si se incluyen los extremos 
superiores en cada uno de ellos.
– Paso 5: para el cálculo manual de las frecuencias de cada clase se ofrece 
en la tabla 1.11 el llamado tarjado, que consiste en revisar cada dato 
original y anotar una rayita vertical en el intervalo de la distribución que 
le corresponde, se marcarán de alguna manera los números ya revisados 
para evitar equivocaciones posteriores que provocan tener que empezar 
de nuevo. Al final, la suma de las rayitas verticales de una celda será su 
frecuencia absoluta. Las rayitas verticales se agrupan en mazos de 5 o 
10 si conviene para facilitar el cómputo.
Tabla 1.11. Cálculo manual de la distribución de frecuencias
Intervalo de clase Tarjado Frecuencia
30-35 | 1
35-40 |||| 4
40-45 ||||| ||||| ||||| |||| 19
45-50 ||||| ||||| ||||| | 16
50-55 ||||| || 7
55-60 |||| 3
En la tabla 1.11 se ha incluido, además del tarjado, las frecuencias absolutas, 
y por último, la tabla 1.12 muestra las distribuciones de frecuencia absoluta, 
relativa y acumulativa del número de asistencias a la consulta, se ha utilizado 
una notación más precisa para los intervalos.
Tabla 1.12. Distribución con distintos tipos de frecuencias y clases.
Número de asistencias a 
consulta en 5 años Marca de clase
Frecuencia
Absoluta Relativa Acumulativa
30 < x ≤ 35 35 1 0,02 1
35 < x ≤ 40 40 4 0,08 5
40 < x ≤ 45 45 19 0,38 24
45 < x ≤ 50 50 16 0,32 40
50 < x ≤ 55 55 7 0,14 47
55 < x ≤ 60 60 3 0,06 50
Bioestadística cualitativa.indd 20 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
21
La marca de clase de un intervalo puede ser un representante cualquiera del 
intervalo, pero habitualmente se toma el punto medio del intervalo. Pero como 
por lo general las variables en escala ordinal no tienen media, no se pueden 
sumar y dividir entre 2, se tomará según el caso uno u otro representante como 
marca de clase, se tomó el extremo superior de cada clase 
En distintos textos se consideran los intervalos abiertos por la derecha, 
abiertos o cerrados por ambos extremos, en otros se definen intervalos de clase 
reales, teniendo en cuenta la corrección por continuidad (el redondeo); todas 
estas variantes tienen sus ventajas y desventajas, la del redondeo proporciona 
precisión en el cálculo. Se prefirió la de intervalos múltiplos de 5 o 10 que re-
sulta más asequible a un amplio público, que se ajusta bastante bien al caso de 
las variables en escala ordinal. El elegir una u otra depende del objetivo, y en 
última instancia, todo depende de la naturaleza de los datos y del objetivo de 
la distribución en la construcción de distribuciones de frecuencias.
Como las distribuciones univariadas, las distribuciones bivariadas de fre-
cuencia permiten descubrir también regularidades, pero entre sus regularidades 
están también las de asociación o relación entre las dos variables en cuestión. 
1.4.3. Gráfica piramidal de frecuencias
Es una gráfica muy usual en demografía es la llamada piramidal, utilizada 
fundamentalmente para comparar la distribución de dos variables. 
Consiste en dos histogramas o gráficas de barras horizontales con las 
mismas clases, que se colocan uno con las barras hacia la izquierda del eje 
vertical y el otro con las barras hacia la derecha de modo que en el eje vertical 
coincidan los pares de barras izquierdas y derechas de las dos distribuciones. 
Para lograr esto, en la distribución de frecuencias conjunta se cambian los 
signos de las frecuencias de la variable que se desea que sus barras queden 
hacia la izquierda.
Se pueden construir con el software Microsoft Excel, por ejemplo, si se 
desea construir la gráfica piramidal de frecuencias de la distribución por sexo 
de variable EV1 de la matriz de datos DatosM2 de la tabla 1.3:
1. Se construyen las distribuciones de frecuencias de EV1 de los varones 
y la de las hembras. 
2. Se le ponen signos menos (–) delante a las frecuencias de los varones
3. Se colocan las dos columnas (o filas) de frecuencias una al lado de la 
otra.
4. Se selecciona la distribución de frecuencias, si las clases son numéricas 
es preferible seleccionar solo las dos columnas de frecuencias. 
5. Se selecciona el asistente para gráficas y se escoge en él la grafica de 
barra horizontal apilada, preferiblemente tridimensional o cilíndrica 
apilada y se hace clic en Siguiente.
Bioestadística cualitativa.indd 21 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
22
6. Si es necesario se selecciona la pestaña Líneas de división y se 
deseleccionan las líneas de división que aparezcan seleccionadas y se 
hace clic en Siguiente. 
O bien, en lugar de 6 seleccione en el asistente para gráficos la opción 
Gráfico piramidal tipo barra apilada con forma piramidal y Finalizar. Haga, 
a continuación, clic derecho en alguna barra para obtener el cuadro de diálogos 
Formato de serie de datos en que se seleccionará la pestaña Formas y de ellas 
la 1, la cilíndrica o rectangular y en la pestaña Opciones o en Ancho de rango, 
para unir las barras o cilindros.
En la tabla 1.13 aparece la distribución final de la variable EV1 de la matriz 
de datos DatosM2 con los las frecuencias del sexo con signos cambiados y la 
gráfica pirámidal en tercera dimensión (figura 1.10).
Tabla 1.13. Distribución de la variable EV1 agrupada por sexos
 Sexo EV11 2 3 4 5 6
Femenino 0 –3 –4 –3 –8 –2
Masculino 2 5 7 6 3 7
Figura 1.10. Gráfica piramidal de la variable EV1 agrupada por sexos. 
Se observa lo diferentes que son las distribuciones de los dos sexos, aunque 
en los valores 2, 3 y 4 se comportan de modo casi proporcional, más bajo en 
los del sexo femenino y para los 5 y la 6 aproximadamente se invierten sus 
frecuencias. La interpretación y el nombre de piramidal depende de los datos, 
se realizaron de estos pocos datos para simplificar, pero deben construirse a 
partir de muchos datos para que se aprecien bien las regularidades.
1.4.4. Distribuciones bivariadas de frecuencia
Es una distribución de frecuencias de un vector de dos variables, en que 
las clases de una encabezan columnas y los de la otra las filas, la intersec-
ción de filas y columnas determina celdas en que se ponen las frecuencias 
conjuntas. 
Bioestadística cualitativa.indd 22 25/06/2010 12:19:43 p.m.
http://booksmedicos.org
23
Ejemplo 1.6:
Las distribuciones de las tablas 1.13 y 1.14 son bivariadas, a partir de esta 
última se construirán las distribuciones marginales y una distribución con la 
variable día del mes agrupada por intervalos de clase.
Tabla 1.14. Frecuencia de visitas al médico por día del mes, sexo y total
Día
Sexo
Suma
M F
1 3 5 8
2 2 4 6
3 5 4 9
4 8 10 18
5 10 14 24
6 1 6 7
7 12 18 30
8 15 25 40
9 9 7 16
10 5 9 14
11 13 17 30
12 16 23 39
13 5 7 12
14 17 22 39
15 2 8 10
16 6 14 20
17 4 11 15
18 21 23 44
19 4 10 14
20 21 19 40
21 11 9 20
22 13 11 24
23 14 11 25
24 11 16 27
25 11 18 29
26 6 11 17
27 9 14 23
28 9 12 21
29 17 12 29
30 19 13 32
Bioestadística cualitativa.indd 23 25/06/2010 12:19:43 p.m.
http://booksmedicos.org
24
Las distribución de la variable sexo, llamada marginal, se obtiene en la tabla 
1.15 sumando las columnas de ambos sexos de la tabla 1.14.
Tablas 1.15. Distribución marginal de la variable sexo
Clases Frecuencia
Masculino 299
Femenino 383
 La distribución marginal de la variable día del mes la constituyen la primera 
y la última columna de la tabla 1.14. En la tabla 1.16 se ofrece la distribución 
bivariada de la tabla 1.14, pero conlos días del mes agrupados por intervalos de 
clase ya que sus valores distintos son bastantes; los intervalos son de longitud 
5, y, por ejemplo, 0 < x ≤ 5 significa entre los días primero y quinto del mes, 
incluyendo el 5 pero no el 0, entonces muestra las cantidades personas por sexo 
y por intervalo de días a diferencia de la tabla 1.14, la distribución de los días 
es por conteo de valores distintos.
Tabla 1.16. Cantidades personas por sexo y por intervalo de días
Clase M F Total
0 < x ≤ 5 28 37 65
5 < x ≤ 10 42 65 107
10 < x ≤ 15 53 77 130
15 < x ≤ 20 56 77 133
20 < x ≤ 25 60 65 125
25 < x ≤ 30 60 62 122
Total 299 383 682
1.5. Indicadores de tendencia central
1.5.1. La moda
En un conjunto de datos es el dato más frecuente, es decir, el que más se 
repite.
Ejemplo 1.7: 
En el ejemplo 1.1 la moda es Playa (P), en el ejemplo 1.2 la clase buen peso 
(B) y en el ejemplo 1.4 bien (B).
A veces en lugar de la moda se define el concepto de clase modal, que es 
la clase con mayor frecuencia de una distribución. 
Bioestadística cualitativa.indd 24 25/06/2010 12:19:43 p.m.
http://booksmedicos.org
25
En el ejemplo 1.5 la clase modal es el intervalo de 40 a 45 y la moda es 44 
que se repite siete veces.
Problema propuesto 1.3:
Diga cuáles son las modas de los siguientes conjuntos de datos:
1. A, A, B, C, A, B.
2. D, E, F, F, G, D, E.
3. A, B, C, D, E, F.
4. A, B, C, A, B, C, A, B, C.
Respuestas: 
1. A.
2. D, E y F.
3. No hay (o las seis letras). 
4. No hay (o las tres letras A, B y C).
1.5.2. La mediana
En un conjunto es el elemento que ocupa la posición central en la lista de 
los elementos ordenados. Pero la mediana se define para variables continuas, 
solo en este caso es única y exacta. Implica que por debajo de ella hay un 50 % 
de los datos y por encima de ella otro 50 %, porque ella es un punto y, por 
tanto no cuenta, porque no tiene dimensiones o porque entre la mediana y otro 
punto cualquiera hay infinitos puntos tan cercanos a ella como se quiera. Para 
distribuciones discretas la definición es solo aproximada, y puede darse el caso 
de que más de un elemento aparezca como mediana, porque su valor es uno del 
conjunto de datos y cada valor representa un porcentaje, que influye y por tanto 
la suma de los porcentajes de datos por encima o por debajo de las mediana 
no será nunca igual a 100 % si no se incluye en ellos la mediana. Cuando más 
de un elemento aparezca como mediana se escogerá uno y, si los datos son 
numéricos y admiten promedio, se tomará el promedio de todas las posibles 
medianas, si no se tomará uno de los dos como mediana, pero mencionando 
que hay otro que también cumple. 
En el ejemplo 1.4, de los 300 datos de la variable aspecto, la mediana es 
la clase buen peso (B) y tiene frecuencia 86. En el ejemplo 1.5 la mediana 
es 46.
A veces en lugar de la mediana se define el concepto de clase de la mediana, 
que es la clase que contiene la mediana de una distribución, este es el caso de 
las distribuciones por intervalos, en las que es mucho más fácil de calcular y 
la única forma si solo se cuenta con la distribución de frecuencia y no con los 
datos originales.
En el ejemplo 1.5 la mediana es el intervalo de 40 a 45. 
Bioestadística cualitativa.indd 25 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
26
A continuación se exponen, en dos filas, 40 datos ordenados de menor a 
mayor:
1 2 2 3 4 4 4 4 5 5 5 5 6 6 7 7 8 8 8 9
10 11 11 11 12 13 14 14 15 16 16 17 17 18 21 22 23 23 24 25
Se tiene que la clase de la mediana está entre 9 y 10, porque el número 
total de datos es 40 y ser ellos los de órdenes 20 y 21; pero si es posible se 
toma como mediana que tiene el 50 % de los 40 datos por debajo
de él y el otro 50 % por encima, pero pudiera ser que el 9,5 no se admitiera 
como dato en esta lista y entonces ocurriría que no se sabe cual es la mediana 
porque el 9 tiene por debajo el 48 % de los datos y por encima el 50 % y el 
10 tiene por debajo el 50 % y por encima el 48 % de los datos. Ninguno de 
los dos es mediana de acuerdo con la definición, porque, además, ninguno 
está en el centro de la lista ordenada. De modo que se tiene que cambiar la 
definición de mediana para poder calcular la mediana de datos discretos.
Una caracterización que mejora el cálculo de la mediana de un conjunto de 
datos en el caso de variables discretas plantea que: 
La mediana es un número mayor y también menor que a lo sumo el 50 % de los 
datos del conjunto. Esta caracterización garantiza que al menos haya una mediana, 
porque con la definición original a menudo ninguno de los elementos del conjunto 
cumple con la definición de mediana. No excluye que haya más de un elemento 
que cumpla estas condiciones, y si lo hay se acostumbra a tomar el promedio de 
ellos como mediana, si tiene sentido, si no uno cualquiera de ellos.
Problema propuesto 1.4: 
Diga cuáles son las medianas de los siguientes conjuntos de datos:
1. 1, 2, 5, 7, 9.
2. 1, 2, 5, 7.
3. Considerando el orden alfabético:
a) A, B, C, D, E.
b) A, B, C, D, E, F. 
Respuestas:
1. 5.
2. Está entre 2 y 5, es
 
; 2 o 5.
3. a) C. b) Está entre C y D, es C o D.
Las clases modal y de la mediana son aproximaciones de la moda y la me-
diana, respectivamente, que se usan cuando se tiene solamente una distribución 
de frecuencias y no los datos originales.
Bioestadística cualitativa.indd 26 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
27
Para datos en escala nominal, sin orden entre las clases, no tienen sentido 
los conceptos de mediana porque no lo tiene ordenar las clases, ni el de punto 
central ni el de por debajo ni el por encima ni a la izquierda ni a la derecha de 
un puntaje. 
1.5.3. La media
Es el indicador de tendencia central más usual, pero solo cuando la variable 
está en escala de intervalo o razón, no obstante, es tan buen indicador que a ve-
ces se usa incorrectamente con datos numéricos en escala ordinal, cuando esta 
proviene de variables que admiten la media, porque ofrece más información que 
la mediana. Además, muchos indicadores o medidas que se conocen y se utilizan 
frecuentemente en realidad son medias, por ejemplo, la velocidad de un móvil, 
el peso de una persona, la cantidad de sangre en el cuerpo de una persona, la 
distancia hasta un punto, entre otras, comúnmente son medias; por esto y por su 
uso como referencia en la estadística no paramétrica se ofrece su definición.
Si la variable se denota por X la media se denotará y se definirá entonces 
mediante:
n
XXX
X n
+++= ···21
Y se denota por:
∑
=
=
n
i
iXn
X
1
1
Donde el símbolo ∑
=
n
i
iX
1
 indica la suma de los valores Xi que tienen subíndice 
comprendido entre 1 y n, ambos inclusive. Por ejemplo la media de 2, –4, 0, 8 
es igual a 5,1
4
8042 =++− .
1.5.4. La media ponderada
Considere los datos 5, 9, 8, 5, 8, 9, 6, 5, 6, 7, 8, 6, 6, 6, 8. Su suma se cal-
culará de manera más fácil así: 
En este caso k = 5 es el número de valores distintos: 5, 6, 7, 8 y 9, del total 
de n = 15 valores. 
En el caso de una distribución de frecuencias con marcas de clase x1, x2,…, 
xk con frecuencias respectivas f1, f2,..., fk, entonces: 
∑
=
=
k
i
ii xfn
X
1
1
 
Bioestadística cualitativa.indd 27 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
28
Donde f1, f2,..., fk son las frecuencias absolutas y ∑
=
=
k
i
ifn
1
.
Por ejemplo, para hallar la media de la distribución de frecuencias, de la 
tabla 1.12, teniendo en cuenta que lo que se registró cada día fue si asistió o 
no, que tiene sentido la media y que daría un valor más próximo al verdadero 
de 46,18, el valor aproximado de:
1(32,5) + 4(37,5) + 19(42,5) + 16(47,5) + 7(52,5) + 3(57,5) = 2 290 divi-
diendo entre 50
Tomando como marcas de clase los puntos medios de los intervalos, 
que deben brindar el valor más aproximado, en este caso la media es igual a 
.
Sean w1, w2,..., wk las frecuencias relativas de la distribución n
f
w ii = , en-
tonces:
 y i
k
i
i xwn
X ∑
=
=
1
1 
Esta última fórmula es la de la media ponderaday a las wi se les denomina 
ponderaciones de los puntos xi.
Por ejemplo, si las ponderaciones de –3, 0, 5, 7 son 0,2; 0,4; 0,3 y 0,1, 
entonces su media ponderada es igual a 0,2(–3) + 0,4(0) + 0,3(5) + 0,1(7) = 
–0,6 + 0 + 1,5 + 0,7 =1,6. 
La media ponderada es un buen indicador cuando se tienen varias columnas 
de datos con valores similares comparables y que admitan medias o sumas, 
puede ser conveniente promediar esos valores por fila y si las columnas tienen 
distintas ponderaciones, es decir, los valores de una tiene mayor peso que los 
de otra, entonces el promedio o la suma deben ser ponderado y estos promedios 
constituirán una variable cuyos valores representan los valores promedios o 
sumas de las filas. Algo análogo puede hacerse con las columnas. 
1.6. Indicadores de posición 
1.6.1. Percentil de orden p
Sea P un porcentaje, el percentil de orden P de la variable X es el puntaje xP 
tal que por debajo de él se halla el P % de la distribución de X. Pero el percentil 
de orden P es único y exacto solo para variables continuas y en tal caso por 
encima de él se halla el (100 − P) % de los valores de la variable. Para utilizarlo 
en el caso de variables discretas hay que hacer aproximaciones y estimaciones 
para tratar de precisarlo.
Bioestadística cualitativa.indd 28 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
29
Por ejemplo, el percentil de orden 80 de los puntos del segmento de la figura 
1.11, comprendido entre los números reales 0 y 5, es el punto correspondiente 
al número 4, por debajo de él se halla el 80 % de los puntos del segmento y 
por encima el 20 %. El percentil de orden 50 o mediana es igual a 2,5, que si 
está entre los valores posibles de la variable, aunque no coincida con ningún 
valor entero. En este caso si se quitara el punto cuyo valor es 2,5, la mediana 
seguiría siendo 2,5 o un número tan próximo a él como se quiera, porque entre 
ellos hay infinitos números. 
Figura 1.11. Segmento de recta.
A menudo resulta más práctico usar una caracterización similar a la usada 
en la definición de la mediana, para abordar en particular los casos discretos 
en que no es aplicable la definición. 
El percentil de orden P de una variable X es el puntaje xP tal que por debajo 
de él se halla a lo sumo el P% y por encima de él a lo sumo el (100 – P)% de 
los valores de X. 
Observaciones:
1. Los percentiles se denominan también cuantiles.
2. La mediana coincide con el percentil de orden 50. 
3. Se denominan cuartiles los percentiles de órdenes múltiplos de 25.
4. Se denominan deciles los percentiles de órdenes múltiplos de 10.
 En los casos, 3 y 4, se incluyen los percentiles de órdenes extremos 0 
y 100, pero se acostumbra a llamar primer cuartil o cuartil inferior al 
percentil de orden 25 y tercer cuartil o cuartil superior al percentil de 
orden 75, por su amplio uso, ignorando los cuartiles de orden 0 y 100. 
En este caso la mediana constituye el segundo cuartil. 
5. En la teoría de probabilidades se considera la proporción o probabilidad 
p (minúscula) comprendida entre 0 y 1 y se habla entonces del percentil 
de orden p que concide con el definido respecto al porcentaje P pues 
se tiene que P = np. Por ejemplo el percentil de orden 0,95 será igual a 
nuestro percentil de orden 95. 
Ejemplo 1.8:
Con los datos de la tabla 1.10 del ejemplo 1.5, ordenados por fila y acom-
pañados del porcentaje que acumula cada uno, se obtiene:
312% 364% 366% 378% 3910% 4112% 4114% 4216% 4218% 4220%
4222% 4324% 4426% 4428% 4430% 4432% 4434% 4436% 4438% 4540%
4542% 4544% 4546% 4548% 4650% 4652% 4654% 4656% 4658% 4760%
Bioestadística cualitativa.indd 29 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
30
472% 474% 4866% 4868% 4870% 4872% 4974%
 
4976%$
5078% 5080%
5182% 5284% 5286% 5388% 5390% 5592% 5594% 5696% 5798% 59100%
Por ser 50 números cada número de ellos acumula un 2 % del total de nú-
meros, por tanto, el percentil de orden 80 está entre los números 50 y 51, que 
ocupan las posiciones 39 y 40 los dos 50 y la posición 41 el 51.
El 50 tiene por debajo 38 números que representan el 76 % del total, y por 
encima 10 números, que representan el 20 % del total.
El 51 tiene por debajo 40 números que representan el 80 % del total, pero 
por encima tiene 9 números que representa el 18 % del total 50.
Luego, según la definición ninguno es el percentil de orden 80. Para resolver 
el problema se utiliza la caracterización dada después de la definición, y según 
ella ambos números 50 y 51 son percentiles de orden 80 porque cada uno tiene 
por debajo a lo sumo el 80 % y por encima a lo sumo el 20 % de los datos. Si 
tuviera sentido promediarlos se obtendría una solución mejor diciendo que el 
percentil de orden 80 es , pero no necesariamente 50,5 es 
admisible, pues no es un número de la lista. 
Problema propuesto 1.5:
Diga cuáles son los percentiles de órdenes 0,50; 0,90 y 0,25 de los siguientes 
conjuntos de datos:
1. Los puntos del segmento de recta de la figura 1.11. 
2. 2, 4, 7, 9, 11. 
3. A, B, C, D, E, E, F, F, F, G, asumiendo el orden alfabético.
Respuestas: 
1. X50 = 2,5; X90 = 4,5; X25 = 1,25 (exactos por ser continuo el conjunto 
de datos).
2. X50 = 7; X90 = 11; X25 = 4.
3. X50 = E; X90 está entre F y G (es F o G); X25 = C.
1.7. Indicadores de dispersión
1.7.1. Recorrido o amplitud 
En un conjunto de datos numéricos es igual a la diferencia entre su valor 
máximo y su valor mínimo, por ejemplo, el recorrido de los 50 números de la va-
riable EdC de la matriz DatosM2 de la tabla 1.3 es igual a 20,51 – 1 = 19,51.
Bioestadística cualitativa.indd 30 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
31
1.7.2. Recorrido intercuartílico
En un conjunto de datos numéricos es igual a la diferencia entre su percentil 
de orden 75 y su percentil de orden 25, es decir, entre el sus cuartiles tercero y 
primero. Por ejemplo, el recorrido intercuartílico de los la variable EdC de la ma-
triz DatosM2 de la tabla 1.3 es igual a la diferencia entre 12,22 − 7,27 = 4,95. 
1.7.3. La varianza
Es igual a la media de las diferencias cuadráticas de cada dato respecto a 
la media del conjunto, o sea:
∑
=
−=
n
i
i XXn
S
1
22 )(
1
1.7.4. Desviación estándar
Es igual a la raíz cuadrada de la varianza.
La varianza y la desviación estándar exigen escalas de cuantificación de 
intervalo o razón. Son los mejores indicadores de dispersión pero para varia-
bles en estas escalas. De ella dependen el coeficiente de variación y el error 
estándar de la media. La varianza se denota por S2 o por V(X) y se tiene que la 
desviación estándar:
∑
=
−=
n
i
i XXn
S
1
2)(
1
 
Donde S y S2 son indicadores de dispersión absolutos.
1.7.5. Coeficiente de variación
Es igual a la desviación estándar entre la media, o sea: 
X
S , es un indicador relativo
de dispersión, se acostumbra a multiplicarlo por 100 y expresarlo como porcentaje.
1.7.6. Gráficas de cajas y bigotes
También conocidos como de cajas y alambres, reflejan la distribución de 
los cuartiles mínimo y máximo en los extremos de los bigotes, los percentiles 
de órdenes 25 y 75 en los extremos de la caja y la mediana dentro de la caja. 
Se usa también con los indicadores media dentro de la caja, y la media más 
y menos funciones de la desviación estándar en los extremos de la caja y de 
los bigotes. También se puede construir con la media más y menos desviación 
estándar (SD) y más y menos 1,96SD y con la media más y menos el error 
estándar (EE) y la media más y menos 1,96EE.
Bioestadística cualitativa.indd 31 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
32
Por ejemplo, para las variables EV1, EV2, EV3, CI1, CI2 y CI3 de la matriz 
DatosM2 de la tabla 1.3, se pueden construir estas gráficas individuales, como 
las de la figura 1.12, de las tres variables en escalas ordinales comparables EV1, 
EV2, EV3 con la mediana, la diferencia entre los percentiles de órdenes 75 y 
25 y el recorrido, o sea, la diferencia del máximo y el mínimo o percentiles de 
orden 100 menos el de orden 0. 
Figura1.12. Gráfica de cajas y bigotes de EV1, EV2 y EV3.
En la figura 1.12 se observa en EV3 que el mínimo coincide con el percen-
til 25 y que EV2 es simétricas respecto a la mediana, no así EV1 que está un 
poco desplazada hacia los valores altos. Los valores de EV2 entre los cuartiles 
inferior y superior están bastante dispersos, al igual que los valores de EV1 
comprendidos entre el mínimo y el primer cuartil y los de EV3 comprendidos 
entre el tercer cuartil y el máximo.
Para las tres variables en escalas de intervalo o razón CI1, CI2 y CI3 cada 
gráfica de la figura 1.13 muestra la media y la media más menos el error estándar 
de la media, media ± SE, y la media más menos el producto de 1,96 por el errror 
estándar de la media, media ± 1,96SE. También se observan distintos recorridos 
de las tres variables, en particular los valores de CI1 difieren notablemente de 
los de CI2 y de CI3. Se puede decir que las tres son simétricas. La de menor 
dispersión es CI3 y la de mayor dispersión CI2.
Problema propuesto 1.6: 
Construya las gráficas de cajas y bigotes apropiadas para la variable GRM 
y EdC de la matriz de DatosM2 (tabla 1.3).
Bioestadística cualitativa.indd 32 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
33
Figura 1.13. Gráfica de cajas y bigotes de CI1, CI2 y CI3.
1.8. Conjuntos, matrices, ficheros o archivos de datos en las 
diferentes escalas
Es costumbre presentar los conjuntos de datos, obtenidos en las investiga-
ciones en forma tabular o matricial por columnas y filas, y en la terminología 
computacional llamarles ficheros, archivos de datos y bases de datos. Un ejemplo 
de tal matriz de datos es la tabla 1.3 con el nombre de DatosM2, aunque también 
se mostrará otro que se utilizará fundamentalmente para problemas propuestos 
y evaluaciones. Se trata de modelos de matrices de datos de investigaciones 
experimentales donde se presentan variables medidas en los cuatro tipos de 
escalas, variables de conteo y variables discretas y continuas. Tales matrices 
prestan un gran servicio puesto que representan un resumen, relativamente fácil 
de manipular, de una gran cantidad de puntajes de mediciones y registros de 
observaciones con muy poca o ninguna pérdida de información. Estas matrices 
de datos prestan una gran ayuda en la preparación de la clase porque el maestro 
no tiene necesariamente que buscar datos apropiados para ejemplificar, con estos 
se pueden ejemplificar casi todos los casos de una, dos y más de dos poblaciones, 
en los casos de muestras independientes e igualadas en cada una de las escalas 
de cuantificación. 
Las variables repetidas terminadas en números distintos corresponden a 
registros efectuados en distintos momentos o a muestras apareadas o igua-
ladas.
Bioestadística cualitativa.indd 33 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
34
Observación: Para cerrar el estudio de las característica o indicadores numé-
ricos de una variable, un ejemplo de otro aspecto de mucho interés, que debemos 
tomar en cuenta, relacionado con la forma o el procedimiento necesario, para 
obtener semejantes matrices de datos, se puede consultar en el epígrafe 5.7.
La tabla 1.17, denominada matriz de DatosMT, contiene los datos de una 
muestra aleatoria de 50 pacientes de un área de salud. 
P1, P2 y P3 indican las tres patologías sufridas en tres distintos momentos 
de su vida.
G1, G2 y G3 indican el grado correspondiente de cada una de ellas. 
T1, T2 y T3 el tiempo de recuperación en horas expresados con dos decimales. 
Tabla 1.17. Matriz de datos DatosMT
Grupo Sexo P1 P2 P3 G1 G2 G3 T1 T2 T3
B M E D D B RB R 84,19 93,25 84,59
A F F D E RB B MB 72,67 68,35 72,67
B M E E E MB MB MB 86,89 86,89 86,89
A F F E E MB MB R 88,97 69,33 78,97
A F D D D RB RB RB 71,45 71,45 71,45
B M D E E R E B 68,55 74,58 70,01
B M F F E MB MB RB 76,28 75,86 76,28
A F F F E B B B 72,56 72,56 65,89
B M E E E B B B 72,45 72,45 72,45
A F F F E E E E 75,88 75,88 75,88
A F D D D E R RB 84,41 90,51 84,41
B M F F D B E RB 90,96 75,6 90,96
B M E E E MB MB MB 75,46 75,46 75,46
B M D D D E M MB 77,88 75,92 78,87
B M E D E RB MB RB 79,81 76,81 79,81
C M F F E E RB R 72,84 86,43 72,84
C M D D E MM MM MM 70,76 70,76 70,76
A F F D E MB R RB 81,92 79,43 81,92
A F F E E RB RB R 76,78 87,06 76,78
C M E E E MB MB MB 86,91 86,91 86,91
C M E E E MB MB MB 86,96 86,96 80,96
C M D E E E B R 83,16 80,94 83,16
C M D D E M E B 72,48 74,86 72,48
A F D E E MB B MB 85,23 79,86 85,23
Bioestadística cualitativa.indd 34 25/06/2010 12:19:46 p.m.
http://booksmedicos.org
35
A F E F D MB R R 68,43 82,3 68,43
C M F D D M E B 75,86 83,05 75,86
C M E E D R MB B 79,83 73,53 79,83
A F D D D MB MB MB 86,73 86,73 86,73
A F F F D E R RB 87,66 86,82 87,66
A F D D E MB RB E 85,67 71,79 85,67
A F F F D MB R B 83,55 81,8 84,45
C M E F E B MB RB 77,59 96,01 77,59
A F F F E B B B 72,56 72,56 72,56
C M D F D E RB RB 77,1 76,36 77,1
C M F F E MB B B 66,29 75,59 66,29
A F D D E R R R 76,76 76,76 76,76
B F D E D RB RB R 86,6 77,27 86,6
B F F F E R R RB 82,08 75,35 82,08
C M F E E B RB B 83,27 82,83 83,27
C M D D D MB R B 82,57 70,77 82,57
C M D D D RB MB R 73,96 74,07 74,44
B F E E E MB MB MB 75,46 75,46 75,46
C M E E E MB MB MB 75,88 75,88 75,88
B F D D D RB RB RB 71,45 71,45 71,45
B F D D D MB MB MB 86,74 86,74 86,74
C M F F E E RB B 82,53 90,12 82,53
B F F F E B B B 86,62 86,62 86,62
C M E E E R RB RB 84,29 86,99 84,29
B F D E D B B RB 83,15 88,78 83,15
B F F F E E E E 75,88 75,88 75,88
1.9. Indicadores de correlación
Hasta ahora se han introducido indicadores de una variable, pero cuando se 
tienen dos variables, además, de los indicadores de ambas por separado, aparecen 
nuevos indicadores como son los que miden el grado de variación conjunta, 
relación o asociación entre ellas. Las distribuciones de frecuencia bivariada, 
entre las regularidades que descubren están las de asociación o correlación 
entre las dos variables en cuestión. Ahora se introducirán tales indicadores de 
asociación o correlación pero primero se precisarán las notaciones. 
Bioestadística cualitativa.indd 35 25/06/2010 12:19:46 p.m.
http://booksmedicos.org
36
Sean (x1, y1), (x2, y2)..., (xn, yn) los valores observados del vector (X, Y), o 
sea, los valores de las variables X e Y apareados.
Se denotarán por X la media de los valores de X, por Y la media de los 
valores de Y, y por SX y SY, respectivamente, sus desviaciones estándar.
1.9.1. Covarianza y coeficiente de correlación lineal de Pearson
Si dos variables X e Y están en escalas de intervalo o razón se puede cal-
cular la covarianza entre X e Y que se denota por SXY o Cov(X, Y) y se define 
como:
( )( )yyxxS i
n
i
inXY −−= ∑
=1
1
Y también se puede expresar como yxyxS
n
i
iinXY −= ∑
=1
1 .
O sea, se puede expresar como la media de los productos menos el producto 
de las medias y es un indicador de variación conjunta de los dos conjuntos de 
valores en escala de intervalo o razón, pero su valor es absoluto, no es relativo, 
lo que dificulta su interpretación. 
El coeficiente de correlación lineal de Pearson r es igual al cociente de la 
covarianza de las dos variables entre el producto de las dos desviaciones es-
tándares. Mide lo mismo que la covarianza, pero carece de unidad de medida, 
es un índice relativo, por lo que su interpretación es más simple, sus valores 
están comprendidos entre –1 y 1 y solo es aplicable, al igual que la covarianza, 
cuando ambas variables están al menos en escala de intervalo:
YX
XY
SS
S
r =
 
Su fórmula de cálculo es:
∑ ∑∑ ∑
∑ ∑ ∑
= == =
= = =








−







−
−
=
n
i
n
i
ii
n
i
n
i
ii
n
i
n
i
n
i
iiii
yynxxn
yxyxn
r
1
2
1
2
1
2
1
2
1 1 1
Aparentemente más compleja, pero que como se puede ver se compone 
solo de las sumas de las columnas de la tabla 1.18, de modo que si se tiene que 
calcular a mano r basta solo con disponer los datos en una tabla como esta, 
apropiada incluso para verificaciones posteriores.
La tabla1.18 consta de una columna para cada variable x e y, una para el 
producto xy de ellas y dos más para los cuadrados de x e y.
Bioestadística cualitativa.indd 36 25/06/2010 12:19:47 p.m.
http://booksmedicos.org
37
Tabla 1.18. Datos para el cálculo del coeficiente de correlación lineal
x Y xy x2 y2
 1 7 7 1 49
–2 –4 8 4 16
 2 0 0 4 0
 3 9 27 9 81
4 12 42 18 146
Interpretación del valor de r:
Si Entre las variables x e y correlación lineal
r = 0 No hay. 
r = 1 Hay directa perfecta.
r = –1 Hay inversa perfecta.
0 < r < 1 Hay directa tanto mayor cuanto más cerca de 1 esté el valor 
de r.
–1 < r < 0 Hay inversa tanto mayor cuanto más cerca de –1 esté el 
valor de r
Correlación inversa significa que cuando una variable crece la otra decrece 
y correlación directa indica que ambas crecen o ambas decrecen juntas.
Cuando se tienen varias variables y se calculan los coeficientes de corre-
lación de cada par de ellas, se obtiene la llamada matriz de correlaciones. Por 
ejemplo, en la tabla 1.19 se muestra la matriz de correlaciones lineales de Pearson 
de las cuatro variables cuantificadas en escala de intervalo de la matriz de datos 
DatosM2 de la tabla 1.3. Observe que las correlaciones de la diagonal, las de 
cada variable consigo misma son iguales a 1, como es natural.
Tabla 1.19. Matriz de los coeficientes de correlación lineal de Pearson
EdC CI1 CI2 CI3
EdC 1,000000 0,018913 0,072709 –0,028053
CI1 0,018913 1,000000 0,978092 –0,091867
CI2 0,072709 0,978092 1,000000 –0,080511
CI3 –0,028053 –0,091867 –0,080511 1,000000
Si se observa detenidamente la matriz DatosM2 de la tabla 1.3, se nota que 
EdC tiene un valor ausente. La matriz de la tabla 1.19, fue obtenida con un 
software estadístico, para incluirla tuvo que eliminar la fila 29 que contiene el 
Bioestadística cualitativa.indd 37 25/06/2010 12:19:47 p.m.
http://booksmedicos.org
38
dato ausente y calcularla solo con los restantes puntajes de los 49 individuos. 
Los coeficientes en que no participa la variable EdC se pueden calcular aparte 
con la totalidad de los 50 valores y situarlos como en la tabla 1.20, con los co-
eficientes en que participa esta variable, calculados con 49 valores y los demás 
con 50 valores. Por otra parte, como la matriz de correlaciones es simétrica 
respecto a la diagonal principal solo se escribirá en lo adelante la matriz trian-
gular inferior, que incluye todos los posibles coeficientes de correlación entre 
las variables en cuestión y tiene la diagonal llena de unos. 
Tabla 1.20. Matriz triangular de correlaciones lineales de Pearson 
de DatosM2
EdC CI1 CI2 CI3
EdC 1,000000
CI1 0,018913 1,000000
CI2 0,072709 0,978250 1,000000
CI3 –0,028053 –0,092008 –0,080678 1,000000
En la tabla 1.20 se observa una alta correlación lineal de 0,97825 entre CI1 
y CI2, lo que indica que a mayor coeficiente de inteligencia 1, mayor el coefi-
ciente de inteligencia 2. En cuanto a correlación, también es interesante que 
no hay otros coeficientes ni moderadamente altos, además del hecho de que las 
correlaciones entre CI3 y las otras tres variables son todas inversas, además, el 
resto de las correlaciones directas.
Un criterio que permitirá mejorar la interpretación el valor del coeficiente 
de correlación lineal de Pearson consiste en que su cuadrado r2 coincide con 
el llamado coeficiente de determinación de la regresión múltiple cuyo valor 
representa la proporción de la variación de Y explicada por X. 
Entonces si r2 = 0,50 se podrá interpretar como que X explica un 50 % de 
la variación de Y. Si se conviene en considerar altas las correlaciones para las 
que r2 > 0,50 eso equivaldrá aproximadamente a que r > 7,07106781, de modo 
que se podrán considerar altas las correlaciones de los coeficientes r algo ma-
yores que 0,7.
1.9.2. Coeficientes de correlación parciales
A menudo se presenta la necesidad de considerar coeficientes de correlación 
parcial que describen la correlación que puede haber entre dos variables X1 y 
X2 independientemente de otras variables X3,..., Xk con k > 3 que puedan estar 
influyendo en la correlación. Así, por ejemplo:
Bioestadística cualitativa.indd 38 25/06/2010 12:19:47 p.m.
http://booksmedicos.org
39
Describe el grado de correlación entre X1 y X2 independientemente de, 
manteniendo constante a X3 o eliminando el posible efecto de X3 y se expresa 
en función de los coeficientes de correlación simples entre dos variables:
Describe el grado de correlación entre X1 y X2 independientemente de, o sea 
manteniendo constante a X3 y X4 o eliminando sus posibles efectos. Por ejem-
plo, el valor del coeficiente de correlación parcial entre CI1 y CI2 de la matriz 
DatosM2, eliminando el posible efecto de la variable EdC es 0,979484, ligera-
mente más pequeño que incluyendo el efecto de EdC, de modo que la presencia 
de EdC aumenta la correlación entre CI1 y CI2 pero en poca magnitud.
Estas fórmulas de coeficientes parciales son válidas, teniendo en cuenta las 
diferencias, tanto para los coeficientes de correlación lineal de Pearson como 
para los de rangos de Kendall.
1.10. Coeficientes de correlación de Spearman, punto biserial 
 y V de Cramér
El coeficiente de correlación lineal de Pearson solo es admisible para las 
escalas que admiten medias y varianzas, las de intervalo y las de razón. La nece-
sidad hizo que se fueran introduciendo en la estadística índices de correlación, o 
mejor llamados de asociación, válidos para las escalas ordinal y nominal. No se 
puede usar un coeficiente correspondiente a una escala superior si al menos una 
variable está en una escala inferior. Tampoco es conveniente usar uno corres- 
pondiente a una escala inferior cuando se puede utilizar uno correspondiente 
a una escala superior, puesto que en este caso se desaprovechará información 
contenida en los datos. En la tabla 1.21 se ofrecen los nombres de otros coefi-
cientes de correlación con la indicación de la escala que exigen.
Tabla 1.21. Coeficientes de correlación de Spearman, punto biserial 
y V de Cramér
Coeficiente de correlación Escala que exige
De rangos de Spearman Ambas ordinales
De rangos de Kendall Ambas ordinales
Punto biserial: Una dicotómica y otra de intervalo
V de Cramér Ambas nominales
φ (caso particular de V) Ambas dicotómicas
Donde solo una de las dos variables puede estar en una escala superior. 
Bioestadística cualitativa.indd 39 25/06/2010 12:19:47 p.m.
http://booksmedicos.org
40
1.10.1. Coeficiente de correlación de rangos de Spearman
La obtención de los rangos o rangueo de los valores de una variable consiste 
en asignar el rango 1 al menor valor de la variable, el rango 2 al menor valor de 
los restantes valores de la variable, el 3 al menor de los restantes y así sucesiva-
mente hasta que quede un único valor restante, al que se le asignará el rango n. 
Por ejemplo, en la tabla 1.22 aparecen rangueadas en las columnas encabezadas 
por rg los rangos de las variables X e Y de cuatro valores cada una:
Tabla 1.22. Rangueo de las variables X e Y
X rg(X) Y rg(Y) 
2
id
 1 2 7 3 1
–2 1 –4 1 0
 2 3 0 2 1
 3 4 9 4 0
Suma de cuadrados 2
Por rg(x) y rg(y) se han denotado los rangos de x y de y respectivamente.
Definición: se dice que existen ligaduras o ligas entre los valores de una o 
dos variables si algunos de sus rangos se repiten (son iguales) y en tal caso los 
valores repetidos se dice que están ligados.
En la tabla 1.23 aparecen elementos del cálculo del coeficiente de correlación 
de rangos de Spearman entre las variables x e y de la tabla 1.22. 
Tabla 1.23. Cálculos previos para obtener el coeficiente de rangos 
de Spearman
rg(x) rg(y) 
2
id
2 3 1
1 1 0
3 2 1
4 4 0
Suma de cuadrados 2
El coeficiente de correlación de rangos de Spearman entre dos variables 
X e Y es un índice de asociación aplicable a variables en escala ordinal. Se 
define por: 
nn
d
rg
n
i
i
−
−=
∑
=
3
1
26
1
Bioestadística cualitativa.indd 40 25/06/2010 12:19:48 p.m.
http://booksmedicos.org
41
Donde:di = rg(xi) – rg(yi), para i = 1, 2,..., n.
xi: representa el valor i-ésimo de la variable X y rg(xi) su rango. 
yi: representa el valor i-ésimo de la variable Y y rg(yi) su rango.
Para ello se ranguean inicialmente cada una de las variables para obtener, 
en la tabla 1.23, los rangos rg(x) y rg(y) y los cuadrados de sus diferencias para 
sumar estos y sustituir la suma en la fórmula del coeficiente de correlación de 
rangos de Spearman:
Calculando el coeficiente de correlación de Pearson para estos dos conjuntos 
de cuatro datos rangueados se obtiene también r = 0,80, gracias a que no hay 
ligaduras. 
Se podría interpretar que la correlación entre x e y es directa y alta, por 
ser el valor del coeficiente 0,8, bastante cercano a 1, pero cuatro es un tamaño 
muestral muy pequeño. 
El cálculo del coeficiente de correlación de rangos de Spearman como se 
vio en este ejemplo y se puede ver demostrado en el epígrafe 5.13 de este libro 
coincide con la fórmula del coeficiente de correlación lineal de Pearson apli-
cado a ambas variables rangueadas, siempre y cuando no haya ligaduras en los 
rangos de las variables. En este caso también se puede calcular por la fórmula 
del coeficiente de correlación lineal de Pearson sustituyendo en la misma xi 
e yi por sus rangos rg(xi) y rg(yi) respectivos. Con un software estadístico es 
muy sencillo porque consiste en calcular el coeficiente para las variables rg(xi) 
y rg(yi) en lugar de para xi e yi.
Ejemplo 1.9:
En la tabla 1.24 se han calculado los coeficientes de correlación de rangos 
de Spearman entre las variables GRM, EV1, EV2 y EV3 y entre ellas y cada una 
de las cuatro variables en escala de intervalo y por tanto ordinales también de 
la tabla 1.17.
Tabla 1.24. Matriz de correlaciones de rangos de Spearman
GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
GRM 1,0000 0,0917 –0,1760 –0,1768 0,8806
EV1 –0,1422 1,0000 –0,1041 0,1230 0,1230 –0,2024
EV2 0,0792 –0,2480 1,0000 –0,0317 –0,2454 –0,2460 –0,0175
EV3 0,7428 –0,0324 0,0500 1,0000 0,0919 –0,0789 –0,0805 0,7348
Bioestadística cualitativa.indd 41 25/06/2010 12:19:48 p.m.
http://booksmedicos.org
42
Se destacan en negrita el valor 0,8806 de la correlación entre GRM y CI3, 
0,7428 entre GRM y EV3 y 0,7348 entre EV3 y CI3, el resto de las correlaciones 
son bastante pequeñas. 
Agregando estos coeficientes a la tabla 1.20, de la matriz de correlaciones 
lineales de Pearson, esta se ampliará a seis variables con lo que se obtendrá 
la matriz de correlaciones lineales de Pearson y de rangos de Spearman de la 
tabla 1.25 con toda la información posible de la muestra. Los coeficientes de 
correlación entre cualquier otra variable y EdC se calcula solo con 49 datos, 
debido al valor ausente de EdC.
Tabla 1.25. Matriz de correlaciones lineales de Pearson y de rangos 
de Spearman
Sexo Raza GRM EV1 EV2 EV3 EdC CI1
CI2 CI3
Sexo 1,00
Raza - 1,00
GRM - - 1,00
EV1 - - –0,14 –0,25
EV2 - - 0,08 –0,03 1,00
EV3 - - 0,74 –0,10 0,05 1,00
EdC - - 0,09 0,12 –0,03 0,09 1,00
CI1 - - –0,18 0,12 –0,25 –0,08 0,02 1,00
CI2 - - –0,18 –0,20 –0,25 –0,08 0,07 0,98 1,00
CI3 - - 0,88 –0,25 –0,02 0,73 –0,03 –0,09 –0,08 1,00
Los coeficientes de correlación lineal de Pearson son los que aparecen en 
negrita y los demás son de rangos de Spearman. Los de la variable EdC con 
las demás variables se calcularon con solo 49 valores de las mismas por tener 
EdC un valor ausente.
Observe que faltan aún para completar la matriz de correlaciones los coefi-
cientes de correlación de sexo y raza con todas las demás 10 variables. 
Coeficiente de correlación de rangos de Spearman corregido por ligaduras
En el caso de que hayan ligaduras en las variables X, Y o ambas, de modo 
que los rangos no sean exactamente 1, 2, 3,..., n, sin repeticiones, la fórmula 
dada inicialmente del coeficiente de correlación de rangos de Spearman calcu-
lado por la fórmula dada no proporciona el verdadero valor de este coeficiente 
(la fórmula del coeficiente de correlación lineal de Pearson aplicada a los datos 
rangueados mejora la situación), y para corregir esta situación se introduce su 
fórmula corregida por ligaduras, que resulta algo más compleja de calcular, 
con la que se logra obtener el verdadero valor del coeficiente:
Bioestadística cualitativa.indd 42 25/06/2010 12:19:48 p.m.
http://booksmedicos.org
43
YX
YX
s TT
dTT
r
2
222 ∑−+=
Donde:
 y 
Además, t es el número de observaciones ligadas de un rango r de la variable 
x, en el primer caso y de la variables Y, en el segundo, para todo rango con ligas 
r. La suma se extiende a todos los rangos ligados r distintos de x en la primera 
suma y de Y en la segunda. 
La corrección no aporta diferencias sustanciales entre los valores obtenidos 
por las dos fórmulas si las ligaduras son pocas. 
Un criterio muy común en el rangueo, en presencia de ligaduras en los 
valores de una variable, recomienda, hacerle corresponder a los valores liga-
dos el promedio de sus posibles rangos, suponiendo que no hubiese ligadura 
alguna, claro, esto no elimina sino que mantiene las ligaduras pero con valores 
más adecuados. 
Ejemplo 1.10:
En la tabla 1.26 se ofrecen los resultados del cálculo del coeficiente de 
correlación de rangos de Spearman entre las variables X e Y con la corrección 
por ligaduras.
Tabla 1.26. Elementos para el calculo del coeficiente de Spearman 
corregido por ligaduras
X Y rg(X) rg(Y) 2id
 1 7 2 4 4 
–2 –4 1 1,5 0,25
 2 0 4 3 1 
 3 9 6 5,5 0,25
 2 –4 4 1,5 6,25
 2 9 4 5,5 2,25
Suma de cuadrados 14,00
 
para el rango 4 de X.
Para los rangos 1,5 y 5,5 de y que se repiten dos veces cada uno:
Bioestadística cualitativa.indd 43 25/06/2010 12:19:49 p.m.
http://booksmedicos.org
44
Aplicando la fórmula del coeficiente de correlación lineal de Pearson a los 
datos rangueados se obtiene también 0,5628.
En las tablas 1.24 y 1.25 los coeficientes de rangos de Spearman se calcu-
laron teniendo en cuenta la corrección por ligaduras, porque en los datos había 
gran número de ligaduras.
Coeficiente de correlación múltiple de rangos de Spearman 
El coeficiente de correlación múltiple de Spearman de k variables es igual al 
promedio de todos los posibles coeficientes de correlación entre las variables en 
cuestión. Lo constituye la media de los valores absolutos de las 
posibles combinaciones de los pares de variables que se pueden formar con las 
k variables. En el caso de nuestro ejemplo se tienen posibles
coeficientes de correlación de rangos de Spearman de entre las cuatro variables 
GRM, EV1, EV2 y EV3 en escala ordinal de la matriz DatosM2. Su valor en este 
caso es 0,075, que es muy bajo. Lo de múltiple se refiere a que es un indicador 
de asociación entre más de dos variables. Por ejemplo, el promedio de los coefi-
cientes de rangos de Spearman, de las ocho variables en escala al menos ordinal 
de la matriz DatosM2 de la tabla 1.3, es igual a 0,191472 y se halla promediando 
los 28 coeficientes de correlación de rangos de Spearman entre ellas. 
Problema propuesto 1.7: 
Construya la matriz de correlaciones de las cinco variables de la matriz 
de datos que se ofrece en la tabla 1.27. La primera variable ID representa la 
identificación de los individuos y sus valores van del 1 al 45. 
Tabla 1.27. Matriz de datos para el problema propuesto 1.7
ID Sexo GRM EdC CI EV
1 M Ligero 2,5 60 3
2 F Moderado 6 42 4
3 M Grave 8,5 27 5
4 F Severo 8,5 –20 6
5 F Ligero 14 60 5
Bioestadística cualitativa.indd 44 25/06/2010 12:19:49 p.m.
http://booksmedicos.org
45
6 F Ligero 6 60 4
7 M Moderado 8,5 42 3
8 F Moderado 19 42 6
9 F Ligero 14 60 5
10 F Ligero 6 60 4
11 M Moderado 8,5 42 3
12 M Moderado 19 42 6
13 M Ligero 2,5 60 3
14 M Moderado 6 42 4
15 F Grave 8,5 27 5
16 M Severo 8,5 -20 6
17 M Ligero 2,5 60 3
18 M Moderado 6 42 4
19 M Grave 8,5 27 5
20 M Severo 8,5 -20 6
21 M Ligero 14 60 5
22 F Ligero 6 60 4
23 F Moderado 8,5 42 3
24 F Moderado 19 42 6
25 M Ligero 2,5 60 3
26 F Moderado 6 42 4
27 F Grave 8,5 27 5
28 M Severo 8,5 –20 6
29 F Ligero 14 60 5
30F Ligero 6 60 4
31 M Moderado 8,5 42 3
32 M Moderado 19 42 6
33 M Ligero 2,5 60 3
34 F Moderado 6 42 4
35 M Grave 8,5 27 5
36 M Severo 8,5 –20 6
37 M Ligero 14 60 5
38 M Ligero 6 60 4
39 M Moderado 8,5 42 3
40 M Moderado 19 42 6
41 M Ligero 2,5 60 3
42 F Ligero 14 60 5
43 F Moderado 6 42 4
44 F Ligero 6 60 4
45 M Grave 8,5 27 5
Bioestadística cualitativa.indd 45 25/06/2010 12:19:49 p.m.
http://booksmedicos.org
46
 1.10.2. Coeficiente de correlación punto biserial
El coeficiente de correlación punto biserial es una índice de asociación 
aplicable a dos variables de las cuales una es dicotómica y la otra está en escala 
de intervalo. Viene definido por:
Donde: 
Y: representa la variable en escala de intervalo.
P: es la proporción de uno de los valores en la variable dicotómica X.
Q: es la proporción del otro valor en la variable dicotómica X, q = 1 – p.
pY : representa la media de los valores de Y correspondientes a los valores 
de X cuya proporción es p en la variable dicotómica X.
qY : representa la media de los valores de Y correspondientes a los valores 
de X cuya proporción es q en la variable dicotómica X.
Ejemplo 1.11:
Para los cuatro pares de puntos siguientes:
x 0 1 0 1
y 15 12 13 12
Se tiene que p es la proporción de pares con x = 0 y por tanto 5,0
4
2 ==p 
y q es la proporción de pares con x = 1 y por tanto 5,0
4
2 ==q .
 
 
Sy ≈ 1,22
Lo que indica una correlación bastante alta, pero cuidado que los datos son 
solo cuatro y para pocos datos la correlación debe ser muy alta para la estimación 
en base a ella de la correlación poblacional sea confiable. 
Ejemplo 1.12:
Con más datos, he aquí el cálculo del coeficiente de correlación punto biserial 
entre el sexo y EdC para los datos de la matriz de DatosM2 de la tabla 1.3. 
Bioestadística cualitativa.indd 46 25/06/2010 12:19:50 p.m.
http://booksmedicos.org
47
Para ver como se facilita el cálculo de este coeficiente con Microsoft Excel 
consulte el coeficiente de correlación punto biserial en el epígrafe 5.1.5.
Problema propuesto 1.8:
Calcule el coeficiente de correlación de la variable sexo con la variable CI1 
de la tabla 1.3, archivo DatosM2.
1.10.3. Coeficiente de correlación V de Cramér
Para calcular este coeficiente se requiere previamente construir una tabla 
de frecuencias bivariadas de un vector (A, B), como la tabla 1.28 en que los 
C niveles B1, B2,..., BC del factor B (valores de la variable B) encabezan las 
columnas y los r niveles A1, A2,..., Ar del factor A (valores de la variable A) 
encabezan las filas.
Tabla 1.28. Distribución bivariada de frecuencias del vector (A, B)
A\B B1 B2 ··· Bc n·j
A1 o11 o21 ··· oc1 n·1
A2 o12 o22 ··· oc2 n·2... ... ... ... ... ...
Ar o1r o2r ··· ocr n·r
ni· n1· n2· ··· nc· n··
Donde:
oij: es la frecuencia absoluta de la celda ij-ésima que a partir de ahora se 
denominará frecuencia observada de individuos clasificados en el nivel i-ésimo 
del factor A y el nivel j-ésimo del factor B, o sea, en celda (i, j)-ésima de la tabla 
(para i = 1, 2,..., c; j = 1, 2,..., r).
∑
=
• =
r
j
iji on
1
: representa la suma de la fila i-ésima y la frecuencia absoluta de Ai.
∑
=
• =
c
i
ijj on
1
: representa la suma de la columna j-ésima y la frecuencia abso-
luta de Bj.
∑∑
=
•
=
••• ===
c
i
i
r
j
j nnnn
11
Representa la suma de las frecuencias de todas las celdas de la tabla.
Para el cálculo del coeficiente de correlación V de Cramér y para otros 
métodos inferenciales se estiman, si no se conocen, las llamadas frecuencias 
esperadas eij por la fórmula n
nn
e jiij
••= , frecuencia esperada de la celda (i, j),
 para i = 1, 2,..., c y j = 1, 2,..., r. 
Bioestadística cualitativa.indd 47 25/06/2010 12:19:50 p.m.
http://booksmedicos.org
48
De las fórmulas anteriores se tiene que:
∑∑∑∑
==
••
=
•
••
•
=
=====
r
j
ij
r
j
jir
j
j
ii
i
c
j
ij en
nn
n
n
nn
n
nnor
1111
 es la suma de la fila
 i-ésima de eij.
∑∑∑∑
==
••
=
•
••
•
=
=====
c
i
ij
c
i
ji
c
i
i
jj
j
c
i
ij en
nn
n
n
n
n
n
n
no
1111
 es la suma de la columna
 j-ésima de eij.
O sea, que las sumas de las frecuencias observadas y esperadas tanto de 
filas como de columnas filas son iguales. 
Entonces, de la distribución de frecuencias bivariada del vector (A, B) se 
pueden obtener, en las tablas 1.29 y 1.30, las distribuciones de cada una de las 
variables A y B, llamadas, entonces distribuciones marginales de (A, B).
Tabla 1.29. Distribución de frecuencias de A
A A1 A2 ··· Ar
n·j n·1 n·2 ··· n·r
Tabla 1.30. Distribución de frecuencias de B
B B1 B2 ··· Bc
ni· n1· n2· ··· nc·
El coeficiente de correlación V de Cramér es un índice de asociación entre 
dos variables en escalas nominales. Se define por:
)1(
2
−
χ=
kn
V
 
Donde:
: es el llamado estadígrafo ji cuadrado (ji es el nombre
de la letra griega χ, que algunos llaman también chi y porque en otros idiomas 
se escribe chi). 
k: representa el mínimo entre el número de filas y el número de co-
lumnas de la tabla de contingencia de donde se calculó el valor de 2χ .
El coeficiente V de Cramér toma valores comprendidos entre 0 y 
1, por lo que resulta fácil su interpretación, análoga a las de los otros 
coeficientes estudiados. 
Se puede probar, a partir de que las sumas de las frecuencias tanto 
observadas como esperadas son iguales y utilizando las propiedades de 
la suma que:
Bioestadística cualitativa.indd 48 25/06/2010 12:19:50 p.m.
http://booksmedicos.org
49
Ejemplo 1.13: 
En la tabla 1.31 se ofrecen las frecuencias observadas y esperadas nece-
sarias para el cálculo del valor de ji cuadrado entre las variables sexo y grado 
de retrazo mental agrupada esta última en solo dos clases: ligero o moderado 
una y severo o grave la otra, para los 50 individuos de la tabla 1.3.
Tablas 1.31. Frecuencias observadas para el problema del ejemplo 1.15
GRM
Frecuencias observadas
Masculino Femenino Total
L o M 16 16 32
S o G 14 4 18
Total 30 20 50
GRM: grado de retaso mental. L o M: ligero o moderado. S o G: severo o grave.
Para empezar a resolver el problema en la tabla 1.32 se calculan las fre-
cuencias esperadas.
Tabla 1.32. Frecuencias esperadas para la solución del ejemplo 1.15
GRM
Frecuencias esperadas
Masculino Femenino Total
L o M 19,2 12,8 32,0
S o G 10,8 7,2 18,0
Total 30,0 20,0 50,0
Por la fórmula más sencilla se tiene que:
= 13,3333 + 20 + 18,1481 + 2,2222 – 50 = 53,7037 – 50 ≈ 3,7037
Es baja la correlación entre estas dos variables. Los valores de V 
están comprendidos entre 0 y 1, ambos inclusive. Esta es la ventaja que 
tiene este coeficiente respecto a otros más conocidos como el llamado 
coeficiente de contingencia, que no alcanza nunca el valor 1.
Bioestadística cualitativa.indd 49 25/06/2010 12:19:51 p.m.
http://booksmedicos.org
50
Ejemplo 1.14:
Para calcular el coeficiente V de Cramér de las variables grado de retrazo 
mental y sexo de los 50 individuos de la tabla 1.3 que aparecen tabuladas en 
de la tabla 1.33.
Tablas 1.33. Frecuencias observadas de los datos del ejemplo 1.14
GRM
Frecuencias observadas
Masculino Femenino Total
L 6 6 12
M 10 10 20
S o G 14 4 18
Total 30 20 50
Primeramente se calculan, en la tabla 1.34, las frecuencias esperadas.
Tabla 1.34. Frecuencias esperadas correspondientes a las frecuencias 
observadas de la tabla 1.33
GRM
Frecuencias observadas
Masculino Femenino Total
L 7,2 4,8 12,0
M 12,0 8,0 20,0
S o G 10,8 7,2 18,0
Total 30,0 20,0 50,0
Para finalmente obtener: 
704,32 ≈χ , 
Como V ≈ 0,272, resulta bastante baja la correlación entre el sexo y el grado 
de retrazo mental. Resulta notable la coincidencia entre estos dos valores con 
los dos anteriores, pero es muy probable que se deba a la aproximación de los 
cálculos o la casualidad.
El caso más simple del coeficiente V, es aquel en que ambas variables son 
dicotómicas y la tabla de distribución de frecuencias bivariadas es, entonces, 
una tabla de dos filas por dos columnas como la 1.31. En este caso el coeficiente 
de correlación V de Cramérse denomina coeficiente también φ. 
1.10.4. Coeficiente φ 
Se denomina así al caso particular del coeficiente V de Cramér para dos 
variables dicotómicas o binarias, es decir, aplicado a tablas de dimensión 2 x 2, 
o sea, del tipo: 
Bioestadística cualitativa.indd 50 25/06/2010 12:19:51 p.m.
http://booksmedicos.org
51
A B
C D
φ es la letra griega llamada fi, su expresión, como coeficiente de correlación, 
se obtiene a partir de la siguiente expresión de ji cuadrado: 
Y como k es igual a 2 y por tanto k – 1 = 1 en la fórmula del coeficiente V 
de Cramér se tiene que: 
n
V
2χ= y 
Ejemplo 1.15:
Cálculo del coeficiente de correlación φ entre la variable grado de retrazo 
mental recodificada a 0 para leve o moderada y 1 para severa o grave, y la 
variable sexo de la tabla 1.31.
Entonces la tabla obtenida es:
16 14
16 4
Donde A = 16, B = 14, C = 16 y D = 4, AD – BC = 64 – 224 = –160
n(AD – BC)2 = 50(–160)2 = 1 692 800 
(A + B)(C + D)(A + C)(B + D) = 30(20)32(18) = 345 600
De modo que:
3,7037
345600
12800002 ≈=χ
 
Que coincide con el obtenido por la fórmula original de V.
Observaciones:
1. En el caso de variables dicotómicas numéricas el coeficiente φ, coincide 
con el valor absoluto del coeficiente de correlación lineal de Pearson 
aplicado a los valores de las dos variables. Así, por ejemplo, poniendo 
femenino igual a 0 y masculino igual a 1, ligero o moderado igual a 
0 y severo o grave igual a 1 y calculando φ mediante la fórmula del 
coeficiente de correlación lineal de Pearson, se obtiene el mismo valor 
0,2722 para φ.
Bioestadística cualitativa.indd 51 25/06/2010 12:19:51 p.m.
http://booksmedicos.org
52
2. Para el cálculo de χ2 existe también la llamada corrección por 
continuidad o de Yates que se aplica por lo general cuando se utiliza una 
distribución continua como aproximación en el caso de datos discretos 
y consiste en usar el estadígrafo χ2 corregido. En muestras grandes no 
habrá gran diferencia entre los valores del estadígrafo corregido y no 
corregido. La mayor utilidad de la corrección está en los casos en que 
el valor de V está muy próximo al límites de ser significativo (epígrafe 
1.11) y en las tablas de contingencia de 2 x 2.
Un criterio más práctico consiste en aplicarla cuando la tabla contiene solo 
frecuencias observadas pequeñas, de modo que algunas frecuencias esperadas 
resultan menor que 10. He aquí su expresión:
 para el caso general.
, para el caso de 2 x 2.
Por ejemplo, para los datos de las tablas 1.31 y 1.33 se obtienen, respecti-
vamente, aplicando esta corrección χ2 ≈ 3,6806 y V ≈ 2,3264, valores próximos 
a los obtenidos sin las correcciones de Yates, como era de esperar.
Problema propuesto 1.9:
Calcule los coeficientes de correlación entre la variable sexo y la variable 
EV1 recodificando esta última a solo tres valores representando tanto al 1 como 
al 2 por A, el 3 y el 4 por B y el 5 y el 6 por C o en lugar de A, B y C se pueden 
usar cualesquiera otros tres símbolos. Los resultados se referirán a la muestra 
del la matriz DatosM2 de la tabla 1.3.
Después de estudiar estos cuatro coeficientes de correlación se está en 
condiciones de calcular en la tabla 1.35 la matriz de correlaciones de todas las 
10 variables de la matriz DatosM2.
Tabla 1.35. Matriz de correlaciones de las 11 variables de la matriz 
DatosM2
Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
Sexo 1,00
Raza 0,13 1,00
GRM 0,27 0,31 1,00
EV1 0,39 0,54 –0,14 1,00
EV2 0,33 0,37 0,08 –0,14 –0,25
EV3 0,31 0,31 0,74 0,08 –0,03 1,00
EdC 0,32 0,46 0,10 0,74 –0,10 0,05 1,00
Bioestadística cualitativa.indd 52 25/06/2010 12:19:52 p.m.
http://booksmedicos.org
53
CI1 0,28 0,63 –0,18 0,09 0,12 –0,03 0,09 1,00
CI2 0,30 0,62 –0,18 –0,18 0,12 –0,25 –0,08 0,02 1,00
CI3 –0,42 0,67 0,88 –0,18 –0,20 –0,25 –0,08 0,07 0,98 1,00
Como se obtiene:
1. Los coeficientes entre las variables EdC, CI1, CI2 y CI3 son lineales de 
Pearson por estar en escala de intervalo ambas.
2. Los coeficientes entre las variables GRM, EV1, EV2 y EV3 y entre estas y 
EdC, CI1, CI2 y CI3 son de rangos de Speraman por estar una en escala 
ordinal y la otra en escala igual o superior.
3. Los coeficientes entre las variables sexo, GRM, EV1, EV2 y EV3 y entre 
raza, sexo, GRM, EV1, EV2, EV3, EdC, CI1, CI2 y CI3 son V de Cramér 
por haber entre ellas una variable en escala nominal. Los coeficientes 
entre raza y EdC, CI1, CI2 y CI3 presentan una dificultad adicional que 
consiste en que hay que recodificar estas últimas variables de modo que 
se reduzcan notablemente sus valores distintos, porque no es buena una 
tabla de dos o tres filas por 47 o 50 columnas. Para sexo contra CI1, CI2 
y CI3 a continuación se ofrece otra solución mejor. 
4. Los coeficientes entre las variables sexo y EdC, CI1, CI2 y CI3 son 
punto biserial por ser entre una variable en escala dicotómica y la otra 
de intervalo o razón. Los coeficientes punto biserial se pueden calcular 
en el Excel bastante fácilmente, como se orienta en el epígrafe 5.1.5. 
Para el cálculo de los cuatro coeficientes V de Cramér de la variable raza 
con las variables EdC, CI1, CI2 y CI3 se aplicaron las recodificaciones 
que aparecen en la tabla 1.36.
Tabla 1.36. Recodificación de las variables EdC y CI1, CI2 y CI3
EdC
de: Recodificado a
CI1, CI2 y CI3
de: Recodificado a
1 a 5 1 10 a 20,5 1
5,01 a 10 2 20,51 a 30,5 2
10,01 a 15 3 30,51 a 40,5 3
15,01 al 20 4 40,51 a 50,5 4
20,01 al 25 5 50,51 a 60,5 5
60,51 a 70,5 6
70,51 a 80,5 7
80,51 a 90,5 8
Para construir esta matriz de correlaciones más rápidamente se calcula pri-
mero con un software estadístico las matriz de correlaciones lineales de Pearson 
de todas las variables, y se le eliminan todos los valores repetidos que quedan 
Bioestadística cualitativa.indd 53 25/06/2010 12:19:52 p.m.
http://booksmedicos.org
54
por encima de la diagonal de 1, a continuación se sustituyen los coeficientes 
de correlación lineales de Pearson entre las variables sexo, raza, GRM, EV1, 
EV2 y EV3 dejando de ellas solo los 1 de la diagonal situando los coeficientes 
de rangos de Spearman en las celdas correspondientes a las correlaciones entre 
GRM, EV1, EV2 y EV3 y entre estas y EdC, CI1, CI2 y CI3. Luego se recodifican 
EdC, CI1, CI2 y CI3 a pocos valores y se hallan los coeficientes de correlación 
V de Cramér de raza con todas las demás variables y de sexo con GRM, EV1, 
EV2 y EV3 y se colocan los coeficientes obtenidos en sus respectivas celdas de 
la matriz original de las 11 variables.
1.11. Coeficientes de correlación de Kendall
Se presentarán tres coeficientes de correlación de Kendall, el primero 
constituye una alternativa del coeficiente de rangos de Spearman, el segundo 
un coeficiente de correlación parcial y el tercero un coeficiente de correlación 
múltiple o de concordancia para variables en escalas ordinales. 
1.11.1. Coeficiente de correlación de rangos de Kendall
Este coeficiente constituye un índice de asociación entre dos variables X e 
Y en escalas al menos ordinal similar al de Spearman pero no igual. Se define 
como:
)1(
2
−
=
nn
S
rK
Donde n representa el tamaño muestral y el valor de S se obtiene de la 
forma siguiente:
1. Se ranguean las variables X e Y por separado, manteniendo los pares 
(x, y), y luego se ordenan estos pares por los rangos de X. 
2. Para cada rango de Y se consideran los rangos situados a su derecha y:
a) S1 denotará el número de ellos que sean mayores que el rango de Y. 
b) S2 denotará el número de ellos que sean menores que el rango de Y. 
3. Se obtiene S = S1 – S2 correspondientes a los n rangos de Y.
4. Los rangos situados a la derecha de un rango, que no sean ni menores 
ni mayores, es decir, que sean iguales al rango en cuestión, se desechan, 
no se cuentan.
El coeficiente de rangos de Kendall es tan bueno como el de Spearman 
para medir el grado de asociación entre dos variables en escalas ordinales. 
Muchas veces se prefiere este último por simplicidad del cálculo. Se incluye 
Bioestadística cualitativa.indd 54 25/06/201012:19:52 p.m.
http://booksmedicos.org
55
ahora el coeficiente de Kendall para tener una alternativa y fundamentalmente 
porque existe una variante de él que permite medir la correlación parcial y otra 
la correlación múltiple.
Ejemplo 1.16:
Para calcular el coeficiente de rangos de Kendall de los datos de las variables 
X e Y de la tabla 1.37.
Tablas 1.37. Datos del ejemplo 1.16
Datos originales
X 1 –2 2 3
Y 7 –4 0 9
Se obtienen los rangos de estos valores o las variables X e Y en la tabla 1.38. 
Tabla 1.38. Rangos de las variables X e Y de la tabla 1.37.
Rangos
X 2 1 3 4
Y 3 1 2 4
Se ordenan los pares de rangos, según los valores de los rangos de X y se 
obtiene (1, 1), (2, 3), (3, 2) y (4, 4) lo que tubularmente se representa así:
X: 1 2 3 4
Y: 1 3 2 4
Se observa que a la derecha del rango:
1 de Y hay 3 rangos mayores que 1 (el 3, el 2 y el 4) y 0 
rangos menores que 1: 3 0
3 de Y hay 1 rango mayor que 3 (el 4) y 1 rango menor 
que 3 (el 2): 1 1
2 de Y hay 1 rango mayor que 2 (el 4) y 0 rangos menores 
que 2: 1 0
4 de Y hay 0 rangos mayores que 4 y 0 rangos menores 
que 4: 0 0
Sumas 5 1
S, la diferencia de las sumas de las dos columnas sumas: 4
Bioestadística cualitativa.indd 55 25/06/2010 12:19:53 p.m.
http://booksmedicos.org
56
Para estos mismos datos el coeficiente de Spearman resultó igual a 0,8, las 
diferencias se deben a que utilizan diferente tipo de información de los datos.
En caso de que se presenten ligaduras en una de las variables ofrece mejores 
resultados la fórmula rKc corregida de rK. Pero si en ambas variables se presentan 
ligaduras no se garantiza obtener un valor único de S y por tanto de rKc:
Para cada rango ligado de X:
∑ −= )1(ttTX , donde t es su número de observaciones ligadas.
Y para cada rango ligado de Y:
∑ −= )1(ttTY , donde t es su número de observaciones ligadas.
Ejemplo 1.17:
Cálculo del coeficiente de correlación de rangos de Kendall con esta 
corrección por ligaduras a partir de los datos de la tablas 1.39.
Tabla 1.39. Datos para el ejemplo 1.17
Datos originales
X 1 –2 2 9 6 7
Y 7 –4 0 9 –4 9
Se hallan, en la tabla 1.40, los rangos de las variables X e Y.
Tabla 1.40. Rangos de las variables X e Y de la tabla 1.39
Rangos
X 2 1 3 6 4 5
Y 4 1,5 3 5,5 1,5 5,5
Y ordenando por los rangos de X se obtiene la tabla 1.41.
Tabla 1.41. Rangos de Y ordenados por los rangos de X
Orden por rangos de X
X 1 2 3 4 5 6
Y 1,5 4 3 1,5 5,5 5,5
Bioestadística cualitativa.indd 56 25/06/2010 12:19:53 p.m.
http://booksmedicos.org
57
S = (4 + 0) + (2 − 2) + (2 − 1) + (2 − 0) + (0 − 0) + ( 0 − 0) = 7
TX = 0 TY = 2(2 – 1) + 2(2 – 1) = 4
1.11.2. Coeficiente de correlación parcial de rangos de Kendall
A veces se requiere calcular el grado de correlación entre dos variables 
en escala ordinal y se sabe que están, o que es posible que estén, a su vez 
correlacionadas con una tercera variable Z, que pudiera haber influido en el 
valor obtenido del coeficiente de correlación entre X e Y. Entonces puede ser 
provechoso librarlo de su influencia,es decir, eliminar su efecto. 
El coeficiente de correlación parcial de Kendall se define, al igual que el 
correspondiente coeficiente de correlación lineal parcial de Pearson por la 
relación:
Donde los coeficientes r que componen la fórmula son los correspondientes 
coeficientes de correlación de rangos de Kendall.
1.11.3. Coeficiente de concordancia de rangos de Kendall
Ya se ha tratado el problema de la relación entre dos variables en distintas 
escalas de cuantificación. También se mencionó el promedio de los valores 
absolutos de los posibles coeficientes de correlación de Spearman como ín-
dice de asociación o concordancia entre k variables. Ahora se va a considerar 
otro índice de correlación, asociación o concordancia entre k variables (k ≥ 2) 
relacionada con él.
Se trata del coeficiente de concordancia de rangos de Kendall, aplicable a 
variables en escalas ordinales y, en particular, en problemas de concordancia 
entre calificadores. Para k conjuntos de datos, el coeficiente de concordancia 
de rangos de Kendall, que se denota por rCK, es un índice de la divergencia 
de su concordancia con la concordancia perfecta, la máxima posible entre los 
calificadores. Un valor de rCK cercano a 1 indicará, entonces, alta concordancia 
y poca divergencia.
El coeficiente rCK se aplica a los datos que se puedan disponer en una distri-
bución bivariada de frecuencias como la de la tabla 1.42, en que las columnas 
están encabezadas por las variables (tratamientos, ítems) y las filas (rangueadas) 
por los calificadores.
Bioestadística cualitativa.indd 57 25/06/2010 12:19:53 p.m.
http://booksmedicos.org
58
Tabla 1.42. Distribución bivariada de frecuencias de k columnas-
tratamientos y filas rangueadas
Calificadores
Tratamientos
T1 T2 ··· Tk
C1 rgf(x11) rgf(x21) ··· rgf(xk1)
C2 rgf(x12) rgf(x22) ··· rgf(xk2)
···
··· ··· ···
···
Cn rgf(x1n) rgf(x2n) ··· rgf(xkn)
Sumas de rangos R1 R2 ··· Rk
Donde rgf(xij) indica rango por fila y representa el rango asignado por el 
calificador j al tratamiento i, para i = 1, 2,..., k y j = 1, 2,..., n. 
∑
=
=
n
i
iji xrgfR
1
)(
 
para i = 1, 2,..., n es la suma de la columna j-ésima columna
después de rangueadas las filas.
rCK se basa en la comparación de las sumas Ri de los rangos de las columnas 
i = 1, 2,..., k, si varias de ellas son iguales o muy semejantes esto indicará falta de 
concordancia entre los conjuntos rangueados, esto, es entre los calificadores. 
Se define por:
Donde:
k: es el número de (tratamientos).
n: el número de los calificadores.
R : la media de las k columnas de rangos R1 , R2 , ..., Rk, después de ran-
guear las filas.
S²: la varianza de las sumas de las columnas Ri después de ranguear las filas.
Ejemplo 1.18:
Tres ejecutivos de un hospital tienen la tarea de calificar, independiente-
mente, a seis solicitantes de trabajo sometidos a una prueba, asignándole un 
rango de 1 a 6. Los resultados aparecen en la tabla 1.43.
Tabla 1.43. Datos del ejemplo 1.18
Solicitante A B C D E F
Ejecutivo 1 1 6 3 2 5 4
Ejecutivo 2 1 5 6 4 2 3
Ejecutivo 3 6 3 2 5 4 1
Suma 8 14 11 11 11 8
Bioestadística cualitativa.indd 58 25/06/2010 12:19:54 p.m.
http://booksmedicos.org
59
Entonces:
 
 
Este número expresa el grado de concordancia entre las calificaciones de los 
tres ejecutivos y resulta bastante baja la concordancia entre las calificaciones o 
clasificaciones de los tres ejecutivos.
Observaciones: 
1. El promedio rSp, de los valores absolutos de todos los posibles 
coeficientes de correlación de rangos de Spearman, se puede considerar 
también un coeficiente de concordancia, está relacionado con rCK por 
la ecuación:
 
 De donde se puede obtener una fórmula para rCK en función de rSm:
 
2. En caso de que se presenten ligas en los rangos de un mismo calificador 
el valor de rCK resultará disminuido, por lo que, en el caso de que el 
número de ligas sea considerable se requiere una corrección por ligadura. 
Esta es la fórmula corregida: 
 
 Donde tj representa la cantidad de observaciones muestrales de la j-ésima 
ligadura del calificador i-ésimo para i = 1, 2,.. , k; j = 1, 2,..., n.
Bioestadística cualitativa.indd 59 25/06/2010 12:19:54 p.m.
http://booksmedicos.org
60
Problema propuesto 1.10:
Calcule los coeficientes de correlación de Kendall entre las variables en 
escala ordinal EV1, EV2 y EV3 del archivo DatosM2 de la tabla 1.3. Calcule 
también el coeficiente de correlación parcial de Kendall entre EV3 y EV2 eli-
minando el posible efecto de EV1 y el coeficiente de concordancia de Kendall 
de EV1, EV2 y EV3.
1.12. Valores críticos de los coeficientes de correlación
Algo que tiene interés por lo que aporta en la interpretación de los co-
eficientes de correlación son las pruebas de hipótesis de significación de los 
coeficientes de correlación que permiten decidir si en la población de donde 
procede la muestra en que se calculó el coeficiente de correlación hay o nocorrelación. 
Estas pruebas se estudiarán, pues ellas en algunos casos permiten, además, 
deducir valores críticos, de un coeficiente de correlación tales que si un valor 
muestral del coeficiente lo supera en valor absoluto se podrá decir entonces que 
se rechaza la hipótesis de que en la población de donde procede la muestra no 
hay correlación, lo que algunos expresan diciendo que la correlación o el valor 
del coeficiente de correlación es significativo. 
Esta expresión de significativo, si se dice con conocimiento de causa no 
está del todo mal, pero si no se sabe que viene de una prueba de esta hipótesis 
no se debe decir y menos aún interpretar de otra manera.
1. Para el coeficiente de correlación lineal de Pearson, la prueba de sig-
nificación utiliza un estadígrafo con distribución t de Student que se 
tratará en el epígrafe 4.2.5 y es válida también para el coeficiente de 
correlación de rangos de Spearman.
2. Para el coeficiente de correlación de rangos de Spearman se ofrece la 
tabla 1.44 de valores críticos para varios valores de n y de α y también 
es válida la prueba t de Student anterior.
3. Para el coeficiente de correlación punto biserial se ofrece la tabla 1.45 
de valores críticos.
Tabla 1.44. Valores críticos del coeficiente de correlación de rangos 
de Spearman
Valores de α
 n 0,001 0,005 0,010 0,025 0,050 0,100
 4 - - - - 0,8000 0,8000
 5 - - 0,9000 0,9000 0,8000 0,7000
Bioestadística cualitativa.indd 60 25/06/2010 12:19:54 p.m.
http://booksmedicos.org
61
 6 - 0,9429 0,8857 0,8286 0,7714 0,6000
 7 0,9643 0,8929 0,8571 0,7450 0,6786 0,5357
 8 0,9286 0,8571 0,8095 0,7143 0,6180 0,5000
 9 0,9000 0,8167 0,7667 0,6833 0,5833 0,4667
10 0,8667 0,7818 0,7333 0,6364 0,5515 0,4424
11 0,8364 0,7545 0,7000 0,6091 0,5273 0,4182
12 0,8182 0,7273 0,6713 0,5804 0,4965 0,3986
13 0,7912 0,6978 0,6429 0,5549 0,4780 0,3791
14 0,7670 0,6747 0,6220 0,5341 0,4593 0,3626
15 0,7464 0,6536 0,6000 0,5179 0,4429 0,3500
16 0,7265 0,6324 0,5824 0,5000 0,4265 0,3382
17 0,7083 0,6152 0,5637 0,4853 0,4118 0,3260
18 0,6904 0,5975 0,5480 0,4716 0,3994 0,3148
19 0,6737 0,5825 0,5333 0,4579 0,3895 0,3070
20 0,6586 0,5684 0,5203 0,4451 0,3789 0,2977
21 0,6455 0,5545 0,5078 0,4351 0,3688 0,2909
22 0,6318 0,5426 0,4963 0,4241 0,3597 0,2829
23 0,6186 0,5306 0,4852 0,4150 0,3518 0,2767
24 0,6070 0,5200 0,4748 0,4061 0,3435 0,2704
25 0,5962 0,5100 0,4654 0,3977 0,3362 0,2646
26 0,5856 0,5002 0,4564 0,3894 0,3299 0,2588
27 0,5757 0,4915 0,4481 0,3822 0,3236 0,2540
28 0,5660 0,4828 0,4001 0,3749 0,3175 0,2490
29 0,5567 0,4744 0,4320 0,3685 0,3113 0,2443
30 0,5479 0,4665 0,4251 0,3620 0,3059 0,2400
Tabla 1.45. Tablas de valores críticos para el coeficiente de correlación 
punto biserial
gl α gl α
n – 2 0,05 0,01 n – 2 0,05 0,01 
 1 0,997 1,00 24 0,388 0,496
 2 0,950 0,990 25 0,381 0,487
 3 0,878 0,959 26 0,374 0,478
 4 0,811 0,917 27 0,367 0,470
 5 0,754 0,874 28 0,361 0,463
 6 0,707 0,834 29 0,355 0,456
 7 0,666 0,798 30 0,349 0,449
 8 0,632 0,756 35 0,325 0,418
 9 0,576 0,708 40 0,304 0,393
Bioestadística cualitativa.indd 61 25/06/2010 12:19:55 p.m.
http://booksmedicos.org
62
gl α gl α
10 0,576 0,708 45 0,288 0,372
11 0,553 0,684 50 0,273 0,354
12 0,532 0,661 60 0,250 0,325
13 0,514 0,641 70 0,232 0,302
14 0,497 0,623 80 0,217 0,283
15 0,482 0,606 90 0,205 0,267
16 0,468 0,590 100 0,195 0,254
17 0,456 0,575 125 0,174 0,228
18 0,444 0,561 150 0,159 0,208
19 0,433 0,549 200 0,138 0,181
20 0,423 0,537 300 0,113 0,148
21 0,413 0,526 400 0,098 0,128
22 0,404 0,515 500 0,088 0,115
23 0,396 0,505 1000 0,062 0,081
Ejemplo 1.19: 
Verifique si hay correlación entre las variables sexo y CI1 en la población 
de donde procede la muestra aleatoria de la matriz DatosM2 de la tabla 1.3.
Solución: Como sexo está en escala nominal dicotómica y CI1, coeficiente 
de inteligencia 1 está en escala de intervalo la correlación adecuada es la de 
punto biserial. 
r·bis = 0,1803 n = 50 n – 2 = 48
Región crítica: r·bis > 0,273, valor crítico obtenido en la tabla 1.44, de valo-
res críticos para el coeficiente de correlación punto biserial, y como 0,1803 no 
supera a 0,273, no se puede afirmar que haya correlación entre estas variables 
en la población (0,1803 no es significativo). 
Observación: 
1. Para el coeficiente V de Cramér no existen tablas de valores críticos, pero 
existe la prueba ji cuadrado de independencia en tablas de contingencia, 
que se tratará en el epígrafe 3.2.2 y que si en ella se rechaza la hipótesis 
de independencia entonces se podrá afirmar que hay correlación en la 
población de donde proviene la muestra. 
2. Para el coeficiente de correlación de rangos de Kendall se ofrece la 
tabla 1.46 de niveles de significación para los valores de las sumas de 
rangos S para n < 10. 
3. Para el coeficiente de concordancia de rangos de Kendall para n < 8, 
se ofrece la tabla 1.47 de valores críticos de las varianzas de las sumas 
de rangos S2 para decidir si se puede afirmar que en la población hay 
Bioestadística cualitativa.indd 62 25/06/2010 12:19:55 p.m.
http://booksmedicos.org
63
correlación. Se decidirá esto si )(21
2 nSS α−> donde este último es el valor que ofrece la tabla.
 Para n > 7 sirve como prueba de significación de rCK la prueba de 
rangos de Friedman del epígrafe 4.3.2, en el sentido de que si se 
rechaza la hipótesis nula de que no hay diferencia entre las sumas de 
rangos de las poblaciones, entonces se decidirá que en la población hay 
concordancia.
Tabla 1.46. Valores de P{S > s}, para la S del coeficiente de correlación 
de rangos de Kendall
S
Valores de n
S
Valores de n
4 5 8 9 6 7 10
0 0,625 0,592 0,548 0,540 1 0,500 0,500 0,500
2 0,375 0,408 0,452 0,460 3 0,360 0,386 0,431
4 0,167 0,242 0,360 0,381 5 0,235 0,281 0,364
6 0,042 0,117 0,274 0,306 7 0,136 0,191 0,300
8 0,042 0,199 0,238 9 0,068 0,119 0,242
10 0,0083 0,138 0,179 11 0,028 0,068 0,190
12 0,089 0,130 13 0,0083 0,035 0,146
14 0,054 0,090 15 0,0014 0,015 0,108
16 0,031 0,060 17 0,0054 0,078
18 0,016 0,038 19 0,0014 0,054
20 0,0071 0,022 21 0,00020 0,036
22 0,0028 0,012 23 0,023
24 0,00087 0,0063 25 0,014
26 0,00019 0,0029 27 0,0083
28 0,000025 0,0012 29 0,0046
30 0,00043 31 0,0023
S representa el coeficiente de correlación de rangos de Kendall y s un valor particular.
Tabla 1.47. Valores críticos de S2 para en el coeficiente de concordancia 
de rangos de Kendall
Valores de S2 Valores de S
2 adicionales 
para n = 3
k n = 3 4 5 6 7 k S2 1 – α
 3 12,9 17,3 22,5 9 18,0 0,95
 15,1 20,5 26,5 9 25,3 0,99
 4 12,4 17,7 23,9 31,0 12 24,0 0,95
Bioestadística cualitativa.indd 63 25/06/2010 12:19:56 p.m.
http://booksmedicos.org
64
Valores de S2 Valores de S
2 adicionales 
para n = 3
k n = 3 4 5 6 7 k S2 1 – α
15,4 21,9 29,4 37,9 12 34,5 0,99
 5 15,7 22,1 30,4 39,5 14 27,9 0,95
20,1 28,5 38,2 49,1 14 40,6 0,99
 6 18,9 27,2 36,9 47,9 16 31,9 0,95
24,6 35,2 47,1 60,4 16 46,7 0,91
 8 16,0 25,4 36,7 49,8 64,7 18 35,9 0,95
22,3 34,3 48,5 64,7 82,8 18 52,9 0,99
10 20,0 32,0 46,2 62,8 81,6 0,95
28,4 43,8 61,8 82,3 105,3
15 29,9 48,2 70,0 95,1 123,6
43,7 67,5 95,4 126,4 161,4
20 39,9 64,5 93,7 127,4 165,5
59,0 91,5 128,2 170,4 217,4
Para cada valor de k, en la tabla se consideran los valores de arriba con nivel de significación 
de 0,05 y los de abajo con nivel significación de 0,01.
Ejemplo 1.20:
En el ejemplo desarrollado de rCK, se calcula S² = 4,25 y como k = 3, n = 6, en 
la tabla 1.47 se encuentra el valor 17,3 para un nivel de significación de 0,05, y 
entonces como el valor 4,25 de S2 no supera este valor en la población no hay 
concordancia entre tres los ejecutivos.
Muchos paquetes estadísticos ofrecen o destacan los coeficientes de corre-
lación significativos, es decir, para los cuales se rechaza la hipótesis de que en 
la población no hay correlación.
Observación: se reitera que afirmar que un coeficiente de correlación mues-
tral sea significativo expresa única y exclusivamente haber tomado la decisiónde rechazar la hipótesis de que en la población de donde provino la muestra a 
partir de la cual se calculó, hay correlación y al hacer la afirmación, como en 
toda decisión estadística, se corre el riesgo de equivocarse. 
La medición de este riesgo es un problema probabilístico. En la estadística 
inferencial se hacen estimaciones de parámetros con un nivel de confianza 
(probabilidad) dado y se tomarán decisiones acerca de la población sobre la 
base de la información muestral, acompañándola de la probabilidad de equivo-
carse al tomarla, De modo que una buena comprensión de esas estimaciones y 
decisiones requieren un conocimiento lo más completo posible de las teoría de 
probabilidades y de la teoría del muestreo.
Por lo pronto se tiene la definición: 
Bioestadística cualitativa.indd 64 25/06/2010 12:19:56 p.m.
http://booksmedicos.org
65
 La probabilidad de un suceso A es una medida de la posibilidad de su 
realización. 
Problema propuesto 1.11:
Diga si puede afirmarse que los coeficientes de correlación calculados en los 
problemas propuestos anteriores, en los casos posibles, son significativamente 
diferentes de 0.
1.13. Diseño de experimentos
Consiste en general en describir el experimento y en particular las condicio-
nes que se exigen y las que se preparan para observar y hacer posible la aplica-
ción de los métodos estadísticos y el procesamiento de los datos y en particular 
las pruebas de hipótesis en cuestión. En la estadística no paramétrica con más 
razón hay que tener en cuenta el diseño del experimento, por la influencia de 
la escala de cuantificación de los datos. 
La fuente fundamental de obtención de datos es la observación, que incluye 
la observación de experimentos diseñados o no y las respuestas a cuestionarios. 
En ellas se incluyen los registros de la observación del experimento, los que las 
distintas empresas llevan de sus trabajadores, medios materiales y servicios, así 
como con el propósito de adquirir información sobre algún asunto determinado 
y conlleva la planificación previa de la observación. 
El diseño de experimentos se refiere al planeamiento del experimento y 
su control, definiendo todas sus condiciones, tomando en cuenta los factores 
que pueden influir o confundir los resultados para eliminar su posible efecto. 
Parte de la observación, cuantificación, calidad de los datos y su procesamiento 
estadístico para las restantes fuentes mencionadas.
El diseño de experimentos tiene su terminología propia y en él es común 
el uso de algunos conceptos de partida tradicionales, muy relacionados con lo 
que debe hacerse en toda investigación experimental al diseñarla.
– Experimento: es un conjunto de condiciones bien definidas en que se 
observa el comportamiento de al menos una variable independiente.
– Variable: se considera un ente que puede tomar los distintos valores de 
un conjunto determinado no reducido a un elemento ni vacío. En los 
experimentos se requiere registrar lo que se cuantifica o mide y lo más 
común y sensato es registrarlo mediante variables. Si la variable es simple, 
no depende de los valores de otra variable entonces se denomina variable 
independiente, en caso contrario, si su valor depende de los de una o 
más variables se denomina entonces variable dependiente. Por ejemplo, 
la presión arterial de una persona se describe mediante dos variables, la 
Bioestadística cualitativa.indd 65 25/06/2010 12:19:56 p.m.
http://booksmedicos.org
66
que registra la presión sistólica y la que registra la diastólica, el estado de 
salud de un paciente se describe generalmente mediante varias variables 
independientes o dependientes, que se le registran y que pueden incluir 
o no la presión arterial, de modo que el estado de salud es una variable 
dependiente. En algunos casos la variable dependiente se denomina 
también variable respuesta. 
 Existen también variables llamadas exógenas o confusoras que son 
aquellas que se piensa que pueden causar algún efecto que puede 
hacer variar en alguna medida los valores de otras variables, como, por 
ejemplo, el momento del día en que se le suministra un medicamento 
a los pacientes. Incluyéndolas en diseño del experimento se pueden 
controlar, para eliminar su efecto.
– Tratamiento: se refiere a la variable cuyo efecto se desea medir. La 
palabra tratamiento es común en el trabajo académico, investigativo 
médico, agrícola y de otras especialidades. A menudo se presentan 
en varios niveles en cualquier escala de cuantificación, por ejemplo, 
distintas cantidades o dosis de un medicamento a aplicar (variable en 
escala ordinal, de intervalo o de razón, distintos medicamentos a aplicar 
(escala nominal) que pueden constituir los tratamientos.
– Unidad experimental: es la unidad menor a la que se le puede aplicar un 
tratamiento, por ejemplo una persona, una muestra (porción de tejido), 
un ratón, una colonia de bacterias, un objeto a la cual se le registra un 
valor de una variable. 
– Rendimiento: es una variable mediante la cual se determina el efecto 
del tratamiento sobre la unidad experimental, por ejemplo el grado de 
recuperación o mejoría experimentado por un paciente después de recibir 
un tratamiento. En otros textos al rendimiento se le denomina medida 
u observación.
– Error experimental: se presenta debido a dos fuentes principales: las 
diferencias individuales o inherentes a las unidades experimentales y la 
ausencia de uniformidad entre los tratamientos, que se puede presentar 
en el experimento. Se puede encontrar uno entre individuos u objetos 
y otro entre grupos. 
– Repetición: se denomina también reiteración o réplica cuando un nivel 
de tratamiento se aplica a más de una unidad experimental. Se dice que 
es completa o total cuando se repiten todos los niveles del tratamiento 
y parcial cuando solo se repiten algunos niveles. Permite verificar 
interacciones, hacer estimaciones y tomar decisiones en general y 
respecto al error experimental en particular.
– Aleatorización: consiste en la asignación aleatoria de las unidades 
experimentales a los niveles del tratamiento. Debe hacerse siempre que 
Bioestadística cualitativa.indd 66 25/06/2010 12:19:56 p.m.
http://booksmedicos.org
67
se pueda tanto en la selección inicial de las unidades experimentales 
como en la selección de los tratamientos. Garantiza la representatividad 
e independencia de las observaciones.
También son importantes en el diseño y las condiciones, la cantidad de 
variables, los métodos para reducir su número si es necesario y los métodos 
estadísticos a aplicarles. 
Respecto a la validez y confiabilidad, se dice que la medición: 
– Es válida: cuando cada puntaje individual realmente registra la aptitud 
o capacidad que supuestamente mide. De modo que cualesquiera dos 
individuos de la población con igual magnitud de la característica o la 
respuesta en cuestión registrarán el mismo puntaje.
– Es confiable: cuando se puede tener un alto grado de confianza en el 
puntaje registrado por cada individuo, de modo que si se pudiera registrar 
de nuevo el puntaje en las mismas condiciones a los mismos individuos 
los resultados serían los mismos. 
– Muestras independientes: son aquellas en que los valores de una no 
dependen de los valores de la otra o no influyen en los valores de la 
otra.
– Muestras igualadas: son aquellas en que se forman k-uplas, conjunto 
ordenado de k, individuos o unidades experimentales que se igualan 
en cuanto a los factores o variables que pudieran influir en el resultado 
buscando que los k individuos de cada k-upla (no difieran en las 
características que puedan influir, al menos notablemente, en la que 
se observa. Un caso muy común de igualamiento se tiene cuando se 
aparea cada individuo de la muestra consigo mismo en las observaciones 
repetidas al cabo de un tiempo a la misma muestra. 
– Las muestras apareadas: son un caso particular de las igualadas cuando 
k = 2, es decir, cuando se comparan parejas de individuos.
Bioestadística cualitativa.indd67 25/06/2010 12:19:57 p.m.
http://booksmedicos.org
68
Capítulo 2
Pruebas de hipótesis
Uno de los llamados métodos estadísticos más utilizados son los relacionados 
con la toma de decisiones acerca de los parámetros de de la distribución de una 
población sobre la base de la información de una o varias de sus muestras. Por 
lo general proporcionan un algoritmo para realizarla utilizando los medios de 
cómputo o no. En la actualidad se ha puesto al alcance de muchos profesionales, 
por contarse con la informática y el software estadístico que lo facilita extraor-
dinariamente. En este capítulo se hará una introducción intuitiva que abarcará 
la terminología general y el desarrollo del modelo de prueba de hipótesis y 
particularmente el tratamiento de estas con el moderno software estadístico en 
el que se decide según el valor de una probabilidad muy relacionada con el nivel 
de significación, que se denominará probabilidad crítica, para simplificar. 
2.1. Conceptos básicos de pruebas de hipótesis
Para diferenciar las pruebas de hipótesis de las otras pruebas se denominan 
dócimas de hipótesis o simplemente dócimas y a su estudio se le denomina 
docimasia de hipótesis como es habitual en términos matemáticos.
− Hipótesis estadísticas: son supuestos acerca de los parámetros de la 
distribución de probabilidades de variables aleatorias o de las propias 
distribuciones. Generalmente se plantean dos: 
• La hipótesis nula que se denotará por H0: θ ∈ Θ0. 
• La hipótesis alternativa, que se denotará por H1: θ ∈ Θ1.
 Donde Θ0 y Θ1 son mutuamente excluyentes y generadores del espacio 
paramétrico Θ, de donde H1 niega H0.
− Prueba o dócima de hipótesis: es un procedimiento estadístico para 
decidir si se rechaza o no una hipótesis sobre la población en base de 
la información contenida en una muestra seleccionada aleatoriamente 
de ella.
− Errores posibles: son dos:
• El de tipo I: rechazar H0 siendo cierta.
• El de tipo II: aceptar H0 siendo falsa.
Bioestadística cualitativa.indd 68 25/06/2010 12:19:57 p.m.
http://booksmedicos.org
69
 En la tabla 2.1 se muestra la situación general, relativa a estos posibles 
errores.
Tabla 2.1. Posibles errores al rechazar o aceptar una hipótesis
Decisión
Realidad
H0 cierta H0 falsa
Rechazo H0 Error de tipo I Decisión acertada
Acepto H0 Decisión acertada Error de tipo II
Medida del riesgo que se corre:
P{rechazar H0 / H0 cierta} = α es la probabilidad de cometer el error 
de tipo I.
P{aceptar H0 / H0 falsa} = β es la probabilidad de cometer el error de 
tipo II.
Donde el símbolo / significa dado que o condicionado por.
Lo ideal sería que estas dos probabilidades se pudiesen hacer muy peque-
ñas, pero no se puede disminuir una de ellas sin que aumente inmediata-
mente la otra. La solución consiste en fijar el valor de α suficientemente 
pequeño y tratar de hacer mínimo el valor de β, fijado el valor de α. 
Como la probabilidad de equivocación β no se controla se fija, entonces, 
el contenido de las hipótesis de modo que el error de tipo I sea el de 
consecuencias más graves, así la probabilidad de cometerlo quedará 
convenientemente fijada. 
Un criterio generalmente equivalente al anterior es el de poner en la 
hipótesis alternativa lo que se quiere probar.
Hay que señalar que por sobre todo esto prima el hecho de que en H0 
siempre debe ir la igualdad, menor o igual o mayor o igual.
Un estudio más riguroso de las probabilidades de cometer estos errores, 
en particular el de tipo II, a partir de una muestra aleatoria X = (X1, X2,..., 
Xn), de la población en cuestión, se puede hacer a través de la llamada 
función de potencia que se define, para todo θ ∈ Θ como la probabilidad 
Pθ(X) de rechazar H0 siendo θ el verdadero valor del parámetro.
− Nivel de significación: es la probabilidad máxima de cometer el error 
de tipo I.
 Se denota por α y sus valores de uso más común son 0,05; 0,01 y 0,10. 
Se tiene entonces que:
 P{rechazar H0 / H0 cierta} ≤ α
Ahora conviene precisar la terminología:
− Estadígrafo: es una función de la muestra, su valor se obtiene de la 
muestra, por ejemplo, la media, la moda, los percentiles, la desviación 
estándar, el coeficiente de correlación, el máximo y el mínimo 
Bioestadística cualitativa.indd 69 25/06/2010 12:19:57 p.m.
http://booksmedicos.org
70
muestrales. El estadígrafo es la fuente de información muestral en las 
pruebas de hipótesis.
− Parámetro: es un indicador numérico de la población como, por ejemplo, 
la media, la moda, la mediana, los percentiles, la desviación estándar, 
el coeficiente de correlación, el máximo, el mínimo poblacionales.
− Estimador: es un estadígrafo bueno para estimar, esto es, debe cumplir 
las propiedades que se exigen para ser un buen estimador.
 Entre estas propiedades está la de ser insesgado, o sea, tal que su valor 
esperado coincida con el parámetro que estima y otra propiedad es 
que sea de varianza mínima en el conjunto de todos los estimadores 
insesgados del parámetro en cuestión. El concepto de valor esperado 
es similar al de media de la variable ealeatoria en cuestión.
− Decisión: consiste en rechazar o no la hipótesis H0 sobre la base de la 
información muestral.
 Para tomarla se utiliza un estadígrafo en que se resuma la información 
de la muestra acerca del parámetro, que dependa de un buen estimador 
del parámetro y que tenga una distribución conocida.
− Región crítica: es la región de rechazo de H0, es el conjunto de los 
valores del estadígrafo que conducen a rechazar la hipótesis H0.
− Probabilidad crítica: es la probabilidad de que el estadígrafo caiga en 
la región crítica.
2.2. Algoritmo general para realizar una dócima de hipótesis
Se incluyen las dos versiones: la tradicional determinando la región crítica 
y la probabilidad crítica (de que el valor del estadígrafo caiga en la región 
crítica).
1. Plantear las hipótesis y fijar el nivel de significación, lo que incluye 
seleccionar los datos del problema y verificar si se cumplen las 
condiciones que exige la dócima a aplicar.
2. Seleccionar y evaluar el estadígrafo adecuado o la dócima adecuada en 
el software.
3. Determinar la región crítica o la probabilidad crítica (pc) y tomar la 
decisión de rechazar H0 si el valor del estadígrafo cae en ella o pc es 
menor que α, cerciorándose si pc corresponde a una región crítica de 
una o de dos colas, y no rechazarla en caso contrario.
Se dice no rechazo la hipótesis nula, en lugar de acepto la hipótesis nula, 
como argumento semántico, para no cometer el error de tipo II.
Si se calcula el valor del estadígrafo y la región crítica, y se puede calcular tam-
bién la probabilidad crítica, debe hacerse, pues está brinda más información. 
Bioestadística cualitativa.indd 70 25/06/2010 12:19:57 p.m.
http://booksmedicos.org
71
Se estudiará primeramente la prueba de hipótesis paramétrica para la media 
de una población con distribución normal con varianza conocida, porque es el 
modelo típico teórico en que se puede deducir, al menos intuitivamente, utilizan-
do las propiedades más comunes de las probabilidades y la distribución normal 
de una complejidad aceptable. Por analogía con ella posteriormente se tratarán 
numerosas pruebas de hipótesis no paramétricas clasificadas por la escala de 
cuantificación en que estén los puntajes muestrales y dentro de cada escala por 
el número de poblaciones y la independencia o no de las muestras.
2.3. Dócimas para la media de una población
En este libro se considerarán solo dos, que no obstante ser paramétricas 
se incluyen como modelos porque dan pautas para las demás pruebas de hi-
pótesis.
2.3.1. Caso de una población con distribución normal con varianza σ² 
conocida
Conociendo que la media muestral X es el mejor estimador de la media 
poblacional µ entonces para las hipótesis:
H0: µ = µ0 contra H1: µ ≠ µ0
Tiene sentido rechazar H0 si el valor de X difiere considerablemente de µ0, 
o sea, si 0µ−X es significativamente grande. 
O mejor aún si: 
n
X
Z
σ
µ−= 0 supera cierto valor críticoZC significativa-
mente grande.
Pero este estadígrafo Z depende de X , cuya distribución tiene media 
µ y desviación estándar 
n
σ y aparece estandarizado y, puesto que X tiene 
distribución normal con media µ y varianza σ2, la distribución muestral de Z 
es normal estándar y además resulta un estadígrafo apropiado para tomar la 
decisión. Para hallar ZC, utilizando las propiedades de las probabilidades y la 
distribución normal, se partirá de este hecho y de la definición del nivel de 
significación, utilizando en la igualdad:
α = P{rechazar H0 / H0 cierta} = P{|Z| > ZC}
Y se tiene que (⇔significa es equivalente a): 
α = P{|Z| > ZC} ⇔ 1 – α = P{|Z| ≤ ZC} porque ( ) )(1 APAP −= para todo 
suceso A, donde A es el suceso que ocurre cuando no ocurre A.
Bioestadística cualitativa.indd 71 25/06/2010 12:19:57 p.m.
http://booksmedicos.org
72
⇔ 1 – α = P{–ZC < Z < ZC} = Φ(ZC) – Φ(–ZC) por propiedades del valor 
absoluto y de la distribución normal estándar Φ.
⇔ 1 – α = Φ(ZC) – 1 + Φ(ZC), por la propiedad Φ(–t) = 1 – Φ(t) de Φ.
⇔ 1 – α = 2 Φ(ZC) – 1, por una propiedad aritmetica. 
⇔ , por una propiedad aritmetica.
⇔ 
2
1
α−
= ZZc , percentil de orden 2
1
α− de la distribución N(0, 1), por
 propiedad de Φ y la definición de percentil de la variable Z.
De modo que el valor crítico ZC de Z es el percentil de orden 2
1
α− de la
distribución normal estándar, que se denota habitualmente por 
2
1
α−
Z y cuyos
valores más usuales Z0,90; Z0,95; Z0,975; Z0,99 y Z0,995, aparecen en la tabla 2.2 de 
percentiles de la distribución normal estándar. Los valores de las probabilidades 
Φ(z), se hallan en la tabla 2.3 de la distribución normal estándar.
Esta demostración intuitiva constituye un modelo a seguir para las co-
rrespondientes demostraciones de los otros casos en las futuras dócimas, solo 
cambiando la distribución del estadígrafo.
Observe, además, que en esta deducción se ha utilizado la distribución 
del estadígrafo bajo H0, o sea, con la condición de que se cumpla H0. Esto es 
común en todas las dócimas, por la relación del nivel de significación con la 
probabilidad condicional P{rechazar H0 / H0 cierta}. Esto justifica también 
lo planteado de que en H0 se debe poner siempre la igualdad, lo que permitió 
utilizar la distribución nomal con media µ0 y no otra.
Tabla 2.2. Percentiles más usuales de la distribución normal estándar
β 0,90 0,95 0,975 0,99 0,995
Zβ 1,28 1,645 1,96 2,33 2,58
Tabla 2.3. Distribución normal (de Gauss) estándar acumulativa 
t
Centésimas de t
0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,500 0,503 0,507 0,511 0,515 0,519 0,523 0,527 0,531 0,535
0,1 0,539 0,543 0,547 0,551 0,555 0,559 0,563 0,567 0,571 0,575
0,2 0,579 0,583 0,587 0,591 0,594 0,598 0,602 0,606 0,61 0,614
0,3 0,618 0,622 0,625 0,629 0,633 0,636 0,64 0,644 0,648 0,652
0,4 0,655 0,659 0,662 0,666 0,670 0,673 0,677 0,68 0,684 0,687
0,5 0,691 0,694 0,698 0,702 0,705 0,708 0,712 0,715 0,719 0,722
Bioestadística cualitativa.indd 72 25/06/2010 12:19:58 p.m.
http://booksmedicos.org
73
0,6 0,725 0,729 0,732 0,735 0,738 0,742 0,745 0,748 0,751 0,754
0,7 0,758 0,761 0,764 0,767 0,770 0,773 0,776 0,779 0,782 0,785
0,8 0,788 0,791 0,793 0,796 0,799 0,802 0,805 0,807 0,810 0,813
0,9 0,815 0,818 0,821 0,823 0,826 0,829 0,831 0,834 0,836 0,839
1,0 0,841 0,843 0,846 0,848 0,850 0,853 0,855 0,857 0,859 0,862
1,1 0,864 0,866 0,868 0,870 0,872 0,874 0,876 0,879 0,881 0,883
1,2 0,884 0,886 0,888 0,890 0,892 0,894 0,896 0,898 0,899 0,901
1,3 0,903 0,905 0,906 0,908 0,909 0,911 0,913 0,914 0,916 0,917
1,4 0,919 0,920 0,922 0,923 0,925 0,926 0,927 0,929 0,930 0,931
1,5 0,933 0,934 0,936 0,936 0,938 0,939 0,940 0,941 0,942 0,944
1,6 0,945 0,946 0,947 0,948 0,949 0,950 0,951 0,952 0,953 0,954
1,7 0,955 0,956 0,957 0,958 0,959 0,959 0,960 0,961 0,962 0,963
1,8 0,964 0,964 0,965 0,966 0,967 0,967 0,968 0,968 0,969 0,970
1,9 0,971 0,971 0,972 0,973 0,973 0,974 0,975 0,975 0,976 0,976
2,0 0,977 0,977 0,978 0,978 0,979 0,979 0,980 0,980 0,981 0,981
2,1 0,982 0,982 0,982 0,983 0,983 0,984 0,984 0,984 0,985 0,985
2,2 0,986 0,986 0,986 0,987 0,987 0,987 0,988 0,988 0,988 0,988
2,3 0,989 0,989 0,989 0,990 0,990 0,990 0,990 0,991 0,991 0,991
2,4 0,991 0,992 0,992 0,992 0,992 0,992 0,993 0,993 0,993 0,993
2,5 0,993 0,993 0,994 0,994 0,994 0,994 0,994 0,994 0,995 0,995
2,6 0,995 0,995 0,995 0,995 0,995 0,995 0,996 0,996 0,996 0,996
2,7 0,996 0,996 0,996 0,996 0,996 0,997 0,997 0,997 0,997 0,997
2,8 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,998 0,998
2,9 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998
3,0 0,998 0,999 0,999 0,999 0,999 0,999 0,999 0,999 0,999 0,999
Los decimales de los encabezamientos de las columnas completan los de-
cimales de las t de la primera columna.
En la tabla 2.4 se ofrece un resumen de los demás casos de hipótesis para la 
media de una población con distribución normal con varianza σ² conocida.
Tabla 2.4. Resumen de la dócima
Hipótesis Estadígrafo Región crítica
H0: µ = µ0 contra H1: µ ≠ µ0
n
X
Z
σ
µ−=
2
1
α−
> ZZ
H0: µ ≤ µ0 contra H1: µ > µ0 Z > Z1 – α
H0: µ ≥ µ0 contra H1: µ < µ0 Z < −Z1 – α
Bioestadística cualitativa.indd 73 25/06/2010 12:19:58 p.m.
http://booksmedicos.org
74
Respecto a lo planteado, observe como el parámetro es µ, su valor hipotético 
es µ0, el estadígrafo es Z y los percentiles que determinan las regiones críticas 
son 
2
1
α−
Z y α−1Z .
Por otra parte la región crítica 
2
1
α−
> ZZ es equivalente a 
2
1
α−
−< ZZ 
o 
2
1
α−
> ZZ y por esta razón se denomina región crítica bilateral o de 
dos colas para diferenciarla de las otras dos regiones críticas de la tabla 
que se denominarán unilaterales o de una cola. Estas denominaciones se 
acostumbran extenderlas a toda la dócima y entonces se habla de dócimas 
unilaterales o de una cola y dócimas bilaterales o de dos colas, más bien 
refiriéndose a sus regiones críticas. 
Ejemplo 2.1:
Una muestra aleatoria de tamaño 25 de una población con distribución normal 
con varianza igual a 16 arrojó una media de 35. Utilizando un nivel de significa-
ción de 0,05. ¿Se podrá afirmar que la media poblacional es inferior a 38?
Están dadas las condiciones de muestra aleatoria y distribución poblacional 
normal con varianza conocida y, por ello, se puede aplicar la dócima que se 
acaba de estudiar.
1. Datos: n = 25, σ² = 16, σ = 4, , µo = 38 y α= 0,05.
 Hipótesis: H0: µ ≥ 38 contra H1: µ < 38 (lo que se quiere probar en H1).
2. El estadígrafo: ( )
σ
µ−= nXZ 0 cuyo valor en la muestra es:
 3. Región crítica: Z < −Z1 – α , esto es, Z < −1,645, puesto que Z1 − α = Z0,95 
= 1,645, y como el valor del estadígrafo cae en la región crítica, ya que 
−3,75 < −1,645, se rechaza H0 con un nivel de significación de 0,05. 
Sobre la base de estos datos se puede hacer la afirmación.
En un software estadístico se hallaría P{Z < –3,75} ≈ 0,000088 < 0,05 
y en consecuencia se rechazaría H0 con nivel de significación de 0,05 (y de 
0,000089 también, precisión que no se puede lograr utilizando los valores de 
los percentiles de las tablas o calculados aproximadamente).
Observación: salvo este último párrafo, este es el modo tradicional de 
solución de una dócima, cuando no se cuenta con un software que la tenga 
programada. Por otra parte, hay dos posibles errores al tomar una decisión en 
una dócima, pero una vez que se toma la decisión, de los dos errores quedará 
solamente uno, en este caso es el de tipo I, rechazar H0 siendo cierta, cuya 
probabilidad está acotada por 0,05 y por 0,000089 también.
Bioestadística cualitativa.indd 74 25/06/2010 12:19:59 p.m.
http://booksmedicos.org
75
2.3.2. Caso de una población con distribución normal con varianza σ² 
desconocida
Esta prueba paramétrica se incluye como modelo para el análisis de la 
probabilidad crítica, porque dará la pauta para su análisis en las demás pruebas 
de hipótesis.
La utilización del estadígrafo t se justifica análogamente al caso del estadí-
grafo Z de la dócima anterior,teniendo en cuenta que en este caso la distribución 
de t es t de Student con n – 1 grados de libertad.
En la tabla 2.5 se presenta el resumen de la dócima para la media de una 
población con distribución normal con varianza σ2 desconocida.
Tabla 2.5. Resumen de la dócima
Hipótesis Estadígrafo Región crítica
H0: µ = µ0 contra H1: µ ≠ µ0
n
s
X
t 0
µ−=
)1(
2
1
−> α− ntt
H0: µ ≤ µ0 contra H1: µ > µ0 t > t1 – α(n – 1)
H0: µ ≥ µ0 contra H1: µ < µ0 t < –t1 – α(n – 1)
Ejemplo 2.2:
¿Se podrá afirmar que la media de la población de donde procede esta 
muestra aleatoria {38, 51, 51, 38, 47, 50, 44, 48, 42, 48} es mayor que 43? Use 
un nivel de significación igual a 0,05.
La dócima a aplicar es la que acabamos de estudiar. La condición de muestra 
aleatoria viene dada en el problema y la de distribución normal poblacional 
la supondremos para poder resolverlo (los métodos para verificarlo ceden en 
confiabilidad por el poco tamaño de la muestra, se requerirían más datos, en 
tal caso mejor resultaría aplicar alguna otra prueba alternativa que no exija esta 
condición). El problema proporciona la muestra y por tanto todos los datos que 
se necesiten calcular con ella como son la media muestral (45,7) y la varianza 
muestral (24,6677).
Hipótesis: H0: µ ≤ 43 contra H1: µ > 43, α = 0,05. 
Estadígrafo: 718742,10 ≈µ−= n
s
X
t 
Los grados de libertad son 10 – 1 = 9 y en la tabla de la distribución t de 
Student encontramos que y como 1,718742 no es 
mayor que 1,83 no se rechaza H0 con nivel de significación de 0,05.
Con un un software estadístico se obtiene: 
P{T > 1,718742} ≈ 0,059891 
Donde T es la variable con distribución t de Student con nueve grados de 
libertad, igual a la del estadígrafo. 
Bioestadística cualitativa.indd 75 25/06/2010 12:19:59 p.m.
http://booksmedicos.org
76
Decisión: Como 0,059891 no es menor que 0,05 no se rechaza H0 con nivel 
de significación de 0,05. Sobre la base de estos datos no se puede afirmar que 
la media de la población es mayor 43.
Observación: El único error posiblemente cometido con esta decisión es el 
de tipo II, aceptar H0 siendo falsa, que no se controla, por lo que no se afirma 
que se acepta H0 sino que solo se concluye que no hay elementos suficientes 
para hacer la afirmación de que la media de la población es mayor 43. Además, 
por esta razón se utiliza, preferentemente, α = 0,05, y no uno menor para que 
la probabilidad de equivocación no sea muy grande.
La tabla 2.6 de percentiles de la distribución t de Student permite realizar las 
pruebas mediante el método tradicional de determinar la región crítica buscando 
el valor crítico que es el utilizado en ausencia de otras opciones de cálculo.
Tabla 2.6. Percentiles más usuales de la distribución t de Student
gl 0,995 0,99 0,975 0,95 0,90
1 63,66 31,32 12,71 6,31 3,08
2 9,92 6,96 4,30 2,92 1,89
3 5,84 4,54 3,18 2,35 1,64
4 4,60 3,75 2,78 2,13 1,53
5 4,03 3,36 2,57 2,02 1,48
6 3,71 3,14 2,45 1,94 1,44
7 3,50 3,00 2,36 1,90 1,42
8 3,36 2,90 2,31 1,86 1,40
9 3,25 2,82 2,26 1,83 1,38
10 3,17 2,76 2,23 1,81 1,37
11 3,11 2,72 2,20 1,80 1,36
12 3,06 2,68 2,18 1,78 1,36
13 3,01 2,65 2,16 1,77 1,35
14 2,98 2,62 2,14 1,76 1,34
15 2,95 2,60 2,13 1,75 1,34
16 2,92 2,58 2,12 1,75 1,34
17 2,90 2,57 2,11 1,74 1,33
18 2,88 2,55 2,10 1,73 1,33
19 2,86 2,54 2,09 1,73 1,33
20 2,84 2,53 2,09 1,72 1,32
21 2,83 2,52 2,08 1,72 1,32
22 2,82 2,51 2,07 1,72 1,32
23 2,81 2,50 2,07 1,71 1,32
24 2,80 2,49 2,06 1,71 1,32
25 2,79 2,48 2,06 1,71 1,32
26 2,78 2,48 2,06 1,71 1,32
Bioestadística cualitativa.indd 76 25/06/2010 12:19:59 p.m.
http://booksmedicos.org
77
27 2,77 2,47 2,05 1,70 1,31
28 2,76 2,47 2,05 1,70 1,31
29 2,76 2,46 2,04 1,70 1,31
30 2,75 2,46 2,04 1,70 1,31
31 2,70 2,42 2,02 1,68 1,30
Para gl > 30 los percentiles de la distribución t de Student se aproximan a 
los de la distribución normal estándar.
2.4. Decisión sobre la base de una probabilidad
Sea Y el estadígrafo, bajo el supuesto de que se cumple lo planteado en H0:
1. Si la región crítica está determinada por Y > YC:
 P{Y > y} < α ⇒ y cayó en la región crítica, donde y representa el valor 
del estadígrafo.
 Y también se podrá decir, bajo H0, que la región crítica la constituyen 
los valores posibles del estadígrafo Y tales que P{Y > y} < α, o tales 
que la probabilidad crítica o probabilidad asociada con la ocurrencia, 
conforme a H0, de un valor de Y, más extremo que y, en el sentido de 
mayor que el observado, es menor que α.
2. Si la región crítica está determinada por Y < YC:
 P{Y < y} < α ⇒ y cayó en la región crítica
3. Si la región crítica está determinada por: 
2
α< YY o 
2
1
α−
> YY (es de dos colas)
{ }
2
α<< yYP o { }
2
α<> yYP ⇒ y cayó en la región crítica
Esto se puede expresar también así:
{ } α<< yYP2 o { } α<> yYP2 ⇒ y cayó en la región crítica
Y en el caso de distribuciones simétricas se puede resumir esto último con
{ } α<> yYP .
El software estadístico a menudo ofrece las probabilidades críticas de uno 
de los tres casos anteriores. Si se determina cuál es la que ofrecen, ella se puede 
utilizar para tomar la decisión de rechazar H0 si resulta menor que el nivel de 
significación α en los casos 1 y 2 (y que 
2
α en el caso 3) y de no rechazar H0 
si resulta lo contrario. 
Con esto se evita tener que buscar el valor crítico del estadígrafo en la tabla 
o en el software y se logra, en general, mayor precisión en el nivel de signifi-
cación. Vea más información sobre como se obtienen estas probabilidades con 
Microsoft Excel en el epígrafe 5.1.
Bioestadística cualitativa.indd 77 25/06/2010 12:20:00 p.m.
http://booksmedicos.org
78
Por sencillez, siempre que se pueda calcular P{Y > y}, P{Y < y} o P{Y > y} 
según el caso, por contar con tablas adecuadas o medios de cálculo, se tomará 
la decisión con ellas fundamentalmente, porque ofrecen mayor información que 
la que puede proporcionar la región crítica. Las propiedades anteriores también 
permiten aprovechar mejor los medios de cálculo ya que si se rechaza H0 en el 
caso P{Y > y} < α y se cumple además que 2P{Y > y} < α entonces se podrá 
rechazar H0 también en el caso de región crítica de dos colas, si ocurre a la 
inversa que el software ofrece el resultado solo para dos colas habrá que dividir 
la probabilidad crítica entre dos para aplicarla en el caso de región de una cola. 
Pero cuidado, a menudo esto se justifica con la simetría de la distribución y hay 
distribuciones que no son simétricas.
Ejemplo 2.3:
En los ejemplos 2.1 y 2.2 se calculó con software las probabilidades P{Z < 3,75} 
≈ 0,000088 y P{T > 1,718742} ≈ 0,05989 que condujeron a rechazar H0 en el 
primer caso y a no rechazarla en el segundo con nivel de significación de 0,05. 
Además, en el primer caso se pudo reducir el valor α de 0,05 a 0,000089.
Entonces para las hipótesis H0: µ = 43 contra H1: µ ≠ 43 y α = 0,05:
La probabilidad crítica será igual a 2(0,059891) = 0,119782 y la decisión 
será no rechazar H0 con nivel de significación de 0,05.
Por otra parte, si para las hipótesis: H0: µ = 40 contra H1: µ ≠ 40 se obtiene 
con un software P{T> 3,628456} ≈ 0,005499. 
Entonces para las hipótesis: H0: µ ≤ 40 contra H1: µ > 40 y α = 0,05 la 
probabilidad crítica será igual a 0,0027495
2
0,005499 = .
Y la decisión será rechazar H0 con nivel de significación de 0,05 (y también 
de 0,0027496).
Si en el ejemplo 2.1 las hipótesis fueran H0: μ = 38 contra H1: μ ≠ 38, se 
rechazaría también H0, con nivel de significación de 0,05 por ser 2(0,000088) 
= 0,000176 menor que 0,05. 
Bioestadística cualitativa.indd 78 25/06/2010 12:20:00 p.m.
http://booksmedicos.org
79
Capítulo 3
Dócimas para muestras 
en escalas nominales
La escala nominal se procesa estadísticamente por medio de las frecuencias. 
En las investigaciones sociales, humanísticas y artísticas abundan los datos en 
estas escalas, En las de otras disciplinas como la medicina existen datos en 
todas las escalas y en otras no abundan, pero también están presentes. En este 
capítulo se trataránmás de 15 pruebas de hipótesis aplicables a variables en 
esta escala de cuantificación 
3.1. Dócimas para una población
Esta prueba para una proporción exige condiciones mínimas, solo la de 
muestra grande. Para muestras pequeñas se ofrecen alternativas en los epígrafes 
3.1.2 y 3.1.5.
3.1.1. Dócima para la proporción de una población en caso de muestras 
grandes 
La tabla 3.1 muestra un resumen de esta dócima.
Tabla 3.1. Resumen de la dócima
Hipótesis Estadígrafo Región crítica
H0: P = P0 contra H1: P ≠ P0
n
QP
Pp
Z
00
0−=
2
1
áZZ −
>
H0: P ≤ P0 contra H1: P > P0 Z > α−1Z
H0: P ≥ P0 contra H1: P < P0 Z < − α−1Z
Donde p y P representan las proporciones muestral y poblacional, respec-
tivamente, P0 es un valor supuesto de P, Q0 = 1 – P0, Z es un estadígrafo con 
distribución aproximadamente normal estándar y Zβ es el percentil de orden β 
de esta distribución para todo β comprendido entre 0 y 1.
Bioestadística cualitativa.indd 79 25/06/2010 12:20:01 p.m.
http://booksmedicos.org
80
Para muestras grandes se acostumbra a entender n > 30, pero el asunto de-
pende también de P y por esta razón se tomará el criterio algo menos exigente: 
nP0 > 5 y nQ0 > 5.
Esta dócima no exige distribución normal, se basa en la distribución binomial 
con parámetros n y P, exige una muestra grande para garantizar, bajo H0, la 
condición de aproximación a la distribución normal con parámetros µ = nP0 y 
varianza σ² = nP0Q0 que estandarizada será la distribución del estadígrafo Z.
El estadígrafo se obtiene del correspondiente de la dócima para la media 
de una población con distribución normal a partir de que si X1, X2,..., Xn es una 
muestra en que cada Xi es igual a 0 o 1, entonces: 
∑
=
n
i
iX
1
 es igual al total de unos en la muestra.
 es igual a la proporción de unos en la muestra.
 porque los sumandos no nulos son iguales a sus cua-
drados e iguales a 1.
Y, considerando la distribución de probabilidades de ∑
=
=
n
i
iXX
1
 se llega
a que el estadígrafo Z de la tabla 3.1 se obtiene del de la dócima de la media 
de una población con distribución normal de la tabla 3.2, sustituyendo allí X 
por p, y σ por 00QP .
Ejemplo 3.1:
Una muestra aleatoria de tamaño 53 arrojó una proporción de alumnos 
excelentes en Bioestadística igual a 0,25. ¿Con un nivel de significación 
α = 0,05 podrá afirmarse que el porcentaje poblacional es mayor que 20?
Las condiciones de muestra aleatoria de tamaño n grande se cumplen: 
n = 53, p = 0,25, α = 0.05, P0 = 0,20, Q0 = 1−P0 = 0,80, nP0 = 10,6 > 5 y 
nQ0 = 42,4 > 5. Por tanto se cumplen las condiciones de muestra grande. 
H0: P ≤ 0,20 contra H1: P > 0,20 (lo que se desea docimar).
910,0
00
0 ≈−=
n
QP
Pp
Z P {Z ≥ 0,910} ≈ 0,1814
Decisión: Como 0,1814 no es menor que 0,05 no se rechaza H0 con nivel 
de significación de 0,05. Sobre la base de estos datos no se puede afirmar que 
el porcentaje poblacional es mayor que 20.
Bioestadística cualitativa.indd 80 25/06/2010 12:20:01 p.m.
http://booksmedicos.org
81
Utilizando la región crítica: Z > Z1 – α = Z0,95 = 1,645, como Z ≈ 0,910 no 
es mayor que 1,645 el estadígrafo no cae en la región crítica y por tanto no se 
rechaza H0 con α = 0,05.
Más detalles realcionados con la dócima de la proporción, en particular el 
caso de muestras pequeñas en la dócima binomial se obtendrán a continuación 
en el epígrafe 3.1.2 y también una alternativa en la dócima F para proporciones 
en el 3.1.5.
3.1.2. Dócimas binomial para la proporción de una población
Es útil para decidir si la proporción poblacional toma un valor dado o no. 
Solo exige una muestra aleatoria en escala nominal.
Constituye la dócima exacta para cualquier p y cualquier n, la del epígrafe 
3.1.1 es un caso particular de aproximación, pero por ser la distribución original 
discreta, por lo general con pocos valores posibles, presenta poca precisión el 
cálculo de los valores críticos, por lo que su uso es limitado. 
Sea P la proporción poblacional de individuos con determinada característica 
A, p la proporción muestral correspondiente y P0 un valor hipotético de P.
La variable aleatoria X que registra el número de veces que ocurre un suceso 
A en n repeticiones de un experimento, en que p = P(A) (probabilidad de A), 
es una variable aleatoria con distribución binomial con parámetros n y p con 
n = 0, 1, 2,... y 0 ≤ p ≤ 1. Su distribución de probabilidades viene dada por: 
{ } knk qp
k
n
kXP −



== para k = 0, 1, 2,..., n y vale cero en otros valores de k.
Donde k es el número de veces que ocurre A, q = 1 – p.
)!(!
!
knk
n
k
n
−
=



 donde k! = k (k −1)( k – 2)... 1 para k = 1, 2,... n y 0! = 1.
Entonces el estadígrafo es X = np y representa la cantidad de individuos en 
la muestra que poseen la característica A.
Considerando los n individuos de la muestra como n repeticiones del ex-
perimento consistente en observar en cada individuo de la muestra si posee o 
no la característica A. la distribución de X, en caso de una muestra aleatoria y 
bajo la hipótesis H0: P = P0, es binomial con parámetros n y P0.
La región crítica la constituirán los valores x de X tales que, para las hi-
pótesis:
H0: P ≥ P0 contra H1: P < P0, cumplan que P{X < x} < α.
H0: P ≤ P0 contra H1: P > P0, cumplan que P{X > x} < α.
H0: P = P0 contra H1: P ≠ P0, cumplan que: 
{ }
2
α<< xXP en el caso de x < nP0. 
Bioestadística cualitativa.indd 81 25/06/2010 12:20:01 p.m.
http://booksmedicos.org
82
{ }
2
α<> xXP
 
en el caso de x > nP0.
Si se cumple la condición enunciada para x, en cualquiera de estos tres 
casos se rechazará H0 y en caso contrario no se rechazará, con nivel de signi-
ficación α.
Observación: El otro modo de determinar la región crítica buscando el 
percentil crítico para decidir si el estadígrafo lo supera o no en este caso es 
mucho más complejo e impreciso y por eso no se expondrá.
Ejemplo 3.2:
En un una facultad de medicina se desea saber si los varones constituyen 
o no el 50 % de los estudiantes. Para decidir acerca de esto seleccionan una 
muestra aleatoria de 12 estudiantes de la facultad y se encuentran 4 varones. 
¿Qué decisión se podrá tomar?
Considerando los 12 estudiantes como 12 repeticiones del experimento 
consistente en en observar si es varon o no, la variable X, que registra el 
número de varones tendrá, bajo H0, distribución binomial con parámetros 
n = 12 y p = 0,5.
La hipótesis se puede escribir así: H0: P = 0,5 contra H1: P ≠ 0,5
Se tiene que n = 12 y una proporción muestral , y se adopta un
nivel de significación de 0,05. Se calculan los primeros valores de la distribución 
binomial con parámetros n = 12 y p = P0 = 0,5 (tabla 3.2).
Tabla 3.2. Cálculo de los primeros valores de la distribución
k P{ X = k } P{ X < k }
0 0,00024 0,00000
1 0,00293 0,00024
2 0,01611 0,00317
3 0,05371 0,01929
4 0,12085 0,07300
En esta tabla 3.2 se ofrecen las probabilidades puntuales y las acumuladas 
hasta el puntaje anterior a k.
Como = 4 y nP0 = 12(0,5) = 6, se tiene que x < nP0 y entonces,
según la regla de decisión descrita, se rechazará H0 si P{X < x} < 0,025, puesto 
que α = 0,05 y la región crítica es de dos colas.
Decisión: Como x = 4, ob-
tenido de la tabla 3.2, que no es menor que 025,0
2
=α y por tanto no se rechaza 
Bioestadística cualitativa.indd 82 25/06/2010 12:20:02 p.m.
http://booksmedicos.org
83
H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede 
afirmar que la proporción poblacional difiere de 0,5.
La distribución del estadígrafo X, bajo H0, esto es, bajo la suposición de que 
sea cierta H0 y n grande, se aproxima, aceptablemente, a la distribución normal 
con media µ = nP0 y varianza σ² = nP0Q0 y la aproximación será mejor si se 
tiene en cuenta, además, la llamada corrección por continuidad, que se utiliza 
habitualmente al pasar de una distribución discreta a una continua.
Entonces como np = 6 > 5 y nq = 6 > 5, bajo H0, se podrá usar la distribu-
ción normal estándar (de la variable Z) y la corrección por continuidadpara 
calcular estas probabilidades y se podrá tomar la decisión de rechazar H0 con 
nivel de significación de 0,05:
1. Si { } α<> zZP con donde Q0 = 1 – P0, en el caso de 
 H1: P > P0.
2. Si { } α<< zZP con donde Q0 = 1 – P0, en el caso de 
 H1: P < P0.
3. En el caso de las hipótesis H0: P = P0 contra H1: P ≠ P0 se procederá:
a) Como en el caso 1 si x > nP0. Si P{Z > z}< α/2.
b) Como en el caso 2 si x < nP0.Si P{Z < z}< α/2.
Ejemplo 3.3:
En el ejemplo 3.2, puesto que nP0 = nQ0 = 6 > 5, x = 4, nP0 = 6 y por tanto 
x < nP0, se puede aplicar esta aproximación normal y se tiene que:
 y P{Z < −1,45} = 0,0735 
Y como 0,0735 no es menor que 0,05 no se rechaza H0, con nivel de signifi-
cación de 0,05. Estas probabilidades se buscan en la tabla 2.2 de la distribución 
normal estándar o en un software estadístico que las calcule.
Problema propuesto 3.1:
Verifique si la proporción de niños con retraso mental severo o grave en la 
población de donde proviene la muestra del archivo DatosM2 es menor que 0,33. 
Verifique también si entre los que tienen retraso mental grave la proporción de varo-
nes es mayor que 0,5. Si por el tamaño muestral no se cumplieron las condiciones, 
más adelante podrá resolverlo con las dócimas de los epígrafes 2.1.2 y 2.1.3.
3.1.3. Dócima ji cuadrado de bondad de ajuste para una población
Sean A1, A2,..., Ar, r sucesos mutuamente excluyentes que pueden ocurrir 
como resultado de un experimento aleatorio.
Bioestadística cualitativa.indd 83 25/06/2010 12:20:02 p.m.
http://booksmedicos.org
84
Si el experimento se repite n veces se podrán calcular sus respectivas 
frecuencias absolutas, llamadas frecuencias observadas y denotadas por o1, 
o2,..., or.
Sea fi la frecuencia relativa de Ai y pi = P(Ai) para todo i = 1, 2,..., r se 
pueden plantear las hipótesis:
− H0: pi = pio para todo i = 1, 2,..., r (la distribución poblacional es la 
supuesta).
− H1: pi ≠ pio para algún i = 1, 2,..., r (la distribución poblacional no es la 
supuesta).
Donde, para i = 1, 2,..., r, pio es un valor supuesto de pi en el experimento, 
que podría ser, por ejemplo, el valor de P(Ai) según una distribución de pro-
babilidades dada.
Teniendo en cuenta que la probabilidad de un suceso es aproximadamente 
igual a su frecuencia relativa y que esta aproximación es mejor cuanto mayor 
sea n, sería razonable rechazar H0 si las diferencias cuadráticas (fi – pio)² fuesen 
significativamente grandes o, equivalentemente, si las (oi – ei)² resultan signi-
ficativamente grandes, puesto que 
n
o
f ii = y .
Donde las frecuencias esperadas ei, si no se dan, son estimadas por ei = npi0 
para i = 1, 2,..., r bajo la hipótesis H0.
Se tiene que ∑
=
=
r
i
ion
1
 suma de las frecuencias observadas de los r sucesos.
Entonces tiene sentido utilizar como estadígrafo:
( )∑
=
−=χ
r
i i
ii
e
eo
1
2
2 y rechazar H0 si resulta significativamente grande..
El estadígrafo se denomina ji cuadrado por el nombre de su distribución 
de probabilidades, que, bajo H0, y para n suficientemente grande, tiene aproxi-
madamente, distribución ji cuadrado con r – 1 – m grados de libertad, donde 
m es igual al número de parámetros que es necesario estimar para obtener la 
estimación de las frecuencias esperadas ei. 
Una condición para que la afirmación anterior sea válida es que las frecuen-
cias esperadas ei sean tales que:
− Ninguna sea menor que 1.
− No más del 20 % sea menor que 5.
Una solución para el caso en que no se cumplan estas condiciones consiste 
en unir dos o más clases o sucesos contiguos con poca frecuencia esperada 
para que el nuevo suceso o clase unión tenga mayor frecuencia esperada, pero 
teniendo en cuenta que después de esto la distribución de frecuencias no será 
la misma.
Bioestadística cualitativa.indd 84 25/06/2010 12:20:02 p.m.
http://booksmedicos.org
85
Esta condición introduce una considerable limitación en el empleo de esta 
dócima que a primera vista parece universal por su exigencia mínima en cuanto 
a escala: la nominal. En algunos casos una alternativa a su uso es una prueba 
de proporciones como las tratadas en los epígrafes 3.2.1 y 3.2.2.
Tomando todo esto en cuenta, se tenderá a rechazar H0 si el valor del 
estadígrafo χ2 es significativamente grande, esto es si cae en la región crítica 
determinada por:
)1(21
2 mr −−χ>χ α−
Los datos para esta dócima generalmente vienen dados en forma tabular 
(tabla 3.3).
Tabla 3.3. Tabla modelo para la prueba de bondad de ajuste
Suceso A1 A2 ··· Ar
Frecuencia observada o1 o2 ··· or
Frecuencia esperada e1 e2 ··· er
En los problemas prácticos las frecuencias esperadas a menudo no aparecen 
dadas en forma explícita.
Observación: El nombre de ji cuadrado y el símbolo χ2 provienen de que 
χ representa la letra griega ji elevada al cuadrado, equivalente a la j castiza. 
Algunas personas le dicen chi cuadrado, lo cual se justifica por la expresión 
inglesa chi square, que los hipanoparlantes leen por lo regular chi cuadrada o 
chi cuadrado. 
Ejemplo 3.4:
En un área de salud se clasifican a los que asisten a la consulta con asma 
en las categorías A, B, C y D para determinada actividad. Un investigador de-
sea saber si la distribución por categorías es homogénea, para ello selecciona 
al azar una muestra de 54 asistentes asmáticos del área de salud y obtiene los 
resultados que aparecen en la tabla 3.4.
Tabla 3.4. Datos del ejemplo 3.4
Categoría A B C D
Número de asmáticos 12 17 15 10
En estas dócimas, para simplificar, se acostumbra a escribir las hipótesis con 
palabras, y a menudo solo se plantea la hipótesis nula H0, sobrentendiéndose la 
alternativa H1, que consiste en la negación de H0 con o sin restricciones, según 
el caso. Así, por ejemplo, en este caso se puede escribir:
Bioestadística cualitativa.indd 85 25/06/2010 12:20:03 p.m.
http://booksmedicos.org
86
− H0: En el área de salud las proporciones de asmáticos de las 4 categorías 
no difieren. 
− H1: En el área de salud las proporciones de asmáticos de las distintas 
categorías difieren.
Como r = 4 y n = 54, estas no son más que una expresión equivalente de 
las hipótesis:
H0: 4
1=ip para i = 1, 2, 3, 4 contra H1: 4
1≠ip para algún i = 1, 2, 3, 4.
Las frecuencias esperadas, bajo H0, son todas iguales a , por 
tanto, se cumplen las condiciones y se hace posible aplicar la dócima.
Las probabilidades o frecuencias relativas esperadas son, bajo H0, iguales 
a 4
1 , o sea, 0,25. En la tabla 3.5 aparece un resumen de todo el cálculo, donde 
se incluyen, además de las frecuencias absolutas, las relativas o proporciones.
Tabla 3.5. Cálculo de las frecuencias y proporciones observadas 
y esperadas
 Frecuencia Proporción
Categoría Observada Esperada Observada Esperada
A 12 13,5 0,2222 0,25
B 17 13,5 0,3148 0,25
C 15 13,5 0,2778 0,25
D 10 13,5 0,1852 0,25
Total 54 54,0 1,0000 1,00
χ² ≈ 2,148, gl = 3, P{χ² > 2,148} = 0,5423
Decisión: Como 0,5423 no es menor que 0,05 no se rechaza H0 con nivel 
de significación α = 0,05. Sobre la base de estos datos, no hay elementos su-
ficientes para afirmar que en el área de salud de donde proviene la muestra, la 
distribución de los asmáticos por categorías sea heterogénea.
También se puede hallar en la tabla 3.6, y, por tanto, la región 
crítica es: χ² > 7,81, y como 2,147 no cae en ella la decisión es la misma: No 
rechazar H0 con nivel de significación de 0,05.
Tabla 3.6. Percentiles más usuales de la distribución ji cuadrado
Orden del percentil
gl 0,99 0,99 0,97 0,95 0,90 0,10 0,05 0,025 0,01 0,005
1 7,88 6,63 5,02 3,84 2,71 0,0158 0,0039 0,0018 0,0002 0,0000
2 10,6 9,21 7,38 5,99 4,61 0,211 0,103 0,0506 0,0201 0,0100
Bioestadística cualitativa.indd 86 25/06/2010 12:20:03 p.m.
http://booksmedicos.org
87
3 12,8 11,3 9,35 7,81 6,25 0,584 0,352 0,216 0,115 0,071
4 14,9 13,3 11,1 9,49 7,78 1,06 0,711 0,484 0,297 0,207
5 16,7 15,1 12,8 11,1 9,24 1,61 1,15 0,831 0,554 0,412
6 18,9 16,8 14,6 12,6 10,6 2,60 1,64 1,24 0,872 0,676
7 20,3 18,5 16,0 14,1 12,0 2,83 2,17 1,69 1,24 0,9868 22,0 20,1 17,5 15,5 13,4 3,49 2,73 2,18 1,65 1,34
9 23,6 21,7 19,0 16,9 14,7 4,17 3,33 2,70 2,09 1,73
10 25,2 23,2 20,5 18,0 16,0 4,87 3,94 3,21 2,56 2,16
11 26,8 24,7 21,9 19,7 17,3 5,58 4,57 3,82 3,05 2,60
12 28,3 26,2 23,3 21,0 18,5 6,30 5,23 4,40 3,57 3,07
13 29,8 27,7 24,7 22,4 19,8 7,04 5,89 5,01 4,11 3,55
14 31,3 29,1 26,1 23,7 21,1 7,79 6,57 5,63 4,66 4,07
15 32,6 30,6 27,5 25,0 22,3 8,55 7,26 6,26 5,23 4,60
16 34,3 32,0 28,8 26,3 23,5 9,31 7,96 6,91 5,81 5,14
17 35,7 33,4 30,2 27,6 24,8 10,1 8,67 7,56 6,41 5,70
18 37,2 34,8 31,5 28,9 26,0 10,9 9,39 8,23 7,01 6,26
19 38,6 36,2 32,9 30,1 27,2 11,7 10,1 8,91 7,63 6,84
20 40,0 37,6 34,2 31,4 28,4 12,4 10,9 9,59 8,26 7,43
21 41,4 38,9 35,5 32,7 29,6 13,2 11,6 10,3 8,90 8,03
22 42,8 40,3 36,8 33,9 30,8 14,0 12,3 11,0 9,54 8,64
23 42,2 41,6 38,1 35,2 32,0 14,8 13,1 11,7 10,2 9,26
24 45,6 43,0 39,4 36,4 33,2 15,7 15,8 12,2 10,9 9,89
25 46,9 44,3 40,6 37,7 34,4 16,5 16,4 13,1 11,5 10,5
26 48,3 45,6 41,9 38,9 35,6 17,3 15,4 13,8 12,2 11,2
27 49,6 47,0 43,2 40,1 36,7 18,1 16,2 14,6 12,9 11,8
28 51,0 48,3 44,5 41,3 37,9 18,9 16,9 15,3 13,6 12,5
29 52,3 49,6 45,7 42,6 39,1 19,8 17,7 16,0 14,3 13,1
30 53,7 50,9 47,0 43,8 40,3 20,6 18,5 16,8 15,0 13,1
Para m = gl > 30 se tiene que .
Observaciones: 
1. A menudo, los sucesos Ai vienen representados como las clases de una 
distribución de frecuencias a la que se desea ajustar una distribución de 
probabilidades dada. En estos casos los sucesos son del tipo {X ∈ Ai }, sus 
probabilidades pi y X es la variable aleatoria cuya distribución queremos 
ajustar. También, a menudo, las frecuencias esperadas ei no se dan tan 
explícitamente, por ejemplo, si se conocen las probabilidades pi, entonces 
ei = npi, si no se dan, tendrán que haber elementos para estimarlas.
Bioestadística cualitativa.indd 87 25/06/2010 12:20:04 p.m.
http://booksmedicos.org
88
2. Existe la corrección por continuidad de Yates para el estadígrafo, se aplica 
cuando se utiliza una distribución continua (la ji cuadrado) como aproxi-
mación en el caso de datos discretos que consiste en usar el estadígrafo ji 
cuadrados corregido:
En muestras grandes no habrá gran diferencia entre los valores de los estadí-
grafos corregido y no corregido. La mayor utilidad de la corrección está en los 
casos en que el valor del estadígrafo está en los límites de la región crítica.
En el ejemplo anterior, utilizando la corrección de Yates se obtiene 
χ2 ≈ 2,2222 y P{χ² > 2,2222} = 0,527628, por lo que la decisión no cambia.
Problema propuesto 3.2:
Se realizar un cruce de con una muestra aleatoria de 64 individuos y se 
obtiene una relación de 33:13:15:3 y se desea saber si se puede afirmar que la 
relación poblacional sigue la distribución de Mendel: 9:3:3:1. 
3.1.4. Dócima de las rachas de Wald‑Wolfowitz para una población
Permite docimar la hipótesis de que los puntajes de una población se pre-
sentan aleatoriamente. Exige escala nominal dicotómica.
En una secuencia de dos puntajes en que cada uno se repite varias veces se 
le llama racha a la secuencia de todos los puntajes de un mismo tipo antecedida 
por a puntajes y precedida por b puntajes del otro tipo, donde a y b números 
naturales no nulos cualesquiera, excepto en el caso de rachas de los extremos 
de la secuencia, en que uno de ellos debe ser 0 necesariamente. 
Ejemplo 3.5:
En la siguiente secuencia de 17 puntajes F y M se observan nueve rachas 
(cinco de F y cuatro de M).
   
987654321
FFFMMMFMMFFMFFMFF
Los dos casos más extremos de rachas se ofrecen en la tabla 3.7.
Tabla 3.7. Casos de números de rachas extremos
(I) F F F F F F F F F F M M M M M M M
1 2
(II) F M F M F M F M F M F M F M F F F
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Bioestadística cualitativa.indd 88 25/06/2010 12:20:04 p.m.
http://booksmedicos.org
89
En el caso (I) se observan un mínimo de dos rachas, una de M y la otra de 
F, y en el caso (II) un máximo de 15 rachas, siete de M y ocho de F.
La aleatoriedad de una secuencia como esta significa que cada una de las 
17 letras tiene la misma probabilidad de ocupar cualquiera de las 17 posiciones 
posibles en la secuencia. Muy pocas rachas, como en el caso (I), y otros no tan 
extremos, está claro que indican falta de aleatoriedad, pero un número muy 
grande de ellas como en el caso (II) y otros no tan extremos también, porque, 
por ejemplo, si fuera el resultado del lanzamiento al azar de una moneda bien 
balanceada, de caras F y M, está claro que parecería poco probable y en vez 
de aleatoriedad podrían indicar existencia de fluctuaciones cíclicas de periodo 
corto. Entonces se puede utilizar como criterio para que una secuencia sea 
aleatoria que en ella se presenten ni pocas ni muchas rachas. Pero cuan pocas 
y cuan muchas rachas constituirán los límites para la decisión.
Estadígrafo: r: número de rachas.
Región crítica: 
2
α< rr o 
2
1
α−
> rr .
Estos valores críticos, aparecen en la tabla 3.8 de esta dócima para k y m 
comprendidos entre 2 y 20, donde k es el número de puntajes de un tipo y m, 
el del otro tipo.
Ejemplo 3.6:
Se observan 17 personas en fila esperando para acceder a la consulta de 
Cardiología de un policlínico A y se registra su sexo (F significa femenino y 
M, masculino):
F F M F F M F F M M F M M M F F F
¿Es aleatoria la secuencia de los dos sexos a la entrada de la consulta de 
Cardiología?
Hipótesis:
H0: La secuencia de los dos sexos a la entrada de la de la consulta de Car-
diología es aleatoria.
H1: No lo es.
Estadígrafo:
Se observan r = 9 rachas: cinco de F y cuatro de M.
El número de individuos del sexo femenino es k = 10 y el del sexo mascu-
lino es m = 7. Para estos dos valores, en cualquier orden, y para α = 0,05, en 
la tabla 3.8 se halla:
5025,0
2
==α rr y 
Bioestadística cualitativa.indd 89 25/06/2010 12:20:05 p.m.
http://booksmedicos.org
90
Tabla 3.8. Percentiles r de órdenes 0,025 y 0,975 (filas sombreadas) para 
la dócima de las rachas de Wald-Wolfowitz 
m 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k
2 2 2 2 2 2 2 2 2 2
3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3
4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4
 9 9
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5
9 10 10 11 11
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6
9 10 11 12 12 13 13 13 13
7 2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6
11 12 13 13 14 14 14 14 15 15 15
8 2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7
11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17
9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8
13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9
13 14 15 16 16 17 17 18 18 18 19 19 19 20 20
11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9
13 14 15 16 16 17 17 18 18 18 19 19 19 20 20
12 2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 10
13 14 16 16 17 18 19 19 20 20 21 21 21 22 22
13 2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10
15 16 17 18 19 19 20 20 21 21 22 22 23 23
14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11
15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
15 16 18 18 19 20 21 22 22 23 23 24 24 25
16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12
17 18 19 20 21 21 22 22 23 24 25 25 25
17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13
17 18 19 20 21 22 23 23 24 25 25 26 26
18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13
17 18 19 20 21 22 23 24 25 25 26 26 27
19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13
17 18 20 21 22 23 23 24 25 26 26 27 27
20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14
17 18 20 21 22 23 24 25 25 26 27 27 28
Bioestadística cualitativa.indd 90 25/06/2010 12:20:06 p.m.
http://booksmedicos.org
91
Región crítica: r < 5 o r > 14.
Y como el valor de r = 9 no cae en la región crítica, no se rechaza H0 con 
nivel de significación α = 0,05. Sobre la base de estos datos no se puede afirmar 
que la secuencia no es aleatoria.
Una aproximación para el caso de muestras grandes: para k > 20 o m> 20 
se utiliza el estadígrafo:
 ∼ N(0, 1) aproximadamente bajo H0.
Ejemplo 3.7:
Una muestra de información digitalizada arrojó la siguiente secuencia:
0 0 0 0 0 1 1 0 0 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 1
0 1 0 1 0 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 1 1 1 1
¿Podrá considerarse aleatoria la disposición de los 0 y los 1 en la informa-
ción digitalizada?
Hipótesis:
H0: La secuencia de 0 y 1 en la información es aleatoria.
H1: No lo es.
Estadígrafo: 
r: total de rachas: 18
Número de ceros: 29.
Número de unos: 22.
Rachas de ceros: 9.
Rachas de unos: 9.
Evaluando el estadígrafo para muestras grandes Z se tiene:
Z = –2,313 P{|Z| > 2,313} ≈ 0,0104
Decisión: Como 0,0104 < 0,05 se rechaza H0 con nivel de significación de 
0,05. Sobre la base de estos datos se puede afirmar que la secuencia de ceros y 
unos en la información no es aleatoria.
Corrección por continuidad
En el caso de k o m mayor que 20 con k + m suficientemente grande se 
puede mejorar la aproximación del estadígrafo Z a la distribución normal, utili-
zando la corrección por continuidad, al pasar de una distribución discreta a una 
continua, que en este caso consiste simplemente en restar 0,5 al valor absoluto 
del numerador de Z y utilizar el estadígrafo corregido:
Bioestadística cualitativa.indd 91 25/06/2010 12:20:06 p.m.
http://booksmedicos.org
92
El software estadístico más moderno aplica también estas correcciones, y 
brinda también el valor ajustando del estadígrafo.
Problema propuesto 3.3:
Verifique si la secuencia de F y M en la variable sexo de la matriz DatosM2 
de la tabla 1.3 es aleatoria.
3.1.5. Dócimas exacta F para la proporción de una población
Constituye una alternativa para las pruebas, tratadas antes, relativas a la 
proporción de una población, en particular en el caso de muestras pequeñas, 
que es el más complejo.
Se fundamenta en que si X es una variable aleatoria con distribución binomial 
con parámetros n y p, se puede probar que P{X < k} = P{F < F0}.
Donde F representa una variable aleatoria con distribución F de Fisher con 
m y r grados de libertad, k es el número de veces que ocurre A.
m = 2(n – k + 1), r = 2k y .
Pero, teniendo en cuenta que se está aproximando una distribución discreta, 
como la binomial por una continua, como la F de Fisher se utilizará la corrección 
por continuidad en todos los casos que se presenten en lo adelante, en particular 
en los de la tabla 3.9, donde se exponen resumidos dos casos importantes que 
pueden presentarse.
Tabla 3.9. Resumen de la dócima exacta F para un a proporción 
Hipótesis Estadígrafo Región crítica
H0: P = P0 
H1: P > P0 m = 2(k + 0,5) y r = 2(n – k + 0,5)
),(1 rmFF α−>
H0: P = P0 
H1: P < P0 m = 2(n – k + 0,5) y r = 2(k + 0,5) 
),( rmFF α<
H0: P = P0 
H1: P ≠ P0
Si p < P0 el caso se tratará como el caso (1)
Si p > P0 el caso se tratará como el caso (2)
Si p = P0 no se rechazará H0.
),(
2
rmFF α<
 
o
),(
2
1
rmFF α−
>
Bioestadística cualitativa.indd 92 25/06/2010 12:20:07 p.m.
http://booksmedicos.org
93
Ejemplo 3.8:
La probabilidad de encontrar un nebulizador de salbutamol defectuoso, en 
un lote de los que se sirven en la farmacia A, ha sido hasta el momento 0,05. 
Se revisan 10 lotes, seleccionados al azar, y se encuentra solo un artículo defec-
tuoso. ¿Habrá aumentado la probabilidad de encontrar un artículo defectuoso 
en esos lotes?
En la tabla 3.10 aparecen los percentiles de la distribución F de Fisher-
Snedecor.
Hipótesis: H0: P = 0,05 contra H1: P > 0,05
Datos: n = 10, k = 1, P0 = 0,05, Q0 = 0,95 
m = 2(k + 0,5) = 3 r = 2(n – k + 0,5) = 19, α = 0,05
, F0,95 (3,19) ≈ 3,10
Región crítica: F > 3,10
Decisión: Como F = 0,33 no cae en la región crítica, no supera a 3,10, no se 
rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no 
se puede afirmar que la probabilidad de encontrar un nebulizador de salbutamol 
defectuoso en la población de los lotes considerados es mayor que 0,05.
Ejemplo 3.9:
Se quiere verificar si la probabilidad de que salga el 6 en el lanzamiento de 
un dado es menor que 1/6 o no. Para ello se lanza el dado 12 veces y se observa 
que la cara con el 6 aparece 1 vez.
Hipótesis: H0: 6
1=P contra H1: 6
1<P 
Datos: n = 12, k = 1, ,
6
1
0 =P 6
5
0 =Q
 m = 2(n – k + 0,5) = 2(12 – 1 + 0,5) = 23, r = 2(k + 0,5) = 3
 
Región crítica: F < 0,33
Decisión: Como F = 0,65 no cae en la región crítica, no es menor que 0,33, no 
se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no 
se puede afirmar que la probabilidad de obtener la cara 6 es menor que 1/6.
Bioestadística cualitativa.indd 93 25/06/2010 12:20:07 p.m.
http://booksmedicos.org
94
Ta
bl
a 
3.
10
. T
ab
la
 d
e 
pe
rc
en
til
es
 d
e 
la
 d
is
tri
bu
ci
ón
 F
 d
e 
Fi
sh
er
-S
ne
de
co
r
G
L
D
en
N
um
er
ad
or
 o
rd
en
1
2
3
4
5
6
7
8
9
10
1
0,
90
39
,9
49
,5
53
,6
55
,8
57
,2
58
,2
58
,9
59
,4
59
,9
60
,2
0,
95
16
1
20
0
21
6
22
5
23
0
23
4
23
7
23
9
24
1
24
2
0,
97
5
64
8
80
0
86
4
90
0
92
2
93
7
94
8
95
7
96
3
96
9
0,
99
40
50
50
00
54
00
56
20
57
60
58
60
59
30
59
80
60
20
60
60
0,
99
5
16
20
0
20
00
0
21
60
0
22
50
0
23
10
0
23
40
0
23
70
0
23
90
0
24
10
0
24
20
0
2
0,
90
8,
53
9,
07
9,
16
9,
24
9,
29
9,
33
9,
35
9,
37
9,
38
9,
39
0,
95
18
,5
19
19
,2
19
,2
19
,3
19
,3
19
,4
19
,4
19
,4
19
,4
0,
97
5
38
,5
39
39
,2
39
,2
39
,3
39
,3
39
,4
39
,4
39
,4
39
,4
0,
99
98
,5
99
,7
99
,2
99
,2
99
,3
99
,3
99
,4
99
,4
99
,4
99
,4
0,
99
5
19
8
19
9
19
9
19
9
19
9
19
9
19
9
19
9
19
9
19
9
3
0,
90
5,
54
5,
46
5,
39
5,
34
5,
31
5,
28
5,
27
5,
25
5,
24
5,
23
0,
95
10
,1
9,
55
9,
28
9,
12
9,
01
8,
94
8,
89
8,
85
8,
81
8,
79
0,
97
5
17
,4
16
15
,4
15
,1
14
,9
14
,7
14
,6
14
,5
14
,5
14
,4
0,
99
34
,1
30
,8
29
,5
28
,7
28
,2
27
,9
27
,7
27
,5
27
,3
27
,2
0,
99
5
55
,6
49
,8
47
,5
46
,2
45
,4
44
,8
44
,4
44
,1
43
,9
43
,7
4
0,
90
4,
54
4,
32
4,
19
4,
11
4,
05
4,
01
3,
98
3,
95
3,
94
3,
92
0,
95
7,
71
6,
94
6,
59
6,
39
6,
26
6,
16
6,
09
6,
04
6
5,
96
Bioestadística cualitativa.indd 94 25/06/2010 12:20:08 p.m.
http://booksmedicos.org
95
0,
97
5
12
,2
12
,1
10
,6
9,
98
9,
6
9,
36
9,
2
9,
07
8,
98
8,
9
0,
99
21
,2
18
16
,7
16
15
,5
15
,2
15
14
,8
14
,7
14
,5
0,
99
5
31
,3
26
,3
24
,3
23
,2
22
,5
22
21
,6
21
,4
21
,1
21
5
0,
90
4,
06
3,
78
3,
62
3,
52
3,
45
3,
4
3,
37
3,
34
3,
32
3,
30
0,
95
6,
61
5,
79
5,
41
5,
19
5,
05
4,
95
4,
88
4,
82
4,
77
4,
74
0,
97
5
10
8,
43
7,
76
7,
39
7,
15
6,
98
6,
85
6,
76
6,
68
6,
62
0,
99
16
,3
13
,3
12
,1
11
,4
11
10
,7
10
,5
10
,3
10
,2
10
,1
0,
99
5
22
,8
18
,3
16
,5
15
,5
14
,9
14
,5
14
,2
14
13
,8
13
,6
6
0,
90
3,
78
3,
46
3,
29
3,
18
3,
11
3,
05
3,
01
2,
98
2,
96
2,
94
0,
95
5,
99
5,
14
4,
76
4,
53
4,
39
4,
28
4,
21
4,
15
4,
1
4,
06
0,
97
5
8,
81
7,
26
6,
6
6,
23
5,
99
5,
82
5,
7
5,
6
5,
52
5,
46
0,
99
13
,7
10
,9
9,
78
9,
15
8,
75
8,
47
8,
26
8,
1
7,
98
7,
87
0,
99
5
18
,6
14
,5
12
,9
12
11
,5
11
,1
10
,8
10
,6
10
,4
10
,2
7
0,
90
3,
59
3,
26
3,
07
2,
96
2,
88
2,
83
2,
78
2,
75
2,
72
2,
7
0,
95
5,
59
4,
74
4,
35
4,
12
3,
97
3,
87
3,
79
3,
73
3,
68
3,
64
0,
97
5
8,
07
6,
54
5,
89
5,
52
5,
29
5,
12
4,
99
4,
9
4,
82
4,
76
0,
99
12
,2
9,
55
8,
45
7,
85
7,
46
7,
19
6,
99
6,
84
6,
72
6,
62
0,
99
5
16
,2
12
,4
10
,9
10
9,
52
9,
16
8,
89
8,
68
8,
51
8,
38
Bioestadística cualitativa.indd 95 25/06/2010 12:20:08 p.m.
http://booksmedicos.org
96
Ejemplo 3.10:
Se considera que el 30 % de los estudiantes de un grupo de enfermería tienen 
una opinión positiva ante cierto asunto de atención al paciente. Se entrevistan 
cinco estudiantes del grupo seleccionados al azar y se encuentran dos con la 
opinión positiva. ¿Habrá variadoel porcentaje de opinión positiva de los estu-
diantes ante el asunto? Utilice un nivel de significación de 0,01.
Hipótesis: H0: P = 0,30 contra H1: P ≠ 0,30
Datos: n = 5, k = 2, P0 = 0,30, Q0 = 0,70, α = 0,01 y como 5
2=p = 0,40 > 0,30, 
se utiliza el primer caso de la tabla resumen 3.9, como se recomienda al final 
de ella, con 005,0
2
=α en lugar de α = 0,01.
m = 2(2 + 0,5) = 5, r = 2(n – 2 + 0,5) = 2(5 – 2 + 0,5) = 7 
 F0,995 (5,7) ≈ 9,52
Región crítica: F > 9,52 
Probabilidad crítica: P{X > 0,6} ≈ 0,70324701, donde X es una variable 
aleatoria con distribución F de Fisher con 5 y 7 grados de libertad. 
Decisión: Como 0,70324701 no es menor que 0,01, o como F = 0,6 no cae en 
la región critica, no se rechaza H0 con nivel de significación de 0,01. Sobre la base 
de estos datos no se puede afirmar que ha variado, en la población, la proporción 
de opiniones positivas sobre el asunto de atención al paciente en cuestión.
Problema propuesto 3.4:
Un sitio actualizado de internet considera que el 80 % de los pacientes de 
una enfermedad cancerígena aumenta notablemente su expectativa de vida con 
el tratamiento actual. Se someten al tratamiento siete pacientes aquejados de 
la enfermedad seleccionados al azar y se encuentran seis que han aumentado 
notablemente su expectativa de vida. ¿Habrá variado el porcentaje de pacientes 
que han aumentado notablemente su expectativa de vida? Utilice α = 0,05.
3.2. Dócimas para dos poblaciones
Sean, respectivamente:
− X1, X2,...,, Xm y Y1, Y2, ..., Yn dos muestras aleatorias de las poblaciones 
X e Y.
− P1, p1, P2, p2 las respectivas proporciones poblacionales y muestrales 
de X e Y.
− R, r los respectivos coeficientes de correlación poblacional y muestral 
entre X e Y.
Bioestadística cualitativa.indd 96 25/06/2010 12:20:09 p.m.
http://booksmedicos.org
97
En el caso de la dócimas de dos poblaciones se presentan dos casos: el de 
muestras independientes, que son en las que los valores de una no dependen 
de los valores de la otra, y el de muestras apareadas, que es el caso en que los 
individuos de ambas muestras se aparean buscando que los dos individuos de 
cada pareja no difieran en las características que puedan influir en la que se 
observa, un caso muy común de apareamiento se tiene cuando se aparea cada 
individuo de la muestra consigo mismo en las observaciones repetidas al cabo 
de un tiempo.
3.2.1. Dócimas para las proporciones de dos poblaciones en caso 
de muestras grandes
Esta dócima, al igual que la de la proporción de una población sólo exige 
muestras aleatorias grandes en escalas nominales dicotómicas Por la poca exi-
gencia respecto a la escala de cuantificación es de amplio uso en los trabajos 
investigativos pedagógicos, psicológicos y humanísticos en general. Las hipó-
tesis y regiones críticas se ofrecen resumidas en la tabla 3.11 y el estadígrafo 
cambiará según el caso, pero siempre tendrá distribución aproximadamente 
normal estándar.
Tabla 3.11. Resumen de lo común en las pruebas de dos proporciones
Hipótesis Región crítica
H0: p1 = p2 contra H1: p1 ≠ p2
H0: p1 ≤ p2 contra H1: p1 > p2 Z > Z1 – α
H0: p1 ≥ p2 contra H1: p1 < p2 Z < –Z1 – α
La exigencia de muestras grandes se puede reducir a que np y nq, mp1, mq1, 
nq1 y nq2 sean todas mayores que 5, siendo q1 = 1 – p1 y p2 = 1 – q2 y n y m 
los tamaños muestrales según el caso.
1. Caso de muestras independientes 
 
con 
 
y q = 1 – p
 
Ejemplo 3.11:
¿Puede afirmarse que hay diferencia entre las proporciones de alumnas en 
las poblaciones? Utilice un nivel de significación de 0,05.
Datos: n1 = 25, n2 = 50, p1 = 0,56 y p2 = 0,60. 
Bioestadística cualitativa.indd 97 25/06/2010 12:20:09 p.m.
http://booksmedicos.org
98
Hipótesis: H0: P1 = P2 contra H1: P1 ≠ P2 
Z = −0,332 P{|Z| > 0,332} ≈ 0,7398
Decisión: Como 0,7398 no es menor que 0,05, no se rechaza H0 con 
nivel de significación 0,05. Sobre la base de estos datos no se puede afirmar 
que difieran las proporciones de alumnas en las dos poblacionnes.
También se tiene que Z0,975 ≈ 1,96 y por tanto la región crítica viene deter-
minada por |Z| > 1,96 y el valor del estadígrafo Z no cae en ella.
2. Caso de muestras apareadas o dos proporciones en una población 
con las características mutuamente excluyentes
Estadígrafo: 
 
Donde p1es la proporción de individuos con una de las características o con 
la característica en cuestión en una de las muestras y p2 es la proporción de 
individuos con la otra característica o con la característica en la otra muestra.
Ejemplo 3.12:
¿Puede afirmarse que hay diferencia entre las proporciones de matriculados 
en los institutos 1 y 2 de la población de la matriz de DatosE3 de tabla 1.30?
Suponiendo que la matrícula en el institutos 1 excluye la matrícula en el 
instituto 2 y viceversa. 
Hipótesis: H0: P1 = P2 contra H1: P1 ≠ P2 
Datos: 
 
,
 
y m + n = 50
Z = –0,851 P {Z < −0,851} = 0,1973 
Decisión: Como 2(0,1973) = 0,3946 no es menor que 0,05 no se rechaza 
H0 con nivel de significación de 0,05. Sobre la base de estos datos no puede 
hacerse la afirmación.
 También se tiene que Z0,975 ≈ 1,96 y por tanto la región crítica casos viene 
determinada por |Z| > 1,96.
3. Caso de muestras apareadas o dos proporciones en una población 
con las características no excluyentes 
Estadígrafo: 
Bioestadística cualitativa.indd 98 25/06/2010 12:20:09 p.m.
http://booksmedicos.org
99
Donde p12 representa la proporción muestral de individuos que poseen la 
característica cuya proporción es p1 y además poseen también la característica 
cuya proporción es p2, siendo p1 y p2 definidas como en el caso anterior.
Ejemplo 3.13:
¿Puede afirmarse que hay diferencia entre las proporciones de alumnos 
con grado de habilidad entre 1 y 6 y de alumnos con grado de habilidad entre 
6 y 10?
Datos: 
, 
y
 
Ya que de un total de 50, hay 34 con grado de habilidad entre 1 y 6, hay 24 
con grado de habilidad entre 6 y 10, y hay 8 con grado de habilidad igual a 6. 
Utilice un nivel de significación de 0,05.
Hipótesis: 
H0: P1 = P2 contra H1: P1 ≠ P2 
Z = 1,581 P {Z > 1,581} = 0,0569
Decisión: Como 2(0,0569) = 0,1138 no es menor que 0,5 no se rechaza 
H0 con nivel de significación de 0,05. Sobre la base de estos datos no puede 
hacerse la afirmación.
También se tiene que Z0,975 ≈ 1,96 y por tanto la región crítica viene 
determinada por |Z| > 1,96 y 1,581 no cae en ella, por tanto la decisión es la 
misma.
Problema propuesto 3.5:
Verifique en la población de donde procede la matriz de DatosM2 de la 
tabla 1.3 si hay o no diferencia entre las proporciones:
− De niños clasificados con retraso mental ligero y los clasificados con 
retraso mental grave.
− De niñas y niños clasificados con retraso mental moderado.
− De niños clasificados de ligeros a moderados y los clasificados de 
moderado a grave.
3.2.2. Dócimas de independencia y homogeneidad ji cuadrado en tablas 
de contingencia
Estas dócimas se pueden considerar una extensión de las de bondad de 
ajuste y como aquella requiere un procesamiento previo de los datos originales 
que consistente en construir con los datos originales una tabla de contingencia. 
Es una dócima muy utilizada por su poca exigencia: escala al menos nominal 
en las dos variables en cuestión, que casi siempre se cumple, pero exige otras 
condiciones que le impiden ser universal. 
Bioestadística cualitativa.indd 99 25/06/2010 12:20:10 p.m.
http://booksmedicos.org
100
1. Dócima de independencia
Una tabla de contingencia como se trató en el epígrafe 1.4 y en el análisis 
del coeficiente de correlación V de Cramér, no es más que una distribución biva-
riada de frecuencias como la de la tabla 1.28. Allí se definieron las frecuencias 
observadas oij, y las esperadas eij, estas últimas vendrán dadas, y en caso de que 
no se den, que es lo más común, se estimarán por la fórmula:
n
nn
e jiij
••= , para i = 1, 2,..., r y j = 1, 2,..., c
Sean A y B los factoresfila y columna de la tabla bivariada de frecuencias. 
Sean A1, A2,..., Ar y B1, B2,..., Bc un total de r + c sucesos de un experimento 
aleatorio, donde tanto A1, A2,..., Ar como B1, B2,..., Bc son mutuamente exclu-
yentes y tales que para todo i = 1, 2,..., c y j = 1, 2,..., r, un suceso Ai ocurre 
solo conjuntamente con algún suceso Bj.
Sea pij = P(Ai ∩ Bj), pi. = P(Ai) y p.j = P (B) para i = 1, 2,..., c y j = 1, 
2,..., r.
En la teoría de probabilidades se dice que dos sucesos Ai y Bj son indepen-
dientes si P(Ai ∩ Bj) = P(Ai) P(Bj), o sea si pij = pi. p.j.
Entonces se podrá plantear la hipótesis de independencia de los factores A 
y B con los niveles A1, A2,..., Ar y B1, B2,..., Bc , respectivamente, así:
H0: pij = pi. ·p.j para todo i = 1, 2,..., c; j = 1, 2,..., r.
H1: pij ≠ pi. ·p.j para algún i = 1, 2,..., c; j = 1, 2,..., r.
Teniendo en cuenta que una tabla de contingencia de r filas y c columnas 
es una extensión de la tabla de frecuencias observadas de una fila de rc ele-
mentos o una columna de rc elementos, frecuencias observadas, de la dócima 
de bondad de ajuste de 3.1.3, por analogía con lo tratado en esta se tenderá 
a rechazar H0 si (oij − eij)2 es significativamente grande, donde oij = n fi j y 
eij = n pi. ·p.j bajo H0 (1).
Entonces un estadígrafo razonable para docimar las hipótesis planteadas es: 
Que registra cualquier desviación de las frecuencias observadas oij respecto a 
las frecuencias esperadas eij, o lo que es equivalente, de las frecuencias relativas 
fij respecto a las correspondientes probabilidades pij, que, bajo H0 son iguales 
a los productos de pi. por p.j. Entonces, si se cumplen las condiciones de que 
ninguna de las frecuencias esperadas sea menor que 1 y no más del 20 % menor 
que 5, este estadígrafo χ2 tendrá aproximadamente una distribución ji cuadrado 
con cr – 1 – m grados de libertad, donde m era igual al número de parámetros 
que hay que estimar para obtener las frecuencias esperadas eij.
Los cr – 1 – m grados de libertad representan el total de celdas menos 1 y 
menos m, como se trató en el caso de bondad de ajuste. 
Bioestadística cualitativa.indd 100 25/06/2010 12:20:10 p.m.
http://booksmedicos.org
101
Si no se cumplan las condiciones referentes a las frecuencias esperadas, una 
solución consiste en agrupar filas o columnas contiguas para que el valor de las 
frecuencias esperadas en las nuevas filas o columnas sea mayor. Pero hay que 
tener en cuenta que el valor del estadígrafo depende de la tabla de contingencia, 
cambia con ella, y de ella depende la decisión.
Existe otra expresión, quizás más sencilla para el cálculo manual, de este 
estadígrafo:
Que se obtiene desarrollando el cuadrado en la fórmula original y aplicando 
las propiedades de las frecuencias observadas y esperadas. 
Un caso muy común, de la prueba de independencia es aquel en que hay 
que estimar todos los parámetros, los r − 1 de pi. y los c − 1 de p.j , porque una 
vez estimados estos, el r-ésimo y el c-ésimo no hay que estimarlos, se obtienen, 
respectivamente, de las sumas:
1
1
=∑
=
•
r
i
ip y 1
1
=∑
=
•
c
j
jp
Entonces se estiman en total r – 1 + c – 1 = r + c – 2 parámetros y los grados 
de libertad serán:
cr – 1– m = cr – 1– (r + c – 2) = (r – 1)(c – 1)
En este caso, estimando las probabilidades marginales •ˆ ip y jp•ˆ por sus 
correspondientes frecuencias relativas 
n
ni• y 
n
n j• que son las estimaciones de
las probabilidades marginales correspondientes, se tiene que:
n
nn
n
n
n
n
nppne jijijiij
••••
•• ˆˆˆ === para i = 1, 2,..., c j = 1, 2,..., r.
Resumiendo, para docimar la hipótesis H0: hay independencia entre los fac-
tores fila y columna de la tabla de contingencia, un estadígrafo adecuado es χ2 y 
su región crítica viene dada por , en general, o, en particular, 
cuando se estiman todas las frecuencias esperadas ( )( )[ ]11212 −−χ>χ α− cr .
Ejemplo 3.14:
Con los datos de los 50 niños y niñas clasificados con retraso ligero, mode-
rado y severo o grave de la matriz de DatosM2 se obtiene la tabla 3.12.
Para comprobar si se cumplen las condiciones se calculan, en la tabla 3.13, 
las frecuencias esperadas por la fórmula 
n
nn
e jiij
••= , o sea, la suma de la fila i
por la suma de la columna j dividida entre el total general n.. = n. 
Bioestadística cualitativa.indd 101 25/06/2010 12:20:11 p.m.
http://booksmedicos.org
102
Tabla 3.12. Datos del ejemplo 3.14
Frecuencias observadas
Masculino Femenino Total
L 6 6 12
M 10 10 20
S o G 14 4 18
Total 30 20 50
Tabla 3.13. Frecuencias esperadas
Frecuencias esperadas
Masculino Femenino Total
L 7,20 4,80 12
M 12,00 8,00 20
S y G 10,80 7,20 18
Total 30 20 50
En la tabla 3.13 se satisfacen las condiciones, hay una frecuencias esperada 
igual a 4,80 menor que 5, pero 1 de 6 solo representa el 16,7 % menor que 20 %, 
entonces tiene sentido aplicar esta dócima para la hipótesis. 
H0: Hay independencia entre el sexo y el tipo de retraso mental en la po-
blación de donde proviene la muestra de la tabla 3.12.
Las frecuencias esperadas y demás cálculos se obtuvieron en el ejemplo 
1.16, en el cálculo del del coeficiente V de Cramér.
χ2 ≈ 3,704, gl = (3 – 1)(2 – 1) = 2, P{χ2 > 3,704} ≈ 0,1569
Decisión: Como 0,1569 no es menor que 0,05 no rechazamos H0 con un 
nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar 
que el tipo de retraso mental según las tres clasificaciones de la tabla 3.13 
depende del sexo.
Además, y por tanto la región crítica vendrá dada por 
χ2 > 5,99 y como 3,704 no es mayor que 5,99 no se rechaza H0 con nivel de 
significación de 0,05. 
En el caso particular de tablas de contingencia de dos filas por dos columnas 
como esta: 
A B
C D
 Como se vio al tratar el coeficiente de correlación V de Cramér, el estadígra-
fo ji cuadrado se puede expresar en función de las frecuencias A, B, C y D:
Bioestadística cualitativa.indd 102 25/06/2010 12:20:11 p.m.
http://booksmedicos.org
103
Ejemplo 3.15:
Agrupando los clasificados con retraso ligero y moderado se obtiene de 
la tabla 3.12 la tabla 3.14. Veerifique si hay independencia entre el sexo y la 
clasificación según el grado de retraso mental en la población de donde pro-
vienen estos datos.
Tabla 3.14. Datos del ejemplo 3.15
Frecuencias observadas
masculino femenino Total
L y M 16 16 32
S y G 14 4 8
Total 30 20 50
Hipótesis:
H0: Hay independencia entre el sexo y el tipo de retraso mental en la po-
blación de donde proviene la muestra de la tabla 3.15. 
Solución: A = 16, B = 16, C = 14 y D = 4 entonces n = A + B + C + D = 50, 
y por tanto: 
(AD – BC)2 = (64 – 224) =1602 = 25 600 
(A + B)(A + C)(C + D)(B + D) = 32(30)18(20) = 345 600
gl = (2 – 1)(2 – 1) = 1, P{χ2 > 3,70} ≈ 0,054412
Desición: Como 0,054412 no es menor que 0,05 no se rechaza la hipótesis 
H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede 
afirmar que no hay ndependencia entre el sexo y la clasificación según el tipo 
de retraso mental en severo o grave y ligero o moderado.
Corrección por continuidad de Yates
Para esta dócima también es válida la corrección por continuidad de Yates, 
explicada en la dócima ji cuadrado de bondad de ajuste, y en particular es útil en 
las tablas de contingencia de 2 x 2, en los casos en que el valor de el estadígrafo 
está muy próximo a la región crítica o la probabilidad crítica muy próxima al 
nivel de significación. La fórmula de χ2 corregida viene dada por:
Los software estadísticos actuales a menudo brindan esta corrección.
Bioestadística cualitativa.indd 103 25/06/2010 12:20:11 p.m.
http://booksmedicos.org
104
2. Dócima ji cuadrado de homogeneidad
La dócima de independencia se puede utilizar también, con las mismas 
notaciones, para decidir acerca de la homogeneidad o igualdad de c proporcio-
nes o frecuencias en r clasificaciones, esto es si hay homogeneidad entre las 
filas o entre las columnas de la tabla. Los cálculos son los mismos, aunque las 
hipótesis son otras. Vea la observación que aparecedespués del ejemplo 3.15.
Ejemplo 3.16:
En una prueba realizada al final de un experimento a tres grupos (mues-
tras) de alumnos de medicina en el cual se evaluaron los estudiantes en cinco 
asignaturas del semestre. Los resultados muestran las cantidades de aprobados 
en las distintas asignaturas y aparecen en la tabla 3.15. Se desea saber si hay 
homogeneidad entre las poblaciones de donde provienen los grupos en cuanto 
a las cantidades de aprobados en las distintas asignaturas.
Tabla 3.15. Datos del ejemplo 3.15
Asignatura
Número de aprobados
Total
Grupo 1 Grupo 2 Grupo 3
1 20 18 20 58
2 17 16 14 47
3 13 12 8 33
4 11 9 7 27
5 11 10 15 36
Total 72 65 64 201
Para resolver el problema, inicicialmente se plantean las hipótesis:
H0: No hay diferencia entre las poblaciones de donde provienen las muestras 
aleatorias de los grupos en cuanto a las cantidades de aprobados en las cinco 
asignaturas
H1: Si la hay.
En la tabla 3.16 se ofrecen las frecuencias esperadas necesarias para evaluar 
el estadígrafo.
Tabla 3.16. Frecuencias esperadas
Asignatura Grupo 1 Grupo 2 Grupo 2 Total
1 20,78 18,76 18,47 58
2 16,84 15,20 14,97 47
3 11,82 10,67 10,51 33
4 9,67 8,73 8,60 27
5 12,90 11,64 11,46 36
Total 72 65 64 201
Bioestadística cualitativa.indd 104 25/06/2010 12:20:11 p.m.
http://booksmedicos.org
105
χ2 = 3,263 gl = 8, P{χ2 > 3,263} ≈ 0,9168
Decisión: Como 0,9168 no es menor que 0,05, no se rechaza H0 con nivel 
de significación de 0,05. Sobre la base de estos datos no se puede afirmar 
que hay diferencia entre las poblaciones en las evaluaciones de las cinco 
asignaturas.
Además, y entonces la región críticas viene dada por: 
χ2 > 15,5, y como 3,263 no es mayor que 15,5 no se rechaza H0 con nivel de 
significación de 0,05.
Alternativas de estas dócimas ji cuadrado son las de proporciones ya estu-
diadas y la de probabilidad exacta de Fisher.
Observación: La dócima de homogeneidad no es exactamente igual a la de 
independencia, aunque la tabla de contingencia, los cálculos necesarios para 
obtener el estadígrafo y la región crítica sean los mismos, como se ha podido 
apreciar en el ejemplo. Se diferencian en las suposiciones de partida y en lo 
siguiente:
1. En la dócima de independencia se consideran dos variables 
(poblaciones) fila y columna representando cada una un factor con r 
y c niveles respectivamente, y en la de homogeneidad r poblaciones 
(variables X1, X2,..., Xr) de donde proceden las distintas filas de la 
tabla, cada una de las cuales representa una muestra aleatoria (o bien 
c poblaciones, variables X1, X2,..., Xc, de donde proceden las distintas 
columnas de la tabla, cada una de las cuales representa una muestra 
aleatoria 
2. Las hipótesis en la de independencia son H0: hay independencia entre los 
niveles de los factores y en la de homogeneidad; H0: las r proporciones 
poblaciones de donde proceden las muestras-filas son homogéneas, o 
bien, H0: las c proporciones poblaciones de donde proceden las muestras-
columnas son homogéneas.
3. Las estimaciones de las frecuencias esperadas para el cálculo del 
estadígrafo dependen de las hipótesis que como se verá a continuación, 
son diferentes. En la de independencia son las descritas anterirmente, al 
tratar esta dócima, y en la de homogeneidad de las columnas se parte de 
que la estimación de las proporciones poblacionales son las frecuencias 
marginales de la variable fila divididas por el total general de la tabla, 
que multiplicadas por el total de columna correspondiente proporciona, 
en cada caso, como se verá más adelante, el mismo estimador 
n
nn ji •• 
que en la de dócima de independencia.
Por ejemplo en la tabla 3.16, bajo la hipótesis H0: las poblaciones de donde 
proceden las muestras de los grupos experimentales son homogéneas y consi-
derando las tres columnas tres muestras aleatorias de la misma población o de 
poblaciones homogéneas, bajo H0, la mejor estimación de la proporción pobla-
Bioestadística cualitativa.indd 105 25/06/2010 12:20:12 p.m.
http://booksmedicos.org
106
cional combinada de los aprobados en la asignatura 1 (fila 1) es y,
puesto que las tres poblaciones son homogéneas, esta proporción se puede in-
terpretar como si se aplicara a cada una de las tres poblaciones individualmente. 
Así, bajo H0, es la mejor estimación de la probabilidad de que un estudiante 
elegido aleatoriamente de entre los que se han evaluado en las cinco asignaturas 
haya aprobado la asignatura 1, y se esperaría encontrar que 
del grupo 1 aprobaron la asignatura 1. Análogamente se puede esperar que 
 alumnos del grupo 2 y del grupo 3 
aprueben la asignatura 1. 
Con lo anterior se llena la primera fila de la tabla de frecuencias esperadas, 
repitiendo el proceso con la mejor estimación de la proporción poblacional 
combinada de los aprobados en la asignatura 2 que, bajo H0, es ,
se obtendría la segunda fila y luego la tercera, cuarta y quinta hasta completar 
la tabla 3.16, final de frecuencias esperadas.
Como se habrá podido observar, este razonamiento difiere, en cuanto al 
procedimiento de obtención de las frecuencias esperadas aplicado en la dócima 
ji cuadrado de independencia. 
Problema propuesto 3.6:
Construya una tabla de frecuencias observadas con tres categorías, digamos 
la 1-2, la 3-4 y la 5-6 para la variable EV1 y analice la posibilidad de probar 
la independencia del sexo con la clasificación de EV1 en esa forma y también 
verifique la hipótesis de homogeneidad entre los dos sexos. Calcule además el 
coeficiente V de Cramér entre estas dos variables y decida si hay o no correla-
ción entre ellas en la población. 
3.2.3. Dócima de significación para el coeficiente de correlación 
V de Cramér
La dócima ji cuadrado de independencia en tablas de contingencia tratada 
antes representa una prueba de significación para el coeficiente de correlación 
V de Cramér. 
Hipótesis: H0: son independientes las dos variables en escalas nominales 
X e Y. 
La decisión será la de:
Bioestadística cualitativa.indd 106 25/06/2010 12:20:12 p.m.
http://booksmedicos.org
107
1. Rechazar la hipótesis H0: V = 0 si en la dócima χ2 se rechaza la hipótesis 
de independencia.
2. No rechazar H0: V = 0 si en la dócima χ2 no se rechaza la hipótesis de 
independencia.
Ejemplo 3.17:
Decida si hay correlación según el coeficiente V de Cramér entre el sexo y 
la variable EV1 con los valores A, B y C (haciendole corresponder a los valores 
1 y 2 de EV1 la A, al 3 y 4 la B y al 5 y 6 la C) en la población los 50 individuos 
de la matriz de DatosM2 de la tabla 1.3. En distribución bivariada de frecuencias 
de la tabla 3.17 se brindan los datos necesarios. 
Tabla 3. 17. Datos del ejemplo 3.17
Frecuencias observadas
Masculino Femenino Total
A 3 7 10
B 7 13 20
C 10 10 20
Total 20 30 50
Primeramente se plantean las hipótesis: 
H0: No hay correlación poblacional entre el sexo y el grado de retraso mental 
recodificado a tres valores.
H1: Hay correlación poblacional entre el sexo y el grado de retraso mental 
recodificado a tres valores.
El estadígrafo es el ji cuadrado de independencias en tablas de contingencia, 
que se requiere también para el cálculo de V.
Para que tenga sentido aplicar la dócima ji cuadrado de independencia en 
tablas de contingencia, primeramente hay que comprobar las condiciones y para 
ello se calculan, en la tabla 3.18, las frecuencias esperadas. 
Tabla 3.18. Frecuencias esperadas
EV1 Masculino Femenino Total
A 4 6 10
B 8 12 20
C 8 12 20
Total 20 30 50
Para finalmente obtener:
Bioestadística cualitativa.indd 107 25/06/2010 12:20:12 p.m.
http://booksmedicos.org
108
χ2 ≈ 1,4583, 
P{χ2 > 1,4583} ≈ 0,48231 
Como 0,48231 no es menor que 0,05 no se rechaza la hipótesis de inde-
pendencia de la dócima ji cuadrado y como consecuencia de esto también H0 
con nivel de significación de 0,05, por tanto, sobre la base de estos datos no 
se puede afirmar que haya correlación (V de Cramér), en la población, entre el 
sexo y el EV1 recodificado a los tresvalores A, B y C.
Problema propuesto 3.7: 
Resuelva el ejemplo 3.17 con la escala de variable EV2 de la matriz de 
DatosM2 de la tabla 1.3.
3.2.4. Dócima de la probabilidad exacta de Fisher
Es útil para docimar independencia u homogeneidad en tablas de contin-
gencia de 2 x 2. Las hipótesis son las mismas de las correspondientes dócimas 
ji cuadrado.
Constituye una alternativa de la dócima ji cuadrado de tablas de contingencia 
cuando las frecuencias esperadas no cumplen las condiciones de ser ninguna 
menor que 1 y no más del 20 % menores que 5.
En la tabla 3.19 se muestra un modelo de tabla de contingencia de 2 x 2.
Tabla 3.19. Tabla de bivariada de frecuencias de 2 x 2
Columna 1 Columna 2 Total
Fila 1 A B A + B
Fila 2 C D C + D
A + C B + D N
La probabilidad de observar esta distribución de entre todas las posibles 
distribuciones de A, B, C y D con los totales marginales (A + C, B + D, A + B 
y C + D) fijos se puede considerar igual a P{X = A} donde X es una la variable 
aleatoria que registra la frecuencia absoluta o número de individuos en la celda 
de la intersección de la columna 1 con la fila 1 de la tabla.
Se interpretará que los individuos A + B de la fila 1 constituyen la mues-
tra aleatoria, sin reposición, de tamaño n = A + B de la población de tamaño 
N = A + B + C + D. La columna 1 la constituirán los A + C individuos de 
la población que poseen la característica T, en cuestión, su número es M = A + C 
que, que en ocasiones se denomina número de posibles de ocurrencias. A 
será, entonces, igual al número de individuos de la muestra que poseen la 
característica T.
Bioestadística cualitativa.indd 108 25/06/2010 12:20:12 p.m.
http://booksmedicos.org
109
El experimento modelo de la variable aleatoria X es el de extraer una muestra 
simple aleatoria de tamaño n de una población de tamaño N en que M elementos 
poseen la característica T, el resto N – M = B + D no la poseen, y nos interesa 
la probabilidad de que A elementos de la muestra la posean. Semejante variable 
aleatoria posee una distribución de probabilidades llamada hipergeométrica con 
parámetros N, M y n. En tal caso se tiene que:
{ } ( ) ( ) ( )( )
N!A!B!C!D!
!DB!CA!DC!BA
BA
N
AN
MN
A
M
AXP
++++=




+




−
−




==
Donde , k! = k(k – 1)(k – 2) ... 1 y 0! = 1, para todo 
par de números naturales n y k.
En las dócimas de independencia y homogeneidad ji cuadrado, bajo la 
hipótesis nula H0, los totales marginales permanecen invariables, con ellos se 
calculan las frecuencias esperadas. Entonces para la prueba de Fisher bastará 
intercambiar filas, columnas o realizar ambas operaciones hasta lograr hacer 
coincidir la menor de las frecuencias de las cuatro celdas con A. sin que se 
altere el contenido total de la tabla, y entonces calcular P{X < A} utilizando 
la distribución hipergeométrica de X, y si resulta menor que α se rechazará H0 
con nivel de confianza igual a α. 
De modo que la tabla final para realizar la prueba será:
A B
C D
Y los valores de A, B, C y D son los finalmente obtenidos, o sea, tales que 
A es la menor de las cuatro frecuencias A, B, C y D. Los clasificacion según los 
encabezamientos de filas y columnas originales deben quedar inalteradas con 
estos intercambios de filas y columna2s, se intercambiarán las filas y columnas 
junto con sus encabezamientos y se mantendran las sumas marginales. 
Entonces la regla de decisión será rechazar H0 si: 
P{X ≤ A} < α en dócimas de una cola. 
P{X ≤ A} < en dócimas de dos colas.
Ejemplo 3.18:
Se quiere verificar si en una población de personal médico los dos sexos di-
fieren en cuanto al modo de enfrentar la gripe (racionalmente e irracionalmente) 
Bioestadística cualitativa.indd 109 25/06/2010 12:20:13 p.m.
http://booksmedicos.org
110
cuando la padecen ellos mismos, o bien si hay o no independencia entre el sexo 
y el modo de enfrentar la gripe cuando ellos mismos la padecen. Se cuenta con 
las frecuencias de los modos de abordar la gripe en la muestra aleatoria de la 
población que se muestran en la tabla 3.20.
Tabla 3.20. Datos del ejemplo 3.18
Masculino Femenino
Racionalmente 4 8
Irracionalmente 6 2
H0: Hay independencia entre el sexo y el modo de enfrentar la gripe en la 
población de personal médico de donde procede la muestra.
Intercambiando primero las filas y después las columnas, obtenemos la tabla 
3.21, con la menor frecuencia (2) en la celda superior izquierda.
Tabla 3.21. Frecuencia menor en la primera celda 
Femenino Masculino
Irracionalmente 2 6
Racionalmente 8 4
Utilizando un nivel de significación α = 0,05 y A = 2:
P{X < A} ≈ 0,00988 según la tabla 3.22.
Tabla 3.22. Distribución de probabilidades hipergeométricas 
con parámetros 20, 10 y 8 
k P{Y=k} P{Y ≤ k}
0 0,000357 0,00036
1 0,009526 0,009886
2 0,075018 0,084904
3 0,240057 0,324961
4 0,350083 0,675044
5 0,240057 0,915101
6 0,075018 0,990119
7 0,009526 0,999645
8 0,000357 1,000002
Como P{X < 2} ≈ 0,00988 < 0,025 se rechaza H0 con nivel de significación 
de 0,05. Sobre la base de estos datos se puede afirmar que no hay independen-
cia entre el sexo y el modo de enfrentar la gripe cuando ellos la sufren en la 
población de donde procede la muestra. 
En la tabla 3.22 aparece la distribución de probabilidades (de una 
variable aleatoria Y con distribución hipergeométrica con parámetros 
Bioestadística cualitativa.indd 110 25/06/2010 12:20:13 p.m.
http://booksmedicos.org
111
N = A + B + C + D = 20, M = A + C = 10 y n = A + B = 8, con los casos de 
interés indicados. 
Decisión: Como para dócimas de una cola P{X < 2} ≈ 0,009886 < 0,05 
(tabla 3.22), se rechazaría H0 con nivel de significación de 0,05. 
El valor observado de P{X < 8} ≈ 1,000002 en la tabla 3.22 se debe a las 
aproximaciones de los acumulados anteriores de la columna. 
Problema propuesto 3.8:
Decida si el modo en que realizan una actividad laboral es independiente 
en los enfermeros y las enfermeras a partir de muestras aleatorias de 10 enfer-
meros y 11 enfermeras con los que se construye la distribución de frecuencias 
bivariadas y la tabla de contingencia (tabla 3.23).
Tabla 3.23. Datos del problema propuesto 3.8
Satisfactoriamente No satisfactoriamente
Enfermeros 3 7
Enfermeras 2 9
3.2.5. Dócimas de McNemar
Esta es una dócima ji cuadrado apropiada para decidir si hay o no diferencia 
entre dos poblaciones a partir de dos muestras apareadas en escalas dicotómicas 
(que incluyen el caso de los experimentos de antes y después en los que cada 
individuo o elemento de la muestra está apareado consigo mismo, o sea, es 
usado como su propio control). Se utilizará para verificar si hay o no cambios 
después, respecto a lo acontecido antes.
Exige construir con los datos una tabla de contingencia de 2 x 2 con el 
formato de la tabla 3.24.
Las celdas de cambio, de 0 a 1 y de 1 a 0 se van a considerar las de la dia-
gonal principal, estas seran A y D. Las hipótesis a docimar son las siguientes:
H0: P10 = P01 contra H1: P10 ≠ P01
Tabla 3.24. Formato de una tabla de contingencia 2 x 2
Después
1 0
Antes
0 A B
1 C D
Significa que la probabilidad de 0 antes y 1 después es igual a la de 1 antes 
y 0 después, o también que la proporción de los que cambiaron en un sentido 
es la misma que los que cambiaron en el otro sentido. 
Bioestadística cualitativa.indd 111 25/06/2010 12:20:13 p.m.
http://booksmedicos.org
112
El estadígrafo utilizado es:
DA
DA
+
−=χ
2
2 )(
 
Bajo H0, este estadígrafo tiene aproximadamente distribución ji cuadrado 
con 1 grado de libertad y se obtiene del estadígrafo χ2 de la dócima de indepen-
dencia en tablas de contingencia de 2 x 2 con la suma extendida a sólo las dos 
celdas diagonales, las de cambio, cuyas frecuencias se denotaron por A y D.
Según lo planteado, para las tablas de contingencia de 2 x 2, por lo general 
se obtienen mejores resultados utilizando la corrección por continuidad de Yates, 
con la cual la expresión del estadígrafo resulta igual a:
 
Ejemplo 3.19:
Un psiquiatraha observado el comportamiento de los niños con retraso 
mental antes y después de la realización de un conjunto de actividades que 
él supone que los hará cambiar. Con la finalidad de comprobar su hipótesis, 
se escogen aleatoriamente 29 de los niños con retraso mental, se someten a 
este tratamiento y se clasifican, de acuerdo con su comportamiento en malo y 
aceptable tanto antes como después de realizar el conjunto de actividades. Los 
resultados aparecen en la tabla 3.25.
Tabla 3.25. Datos del ejemplo 3.19
Después
Antes
Aceptable Malo
Malo 5 13
Aceptable 4 7
Hipótesis: 
H0: La realización del conjunto de actividades no los hará cambiar.
H1: La realización del conjunto de actividades los hará cambiar.
Estadígrafo: 
 
P{χ2 > 0,75} ≈ 0,38648
Además, y por tanto la región crítica vendrá dada por χ2 > 3,84.
Decisión: Como 0,38648 no es menor que 0,05 (también por no ser 0,75 
mayor que 3,84) no se rechaza H0 con nivel de significación de 0,05. Sobre 
la base de estos datos no se puede afirmar que la realización del conjunto de 
actividades los hará cambiar.
Bioestadística cualitativa.indd 112 25/06/2010 12:20:13 p.m.
http://booksmedicos.org
113
Observaciones:
1. Si la disposición de las frecuencias A, B, C y D no es la indicada no habrá 
lugar a dudas siempre que A y D indiquen las frecuencias de cambio 
de 0 antes a 1 después y de 1 antes a 0 después, respectivamente. En 
algún software se admite que las celdas de cambio sean las de la otra 
diagonal, la de las celdas B y C. 
2. Para garantizar una buena aproximación de la distribución del estadígrafo 
a la distribución ji cuadrado, son válidos los requisitos de las anteriores 
dócimas ji cuadrado respecto a la frecuencia esperada 
2
DA + , que es la
 única. Una alternativa cuando esta sea menor que cinco está en utilizar 
la dócima binomial, planteando las hipótesis:
 H0: P = 0,5 contra H1: P ≠ 0,5
 siendo 
DA
A
p
+
= la proporción muestral y n = A + D.
 En el ejemplo anterior 5 + 7 = 12 y .
3. Una demostración de la analogía de este estadígrafo con el de las dócimas 
de independencia y homogeneidad se obtiene expresándolo en función 
de las frecuencias observadas oij y las esperadas eij: 
( ) ( ) ( )
22
2
2222
11
2
1111
22
2
2
2
2
2
e
eo
e
eo
DA
DA
D
DA
DA
A
DA
DA −+
−
=
+



 +−
+
+










 +−
=
+
−
Que es la suma de los cuadrados de las diferencias entre las frecuencias 
observadas y esperadas de las celdas correspondientes a A y D divididas entre 
las correspondientes frecuencias esperadas, a semejanza del anterior estadígrafo 
ji cuadrado de la tabla de contingencia.
Problema propuesto 3.9:
Se desea saber si hay cambios en el coeficiente de inteligencia CI por encima 
de 50 en la segunda medición respecto a la primera (variables CI2 y CI1) de los 
niños de la población de donde proviene la matriz de DatosM2 de la tabla 1.3. 
La tabla 3.26 se conformó con los datos originales.
Tabla 3.26. Datos del problema propuesto 3.9
Después
Antes ≤ 50 >50
> 50 22 6
≤ 50 12 10
Bioestadística cualitativa.indd 113 25/06/2010 12:20:14 p.m.
http://booksmedicos.org
114
3.2.6. Extensión de la dócima de McNemar
La dócima de McNemar que se acaba de estudiar se puede extender a tablas 
de k por k para las hipótesis:
H0: Pij = Pji para i, j = 1, 2,..., k
O sea, las frecuencias poblacionales son iguales en las celdas situadas 
simétricamente.
El estadígrafo para este caso es: 
 aproximadamente bajo H0.
Ejemplo 3.20:
Se observan las calificaciones de una muestra aleatoria de 127 residentes 
de un área de salud antes y después de una serie de conferencias sobre su es-
pecialidad médica y se obtienen los resultados de la tabla 3.27.
Tabla 3.27. Calificaciones de los residentes del ejemplo 3.20
Después
Antes Mal Regular Bien Excelente
Mal 10 13 15 4
Regular 9 12 10 5
Bien 6 9 6 3
Excelente 7 10 5 3
 ¿Se puede afirmar que en esta universidad el número de residentes que 
cambian de una calificación (celda) i, antes de la serie de conferencias, para 
otra calificación j de la tabla, después de la serie de conferencias, es igual al de 
los que cambian de la calificación j para la calificación i, y esto es válido para 
todo i = 1, 2, 3, 4 y j = 1, 2, 3, 4.
Para resolver este problema se plantean las hipótesis: 
H0: El número de estudiantes que cambian de una calificación i para otra 
calificación j es igual al de los que cambian de j para i, siendo i = 1, 2, 3, 4 y 
j = 1, 2, 3, 4.
H1: No se cumple H0.
Estadígrafo: 
Bioestadística cualitativa.indd 114 25/06/2010 12:20:14 p.m.
http://booksmedicos.org
115
Región crítica: 
Decisión: Como 4,16 no es mayor que 7,81 no se rechaza H0 con nivel de 
significación 0,05. Sobre la base de estos datos muestrales no se puede afir-
mar que haya cambios en la población de residentes con motivo de la serie de 
conferencias.
Calculando P{χ2 > 4,16} ≈ 0,2447 por lo que el resultado es el mismo, no 
se rechazará H0 con nivel de significación de 0,05. 
Dócima para el coeficiente de correlación punto biserial
El coeficiente punto biserial es preferible al V de Cramér porque aprovecha 
mayor información de la variable en escala de intervalo o razón. Por esto se 
brinda una tabla de significación para él, que permite conformar una dócima.
Ejemplo 3.21:
Verifique si hay correlación entre las variables sexo y el coeficiente de 
inteligencia (CI3) en la población de donde procede la muestra aleatoria de la 
tabla 1.3, matriz de DatosM2.
Solución: Como sexo es una variable dicotómica y CI3, coeficiente de 
inteligencia 3, está en escala de intervalo la correlación apropiada en cuestión 
es la punto biserial. 
Hipótesis: H0: R·bis = 0 contra H1: R·bis ≠ 0 
Estadígrafo:
Proporciones de los varones y las hembras p = 0,6 y q = 0,4, respectiva-
mente.
Medias de los varones y las hembras: 44,913 y 39,985, respectivamente.
Desviación estándar de Y: 10,796; r.bis = –0,224; n = 50.
Región crítica: r·bis > 0,273, valor crítico obtenido para α = 0,05, en la 
tabla 1.45. 
Decisión: Como –0,224 no es mayor que 0,273 no se rechaza H0 con 
nivel de significación de 0,05. Sobre la base de estos datos no puede afirmar-
se que haya correlación entre el sexo y la el coeficiente de inteligencia (CI3) 
poblacionales.
Problema propuesto 3.10:
Verifique si hay correlación entre las variables sexo y CI2 en la población 
de donde proviene la matriz de DatosM2 de la tabla 1.3.
Bioestadística cualitativa.indd 115 25/06/2010 12:20:14 p.m.
http://booksmedicos.org
116
3.3. Dócimas para más de dos poblaciones
Las pruebas de más de dos poblaciones tres o más medias por analogía con 
la correspondiente prueba de más de dos medias llamadas análisis de varianza 
(ANOVA), también en cierta medida se han apropiado de este término y se oye 
a menudo hablar de los ANOVA de Friedman, Kruskal-Wallis. Pero cuando se 
habla de ANOVA sin apellido se refiere al ANOVA paramétrico, cuya deno-
minación proviene del estadígrafo que se obtiene de la descomposición de la 
varianza en varianza entre grupos y dentro de los grupos. 
3.3.1. El ANOVA de razón de varianza
Permite decidir si las proporciones de tres o más poblaciones son iguales o 
no. Exige muestras aleatorias independientes en escala nominal.
Sea k el número de poblaciones y P1, P2,..., Pk las proporciones poblacio-
nales de individuos que poseen la característica A.
Hipótesis: H0: P1 = P2 = ... = Pk contra H1: Al menos dos de estas propor-
ciones difieren.
Estadígrafo:
Donde:
n1, n2,..., nk: son los tamaños de las k muestras.
mi: la frecuencia de individuos con la característica A en la muestra de 
tamaño ni, para i = 1, 2,..., k.
∑
=
=
k
i
inn
1
, ∑
=
=
k
i
imm
1
, 
n
m
p = y pq −= 1
Donde p es la proporción de la muestra conjunta.
Región crítica: V > V1 – α (k – 1)
En en la tabla 3.28 se ofrecen los valores de V1 – α (k – 1), para algunos 
valores comunes de k y de 1– α. 
Tabla 3.28. Percentiles de V
k – 1 0,95 0,99 k – 1 0,95 0,99 k – 1 0,95 0,99
1 3,84 6,63 8 1,942,51 40 1,46 1,70
2 3,00 4,60 10 1,88 2,41 50 1,39 1,59
3 2,60 3,78 12 1,83 2,32 60 1,35 1,52
4 2,37 3,32 16 1,75 2,18 70 1,32 1,47
Bioestadística cualitativa.indd 116 25/06/2010 12:20:15 p.m.
http://booksmedicos.org
117
5 2,21 3,02 20 1,64 1,99 75 1,28 1,41
6 2,09 2,80 24 1,57 1,88 100 1,24 1,36
7 2,01 2,64 30 1,52 1,79 ∞ 1,00 1,00
 Las columnas de la tabla aparecen encabezadas por el número de muestras 
menos uno (k – 1) y los números con decimales que corresponden a los valores 
de 1 – α.
Ejemplo 3.22:
Entre los 14 niños de la raza blanca de la matriz de DatosM2 de la tabla 1.3 
hay 9 varones, entre los 14 de la raza negra hay 7 y entre los 22 de otras razas 
hay 14 y se desea verificar si hay o no diferencias entre las proporciones de 
varones en estas tres razas. Utilice un nivel de significación de 0,01.
Hipótesis: H0: p1 = p2 = ... = pk. H1: Algún par de proporciones difiere.
n1 = 14, n2 = 14, n3 = 22, m1 = 9, m2 = 7, m3 = 14, n = 50, m = 30
Región crítica: V > V1 – α (k – 1) = V0,99(3) ≈ 3,78
Decisión: Como 0,4058 no es menor que 3,78, no cae en la región crítica no 
se rechaza H0 con nivel de significación de 0,01. Sobre la base de estos datos 
no se puede afirmar que haya diferencia entre las proporciones de varones en 
los niños de las tres razas consideradas.
Para muestras grandes, en los casos que no pueda utilizarse la tabla 3.28, 
puede aplicarse el estadígrafo transformado con distribución aproximadamente 
ji cuadrado con k – 1 grados de libertad:
2
1
0
2
menteaproximada
bajo
)1( −χ−=χ k
H
Vk ~
Donde V es el estadígrafo del ejemplo 3.22.
Bajo H0 la distribución de este estadígrafo es ji cuadrado con k – 1 grados 
de libertad y por tanto la región crítica vendrá dada por )1(21
2 −χ>χ α− k .
Para los datos del ejemplo anterior, suponiendo que se cumplen las con-
diciones 99,5)1(21
2 ≈−χ>χ α− k , χ2 = 2(0,4058) = 0,8116 que no es mayor que 
5,99, P{χ2 > 0,8116} ≈ 0,666443 y por tanto la decisión es la misma, no se 
rechaza la hipótesis nula con nivel de significación de 0,05. Sobre la base de 
estos datos no hay elementos suficientes para afirmar que haya diferencias en 
las proporciones poblacionales. Se aplico esta transformación como ejemplo 
para simplificar los cálculos pero siempre que se pueda aplicar el ANOVA 
Bioestadística cualitativa.indd 117 25/06/2010 12:20:15 p.m.
http://booksmedicos.org
118
de razón de varianzas de la tabla 3.28 no se utilizará esta aproximación para 
muestras grandes.
Problema propuesto 3.11:
Verifique si hay diferencias entre las proporciones de niños con retrazo 
mental de cada una de las categorías ligera, moderada, severa y grave de la 
matriz de DatosM2 de la tabla 1.3.
3.3.2. El análisis de varianza Q de Cochran
Permite comparar tres o más proporciones poblacionales a partir de muestras 
igualadas y en escalas dicotómicas.
Hipótesis: 
H0: Las k proporciones son iguales.
H1: Al menos dos proporciones difieren.
Estadígrafo:
( )
2
1
0
1
2
1
2
11
2
menteaproximada
bajo
1
−
==
==
χ
−
















−−
=
∑∑
∑∑
kn
j
j
n
j
j
k
i
i
k
i
i
HFFk
cckk
Q ~
Se obtiene disponiendo los datos en una tabla con k columnas y n filas, 
tal que en la intersección de la fila j con la columna i se encuentra el j-ésimo 
puntaje de la i-ésima muestra.
Para i = 1, 2,..., k y j = 1, 2,..., n
Ci: es la suma de los puntajes de la i-ésima columna de la tabla.
Fj: es la suma de los puntajes de la j-ésima fila de la tabla. 
Región crítica: ( )121 −χ> α− kQ percentil de orden 1 – α de la distribución 
ji cuadrado con k – 1 grados de libertad. 
Ejemplo 3.23:
Se desea tomar una decisión respecto a si hay diferencias o no entre los 
resultados de la aplicación de tres tratamientos contra el dengue hemorrágico, 
para lo cual se cuenta con tres muestras aleatorias igualadas, una para cada 
tratamiento, obtenidas después de seleccionar 20 ternas igualadas de pacientes, 
asignando aleatoriamente cada uno de los tres pacientes de una terna a uno de 
los tres tratamientos. Luego se registraron los efectos de cada tratamiento con 
la notación siguiente: 
Notación: 
T1: indica el tratamiento 1.
Bioestadística cualitativa.indd 118 25/06/2010 12:20:15 p.m.
http://booksmedicos.org
119
T2: indica el tratamiento 2. 
T3: indica el tratamiento 3.
1: indica de se recuperó en una semana. 
0: no se recuperó en una semana. 
En la tabla 3.29 aparecen los datos.
Tabla 3.29. Modelo de disposición de los datos para la prueba Q 
de Cochran
Terna T1 T2 T3 F F2
1 1 1 1 3 9
2 0 1 1 2 4
3 0 0 0 0 0
4 1 1 0 2 4
5 0 1 0 1 1
6 0 0 0 0 0
7 1 0 0 1 1
8 1 1 0 2 4
9 1 1 0 2 4
10 0 1 0 1 1
11 1 0 0 1 1
12 0 0 0 0 0
13 1 1 1 3 9
14 1 1 1 3 9
15 1 1 0 2 4
16 1 1 0 2 4
17 1 1 0 2 4
18 1 1 1 3 9
19 1 1 0 2 4
20 1 1 0 2 4
C 14 15 5 34 76
C2 196 225 25 446
Para resolverlo se plantean primeramente las hipótesis:
H0: No hay diferencia entre las probabilidades de restablecimiento al cabo 
de una semana entre las poblaciones de donde proceden las tres muestras.
H1: Estas probabilidades difieren. 
tomando α = 0,05 
P{χ2 > 14} ≈ 0,000913
Bioestadística cualitativa.indd 119 25/06/2010 12:20:15 p.m.
http://booksmedicos.org
120
Decisión: Como 0,000913 < 0,05 se rechaza H0 con nivel de significación 
de 0,05 (y también de 0,000914). Sobre la base de estos datos se puede afirmar 
que las probabilidades restablecimiento al cabo de una semana difieren en los 
pacientes tratados con los tres distintos tratamientos.
Además, y por tanto: 
Región crítica: χ2 > 5,99 y como el valor 14, del estadígrafo, cae en esta 
región crítica la decisión es la de rechazar H0 con nivel de significación de 0,05, 
la obtenida antes.
Problema propuesto 3.12:
Considere las poblaciones de niños clasificados según la escala de Vineland 
como normales (valores 1 y 2) con el valor 0 y los clasificados con valores pa-
tológicos (3, 4, 5 y 6) con el valor 1 y verifique si no hay diferencias entre los 
clasificados con valores patológicos en las poblaciones de donde proceden las 
tres muestras representadas por los valores de las variables EV1, EV2 y EV3. 
Bioestadística cualitativa.indd 120 25/06/2010 12:20:15 p.m.
http://booksmedicos.org
121
Capítulo 4
Dócimas para muestras 
en escalas ordinales
4.1. Dócimas para una población
4.1.1. Dócima de bondad de ajuste de Kolmogórov‑Smírnov
Permite decidir si la distribución de una población es una distribución su-
puesta hipotéticamente a partir de una muestra aleatoria en escala ordinal.
Hipótesis:
H0: La distribución poblacional es la supuesta.
H1: La distribución poblacional no es la supuesta.
Estadígrafo:
D: diferencia máxima absoluta entre las frecuencias acumulativas relativas 
observadas y esperadas.
Región crítica: D > D1 – α(n)
El valor crítico D1 – α(n) se encuentra a en la tabla 4.1.
Esta dócima utiliza más información que la ji cuadrado correspondiente y 
no presenta exigencias a las frecuencias esperadas, pero exige más respecto a 
las diferencias admisibles que la dócima ji cuadrado de bondad de ajuste. 
Tabla 4.1. Percentiles del estadígrafo D de la prueba de una población de 
Kolmogórov-Smírnov
n 0,90 0,95 0,99 n 0,90 0,95 0,99
3 0,636 0,708 0,829 12 0,338 0,375 0,449
4 0,565 0,624 0,734 13 0,325 0,361 0,432
5 0,509 0,563 0,669 14 0,314 0,349 0,418
6 0,468 0,519 0,617 15 0,304 0,338 0,404
7 0,436 0,483 0,576 16 0,295 0,327 0,392
8 0,410 0,454 0,542 17 0,286 0,318 0,381
9 0,378 0,430 0,513 18 0,279 0,309 0,371
10 0,369 0,457 0,486 19 0,271 0,301 0,361
11 0,352 0,391 0,468 20 0,265 0,294 0,352
Bioestadística cualitativa.indd 121 25/06/2010 12:20:16 p.m.
http://booksmedicos.org
122
21 0,259 0,287 0,344 50 0,170 0,188 0,226
22 0,253 0,281 0,337 55 0,162 0,180 0,216
23 0,247 0,275 0,307 60 0,155 0,172 0,207
24 0,242 0,269 0,323 65 0,149 0,166 0,199
25 0,238 0,264 0,317 70 0,144 0,160 0,192
26 0,233 0,259 0,311 75 0,139 0,154 0,185
27 0,229 0,254 0,305 80 0,135 0,150 0,179
28 0,225 0,250 0,300 85 0,131 0,145 0,174
29 0,221 0,246 0,29590 0,127 0,141 0169
30 0,218 0,242 0,290 95 0,124 0,137 0165
35 0,202 0,224 0,269 100 0,121 0,134 0161
40 0,189 0,210 0,252 n más
grande n
22,1
45 0,179 0,198 0,238
Ejemplo 4.1:
Se desea saber si ha variado la distribución de la escala de Vineland EV1 
de los niños de población de donde procede la muestra aleatoria de la matriz 
de DatosM2 de la tabla 1.3 respecto a la distribución dada por las frecuencias 
hipotéticas EV0 que se ofrece en la tabla 4.2 junto a la construida con los datos 
de EV1.
Tabla 4.2. Distribuciones de frecuencia de EV1 e hipotética
Clases Frecuenciaobservada
Frecuencia
hipotética
1 2 3
2 8 9
3 11 14
4 9 10
5 11 8
6 9 6
La variable EV1 está en escala ordinal y para resolver el problema se pue-
de utilizar entonces la dócima de Kolmogórov-Smírnov para una población. 
También se podría aplicar la dócima ji cuadrado de bondad de ajuste, pero 
ella solo utilizaría la información de las frecuencias y no la del orden, que sí 
utiliza esta.
Primeramente se calculan ambas distribuciones de frecuencias acumu-
lativas relativas y a continuación se halla la clase con mayor diferencia D 
(tabla 4.3).
Bioestadística cualitativa.indd 122 25/06/2010 12:20:16 p.m.
http://booksmedicos.org
123
Tabla 4.3. Distribuciones acumulativas relativas observada e hipotética
Clases
Frecuencia acumulativa
relativa observada 
de EV1
Frecuencia acumulativa
relativa esperada 
de EV0
Diferencia
1 0,04 0,06 –0,02
2 0,20 0,24 –0,04
3 0,42 0,52 –0,10
4 0,60 0,72 –0,12
5 0,82 0,88 –0,06
6 0,04 0,06 –0,02
D = 0,12 (valor absoluto) y en la tabla de percentiles de esta dócima halla-
mos D1 – α(n) = D0,95(50) = 0,188.
Decisión: Como D = 0,12 no es mayor que 0,188 (no cae en la región 
crítica) no se rechaza H0 con nivel de significación de 0,05. Sobre la base 
de estos datos no se puede afirmar que la distribución observada difiere de 
lahipotética de V0.
Problema propuesto 4.1:
Resuelva el ejemplo 4.1, pero con EV2 en lugar de EV1.
4.1.2. Dócimas de las rachas por encima y por debajo de la mediana
Las dócimas de las rachas de Wald-Wolfowitz se trataron en el epígrafe 
3.1.4 para una variable en escala nominal. Ahora se tratarán de varias dócimas 
más específicas de rachas para una variable en escala ordinal.
En general la hipótesis nula en las dócimas de las rachas puede expresarse 
de la manera siguiente:
H0: Todas las posibles disposiciones de los puntajes en la secuencia consi-
derada son igualmente probables.
Sus posibles alternativas son:
1. H1: Presencia de cambios en la secuencia. 
2. H1: Presencia de tendencia en la secuencia.
3. H1: Presencia de movimientos cíclicos en la secuencia.
4. H1: Alternativas paramétricas específicas.
Se llaman rachas por encima y por debajo de la mediana las dócimas en 
que se consideran las rachas de los puntajes muestrales que quedan por encima 
y las de los puntajes que quedan por debajo de la mediana de la muestra en la 
secuencia original de los datos.
Bioestadística cualitativa.indd 123 25/06/2010 12:20:16 p.m.
http://booksmedicos.org
124
Para simplificar se representarán los puntajes que son menores que la media-
na por a y los mayores que la mediana por b,en una nueva variable dicotómica 
indicadora en al cual se encontraran las rachas de a y de b.
1. Dócima basada en el número total de rachas de los símbolos a y b
Permite docimar la hipótesis nula de que todas las posibles disposiciones 
de los puntajes en la secuencia original de los datos son igualmente probables 
en la población. Exige escala ordinal
Se puede considerar, también, en dependencia de la hipótesis alternativa, 
como caso particular la dócima de las rachas de Wald-Wolfowitz.
Hipótesis: 
H0: Todas las posibles disposiciones en la secuencia son igualmente pro-
bables.
H1: Presencia de cambio, tendencia o ambos.
Estadígrafo: r : número total de rachas.
Región crítica: r < rα
Los valores de rα se hallan en la tabla 4.4.
Tabla 4.4. Obtención de r para la dócima basada en el total de rachas de 
símbolos a, b
n α = 0,01 0,05 0,10
3 ‑ ‑ 3(0,10 )
4 3(0,028) ‑ 4(0,11 )
5 3(0,008) 4(0,040) ‑
6 4(0,013) 5(0,067) ‑
7 5(0,025) ‑ 6(0,078)
8 5(0,009) 6(0,031) 7(0,10 )
9 6(0,012) 7(0,044) 8(0,11 )
10 7(0,019) 8(0,051) 9(0,13 )
11 7(0,007) 9(0,063) 10(0,13 )
12 8(0,009) 10(0,070) 11(0,15 )
13 9(0,013) 10(0,034) 11(0,081)
14 10(0,015) 11(0,041) 12(0,087)
15 10(0,007) 12(0,046) 13(0,097)
16 11(0,009) 13(0,053) 14(0,10 )
17 12(0,011) 14(0,057) 15(0,11 )
18 13(0,013) 15(0,064) 16(0,12 )
19 13(0,006) 15(0,034) 17(0,13 )
20 14(0,007) 16(0,038) 17(0,075)
Bioestadística cualitativa.indd 124 25/06/2010 12:20:17 p.m.
http://booksmedicos.org
125
Ejemplo 4.2:
Verifique si la secuencia de puntajes de EdC de las niñas de la matriz de 
DatosM2 de la tabla 1.3, eliminando o ignorando los puntajes intermedios de 
los varones, como se presenta a continuación, es aleatoria.
14 16 12 7 1 14 9 15 11 6
18 10 5 12 9 17 13 11 7 8
Según el enunciado se desea saber si esta secuencia es aleatoria o presenta 
tendencia al agrupamiento.
Para resolverlo primero se plantean las hipótesis:
H0: Los puntajes se presentan aleatoriamente.
H1: En la secuencia hay cambios o tendencia al agrupamiento.
A continuación se ordenan los puntajes y se halla la mediana:
1 5 6 7 7 8 9 9 10 11
11 12 12 13 14 14 15 16 17 18
La mediana es igual a 11. Se compara ahora cada puntaje original con la 
mediana y se le hace corresponder a o b como se puede apreciar en la variable 
Asignación del listado siguiente, según sea menor o mayor, respectivamente 
que 11. Optamos por ignorar los iguales a 11, con lo que se reduce la muestra 
en dos unidades y entonces n = 18.
Dato original Asignación No. de racha
14 b
16 b 1
12 b
7 a 2
1 a
14 b 3
9 a 4
15 b 5
11
6 a 6
18 b 7
10 a 8
5 a
12 b 9
9 a 10
17 b 11
13 b
11
7 a 12
8 a
Bioestadística cualitativa.indd 125 25/06/2010 12:20:17 p.m.
http://booksmedicos.org
126
Estadígrafo: r = 12 
Región crítica: r < rα
En la tabla 4.4, para n = 18 se encuentra que 0,013 < α < 0,064 que cor-
responden a los valores de r de 13 y 15 respectivamente, que acompañan a 
los valores 0,01 y 0,05 de α. Teniendo en cuenta todo esto se toma el valor 
intermedio r0,05 ≈ 14,5 (interpolando aproximadamente).
Decisión: Como r = 12 cae en la región crítica r < rα, por ser menor que 
14,5, se rechaza H0 con nivel de significación de 0,05 (y de 0,01 también, por 
ser 12 menor que 13). Sobre la base de estos datos se puede afirmar que hay 
cambios o tendencia al agrupamiento en la secuencia de las puntuaciones de 
la edad cronológica de las niñas de la población de donde procede la muestra 
DatosM2 de la tabla 1.3.
En el caso de n > 20 y 
n
á
n 4
1
1
4
1 −≤≤ α 
n
á
n 4
1
1
4
1 −≤≤ el valor del estadígrafo se
puede hallar tomando uno de los enteros más próximos que proporciona la 
fórmula: 
122
3 2
1 −
−−+= α−α n
nn
Znr
Ejemplo 4.3:
Al considerar una muestra de tamaño 21, por ejemplo, la siguiente:
4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13
Se ordena para hallar la mediana:
1 1 1 2 3 4 4 5 5 6 6 6 7 7 8 9 11 12 13 15 17
La mediana es igual a 6. Se compara ahora cada puntaje original con la 
mediana y se le hace corresponder a o b según sea menor o mayor, respecti-
vamente que 6.
Se ha considerado, el rango ligado 6, repetido tres veces, alternativamente 
como mayor y como menor que la mediana, empezando por mayor, seleccio-
nado aleatoriamente de entre menor y mayor en el primer caso, por menor en 
el segundo caso y otra vez mayor en el tercer caso. Este es un artificio posible 
ante la alternativa de reducir la muestra en tres individuos.
Se tiene que r = 6 y α = 0,05. 
, 988,0012,01
4
1
1 =−≈−
n
 luego 
nn 4
1
1
4
1 −≤α≤
Bioestadística cualitativa.indd 126 25/06/2010 12:20:17 p.m.
http://booksmedicos.org
127
Región crítica: r < rα
Decisión: Como r = 6 cae en la región crítica, puesto que es menor que 
17,24 se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos 
datos se puede afirmar que los puntajesno se presentan aleatoriamente.
Eliminando los puntajes iguales a la mediana 6 se obtiene:
Que parece conducir también a rechazar H0, puesto que entonces n = 18 
y el valor crítico, según la tabla 4.4, estaría entre 13 y 15, con probabilidades 
0,013 y 0,064 respectivamente, entonces la probabilidad 0,05 corresponde a 
un valor comprendido entre 13 y 15, sea este el valor intermedio r0,05 ≈ 14,5 
(interpolando aproximadamente).
Como r = 4 y la región crítica viene dada por r < 14,5, se rechazará H0 con 
nivel de significación de 0,05 (y mucho menor también).
2. Dócima basada en la longitud de la racha más larga de símbolos a o b
Permite docimar la hipótesis H0 de que todas las posibles disposiciones de 
los puntajes en la secuencia definida son igualmente probables en la población. 
Exige escala ordinal.
Hipótesis: 
H0: Todas las posibles disposiciones de los puntajes en la secuencia son 
igualmente probables.
H1: Hay presencia de cambio, tendencia o ambos.
Estadígrafo: L: longitud de la racha más larga de cualquiera de los símbolos 
a y b.
Región crítica: L > Lα.
Para 5 ≤ n ≤ 20 y 0,01 ≤ α ≤ 0,36 Lα se halla en la tabla 4.5.
Para n > 20 y 
nn
1
1
1 −≤α≤ se puede usar el valor crítico:
 
O uno de los enteros más próximos conveniente, usando la aproximación 
de Poisson.
Bioestadística cualitativa.indd 127 25/06/2010 12:20:17 p.m.
http://booksmedicos.org
128
Tabla 4.5. Valores de Lα para un n dado
n Lα 4 5 6 7 8 9 10
5 0,23 0,04
6 0,36 0,10
7 0,16 0,01
8 0,21 0,05
9 0,26 0,08 0,01
10 0,29 0,11 0,03 0,01
11 0,14 0,05 0,02
12 0,17 0,07 0,025
13 0,20 0,09 0,03
14 0,22 0,10 0,035 0,01
15 0,25 0,11 0,040 0,01
16 0,27 0,12 0,045 0,015
17 0,29 0,13 0,050 0,015
18 0,31 0,14 0,055 0,020
19 0,33 0,15 0,060 0,020
20 0,35 0,16 0,065 0,025 0,01
Ejemplo 4.4:
Aplique esta dócima basada en la longitud de la racha más larga de los 
símbolos a o b a los datos del ejemplo 4.2:
14 16 12 7 1 14 9 15 11 6
18 10 5 12 9 17 13 11 7 8
Hipótesis:
H0: Todas las posibles disposiciones de los puntajes en la secuencia son 
igualmente probables.
H1: Hay presencia de cambio, tendencia o ambos.
La longitud de la racha más larga es L = 3.
n = 20, α = 0,05 ⇒ 8 < Lα < 9, según la tabla 4.5.
Región crítica: L > Lα.
Y como L = 3 no es mayor que 8 no cae en la región crítica, se rechaza H0 
con nivel de significación de 0,05. Sobre la base de estos datos no se puede 
afirmar que haya cambios, tendencia o ambos en la secuencia de datos.
Ejemplo 4.5:
Aplique la misma dócima basada en la longitud de la racha más larga de 
los símbolos a o b a los datos del ejemplo 4.3: 
Hipótesis:
H0: Todas las posibles disposiciones de los puntajes en la secuencia son 
igualmente probables.
Bioestadística cualitativa.indd 128 25/06/2010 12:20:18 p.m.
http://booksmedicos.org
129
H1: Hay presencia de cambio, tendencia o ambos.
 
n = 21, α = 0,05
La longitud de la racha más larga es L = 8.
La región crítica viene dada por L > Lα donde:
Decisión: Como L = 8 no cae en la región crítica L > Lα, no se rechaza H0 
con nivel de significación de 0,05. Sobre la base e estos datos no se puede afirmar 
que haya cambios, tendencia o ambos en la secuencia de datos.
4.1.3. Dócimas de las rachas hacia arriba y hacia abajo
Reciben este nombre las dócimas en que se consideran las diferencias de 
un puntaje y el puntaje anterior Xi – Xi – 1 para i = 2, 3,..., n y la sucesión de sus 
signos, eliminando los ceros. Las rachas de estos signos son las llamadas hacia 
arriba y hacia abajo. Exigen muestra aleatoria en escala ordinal en la que estén 
definidas las diferencias Xi – Xi – 1.
Todas las hipótesis citadas en el epígrafe 4.1.2 son válidas también. 
A continuación se estudiarán tres dócimas basadas en este criterio.
1. Dócima Moore-Wallis, basada en el número de rachas de signos +
Permite docimar la hipótesis H0 de que todas las posibles disposiciones de 
los puntajes en la secuencia definida son igualmente probables en la población 
Exige escala ordinal con la operación sustracción definida. Vea resumen en la 
tabla 4.6.
Tabla 4.6. Resumen de lo fundamental de esta dócima
Hipótesis alternativa posibles Estadígrafo Región crítica
H11: hay tendencia
(ascendente o descendente)
X es el número de rachas 
de signos + obtenidos de 
Xi – Xi – 1
2
α< XX
 
o
 2
α′> XX
H12: hay tendencia ascendente α′> XX
H13: hay tendencia descendente α< XX
Para valores de n ≤ 12 se usa la tabla 4.7 para hallar los valores críticos.
Bioestadística cualitativa.indd 129 25/06/2010 12:20:18 p.m.
http://booksmedicos.org
130
Tabla 4.7. Valores de xα según los valores de α y n 
n 3 4 5 6 7 8 9 10 11 12
xα Valores de α
0 0,167 0,042 0,008 - - - - - - -
1 - - 0,225 0,081 0,024 0,006 - - - -
2 - - - - 0,260 0,113 0,042 0,013 0,004 -
3 - - - - - - 0,265 0,135 0,049 0,022
4 - - - - - - - - 0,303 0,161
Primero se plantean las hipótesis:
H0: Todas las posibles disposiciones de los puntajes en la secuencia son 
igualmente probables.
H1: Hay presencia de cambio, tendencia o ambos.
A continuación se calculan los valores de α para X α(n) y para n ≤ 12 tales 
que:




 −−+−= αα 2
1
2
2 n
x
n
X y 



 −−−= αα 2
1
2
'
n
x
n
X 
Donde xα, con x minúscula, es el valor que da la tabla 4.7 y se usa para 
determinar Xα y 'αX . 
Para dócimas de dos colas la región crítica es: 
2
α< XX o 
2
α′> XX 
Para dócimas de una cola la región crítica es: α< XX o bien α′> XX .
Ejemplo 4.6:
Se aplica un test psicológico a 12 pacientes que se van presentando y se 
obtiene la secuencia de sus puntajes xi de la tabla 4.8: 
Tabla 4.8. Datos del ejemplo 4.6 
xi 4 1 5 6 3 2 5 1 7 8 6 4
xi – xi – 1 −3 4 −1 −3 −1 3 −4 6 1 −2 −2
Rachas de signo + + 1 2 3
Estadígrafo: X (número de rachas de signos +) = 3, n = 12, α = 0,05.
Puesto que para n = 12 y α = 0,05 los valores más aproximados en la tabla 
4.7 son 0,161 y 0,022, que corresponden, respectivamente, a los valores 4 y 3 
de xα. Se analizarán los dos valores buscando mayor precisión.
Para xα = 3 y 
Bioestadística cualitativa.indd 130 25/06/2010 12:20:18 p.m.
http://booksmedicos.org
131
Para xα = 4 y 
En la dócima de dos colas, para 025,0
2
=α el valor más cercano es 0,022
que corresponden a 3
2
=αx y los valores críticos son entonces 8,5 y 2,5.
Por tanto X = 3 no cae en la región crítica X < 2,5 o X > 8,5 y por tanto 
no se rechaza la hipótesis H0 de que no hay tendencia. Todo esto con nivel de 
significación de 0,05.
En el caso de una hipótesis unilateral, por ejemplo: 
H0: No hay tendencia descendente contra. 
H1: Sí la hay. 
Para 
nn 3
1
1
3
1 −≤α≤ se tiene que la región crítica viene dada por los valores
críticos:
 
Y puesto que para α = 0,05 se tiene que 0,028 ≤ α ≤ 0,972 obtenido de 
n3
1
 ≤ α ≤ n3
11− . 
 
Y la región crítica viene dada por: X < Xα.
Como X = 3 es menor que 4,288 cae en la región crítica y por tanto se 
rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos se 
puede afirmar que hay tendencia descendente en la secuencia.
Ejemplo 4.7:
En el caso de la secuencia del ejemplo 4.3, que se ofrece en la tabla 4.9.
Tabla 4.9. Secuencia y sus rachas de signos + y – obtenidos de Xi – Xi – 1 
4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13
− + + − − + − + + − − − + + − + − + + −
1 2 3 4 5 6
Con n = 21 y α = 0,05, para las hipótesis:
H0: No hay tendencia ascendente ni descendente. 
H1: Sí la hay.
El estadígrafo X = 6 rachas de signos + y los valores críticos: 
Bioestadística cualitativa.indd 131 25/06/2010 12:20:19 p.m.
http://booksmedicos.org
132
2
α< XX o 
2
α′> XX
857
12
229611050
12
1
2
1
2
1
2
1
1
,,, ≈−+≈+−−+≈ α−α
nZnX
1513
12
229611050
12
1
2
1
2
1
2
1
2
,,, ≈++≈+−−+≈′ α−α
nZnX
La región crítica viene dada por 
2
α< XX o 
2
α′> XX , o sea por 
X < 7,85 o X > 13,5.
Como el valor 6 del estadígrafo cae en la región crítica, por ser 6 < 7,85 se 
rechaza H0 con nivel de significación de 0,05.
2. Dócima basada en el número total de rachas
Permite docimar la hipótesis H0 de quetodas las posibles disposiciones de 
los puntajes en la secuencia definida son igualmente probables en la población. 
Exige escala ordinal en que esté permitida la operación sustracción.
La tabla 4.10 resume en lo fundamental esta dócima. 
Tabla 4.10. Resumen de la dócima basada en el total de rachas
Hipótesis alternativa posibles Estadígrafo Región crítica
H11: hay tendencia
Y es el número total de rachas
de signos + y de signos –
obtenidos de Xi – Xi – 1
2
α< YY 
o
 2
α′> YY
H12: hay ciclos 'α> YY
H13: hay tendencia o ciclos α< YY
Para, el único caso, n ≥ 20 y 
nn 3
1
1
3
1 −≤α≤
 
Utilice uno de los enteros más próximos, en cada caso.
Ejemplo 4.8:
Resuelva el ejemplo 4.7 mediante esta dócima.
Primeramente se plantean las hipótesis:
H0: Todas las posibles disposiciones de los puntajes en la secuencia son 
igualmente probables.
H1: Hay presencia de cambio, tendencia o ciclos.
Bioestadística cualitativa.indd 132 25/06/2010 12:20:19 p.m.
http://booksmedicos.org
133
En la secuencia de la tabla 4.11 se puede ver que:
Y = 13, total de rachas de signos + y de signos –, n = 21 y α = 0,05.
Región crítica: '
2
α< YY o 
2
α> YY
.
Tabla 4.11. Secuencia y sus rachas de signos + y – obtenidos de Xi – Xi – 1
4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13
− + + − − + − + + − − − + + − + − + + −
Por tanto como Y = 13 no cae en la región crítica Y < 9,56 o Y > 16,769 no 
se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no 
hay elementos suficientes para afirmar que hay presencia de cambio, tendencia 
o ciclos en la secuencia de puntajes.
3. Dócima basada en la racha más larga
Permite docimar la hipótesis H0 de que todas las posibles disposiciones de 
los puntajes en la secuencia definida son igualmente probables en la población. 
Exige escala ordinal en que esté permitida la operación sustracción.
La tabla 4.12 resume los aspectos generales de esta de la dócima
Tabla 4.12. Resumen de la dócima basada en la racha más larga
Hipótesis alternativa posibles Estadígrafos Región crítica
H11: hay tendencia ascendente Z es el tamaño de la racha 
más larga de signos +
Z´es el tamaño de la racha 
más larga de signos –
α> ZZ
H12: hay tendencia descendente α> ZZ '
H13: hay tendencia (ascendente 
o descendente) 2
α> ZZ
 
o
 2
' α> ZZ
Para n ≤ 14 se usa la tabla 4.13.
Tabla 4.13. Valores de 








>′>=α αα
22
ZZoZZP
2
αZ 3 4 5
n
4 0,083
5 0,150 0,017
6 0,217 0,031
7 0,275 0,044
Bioestadística cualitativa.indd 133 25/06/2010 12:20:19 p.m.
http://booksmedicos.org
134
2
αZ 3 4 5
8 0,058
9 0,071 0,010
10 0,085 0,012
11 0,098 0,015
12 0,111 0,017
13 0,124 0,019
14 0,137 0,022
Ejemplo 4.9:
Resuelva el ejemplo 4.7 mediante esta dócima (tabla 4.14).
Tabla 4.14. Secuencia y sus rachas más largas de signos + y – obtenidos 
de Xi – Xi – 1
4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13
− + + − − + − + + − − − + + − + − + + −
Z = 2 Z´= 3
Z = 2 y Z’ = 3, n = 12 y α = 0,05.
Hipótesis:
H0: No hay tendencia.
H1: Hay tendencia (ascendente o descendente). 
Región crítica: 
2
α> ZZ o 
2
' α> ZZ y en la tabla 4.13 se encuentra 4
2
=αZ y
5´
2
=αZ que corresponden a 0,111 y 0,017 entre los cuales está 0,05.
Decisión: Como ni Z > 4 ni Z’ > 5, puesto que Z = 2 y Z’ = 3, no caen en la 
región crítica y por tanto no se rechaza H0 con nivel de significación de 0,05. 
Sobre la base de estos datos no hay elementos suficientes para afirmar que hay 
presencia de tendencia en la secuencia de puntajes.
4.2. Dócimas para dos poblaciones
4.2.1. Dócimas de Kolmogórov‑Smírnov para dos poblaciones
Bajo esta denominación se tratarán tres dócimas de Kolmogorov-Smírnov 
que permiten decidir si las distribuciones de dos poblaciones son iguales o no 
a partir las distribuciones de frecuencias acumulativas relativas de una muestra 
aleatoria de cada una de ellas. Exigen muestras independientes y estar, al menos, 
en escalas ordinales.
Bioestadística cualitativa.indd 134 25/06/2010 12:20:20 p.m.
http://booksmedicos.org
135
Hipótesis: 
H0: Las dos poblaciones tienen la misma distribución.
H1: Las dos distribuciones poblacionales difieren.
Estadígrafo: )()( knkm
k
xGxFMáxD −=
Para calcularlo se construyen las distribuciones de frecuencias acumulativas 
relativas de las dos muestras con los mismos intervalos de clase. Se denotarán 
por Fm y Gn las funciones de distribución acumulativas empíricas de las mues-
tras de tamaños m y n, respectivamente y xk representará el extremo superior 
del k-ésimo intervalo de clase.
También se podrían considerar hipótesis alternativas de una cola, tomando 
en cuenta las diferencias observadas entre las distribuciones de frecuencias 
acumulativas. 
La región crítica se determina con los percentiles correspondientes que 
ofrece la tabla 4.15.
Tabla 4.15. Percentiles de la distribución de D para la prueba 
de dos poblaciones de Kolmogórov-Smírnov
Órdenes
n 0,95 0,975 0,99 0,995
3 1,00000 - - -
4 1,00000 1,00000 - -
5 0,80000 1,00000 1,00000 1,00000
6 0,83333 0,83333 1,00000 1,00000
7 0,71429 0,85714 0,85714 0,85714
8 0,62500 0,75000 0,75000 0,87500
9 0,66667 0,66667 0,77778 0,77778
10 0,60000 0,70000 0,70000 0,80000
11 0,54545 0,63636 0,72727 0,72727
12 0,50000 0,58333 0,66667 0,66667
13 0,53846 0,53846 0,61538 0,69231
14 0,50000 0,57143 0,57143 0,64286
15 0,46667 0,53333 0,60000 0,60000
16 0,43750 0,50000 0,56250 0,62500
17 0,41176 0,47059 0,52941 0,58824
18 0,44444 0,50000 0,55556 0,55556
19 0,42105 0,47368 0,52632 0,52632
20 0,40000 0,45000 0,50000 0,55000
21 0,38095 0,42857 0,47619 0,52381
22 0,40909 0,40909 0,50000 0,50000
23 0,39130 0,43478 0,47826 0,47826
Bioestadística cualitativa.indd 135 25/06/2010 12:20:20 p.m.
http://booksmedicos.org
136
Órdenes
n 0,95 0,975 0,99 0,995
24 0,37500 0,41667 0,45833 0,50000
25 0,36000 0,40000 0,44000 0,48000
26 0,34615 0,38462 0,42308 0,46154
27 0,33333 0,37037 0,44444 0,44444
28 0,35714 0,39286 0,42857 0,46429
29 0,34483 0,37931 0,41379 0,44828
30 0,33333 0,36667 0,40000 0,43333
35 0,31429 0,34286 0,37143 -
40 0,27500 0,32500 0,35000 -
A continuación se ofrecen los tres casos de esta dócima.
1. De dos colas en el caso de muestras pequeñas, ambas del mismo 
tamaño n
Permite decidir si hay o no diferencias entre dos poblaciones a partir de 
muestras aleatorias del mismo tamaño, independientes y en escalas ordinales. 
Región crítica: )(
2
1
nDD α−
> donde n es el tamaño de la muestra. 
Siendo D el estadígrafo y )(
2
1
nD α−
 el percentil que se halla en la tabla 4.15.
Ejemplo 4.10:
Utilizando los datos muestrales de los niños y las niñas de la variable EV1 
y los 10 primeros puntajes de las niñas de EV2 de la matriz DatosM2 de la tabla 
1.3 para igualar a 30 los tamaños muestrales de niños y niñas en una nueva 
variable EV1A con ellos formada y suponiendo las muestras independientes. 
Aplique esta dócima para verificar si hay diferencia entre las distribuciones de 
los puntajes de EV1A de los niños y las niñas procedentes respectivamente de 
las poblaciones de donde provinieron las muestras. Para ello se decidió aplicar 
esta dócima de Kolmogórov-Smírnov para dos poblaciones y con este fin se 
construyeron las dos distribuciones de frecuencias acumulativas relativas que 
se muestran en la tabla 4.16.
Tabla 4.16. Distribuciones de frecuencias acumulativas relativas
EV1A Niños Niñas Diferencia absoluta
1 0,0667 0,0000 0,0667
2 0,2333 0,2000 0,0333
3 0,4667 0,4667 0,0000
4 0,6667 0,5667 0,1000
5 0,7667 0,9000 0,1333
6 1,0000 1,0000 0,0000
Bioestadística cualitativa.indd 136 25/06/2010 12:20:20 p.m.
http://booksmedicos.org
137
Hipótesis:
H0: Las distribuciones de de los niños y las niñas en EV1A no difieren.
H1: Las distribuciones de los niños y las niñas en EV1A difieren.
Estadígrafo: D = 0,1333
Región crítica: )(
2
1
nDD α−
>
Según la tabla 4.15, para n = 30 y α = 0,05:
Decisión: Como D = 0,1333 no cae en la región crítica, puesto que no 
supera a 0,36667, no se rechaza H0 con nivel de significación de 0,05. Sobre la 
base deestos datos no se puede afirmar que haya diferencia entre los puntajes 
de los niños y las niñas en la variable EV1A.
Problema propuesto 4.2:
Resuelva el ejemplo 4.10 con la variable EV2 ampliada con los 10 primeros 
puntajes femeninos de EV3.
2. De dos colas en el caso de muestra grandes
Representa una variante de la dócima de Kolmogórov-Smírnov anterior que 
permite comparar las distribuciones de dos poblaciones a partir de muestras 
aleatorias independientes de tamaños mayores que 30 en escalas ordinales.
El estadígrafo: D del epígrafe 4.3.1.
La región crítica viene dada por: 
nm
SD
11 +>
Donde m y n son los tamaños muestrales y S se halla en la tabla 4.17.
Tabla 4.17. Valores críticos de S
α 0,10 0,05 0,025 0,01 0,005 0,001
S 1,22 1,36 1,48 1,63 1,73 1,95
 Ejemplo 4.11:
Aplique esta dócima para verificar si hay diferencia entre las distribuciones 
de las variables G1 y B1 de las poblaciones de donde proviene las muestras de 
tamaño 50 de las matrices de datos DatosMT de la tabla 1.17 y DatosMPR de 
la tabla 5.42 (tabla 4.18).
Tabla 4.18. Datos del ejemplo 4.11
MM M R RB B MB E
B1 0,02 0,06 0,16 0,30 0,50 0,78 1,00
G1 0,02 0,06 0,16 0,30 0,48 0,82 1,00
Bioestadística cualitativa.indd 137 25/06/2010 12:20:20 p.m.
http://booksmedicos.org
138
H0: No hay diferencia entre las distribuciones de B1 y G1 de las poblaciones 
de donde provienen las muestras.
H1: Hay diferencia entre las distribuciones de B1 y G1 de las poblaciones 
de donde provienen las muestras.
Región crítica: 
nm
SD
11 +>
D = 0,0833, m = n = 50 y en la tabla 4.15 se halla S = 1,36 para un nivel 
de significación de 0,05.
Decisión: Como D = 0,04 no es mayor que 0,272 no se rechaza H0 con nivel 
de significación de 0,05. Sobre la base de estos datos no se puede afirmar hay 
diferencia entre los puntajes de G1 y B1 de las poblaciones de donde proceden 
las muestras.
3. De una cola en el caso de muestras grandes
Representa una variante de la dócima de Kolmogórov-Smírnov anterior que 
permite comparar las distribuciones de dos poblaciones a partir de muestras 
aleatorias independientes en escalas ordinales. 
Estadígrafo:
 
Donde D es el estadígrafo del epígrafe 4.2.1.
Su distribución es aproximadamente ji cuadrado con dos grados de libertad. 
m y n son los tamaños muestrales.
La región crítica esta determinada por ( )2212 α−χ>χ o, expresada en función de D, despejando D2 en la expresión de χ2 se obtiene:
 
o
 
Ejemplo 4.12:
Con los datos del ejemplo 4.11, se desea verificar las hipótesis: 
H0: Las probabilidades de la distribución poblacional de G1 predominan 
en valores sobre las de B1.
Estadígrafo: D = 0,04 como fue calculado en el ejemplo 4.11.
Región crítica: 
 
Bioestadística cualitativa.indd 138 25/06/2010 12:20:21 p.m.
http://booksmedicos.org
139
Donde:
 para m = n = 50
Decisión: Como el valor 0,04, del estadígrafo, no es mayor que 12,24 no se 
rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no 
se puede afirmar que la distribución poblacional de G1 predomina en valores 
sobre la de B1. 
Problema propuesto 4.3: 
Decida si hay o no diferencia entre las distribuciones de grado de retaso 
mental de las poblaciones de donde proviene la matriz de DatosM2 de la tabla 
1.3 y la siguiente muestra de la tabla 4.19. Decida también si las frecuencias 
de una distribución superan a la otra.
Tabla 4.19. Datos del problema propuesto 4.3
S G M S L L M M L M M S M M M M M S S M S M G S M
S L M S M G L S S L L S S M G L M G G G L G S L L
4.2.2. Dócimas de Wilcoxon para dos muestras independientes 
y apareadas
1. Dócima U de Mann-Whitney o de suma de rangos de Wilcoxon
Esta dócima puede utilizarse para verificar la hipótesis nula de que no hay 
diferencia en cuanto los rangos o posiciones que ocupan los puntajes de dos 
poblaciones a partir de muestras independientes en escalas ordinales, lo que se 
expresará simplificadamente por H0: µ1 = µ2.
Esta notación se adopta con el objetivo único de resumir, no trata necesa-
riamente de comparación de medias. Proporciona una buena alternativa de la 
prueba t de Student para dos poblaciones independientes cuando alguno de los 
supuestos de esta no se cumplen. Además se supone que las medidas provienen 
de variables aleatorias continuas y que han sido registradas al menos en una 
escala ordinal.
Sean x1, x2,..., xn y y1, y2,..., ym muestras aleatorias de las poblaciones 1 y 2 
representadas por las variables aleatorias X e Y.
En la tabla 4.20 se ofrece un resumen de esta dócima.
Bioestadística cualitativa.indd 139 25/06/2010 12:20:21 p.m.
http://booksmedicos.org
140
Tabla 4.20. Resumen de la dócima U de Mann-Whitney
Hipótesis Estadígrafo Región crítica
H0: µ1 = µ2 vs H1: µ1 ≠ µ2
R es suma de los rangos 
de las xi
2
α< UU
 
o
 21
α−
> UU
H0: µ1 ≤ µ2 vs H1: µ1 > µ2 U > U1 – α
H0: µ1 ≥ µ2 vs H1: µ1 < µ2 U < Uα
Para n > 20 o m > 20 se puede utilizar como aproximación el estadígrafo:
Se recomienda denotar por X la variable con menor suma de rangos para 
unificar y simplificar el cálculo. 
R es igual a la suma de los rangos correspondientes a X en esta muestra 
conjunta rangueada.
Para hallar su valor primero se pone una muestra a continuación de la otra 
para crear la muestra conjunta de los valores de X e Y, y después se ranguea 
esta muestra conjunta, manteniendo identificados los puntajes que pertenecen 
a una y otra muestra original, lo que puede hacerse definiendo una variable 
identificadora que tome un valor constante cualquiera para los valores de X y 
otro para los valores de Y.
En la tabla 4.21 aparecen los valores de Uβ para distintos valores de β y de 
m y n. Se tiene además que: 
U1 – β = nm – Uβ
Para todo β ∈ [0, 1] y todo par de números naturales m y n.
Ejemplo 4.13:
Se desea saber si los niños con retraso mental ligero difieren de los niños 
con retraso mental severo en cuanto a la escala EV1 en la población de donde 
procede la muestra de la matriz de DatosM2 de la tabla 1.3. Los datos muestrales 
se brindan en la tabla 4.22.
Primeramente se plantean las hipótesis:
H0: Las distribuciones de las dos poblaciones no difieren. 
H1: Las distribuciones de las dos poblaciones difieren.
Se tiene además que n = 12 y m = 10.
Se asignan los rangos al conjunto después de ordenar los puntajes de las 
dos muestras combinadas como en la tabla 4.23.
Bioestadística cualitativa.indd 140 25/06/2010 12:20:21 p.m.
http://booksmedicos.org
141
Ta
bl
a 
4.
21
. V
al
or
es
 c
rít
ic
os
 u
β p
ar
a 
la
 d
óc
im
a 
U
 d
e 
M
an
n-
W
hi
tn
ey
n
p
m
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2
0,
00
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0,
01
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
2
2
0,
02
5
0
0
0
0
0
0
1
1
1
1
2
2
2
2
2
3
3
3
3
0,
05
0
0
0
1
1
1
2
2
2
2
3
3
4
4
4
4
5
5
5
0,
10
0
1
1
2
2
2
3
3
4
4
5
5
5
6
6
7
7
8
8
3
0,
00
5
0
0
0
0
0
0
0
1
1
1
2
2
2
3
3
3
3
4
4
0,
01
0
0
0
0
1
1
1
2
2
2
3
3
3
4
4
5
5
5
6
0,
02
5
0
0
0
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
0,
05
0
1
1
2
3
3
4
5
5
6
6
7
8
8
9
10
10
11
12
0,
10
1
2
2
3
4
5
6
6
7
8
9
10
11
11
12
13
14
15
16
4
0,
00
5
0
0
0
0
1
1
2
2
3
3
4
4
5
6
6
7
7
8
9
0,
01
0
0
0
1
2
2
3
4
4
5
6
6
7
9
8
9
0
0
11
0,
02
5
0
0
1
2
3
4
5
5
6
7
8
9
10
11
12
12
13
14
15
0,
05
0
1
2
3
4
5
6
7
8
9
10
11
12
13
15
16
17
18
19
0,
10
1
2
4
5
6
7
8
10
11
12
13
14
16
17
18
19
21
22
23
5
0,
00
5
0
0
0
1
2
2
3
4
5
6
7
8
8
9
10
11
12
13
14
0,
01
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
0,
02
5
0
1
2
3
4
6
7
8
9
10
12
13
14
15
16
18
19
20
21
0,
05
1
2
3
5
6
7
9
10
12
13
14
16
17
19
20
21
23
24
26
0,
10
2
3
5
6
8
9
11
13
14
16
18
19
21
23
24
26
28
29
31
6
0,
00
5
0
0
1
2
3
4
5
6
7
8
10
11
12
13
14
16
17
18
19
0,
01
0
0
2
3
4
5
7
8
9
10
12
13
14
16
17
19
20
21
23
Bioestadística cualitativa.indd 141 25/06/2010 12:20:22p.m.
http://booksmedicos.org
142
n
p
m
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0,
02
5
0
2
3
4
6
7
9
11
12
14
15
17
18
20
22
23
25
26
28
0,
05
1
3
4
6
8
9
11
13
15
17
18
20
22
24
26
27
29
31
33
0,
10
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
35
37
39
7
0,
00
5
0
0
1
2
4
5
7
8
10
11
13
14
16
17
19
20
22
23
25
0,
01
0
1
2
4
5
7
8
10
12
13
15
17
18
20
22
24
25
27
29
0,
02
5
0
2
4
6
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
0,
05
1
3
5
7
9
12
14
16
18
20
22
25
27
29
31
34
36
38
40
0,
10
2
5
7
9
12
14
17
19
22
24
27
29
32
34
37
39
42
44
47
8
0,
00
5
0
0
2
3
5
7
8
10
12
14
16
18
19
21
23
25
27
29
31
0,
01
0
1
3
5
7
8
10
12
14
16
18
21
23
25
27
29
31
33
35
0,
02
5
1
3
5
7
9
11
14
16
18
20
23
25
27
30
32
35
37
39
42
0,
05
2
4
6
9
11
14
16
19
21
24
27
29
32
34
37
40
42
45
48
0,
10
3
6
8
11
14
17
20
23
25
28
31
34
37
40
43
46
49
52
55
9
0,
00
5
0
1
2
4
6
8
10
12
14
17
19
21
23
25
28
30
32
34
37
0,
01
0
2
4
6
8
10
12
15
17
19
22
24
27
29
32
34
37
39
41
0,
02
5
1
3
5
8
11
13
16
18
21
24
27
29
32
35
38
40
43
46
49
0,
05
2
5
7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
56
0,
10
3
6
10
13
16
19
23
26
29
32
36
39
42
46
49
53
56
59
63
10
0,
00
5
0
1
3
5
7
10
12
14
17
19
22
25
27
30
32
35
38
40
43
0,
01
0
2
4
7
9
12
14
17
20
23
25
28
31
34
37
39
42
45
48
Bioestadística cualitativa.indd 142 25/06/2010 12:20:23 p.m.
http://booksmedicos.org
143
0,
02
5
1
4
6
9
12
15
18
21
24
27
30
34
37
40
43
46
49
53
56
0,
05
2
5
8
12
15
18
21
25
28
32
35
38
42
45
49
52
56
59
63
0,
10
4
7
11
14
18
22
25
29
33
37
40
44
48
52
55
59
63
67
71
11
0,
00
5
0
1
3
6
8
11
14
17
19
22
25
28
31
34
37
40
43
46
49
0,
01
0
2
5
8
10
13
16
19
23
26
29
32
35
38
42
45
48
51
54
0,
02
5
1
4
7
10
14
17
20
24
27
31
34
38
41
45
48
52
56
59
63
0,
05
2
6
9
13
17
20
24
28
32
35
39
43
47
51
55
58
62
66
70
0,
10
4
8
12
16
20
24
28
32
37
41
45
49
53
58
62
66
70
74
79
12
0,
00
5
0
2
4
7
10
13
16
19
22
25
28
32
35
38
42
45
48
52
55
0,
01
0
3
6
9
12
15
18
22
25
29
32
36
39
43
47
50
54
57
61
0,
02
5
2
5
8
12
15
19
23
27
30
34
38
42
46
50
54
58
62
66
70
0,
05
3
6
10
14
18
22
27
31
35
39
43
48
52
56
61
65
69
73
78
0,
10
5
9
13
18
22
27
31
36
40
45
50
54
59
64
68
73
78
82
87
13
0,
00
5
0
2
4
8
11
14
18
21
25
28
32
35
39
43
46
50
54
58
61
0,
01
1
3
6
10
13
17
21
24
28
32
36
40
44
48
52
56
60
64
68
0,
02
5
2
5
9
13
17
21
25
29
34
38
42
46
51
55
60
64
68
73
77
0,
05
3
7
11
16
20
25
29
34
38
43
48
52
57
62
66
71
76
81
85
0,
10
5
10
14
19
24
29
34
39
44
49
54
59
64
69
75
80
85
90
95
14
0,
00
5
0
2
5
8
12
16
19
23
27
31
35
39
43
47
51
55
59
64
68
0,
01
1
3
7
11
14
18
23
27
31
35
39
44
48
52
57
61
66
70
74
0,
02
5
2
6
10
14
18
23
27
32
37
41
46
51
56
60
65
70
75
79
84
0,
05
4
8
12
17
22
27
32
37
42
47
52
57
62
67
72
78
83
88
93
Bioestadística cualitativa.indd 143 25/06/2010 12:20:24 p.m.
http://booksmedicos.org
144
n
p
m
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0,
10
5
11
16
21
26
32
37
42
48
53
59
64
70
75
81
86
92
98
10
3
15
 0
,0
05
0
3
6
9
13
17
21
25
30
34
38
43
47
52
56
61
65
70
74
 0
,0
1 
1
4
8
12
16
20
25
29
34
38
43
48
52
57
62
67
71
76
81
 0
,0
25
2
6
11
15
20
25
30
35
40
45
50
55
60
65
71
76
81
86
91
 0
,0
5 
4
8
13
19
24
29
34
40
45
51
56
62
67
73
78
84
89
95
10
1
 0
,1
0 
6
11
17
23
28
34
40
46
52
58
64
69
75
81
87
93
99
10
5
11
1
16
 0
,0
05
0
3
6
10
14
19
23
28
32
37
42
46
51
56
61
66
71
75
80
 0
,0
1 
1
4
8
13
17
22
27
32
37
42
47
52
57
62
67
72
77
83
88
 0
,0
25
2
7
12
16
22
27
32
38
43
48
54
60
65
71
76
82
87
93
99
 0
,0
5 
4
9
15
20
26
31
37
43
49
55
61
66
72
78
84
90
96
10
2
10
8
 0
,1
0 
6
12
18
24
30
37
43
49
55
62
68
75
81
87
94
10
0
10
7
11
3
12
0
17
 0
,0
05
0
3
7
11
16
20
25
30
35
40
45
50
55
61
66
71
76
82
87
 0
,0
1 
1
5
9
14
19
24
29
34
39
45
50
56
61
67
72
78
83
89
94
 0
,0
25
3
7
12
18
23
29
35
40
46
52
58
64
70
76
82
88
94
10
0
10
6
 0
,0
5
4
10
16
21
27
34
40
46
52
58
65
71
78
84
90
97
10
3
11
0
11
6
15
 0
,0
05
0
3
6
9
13
17
21
25
30
34
38
43
47
52
56
61
65
70
74
 0
,0
1 
1
4
8
12
16
20
25
29
34
38
43
48
52
57
62
67
71
76
81
 0
,0
25
2
6
11
15
20
25
30
35
40
45
50
55
60
65
71
76
81
86
91
 0
,0
5 
4
8
13
19
24
29
34
40
45
51
56
62
67
73
78
84
89
95
10
1
 0
,1
0 
6
11
17
23
28
34
40
46
52
58
64
69
75
81
87
93
99
10
5
11
1
16
 0
,0
05
0
3
6
10
14
19
23
28
32
37
42
46
51
56
61
66
71
75
80
Bioestadística cualitativa.indd 144 25/06/2010 12:20:24 p.m.
http://booksmedicos.org
145
 0
,0
1 
1
4
8
13
17
22
27
32
37
42
47
52
57
62
67
72
77
83
88
 0
,0
25
2
7
12
16
22
27
32
38
43
48
54
60
65
71
76
82
87
93
99
 0
,0
5 
4
9
15
20
26
31
37
43
49
55
61
66
72
78
84
90
96
10
2
10
8
 0
,1
0 
6
12
18
24
30
37
43
49
55
62
68
75
81
87
94
10
0
10
7
11
3
12
0
17
 0
,0
05
0
3
7
11
16
20
25
30
35
40
45
50
55
61
66
71
76
82
87
 0
,0
1 
1
5
9
14
19
24
29
34
39
45
50
56
61
67
72
78
83
89
94
 0
,0
25
3
7
12
18
23
29
35
40
46
52
58
64
70
76
82
88
94
10
0
10
6
 0
,0
5
4
10
16
21
27
34
40
46
52
58
65
71
78
84
90
97
10
3
11
0
11
6
 0
,0
5
4
10
16
21
27
34
40
46
52
58
65
71
78
84
90
97
10
3
11
0
11
6
 0
,1
0
7
13
19
26
32
39
46
53
59
66
73
80
86
93
10
0
10
7
11
4
12
1
12
8
18
 0
,0
05
0
3
7
12
17
22
27
32
38
43
48
54
59
65
71
76
82
88
93
 0
,0
1 
1
5
10
15
20
25
31
37
42
48
54
60
66
71
77
83
89
95
10
1
 0
,0
25
3
8
13
19
25
31
37
43
49
56
62
68
75
81
87
94
10
0
10
7
11
3
 0
,0
5 
5
10
17
23
29
36
42
49
56
62
69
76
83
89
96
10
3
11
0
11
7
12
4
 0
,1
0 
7
14
21
28
35
42
49
56
63
70
78
85
92
99
10
7
11
4
12
1
12
9
13
6
19
 0
,0
05
1
4
8
13
18
23
29
34
40
46
52
58
64
70
75
82
88
84
10
0
 0
,0
1 
2
5
10
16
21
27
33
39
45
51
57
64
70
76
83
89
95
10
2
10
8
 0
,0
25
3
8
14
20
26
33
39
46
53
59
66
73
79
86
93
10
0
10
7
11
4
12
0
 0
,0
5 
5
11
18
24
31
38
45
52
59
66
73
81
88
95
10
2
11
0
11
7
12
4
13
1
 0
,1
0 
8
15
22
29
37
44
52
59
67
74
82
90
98
10
5
11
3
12
1
12
9
13
6
14
4
20
0,
00
5
1
4
9
14
19
25
31
37
43
49
55
61
68
74
80
87
93
10
0
10
6
0,
01
 
2
6
11
17
23
29
35
41
48
54
61
68
74
81
88
94
10
1
10
8
1 1
5
0,
02
5
3
9
15
21
28
35
42
49
56
63
70
77
84
91
99
10
6
11
3
12
0
12
8
0,
05
 
5
12
19
26
33
40
48
55
63
70
78
85
93
10
1
10
8
11
6
12
4
13
1
13
9
0,
10
 
8
16
23
31
39
47
55
63
71
79
87
95
10
3
11
1
12
0
12
8
13
6
14
4
15
2
Bioestadística cualitativa.indd 145 25/06/2010 12:20:25 p.m.
http://booksmedicos.org
146
Tabla 4.22. Datos del ejemplo 4.13
Escala de Vineland (EV1)
Retraso mental ligero 5 3 3 4 6 2 3 5 3 4 6 5
Retraso mental severo 2 6 5 1 5 6 4 3 1 2
Tabla 4.23. Rangueo de la muestra conjunta e identificación de las 
muestras
Puntaje 1 1 2 2 2 3 3 3 3 3 4
Muestra S S L S S L L L L S L
Rango 1,5 1,5 4 4 4 8 8 8 8 8 12
Puntaje 4 4 5 5 5 5 5 6 6 6 6
Muestra L S L L L S S L L S S
Rango 12 12 16 16 16 16 16 20,5 20,5 20,5 20,5
R = 2(1,5) + 2(4) + 8 + 12 +2(16) + 2(20,5) = 104
Región crítica: 
2
α< UU o 
2
1
α
−
> UU
En la tabla 4.21 se encuentra que el valor crítico para esta dócima bilateral es: 
 para n = 12, m = 10 y .
Por tanto:
U0,025 = 30 y, utilizando la propiedad U1 – β = nm – Uβ para todo β tal que 
0 < β < 1 se llega a que:
U0,975 = 12(10) −30 = 90 y con un software estadísticose obtiene la pro-
babilidad crítica 0,496507.
Decisión: Como U = 49 no es menor que 30 ni mayor que 90, no cae en la 
región crítica y por tanto no se rechaza H0 con nivel de significación de 0,05 
(también como 0,496507 no es menor que 0,05). Sobre la base de estos datos 
no se puede afirmar que los niños con retraso mental ligero difieren de los niños 
con retraso mental severo en cuanto a EV1 en la población de donde procede 
la muestra. 
Ejemplo 4.14:
Se desea decidir si dos municipios A y B difieren en la cantidad mensual de 
embarazadas diabéticas en un periodo de 24 meses, para ello se selecciona una 
muestra aleatoria de cada municipio, en este periodo, de las que se obtuvieron 
Bioestadística cualitativa.indd 146 25/06/2010 12:20:26 p.m.
http://booksmedicos.org
147
los datos de las dos primeras columnas de la tabla 4.24. Utilice un nivel de 
significación de 0,10.
Para dar solución a este problema primeramente se plantean las hipótesis:
H0: No hay diferencia entre las poblaciones.
H1: Sí la hay.
Tabla 4.24. Datos y rangueo de la muestra conjunta
A B Muestra conjunta Municipio Rango
32 7 0 B 1
14 27 4 B 2
10 18 5 B 3
30 22 6 B 4
10 40 7 B 7
48 42 7 B 7
57 18 7 B 7
7 7 7 B 7
36 25 7 A 7
28 19 8 B 10
31 6 10 A 11,5
36 13 10 A 11,5
15 13 B 13
22 14 A 14
4 15 B 15
7 18 B 16,5
36 18 B 16,5
5 19 B 18,5
19 19 B 18,5
7 22 B 20,5
31 22 B 20,5
25 25 B 22,5
0 25 B 22.5
8 27 B 24
42 28 A 25
30 A 26
31 A 27,5
31 B 27,5
32 A 29
36 A 31
36 A 31
36 B 31
40 B 33
Bioestadística cualitativa.indd 147 25/06/2010 12:20:26 p.m.
http://booksmedicos.org
148
A B Muestra conjunta Municipio Rango
42 B 34,5
42 B 34,5
48 A 36
57 A 37
Las muestras aleatorias son de tamaños 13 y 24. Se juntan las dos muestras 
teniendo en cuenta la identificación de los puntajes de cada una, se ordena la 
muestra conjunta y se procede al rangueo en la propia tabla 4.24.
R = 7 + 2(11,5) + 14 + 25 + 26 + 27,5 + 29 + 2(31) + 36 +3 7 = 286,5 para 
el municipio A.
Tomando en cuenta que al menos una de las dos muestras tiene un tamaño 
24, mayor que 20 y la otra de tamaño 13 se utilizará la aproximación normal 
de la distribución del estadígrafo: 
 
Que evaluándolo en la muestra arroja un valor de:
 
P{χ2 > 1,26} ≈ 0,1030
Decisión: Como 0,1038 no es menor que 0,10 no se rechaza H0 con nivel 
de significación de 0,10. Sobre la base de estos datos no se puede afirmar que 
existe diferencia entre los dos municipios respecto a la cantidad mensual de 
embarazadas diabéticas en ese período.
Si se procediera determinando la región crítica se obtendría:
Y por tanto la región crítica vendrá dada por |Z| > 1,645 y la decisión sería 
la misma por ser 1,26 menor que 1,65.
Tratamiento de ligaduras
Para aplicar la dócima U de Mann-Whitney, se supone que las variables alea-
torias originales son continuas, sin embargo debido a que todo instrumento de me-
dición proporciona valores discretos, las muestras pueden tener valores repetidos, 
ligados. Las observaciones ligadas son en realidad diferentes, pero en una magnitud 
tan pequeña que no puede detectarse mediante el proceso de medición.
Bioestadística cualitativa.indd 148 25/06/2010 12:20:26 p.m.
http://booksmedicos.org
149
Si las ligaduras se dan entre los valores de una sola muestra, el valor de U no 
se altera, pero éste sí varía al ocurrir ligaduras entre valores de las dos muestras. 
Todas las ligas alteran la desviación estándar de U, que aparece en el denominador 
de la fórmula del estadígrafo Z y esto provoca que la decisión de rechazar H0 sea 
menos probable de lo que es en realidad. La alteración puede ser considerable 
cuando hay muchas ligas o cuando las ligas son muy grandes (se repita mucho 
una misma liga). Hay una corrección que permite eliminar el efecto pernicioso 
de las ligaduras, que consiste en utilizar ZC en lugar de Z siendo:
Donde: 
N = n + m
k: es la cantidad de ligaduras.
tj: cantidad de observaciones muestrales de la j-ésima ligadura para j =1, 
2,..., k.
Ejemplo 4.15:
Resolución del ejemplo 4.14 utilizando el estadígrafo corregido ZC.
Primeramente se calcula la suma adicional: 
t1 = 5 para el rango 7 que se repite 5 veces
t2 = 2 para el rango 11,5 que se repite 2 veces
t3 = 2 para el rango 16,5 que se repite 2 veces
t4 = 2 para el rango 18,5 que se repite 2 veces
t5 = 2 para el rango 20,5 que se repite 2 veces
t6 = 2 para el rango 22,5 que se repite 2 veces
t7 = 2 para el rango 27,5 que se repite 2 veces
t8 = 3 para el rango 31 que se repite 3 veces
t9 = 2 para el rango 34,5 que se repite 2 veces
k = 9 N = n + m = 37 nm = 312 N(N – 1) = 1332
∑
=
−
k
j
jj tt
1
3 )( = 53 – 5 + 7(23 – 2) + 33−3 = 125 – 5 + 7(8 – 2) + (27 – 3) = 186
Bioestadística cualitativa.indd 149 25/06/2010 12:20:26 p.m.
http://booksmedicos.org
150
P{χ2 > 1,26} ≈ 0,1038
Decisión: Como 0,1038 no es menor que 0,10 no se rechaza H0. Sobre la 
base de estos datos no puede afirmarse que en las poblaciones de donde proceden 
las muestras exista diferencia entre los dos municipios respecto a la cantidad 
mensual de embarazadas diabéticas en ese periodo.
No hay diferencia, respecto al problema anterior, en que no se tuvo en 
cuenta la corrección por ligaduras. Esta, generalmente, se hace necesaria solo 
en muestras grandes y cuando las tj toman valores grandes.
Problema propuesto 4.4:
a) Verifique si hay diferencia entre los niños clasificados con grado de 
retaso mental ligero y grave en cuanto a la EV1 en la población de donde 
procede la muestra de la matriz de DatosM2 de la tabla 1.3. 
b) Verifique si hay diferencia entre los niños y las niñas en cuanto a EV1 
en la población de donde procede la muestra de la matriz de DatosM2 
de la tabla 1.3. 
2. Dócima de rangos con signos de Wilcoxon
Permite decidir si se rechaza o no la hipótesis nula de que no hay diferencia 
entre dos poblaciones a partir de muestras apareadas en escalas ordinales que 
admiten la operación diferencia entre sus puntajes, lo que se expresará simpli-
ficadamente por diferencia entre µ1 y µ2 en la tabla 4.25.
Proporciona una alternativa no paramétrica de la prueba t de Student para 
dos muestras apareadas cuando algunos de sus supuestos no se cumplen. Se 
supone que las medidas provienen de variables aleatorias continuas que han 
sido registradas al menos en una escala ordinal y que la escala de las diferencias 
es también ordinal.
Tabla 4.25. Resumen de la dócima de rangos con signos de Wilcoxon
Hipótesis Estadígrafo Región crítica
H0: µ1 = µ2 vs H1: µ1 ≠ µ2 V es la suma de los rangos posi-
tivos de los valores absolutos de 
las diferencias no nulas de las 
componentes de los pares.
2
α< VV
 
o
 21
α
−
> VV
H0: µ1 ≤ µ2 vs H1: µ1 > µ2 V > V1 – α
H0: µ1 ≥ µ2 vs H1: µ1 < µ2 V < V1 – α
Sea (x1, y1); (x2, y2);...; (xn, yn) una muestra aleatoria bivariada de las po-
blaciones 1 y 2 representadas pos las variables aleatorias X e Y.
Bioestadística cualitativa.indd 150 25/06/2010 12:20:27 p.m.
http://booksmedicos.org
151
Las hipótesis y las regiones críticas se expresan como en la dócima U de 
Mann-Whitney o de suma de rangos de Wilcoxon, pero con V en lugar de la U.
H0: No hay diferencia en cuanto al orden de los puntajes de las dos pobla-
ciones.
H1: Hay diferencia en cuanto al orden de los puntajes de las dos poblaciones.
La tabla 4.26 ofrece los valores críticos Vβ para n comprendido entre 4 y 
20 y para β igual a 0,005; 0,01; 0,025; 0,05 y 0,10. Los valores críticos V1 – β 
correspondientes a 0,995; 0,99; 0,975; 0,95 y 0,90 se obtendrán por la fórmula:
ββ− −
+= VnnV
2
)1(
1
Donde 
2
)1( +nn se frece también en la tabla 4.26.
Tabla 4.26. Percentiles de V para de la dócima de rangos con signo de 
Wilcoxon
n 0,005 0,010 0,025 0,050 0,100
2
)1( +nn
4 0 0 0 0 1 10
5 0 0 0 1 3 15
6 0 0 1 3 4 21
7 0 1 3 4 6 28
8 1 2 4 6 9 36
9 2 4 6 9 11 45
10 4 6 9 11 15 55
11 6 8 11 14 18 66
12 8 10 14 18 22 78
13 10 13 18 22 27 91
14 13 16 22 26 32 105
15 16 20 26 31 37 120
16 20 24 30 36 43 136
17 24 28 35 42 49 153
18 28 33 41 48 56 171
19 33 38 47 5463 190
20 38 44 53 61 70 210
El valor del estadígrafo V es la suma de los rangos positivos (o negativos) de los 
valores absolutos de las diferencias no nulas de las componentes de los pares.
Para obtener su valor: 
a) Se calculan las diferencias di = xi – yi.
b) Se eliminan los pares cuyas diferencias di son nulas.
Bioestadística cualitativa.indd 151 25/06/2010 12:20:27 p.m.
http://booksmedicos.org
152
c) Se calculan los valores absolutos |di | de las diferencias di restantes.
d) Se ranguean estos valores absolutos.
e) Se asignan, a estos rangos de los valores absolutos, los signos de las di 
f) Se suman solo los rangos que tengan signos positivos (o solo los que 
tengan signos negativos).
Observación: hay paquetes estadísticos que requieren que las variables 
estén ya transformadas y en tal caso habría que realizar las transformaciones 
previamente, otros, más modernos, realizan internamente todas estas transfor-
maciones.
Para n grande (n > 20) se tiene:
, aproximadamente.
Ejemplo 4.16:
Para un estudio acerca del estado de salud mental de niños clasificados 
con retraso mental ligero o moderado se seleccionó una muestra aleatoria de 
15 niños de estos y se les midió el estado de salud mental antes y después de 
someterse a un nuevo tratamiento. ¿Puede concluirse que el estado de salud 
mental de los niños con retraso mental ligero o moderado mejora después de 
cumplido el tratamiento? Los datos aparecen a continuación:
Antes 70 75 84 90 81 95 87 72 92 85 88 76 85 81 84
Después 76 80 86 87 85 95 97 75 87 96 98 77 80 87 89
Hipótesis:
H0: El estado general de salud mental de los niños con retraso mental ligero 
o moderado no mejora con el nuevo tratamiento.
H1: El estado general de salud mental de los niños con retraso mental ligero 
o moderado mejora con el nuevo tratamiento.
La tabla 4.27 contiene los datos y sus transformaciones para el cálculo del 
valor del estadígrafo.
Tabla 4.27. Datos y transformaciones que requiere la dócima 
de Wilcoxon
Antes Después D ABS(D) rgABSd rgABSdCS
70 76 6 6 10,5 10,5
75 80 5 5 7,5 7,5
84 86 2 2 2,0 2,0
Bioestadística cualitativa.indd 152 25/06/2010 12:20:27 p.m.
http://booksmedicos.org
153
90 87 –3 3 3,5 –3,5
81 85 4 4 5,0 5,0
95 95 0 Ausente Ausente Ausente
87 97 10 10 12,5 12,5
72 75 3 3 3,5 3,5
92 87 –5 5 7,5 –7,5
85 96 11 11 14,0 14,0
88 98 10 10 12,5 12,5
76 77 1 1 1,0 1,0
85 80 –5 5 7,5 –7,5
81 87 6 6 10,5 10,5
84 89 5 5 7,5 7,5
Suma 86,5
Resulta más cómodo sumar los rangos negativos que son menos, pero se 
sumarán los positivos. Se tiene que V = 86,5. 
Y tomando α = 0,05 con n = 15 – 1 = 14 por haber un dato ausente.
Vα = V0,05 = 26
Región crítica: V > V1 – α.
Decisión: Puesto que 86,5 > 79, el valor de V cae en la región crítica y, por 
tanto, se rechaza H0 con un nivel de significación de 0,05. Sobre la base de estos 
datos se puede afirmar que el estado de salud mental de los niños con retraso 
mental ligero o moderado mejora con el nuevo tratamiento medicamentoso.
Observación: También se pueden sumar los rangos de las diferencias ab-
solutas no nulas con signos negativos y se obtendría, en lugar de 86,5, la suma 
18,5, que cae en la región crítica V < 26 por ser menor que 26 y por tanto, la 
decisión es la misma en regiones críticas de dos colas.
Ejemplo 4.17:
Un psicólogo de salud desea comprobar si la realización de un conjunto 
de actividades tiene algún efecto en la capacidad de asociación para niños con 
retraso mental ligero. Para verificarlo se tomaron 26 pares de niños con retraso 
mental ligero de forma tal que cada par estaba formado por niños con carac-
terísticas similares. Se seleccionó al azar un niño de cada par y se realizó con 
ellos las actividades, mientras que el otro niño del par no las realizó. Al final 
se aplicó a cada niño una prueba de asociación y se obtuvieron los resultados 
de la tabla 4.28.
Bioestadística cualitativa.indd 153 25/06/2010 12:20:28 p.m.
http://booksmedicos.org
154
Tabla 4.28. Datos del ejemplo 4.17
Sí No
7 71
59 66
49 51
55 60
78 59
82 63
69 42
73 74
85 85
43 37
58 51
56 43
76 80
72 72
65 62
83 83
89 80
53 51
75 75
70 72
88 85
77 75
76 73
80 79
82 83
79 75
¿Puede afirmarse, con un nivel de significación de 0,05, que la capacidad 
de percepción social es mayor en los niños que realizaron las actividades?
Solución: Considerando los 26 pares una muestra aleatoria bivariada de pun-
tajes en una escala al menos ordinal y suponiendo que se trata de una evaluación 
común de 0 a 100 puntos o similar, se puede considerar la escala proveniente 
de una escala continua y darle sentido a las diferencias, sus valores absolutos 
y rangos. Asumiendo todo esto se tienen las condiciones para aplicar la dócima 
que se acaba de estudiar y no todas para aplicar la t de Student.
Hipótesis:
H0: La realización de un conjunto de actividades no tiene efecto en la ca-
pacidad de asociación para niños con retraso mental ligero. 
H1: La realización de un conjunto de actividades tiene efecto en la capacidad 
de asociación para niños con retraso mental ligero.
Bioestadística cualitativa.indd 154 25/06/2010 12:20:28 p.m.
http://booksmedicos.org
155
El resultado obtenido con un software estadístico, teniendo en cuenta que el 
tamaño muestral es 22 > 20, puesto que de 26 se reduce en 4 por haber cuatro 
pares con diferencia nula que se eliminan es:
V = 55,50 y Z ≈ 2,3051
P{|Z| > 2,3051} ≈ 0,02116
Decisión: Como 0,02116 < 0,05, se rechaza H0 con nivel de significación 
de 0,05. Sobre la base de estos datos, se puede afirmar que la realización del 
conjunto de actividades tiene efecto en la capacidad de asociación para niños 
con retraso mental ligero 
Observación: Debe tenerse muy en cuenta que la presencia de ligaduras 
debe disminuir la probabilidad de rechazar H0 y nunca lo contrario. Una so-
lución puede consistir en disminuir o aumentar, según el caso, el valor crítico 
proporcionalmente al porcentaje de ligas.
Problema propuesto 4.5:
Decida si hay o no diferencia entre los puntajes de las variables EV1 y EV2 
y entre los varones y las hembras en cuanto a EV2, de las poblaciones de donde 
proviene la matriz de DatosM2 de la tabla 1.3. 
4.2.3. Dócima de las rachas de Wald‑Wolfowitz para dos poblaciones 
a partir de muestras independientes
Permite docimar la hipótesis nula de que no hay diferencia entre las pobla-
ciones de donde proceden las muestras independientes en escalas ordinales que 
provienen de distribuciones continuas.
El estadígrafo es el mismo de la correspondiente dócima de una población 
del epígrafe 3.1.4: r es el número total de rachas.
Sus valores críticos se hallan en la tabla 3.8 y la variante de estadígrafo 
para muestras grandes (k o m mayor que 20), con distribución normal estándar 
es también el mismo de este epígrafe. 
aproximadamente bajo H0.
Para aplicar esta dócima se mezclan las dos muestras para constituir 
los valores de una variable Y con los valores A y B y se define una variable 
identificadora X, dicotómica que toma un valor si el correspondiente valor 
de Y pertenece a la muestra de A y otro valor si pertenece a la muestra de B. 
Además, r se obtiene ordenando la muestra conjunta de las dos variables por 
la variable Y y contando el número total de rachas que se proporcionan en la 
variable identificadora X. 
Bioestadística cualitativa.indd 155 25/06/2010 12:20:28 p.m.
http://booksmedicos.org
156
Ejemplo 4.18:
En una muestra A se tienen los cuatro puntajes 12, 13, 9, 7 y en otra, B se 
tienen los cinco puntajes 10, 9, 9, 8, 8. Se podrá afirmar que hay diferencia 
entre los puntajes de A y de B.
Hipótesis:
H0: No hay diferencia entre las poblaciones A y B
H1: Hay diferencia entre las poblaciones A y B
Para aplicar la dócima se siguen los pasos necesarios en la tabla 4.29 con Y 
y con los valores de las muestras de A y B y se define X la variable identificadora 
o grupal con el valor A si el valor correspondiente de Y pertenece a la muestra 
de A, o sea si es igual a 12, 13, 9 o 7 y el valor B si pertenecea la muestra de 
B o sea si es igual a 10, 9, 9, 8 u 8.
Tabla 4.29. Cálculo del número de rachas
Muestra conjunta (variable Y) 12 13 9 7 10 9 9 8 8
Variable X A A A A B B B B B
Muestra conjunta (de Y) ordenada: 7 8 8 9 9 9 10 12 13
Variable X después de ordenar por Y A B B A B B B A A
Rachas en la secuencia creada de A y B 1 2 3 4 5
Otras posibles secuencias de A y B son: 
A BBBB A B AA y A BBB A BB AA
Decisión: Puesto que el 9 de A puede cubrir 3 posiciones, todas estas secuen-
cias proporcionan el mismo total de 5 rachas por lo que no hay contradicción 
y se puede tomar la decisión: 
En la tabla 3.8 se obtienen r0,025 = 2 y r0,975 = 9 que determinan la región 
crítica r < 2 o r > 9 y como r = 5 no cae en ella, no se rechaza H0 con nivel de 
significación igual a 0,05. Sobre la base de estos datos no se puede afirmar que 
hay diferencia entre las poblaciones A y B.
Tratamiento de ligaduras
Si existen ligaduras entre los valores de una misma muestra no se altera 
el número de rachas r, pero si se dan ligaduras entre valores presentes en las 
dos muestras y como consecuencia se obtienen distintas secuencias de los dos 
símbolos A y B, tales que al menos dos de ellas tienen números totales de rachas 
diferentes, que conducen a decisiones contradictorias, entonces esta dócima no 
se podrá aplicar. Habrá que buscar una solución, que pudiera ser el rompimiento 
de las ligaduras que involucran a las dos muestras. En el ejemplo 4.18 no hubo 
problemas por no presentarse contradicción.
Bioestadística cualitativa.indd 156 25/06/2010 12:20:28 p.m.
http://booksmedicos.org
157
Ejemplo 4.19:
Consideremos los siguientes puntajes de dos muestras A y B, formando la 
muestra conjunta ordenada de la tabla 4.30 junto a la variable identificadora 
de valores A y B.
Tabla 4.30. Datos del ejemplo 4.19
4 5 5 6 6 6 6 6 9 9 9 9 10 13 13 15 15 16 18 18
A A A A A A B B B A A A A A B B B B B A
Resultaría difícil construir todas las posibles disposiciones de las A y las 
B por haber muchas ligaduras entre sus valores. En esta hay en total cinco 
rachas. Una solución podría consistir en romper las ligaduras adicionando una 
cantidad positiva a los valores ligados de una de las muestras seleccionada al 
azar de entre las dos. La cantidad debe ser lo suficientemente pequeña como 
para que no se rompa el orden de la muestra conjunta, por ejemplo 0,5, en este 
caso, para completar el procedimiento se lanza una moneda no trucada y se 
decide que si sale cara se agrega 0,5 a los 6 de A y que si cae escudo entonces 
se agrega 0,5 a ambos 6 de B. Análogamente se procede con las ligaduras 9, 
13 y 18, lanzando cada vez la moneda nuevamente. Este procedimiento es 
discutible porque el aumento que se logra contribuye a la aleatoriedad. Uno de 
los resultados posibles se ofrece en la tabla 4.31.
Tabla 4.31. Resultado con nueve rachas teniendo en cuenta 
el rompimiento de las ligaduras
4 5 6 6 6 7 7 9 9 9 10 10 13 14 14 15 15 16 18 19
A A A A A B B A A A B A A B A B B B B A
Este resultado se tiene si salió escudo, escudo, cara, cara, por ser las liga-
duras 6, 9, 13 y 18 las únicas que hay entre los puntajes de ambas muestras. 
El número de rachas es entonces igual a 9 y como los valores críticos, según 
la tabla 3.8 son 6 y 16, con un nivel de significación de 0.05, no se rechaza la 
hipótesis de que la secuencia es aleatoria. Hay que tener siempre mucho cui-
dado en la forma en que se rompen las ligaduras garantizando que no alteren 
la información original de modo sustancial.
Con la disposición original anterior a esta, en que hay 5 rachas la decisión 
tendría que ser la de rechazar H0, pero hay otras posibles disposiciones que pro-
porcionan más de 6 y menos de 16, como esta de la tabla 4.28 en que hay 8. 
Tabla 4.28. Resultado con ocho rachas
4 5 5 6 6 6 6 6 9 9 9 9 10 13 13 15 15 16 18 18
A A A B B A A A B A A A A A B B B B A B
Bioestadística cualitativa.indd 157 25/06/2010 12:20:29 p.m.
http://booksmedicos.org
158
En este caso no se rechazaría H0, pero, puesto que el problema admite de-
cisiones contradictorias con esta dócima, entonces no tiene solución con ella. 
Ejemplo 4.20:
Se observó el número de ensayos requeridos para la adquisición de un 
determinado grado de habilidad en la operación de un equipo nuevo por dos 
grupos de técnicos de salud: el E de 9 personas y el C de 21, cuyos resultados 
aparecen en la tabla 4.29.
Tabla 4.29. Datos del ejemplo 4.19
E 19 49 31 30 66 42 71 50 33 48
C 23 8 30 15 8 6 15 15 21 23 16 15 30 15 21 15 18 14 22 15 14
¿Existen diferencias en el logro de la habilidad en los grupos E y C?
Hipótesis: 
H0: No hay diferencia entre las poblaciones de donde provienen las mues-
tras aleatorias de los grupos en cuanto a la rapidez en la adquisición del grado 
de habilidad.
H1: Hay diferencia entre las poblaciones de donde provienen las muestras 
aleatorias de los grupos en cuanto a la rapidez en la adquisición del grado de 
habilidad.
Como uno de los tamaños muestrales es mayor que 20 se puede aplicar el 
estadígrafo Z y aprovechar el resultado de un software estadístico. Para esto 
una vía consiste en crear una variable Y con los 9 puntajes de E, primero y los 
21 de C a continuación, y utilizar una variable auxiliar, identificadora de la 
muestra, X cuyos 9 primeros valores son iguales a E y los 21 siguientes iguales 
a C, luego se ordena la matriz obtenida que las contiene a ambas por la varia-
ble Y y se cuenta el número de rachas en la variable X. Se utilizará, además, la 
fórmula corregida del estadígrafo Z para muestras grandes. Hay que destacar 
que la dócima se aplica a la variable auxiliar dicotómica X, pero la decisión se 
refieren a la variable Y. Se dan dos casos de interés:
a) El 30 de E se sitúa en la última posición de los 30 y se produce un total 
de 4 rachas como se puede apreciar en la tabla 4.30.
Tabla 4.30. Resultado con cuatro rachas 
6 8 8 14 14 15 15 15 15 15 15 16 18 19 21
C C C C C C C C C C C C C E C
21 22 23 23 30 30 30 31 33 42 48 49 50 66 71
C C C C C C E E E E E E E E E
ZC = 4,221038, P{|Z| > 4,221038} ≈ 0,000009
Bioestadística cualitativa.indd 158 25/06/2010 12:20:29 p.m.
http://booksmedicos.org
159
Como 0,000009 < 0,05 se rechaza H0 con α = 0,05 (y también de 
0,00001).
b) El 30 de E se sitúa en la cualquiera de las otras dos posiciones posibles 
y se produce un total de cuatro rachas (tabla 4.31).
Tabla 4.31. Otra disposición con cuatro rachas 
6 8 8 14 14 15 15 15 15 15 15 16 18 19 21
C C C C C C C C C C C C C E C
21 22 23 23 30 30 30 31 33 42 48 49 50 66 71
C C C C E C C E E E E E E E E
ZC = 3,49177, P{|Z| >3,864} ≈ 0,000480
Como 0,000480 < 0,05 rechaza H0 con α = 0,05 (y también de 0,0005).
Decisión: Como en ambos casos la decisión es la misma: se rechaza H0 con 
nivel de significación de 0,05 y también de 0,0005. Sobre la base de estos datos 
se puede afirmar que hay diferencia entre las poblaciones de donde provienen 
las muestras aleatorias de los grupos en cuanto a la rapidez en la adquisición 
del grado de habilidad.
Problema propuesto 4.6:
Verifique si hay diferencia entre los niños de la raza negra y las otras razas 
en cuanto a los puntajes de EV2 en la población de donde procede la muestra 
de de los niños de la matriz de DatosM2 de la tabla 1.3.
4.2.4. Dócima de los signos
Es útil para decidir si los puntajes de una población difieren o no de los 
puntajes de otra. Exige muestras aleatorias apareadas en escalas ordinales.
Hipótesis:
H0: No hay diferencias en los puntajes de las poblaciones.
H1: Hay diferencias en los puntajes de las poblaciones, los puntajes de una 
población son mayores o menores que los de la otra.
Estadígrafo X: número de signos +
Se obtiene contando los signos + obtenidos después de asignar a cada par 
de observaciones (a, b) de la muestra bivariada el signo más (+) si a > b y el 
signo menos (−) si a < b. 
X se puede considerar una variable aleatoria con distribución binomial con 
parámetros n (tamaño de la muestra menos el número de ceros obtenido) y 
p = 0,5 bajoH0, ya que bajo H0 la probabilidad P0 de obtener un signo + en un 
par (a, b) debe ser igual a la probabilidad Q0 de obtener un signo –, para todo 
par (a, b) de la muestra bivariada tal que a ≠ b.
Bioestadística cualitativa.indd 159 25/06/2010 12:20:29 p.m.
http://booksmedicos.org
160
Entonces todo el problema se reduce a aplicar la dócima binomial, teniendo 
en cuenta que la hipótesis H0: no hay diferencias en las poblaciones es equi-
valente a H0’: P = 0,5. 
En el sentido de que la cantidad de signos + en la población es igual a la 
de signos –, o que la probabilidad de obtener un signo es igual a la de obtener 
el otro signo e igual a 0,5.
Ejemplo 4.21: 
Verifique si hay diferencia entre los resultados de las evaluaciones en una 
escala de A, B, C, D, E, de los alumnos de una escuela en el primero y el segundo 
semestre si una muestra aleatoria de 12 de estos alumnos arrojó los resultados 
de la tabla 4.32. Utilice un nivel de significación de 0,05.
Tabla 4.32. Datos del ejemplo 4.21 
Alumno 1 2 3 4 5 6 7 8 9 10 11 12
Primer semestre A B A C D B A C D E B E
Segundo semestre B D E A C A B D E B E E
Siendo A < B < C < D < E y se asignan los signos + y – según lo conveni-
do y se obtiene la tabla 4.33, donde se consideraron los pares (a, b) en que a 
representa el puntaje del primer semestre y b el del segundo.
Tabla 4.33. Resultados del cálculo de los signos
Alumno 1 2 3 4 5 6 7 8 9 10 11 12
Signos − − − + + + − − − + − 0
Consideremos la proporción de signos + y las hipótesis:
H0: P = 0,5 contra H1: P ≠ 0,5
Estadígrafo: X = 4 (número de signos +)
Decisión: Aplicando la dócima binomial con n = 11, teniendo en cuenta que 
hay un 0, el del alumno número 12, y p = 0,5 se pueden calcular los valores de 
la distribución binomial con parámetros n = 11 y p = 0,5 (tabla 4.34).
P{X < 4} = P{ X ≤ 3 } ≈ 0,11328125 > 0,025 y P{ X > 4} ≈ 0,7256 de 
modo que P{|X| > 4} ≈ 0,8389
Decisión: Como 0,8389 no es menor que 0,025, no se rechaza H0 con nivel 
de significación de 0,05. Sobre la base de estos datos, no se puede afirmar que 
haya diferencia entre los resultados de las evaluaciones de los alumnos de la 
escuela en el primero y el segundo semestre.
Si aplicamos la aproximación normal, ya que x = 4 es menor que 
np0 = 11(0,5) = 5,5 y además nq0 = 11(0,5) = 5,5 obtendremos:
 
y P{|Z| > 0,603} = 0,546
Bioestadística cualitativa.indd 160 25/06/2010 12:20:29 p.m.
http://booksmedicos.org
161
Decisión: Como 0,546 no es menor que 0,05 no se rechaza H0 con nivel 
de significación de 0,05, que coincide con la tomada utilizando la distribución 
binomial.
Tabla 4.34. Distribución binomial con parámetros n = 11 y p = 0,5
k P{X= k} P{ X ≤ k }
0 0,000488281 0,00048828
1 0,005371094 0,00585938
2 0,026855469 0,03271484
3 0,080566406 0,11328125
4 0,161132813 0,27441406
5 0,225585938 0,50000000
6 0,225585938 0,72558594
7 0,161132813 0,88671875
8 0,080566406 0,96728516
9 0,026855469 0,99414063
10 0,005371094 0,99951172
11 0,000488281 1
Tratamiento de ligaduras
En caso de ligaduras, en que resulta a = b se eliminan los individuos liga-
dos y, por tanto, el tamaño n de la muestra se reducirá en una cantidad igual al 
número de ligaduras. Si no es aceptable la disminución del tamaño muestral se 
podría utilizar un rompimiento de las ligaduras semejante al realizado antes.
Problema propuesto 4.7:
Decida si hay diferencia entre los resultados de las clasificaciones de EV1 
y EV2 en la población de las niñas procedentes de la muestra de la matriz de 
DatosM2 de la tabla 1.3. Utilice un nivel de significación de 0,05. En la tabla 
4.35, se ofrecen los datos de las niñas.
Tabla 4.35. Datos del problema propuesto 4.8
EV1 6 4 5 5 3 3 2 5 4 5 2 5 5 3 4 5 3 5 2 6
EV2 2 5 3 2 4 3 5 2 2 6 2 4 5 3 4 5 3 2 5 2
4.2.5. Dócima de la mediana
Es útil para decidir si dos muestras aleatorias independientes provienen 
de poblaciones con igual mediana. Exige escalas ordinales. Para aplicarla se 
determina la mediana de la muestra conjunta formada por las dos muestras 
originales y luego se cuentan los totales de puntajes mayores de cada muestra 
Bioestadística cualitativa.indd 161 25/06/2010 12:20:30 p.m.
http://booksmedicos.org
162
y los totales de puntajes menores que esta mediana para conformar con ellos 
una tabla de contingencia (tabla 4.36).
Tabla 4.36. Tabla de contingencia de la prueba de la mediana
Frecuencia de puntajes Menores que la mediana Mayores que la mediana
Muestra 1 A B
Muestra 2 C D
A esta tabla se aplicará la dócima de homogeneidad ji cuadrado en tablas de 
contingencia o sus alternativas en el caso de que no se cumplan las condiciones 
exigidas a las frecuencias esperadas.
Tratamiento de ligaduras
Los puntajes iguales a la mediana se eliminan de ambas muestras y por ello 
provocan la reducción de los tamaños muestrales. En los casos de hipótesis 
unilaterales pudieran incluirse en una de las dos categorías de las columnas a 
criterio del investigador que aplica la dócima.
Ejemplo 4.22:
Se desea decidir si hay diferencia entre los niños respecto a las niñas en cuanto 
EV1 en la población de donde procede la matriz de DatosM2 de la tabla 1.3.
Primeramente se plantean las hipótesis:
H0: En la población de donde procede la muestra no hay diferencia entre 
los dos sexos en cuanto a EV1. 
H1: En la población de donde procede la muestra hay diferencia entre los 
dos sexos en cuanto a EV1. 
Datos originales por sexo ordenados: 
F 2 2 2 3 3 3 3 4 4 4 5 5 5 5 5 5 5 5 6 6
M 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 6 6 6 6 6 6 6
La mediana de la muestra conjunta es igual a 4 y se construye la tabla 4.37 
a la que se le aplica la dócima ji cuadrado de homogeneidad de las filas. 
Tabla 4.37. Frecuencias observadas del ejemplo 4.21
Sexo
Frecuencias observadas
Total
Menor que 4 Mayor que 4
M 14 10 24
F 7 10 17
Total 20 21 41
Hay solo 50 – 9 = 41 niños en la tabla porque faltan los 9 que se perdieron 
por ser iguales a la mediana 4. 
Bioestadística cualitativa.indd 162 25/06/2010 12:20:30 p.m.
http://booksmedicos.org
163
Se calculan las frecuencias esperadas para verificar las condiciones de la 
prueba ji cuadrado y se observa en la tabla 4.38 que se cumplen las condiciones 
para aplicar la dócima ji cuadrado con un grado de libertad.
Tabla 4.38. Frecuencias esperadas
Sexo
Frecuencias esperadas
Menor que 4 Mayor que 4
M 11,71 12,29
F 8,29 8,71
χ2 = 0,586 aplicando el factor de corrección P{χ2 > 0,589} = 0,4439.
χ2 = 1,172 sin aplicar el factor de corrección P{χ2 > 1,172}= 0,2789.
Decisión: Como 0,4439 y 0,2789 no son menores que 0,05, no se rechaza 
H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede 
afirmar que haya diferencia respecto a EV1entre las poblaciones de niños y niñas 
de donde proceden estas muestras.
Problema propuesto 4.8:
Se desea decidir si hay diferencia entre los niños respecto a las niñas en 
cuanto a EV2 en la población de donde procede la muestra de la matriz de Da-
tosM2 de la tabla 1.3.
4.2.6. Dócimas de significación para el coeficiente de rangos 
de Spearman
Ahora que se conocen las pruebas de hipótesis no resultará difícil compren-
der que el problema la significación de un coeficiente de correlación y de sus 
valores críticos no es más que un problema de prueba de hipótesis. La prueba 
de significación para el coeficiente de correlación lineal de Pearson es la misma 
que la del coeficiente de correlación de rangos de Spearman, por ser este un 
caso particular, resumida en la tabla 4.39, donde si ambas poblaciones tienen 
distribuciones normales el estadígrafo t, como se enuncia con el símbolo ~ tn – 2 
tiene, bajo H0, distribución t de Student con n – 2 grados de libertad.
Tabla 4.39. Resumen de la dócima de los coeficientes de correlación 
de Pearson y Spearman
Hipótesis Estadígrafo Región crítica
H0: R = 0 vs H1: R ≠ 0
22
~
1
2
−−
−= nt
r
n
rtH0: R ≤ 0 vs H1: R > 0 )2(1 −> α− ntt
H0: R ≥ 0 vs H1: R < 0 )2(1 −−< α− ntt
Bioestadística cualitativa.indd 163 25/06/2010 12:20:30 p.m.http://booksmedicos.org
164
Ejemplo 4.23:
Decida si hay correlación entre EV1 y EV2, en la población de donde procede 
la matriz de DatosM2 de la tabla 1.3. Utilice un nivel de significación de 0,01.
Hipótesis: H0: RS = 0 contra H1: RS ≠ 0.
Datos: n = 50, r = –0,247976. 
Estadígrafo:
P{|t| > 1,733920422} ≈ 0,089351509
Decisión: Como 0,089351509 no es menor que 0,01 no se rechaza H0 con 
nivel de significación de 0,01. Sobre la base de estos datos no se puede afirmar 
que hay correlación de rangos de Spearman entre los puntajes de EV1 y EV2 en 
la población de donde procede la muestra de la matriz de DatosM2 de la tabla 
1.3. (Esto también a veces se expresa diciendo que la correlación entre las dos 
variables no es significativa al 99 %).
Además, utilizando la vía de la región crítica:
 
El valor del estadígrafo –1,773419, no cae en ella por tanto no se rechaza 
H0 con nivel de significación de 0,01. Sobre la base de estos datos no se puede 
afirmar que haya correlación entre las dos variables (poblaciones) en cuanto a 
las escalas de EV1 y EV2. 
También se pueden plantear las hipótesis unilaterales, así en el ejemplo 
4.23 podríamos plantearnos:
H0: R ≥ 0 contra H1: R < 0 para un nivel de significación de 0,01
La región crítica vendrá dada por: 
Por tanto como –1,773419 no es menor que –2,40 no se rechaza H0 con 
nivel de significación de 0,01. Sobre la base de estos datos no se puede afirmar 
que hay correlación inversa, negativa, entre las dos variables en cuanto a EV1 
y EV2 en la población. 
Para el coeficiente de correlación de rangos de Spearman, la tabla 1.44 
brinda valores críticos para n ≤ 30.
Después de aplicar esta dócima y haber aumentado el conocimiento sobre las 
dócimas de hipótesis, es necesario recalcar que al afirmar que una correlación 
es significativa o que un coeficiente de correlación es significativo solamente 
significa que se ha rechazado la hipótesis referente a que entre las poblaciones 
de donde provienen las muestras aleatorias no hay correlación.
Bioestadística cualitativa.indd 164 25/06/2010 12:20:30 p.m.
http://booksmedicos.org
165
Problema propuesto 4.9:
Decida si hay correlación entre el grado de retraso mental y EV3 en 
la población de donde procede la muestra de la matriz de DatosM2 de la 
tabla 1.3.
4.2.7. Dócima para el coeficiente de correlación de rangos de Kendall
Se basa en el hecho de que para n > 10 la distribución del coeficiente de 
correlación de rangos de Kendall se aproxima a la normal con media 0 y va-
rianza , de modo que:
 
Tendrá entonces distribución normal estándar.
Para la hipótesis:
H0: No hay correlación de rangos de Kendall (RK = 0).
H1: Hay correlación de rangos de Kendall (RK ≠ 0). 
Un estadígrafo adecuado es: 
 
Y la región crítica vendrá dada entonces por:
 21
α−
> ZZ
 
Para dócimas de una cola se procederá como en las dócimas anteriores en 
que el estadígrafo tenía distribución normal estándar.
Ejemplo 4.24:
Decida si hay correlación entre variables EV1 y EV2 en la población de donde 
procede la matriz de DatosM2 de la tabla 1.3, usando ahora el coeficiente de 
correlación de rangos de Kendall. Utilice un nivel de significación de 0,05.
Hipótesis: H0: RK = 0 contra H1: RK ≠ 0, rK ≈ –0,206662 y n = 50. 
Estadígrafo: 
, P{|Z| > 2,1177} ≈ 0,034
Región crítica: 
|Z| > Z0,975 ≈ 1,96.
Bioestadística cualitativa.indd 165 25/06/2010 12:20:31 p.m.
http://booksmedicos.org
166
Decisión: Como 0,017 es menor que 0,05 (también como 2,1177 es mayor 
que 1,96) se rechaza H0 con nivel de significación de 0,01. Sobre la base de estos 
datos se puede afirmar que hay correlación de Kendall entre las variables.
Problema propuesto 4.10:
Decida si hay correlación entre las variables grado de retraso mental y EV3, en 
la población de donde procede la muestra de la matriz de DatosM2 de tabla 1.3, 
cuyo coeficiente de correlación de rangos de Kendall tiene un valor de 0,65223.
4.2.8. Dócima para el coeficiente de concordancia de rangos de Kendall 
Se basa en que el estadígrafo χ2= k(n – 1)rCK donde k es igual al número de 
tratamientos y de muestras, n el tamaño de cada muestra y rCK el coeficiente de 
concordancia de Kendall, que tiene aproximadamente distribución ji cuadrado 
con k – 1 grados de libertad y la aproximación es aceptable para n > 7.
La hipótesis H0 de que no hay concordancia entre los resultados de 
los k tratamientos se rechazará, con nivel de significación igual a α si 
k(n – 1)rCK > )1()1(
2
1 −χ>− α− krnk Ck .
Ejemplo 4.25:
Decida si hay o no concordancia entre los puntajes de las variables EV1, 
EV2 y EV3 a partir de muestras de la matriz de DatosM2 de la tabla 1.3. 
Hipótesis: 
H0: RCK = 0 o sea no hay concordancia entre las tres poblaciones.
H1: RCK ≠ 0 o sea hay concordancia entre las tres poblaciones.
Datos y cálculos: k = 3, n = 50, α = 0,05; rCK = 0,07156.
Estadígrafo: χ2 = k(n – 1) rCK = 3(49)0,07156 = 10,5193.
Región crítica: 
991465,5)1(21
2 ≈−χ>χ α− k
P{χ2 > 105193} ≈ 0,02793
Decisión: Puesto que 10,5193 supera a 5,991465 y más aún como 0,002793 
es menor que 0,05, se rechaza la hipótesis H0 con nivel de significación de 0,05. 
Sobre la base de estos datos se puede afirmar que hay concordancia entre las 
tres variables.
Problemas propuestos 4.11: 
a) Para n < 8, consulte, en el capítulo 1, la dócima de significación de 
este coeficiente de concordancia y precísela, acorde con los nuevos 
conocimientos de pruebas de hipótesis.
b) Decida si hay o no concordancia entre los coeficientes de inteligencia 
de las tres poblaciones correspondientes a las los individuos del sexo 
Bioestadística cualitativa.indd 166 25/06/2010 12:20:31 p.m.
http://booksmedicos.org
167
masculino de las tres muestras aleatorias de CI1, CI2 y CI3 de la tabla 
matriz de DatosM2 de la tabla 1.3.
4.3. Dócimas para más de dos poblaciones
4.3.1. El análisis de varianza de Kruskal‑Wallis
Permite decidir si k muestras independientes en escalas ordinales proceden 
de la misma población o de poblaciones con iguales en sumas de rangos. Exige 
escala ordinal proveniente de una distribución continua.
Estadígrafo:
Donde, para i = 1, 2,..., k:
k: representa el número de muestras.
ni: es el tamaño de la muestra i-ésima, ∑
=
=
k
i
inn
1
.
El valor de H se obtiene después de ranguear la muestra conjunta de las k 
muestras que consiste en la reunión de las muestras de los k tratamientos, una 
a continuación de la otra, para obtener una columna única donde se puedan 
identificar los puntajes correspondientes a cada tratamiento y sumarlos para 
obtener los valores de las Ri.
Bajo H0, el estadígrafo H tiene aproximadamente distribución 
2
1−χk , esto es 
ji cuadrado con k –1 grados de libertad, si las nj no son muy pequeñas.
Región crítica: ( )H k> −−χ α12 1 (si las ni no son muy pequeñas, para 
i = 1, 2,..., k).
Si se presentan más de un 25 % de ligas resulta conveniente utilizar el 
estadígrafo corregido:
Donde m es igual al número total de rangos distintos ligados de la muestra 
conjunta ragueada y tj es la cantidad de rangos ligados (iguales) de la j-ésima 
ligadura, para j =1, 2,..., m.
Ejemplo 4.26:
Decida si hay o no diferencias entre los grados de retrazo mental de los 
niños de las tres razas de población de donde proviene la muestra de la matriz 
de DatosM2 de la tabla 1.3, que se ofrecen a continuación en la tabla 4.40.
Bioestadística cualitativa.indd 167 25/06/2010 12:20:31 p.m.
http://booksmedicos.org
168
Tabla 4.40. Datos del ejemplo 4.25
B N O
M L M
G L M
G G L
L S M
M L S
S M M
M M M
S G M
M L S
L L M
S M G
S L M
L L G
L M G
S
M
S
M
M
S
G
M
H0: No hay diferencias entre las tres razas en cuanto a retrazo mental.
H0: Hay diferencias entre la tres razas en cuanto a retrazo mental.
Con un software estadístico a partir de la muestra conjunta rangueada se 
obtiene la tabla 4.41.
Tabla 4.41. Total y sumas de rangos por muestra
Raza ni Ri
B 14 411
N 14 378
O 22 486
H = 2,331611917 gl = 2 P{χ2 > 2,331611917} ≈ 0,311671367
Decisión: Como 0,311671367 no es menorque 0,05 no se rechaza H0 con un 
nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar 
que haya diferencia entre las tres razas en cuanto al grado de retraso mental en los 
niños de donde procede la muestra de la matriz de DatosM2 de la tabla 1.3.
En el caso de que existan ligaduras se recomienda utilizar el estadígrafo H 
corregido por ligaduras.
Bioestadística cualitativa.indd 168 25/06/2010 12:20:32 p.m.
http://booksmedicos.org
169
Ejemplo 4.27:
Se desea docimar la hipótesis de que no hay diferencias entre los niveles 
de popularidad de los profesores de tres grupos de primer año de Medicina a 
partir de las muestras de puntajes de popularidad de la tabla 4.42.
Hipótesis: 
H0: Los profesores de tres grupos de primer año de Medicina tienen igual 
nivel de popularidad.
H1: Los profesores de tres grupos de primer año de Medicina difieren en 
el nivel de popularidad.
Tabla 4.42. Puntajes de los niveles de popularidad de los profesores
Grupo A Grupo B Grupo C
96 82 115
128 124 132
82 132 166
61 132 132
101 109 115
96 115 -
Se ranguea la muestra conjunta en la tabla 4.43, manteniendo identificados 
los grupos.
Tabla 4.43. Rangueo de la muestra conjunta 
Valor Rango Grupo
61 1 A
82 2,5 B
82 2,5 A
96 4,5 A
96 4,5 A
101 6 A
109 7 B
115 9 B
115 9 C
115 9 C
124 10 B
128 11 A
132 14,5 B
132 14,5 B
132 14,5 C
132 14,5 C
166 17 C
Bioestadística cualitativa.indd 169 25/06/2010 12:20:32 p.m.
http://booksmedicos.org
170
De donde se obtienen en la tabla 4.44 las tres sumas de rangos R1, R2 y R3 
para luego calcular el valor del estadígrafo. 
Tabla 4.44. Total y sumas de rangos por muestra
A B C
n 6 6 5
Ri 29,5 57,5 64
Como se puede observar hay cuatro rangos distintos ligados 82, 96, 115, 132. 
Ahora se calculará el valor del estadígrafo HC.
∑
=
−
im
i
ii tt
1
2 )1( = 2(22 – 1) + 2(22 – 1) + 3(32 + 1) + 4(42 + 1) 
 = 6 + 6 + 24 + 60 = 96
n(n2 –1) = 17(172 – 1) = 4 896
 ≈ 13,027 P{χ2 > 13,027} ≈ 0,001483.
Decisión: Como 0,001483 es menor que 0,05 se rechaza H0 con nivel de 
significación de 0,05 (y de 0,001484). Sobre la base de estos datos se puede 
afirmar que hay diferencia entre los niveles de popularidad de los profesores 
de los grupos A, B y C de primer año de Medicina. 
Realizándola sin tener en cuenta la corrección por ligaduras se obtiene:
H ≈ 12,77 P{χ2 > 12,77} ≈ 0,001687
Muy similar a la lograda con la corrección. 
Problema propuesto 4.12:
Resuelva el ejemplo 4.27 con la variable EV3 de la matriz de DatosM2 de 
la tabla 1.3 en lugar de grado de retraso mental.
4.3.2. El ANOVA de Friedman
Permite docimar la hipótesis de que k muestras aleatorias igualadas en 
escalas ordinales provienen de la misma población, en el sentido de que las 
poblaciones de procedencia tienen iguales sumas de rangos.
Bioestadística cualitativa.indd 170 25/06/2010 12:20:32 p.m.
http://booksmedicos.org
171
En la matriz de datos utilizada en esta dócima, las columnas representan 
las muestras (denominadas también tratamientos) y las filas los individuos 
(denominados también jueces o calificadores).
Los datos para esta dócima se disponen formando una matriz de k colum-
nas por n filas, las columnas las encabezan la identificación del tratamiento y 
las n filas los calificadores o jueces, de modo que las filas de datos se pueden 
interpretar como k-úplas de individuos igualados en cuanto a las variables 
pertinentes. Un modelo de esta interpretación de la disposición de los datos y 
el rangueo por fila se ofrece en las tablas 4.45 y 4.46.
Tabla 4.45. Distribución bivariada de frecuencias modelo para la prueba 
de Friedman
Juez
Tratamiento
T1 T2 ··· Tk
J1 X11 X21 ··· Xk1
J2 X12 x22 ··· Xk2
… … … …
Jn X1n X2n ··· Xkn
Un estadígrafo apropiado es:
 
Que, bajo H0 tiene aproximadamente distribución ji cuadrado con k – 1 
grados de libertad.
Para calcular su valor se ranguean las filas de los datos de la tabla 4.45 para 
obtener la tabla 4.46, en la cual se suman los rangos correspondientes a cada 
columna de esta nueva tabla y se denotan por R1, R2,..., Rk. 
Tabla 4.46. Modelo de rangueo por filas y sumas de rangos 
de las columnas
Juez
Tratamiento
T1 T2 ··· Tn
J1 rgf(x11) rgf(x21) ··· rgf(xk1)
J2 rgf(x12) rgf(x22) ··· rgf(xk2)
… … … … …
Jn rgf(x1n) rgf(x2n) ··· rgf(xkn)
Sumas de rangos R1 R2 Rk
Bioestadística cualitativa.indd 171 25/06/2010 12:20:32 p.m.
http://booksmedicos.org
172
Donde rgf(xij) indica rango por fila y representa el rango asignado por el 
juez j-ésimo al tratamiento i-ésimo, para i = 1, 2,..., k y j = 1, 2,..., n.
 representa la suma de los rangos de la columna i de la tabla
 4.45, para i = 1, 2,..., k.
La máxima diferencia entre los tratamientos se dará cuando todos los rangos 
de cada columna sean iguales y por tanto las sumas de cada columna serán muy 
diferentes y habrá una concordancia perfecta entre los jueces. Pero si las sumas 
de las columnas, Ri, resultan aproximadamente iguales, esto podrá interpretarse 
como que no hay diferencia notable entre los tratamientos y si discordancia 
entre los jueces. 
Región crítica: ( )1212 −χ>χ α− k .
Para k < 3 o n < 2 no hay tablas.
Ejemplo 4.28:
Se desea saber si cuatro tratamientos contra la influenza producen iguales 
resultados en los pacientes aquejados de esa enfermedad. Para decidir se obtu-
vieron unos puntajes entre 1 y 10 que indican el nivel de restablecimiento de 
los pacientes al cabo del segundo día con el correspondiente tratamiento. Los 
cuatro tratamientos fueron aplicados a una muestra de tres grupos de cuatro 
pacientes igualados y los resultados se brindan en la tabla 4.47.
Tabla 4.47. Distribución bivariada con los datos del ejemplo 4.28
Grupo TratamientosI II III IV
1 6 3 1 5
2 7 5 3 9
3 7 2 3 4
Hipótesis: 
H0: Los cuatro tratamientos producen iguales resultados.
H1: Los cuatro tratamientos no producen iguales resultados.
La tabla 4.48 se obtiene rangueando cada fila de la tabla 4.47.
Tabla 4.48. Rangueo por fila y suma de rangos por columnas de la tabla 4.47
Grupo MétodosI II III IV
1 4 2 1 3
2 3 2 1 4
3 4 1 2 3
Suma de rangos 11 5 4 10
Bioestadística cualitativa.indd 172 25/06/2010 12:20:33 p.m.
http://booksmedicos.org
173
gl = 4 – 1 = 3 P{χ2 > 7,4} ≈ 0,0602 
Decisión: Como 0,0602 no es menor que 0,05 no se rechaza H0 con 
nivel de significación de 0,05. Sobre la base de estos datos no se puede afir-
mar que los cuatro tratamientos producen diferentes resultados. Además, 
.
Región crítica: χ2 > 7,81.
Con lo que la decisión resulta la misma obtenida con la probabilidad.
Observación: Esta dócima de Friedman constituye también una prueba de 
significación para el coeficiente de concordancia de Kendall entre k variables. 
Habrá concordancia entre las variables si se rechaza H0 y no habrá concordancia 
en caso contrario Aplicándola en este ejemplo 4.27 se podría decir que no hay 
concordancia entre las muestras.
Problema propuesto 4.13:
Decida si hay diferencia o no entre las poblaciones correspondientes a las 
muestras de EV1, EV2 y EV3 de la población de donde procede la matriz de 
DatosM2 de la tabla 1.3. Decida además si hay o no concordancia entre los 
puntajes de estás tres variables en las poblaciones. 
4.3.3. ANOVA de la mediana
Permite decidir acerca de si k muestras aleatorias independientes en escalas 
ordinales provienen de poblaciones con igual mediana. 
Para aplicarla se determina la mediana de la muestra conjunta formada 
por las k muestras originales y, después de ordenarla, se cuentan los totales de 
puntajes de cada muestra mayores, así como los totales de puntajes menores que 
esta mediana para conformar con ellos una tabla de contingencia (tabla 4.49).
Tabla 4.49. Total de puntajes por encima y por debajo de la mediana 
Puntajes Muestra 1 Muestra 2 ··· Muestra k
Menores que la mediana O11 O21 ··· Ok1
Mayores que la mediana O12 O22 ··· Ok2
A continuación se aplicará a esta tabla la dócima de independencia o de 
homogeneidad ji cuadrado en tablas de contingencia o sus alternativas en elcaso 
de que no se cumplan las condiciones exigidas a las frecuencias esperadas.
Tratamiento de ligaduras
Los puntajes iguales a la mediana se eliminan de las k muestras y por ello, 
provocan la reducción de los tamaños muestrales. En general, y en particular en 
los casos de hipótesis unilaterales, pudieran incluirse en una de las dos catego-
rías de las columnas a criterio del investigador que aplica la dócima, o decidir 
Bioestadística cualitativa.indd 173 25/06/2010 12:20:33 p.m.
http://booksmedicos.org
174
aleatoriamente a qué categoría asignar cada una, pero siempre mucho cuidado 
en que estas inclusiones no vayan a desvirtuar el resultado. 
Ejemplo 4.29:
Decida si hay o no diferencia entre los niños de las tres razas (blanca, 
negra y otras) de la población de donde proceden las muestras de la matriz de 
DatosM2 de la tabla 1.3 en cuanto a la escala de Vineland EV2. En la tabla 4.50 
se ofrecen los datos. 
Tabla 4.50. Distribuciones de frecuencias observadas y esperadas obtenidas
Frecuencias observadas
Total
Frecuencias esperadas
N O B N O B
Menor que la mediana 9 10 6 25 7 11 7
Menor que la mediana 5 12 8 25 7 11 7
Total 14 22 14 50 14 22 14
B: blanca. N: negra. O: otras.
Hipótesis: 
H0: No hay diferencia entre las tres razas respecto a EV2 en la población de 
donde proviene la muestra de la matriz de DatosM2 de la tabla 1.3.
H1: hay diferencia entre las tres razas respecto a EV2 en la población de 
donde proviene la muestra de la matriz de DatosM2 de la tabla 1.3.
Como se cumple que la condición de que no más del 20 % de las frecuencias 
esperadas sea menor que 5 y ninguna menor que 1, necesaria para aplicar la 
dócima de independencia u homogeneidad en tablas de contingencia, se puede 
aplicar la dócima.
Mediana = 3,5; χ2 ≈ 1,610390 gl = 2 p = 0,4470
Decisión: Como 0,4470 no es menor que 0,05 no se rechaza H0 con nivel 
de significación de 0,05. Sobre la base de estos datos no se puede afirmar que 
haya diferencias entre las tres razas en cuanto a la EV2 en la población de donde 
proviene la muestra aleatoria de la matriz de DatosM2 de la tabla 1.3.
Problema propuesto 4.14:
Decida si hay o no diferencias entre las razas (blanca, negra y otras) en 
cuanto a EV1 entre los niños de la muestra de la matriz de DatosM2 de la tabla 
1.3, utilizando las pruebas de Friedman y de la mediana y compare sus resul-
tados y las pruebas.
Bioestadística cualitativa.indd 174 25/06/2010 12:20:34 p.m.
http://booksmedicos.org
175
Capítulo 5
Problemas y suplementos
Este capítulo comienza con una muestra amplia de explicación de las 
opciones y otras posibilidades que ofrece Microsoft Excel en el tratamiento 
estadístico de los datos y el procesamiento matemático estadístico, continúa con 
problemas resueltos con Excel y además variados problemas de estadística y 
la mayoría con sus respuestas, también tablas de distribución de las pruebas de 
hipótesis según la escala, el número de poblaciones y el tipo de muestra, además 
de suplementos y tópicos de interés para las investigaciones experimentales. 
5.1. Opciones de Excel para el procesamiento estadístico 
Excel es una hoja de cálculo muy popular, presente en el paquete de Mi-
crosoft Office, que ofrece bastantes posibilidades de procesamiento de datos 
estadísticos desde su versión de 1995. El se encuentra instalado en casi todas 
computadoras personales (PC) con que se cuenta, y esa realidad lo hace atractivo 
para usarlo siempre que se pueda y resuelva el procesamiento que se desee, 
porque la alternativa que constituyen los paquetes estadísticos profesionales 
no siempre están al alcance de los estudiantes e investigadores que a menudo 
pueden acceder a una PC, pero no a instalarle un software estadístico, que 
muchas veces ni poseen. Además, la mayoría de los paquetes estadísticos mo-
dernos aceptan los archivos de extensión xls de Excel, lo que lo convierte en 
un buen intermediario y utilitario. También Excel exporta los datos a muchos 
formatos de gestores de bases de datos y paquetes estadísticos viejos y nuevos. 
El software libre como la Hoja de cálculo de OpenOffice, el Gnumeric y otros 
similares también pueden prestar este servicio.
En particular contribuye a la solución de múltiples problemas que no 
vienen programados habitualmente en los paquetes estadísticos. Los paquetes 
estadísticos tiene grandes ventajas para el procesamiento y aplicación de los 
métodos con muchas variables y muchos valores, pero tienen la desventaja de 
estar a menudo en idioma inglés y los que están en español son pocos, además, 
su terminología y gran cantidad de procedimientos llega a agobiar a los que 
no dominan los métodos estadísticos, sin embargo Excel es lo habitual y a los 
Bioestadística cualitativa.indd 175 25/06/2010 12:20:34 p.m.
http://booksmedicos.org
176
estudiantes e investigadores le es menos ajeno. Es una gran calculadora, una 
valiosa herramienta utilitaria para la manipulación de los datos, la graficación 
y para el procesamiento estadístico complejo, pero no ya porque tenga progra-
mados los procedimientos, sino porque se pueden programar muchos de ellos, 
al menos parcialmente y esto constituye una gran ayuda para los estadísticos, 
los estudiantes y los investigadores. Esta programación no es compleja, se trata 
solamente de la conformación de los cálculos. 
Con Excel se pueden calcular casi todos los estadígrafos de las pruebas de 
hipótesis y las probabilidades y percentiles que se deseen de las distribuciones 
normal, t de Student, ji cuadrado, F de Fisher y otras, los intervalos de confianza, 
las distribuciones de frecuencia y su graficación, ordenar, transponer y realizar 
otros tipos de manipulación de los datos. Además los paquetes estadísticos 
modernos permiten abrir archivos de Excel o intercambiar matrices de datos, 
resultados y gráficos al menos cortando y pegando. Otra cualidad buena de 
Excel es que permite comprobar los cálculos realizados con los paquetes esta-
dísticos actuando como criterio de la verdad en los casos de diferencias entre 
dos resultados de paquetes distintos que debían coincidir en los cálculos.
Se describirán cálculos y procesamientos de los métodos estadísticos in-
cluidos en el libro y las opciones y fórmulas de Excel para obtenerlos.
Si Microsoft Office está bien instalado, la opción Análisis de Datos del 
menú Herramientas con los métodos estadísticos completamente programados 
se instalan en Excel de la manera siguiente. 
− Haciendo clic en el menú Herramientas seleccione la opción Complementos
− En el cuadro obtenido seleccione la opción Herramientas para análisis 
y Aceptar.
− Haga clic de nuevo en el menú Herramientas y se verá en la lista 
desplegable una nueva opción llamada Análisis de datos que ofrece 19 
procedimientos estadísticos matemáticos tales que al efectuar cada uno 
de ellos se obtendrá una hoja de resultados con todos los detalles del 
método aplicado como lo hace habitualmente un software estadístico 
profesional.
En el Excel 95 en lugar de Complementos la opción para instalar Análisis 
de Datos se denomina Macros Automáticas. En Office 2007 y 2010, como 
muchas otras cosas se ha modificado el procedimiento para instalar Análisis 
de Datos. En ellos aparece en la cinta de opciones Data y para instalarlos si 
no está se procede así:
1. Se hace clic en el botón del símbolo de Microsoft Office en 2007 o 
Archivo en 2010 y se selecciona Opciones de Excel o solo Opciones. 
 2007 2010
Bioestadística cualitativa.indd 176 25/06/2010 12:20:37 p.m.
http://booksmedicos.org
177
2. Haga clic en Complementos o Complementos de Excel en el cuadro 
Administrar y a continuación Ir.
3. En el cuadro de diálogos Complementos disponibles se activa la casilla 
de verificación Herramientas para análisis y Aceptar.
4. Comprobar que al final de la cinta del menú Datos está la opción Análisis 
de datos.
Observaciones: 
1. Si Herramientas para análisis no aparece en la lista del cuadro 
Complementos disponibles, haga clic en Examinarpara buscarlo.
2. Si se le indica que Herramientas para análisis no está instalado 
actualmente en el equipo, haga clic en Sí para instalarlo.
3. Una vez cargado Herramientas para análisis, el comando Análisis de 
datos estará disponible en el grupo Análisis de la cinta Datos.
En Análisis de datos se ofrecen 19 procedimientos o métodos estadísticos 
cuyo resultado es toda una hoja de resultados como lo hace habitualmente un 
software estadístico.
5.1.1. Notación de probabilidades
Antes de analizar los métodos y funciones estadísticas de Excel se debe 
precisar la notación de probabilidades.
Se defina la función de distribución F de una variable aleatoria X así: 
F(t)= P{X < t} para todo número real t y será la única que se denominará fun-
ción de distribución, llamada generalmente acumulativa, y en cuyo caso t es el 
percentil de orden p = F(t), sea cual sea la distribución F. Por esta razón en toda 
otra función o método relacionado con ella se harán los ajustes para expresar 
en esta notación lo que ofrezcan. Por ejemplo, en el caso en que se defina como 
P{X ≤ t} coincidirá con F(t) en el caso de las distribuciones continuas, no así 
en el caso de las discretas y en el caso que se defina como P{X ≥ t} será igual 
a 1 – F(t). Excel en el caso de la distribución normal si ofrece F(t) = P{X < t}, 
pero en el caso de las distribuciones t de Student, ji cuadrado y F de Fisher 
utiliza P{X > t} o P{|X| ≥ t} = 2 – F(t) + F(–t).
5.1.2. El complemento Análisis de datos de Excel
El lenguaje de Excel no es muy riguroso, por eso a continuación de cada 
opción se describirá la denominación rigurosa y alguna explicación si se re-
quiere. 
1. Análisis de varianza de un factor: permite realizar un ANOVA de efectos 
fijos y clasificación simple.
Bioestadística cualitativa.indd 177 25/06/2010 12:20:38 p.m.
http://booksmedicos.org
178
 2. Análisis de varianza de dos factores con una sola muestra por grupo: 
permite realizar un ANOVA efectos fijos y clasificación doble con una 
observación por celda (diseño en bloques aleatorizados).
 3. Análisis de varianza de dos factores con varias muestras por grupo: 
permite realizar un ANOVA de efectos fijos y clasificación doble con 
más de una observación por celda.
 4. Coeficiente de correlación: permite calcular la matriz de correlaciones lineales 
de Pearson de varias variables incluidas en el rango especificado. 
 5. Covarianza: permite calcular la matriz de covarianza de varias variables 
del rango especificado.
 6. Estadística descriptiva: permite calcular error típico o estándar de la 
media, mediana, moda, desviación estándar, varianza de la muestra, 
curtosis, coeficiente de asimetría, rango, mínimo, máximo, k-ésimo 
menor, k-ésimo mayor, suma, cuenta y el error estándar de la media 
multiplicado por el percentil de la distribución normal de orden dado por 
el nivel de confianza 1 – α, en forma de porcentaje, que se introduzca.
 7. Suavización exponencial: permite realizar un pronóstico fijando el factor 
de suavización exponencial
 8. Prueba F para varianzas de dos poblaciones: permite realizar la prueba 
F de comparación de dos varianzas poblacionales para muestras 
independientes en el caso de regiones críticas de una cola.
 9. Análisis de Fourier: permite realizar la transformación rápida de Fourier 
y la trasformación inversa, de los datos originales.
10. Histograma: permite construir una distribución de frecuencias a partir 
de los datos numéricos y las clases dadas por sus extremos superiores, 
así como graficarla. En la distribución por intervalos estos son abiertos 
por la izquierda y cerrados por la derecha y ofrece sólo los extremos 
superiores
11. Media móvil: para un intervalo k permite calcular los promedios de 
los k números siguientes a partir del primero, después los k números 
siguientes a partir del segundo, y así sucesivamente. 
12. Generación de números aleatorios: permite generar tantas columnas de 
tantos números como escriba en Número de variables y Cantidad de 
números aleatorios como filas, con distribuciones a escoger: uniforme, 
normal, Bernoulli, binomial, de Poisson, de frecuencia relativa y 
discreta, esta última dada. 
13. Jerarquía y percentil: permite ordenar los datos de mayor a menor 
asignándole a cada dato su posición en este ordenamiento; su jerarquía, 
orden que ocupa en este ordenamiento y su porcentaje acumulado a 
partir del mínimo. La jerarquía se da de mayor a menor y coincide con 
el rango de mayor a menor si no hay ligaduras.
Bioestadística cualitativa.indd 178 25/06/2010 12:20:38 p.m.
http://booksmedicos.org
179
14. Regresión: realiza los análisis de regresión lineal simple y múltiple.
15. Muestra: permite seleccionar una muestra aleatoria del tamaño indicado 
por Número de muestras o una muestra periódica (sistemática) de 
periodo k tomando el k-ésimo elemento a partir del primero y luego el 
k-ésimo a partir del siguiente hasta agotarlos datos. Para seleccionar 
una muestra aleatoria teniendo sólo el tamaño poblacional N escriba 
los números 1, 2, 3,..., N y aplique la opción Muestra al rango que ellos 
cubren.
16. Prueba t para medias de dos muestras emparejadas: permite aplicar 
la prueba de hipótesis para las medias de dos poblaciones con 
distribuciones normales a partir de muestras aleatorias apareadas en 
los caso de regiones críticas de una y dos colas.
17. Prueba t para dos muestras suponiendo varianzas iguales: permite aplicar la 
prueba de hipótesis para las medias de dos poblaciones con distribuciones 
normales a partir de muestras aleatorias independientes con varianzas 
iguales en los caso de regiones críticas de una y dos colas.
18. Prueba t para dos muestras suponiendo varianzas desiguales: permite 
aplicar la prueba de hipótesis para las medias de dos poblaciones con 
distribuciones normales a partir de muestras aleatorias independientes con 
varianzas desiguales en los caso de regiones críticas de una y dos colas.
19. Prueba Z para medias de dos muestras: permite aplicar la prueba de 
hipótesis Z para las medias de dos poblaciones con distribuciones 
normales con varianzas conocidas a partir de muestras aleatorias 
independientes en los casos de regiones críticas de una y dos colas
En el epígrafe 5.4.12 se ofrecen ejemplos de aplicación de estas pruebas 
de Análisis de datos. 
5.1.3. Funciones estadísticas de Excel
Tenga presente, antes de pasar a tratar la barra de funciones que siempre 
que haya un método estadístico en Análisis de datos del menú Herramientas 
se debe preferir, pues aporta mucha más información que el de una función de 
la barra de funciones que también lo realice. El Análisis de datos proporciona 
más o menos una hoja de resultados, como los paquetes estadísticos, pero las 
funciones por lo general ofrecen el resultado en una celda. 
Además de estos 19 métodos de Análisis de datos, entre las funciones de 
Excel, que aparecen al hacer clic en el icono con forma de fx, de la barra de 
fórmulas, llamado Insertar función, que también aparece en el menú Insertar 
de la hoja de Excel, están, entre otras, la opción funciones estadísticas, que 
presenta más de 80 funciones que apoyadas con las matemáticas, las lógicas 
y otras, facilitan notablemente el cálculo y permiten ampliar enormemente las 
posibilidades de procesamiento estadístico. Además el asistente para gráficos es 
Bioestadística cualitativa.indd 179 25/06/2010 12:20:38 p.m.
http://booksmedicos.org
180
especializado en gráficas de distribuciones de frecuencias, que son muy buenas 
y extraordinariamente sencillas de construir.
Además de las funciones estadísticas Excel ofrece:
− Financieras.
− Texto.
− Fecha y hora. 
− Lógicas. 
− Matemáticas y trigonométricas.
− Información.
− Base de datos.
− Ingeniería.
Todas de una manera u otra, hacen su contribución en mayor o menor me-
dida al trabajo estadístico.
Descripción de las funciones estadísticas
 1. BINOM.CRIT: permite calcular k tal que P{X < k} = alfa, donde alfa 
es el tercer parámetro que pide,o sea, el percentil de orden alfa de la 
distribución binomial con parámetros n = ensayos y p = prob_éxito.
 2. COEFICIENTE.ASIMETRIA: permite calcular el coeficiente de 
asimetría de una distribución.
 3. COEF.DE.CORREL: permite calcular el coeficiente de correlación 
lineal de Pearson de dos variables.
 4. COEFICIENTE.R2: permite calcular el coeficiente de determinación, 
cuadrado del coeficiente de correlación lineal de Pearson en el caso de 
la regresión simple. 
 5. CONTAR: permite contar cuántos números hay en el rango de celdas 
seleccionado desechando otros símbolos y celdas vacías.
 6. CONTARA: permite contar el número de celdas que no están vacías y 
los valores que hay en el rango de celdas seleccionado. 
 7. CONTAR.BLANCO: permite contar el número de celdas en blanco de 
un rango.
 8. CONTAR.SI: permite contar el número de celdas, dentro del rango, que 
cumplen la condición especificada.
 9. CONTAR SIS: como el anterior, pero para múltiples condiciones (solo 
en Excel 2010).
10. CONTAR.SI.CONJUNTO: permite contar el número de celdas, dentro del 
rango, que cumplen varias condiciones. Está presente solo en Excel 2007.
11. COVAR: permite calcular la covarianza de las dos variables 
especificadas.
12. CRECIMIENTO: permite calcular valores en una tendencia exponencial 
dados los valores de x.
Bioestadística cualitativa.indd 180 25/06/2010 12:20:38 p.m.
http://booksmedicos.org
181
13. CUARTIL: permite calcular el cuartil de un conjunto de datos.
14. CURTOSIS: permite calcular el coeficiente de curtosis de un conjunto 
de datos.
15. DESVIA2: permite calcular la suma de los cuadrados de las desviaciones 
respecto a la media.
16. DESVEST: permite calcular la desviación estándar muestral (cuyo 
denominador es raíz de n – 1) del rango seleccionado. 
17. DESVESTA: permite calcular la desviación estándar muestral de un 
rango de valores que incluyen en el cálculo los valores de texto y lógicos 
como verdadero con valor 1 y falso con valor 0.
18. DESVESTP: permite calcular la desviación estándar poblacional (cuyo 
denominador es raíz de n) del rango seleccionado. 
19. DESVESTPA: permite calcular la desviación estándar poblacional 
del rango de valores, que incluyen en el cálculo los valores de texto y 
lógicos como verdadero con valor 1 y falso con valor 0.
20. DISTR.T: permite calcular P{X > t} y P{|X| > t}.
21. DISTR.T.INV: permite calcular la función inversa de la función 
DISTR.T.
22. DIST.WEIBULL: permite calcular las funciones distribución y de 
densidad de Weibull.
23. DESVPROM: permite calcular la desviación media o promedio de las 
desviaciones absolutas de la media respecto a los datos.
24. DISTR.BETA: permite calcular P{X > t} siendo X la variable aleatoria 
con distribución beta y t un número real.
25. DISTR.BETA.INV: permite calcular la función inversa de la función 
DISTR.BETA.
26. DISTR.BINOM: permite calcular la probabilidad de que una variable 
aleatoria discreta con distribución binomial tome un valor determinado 
y el acumulado hasta él incluido.
27. DISTR.CHI: permite calcular la probabilidad de que una variable 
con una distribución ji cuadrado tome un valor mayor que el punto t 
introducido, esto es P{X > t}.
28. DISTR.EXP: permite calcular los valores de las funciones de densidad 
y de distribución exponencial
29. DISTR.F: permite calcular las funciones de distribución F(t) = P{X > t} y de 
densidad F de Fisher con los grados de libertad que se introduzcan. 
30. DISTR.F.INV: permite calcular, dada la probabilidad p, el valor t tal 
que P{X > t} = p si X tiene distribución F de Fisher con los grados de 
libertad introducidos.
31. DISTR.GAMMA: permite calcular las funciones de distribución y 
densidad gamma.
32. DISTR.GAMMA.INV: permite calcular la función inversa de la 
distribución gamma acumulativa.
Bioestadística cualitativa.indd 181 25/06/2010 12:20:39 p.m.
http://booksmedicos.org
182
33. DISTR.HIPERGEOM: permite calcular la probabilidad de que una 
variable aleatoria discreta con distribución hipergeométrica tome un 
valor dado.
34. DISTR.LOG.INV: corresponde a la función DISTR.LOG.NORM.INV. 
Permite calcular la función inversa de la distribución log-normal.
35. DISTR.LOG.NORM: permite calcular la distribución log-normal 
acumulativa con media y desviación estándar dadas.
36. DISTR.NORM: permite calcular los valores de la función de distribución 
normal acumulativa, F(t) = P{X < t} dadas la media y la desvición 
estándar.
37. DISTR.NORM.ESTAND: permite calcular los valores de la función de 
distribución normal estándar acumulativa.
38. DISTR.NORM.ESTAND.INV: permite calcular el percentil de orden 
introducido de la distribución normal estándar.
39. DISTR.NORM.INV: permite calcular el percentil de orden introducido 
de la distribución normal con media y desviación estándar dadas.
40. ERROR.TIPICO.XY: permite calcular el error estándar de la regresión 
de y en x, o sea:
 
41. ESTIMACION.LINEAL: permite estimar los parámetros de una 
tendencia lineal, es decir, los coeficientes de las variables independientes 
y el intersecto en la ecuación de regresión simple y múltiple, así como 
las estadísticas corrientes de la regresión Y = b0 + b1X1 + ... + bnXn.
41. ESTIMACION.LOGARITMICA: permite estimar los parámetros 
de una tendencia exponencial, o sea los coeficientes de las variables 
independientes y el intersecto en la ecuación de regresión Y = b0b1X1b2X2 
… bnXn y las estadísticas asociadas con la regresión logaritmica ln(Y) 
= ln(b0) + ln(b1)X1 + … + ln(bn)Xn
42. FRECUENCIA: permite calcular una distribución de frecuencia como 
una matriz vertical.
43. FISHER: permite calcular la transformación Fisher o coeficiente z dada por
 
.
44. PRUEBA.FISHER.INV: permite calcular la función inversa de la 
transformación de Fisher, si y = FISHER (x) entonces PRUEBA.
FISHER.INV(y) = x.
45. GAMMA.LN: permite calcular el logaritmo natural de la función 
gamma. 
Bioestadística cualitativa.indd 182 25/06/2010 12:20:39 p.m.
http://booksmedicos.org
183
46. INTERSECCION.EJE: permite calcular la intersección de la línea 
de regresión lineal con el eje Y, o sea, el valor del intercepto b0 en la 
ecuación de regresión Y = b0 + b1X.
47. INTERVALO DE CONFIANZA: permite calcular dados
 s, n y α (los valores de α son habitualmente 0,05; 0,01 y 0,10) que es 
el valor que se suma y se resta a la media para obtener el intervalo de 
confianza para la media de una población con distribución normal con 
varianza conocida utilizando como tal la desviación estándar estimada en 
la muestra. Si se divide entre el percentil correspondiente de la normal y 
se multiplica por el correspondiente de la t de Student se logra el valor 
que se le suma y resta a la media muestral para obtener el intervalo 
correspondiente para la media con varianza poblacional desconocida 
que si es el calculado en estadística descriptiva de Análisis de datos. 
48. JERARQUIA: determina el lugar que ocupa un valor en un ordenamiento 
de mayor a menor de la lista de valores. Así el mayor número tendrá la 
jerarquía 1 y el valor menor tendrá la jerarquía n. 
49. K.ESIMO.MAYOR: permite calcular el k-ésimo mayor valor de un 
conjunto de datos.
50. K.ESIMO.MENOR: permite calcular el k-ésimo menor valor de un 
conjunto de datos.
51. NORMALIZACION: permite normalizar o estandarizar un valor de 
un conjunto restándole la media y dividiendo la diferencia entre la 
desviación estándar del conjunto.
52. MAX: permite calcular el valor máximo del rango seleccionado.
53. MAXA: permite calcular el valor máximo de una lista de argumentos, 
incluidos números, texto y valores lógicos
54. MEDIA.ACOTADA: permite calcular la parte de los datos de un 
conjunto al que se le elimina un porcentaje de los datos más extremos 
(menores y mayores en la misma proporción). 
55. MEDIA.GEOM: permite calcular la media geométrica.
56. MEDIA.ARMO: permite calcular la media armónica.
57. MEDIANA: permite calcular la mediana de los números dados.
58. MIN: permitecalcular el valor mínimo del rango seleccionado.
59. MINA: permite calcular el valor mínimo de una lista de argumentos, 
incluidos números, texto y valores lógicos.
60. MODA: permite calcular el valor más frecuente de un conjunto de datos.
60. NEGBINOMDIST: permite calcular la probabilidad de que una variable 
aleatoria discreta con distribución binomial negativa tome un valor 
determinado.
61. PEARSON: permite calcular el coeficiente de correlación lineal de 
Pearson.
Bioestadística cualitativa.indd 183 25/06/2010 12:20:39 p.m.
http://booksmedicos.org
184
62. PENDIENTE: permite calcular la pendiente de la línea de regresión 
lineal o sea el coeficiente b1 de la ecuación de regresión Y = b0 + b1X.
63. PERCENTIL: permite calcular cualquier percentil de los valores de 
un rango.
64. PERMUTACIONES (n, k): permite calcular el número de variaciones 
sin repetición de n en k, es decir, el número de conjuntos ordenados de 
k elementos tomados de un conjunto de n elementos. 
 
65. PROMEDIO: permite calcular el promedio (media aritmética) de los 
argumentos seleccionados.
66. PROMEDIOA: permite calcular el promedio de los argumentos 
seleccionados, incluidos números, texto y valores lógicos.
67. PROMEDIO.SI: permite calcular el promedio de todas las celdas del 
rango seleccionado que cumplen las condiciones fijadas.
68. PROMEDIO SIS: como el anterior, pero con condiciones múltiples 
(solo en Excel 2007 y 2010) 
69. PROMEDIO.SI.CONJUNTO: permite calcular el promedio de todas 
las celdas del rango seleccionado que cumplen varias condiciones. Está 
presente solo en Excel 2007.
70. PRONOSTICO: permite calcular un valor específico de y para un valor 
de x dado evaluando la ecuación de regresión lineal de Y en X.
71. POISSON: permite calcular los valores de P{X ≤ k} y P{X = k} siendo 
X una variable aleatoria con distribución de Poisson con parámetro igual 
a la media introducida.
72. PROBABILIDAD: permite calcular la probabilidad de en un valor k o 
un intervalo de valores de k en una tabla distribución de probabilidades 
dadas P(X = k).
73. PRUEBA.CHI: permite calcular la probabilidad de que el estadígrafo 
ji cuadrado caiga en la región de rechazo de la hipótesis nula de 
independencia u homogeneidad, así como en la de bondad de ajuste. Vea 
su aplicación más abajo. Requiere introducir las tanto las frecuencias 
observadas como las esperadas. 
74. PRUEBA.CHI.INV: permite calcular la función inversa de la función 
DISTR.CHI.
75. PRUEBA.F: permite calcular la probabilidad de rechazar la hipótesis 
de varianzas poblacionales iguales en el caso de regiones críticas de 
una cola dadas las dos muestras independientes.
76. PRUEBA.T: permite calcular la probabilidad asociada a las pruebas t 
de Student para las medias de dos poblaciones con varianzas iguales y 
la con varianzas desiguales para regiones críticas de una y dos colas en 
el caso de muestras independientes.
Bioestadística cualitativa.indd 184 25/06/2010 12:20:40 p.m.
http://booksmedicos.org
185
77. PRUEBA.Z: permite calcular el valor de la probabilidad de que el 
estadígrafo Z caiga en la región crítica de una cola en prueba z para la 
media de una población con varianza conocida.
78. RANGO.PERCENTIL: Permite calcular P{X < t} siendo t el percentil 
en cuestión.
79. TENDENCIA: permite calcular valores en una tendencia lineal.
80. TRIMMEDIA: permite calcular la media del interior de un conjunto de 
datos (solo en Excel 2010).
81. VAR: calcula la varianza muestral (cuyo denominador n – 1) del rango 
de valores seleccionado.
82. VARA: permite calcular la varianza muestral, incluidos números, texto 
y valores lógicos del rango de valores seleccionado.
83. VARP: Permite calcular la varianza poblacional (cuyo denominador es 
n) del rango de valores seleccionado.
84. VARPA: permite calcular la varianza poblacional del rango de valores 
seleccionado, que incluye números, texto y valores lógicos.
5.1.4. Distribuciones de frecuencias
Las distribuciones de frecuencias por conteo de valores individuales se 
pueden efectuar con el Excel, pero no opera matemáticamente con valores no 
numéricos. Para superar esta limitante basta con recodificar los datos a núme-
ros e introducir estos números en una columna de Excel en lugar de los datos 
no numéricos y situar a su lado en otra columna las clases también en forma 
numérica, finalmente seleccionar la opción Histograma de Análisis de datos 
del menú Herramientas. También puede situar los datos en filas en lugar de 
en columnas.
Por ejemplo, la distribución de la variable grado de retraso mental, de la 
matriz de datos DatosM2 de la tabla 1.3, cuyos puntajes son:
G G G G G G G G L L L L L L L L L L L L M M M M M
M M M M M M M M M M M M M M M S S S S S S S S S S
Se pueden recodificar así, manteniendo el orden:
4 4 4 4 4 4 4 4 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3
Y poniendo, por ejemplo, estos 50 datos numéricos en una sola fila, la fila 
1 de una hoja de Excel y los números 1, 2, 3 y 4 como clases en la fila 2 de una 
hoja de Excel e introduciéndolas convenientemente en el cuadro de diálogo de 
la opción Histograma se obtiene la tabla de 5.1.
Las clases no numéricas se agregan a posteriori. Debe tenerse cuidado de que 
las clases literales y los números mantengan el orden original de los datos. Otra 
Bioestadística cualitativa.indd 185 25/06/2010 12:20:40 p.m.
http://booksmedicos.org
186
forma de hacerlo es utilizando la función frecuencia en la celda C2, después de 
haber dispuesto los datos previamente en una sola columna, en el rango A2:A51 
con el encabezamiento Datos en A1 y las clases 1, 2, 3 y 4 en el rango B2:B5 
con el encabezamiento Grupos, de modo que los argumentos de la función fre-
cuencia sean A2:A51 y B2:B5. En B1 se escribe la palabra frecuencias. Ahora 
en D2 se inserta la función =FRECUENCIA(A2:A51;B2:B5). Por último se 
selecciona el rango C2:C5, se oprime F2 y la combinación de Ctrl+Shift+Enter 
(Ctrl+Mayúsculas+Entrar) para obtener las frecuencias deseadas en C2:C5, que 
son las mismas obtenidas en la tabla 5.1.
Tabla 5.1. Distribución de frecuencias con clases numéricas 
de la variable grado de retraso mental
A Clases B Clases numéricas C Frecuencia
Ligero 1 12
Moderado 2 20
Severo 3 10
Grave 4 8
Si se desea se sustituyen los números 1, 2, 3 y 4 por ligero, moderado, 
severo y grave en la primera columna por las clases originales y, eliminando 
lo superfluo, se obtiene la tabla 5.2.
Tabla 5.2. Distribución de frecuencias con las clases originales
Grado de retraso mental Frecuencia
Ligero 12
Moderado 20
Severo 10
Grave 8
Aunque aun no se han empleado números con decimales, hay que tener en 
cuenta que en Windows se configura el símbolo de separación decimal y otros 
en la opción Personalizar de Configuración regional y de idioma del panel de 
control. 
En Excel se puede cambiar en el menú Herramientas/Opciones/ Interna-
cional y marcar en usar separador decimal y marcar el punto o la coma, según 
conveniencia y como separador de cifras cualquier otro. Debe cerrarse Excel 
y después abrirse nuevamente para que tengan efecto los cambios. También 
se puede cambiar el signo de separación de decimales en los números con la 
opción Usar separador del sistema (o no) de la opción Internacional del menú 
Opciones. Y si no se desea cambiar definitivo, se selecciona el rango del conjunto 
de datos al que se le desea cambiar y con la opción Buscar/Reemplazar donde 
se debe escribir coma (,) por punto (.) o punto (.) por coma (,) según convenga. 
La computadora en que usted esta trabajando puede tener punto o coma. 
Bioestadística cualitativa.indd 186 25/06/2010 12:20:40 p.m.
http://booksmedicos.org
187
Las fórmulas de Excel que se ofrecen usan la coma como separador deci-
mal, por lo que si el Windows de su PC tiene la configuración de punto como 
separador decimal tendrá que cambiar todos los puntos decimales de la fórmula 
por comas decimales antes de operar con ellos en Excel,de lo contrario el sis-
tema considerará los números y fórmulas una sucesión de caracteres de texto 
sin ningún significado numérico. Esto a menudo es motivo de preocupación y 
desesperación porque el Excel no procesa sin causa aparente. Para comprobar 
si el símbolo de separación decimal está equivocado realice cualquier operación 
aritmética con varios de los números con decimales y si da error es que está 
equivocado el separador decimal.
Manejo de datos
Por ejemplo los puntajes de la variable grado de retraso mental del ejemplo 
anterior se presentaron así:
G G G G G G G G L L L L L L L L L L L L M M M M M
M M M M M M M M M M M M M M M S S S S S S S S S S
Para pasarlos a un software estadístico o al propio Excel en una sola co-
lumna, se puede proceder así: 
1. Se copian y pega en Excel en la celda A1, con lo que quedarán copiados 
a partir de la celda A1:Y2.
2. Se copia este rango ocupado de A1 a Y2 de Excel y luego se pega en 
A3 con la opción Pegado especial del clic derecho o del menú Edición, 
con la opción Transponer del cuadro de diálogos Pegado especial 
seleccionada, con lo que quedarán los datos en dos columnas ocupadas 
del rango A3:B27. Por último se eliminan las líneas 1 y 2 de Excel para 
que los datos queden en el rango A1:B25 y el resto de la hoja limpio. Si 
se desea una solo columna con los 50 datos se corta el rango B1:B25 y 
se pega a partir de la celda A26. 
5.1.5. Distribuciones de frecuencia por intervalos de clases 
En el caso de las variables que requieren este tipo de distribución de 
frecuencias, por tener muchos puntajes distintos, por ejemplo, para los 50 
coeficientes de inteligencia CI1 de la matriz de datos DatosM2 de la tabla 
1.3, poniendo en la fila encabezada por A1 los 50 valores de CI1 encabezados 
por arriba por CI1 y las 8 clases 10, 20, 30, 40, 50, 60, 70, 80 en la segunda 
columna, a partir de B1 encabezadas por la palabra clases y seleccionando en 
el menú Herramientas/Análisis de datos/Rango de entrada Aceptar: A1:A51/
Rango de clases: B1: B9/Rótulos (marcarlo)/Aceptar, se obtiene de la distri-
bución de la tabla 5.3. 
Bioestadística cualitativa.indd 187 25/06/2010 12:20:40 p.m.
http://booksmedicos.org
188
También se puede obtener, utilizando la función frecuencia en la celda C1, 
después de obtener la frecuencia 0 en C1, seleccionar C1:C9 presionar la tecla 
F2 y a continuación la combinación de teclas Ctrl. + Mayus. + Enter.
 Los intervalos obtenidos por cualquiera de los dos procedimientos coinciden 
y en este caso de la tabla 5.3 se reconstruyen para ofrecer más claridad.
Tabla 5.3. Distribución de frecuencias por intervalos
No aportado por Excel Aportado por Excel
Intervalos de clase de CI1 
reconstruidos Frecuencia
Extremos superiores de
los intervalos de clase
0 < x ≤ 10 0 10
10 < x ≤ 20 1 20
20 < x ≤ 30 4 30
30 < x ≤ 40 7 40
40 < x ≤ 50 10 50
50 < x ≤ 60 17 60
60 < x ≤ 70 7 70
70 < x ≤ 80 4 80
Los intervalos son abiertos por la izquierda y cerrados por la derecha. La 
fila de 0 a 10 se puede eliminar por tener frecuencia 0, pero se dejó para saber 
que es 10 el extremo inferior del segundo intervalo.
Representaciones gráficas
Estas se realizan mediante histogramas (barras), polígonos (líneas) y gráficas 
circulares (pasteles), se construyen en Excel seleccionando la distribución de fre-
cuencias: clases y frecuencias si las clases no son numéricas y solo las frecuencias 
si las clases son numéricas, y haciendo clic en el Asistente para gráficos que apa-
rece como botón en la barra de herramientas estándar o en el menú Insertar. 
5.1.5. Coeficientes de correlación
Para calcular el coeficiente de correlación lineal de Pearson se utiliza la 
función COEF.DE.CORREL y se seleccionan las dos columnas o filas de datos 
numéricos apropiados.
1. Coeficiente de correlación de rangos de Spearman: se puede calcular 
rangueando primeramente los datos de cada variable (asignando el 1 al 
menor, el 2 al siguiente menor, el 3 al siguiente menor y así sucesivamente 
hasta asignar n al máximo. Si hay rangos ligados (repetidos) se le asigna 
a cada rango repetido el promedio de sus posibles rangos. 
2. Coeficiente de correlación punto biserial :
Bioestadística cualitativa.indd 188 25/06/2010 12:20:41 p.m.
http://booksmedicos.org
189
a) Caso de una variable dicotómica y varias en escala de intervalo o 
razón: 
 Con el objetivo de simplificar, en este ejemplo solo se utilizarán los 20 
primeros individuos (tabla 5.4). Se calculará inicialmente el coeficiente 
entre sexo y la primera variable Edc para luego rellenar con él y 
obtener los demás coeficientes.
− Para calcularlo entre, por ejemplo, el sexo y las variables en escala 
de intervalo EdC, CI1, CI2 y CI3 de la muestra DatosM2 se sitúan los 
datos de estas cinco variables en las el rango A1:E51, incluyendo los 
nombres de las variables en la primera fila como en la tabla 5.4.
Tabla 5.4. Cálculo del coeficiente de correlación punto biserial de una 
dicotómica y varias de intervalo
A B C D E F
Sexo EdC CI1 CI2 CI3 p
F 9,88 67,1 69,2 29,5 q
F 7,31 70,5 70,1 39,1 Media F
F 3,04 50,8 41,8 35 Media M
F 12,8 53,1 47,6 35,4 SY
F 7,23 63,2 63,6 60,4 r.bis
F 14,67 57,1 51,9 47,7
F 7,33 73 71,3 53,4
F 17,45 32,5 27,1 52,9
F 16,26 63,8 67,5 23,9
F 6,08 43,1 34,8 33,8
M 7,02 43 31,6 36,1
M 7,61 46,3 37,7 53,3
M 10,35 57,9 52,5 37,1
M 7,8 57,3 52,2 75,5
M 8,33 52,4 46 34,7
M 9,16 28,9 22,7 46,7
M 5,13 40,2 28,8 39,4
M 11,81 60,2 59,2 42,7
M 6,37 23,8 17,3 49,5
M 20,51 45,2 37,2 39,4
− Se ordenan por la variable sexo, con la opción ordenar del menú Da-
tos, para facilitar el cómputo de las proporciones p y q y de las otras 
variables para los individuos de cada sexo. En el rango F1:F6 se sitúan 
los nombres o símbolos que aparecen en la tabla 5.4 para calcularlos 
inicialmente en la columna G para la primera variable EdC.
Bioestadística cualitativa.indd 189 25/06/2010 12:20:41 p.m.
http://booksmedicos.org
190
− Se cuenta el número de femeninos en la columna A y se divide entre 
n = 20 en la celda G1 poniendo en ella para estos datos = 10/20, 
que será el valor de la proporción p de las hembras, en la celda 
G2 se calcula la proporción q de los varones mediante la fórmula 
= 1 – G1. Luego se calcula la media de primera variable EdC en la 
celda G3, para las hembras, haciendo clic en la saeta negrita que 
apunta hacia abajo, situada al lado derecho del botón Σ de la barra de 
herramientas estándar, se selecciona la opción promedio y se marcan 
con el marcador que aparece las celdas B2:B11 que corresponden a 
las EdC de las hembras. A continuación se calcula en la celda G4, 
de forma análoga, el promedio de EdC para los varones (de los 
datos situados en B12:B21). Luego se calcula en G5 la desviación 
estándar de EdC con la función =DESVEST(B2:B21) y por último, 
en G6 el coeficiente punto biserial entre sexo y EdC mediante la 
fórmula =((G3-G4)*RAIZ(G1*G2))/G5, que proporciona el valor 
r.bis(sexo, EdC) ≈ 0,090933.
− Se seleccionan las celdas del rango G1:G6 y se rellena con su con-
tenido las celdas del rango H1:J6, arrastrando lo seleccionado hacia 
la derecha por el punto negro del extremo inferior derecho de las 
celdas seleccionadas. Los tres restantes coeficientes punto biserial 
aparecerán en el rango H6:J6 y serán iguales a 0,448717; 0,488914; 
–0,186549. En la tabla 5.5 se ofrecen las fórmulas usadas.
Tabla 5.5. Fórmulas a desarrollar en el cálculo de los coeficientes punto 
biserial
Columna F G Fórmulas G cálculos
Fila Símbolos Funciones y operaciones utilizadas Cálculos
2 p =10/20 0,5
3 q =1-0,2 0,5
4 Media M =PROMEDIO(B2:B11) 10,205
5 Media F =PROMEDIO(B12:B21) 9,409
6 DE de Y =DESVEST(B1:B21) 4,37683573
7 R·biserial =(G3-G4)*RAIZ(G1*G2)/G5 0,09093327
b) Caso de varias variables dicotómicas B, C y D y una en escala de 
intervalo o razón D como en la tabla 5.6 en que solo se utilizarán 
20 individuos. 
 Y como no se puede ordenar por una variable en escala dicotómica 
como se hizo en el caso anterior, porque se desordenarían las demás 
dicotómicas cadavez, hay que adoptar en este caso otro criterio: 
sea la variable Y la que está en escala de intervalo o razón de la 
columna E de la tabla 5.7.
Bioestadística cualitativa.indd 190 25/06/2010 12:20:41 p.m.
http://booksmedicos.org
191
 Al rango de la tabla 5.6 en una hoja de Excel se le agrega al final, a 
partir de la fila 22, en la columna A, como se muestra en la tabla 5.7, 
los elementos para calcular el coeficiente punto biserial (se incluye 
la columna fila en la tabla 5.7 para que se sepa que fila se trabaja).
Tabla 5.6. Cálculo del coeficiente punto biserial de varias dicotómicas y 
una de intervalo
A B C D E
1 1 1 1 23
2 1 1 1 14
3 1 1 1 24
4 1 1 1 33
5 0 0 1 13
6 1 1 1 27
7 1 1 1 26
8 1 1 1 29
9 0 0 0 11
10 1 1 1 25
11 1 1 1 23
12 1 1 1 23
13 1 1 1 33
14 1 1 1 31
15 1 1 1 26
16 1 1 1 31
17 1 1 1 25
18 1 1 1 33
19 1 1 1 30
20 1 1 1 25
Tabla 5.7. Fórmulas para desarrollar el cálculo de los coeficientes 
de la tabla 5.6
Fila A B fórmulas B valores
22 n0 =CONTAR.SI(B1:B20;0) 2
23 n1 =20-B22 18
24 p0 =B22/20 0,1
25 p1 =1-B24 0,9
26 Suma0 =SUMAR.SI(B1:B20;0;D1:D20) 24
27 Suma1 =SUMAR.SI(B1:B21;1;D1:D20) 481
28 Media0 =B26/B23 12
29 Media1 =B27/B25 26,7222222
30 6,26593207 =DESVEST(D1:D20) DesvSt
31 r.bis =RAIZ(B23*B25)*(B27-$B$29)/B30 –0,68767407
Bioestadística cualitativa.indd 191 25/06/2010 12:20:42 p.m.
http://booksmedicos.org
192
− Después se calcula en la celda B23 la cantidad de unos de la va-
riable de la columna A con la función =CONTAR.SI(B1:B20;0) y 
se halla =B22/20 en la celda B24 para obtener la proporción p de 
ceros. Después se calcula en la celda B24 la cantidad de unos con la 
fórmula =20-B22 y en la celda B25 se calcula B23/20 para obtener 
la proporción q de unos. 
− Se calcula en B26, mediante la fórmula =SUMAR.SI(B1:B20;0;D1:D20) 
la suma de la variable Y para el valor 0 de la primera variable dico-
tómica de la columna B y a continuación en la celda B28 se calcula 
le media =B26/B23 de Y para los que tienen el valor 0 en la primera 
variable dicotómica de la columna B. Análogamente se hallan en 
las celdas B27 y B29 la suma y la media de la variable Y de los que 
tienen 1 en la primera variable de la columna B.
− Una vez calculadas las medias se calcula entonces la desviación 
estándar de la variable Y en la celda B30, que será la única des-
viación estándar de estas cuatro variables, y por último en la celda 
B31 se calculará el coeficiente punto biserial mediante la fórmula 
=RAIZ(B24*B25)*(B28-B29)/$B$30. Los signos de $ indican que 
luego, al rellenar, se considerará constante el valor de la celda B30, 
por ser comun la desviación estándar.
− Por último se selecciona el rango B22:B31 y por el punto negro 
de su esquina inferior derecha se arrastra hasta la columna E para 
rellenar el rango C22:E31 para obtener los restantes coeficientes de 
correlación punto biseriales en B31:E31.
La tabla 5.7 muestra las fórmulas y valores obtenidos al realizar estos pasos.
5.1.6. Pruebas ji cuadrado de independencia y homogeneidad 
y de significación del coeficiente de correlación V de Cramér
Para aplicar la prueba ji cuadrado de independencia, homogeneidad y bon-
dad de ajuste con el Excel se escriben las frecuencias observadas y esperadas 
en dos rangos de columnas o filas, las observadas se obtienen del problema 
como datos, las esperadas se pueden calcular con el Excel con las funciones 
aritméticas a partir de las frecuencias observadas.
La función PRUEBA.CHI(A1:C5; E1:G5), aplicada en la celda A10, con las 
frecuencias observadas en A1:C5 y las esperadas en E1:E5, halla la probabilidad 
crítica de que el estadígrafo caiga en la región crítica en la prueba de indepen-
dencia, homogeneidad y bondad de ajuste, la que permite tomar la decisión de 
rechazar la hipótesis de independencia, la de homogeneidad de filas o columnas 
de la distribución bivariada de frecuencias en A1:C5 y la de bondad de ajuste, 
en las que se rechaza la hipótesis nula si PRUEBA.CHI(A1:C5; E1:G5) resulta 
menor que el nivel de significación α. El valor aproximado del estadígrafo χ2 se 
calcula entonces si se desea con la función PRUEBA.CHI.INV(A10;gl).
Bioestadística cualitativa.indd 192 25/06/2010 12:20:42 p.m.
http://booksmedicos.org
193
Que si se aplica a la probabilidad obtenida con la función PRUEBA.CHI, en 
A10 que es la celda en que se evalúa la función y gl son los grados de libertad 
de la distribución ji cuadrado aproximada, que son iguales al número de filas 
menos 1 por el número de columnas menos 1.
Por ejemplo, para los datos del ejemplo 3.16 de la prueba de homogenei-
dad ji cuadrado la distribución de frecuencias bivariadas es la de la tabla 5.8, 
dispuesta en el rango A1:C5 de una hoja del Excel.
Tabla 5.8. Datos para la prueba ji cuadrado
Filas Frecuencias observadas
A B C
1 20 18 20
2 17 16 14
3 13 12 8
4 11 9 7
5 11 10 15
La tabla de frecuencias esperadas correspondiente se dispone en el rango 
E1:G5, después de calcular las sumas de las filas y las columnas en los rangos 
A7:C7 y D2:D6 y la suma total en D7. La frecuencia esperada de una celda se 
obtiene multiplicando la suma de las frecuencias observadas de su fila por la 
suma de las frecuencias observadas de su columna y dividiendo el producto 
obtenido entre la suma de todas las frecuencias de observadas de la tabla.
Se expone el proceso para calcular los valores de las frecuencias esperadas en 
el rango E1:G5 como se exponen en la tabla 5.9, en el mismo rango E1:G5, porque 
las fórmulas que aparecen en la parte superior de las celdas están ocultas en Excel 
y lo que se ve son los valores resultantes de la parte inferior de las celdas. 
Tablas 5.9. Cálculo de las frecuencias esperadas
Fórmulas y valores de las frecuencias esperadas
E F G
1 =D2*$A$7/$D$720,7761194
=D2*$B$7/$D$7
18,7562189
=D2*$C$7/$D$7
18,4676617
2 =D3*$A$7/$D$716,8358209
=D3*$B$7/$D$7
15,199005
=D3*$C$7/$D$7
14,9651741
3 =D4*$A$7/$D$711,8208955
=D4*$B$7/$D$7
10,6716418
=D4*$C$7/$D$7
10,5074627
4 =D5*$A$7/$D$79,67164179
=D5*$B$7/$D$7
8,73134328
=D5*$C$7/$D$7
8,59701493
5 =D6*$A$7/$D$712,8955224
=D6*$B$7/$D$7
11,641791
=D6*$C$7/$D$7
11,4626866
Las sumas de las filas y las columnas de las frecuencias esperadas deben ser 
iguales a las de las frecuencias observadas. Las diferencias que puedan existir 
se deben a la aproximación por redondeo o truncamiento a pocos decimales. 
Bioestadística cualitativa.indd 193 25/06/2010 12:20:42 p.m.
http://booksmedicos.org
194
La probabilidad crítica obtenida aquí, en la celda A10 es: 
PRUEBA.CHI(A2:C6; E2:G6) = 0,91677464.
Como resulta no menor que 0,05 se puede decidir que no se rechaza la 
hipótesis nula de independencia (o la de homogeneidad) con nivel de signifi-
cación de 0,05.
Si a esta probabilidad crítica 0,91677464 se aplica en la celda A11 la función 
=PRUEBA.CHI.INV(E10;2), se obtiene el valor del estadígrafo ji cuadrado 
para esta tabla de contingencia: 
χ2 ≈ 3,26315192
Se aprovecha para calcular el coeficiente de correlación V de Cramér entre 
la variable fila y la variable columna de la tabla 5.8, y puesto que n = 201 y 
k =3 = Min(5, 3), se plantea en H3, la fórmula =RAIZ(E11/(D7*(3-1))), a partir 
de la expresión:
)1(
2
−
χ=
kn
V
Se obtiene el valor V ≈ 0,09009602, lo que indica muy poca correlación, lo 
que es resultado de que no se rechace la independencia, porque independencia 
implica incorrelación.
La disposición de las frecuencias y los resultados aparecen en la tabla 5.10 
con los encabezamientos de las columnas como en Excel.
Tabla 5.10. Aplicación de la prueba ji cuadrado y cálculo de V
A B C D E F G H H
1 20 18 20 58 20,78 18,76 18,47 =PRUEBA.CHI(A1:C5;E1:G5) 0,92
2 17 16 14 47 16,84 15,20 14,97 =PRUEBA.CHI.INV(H1;2) 3,26
3 13 12 8 33 11,82 10,67 10,51 =Raiz(H2/(201*3) 0,09
4 11 9 7 27 9,67 8,73 8,60
5 11 10 15 36 12,90 11,64 11,46
Suma 72 65 64 201 72,01 65 64,01
Prueba ji de bondad de ajuste
PRUEBA.CHI también ofrece el valor del estadígrafo en la prueba de 
bondad de ajuste ji cuadrado, por ejemplo, para la hipótesis:H0: La distribución de las frecuencias de las cinco categorías de la primera 
fila de la tabla 5.11 es homogénea. En esta tabla se ofrecen las frecuencias obser-
vadas y esperadas para verificar que se cumplen las condiciones de la prueba.
Bioestadística cualitativa.indd 194 25/06/2010 12:20:43 p.m.
http://booksmedicos.org
195
Tabla 5.11. Frecuencias observadas y esperadas para la prueba de bondad 
de ajuste
Categoría B C D E F
Frecuencia observada 20 17 13 11 11
Frecuencia esperada 14,2 14,2 14,2 14,2 14,2
Para aplicar la prueba se copia y pega la tabla 5.11 en el rango A1:F3 y se 
sitúa el puntero en A4 donde se inserta la función PRUEBA.CHI(B2:F2;B3:F3) 
que proporciona el valor 0,35592642 y Como este valor no es menor que 0,05 
no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos 
no se puede afirmar que la distribución en las cinco categorías no es homogé-
nea. Si se desea el valor del estadígrafo se halla aplicando a esta probabilidad 
la función PRUEBA.CHI.INV(A4;4) con 5 – 1 = 4 grados de libertad que 
proporciona el valor 4,388888889.
5.1.7. Cálculo de probabilidades y percentiles de las distribuciones 
normal, t de Student, ji cuadrado y de Fisher‑Snedecor
La distribución de probabilidades que se usa en este libro es la definida por 
F(t) = P{X < t}, F se denomina función de distribución de la variable aleatoria 
X, definida por la probabilidad P{X < t} de que X tome un valor menor que 
el número real t, que representa el percentil de orden P{X < t} de la distribu-
ción X. Pero con cierta frecuencia se usan también en otros textos y paquetes 
de software otras variantes como P{X ≤ t}, P{X > t}, P{|X| < t} y P{|X| > t}. 
Excel utiliza varias según la función específica de que se trate y para ajustarla 
a determinadas pruebas se harán los ajustes necesarios para calcular cualquier 
probabilidad o percentil en función de F y del percentil t.
1. Distribución normal con media µ y varianza σ2
Los valores de F(t) o probabilidades acumulativas y los percentiles t de 
esta distribución normal con parámetros µ y σ2 se calculan mediante la función 
de distribución P(X < t) =DISTR.NORM(t;µ;σ;1), donde 1 indica que es acu-
mulativa, si en su lugar se pone 0 se obtendrá la función de densidad normal 
correspondiente.
También se necesita calcular en algunas pruebas de hipótesis y cálculos:
P{|X| > t} = 1 – P{|X| < t} = 1 – P{X < t} + P{X < –t} 
 = 2-2*DISTR.NORM(t;µ;σ;1) 
P{X > t} = 1 – P{X < t} = 1-DISTR.NORM(t;µ;σ;1)
P{|X| < t} = P{X < t} – P{X < –t} = 2P{X < t} – 1
 = 2DISTR.NORM(t;µ;σ;1)-1
Bioestadística cualitativa.indd 195 25/06/2010 12:20:43 p.m.
http://booksmedicos.org
196
El percentil t de orden P(X < t) se obtiene mediante la función: 
t =DISTR.NORM.INV(p;µ;σ) donde p se introduce y coincide con P{X < t} 
Excel también proporciona la distribución normal estándar representada 
por la función Φ, para la cual µ = 0 y σ = 1:
Φ(z) = P{Z < z} =DISTR.NORM.ESTAND(z)
Zp =DISTR.NORM.ESTAND.INV(p)
P{|Z| > z} = 2-2*DISTR.NORM.ESTAND (z) 
Y se tiene que { } 




σ
µ−Φ=< ttXP para todo µ y σ reales tales que σ > 0.
O sea, DISTR.NORM(t;µ;σ;1) = DISTR.NORM.ESTAND(z) y 
σ
−= 4tz
El percentil de orden p, o sea, z tal que Φ(z) = P(Z < z) = p lo calcula la 
función:
=DISTR.NORM.ESTAND.INV(p)
Por ejemplo, si X es una variable aleatoria con distribución normal con 
media µ = 73 y desviación estándar σ = 8 se tiene que:
P{X < 80} = DISTR.NORM(80;73;8;1) = 0,80921305
P{X > 80} = 1 – P{X < 80} = 0,19078695
= DISTR.NORM(70;73;8;1) = 0,35383023
P{70 < X < 80} = P{X < 80} – P{X < 70} = 0,80921305 – 0,35383023 
Y como P{X = t} = 0, entonces P{X ≤ t} = P{X < t} para todo número 
real t.
2. Distribución t de Student con n grados de libertad
P{T > t} =DISTR.T(t;gl;1), donde 1 indica el caso de regiones críticas de una 
cola, entonces F(t)= P{X < t} =1-DISTR.T(t;gl;1) y DISTR.T(t;gl;1) = 1 – F(t).
P{|T| > t} =DISTR.T(t;gl;2) que calcula P{|T| > t} donde 2 indica el caso 
de regiones críticas de dos colas y entonces DISTR.T(t;gl;2) = 2 – 2F(t) y 
.
Por ejemplo, P{T > 3} = DISTR.T(3;9;1) = 0,007478182
P{|T| > 3} = DISTR.T(3;9;2) = 0,014956364
=DISTR.T.INV(p;k) calcula t tal que P{|X| > t} = p para X variable aleatoria 
con distribución t de Student con k grados de libertad, entonces:
DISTR.T.INV(α;n−1) = )1(
2
1
−α−
nt y )1(1 −α− nt =DISTR.T.INV(2α;n-1)
Por ejemplo t0,975(9) = DISTR.T.INV(0,05;9) = 2,26215716
Bioestadística cualitativa.indd 196 25/06/2010 12:20:43 p.m.
http://booksmedicos.org
197
3. Distribución ji cuadrado con n grados de libertad
)1(2 −χα n = PRUEBA.CHI.INV(1-α;n-1) es el percentil de orden α de la 
distribución ji cuadrado con n – 1 grados de libertad.
P{X > t} =DISTR.CHI(t;k) donde X es una variable aleatoria con distribu-
ción ji cuadrado con k grados de libertad, entonces: 
F(t) = 1 – DISTR.CHI(t;k) y DISTR.CHI(t;k) = 1 – F(t)
Por ejemplo:
P{X< 5} = 1 – DISTR.CHI(5;9) = 1 – 0,834308264 = 0,16569174
)9(2 975,0χ = PRUEBA.CHI.INV(0,025;9) = 19,0227678
4. Distribución F de Fisher-Snedecor
P{X > t} = DISTR.F(t;n1,n2) donde X es una variable aleatoria con distri-
bución F de Fisher con n1 y n2 grados de libertad, entonces:
F(t) =1 – DISTR.F(t;n1,n2) y DISTR.F(t;n1,n2) = 1 – F(t)
F1 – α (n1, n2) =DISTR.F.INV(α; n1;n2) calcula t tal que P{X > t} siendo X 
una variable aleatoria con distribución F con n1 y n2 grados de libertad. 
Por ejemplo: 
P{ X < 4,5 } = 1 – DISTR.F(4,5;10,6) = 1 – 0,03953575 = 0,96046425
 F0,975 (101,6) =DISTR.F.INV(0,025;10;6) = 5,46132372
5.1.8. Problemas de estadística tratados en capítulos anteriores resueltos 
con Excel
Ahora se demostrará como se pueden resolver problemas estadísticos di-
versos con Análisis de datos, funciones y otras herramientas de Excel.
5.1.8.1. Dócimas para proporciones. 
1. Exacta F para la proporción de una población 
Solución con Excel del ejemplo 3.10, que plantea que el 30 % de los 
estudiantes tienen una opinión positiva. Se seleccionan aleatoriamente cinco 
estudiantes del grupo y se encuentran dos con la opinión positiva, α = 0,01. 
Hipótesis: H0: P = 0,30 contra H1: P ≠ 0,30
Datos: n = 5; k = 2; P0 = 0,30; Q0 = 0,70; α = 0,01 y 5
2=p = 0,40 > 0,30
Se pone en A1:B9 los datos, sin contar el encabezamiento como se muestra 
en la tabla 5.12, que simula un fragmento de una hoja de Excel, y se calculan: 
0
0
mQ
rPF = , m = 2(k + 0,5) y r = 2(n – k + 0,5)
Bioestadística cualitativa.indd 197 25/06/2010 12:20:44 p.m.
http://booksmedicos.org
198
Tabla 5.12. Muestra de la aplicación de la prueba F 
para la una proporción
Símbolos Cálculos Valores
A B Valor de B
1 α 0,01
2 P0 0,3
3 Q0 =1-B1 0,7
4 p 0,4
5 n 5
6 k 2
7 r =2*(B5-B6+0,5) 7
8 m =2*(B6+0,5) 5
9 F =(B7*B2)/(B8*B3) 0,6
10 F0,995 (5,7) =DISTR.F.INV(0,005;5;7) 9,52
11 P{X > 3,2666667} =DISTR.F(B8;5;7) 0,7032711
=SI(B9<B1;“Se rechaza”;“No se rechaza”) H0 con α = 0,01
2. Cálculo de los estadígrafos de las dócimas para las proporciones de dos 
poblaciones en caso de muestras independientes y apareadas grandes
 Las de muestras apareadas son las de dos proporciones en una población en 
los casos de que las características en cuestión sean mutuamente excluyentes o 
no excluyentes. Estas dócimas no vienen programada en los paquetes estadísticos 
modernos conocidos esta es una buena razón para abordarlos con el Excel .
El rango de celdas utilizado es A1:C9, sin incluir el encabezado, cubre los 
tres los casos de muestras independientes y muestras apareadas de excluyentes 
y no excluyentes.
Hipótesis común H0: No hay diferencias entre las proporciones poblacionales.
Se sitúan los datos como en la tabla 5.13, donde se realizarán los cálculos 
según las fórmulas que se ofrecen después de la tabla. 
Tabla 5.13. Los tres casos de cálculo de los estadígrafos 
y las probabilidades críticas 
Independientes Excluyentes No excluyentes
A B C D
1 P1 0,56 0,3 0,68
2 P2 0,4 0,4 0,48
3 P12 - - 0,16
4 m 25 - -
5 n 50 - -
Bioestadística cualitativa.indd 198 25/06/2010 12:20:44p.m.
http://booksmedicos.org
199
6 p 0,45333333 - -
7 z 1,3121221 –0,851257 1,5811388
8 P{|Z| > z} 0,18947894 0,39462661 0,1138463
9 α 0,05
=SI(B8<B9;“Se rechaza”;“No se rechaza”) H0 con α = 0,01
Para calcular las probabilidades críticas se utiliza la función:
 =DISTR.NORM.ESTAND.
De acuerdo a las celdas descritas por la tabla 5.12 en el caso de muestras 
independientes se tiene:
p =(B3*B1+B4*B2)/(B4+B5)
Z=(B1-B2)/RAIZ(B1* (1-B1)*((1/B4)+(1/B5)))
P{|Z| > z} = 2 – 2*DISTR.NORM(z;µ;σ;1)
Y se calcula, para la columna B:
P{|Z| > B7} = 2 – 2*DISTR.NORM(B7;µ;σ;1) en el caso de región crítica 
de dos colas. 
P{Z > B7} = 1 – DISTR.NORM(B7;µ;σ;1) en el caso de hipótesis alternativa 
H1: P1 > P2 y región crítica de una cola.
P{Z < B7} = DISTR.NORM(B7;µ;σ;1) en el caso de hipótesis alternativa 
H1: P1 < P2 y región crítica de una cola. 
Y se procede análogamente en las otras dos columnas C y D.
En el caso de características mutuamente excluyentes, de acuerdo a las 
celdas descritas por la tabla 5.13 , se pone P1 en la celda C1, P2 en la celda C2, 
m en la celda B4 y n en celda B5.
Z = (C1-C2)/RAIZ((C1*(1-C1)+C2*(1-C2)+2*C1*C2)/(C4+C5))
Estadígrafo para el caso de características mutuamente no excluyentes, de 
acuerdo a las celdas descritas por la tabla 5.13:
Z = ((D1-D2)/RAIZ((D1*(1-D1)+D2*(1-D2)+2*(D1*D2-D3))/(D4-D5)))
Todos los resultados numéricos aparecen en la tabla 5.12.
5.1.8.2. Cálculo de los valores de la función de probabilidad 
hipergeométrica para la prueba de la probabilidad exacta de Fisher
Se logra evaluando la función: =DISTR.HIPERGEOM(k;n;M;N). 
Donde:
k: representa el número de elementos en la muestra con éxito (Muestra_éxito)
n: representa el tamaño muestral (Num_de_muestra).
Bioestadística cualitativa.indd 199 25/06/2010 12:20:44 p.m.
http://booksmedicos.org
200
N: representa el tamaño poblacional (Num_de_población).
M: que representa el número de elementos de la población con la éxito 
(Población_éxito). 
Para el ejemplo 3.18 DISTR.HIPERGEOM(2;8;10;20) = 0,07501786. Las 
probalidades acumulativas se obtienen sumando varias absolutas, por ejemplo:
P{X < 2} = DISTR.HIPERGEOM(1 ;8 ;10 ;20 ) + DISTR.
HIPERGEOM(0;8;10;20) 
= 0,009526 + 0,000357 = 0,009883
P{X ≤ 2} = P{X = 0} + P{X = 1} + P{X ≤ 2} = 0,009883 + 0,075018 = 
0,084901
5.1.8.3. Prueba de McNemar
La tabla 5.14 contiene el rango B2:C3 con los datos y los cálculos a con-
tinuación en B3:B4.
Tabla 5.14. Aplicación de la prueba de Mc Nemar
Fila A BAceptable
C
Malo
D
Valor de C
1 Malo 5 13
2 Aceptable 4 7
3 Estadígrafo χ2 =((A1-B2)-1)^2/(A1+B2) 0,75
4 Probabilidad crítica P(χ2 > 0,75) =DISTR.CHI(B3;1) 0,38647623
Para calcular el valor del estadígrafo ji cuadrado se escribe su fórmula en 
la celda C3 y al evaluarse aparece 0,75 que aparece en la celda D3. 
La probabilidad crítica P(χ2 > 0,75) se obtiene aplicando la función indicada 
en B4, que con la fórmula de C4, proporciona el valor 0,38647623 que aparece 
en la celda D4. En la columna C se muestran los valores de las fórmulas que en 
Excel se escribirán y los resultados numéricos en la columna D.
5.1.8.4. ANOVA de razón de varianza para tres o más proporciones
1. ANOVA de razón de varianza
Con los datos del rango B2:D3 de la tabla 5.15 en el rango A1:D11 de una 
hoja de Excel se obtiene: 
H0: No hay diferencia entre las proporciones poblacionales.
En la tabla 5.15 se obtienen los resultados.
Bioestadística cualitativa.indd 200 25/06/2010 12:20:44 p.m.
http://booksmedicos.org
201
Tabla 5.15. Cálculo del estadígrafo V del ANOVA de razón de varianza
A 
(símbolos) B C D
Resultados 
de B
1 k 3 3
2 ni 14 14 22 14
3 mi 9 7 14 9
4 mi2 =B3^2 =C3^2 =D3^2 81
5 mi2/ni =B4/B2 =C4/C2 =D4/D2 5,78571429
6 Suma mi2/ni =SUMA(B5:D5) 18,1948052
7 m =SUMA(B3:D3) 30
8 n =SUMA(B2:D2) 50
9 p = m/n =B7/B8 0.6
10 m2/n =B7^2/B8 18
11 V =(B6-B10)/((B1-1)*B9*(1-B9)) 0,40584416
Los resultados de las fórmulas de C4 a D5 son: 
49 = C3^2 en C4, 196 = D3^2 en D4; 3,5 = C4/C2 en C5; 
8,90909091 = C4/C2 en D5
Como 0,40584416 no cae en la región crítica V > 3,00, hallado en la tabla 
3.28 no se rechaza H0 con nivel de significación de 0,05.
2. ANOVA de Razón de varianzas utilizando la distribución ji cuadrado
Para los datos del rango A1:D3 de la tabla 5.15 se tiene: 
χ2 = (k – 1)V = 2(0,40584416) = 0,800798212
Como P{χ2 > 0,800798212} = DISTR.CHI(0,800798212;2) = 0,67005257 
no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05.
5.1.8.5. Q de Cochran
Con la tabla de datos del ejemplo 3.23 y el procesamiento de la tabla 
5.16 extendida en el rango A1:E22.
Tabla 5.16. Suma de filas y columnas y sus cuadrados 
A B C D (suma de fila) E
1 1 1 1 =SUMA(A1:C1) =D1^2
2 0 1 1 =SUMA(A2:C2) =D2^2
3 0 0 0 =SUMA(A3:C3) =D3^2
4 1 1 0 =SUMA(A4:C4) =D4^2
5 0 1 0 =SUMA(A5:C5) =D5^2
6 0 0 0 =SUMA(A6:C6) =D6^2
Bioestadística cualitativa.indd 201 25/06/2010 12:20:45 p.m.
http://booksmedicos.org
202
A B C D (suma de fila) E
7 1 0 0 =SUMA(A7:C7) =D7^2
8 1 1 0 =SUMA(A8:C8) =D8^2
9 1 1 0 =SUMA(A9:C9) =D9^2
10 0 1 0 =SUMA(A10:C10) =D10^2
11 1 0 0 =SUMA(A11:C11) =D11^2
12 0 0 0 =SUMA(A12:C12) =D12^2
13 1 1 1 =SUMA(A13:C13) =D13^2
14 1 1 1 =SUMA(A14:C14) =D14^2
15 1 1 0 =SUMA(A15:C15) =D15^2
16 1 1 0 =SUMA(A16:C16) =D16^2
17 1 1 0 =SUMA(A17:C17) =D17^2
18 1 1 1 =SUMA(A18:C18) =D18^2
19 1 1 0 =SUMA(A19:C19) =D19^2
20 1 1 0 =SUMA(A20:C20) =D20^2
21 Suma(A1:A20 Suma(B1:B20) Suma(C1:C20) Suma(A21:C21) Suma(E1:E20)
22 A21^2 B21^2 C21^2 Suma(A22:C22)
H0: No hay diferencias entre las probabilidades de restablecimiento al cabo 
de una semana entre las poblaciones de donde proceden las tres muestras.
Q =2*(3*E21-D21^2)/(3*D21-D22) = 14 compuesta con los valores calculados
p = DISTR.CHI(14;2) = 0,000911882
Decisión: Como 0,000911882 < 0,05 se rechaza H0 con nivel de significación 
de 0,05, sobre la base de estos datos se puede afirmar que hay diferencia entre 
las poblaciones de donde proceden las muestras respecto a las probabilidades 
de restablecimiento al cabo de una semana.
 5.1.8.6. Prueba de bondad de ajuste de Kolmogórov-Smírnov
Con los datos numéricos de la tabla 5.17 extendidos en el rango A1:F7, sin 
incluir la columna de los números de fila para no agrandar demasiado la tabla. 
En ella toda la información, salvo la decisión. Los cálculos se anotaron junto 
a las fórmulas.
Tabla 5.17. Aplicación de la prueba de bondad de ajuste 
de Kolmogórov-Smírnov
Frecuencia Frecuencia acumulativa relativa Diferencia
Obs. Hip. Observada Hipotética FrAcObs – FrAHip
A B C D E F
2 3 0,04 = A1/B7 0,06 = B1/B7 –0,02 0,02=ABS(E1)
8 9 0,2 = (A2/50)+C1 0,24 = (B2/50)+D1 –0,04 0,04=ABS(E2)
11 14 0,42 = (A3/50)+C2 0,52 = (B3/50)+D2 –0,10 0,10=ABS(E3)
Bioestadística cualitativa.indd 202 25/06/2010 12:20:45 p.m.
http://booksmedicos.org
203
9 10 0,6 = (A4/50)+C3 0,72 = (B4/50)+D3 –0,12 0,12=ABS(E4)
11 8 0,82 = (A5/50)+C4 0,88 = (B5/50)+D4 –0,06 0,06=ABS(E5)
9 6 1 = (A6/50)+C5 1 = (B6/50)+D5 0 0 =ABS(E6)
50 50 0,12=MAX(B1:B6)
Decisión: Como 0,12 no cae en la región crítica Dmáx > 0,188 no se rechaza 
H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede 
afirmar que el ajuste sea bueno. 
5.1.8.7. Pruebas de las rachas
1. Prueba de las rachas por encima y por debajo de la mediana basada en 
el número total de rachas de los símbolos a y b
Solución del ejemplo 4.2 con ayuda de Excel. La tabla 5.18 muestra 
los datos en el rango A1:A8 y, además, símbolos, fórmulas y los enca-
bezamientos de filas y columnas como en Excel.
Datos: 1 1 1 2 3 4 4 5 5 6 6 6 7 7 8 9 11 12 13 15 17.
n = 21, mediana: 6, rachas: 6.
Tabla 5.18. Prueba basada en el total de rachas de símbolos a y b
A Símbolos de A Fórmulas de A
1 21 n
2 0,05 α
3 0,95 1 – α =1-B2
4 0,01190476
n4
1
=1/(4*A1)
5 0,98809524
n4
1
1− =1−B4
Condiciones para aplicarla =SI(O(0.05>A4;0.05<A5);“Hay”;“No hay”) 
6 6 r r
7 1,64485363 Z1-α DISTR.NORM.ESTAND.INV(A3)
8 17,2354655 rα =(3/2)+A1-A7*RAIZ((A1^2-A1)/(2*A1-1))
9 Decisión =SI(A6>A8;“Se rechaza H0”; “No serechaza H0”)
Si los datos de la columna A de la tabla 5.17 se disponen en el rango A1:A8 
en una hoja de Excel, entonces con la fórmula de A9 pegada en la celda A9 
se puede obtener la decisión, en forma breve: como r cae en la región crítica 
r < rα= 17,2354655 se rechaza H0 con nivel de significación de 0,05.
Además, se puede probar si α cumple o no la condición que requiere la 
prueba con esta otra fórmula. 
Bioestadística cualitativa.indd 203 25/06/2010 12:20:45 p.m.
http://booksmedicos.org
204
2. Dócima de las rachas por encima y por debajo de la mediana: Dócima 
basada en la longitud de la racha más larga de los símbolos a o b
Solución del ejemplo 4.4 con ayuda de Excel. La tabla 5.19 muestra 
los datos en el rango A1:A6 y, además, símbolos, fórmulas y los enca-
bezamientos de filas y columnas como en Excel.
Región crítica: L > Lα 
Condición y valor crítico:
Si 
nn
1
1
1 −≤α≤ 
Tabla 5.19. Prueba de las rachas basada en la longitud de la racha 
más larga
A Símbolos de A Fórmulas de A
1 21 n
2 0,05 α
3 0,047619048
n
1
=1/B1
4 0,952380952
n
1
1− =1-1/B1
Condiciones para aplicar la dócima SI(O(A2<A3;A2>A4);“Se cumplen”; “No se cumple”)
5 8,677403379 Lα =-LN(-LN(1-B2)/B1)/LN(2)
6 8 L
=SI(A6>A5;“Se rechaza H0 con α = 0,05”;“No se rechaza Ho con α = 0,05”)
Si los datos de la columna A de la tabla 5.19 se disponen en el rango A1:A6 
en una hoja de Excel, entonces con esta fórmula pegada en una celda, preferi-
blemente en A7 se puede obtener la decisión.
3. Dócimas de las rachas hacia arriba y hacia abajo: dócima 
Moore-Wallis, basada en el número de rachas de signos +
Solución del ejemplo 4.6 para hipótesis unilateral.
Disponiendo el rango B1:B6 de la tabla 5.20 en el rango B1:B9 de una hoja 
de Excel se pueden obtener los resultados. 
Tabla 5.20. Prueba de las rachas basada en el número de rachas de signos +
A (Símbolos) B Fórmulas de B
1 n 12
2 α 0,05
3 1/3n 0,03333333
Bioestadística cualitativa.indd 204 25/06/2010 12:20:46 p.m.
http://booksmedicos.org
205
4 1 – 1/3n 0,96666667
Condiciones para aplicarla =SI(Y(B2>=B3;B2<=B4);“Hay”;“No hay”)
5 1 – α 0,95 =1-B2
6 Z0,95 1,6448535 =DISTR.NORM.ESTAND.INV(B3)
7 X 3
8 Xa 4,28782972 =1/2+((B1-1)/2)- B6*(RAIZ((B1+1)/12))
SI(A7<A8;“se rechaza”;“No se rechaza”) H0 con α = 0,05
4. Dócimas de las rachas hacia arriba y hacia abajo: dócima basada 
en el número total de rachas
Solución del ejemplo 4.8 con ayuda del Excel. La tabla 5.21 muestra los 
datos en el rango B1:B8 y, además, símbolos, fórmulas y los encabezamientos 
de filas y columnas como en Excel.
Tabla 5.21. Prueba de las rachas basada en el número total de rachas 
A (símbolos) B Fórmulas de B
1 α 0,05
1/3n 0,155873 =1/(3*B1)
2 1 – 1/3n 0,984127 =1-1/(3*B1)
3 n 21
Condiciones para aplicarla =SI(O(A1>A2;0.05<A3);“Hay”;“No hay”)
5 1 – α/2 0,975 =1− B4/2
6 Z0,975 1,95996398 =DISTR.NORM.ESTAND.INV(B5)
8 Yα/2 9,54661319 =-(1/2)+(41/3)-1,847*B6
9 Y´α/2 16,7867201 =-1/2+(41/3)+1,847*B6
=SI(Y(B7<B8;B7>B8);“Se rechaza”;“No se rechaza”) H0 con α = 0,05
Si n ≥ 20:
 
= –1/2 + (41/3) – 1,847*B6 ≈ 9,54661319
= 1/2 + (41/3)*B6 ≈ 16,7867201
Problema propuesto 5.1:
Resuelva con Excel la dócima basada en la racha más larga del ejemplo 4.9. 
5.1.8.8. Dócimas de Wilcoxon
1. Dócima U de Mann-Whitney o de suma de rangos de Wilcoxon
Para la solución del ejemplo 4.14 las fórmulas de este caso se pueden 
calcular según el modelo anterior sin mayores contratiempos, disponiendo las 
Bioestadística cualitativa.indd 205 25/06/2010 12:20:46 p.m.
http://booksmedicos.org
206
columnas de Municipio y Rango (con encabezamiento) de la tabla 4.24 en el 
rango B1:B38 de una hoja de Excel y procediendo como en la tabla 5.22, donde 
aparecen todos los resultados.
Tabla 5.22. Aplicación de la prueba U de Mann-Whitney
C A (Símbolos)
1 13 n en C2
2 24 m en C3
3 286,5 =SUMAR.SI(A2:A38;”A”;B2:B38) R en C4
4 195,5 =C4-C2*(C2+1)/2 U
5 1,25666241 =(C5-C2*C3/2)/RAIZ((C2*C3*(C2+C3+1)/12)) Z
6 0,20887591 =2*(1-DISTR.NORM.ESTAND(C5)) P{|Z| > 1,26}
7 α 0,10
=SI(C6<C7;“Se rechaza”;“No rechazo”) H0 con α = 0,05
2. Dócima de rangos con signos de Wilcoxon
Las diferencias y sus valores absolutos se resuelven con la operación 
de restar y la función ABS que calcula el valor absoluto. Para el rangueo se 
podría utilizar la opción Jerarquía y percentil de la opción Análisis de datos 
del menú Herramientas que se instala con la opción Complementos del menú 
Herramientas, marcando en ella la opción Herramientas para análisis. Pero 
la jerarquía es igual al rangueo si no hay ligaduras, por tanto, no resuelve el 
problema por completo. 
Solución del problema del ejemplo 4.16. 
Si los datos de la columna A de esta tabla 5.23 se disponen en el rango 
A1:A5 en una hoja de Excel, entonces con esta fórmula pegada en una celda, 
preferiblemente en A6 proporcionará la decisión, en forma breve.
Tabla 5.23. Aplicación de la prueba de rangos con signos de Wilcoxon
Antes Después Diferencia ABS(D) rgABSd rgABSdcs
A B C D E F
70 76 =B2-A2 =ABS(C2) 10,5 =E3*SIGNO(C3)
75 80 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)
84 86 =B2-A2 =ABS(C2) 2,0 =E3*SIGNO(C3)
90 87 =B2-A2 =ABS(C2) 3,5 =E3*SIGNO(C3)
81 85 =B2-A2 =ABS(C2) 5,0 =E3*SIGNO(C3)
Bioestadística cualitativa.indd 206 25/06/2010 12:20:46 p.m.
http://booksmedicos.org
207
95 95 =B2-A2 =ABS(C2) ausente =E3*SIGNO(C3)
87 97 =B2-A2 =ABS(C2) 12,5 =E3*SIGNO(C3)
72 75 =B2-A2 =ABS(C2) 3,5 =E3*SIGNO(C3)
92 87 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)
85 96 =B2-A2 =ABS(C2) 14,0 =E3*SIGNO(C3)
88 98 =B2-A2 =ABS(C2) 12,5 =E3*SIGNO(C3)
76 77 =B2-A2 =ABS(C2) 1,0 =E3*SIGNO(C3)
85 80 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)
81 87 =B2-A2 =ABS(C2) 10,5 =E3*SIGNO(C3)
84 89 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)
Suma + =SUMAR.SI(G3:G17;”>0”)
En la tabla 5.24 se brindan los resultados finales después de las transfor-
maciones de los datos de la tabla 5.23.
Tabla 5.24. Resultados dispuestos a partir de la tabla 5.23 
en el rango G1:G8 
G G (Símbolos)
1 22 n
2 55,5 V
3 26 V α
4 480 V1-α
5 3 Z =(A2-(A1*(A1+1)/4))/RAIZ(A1*(A1+1)*(2*A1+1)/24)
6 0,05 α
7 0,99865 P {|Z| > 3}= 2-2*DISTR.NORM.ESTAND(ABS(A5))
8 =SI(C7<C6;“Se rechaza”;“No rechazo”) H0 con α = 0,05
Con esta fórmula, disponiendo la columna A de la tabla 5.22 en la columna 
A de Excel, se puede calcular el valor del estadígrafo Z en A5.
5.1.8.9. Dócimas de los signos y de la mediana
1. Dócima de los signos
Por ejemplo, aplique la dócima de los signos para decidir si hay diferencia 
entre los resultados de los dos semestres de la tabla 5.25. 
Tabla 5.25. Cálculos para la prueba de los signos
A B C D E F G H I J K L M N
1 1er semestre 1 2 1 3 4 2 1 3 4 5 2 5 Suma de diferencias 
mayor que 02 2do semestre 2 4 5 1 3 1 2 4 5 2 5 5
3 Diferencia –1 –2 –4 2 1 1 –1 –1 –1 3 –3 0 4=CONTAR.SI(B3:M3;“>0”)
Bioestadística cualitativa.indd 207 25/06/2010 12:20:47 p.m.
http://booksmedicos.org
208
 Se calcula en A3 la fórmula =A1-B1 y luego se selecciona esta celda se 
pone el cursor en su esquina inferior derecha donde se ve un punto negro y 
cuando aparezca una cruz negra se arrastra la celda hacia la derecha rellenando 
las celdas de C2 a C12. Para contar los signos positivos se utiliza en la celda 
N3 la función =CONTAR.SI(B3:M3;”>0”).
Después se aplicará la prueba binomial o de proporciones para la hipótesis nula: 
H0: P = 0,5 contra H1: P ≠ 0,5
2. Dócima de la mediana
Solución del ejemplo 4.21. Disponga los dados en A1 a AE2, con los en-
cabezamientos de fila M y F en A1:A2, los del sexo masculino se extienden 
en el rango B1:D1 y los femeninos en el rango A2:B2 en una hoja de Excel y 
calcule (puede copiar y pegar estas instrucciones):
− En A3 la función =MEDIANA(A1:AE2)
− En B3 la función =CONTAR.SI(A1:T1;”<4”)
− En C3 la función =CONTAR.SI(A2:AD2;”>4”)
− En B4 la función =CONTAR.SI(A2:AD2;”<4”)
− En C4 la función =CONTAR.SI(A1:T1;”>4”)
Con las cuatro frecuencias obtenidas se construye la tabla 5.24 con las fre-
cuencias observadas en el rango B3:C4 y se calculan las frecuencias esperadas 
en E3:F4, como en