Logo Passei Direto
Material
¡Estudia con miles de materiales!

Vista previa del material en texto

Medición
en ciencias sociales y de la salud
PROYECTO EDITORIAL:
Metodología de las Ciencias del Comportamiento y de la Salud
Directores:
Antonio Pardo Merino
Miguel Ángel Ruiz Díaz
E
D
ITO
R
IA
L
S
IN
TES
IS 
Medición
en ciencias sociales y de la salud
Francisco J. Abad • Julio Olea • Vicente Ponsoda • Carmen García
Reservados todos los derechos. Está prohibido, bajo las sanciones 
penales y el resarcimiento civil previstos en las leyes, reproducir, registrar
o transmitir esta publicación, íntegra o parcialmente,
por cualquier sistema de recuperación y por cualquier medio, 
sea mecánico, electrónico, magnético, electroóptico, por fotocopia
o por cualquier otro, sin la autorización previa por escrito 
de Editorial Síntesis, S. A.
© Francisco J. Abad, Julio Olea,
Vicente Ponsoda y Carmen García
© EDITORIAL SÍNTESIS, S. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
http://www.sintesis.com
ISBN:978-84-975672-7-5
Depósito Legal: M. 5.521-2011
Impreso en España - Printed in Spain
Consulte nuestra página web: www.sintesis.com
En ella encontrará el catálogo completo y comentado
ISBN: 978-84-995861-4-4
 
Índice de contenidos 
 
 
Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 
 
 
 
Primera Parte 
 
 
1. Introducción 
 
Psicometría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 
 Tipos de tests y ámbitos de aplicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 
 
2. Construcción de tests y análisis de ítems 
 
Diseño del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 
Construcción provisional del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 
Cuantificación de las respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 
Análisis de ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 
Corrección de los efectos del azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 
Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 
 
3. Modelo Clásico y fiabilidad 
 
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 
La Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 
Los supuestos fundamentales del Modelo Clásico. . . . . . . . . . . . . . . . . . . . . . . . . 77 
Descomposición de la varianza de las puntuaciones empíricas en un test . . . . . . . 81 
Concepto de formas paralelas y coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . 83 
Fórmula general de Spearman-Brown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 
Aproximaciones a la fiabilidad y tipos de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 
Fiabilidad como correlación entre formas paralelas. . . . . . . . . . . . . . . . . . . . . . . . 94 
Fiabilidad como estabilidad temporal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 
Fiabilidad como consistencia interna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 
El error típico de medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 
Formas de incrementar la fiabilidad de un test. . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 
Coeficiente de fiabilidad y características de la muestra. . . . . . . . . . . . . . . . . . . . . 113 
Valores mínimos para los indicadores de fiabilidad. . . . . . . . . . . . . . . . . . . . . . . . 114 
Software para la Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 
 
8 Medición en Ciencias Sociales y de la Salud 
 
 
4. Introducción a la Teoría de la Respuesta al Ítem 
 
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 
Limitaciones de la TCT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 
La Curva Característica del Ítem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 
Modelos de TRI para ítems dicotómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 
Supuestos de la TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 
Bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 
La precisión de las puntuaciones en TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 
La Curva Característica del Test. . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 
Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 
Ventajas y desventajas de los modelos de TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 
 
5. Concepto y evidencias de validez 
 
El concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 
Evidencias basadas en el contenido del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 
 Definición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 
 Procedimientos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 
Evidencias basadas en la estructura interna del test. . . . . . . . . . . . . . . . . . . . . . . . . 170 
Evidencias basadas en la relación con otras variables. . . . . . . . . . . . . . . . . . . . . . . 171 
 La evidencia convergente y discriminante. . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 
 Evidencia sobre la relación entre el test y algún criterio relevante. . . . . . . . . . 177 
Evidencias basadas en los procesos de respuesta a los ítems. . . . . . . . . . . . . . . . . 195 
Evidencias basadas en las consecuencias de la aplicación del test. . . . . . . . . . . . . 199 
Evolución histórica del concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 
 
6. Análisis Factorial Exploratorio 
 
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 
Visión general del AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 
La ecuación fundamental del modelo factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 
Conceptos básicos del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 
El AFE paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 
 Decisiones sobre el método de extracción de factores. . . . . . . . . . . . . . . . . . . 220 
 Selección del número de factores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 
 El problema de la indeterminación factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . 232 
 Procedimientos de rotación ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235Procedimientos de rotación oblicua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 
Puntuaciones factoriales por el método de ponderación simple . . . . . . . . . . . . . . . 241 
Otras decisiones importantes en el AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 
Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 
 Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 
 Otros métodos de extracción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 
Índice de contenidos 9 
 Métodos adicionales para decidir el número de factores. . . . . . . . . . . . . . . . . 252 
 El significado del término rotación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 
 Análisis factorial de segundo orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 
 El análisis factorial de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 
 Procedimientos alternativos para calcular las puntuaciones factoriales . . . . . 263 
 Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 
 
7. Interpretación de las puntuaciones 
 
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 
Baremos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 
 Baremos cronológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 
 Baremos centiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 
 Baremos típicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 
 Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 
 Baremos en la Teoría de la Respuesta al Ítem. . . . . . . . . . . .. . . . . . . . . . . . . . 282 
Otros métodos para dar significado a las puntuaciones. . . . . . . . . . . . . . . . . . . . . . 283 
 El mapeo de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 
 Descripción de cada nivel de desempeño. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 
 Puntos de corte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 
 
 
 
Segunda Parte 
 
 
8. Métodos alternativos para estimar el coeficiente de fiabilidad 
 
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 
Grados de equivalencia entre formas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 
Otras formas de calcular el coeficiente de fiabilidad a partir de dos mitades. . . . . 297 
Otras formas de calcular el coeficiente de fiabilidad del test a partir de los ítems . 299 
 Coeficiente de fiabilidad como límite inferior. . . . . . . . . . . . . . . . . . . . . . . . . 301 
 Coeficientes de fiabilidad basados en el análisis factorial. . . . . . . . . . . . . . . . 304 
Coeficiente de fiabilidad de una batería de tests o de tests multidimensionales. . . 310 
Testlets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 
 
9. Fiabilidad interjueces y medición del cambio 
 
Fiabilidad interjueces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 
 Coeficiente kappa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 
 Coeficiente de concordancia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 
 Coeficiente de correlación intraclase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 
 Coeficiente de correlación intraclase como un caso particular del coeficiente 
 de generalizabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
 
320 
 Coeficientes de generalizabilidad para dos fuentes de error. . . . . . . . . . . . . . . 325 
10 Medición en Ciencias Sociales y de la Salud 
 
Fiabilidad de las diferencias y medición del cambio. . . . . . . . . . . . . . . . . . . . . . . . 330 
 Fiabilidad de las diferencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 
 Significación clínica e indicadores de cambio fiable. . . . . . . . . . . . . . . . . . . . 333 
 ¿Diferencias de las puntuaciones directas o diferencias en los rasgos 
 latentes?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
 
338 
 
10. Análisis Factorial Confirmatorio 
 
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 
El AFC paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 
Representación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 
Conceptos básicos del modelo de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 
Identificación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 
Índices de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 
Re-especificación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 
Modelos confirmatorios multigrupo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 
Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . . . . . 379 
Malos usos de los modelos de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 
 
11. TRI: procedimientos estadísticos 
 
Comprobación de supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 
 Unidimensionalidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 
 Independencia local. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 
 Calibración de los ítems: método de estimación Máximo-Verosímil 
 Marginal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
 
391 
 Estimación bayesiana modal a posteriori del nivel de rasgo (MAP). . . . . . . . 393 
 Estimación bayesiana esperada a posteriori del nivel de rasgo (EAP) 
 y desviación típica posterior (PSD). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
 
396 
 Estimación bayesiana de los parámetros de los ítems. . . . . . . . . . . . . . . . . . . . 397 
Comprobación de la bondad de ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . 400 
Procedimientos de equiparación de parámetros. . . . . . . . . . . . . . . .. . . . . . . . . . . . 402 
Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 
 Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . 408 
 TRI: Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410 
 
 
12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas 
 
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 
El modelo de respuesta graduada (MRG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 
La puntuación esperada en el ítem y la Curva Característica del Test. . . . . . . . . . 423 
Supuestos de unidimensionalidad e independencia local. . . . . . . . . . . . . . . . . . . . 424 
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 
Índice de contenidos 11 
Comprobación del ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 
Comprobación del ajuste: métodos estadísticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 
Estimación de θ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 
Función de información. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 
Otros modelos politómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 
 
13. Funcionamiento diferencial de los ítems y adaptación de tests a otras culturas 
 
Sesgo, funcionamiento diferencial e impacto adverso. . . . . . . . . . . . . . . . . . . . . . . 447 
 Evidencias externas de sesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 
 Funcionamiento diferencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 
 DIF uniforme y DIF no uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 
 Estrategias para el estudio del funcionamiento diferencial. . . . . . . . . . . . . . . . 452 
 Métodos basados en las puntuaciones directas. . . . . . . . . . . . . . . . . . . . . . 452 
 Métodos basados en variables latentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 
 Depuración de la prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 
 Consideraciones finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 
 Impacto adverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 
Adaptación de tests a otras culturas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468 
 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 
 Procedimientos de traducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 
 Estudios de equivalencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 
 
14. Otras estrategias de validación 
 
El análisis de regresión lineal múltiple y la validez referida a un criterio. . . . . . . . 475 
 Marco de trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 
 La correlación múltiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 
 Los coeficientes de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 
 Las pruebas de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 
 Supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 
 Multicolinealidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 
 Regresión por pasos (Stepwise). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493 
Técnicas de análisis estadístico de las matrices MRMM. . . . . . . . . . . . . . . . . . . . . 494 
 El estadístico “I” de Sawilowsky. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494 
 Aproximación desde el análisis factorial confirmatorio. . . . . . . . . . . . . . . . . . 495 
La generalización de la validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502 
Validez diagnóstica de las puntuaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504 
 Caso 1: Validez diagnóstica de las puntuaciones en un único test. . . . . . . . . . 505 
 Caso 2: Validez diagnóstica de las puntuaciones en varios tests. . . . . . . . . . . . 508 
 
15. Tests informatizados y otros formatos de tests 
 
Tests informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 
 Tests fijos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 
 Tests adaptativos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 
12 Medición en Ciencias Sociales y de la Salud 
 
 Aplicaciones a través de Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523 
Tests basados en modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 524 
Nuevos formatos para la prevención del falseamiento de respuestas. . . . . . . . . . . 525 
 Detección del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526 
 Prevención del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 
 Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530 
 
 
Referencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 
 
 
Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 
 
 
 
 
 
Prólogo 
 
 
Escribir un libro exige tomar un conjunto de opciones previas sobre su contenido y estilo. 
Una vez recibida la oferta de Editorial Síntesis, muchos fueron los debates entre los auto-
res para definir en concreto el libro que queríamos escribir: ¿para qué tipo de lectores?, 
¿qué contenidos incluir?, ¿a qué nivel hacerlo?, ¿cómo establecer un estilo didáctico man-
teniendo el rigor formal?, ¿cómo fomentar destrezas y no sólo conocimientos? En reali-
dad, la respuesta a la primera de estas preguntas sirve para responder en parte las siguien-
tes. El libro que presentamos es un libro de Psicometría que puede resultar de interés para 
estudiantes e investigadores de las Ciencias Sociales y de las Ciencias de la Salud. Hemos 
encontrado dos razones fundamentales para escribirlo: en primer lugar, que parte del libro 
sirva a nuestros estudiantes de grado como referencia básica para el aprendizaje de la 
asignatura troncal de Psicometría; en segundo lugar, la opción por describir determinados 
temas que consideramos relevantes para una formación más elevada y que es difícil en-
contrar en otros de los buenos textos sobre Medición escritos en español. 
La primera parte del libro incluye 7 temas de lo que podríamos definir como Psico-
metría fundamental, pensados como los contenidos básicos para las asignaturas troncales 
de grado. ¿Qué eslo que consideramos como fundamental (podríamos calificarlo como 
“mínimo”) para la formación psicométrica de un estudiante de grado? Nuestras opciones 
se han fundamentado en un intento de mejorar el proceso de enseñanza y aprendizaje de la 
Psicometría en los nuevos planes de estudio requeridos en el proceso de acomodación al 
Espacio Europeo de Educación Superior. Por tanto, tenemos presente un marco concreto 
de desarrollo de los contenidos: una asignatura troncal que podría oscilar entre 6 y 9 crédi-
tos ECTS, con contenidos fundamentales (aunque no exclusivos) de Teorías de los Tests y 
poniendo énfasis en complementar los contenidos teóricos con la formación práctica. En 
este sentido, y adicionalmente a una rigurosa formación teórica en los modelos fundamen-
tales de medición (Teoría Clásica y Teoría de la Respuesta al Ítem), pretendemos que el 
estudiante se encuentre capacitado para entender la información psicométrica básica que 
aportan diversos instrumentos de evaluación, fundamentalmente los tests; optamos 
además por que el estudiante se enfrente con problemas concretos de medición, maneje el 
software fundamental para el estudio psicométrico de un test y sea capaz de elaborar in-
formes técnicos sobre los resultados. Los estudiantes que adquieran estas competencias 
serán capaces de redactar buenos ítems, de analizar sus propiedades métricas, de aplicar 
las mejores técnicas y procedimientos para estudiar la fiabilidad y validez de las puntua-
ciones de los tests, así como de interpretar adecuadamente las asignadas mediante el ba-
remo correspondiente. Con esta primera parte del libro pretendemos establecer las bases 
para la adquisición de estos conocimientos, pero no sirve del todo para adquirir las destre-
zas de tipo más aplicado. Completaremos la formación con la propuesta y seguimiento de 
varios trabajos prácticos cuyas guías los estudiantes tendrán disponibles en nuestras pági-
nas de docencia. 
14 Medición en Ciencias Sociales y de la Salud 
Los temas de la segunda parte, que podrían considerarse como la iniciación a una 
Psicometría aplicada avanzada, se refieren a contenidos más específicos, propios de los 
que deben saber los estudiantes que quieran especializarse en temas de Metodología (en 
materias optativas y en estudios de posgrado) o los investigadores en Ciencias Sociales y 
de la Salud que desarrollan o adaptan tests. Los temas incluidos en esta segunda parte 
pueden considerarse como extensiones y aplicaciones particulares de los descritos en la 
primera parte. Así, hemos optado por desarrollar más ampliamente los contenidos sobre 
modelos psicométricos, incluyendo procedimientos alternativos para estimar la fiabilidad, 
el tema de la medición del cambio y contenidos más avanzados sobre TRI (procedimien-
tos estadísticos y modelos politómicos). Sobre la validación de puntuaciones, en esta se-
gunda parte se tratan con bastante detenimiento los temas de análisis factorial confirmato-
rio, funcionamiento diferencial de los ítems y adaptación de tests a otras culturas, así co-
mo otras estrategias específicas de validación. Finalmente, se incluye un tema sobre tests 
informatizados y otros formatos de ítems. Con ello hemos querido avanzar en determina-
das aplicaciones psicométricas que cada vez resultan más usuales en la investigación y en 
la práctica profesional, pero que seguramente no tienen cabida en las materias troncales de 
los planes de estudio de grado. 
Tanto una como otra parte quedarían didácticamente cojas sin la descripción básica 
de los programas informáticos disponibles para hacer las cosas. En este sentido, en el libro 
se describen los procedimientos básicos para realizar las estimaciones con diversos pro-
gramas informáticos: SPSS y FACTOR (modelo clásico y análisis factorial exploratorio), 
MULTILOG (para la TRI) y MPLUS (para el análisis factorial confirmatorio). 
 
 
 
1 
Introducción 
 
 
 
 
 
 
Psicometría 
 
Etimológicamente, la Psicometría es la disciplina que tiene por objeto la medición de la 
“psique”; hoy en día diremos mejor la medición de capacidades, atributos o características 
psicológicas. Su objetivo es establecer “teorías sobre” y “métodos para” la medición en 
Psicología y en otras disciplinas afines. Se caracteriza en primer lugar porque utiliza la 
formulación matemática para desarrollar teorías y modelos para la medición de variables 
psicológicas. La define, en segundo lugar, su interés por promover métodos, técnicas e 
instrumentos para la mejor medición posible de dichas variables en cualquier contexto de 
especialización de las Ciencias Sociales y de la Salud. Las variables objeto de medición 
pueden ser de diverso tipo, y no son independientes de las perspectivas teóricas asumidas: 
rasgos, actitudes, procesos, conductas, conocimientos, destrezas, actividad psicofisiológi-
ca, etc. En este sentido, es objeto de la Psicometría el análisis de cualquier asignación 
numérica que se realiza sobre variables psicológicas, obtenida por diversos procedimien-
tos o instrumentos, en términos de su precisión (error de medida) y validez (inferencias de 
diverso tipo que pueden realizarse a partir de dichas asignaciones), que en definitiva son 
los conceptos clave bajo cualquiera de los prismas teóricos de la disciplina y las propieda-
des psicométricas fundamentales que deberemos analizar. En general, el objeto de la me-
dición son las personas, aunque también pueden serlo los grupos, las instituciones o estí-
mulos de diverso tipo. En cuanto a los instrumentos empleados para la obtención de pun-
tuaciones, los tests son los más utilizados, aunque no son los únicos (por ejemplo, pueden 
derivarse mediciones a partir de los juicios subjetivos de unas personas sobre ciertas ca-
racterísticas de otras o establecer diseños observacionales para efectuar determinados re-
gistros conductuales). Algunos antecedentes y eventos históricos pueden ayudarnos a 
comprender la identidad y el sentido de la Psicometría como disciplina: 
 
1. La Psicofísica. Aunque algunos ancestros de la medición psicológica son previos, es en 
el ámbito de los estudios psicofísicos del siglo XIX donde surge el problema de la me-
dición de las sensaciones, dentro del objetivo general de la Psicofísica establecido por 
16 Medición en Ciencias Sociales y de la Salud 
Fechner como la ciencia exacta que estudia las relaciones funcionales entre el cuerpo y 
la mente. A partir de los trabajos de Weber, Fechner establece su famosa ley logarítmi-
ca, S = k log E, para describir la relación matemática entre un continuo estimular, E, y 
la sensación producida en la persona, S. Los psicofísicos perciben enseguida la dificul-
tad que representa la medición de hechos mentales (sensaciones) y proponen varios 
métodos indirectos para su medición. Realizaban experimentos donde incrementaban 
progresivamente la cantidad de estimulación (por ejemplo una señal acústica) y medían 
la sensación contando el número de veces que una persona percibía cambios en dicha 
estimulación desde el umbral absoluto (cuando el evaluado empieza a percibir el ruido) 
hasta el nivel de intensidad física presentado en un ensayo concreto. En el laboratorio 
de Leipzig, fundado por Wundt, algunos investigadores como Donders y Cattell emple-
an el tiempo de reacción y la cantidad de eventos recordados como medida de rendi-
miento en diversos procesos psicológicos (atención, memoria…). 
2. El interés inicial por la medición de las diferencias individuales. A finales del siglo 
XIX Galton funda el famoso laboratorio antropométrico de Londres, cuna del estudio 
de las diferencias individuales, tratando de estudiar las distribuciones de diversas medi-
ciones físicas y psicológicas de las personas, tal como habían hecho en Astronomía 
(entre ellos Gauss) para estudiar las diferencias individuales a la hora de estimar la ve-
locidad del movimiento de los astros. Además de medidas antropométricas, Galton em-
pleó determinados instrumentos para medir la fuerza física o la capacidadde discrimi-
nación auditiva y visual; también le interesó medir los errores que cometían las perso-
nas en ciertas tareas de estimación de longitudes o ángulos. Uno de sus colaboradores, 
J. M. Cattell, acuñará en 1890 el término “test mental” para referirse al rendimiento en 
diversas tareas sensoriomotoras en las que se cuantificaba el tiempo de reacción o las 
estimaciones subjetivas (por ejemplo de longitud, tiempo transcurrido, discriminación 
táctil, dolor...). 
3. El interés inicial por la medición de capacidades cognitivas superiores. En los albores 
del siglo XX, el Ministerio Francés de Instrucción Pública propone a Binet que esta-
blezca procedimientos para diferenciar a los niños con deficiencia mental (que no son 
capaces de conseguir los objetivos escolares) de los que no tienen problemas intelec-
tuales. Binet y Simon propondrán tests de inteligencia para medir capacidades cogniti-
vas superiores, como la comprensión del lenguaje, el razonamiento, la memoria o la 
capacidad de abstracción, mediante tareas no muy diferentes a las que se plantean en 
los actuales tests de inteligencia o de aptitudes intelectuales. Diseñaron tests de diferen-
te dificultad y contenido para las distintas edades (entre 3 y 15 años), lo que se conside-
ra que representa el primer intento de adaptar la dificultad de los tests al diferente nivel 
previsible de los evaluados. Por ejemplo, para los niños más pequeños propusieron ta-
reas de reconocimiento del cuerpo humano, de memoria de series cortas de dígitos o de 
comparación de longitudes de líneas; para los mayores propusieron ítems sobre cons-
trucción de frases con determinadas palabras, recuerdo de textos escritos, repeticiones 
de series largas de dígitos, resolución de problemas, etc. Acuñaron el concepto de edad 
mental, como la media del rendimiento en un test de los estudiantes de una edad real 
determinada. Unos años más tarde se adaptan los tests de Binet en Estados Unidos 
(Terman impulsa varias versiones) y comienzan a interpretarse normativamente las 
puntuaciones mediante el baremo cronológico de cociente intelectual (CI). La aplica-
ción masiva de tests de inteligencia (y los correspondientes formatos de respuesta de 
opción múltiple) se inicia con la evaluación de los soldados estadounidenses que parti-
Capítulo 1. Introducción 17 
cipaban en la Primera Guerra Mundial. También en este contexto comienzan algunos 
esbozos de lo que serán los tests psicométricos de personalidad, cuyo arranque será 
más tardío debido en parte a que inicialmente la medición de la personalidad se reali-
zaba con tests proyectivos (Rorschach propone el suyo en 1921). 
4. La Teoría Clásica de los Tests (TCT). En los primeros tests de Inteligencia, las puntua-
ciones de las personas se daban como verdaderos indicadores de su nivel de capacidad, 
error que no pasó desapercibido para algunos estadísticos. En las dos primeras décadas 
del siglo XX, Spearman propone un sencillo modelo matemático para conceptualizar el 
error de medida (E) asociado a las puntuaciones de los tests (la idea fundamental se re-
fleja en el primer supuesto clásico ( EVX += ), así como procedimientos para estimar 
la fiabilidad de las puntuaciones (bajo la definición de tests paralelos) y las relaciones 
entre fiabilidad y longitud del test. Son los fundamentos de la TCT, que será completa-
da progresivamente en las siguientes décadas por las aportaciones de otros autores, en-
tre los que cabe destacar a Thurstone y Cronbach. Aunque hoy en día se sigue investi-
gando sobre procedimientos y técnicas fundamentadas en la TCT, podría decirse que a 
mitad del siglo pasado están ya establecidos los pilares fundamentales del modelo 
clásico y de los métodos para estimar la fiabilidad de las puntuaciones. La vigencia de 
la TCT en la actualidad dice mucho del acierto de sus planteamientos y de su utilidad 
para la medición en Psicología. Muchos desarrollos del modelo clásico se aplican a 
puntuaciones que se obtienen con procedimientos diferentes a los tests. 
5. No todo es error de medida: la validez de las puntuaciones. La enorme amplitud de 
aplicaciones de tests psicológicos hace necesario enfatizar los aspectos de la validez de 
las puntuaciones. Aunque pueden destacarse diferentes hitos históricos sobre el tema, 
nos referimos a 3 de ellos: a) Las puntuaciones en los tests de Cattel y en los tests de 
Binet se correlacionaron con las calificaciones escolares (por cierto, los segundos mos-
traron mayor relación con el rendimiento académico), que es el inicio del estudio de 
evidencias de validez predictiva; ya Spearman había esbozado a principios de siglo la 
idea de que las diferentes medidas de capacidad cognitiva correlacionaban entre sí, lo 
que representa un primer esbozo de la búsqueda de evidencias sobre la estructura inter-
na de los tests. b) Unas décadas después, hacia los años 30 y 40, los trabajos de Thurs-
tone sobre análisis factorial proporcionarán la herramienta estadística para obtener este 
tipo de evidencias, aplicándose inicialmente en el marco del estudio de la inteligencia y 
de las aptitudes intelectuales que pueden diferenciarse. c) Siempre ha sido referencia en 
Psicometría un trabajo sobre validez de constructo de Cronbach y Meehl, publicado en 
1955, en el que se amplían las estrategias de validación de las puntuaciones de los tests. 
6. La Teoría de la Respuesta al Ítem (TRI). Si bien la TCT ha mantenido (y mantiene) 
mucha vigencia para analizar las propiedades de las mediciones que realizamos con 
tests, en los años 60 del siglo pasado surgen nuevos modelos matemáticos (Rasch, Lord 
y Birnbaum son los pioneros de la TRI) con la intención de superar algunos de los in-
convenientes del modelo clásico. La idea fundamental común a los diversos modelos 
de TRI, tal como veremos, será enfatizar el estudio psicométrico de los ítems (y no tan-
to del test) y realizar mediciones invariantes de las propiedades métricas de los ítems 
(que no dependan de las características particulares de las muestras donde se aplican) y 
de las estimaciones de los niveles de las personas (que no dependan de las característi-
cas particulares de los ítems aplicados). La TRI va a permitir ampliar las estrategias de 
medición con tests y las formas de estudiar las propiedades psicométricas de las esti-
18 Medición en Ciencias Sociales y de la Salud 
maciones, tanto de los ítems como de las personas. Por ejemplo, progresivamente se 
emplearán desarrollos de TRI para la medición mediante Tests Adaptativos Informati-
zados (TAI) o para el estudio del posible sesgo de los ítems y de los tests (si perjudican 
o no a un grupo concreto de personas). 
 
¿Se ocupa sólo la Psicometría de las mediciones que se realizan con los tests? Claramente 
no. Aunque la Psicometría es fundamentalmente Teorías de los Tests, no lo es exclusiva-
mente. Debe reconocerse que uno de los instrumentos que ha demostrado más utilidad pa-
ra la medición psicológica (y por tanto para el psicólogo aplicado) son los tests1, tal como 
lo atestigua su cada vez más extenso uso en diferentes contextos de evaluación psicológi-
ca y educativa, y el enorme bagaje de investigación que actualmente se realiza sobre las 
teorías de los tests y sus aplicaciones, fundamentalmente en relación a los modelos y 
técnicas derivados de la TRI. No disponemos de mejores instrumentos cuando se pretende 
inferir el nivel de las personas en variables latentes no directamente medibles y de las que 
desconocemos sus valores verdaderos, y seguramente esta peculiaridad (la necesidad de 
medir variables no directamente observables) es la responsable de que en Psicología exista 
una disciplina propia dedicada a la medición, lo que no es usual en otras disciplinas cientí-
ficas. Sin embargo, es la Psicometría la que debe guiar también el análisis de la calidad de 
otros tipos de mediciones, por ejemplo, las derivadas de entrevistas, métodos observacio-
nales o técnicas psicofisiológicas, incluso cuando no sea el objetivo prioritariorealizar in-
ferencias sobre rasgos latentes sino describir comportamientos. 
Hemos dicho que Psicometría no es únicamente Teorías de los Tests. Desde la tradi-
ción psicofísica se enfatizan procedimientos y técnicas de asignación numérica a objetos, 
eventos o personas empleando como instrumento de medida el propio juicio humano. Este 
núcleo de interés, denominado tradicionalmente como Escalamiento, fue evolucionando 
desde los objetivos establecidos por la Psicofísica a la medición de atributos estrictamente 
psicológicos carentes de correlatos físicos. En las primeras décadas del siglo XX, Thurs-
tone propuso varios modelos y procedimientos estadísticos (sus famosas leyes del juicio 
comparativo y categórico) para, a partir de ciertos juicios subjetivos de un grupo de per-
sonas, ordenar cuantitativamente en una escala unidimensional, por ejemplo, la gravedad 
de determinados delitos o el nivel actitudinal de las personas sobre un tema determinado. 
Con el tiempo, autores como Torgerson, Shepard y Kruskal propondrán modelos de esca-
lamiento multidimensional, también basados en estrategias de recogida de datos sobre jui-
cios de las personas, donde un determinado estímulo o persona tiene asignaciones numéri-
cas en diversas dimensiones. En español, los libros de Arce (1993, 1994) y Real (2001) 
describen estos y otros modelos de escalamiento, así como el modo de aplicarlos con dife-
rentes programas informáticos. 
Dados los problemas peculiares que tenemos para la medición de atributos psicológi-
cos, la Psicometría se ha planteado también, desde las denominadas como Teorías de la 
Medición, lo que realmente representa medir y las propiedades de los números que asig-
namos a las personas o a los estímulos en determinados atributos psicológicos. Se han 
propuesto diferentes teorías para establecer los requisitos lógicos y matemáticos que de-
ben cumplirse para que las asignaciones numéricas representen realmente a los atributos 
 
1 A veces se emplea, en vez de test, otros términos como cuestionario, escala, inventario o examen, para enfati-
zar que con el instrumento se pretende medir atributos concretos (por ejemplo, personalidad, actitudes, conduc-
tas o conocimientos). 
Capítulo 1. Introducción 19 
psicológicos. La que más relevancia aplicada ha tenido ha sido la Teoría de las escalas de 
medida de Stevens (definiendo las propiedades y las transformaciones admisibles asocia-
das a los niveles de medida nominal, ordinal, de intervalo y de razón), si bien ha sido fuer-
temente criticada desde otras perspectivas (teorías representacional, de medición conjunta, 
operacionalista, etc.). Una introducción a estos temas puede consultarse en Ponsoda 
(2008); los planteamientos teóricos y los principales puntos de controversia, a veces im-
portantes (incluso hasta poner en duda la posibilidad de medición de lo psicológico), están 
bien descritos en los libros de Michell (1999) y Borsboom (2005). 
 
 
Tipos de tests y ámbitos de aplicación 
 
Consideramos genéricamente un test como un procedimiento estandarizado que sirve para 
muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de indi-
cadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable latente. 
A partir de las respuestas correctas a unos ítems de analogías verbales y sinónimos debe-
mos inferir la aptitud verbal de las personas; tras manifestar el grado de acuerdo con de-
terminadas afirmaciones debemos inferir el nivel de actitudes xenófobas; después de res-
ponder a un conjunto de ítems sobre aspectos gramaticales del inglés debemos inferir el 
nivel de comprensión escrita en el idioma. 
 Para hablar propiamente de test, se han de cumplir tres condiciones. En primer lugar, 
los ítems han de tener propiedades psicométricas conocidas y se han de haber elaborado 
siguiendo las oportunas normas de construcción. No siempre es fácil distinguir a simple 
vista cuándo estamos ante un test o ante algo que sólo lo es en apariencia, por no haberse 
elaborado adecuadamente. En segundo lugar, un test requiere una administración contro-
lada. Se han de seguir las instrucciones, las condiciones de administración y de puntua-
ción establecidas en el proceso de construcción del test. En tercer lugar, el test debe pre-
tender evaluar a una persona en un atributo de interés. A veces se confunden los tests con 
otros instrumentos, como las encuestas, cuya finalidad no es puntuar a cada persona que 
responde, sino saber, por ejemplo, las tendencias de voto a los distintos partidos. 
 Son muy diversos los tipos de atributos psicológicos a medir, y por tanto los tipos de 
tests y los formatos de ítems de que disponemos en Psicología. Hace unos años que varios 
historiadores de la Psicología Española (Quintana, Albert y López-Martín, 2008) rescata-
ron y editaron unos “Apuntes para un curso de Psicología aplicada a la selección profesio-
nal”, elaborados en 1924 por el doctor Rodrigo Lavín como material docente de su cátedra 
de Psicología Experimental. Esta auténtica joya casi centenaria, de recomendable lectura, 
representa una de las primeras veces que en España se habla sistemáticamente de los tipos 
y usos de los tests; decía ya entonces el autor que “Como la observación nos da muy po-
cos datos utilizables y la conversación o entrevista no basta para descubrir las habilida-
des de los solicitantes, es necesario recurrir a los tests. Se puede decir que estamos en el 
comienzo de los tests y, a pesar de eso, hay un desarrollo extraordinario de ellos; ello in-
dica lo que sucederá andando el tiempo”. Hablaba el autor de que existían entonces tests 
de capacidades o habilidades, tanto generales como específicas, y que en la selección pro-
fesional eran de especial importancia los tests de fuerza, de resistencia a la fatiga, de con-
trol motor y de capacidades mentales (atención, sensación y percepción, imaginación e in-
teligencia general). Seguramente influenciado por los procedimientos de medida de 
20 Medición en Ciencias Sociales y de la Salud 
Wundt, de los psicofísicos y de Galton, Rodrigo Lavín describía con detalle algunos apa-
ratos mecánicos y ciertos procedimientos de puntuación que podían emplearse para la me-
dición de competencias y habilidades, así como algunas tareas de papel y lápiz que podían 
plantearse para medir la capacidad imaginativa o la inteligencia general (ya entonces esta-
ba al tanto de los tests de Binet y de los empleados en el ejército estadounidense). 
 Transcurrido cierto tiempo, en las primeras páginas de sus imperecederos apuntes so-
bre “Introducción a la Teoría de los Tests” (una parte ha sido reeditada en Psicothema ba-
jo el título de “Los tests y el análisis factorial” en 1996), don Mariano Yela recordaba la 
connotación etimológica de la palabra (testis, testigo, testimonio) y realizaba una clasifi-
cación de los tests atendiendo al método general seguido (tests psicométricos vs. tests 
proyectivos), a su fin (cualitativos vs. cuantitativos), a la relación con el aplicador (perso-
nales vs. impersonales), al modo de aplicación (individuales vs. colectivos), al material 
que se emplea (impresos vs. manipulativos) y, fundamentalmente, atendiendo al tipo de 
atributo que miden (diferenciando diversos tests de rendimiento, de aptitud o de persona-
lidad). 
 Actualmente las cosas han cambiado bastante en cuanto a los tipos de tests que se ela-
boran en Psicología para la medición de atributos psicológicos, y por tanto, en relación a 
los recursos que un psicólogo aplicado puede emplear para su medición. A las tradiciona-
les categorías del profesor Yela podrían proponerse otras, pero habría que añadir al menos 
dos fundamentales que tuvieran en cuenta el medio de aplicación (tests de lápiz y papel 
vs. tests informatizados) y el modelo en que se sustentan los análisis psicométricos (tests 
analizados desde la Teoría Clásica vs. desde la Teoría de la Respuesta al Ítem). Tratando 
de realizar unresumen sobre los diferentes tipos de tests de que disponemos en la actuali-
dad en Psicología, atendiendo a varios criterios generales de clasificación, podríamos es-
tablecer los siguientes: 
 
1. Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento 
óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar 
una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y 
aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal 
como se hace en los tests de personalidad o en las escalas de actitudes). 
2. Según el modelo psicométrico desde el que se analizan las propiedades de los ítems y 
de las puntuaciones de los evaluados, hablamos de tests analizados desde la TCT y de 
tests analizados desde la TRI. Ambos modelos pueden aplicarse a las puntuaciones de 
un mismo test. 
3. Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests informa-
tizados. Dentro de estos últimos se distingue entre tests fijos informatizados (aquellos 
que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos que se 
eligen de un banco determinado para optimizar ciertas propiedades psicométricas en un 
grupo de personas específico) y tests adaptativos informatizados (los que presentan di-
ferentes ítems del banco a los diferentes evaluados, dependiendo del nivel progresivo 
que vayan manifestando en la prueba). 
4. Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la 
interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests 
referidos al criterio (la interpretación se refiere al rendimiento individual conseguido 
por una persona en relación a unos criterios o dominios establecidos de antemano). Ca-
be interpretar desde ambas perspectivas el rendimiento en el mismo test. 
Capítulo 1. Introducción 21 
5. Según el formato de respuesta establecido, diferenciamos distintos tipos de tests, por 
ejemplo: tests de respuesta construida (caso de las preguntas abiertas tipo ensayo), tests 
de respuesta seleccionada (son tests de rendimiento óptimo con varias opciones de res-
puesta, normalmente con una sola opción correcta), tests de categorías ordenadas (por 
ejemplo con varias categorías para manifestar el grado de acuerdo con determinadas 
sentencias) o tests de respuesta binaria o elección forzosa (típicos, como veremos, de 
los tests ipsativos o de ciertos tests de personalidad). Los tests informatizados permiten 
formatos de ítems muy novedosos, así como procedimientos de respuesta y de puntua-
ción singulares, empleando los recursos que tienen los ordenadores. 
6. Según el marco teórico psicológico de referencia hablamos, por ejemplo, de tests psi-
cométricos, proyectivos, situacionales, conductuales o basados en modelos cognitivos. 
7. Según el establecimiento, o no, de tiempo límite para la realización de la prueba, 
hablamos, respectivamente, de tests de velocidad o tests de potencia. 
 
Son también muy variados los usos que se hacen de las puntuaciones en los tests. Navas 
(2001) recoge 6 funciones de los tests: diagnóstico (detección de problemas en el ámbito 
clínico o en el escolar), selección (de los trabajadores con el perfil más adecuado al puesto 
de trabajo), clasificación (por ejemplo, determinación del nivel de inglés para ubicar al es-
tudiante en el curso adecuado), certificación (acreditación de que un profesional tiene la 
cualificación adecuada), consejo (para facilitar la decisión sobre los estudios a emprender, 
por ejemplo cuando interesa medir la prevalencia de enfermedades o los logros consegui-
dos con programas de intervención psicosocial); y descripción e información (informan de 
lo que un alumno sabe, del rendimiento de un curso, profesor, colegio, comunidad, país… 
en relación a los demás). 
 Los tests se emplean en la práctica totalidad de las especialidades, y por tanto en los 
diversos ámbitos de aplicación de la Psicología y de otras disciplinas afines. Medir lo psi-
cológico representa muchas veces la difícil tarea de medir lo inobservable, objetivo en el 
que se ha avanzado mucho en las últimas décadas por varias razones fundamentales. En 
primer lugar, porque cada vez es mayor la demanda social, como así lo atestiguan los re-
sultados de la encuesta realizada por Muñiz y Fernández Hermida (2000) entre varios mi-
les de psicólogos colegiados dedicados a las diversas especialidades. Cada vez resulta más 
usual emplear tests en contextos de evaluación y tratamiento psicológicos, en procesos de 
evaluación psicopedagógica, de intervención psicosocial o de selección de personal. Cada 
vez son más importantes las consecuencias que para las personas y las organizaciones tie-
nen las puntuaciones en los tests. Paso a paso, y aunque todavía con cierta lejanía respecto 
a otros países, tanto los profesionales de la Psicología como otros responsables de organi-
zaciones públicas y privadas confían cada vez más en la utilidad de los tests para conse-
guir ciertos objetivos aplicados. No es raro este incremento en el uso de los tests en una 
sociedad cada vez más sensible a la evaluación de los resultados de las intervenciones y a 
la acreditación de competencias individuales e institucionales. 
 En segundo lugar, y también en relación con esta mayor sensibilidad social, se ha am-
pliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace 
unos años las aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o 
pruebas de personalidad, cada vez existen más requerimientos profesionales (y más es-
pecíficos) sobre los rasgos, competencias o comportamientos que deben medirse. Además, 
la pluralidad epistemológica que caracteriza a nuestra disciplina y a nuestra profesión ha 
22 Medición en Ciencias Sociales y de la Salud 
impulsado la creación de tests desde posiciones teóricas diferentes y cada vez más fieles a 
los modelos teóricos en que se sustentan. 
 En tercer lugar, porque cada vez es mayor la exigencia psicométrica a la que somete-
mos a las puntuaciones de los tests. El ineludible requisito de “medir bien” (que podría-
mos concretarlo en los tradicionales tópicos de fiabilidad y validez de las puntuaciones) 
está impulsando el desarrollo de nuevos tipos de tests y nuevos modelos psicométricos pa-
ra estudiar las garantías que ofrecen sus aplicaciones, entre los que destacan los modelos 
de TRI. Cada vez son más los profesionales que no aplican los tests por mera rutina, sino 
que exigen buenos tests para objetivos específicos, es decir, los que han demostrado su 
utilidad para los fines que tienen planteados. Se ha evolucionado mucho desde la mera 
adaptación de tests elaborados originalmente en otro idioma y para otra cultura (a veces 
sin traspasar el necesario rubicón psicométrico), al uso de aquellos que manifiestan ga-
rantías psicométricas aceptables, sean diseñados originalmente o adaptados de unas cultu-
ras a otras. 
 En cuarto lugar, porque los avances tecnológicos, fundamentalmente los informáticos, 
ayudan a medir mejor (de forma más válida y fiable) ciertos atributos y a incrementar la 
eficiencia de las aplicaciones. 
 
 
 
2 
Construcción de tests 
y análisis de ítems 
 
 
 
 
 
 
Un test está formado por una serie de ítems (o elementos, reactivos, preguntas, cuestio-
nes,…) a los que cada individuo debe responder. Después de cuantificar las respuestas de 
una persona a los ítems del test, se pretende asignar una puntuación (a veces, varias) a esa 
persona respecto al constructo o atributo que se pretende medir. La puntuación asignada 
debería indicar su grado o nivel en el atributo, constructo o rasgo a evaluar. Vimos en el 
capítulo precedente que en las Ciencias Sociales y de la Salud es frecuente recurrir a indi-
cadores para obtener la posición de la persona en un constructo. Se puede, por ejemplo, 
inferir su posición social tras preguntarle dónde vive, cómo es su casa, cuánto gana… Pa-ra la medida de muchos constructos utilizamos también la medición mediante indicadores 
(Navas, 2001). Los ítems de un test de Responsabilidad, por ejemplo, serán los indicado-
res que nos permitan llegar al nivel de la persona en la variable latente Responsabilidad, a 
partir de un conjunto de respuestas. 
En este tema vamos a estudiar cómo se construyen los tests y los indicadores de cali-
dad psicométrica de los ítems. En capítulos sucesivos estudiaremos los indicadores de ca-
lidad del test como un todo. 
El primer paso para la construcción del test es detallar minuciosamente los objetivos 
que se pretenden conseguir con su aplicación y las características fundamentales que debe 
tener. Cuando hayamos especificado ambas cosas, tendremos que decidir el tipo de ítem 
que resulta más apropiado. Estudiaremos los formatos más comunes y las normas de re-
dacción que se recomienda seguir. 
En el proceso de construcción de un test hay que elaborar más ítems de los que pen-
samos aplicar, con la idea de someterlos a un proceso de control de calidad que nos permi-
ta quedarnos con los más apropiados y conseguir así el mejor test posible. El proceso de 
control de calidad tiene dos partes: una cualitativa y otra cuantitativa. La cualitativa pre-
24 Medición en Ciencias Sociales y de la Salud 
cede a la administración de los ítems y requiere que varios expertos comprueben que se 
han seguido correctamente todos los pasos en la construcción del test. 
Estudiaremos también cómo se convierten en valores numéricos las respuestas dadas a 
los ítems. El siguiente paso del proceso es la aplicación piloto del test provisional (es de-
cir, del test formado a partir de los ítems que se consideran adecuados tras el análisis cua-
litativo). Tras la administración piloto, se procede al estudio cuantitativo de las caracterís-
ticas de los ítems mediante un proceso denominado como análisis de ítems. A continua-
ción, hay que decidir qué ítems concretos formarán el test definitivo. Se llama ensamblaje 
del test al proceso por el que se forma el test a partir de los ítems disponibles que han su-
perado los controles de calidad. 
Una ventaja de seguir un proceso sistemático es que se va a conseguir un test similar al 
que hubiesen obtenido otros expertos, e incluso a un segundo test que hiciéramos noso-
tros, si éste fuera el interés. El proceso de construcción requiere además que se haya pen-
sado en todos los aspectos que afectan a la calidad del test resultante, lo que previsible-
mente ayudará a conseguir un mejor resultado final. 
 
 
Diseño del test 
 
Lo primero a especificar es el constructo, atributo o característica psicológica a evaluar y 
el propósito del test. Hay que dar respuestas a tres preguntas (Navas, 2001): ¿Qué se va a 
medir con el test?, ¿a quién se va a medir? y ¿qué uso se piensa hacer de las puntuacio-
nes? Podemos querer evaluar el nivel de Autoestima, Motivación, Inteligencia, el nivel de 
conocimientos en cierta materia, la calidad autopercibida del sueño, etc. Las teorías sobre 
los constructos suponen siempre un punto de referencia importante. Ciertamente son mu-
chos los constructos que podemos querer evaluar, pero no son menos los propósitos de la 
evaluación. Por ejemplo, en un test educativo, Bloom, Hastings y Madaus (1971) han pro-
puesto tres posibles propósitos: a) la evaluación inicial para diagnosticar puntos fuertes y 
débiles y ubicar a los estudiantes en el curso adecuado, b) la evaluación formativa para va-
lorar el progreso en la instrucción y decidir qué y cómo enseñarles, y c) la evaluación su-
mativa para determinar el nivel de conocimientos adquirido en un curso por cada estu-
diante. 
El propósito del test condiciona qué tipos de ítems pueden ser más apropiados. Por 
ejemplo, un test para la evaluación del dominio del inglés, a aplicar en las pruebas de ac-
ceso a la universidad, puede requerir ciertos tipos de ítems (por ejemplo, que evalúen la 
comprensión de textos científicos), distintos de los que pudiera utilizar un test a aplicar en 
procesos selectivos y cuyo propósito sea excluir del proceso a los candidatos que no al-
cancen un nivel mínimo prefijado de comprensión oral del idioma. 
Hay que atender a varias características de la población a evaluar, como la edad, el ni-
vel educativo, la familiaridad con el medio de administración (por ejemplo, con el orde-
nador cuando se vaya a construir un test informatizado), la eventual presencia de discapa-
cidades y de diferencias en el dominio del lenguaje. En estos dos últimos casos, habría 
que considerar la política de acomodaciones a aplicar y su equivalencia (comprobar que la 
puntuación en el test corresponde al nivel en el constructo, sin ventaja o desventaja atri-
buible a las acomodaciones). La acomodación más frecuente consiste en modificar el 
tiempo de administración, de manera que un evaluado con discapacidad motora, por 
Capítulo 2. Construcción de tests y análisis de ítems 25 
ejemplo, alcance la misma puntuación que otro sin discapacidad que tenga su mismo nivel 
en el constructo. A veces se preparan cuadernillos e instrucciones en distintos idiomas, o 
en tamaños de letra y formato diferentes. Otras veces se cambia el modo de administra-
ción, que puede pasar de colectivo a individual, o se leen o interpretan los ítems al evalua-
do para facilitarle su comprensión. 
Schmeiser y Welch (2006) recomiendan prestar atención a lo que llaman restricciones 
administrativas. Las hay de distinto tipo: de tiempo, de coste, de medios (como aulas, or-
denadores o vigilantes disponibles), etc. Los medios disponibles pueden condicionar el 
número de tests a construir si se quiere preservar la seguridad de la prueba. Por ejemplo, 
en contextos de evaluación educativa, la escasez de aulas o de vigilantes podría aconsejar 
la construcción de varios exámenes equivalentes, en vez de un único examen. De todas las 
restricciones, las más importantes son las relacionadas con el tiempo de administración. 
Dependiendo de la trascendencia del test (no tiene la misma un examen de una parte de la 
materia que uno con el que se consigue la acreditación para trabajar como médico, por 
ejemplo), de la edad de los evaluados o del tipo de ítems, será necesario un test con unas u 
otras características psicométricas, más largo o más corto y que requiera más o menos 
tiempo de aplicación. La longitud óptima del test es aquella que, siendo aceptable para los 
evaluados, proporciona puntuaciones con la calidad necesaria para justificar el uso previs-
to o las decisiones que se toman en el proceso de evaluación. 
Vimos en el capítulo precedente que hay tests referidos a normas y referidos al crite-
rio. El tipo de test también condiciona la prueba concreta que finalmente construyamos. 
También habrá que decidir si finalmente se va a dar a cada evaluado una o más puntua-
ciones, y, en el caso de sólo una, cómo contribuyen a ella las diferentes partes del test. 
Además del propósito y de todo lo expuesto anteriormente, conviene construir la tabla 
de especificaciones, donde se detallan los contenidos del test, las destrezas cognitivas a 
evaluar y el porcentaje de ítems que debe corresponder a cada celdilla que resulta de cru-
zar los contenidos y las destrezas. En evaluación educativa, hay que analizar el programa 
del curso, preguntar a los profesores qué explican y qué tiempo dedican a cada parte, 
hacer una revisión bibliográfica, etc. En selección de personal, se han propuesto técnicas 
propias, como el análisis de puestos o la técnica de los incidentes críticos, que facilitan la 
especificación de los contenidos y destrezas. 
La Tabla 2.1 (adaptada de la Tabla 9.2 de Schmeiser y Welch, 2006, p. 317) muestra la 
estructura de una tabla de especificaciones de un examen de Asesoramiento Psicológico. 
Incluye dos destrezas: Comprensión (de hechos, razones, relaciones, principios, fórmulas, 
gráficos y detección de errores en los procedimientos y en la práctica) y Aplicación (habi-
lidad para seleccionary aplicar principios y reglas, analizar e interpretar situaciones, ex-
traer conclusiones y diagnosticar necesidades y problemas). 
La tabla muestra que el 42% de las preguntas del test evaluarán la destreza Compren-
sión frente al resto (58%) que evaluará Aplicación. En cuanto a contenidos, hay partes 
menos importantes, como Fundamentos del asesoramiento (un 6% de los contenidos), y 
otras más importantes, como Asesoramiento individual (30%). La tabla debe detallar los 
contenidos de cada parte. Por ejemplo, dentro de la parte de Fundamentos del asesora-
miento, los modelos de asesoramiento representan el 1% del total del test y se va a evaluar 
en ellos exclusivamente la destreza Comprensión. 
26 Medición en Ciencias Sociales y de la Salud 
Tabla 2.1. Ejemplo de tabla de especificaciones 
 Peso del contenido Peso de las destrezas cognitivas 
 Comprensión Aplicación 
Fundamentos del asesoramiento 6% 4% 2% 
Modelos de asesoramiento 1% 1% 0% 
Propósitos y objetivos del asesora-
miento 
2% 1% 1% 
Consideraciones éticas y legales 2% 1% 1% 
El equipo de asesoramiento 1% 1% 0% 
Asesoramiento individual 30% 10% 20% 
… 
Asesoramiento grupal 10% 5% 5% 
… 
Desarrollo de carreras 20% 13% 7% 
… 
Total del test 100% 42% 58% 
 
Hay que detallar también las partes del constructo a evaluar cuando elaboremos un test en 
contextos no educativos. Por ejemplo, si queremos medir Dogmatismo, debemos estable-
cer los diversos componentes o manifestaciones del mismo: dogmatismo ante la política, 
ante la educación de los hijos, ante la religión, en las relaciones familiares, etc. En un test 
de calidad de vida en diabéticos, el test deberá evaluar los determinantes de la calidad de 
vida en la población general (la situación familiar, social, laboral…) y, además, los es-
pecíficos de la población de diabéticos a la que el test va dirigido (tolerancia al tratamien-
to, temor ante la evolución de la enfermedad…). 
 
 
Construcción provisional del test 
 
El siguiente paso para la construcción del test es la elaboración de los ítems. Se suele re-
comendar que al menos se elaboren el doble de ítems de los que se piensa que debiera te-
ner el test. En los apartados sucesivos veremos que algunos ítems serán descartados por 
no satisfacer los controles de calidad. Al haber elaborado más ítems de los necesarios po-
dremos quedarnos con los mejores. Debemos conseguir un conjunto de ítems ante los que 
quepa esperar respuestas distintas de los que tengan alto y bajo nivel en el constructo que 
queremos medir. Si, por ejemplo, pretendemos evaluar la actitud ante la inmigración, un 
ítem podría requerir al evaluado informar de si está o no de acuerdo con la frase: La inmi-
gración trae más ventajas que inconvenientes. Cabe esperar que las personas con actitud 
positiva estén de acuerdo y las personas con actitud negativa, en desacuerdo. Si queremos 
medir el dominio de las ecuaciones de primer grado, podríamos proponer como ítem el si-
guiente: Obtenga el valor de x en la ecuación 2x – 4 = 2. Los que dominen dichas ecua-
ciones encontrarán la solución correcta y los que no, no. El rendimiento en ambos ítems 
depende del nivel de dominio del constructo que se quiere evaluar. 
 
 
Capítulo 2. Construcción de tests y análisis de ítems 27 
Tipos y formatos de ítems 
 
Como hemos visto, podemos hablar de tests de rendimiento óptimo y de rendimiento típi-
co. En uno de rendimiento óptimo quien responde pretende obtener la máxima puntuación 
posible. Así ocurre ante un examen, una prueba de aptitudes, un test de inteligencia, etc. 
En un test de rendimiento típico quien responde debe hacerlo de forma que su puntuación 
informe de cómo es o de su posición personal sobre lo que se pregunta. En este caso, no 
tiene sentido hablar de rendimiento máximo. Los tests de rendimiento óptimo y típico di-
fieren en las siguientes 3 características: 
 
1. El tiempo de administración del test. En los tests de rendimiento óptimo, hay que de-
terminarlo con mucho cuidado. Vimos en el capítulo precedente que se distingue entre 
tests de velocidad y de potencia. En los primeros se fija el tiempo de administración de 
forma que sea muy difícil resolver todos los ítems. Con frecuencia la tarea es muy sen-
cilla (por ejemplo, sumas de un solo dígito) y se trata de ver cuántas sumas es capaz de 
hacer cada persona en el tiempo disponible. En los tests de potencia, por el contrario, se 
suele dar tiempo suficiente para que sea posible dar una respuesta meditada a cada 
ítem. En los de velocidad, lo que importa es saber cuántos ítems es capaz de hacer el 
evaluado; mientras que en los de potencia se presta especial atención a las característi-
cas de los ítems que hace. En la práctica, la mayoría de los tests de rendimiento óptimo 
son de potencia, si bien se fija el tiempo de administración de modo que no sobre de-
masiado. Eso hace que el test pueda resultar parcialmente de velocidad para los evalua-
dos más lentos. Para considerar a una prueba como un test de potencia suele establecer-
se que una clara mayoría haya podido dar una respuesta meditada a un 90% o más de 
los ítems (Schmeiser y Welch, 2006). 
En los tests de rendimiento típico el tiempo de aplicación tiene escasa o nula relevan-
cia. Muchos tests de personalidad, por ejemplo, no tienen un tiempo límite de aplica-
ción y se permite que cada evaluado responda a su ritmo. Se dan a veces instrucciones 
del tipo “responda sin pensar demasiado” con la idea de obtener la primera respuesta a 
los ítems, no para indicar que el tiempo de administración es limitado. 
2. Tratamiento de las preguntas dejadas sin contestar. En un test de rendimiento óptimo, 
cuando no se responde a un ítem, caben dos posibilidades. Puede ser un ítem que el 
evaluado no ha tenido tiempo de leer (en lo sucesivo, ítem no alcanzado) o puede que 
no haya querido dar la respuesta tras haberlo leído (omisión). Si el test es (puro) de ve-
locidad, cabe suponer que los ítems sin respuesta son ítems no alcanzados. Si fuese 
(puro) de potencia, cabe suponer que ha tenido tiempo suficiente para estudiar todos los 
ítems y que ha omitido deliberadamente la respuesta, y son, por tanto, omisiones. Por 
lo general, como no suele haber tests puros, lo que se suele hacer es considerar como 
ítems no alcanzados por un evaluado los que siguen a su última respuesta, y como omi-
siones los no respondidos que preceden a su última respuesta. Tal proceder no está 
exento de cierta lógica, pero choca con las estrategias de respuestas de algunos evalua-
dos. Por ejemplo, ciertas personas hacen una lectura rápida del test y responden a los 
ítems que les resultan fáciles. Después, pasan a responder, uno a uno, despacio, hasta 
donde lleguen. Con esta estrategia, los ítems dejados sin responder, previos al último 
ítem respondido en la primera pasada rápida, van a ser considerados como omisiones 
cuando han podido no ser vistos detenidamente (Schmeiser y Welch, 2006). 
28 Medición en Ciencias Sociales y de la Salud 
En los tests de rendimiento típico las no respuestas tienen otro significado. Suelen indi-
car que el ítem no se entiende o hay desinterés y falta de motivación en el evaluado. 
Algunos tests dan pautas sobre qué hacer con las no respuestas. Por ejemplo, en el test 
de los cinco grandes factores de la personalidad NEO-FFI (Costa y McCrae, 1999) se 
recomienda la no calificación de quien tenga más de 10 ítems sin respuesta en los 60 
ítems del test, y se dan pautas concretas de cómo puntuar los ítems dejados sin respues-
ta cuando son menos de 10. 
3. Respuestas al azar y sesgos de respuesta. En los tests de rendimiento óptimo con ítems 
de opción múltiple (en los que se ha de elegir una respuesta entre varias) es posible ob-
tener aciertos, respondiendo al azar, no sabiendo la respuesta correcta. Al final del 
capítulo estudiaremos distintas estrategias y soluciones a este problema. En los tests de 
rendimiento típico no caben las respuestas al azar si se está respondiendo al test conse-
riedad, pero sí podemos encontrar sesgos de respuesta, como la tendencia a utilizar las 
categorías extremas, la aquiescencia y la deseabilidad social (Guilford, 1954). En los 
ítems en los que el evaluado ha de emitir su respuesta eligiendo una categoría, nos po-
demos encontrar que dos evaluados, de nivel similar de rasgo, difieran en su tendencia 
al uso de las categorías extremas; uno podría utilizarlas en casi todas sus respuestas, 
mientras que otro podría no utilizarlas apenas. La aquiescencia es la tendencia a res-
ponder afirmativa o negativamente a un ítem independientemente de su contenido. Para 
evitar este sesgo de respuesta resulta eficaz la redacción de ítems directos e inversos; 
en los primeros, se espera una respuesta afirmativa de los que tengan alto nivel de ras-
go, mientras que en los segundos se espera negativa. El problema de la deseabilidad 
social y del falseamiento de las respuestas en los tests, dada su importancia en determi-
nados contextos de evaluación psicológica, se considera con detalle en el capítulo 15 de 
este libro. 
 
 
Formatos de ítems en tests de rendimiento óptimo1 
 
En los tests de rendimiento óptimo pueden elaborarse preguntas abiertas (formato de res-
puesta construida) o preguntas con opciones preestablecidas (formato de respuesta selec-
cionada). Los dos formatos más comunes de los ítems con respuesta seleccionada son los 
ítems de verdadero-falso y los de opción múltiple. 
 
a) Verdadero-falso: Se muestran dos alternativas y se ha de elegir la que se considera co-
rrecta. Por ejemplo, un ítem de un test de Historia Moderna podría ser: 
 
 Pi y Margall fue presidente de la 1ª República Española. 
V( ) F( ) 
 
 
1
 En este capítulo expondremos los tipos de ítems de respuesta de uso más frecuente, tanto en tests de rendi-
miento óptimo como típico. Sin embargo, conviene advertir que en los últimos años han surgido formatos inno-
vadores de ítems, por ejemplo los que utilizan las posibilidades del ordenador, y que permiten evaluar construc-
tos que los ítems tradicionales de lápiz y papel no pueden evaluar o no lo hacen con la misma eficacia (Olea, 
Abad y Barrada, 2010). En el capítulo 15 se mostrarán ejemplos de estos nuevos formatos. 
 
Capítulo 2. Construcción de tests y análisis de ítems 29 
b) Opción múltiple. Un ítem de opción múltiple consta de un enunciado y de tres o más 
opciones de respuesta, de las que sólo una es correcta. Por ejemplo, un ítem de un test de 
aptitud verbal puede ser: 
 
Coche es a volante, como bicicleta es a... 
a) Pedal 
b) Sillín 
c) Manillar 
d) Cambio 
 
Hay también varios tipos de ítems de respuesta construida (Navas, 2001). Los hay que re-
quieren sólo completar una frase (Las provincias que integran la Comunidad Autónoma 
de Extremadura son…..); otros requieren una respuesta más extensa, aunque breve, como 
responder en un párrafo de pocas líneas; o mucho más extensa, como hacer una redacción 
o construir una maqueta. Un ítem que requiere una respuesta corta sería Exponga en no 
más de 10 líneas las dos principales características de la pintura de Goya, y una extensa 
Detalle la influencia de los escritores latinoamericanos en la novela española del siglo 
XX. Otro tipo de examen abierto es el portafolio, en el que el evaluado presenta a evaluar 
un conjunto de trabajos que ha realizado y que considera buenos ejemplos del nivel de 
aprendizaje que ha alcanzado. 
En las décadas 80-90 hubo mucho debate en contextos de evaluación educativa sobre 
si eran mejor los ítems de respuesta construida o seleccionada. Los partidarios de la res-
puesta construida decían que sólo este formato permite la evaluación de procesos superio-
res y que la respuesta seleccionada tiene el problema de los aciertos por azar. Los partida-
rios de la respuesta seleccionada enfatizaban que este formato muestrea mejor los conte-
nidos, pues pueden hacerse más preguntas, y que la corrección es subjetiva y más costosa 
en los ítems de respuesta construida. Estudios posteriores han puesto de manifiesto que las 
respuestas a los ítems abiertos se pueden cuantificar de forma fiable, que con ambos tipos 
de ítems se puede evaluar procesos de aprendizaje de alto nivel y que ambos formatos 
proporcionan resultados altamente correlacionados cuando se mide el mismo dominio. 
Algunos autores enfatizan que no resultan formatos redundantes, pues se suelen medir 
destrezas distintas (Schmeiser y Welch, 2006). Por tanto, ambos tipos de ítems más que 
ser excluyentes son complementarios; unos son más apropiados que otros según sean los 
objetivos concretos del test (Martínez, Moreno y Muñiz, 2005). 
Una exposición más detallada de otros formatos alternativos para ítems de respuesta 
construida y para ítems de respuesta seleccionada puede consultarse en la página web 
http://www.uam.es/docencia/ace/ y en Martínez et al. (2005). 
 
 
Formatos de ítems en tests de rendimiento típico 
 
Los formatos de respuesta seleccionada más frecuentes en los tests de rendimiento típico 
son los de opción binaria y categorías ordenadas: 
 
a) Opción binaria: La persona debe elegir entre dos opciones antagónicas: por ejemplo, 
ante un determinado enunciado, manifestar si está de acuerdo o no, o decir si describe su 
30 Medición en Ciencias Sociales y de la Salud 
modo usual de comportarse. Un ítem de un cuestionario sobre la actitud de los padres 
hacia los profesores de sus hijos puede ser: 
 
En realidad, los profesores hacen poco más que cuidar de nuestros hijos cuando trabajamos. 
Desacuerdo ( ) Acuerdo ( ) 
 
b) Categorías ordenadas. Se establece un continuo ordinal de más de dos categorías, que 
permite a la persona matizar mejor su respuesta. Puede o no incluir una categoría central 
para indicar la posición intermedia de la escala de respuesta. Por ejemplo, un ítem sobre la 
actitud de los adolescentes hacia el consumo de drogas podría ser el que sigue: 
 
Las drogas pueden realmente resolver problemas de uno mismo. 
( ) Muy en desacuerdo 
( ) Bastante en desacuerdo 
( ) Neutral 
( ) Bastante de acuerdo 
( ) Muy de acuerdo 
 
En el ítem precedente Muy en desacuerdo, Bastante en desacuerdo… serían las etiquetas 
de las cinco categorías. A veces, se establecen sólo las dos etiquetas extremas del conti-
nuo, dejando señaladas las restantes categorías, como muestra la siguiente escala de res-
puesta: 
 
(Muy en desacuerdo)__ __ __ __ __ __ __ (Muy de acuerdo) 
 
Hay varios tipos de escalas de respuestas (Morales, Urosa y Blanco, 2003). Las más co-
munes son la de grado de acuerdo y la de frecuencia. En la primera, llamada también es-
cala tipo Likert, se ha de manifestar el grado de acuerdo con la frase, mientras que en la 
segunda se ha de indicar la frecuencia del comportamiento descrito en el enunciado. En 
otras escalas de respuesta se ha de indicar la importancia que se da a lo que indica la frase 
o cómo de correcta es la descripción que la frase hace de quien responde. Los dos ítems 
que siguen utilizan la escala de grado de acuerdo y la de frecuencia, respectivamente. 
 
Me encanta Madrid. 
En desacuerdo 
Indiferente 
De acuerdo 
 
Cuido mi alimentación. 
Nunca 
Algunas veces 
Muchas veces 
Siempre 
 
Tres asuntos relevantes en relación a los ítems tipo Likert son el número de categorías de 
la escala de respuesta, la presencia o no de categoría central y la elección de las etiquetas. 
 Se suele recomendar que el número de categorías sea 5 o un valor próximo (Hernán-
dez, Muñiz y García-Cueto, 2000; Morales et al., 2003). No se obtienen mejores tests 
cuando se utilizan escalas de respuestas con muchas más categorías, pues se producen in-
Capítulo 2. Construcción de tests y análisis de ítems 31 
consistencias en las respuestas. La probabilidad de que una persona elija la misma cate-
goría ante una misma frase, supuesto que no haya cambiado su nivel de rasgo, será mayor 
si ha de responder con una escala de 5 categorías que con una de20, de ahí que, cuando 
son muchas las categorías disponibles, se incremente la inconsistencia. Con sólo dos o tres 
categorías se puede dificultar la manifestación del auténtico nivel de rasgo. Por ejemplo, 
dos personas, una que esté muy de acuerdo y otra que esté sólo de acuerdo, tendrán que 
utilizar la misma categoría si la escala es En desacuerdo/No sé/ De acuerdo. En poblacio-
nes especiales, como discapacitados o personas mayores, puede resultar más adecuada una 
escala de pocas categorías. 
 En las escalas de grado de acuerdo, no está del todo claro si es mejor fijar un número 
par o impar de categorías. Hay razones a favor y en contra de la categoría central (que 
puede etiquetarse como indiferente, neutral, dudo, no sé…). Su inclusión permite que al-
guien que realmente no está de acuerdo ni en desacuerdo con la frase pueda indicarlo. En 
un ítem sin categoría central tendría que manifestarse como ligeramente de acuerdo o en 
desacuerdo, cuando su posición ante el enunciado no es ésa. Los partidarios de eliminar la 
categoría central argumentan que con demasiada frecuencia dicha categoría termina sien-
do la elegida por los que responden con poco cuidado o de forma poco sincera. Los parti-
darios de un número par de categorías suelen serlo también de un número más alto de ca-
tegorías, de forma que se pueda entender que el ítem tiene en realidad dos categorías cen-
trales (ligeramente de acuerdo y ligeramente en desacuerdo). La investigación muestra 
que los indicadores psicométricos de los ítems no dependen de la existencia o no de cate-
goría central cuando el número de categorías es mayor de tres (Morales et al., 2003). 
 Por último, se han propuesto muchas tandas de etiquetas. Morales et al. (2003, pp. 55-
58) muestran varias. Las etiquetas han de abarcar todo el continuo (de acuerdo-
desacuerdo, frecuencia, importancia…) y además se ha de procurar que el salto en el con-
tinuo entre cada dos etiquetas consecutivas sea de similar cuantía. La escala de respuesta 
Muy en desacuerdo/En desacuerdo/Indeciso incumpliría la primera exigencia, pues las 
personas que estén de acuerdo no tienen una categoría que les permita indicarlo. El ítem 
que sigue incumple la segunda exigencia, pues la distancia en el continuo entre las dos 
primeras categorías es menor que la que hay entre la segunda y tercera. 
 
La Educación está en crisis. 
Muy en desacuerdo 
En desacuerdo 
De acuerdo 
Muy de acuerdo 
 
 
Redacción de ítems de opción múltiple 
 
Se han propuesto conjuntos de recomendaciones para la correcta redacción de los ítems de 
opción múltiple. Se basan a veces, aunque no siempre, en estudios empíricos en los que se 
ha comprobado que su incumplimiento genera ítems de peor calidad. Haladyna, Downing 
y Rodríguez (2002) han propuesto 31 recomendaciones. Moreno, Martínez y Muñiz 
(2004) las han reelaborado y proponen las siguientes 12, clasificadas en 3 apartados, que 
reproducimos a continuación con ligeros cambios: 
 
32 Medición en Ciencias Sociales y de la Salud 
A. Elección del contenido que se desea evaluar. 
 
1. Cada ítem debe evaluar el contenido de una celdilla de la tabla de especificaciones, 
lo que garantiza que el test muestreará bien todo el contenido a evaluar. Hay que evi-
tar los ítems triviales. 
2. El ítem deberá ser sencillo o complejo, concreto o abstracto, memorístico o de razo-
namiento en función de las destrezas y contenidos que deba evaluar. 
Las dos primeras recomendaciones indican que la creación de los ítems ha de ceñirse a 
lo estudiado en el primer apartado sobre diseño del test y, en particular, a lo establecido 
en la tabla de especificaciones. 
 
B. Expresión del contenido en el ítem. 
 
3. Lo central debe expresarse en el enunciado. Cada opción es un complemento que 
debe concordar gramaticalmente con el enunciado, pues la opción que no concuerda 
suele ser incorrecta. 
4. La sintaxis o estructura gramatical debe ser correcta. Conviene evitar ítems dema-
siado escuetos o profusos, ambiguos o confusos. Conviene cuidar especialmente las 
expresiones negativas para evitar que puedan ser interpretadas incorrectamente. 
5. La semántica debe estar ajustada al contenido y a la comprensión lingüística de las 
personas evaluadas. Si no es así, las respuestas al ítem dependerán del constructo que 
se pretende medir, como se pretende, pero también de la comprensión lingüística de los 
evaluados, que no se pretende. 
 
C. Construcción de las opciones. 
 
6. La opción correcta debe ser sólo una y debe ir acompañada por distractores plausi-
bles. Si las opciones incorrectas no son plausibles, no sabremos cuántas opciones del 
ítem están actuando como auténticos distractores. 
7. La opción correcta debe estar repartida entre las distintas ubicaciones, evitando la 
tendencia natural a ubicar la opción correcta en las posiciones centrales (Attali y Bar-
Hillel, 2003). 
8. Las opciones deben ser preferiblemente tres. Se han realizado trabajos que prueban 
que no suelen resultar mejores los ítems de 4 ó 5 opciones que los de 3 (p. ej., Abad, 
Olea y Ponsoda, 2001). Lo serían si la cuarta, quinta… opción fuesen de la misma cali-
dad que las tres primeras, lo que no es frecuente. Por tanto, suele resultar más apropia-
do, por ejemplo, un test de 80 ítems de 3 opciones que uno de 40 ítems de 6 opciones, a 
pesar de que el tiempo dedicado al procesamiento de los ítems sea parecido en ambos 
casos. 
9. Las opciones deben presentarse usualmente en vertical. Cuando se presentan en 
horizontal, una tras otra, es más fácil que alguna no se entienda correctamente. 
10. El conjunto de opciones de cada ítem debe aparecer estructurado. Por ejemplo, si 
las opciones fuesen valores numéricos, se recomienda que aparezcan ordenados. La or-
denación facilita la correcta comprensión del ítem. 
Capítulo 2. Construcción de tests y análisis de ítems 33 
11. Las opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. 
Por ello, deben evitarse las opciones “Todas las anteriores” y “Ninguna de las ante-
riores”. A veces se redactan dos opciones de forma que necesariamente una de las dos 
es correcta, de lo que se puede inferir que las restantes son incorrectas. 
12. Ninguna opción debe destacar del resto ni en contenido ni en apariencia. Cuando 
una opción destaca en contenido o apariencia suele dar pistas sobre si es o no correcta. 
No es infrecuente encontrarse en un ítem varias opciones poco elaboradas y muy bre-
ves, que son incorrectas, y una más elaborada, más extensa, que es la correcta. 
 
Hemos revisado (García, Ponsoda, Sierra, 2009) más de 50 exámenes de opción múltiple 
con los que se evalúa en la universidad y hemos comprobado que se suelen incumplir al-
gunas de las recomendaciones expuestas. De hecho, hemos encontrado: 
 
− Ítems con ninguna o más de una solución correcta. 
− Ítems con demasiado texto. Con el loable propósito de que el estudiante vea el interés e 
importancia de lo que se pregunta, muchas veces se redactan ítems con mucho más tex-
to del necesario, lo que puede dificultar su comprensión. 
− Ítems que dan pistas de la solución correcta. A veces, la pista resulta de la falta de con-
cordancia gramatical entre el enunciado y alguna opción. Otras veces, una opción es 
mucho más larga y está más elaborada que las demás. En otras ocasiones se ofrecen 
dos opciones que agotan las posibles respuestas. A veces se proponen ítems que apare-
cen resueltos en otros ítems del mismo test. En estas situaciones, el rendimiento en el 
ítem no depende sólo del nivel de conocimiento, como debiera ser, sino de la capacidad 
del estudiante para captar estas pistas. 
− Presencia de opciones del tipo “Ninguna de las anteriores” y “Todas las anteriores”. 
Muchas veces, por la necesidad de redactar el número de opciones preestablecido, se 
termina incluyendo una opción de este tipo, seguramente porque requiere menos es-
fuerzo que elaborar una opción plausible nueva. 
− Opciones incorrectas (o distractores) poco plausibles. Las opcionesincorrectas poco 
plausibles son poco elegidas y tenemos entonces la duda de cuántas opciones realmente 
funcionales tiene el ítem. Las opciones incorrectas no deberían descartarse utilizando 
sólo el sentido común. Las alternativas no ciertas deben ser elegidas entre los errores o 
confusiones que usualmente tienen las personas que no conocen la respuesta correcta a 
la pregunta. Otra posible estrategia para generar buenos distractores sería el uso de al-
ternativas de respuesta que son verdaderas para otras preguntas, pero que son inciertas 
para el enunciado al que se asocian. 
 
 
Redacción de ítems de categorías ordenadas 
 
Respecto a la manera de formular las cuestiones en los tests de rendimiento típico, se han 
propuesto algunas recomendaciones que pueden ayudar a su correcta redacción: 
 
 
 
 
34 Medición en Ciencias Sociales y de la Salud 
1. Utilizar el tiempo presente. 
2. Deben ser relevantes, en el sentido de que su contenido debe relacionarse claramente 
con el rasgo. Hay que redactar frases ante las que darían respuestas distintas los que 
tengan alto y bajo nivel en el rasgo que se pretenda evaluar. 
3. Se debe cuidar que el contenido sea claro y evitar una excesiva generalidad. Resultan 
mejor los ítems formados por frases cortas, simples e inteligibles. Hay que evitar in-
cluir dos contenidos en un ítem. 
4. Para minimizar la aquiescencia conviene redactar ítems de modo directo e inverso. 
5. Conviene evitar el uso de negaciones, pues dificultan la comprensión de la frase, y de 
universales (todo, siempre, nunca...), pues llevan a casi todos los evaluados a elegir la 
misma categoría de respuesta. Algunas escalas de Sinceridad utilizan precisamente es-
tos universales para detectar el falseamiento de respuestas. Un enunciado de un posible 
ítem de una escala de Sinceridad sería Nunca me ha apetecido hacer algo prohibido, 
precisamente con la idea de que los evaluados que respondan sin falsear se habrán de 
manifestar en desacuerdo con el enunciado. 
 
Se recomienda generar tantos ítems directos como inversos. Lo preferible es que los ítems 
inversos no lleven negaciones. En un ítem para medir el interés por el estudio, la frase 
“Me gusta estudiar” daría lugar a un ítem directo, y las frases “No me gusta estudiar” y 
“Me aburre estudiar” darían lugar a ítems inversos. La última sería preferible a la penúl-
tima pues evita la negación. La presencia de ítems directos e inversos en un test tiene en 
ocasiones más trascendencia psicométrica de la que aparentemente cabría esperar. Se ha 
encontrado que la presencia de ítems directos e inversos termina afectando a la estructura 
interna del test, es decir, a las dimensiones que se miden. Por ejemplo, Tomás y Oliver 
(1999) comprueban que esto ocurre en el test de Autoestima de Rosenberg. De ahí que 
haya instrumentos que sólo contienen ítems directos. 
 Un error que suelen cometer los que tienen poca experiencia en la redacción de ítems 
es la introducción en la frase de más de un contenido. Por ejemplo, en un ítem hay que 
manifestarse de acuerdo o en desacuerdo ante el siguiente enunciado “Pienso que es bue-
no premiar a los hijos cuando se portan bien y que da mejor resultado que castigarlos 
cuando hacen algo mal”. La frase en realidad contiene dos afirmaciones y la respuesta 
dada a la frase original puede referirse a la primera, a la segunda o a ambas. 
 Otro error frecuente en la redacción de estos ítems es el uso inadecuado de la escala de 
respuesta. Por ejemplo, el ítem que sigue estaría mejor redactado con una escala de fre-
cuencia que de grado de acuerdo, como se muestra en la redacción alternativa. 
 
Juego al tenis al menos una vez por semana. 
Muy en desacuerdo ( ) 
En desacuerdo ( ) 
Indeciso ( ) 
De acuerdo ( ) 
Muy de acuerdo ( ) 
 
 
 
 
 
Capítulo 2. Construcción de tests y análisis de ítems 35 
Redacción alternativa: 
 
Indique cuántas veces a la semana, en promedio, juega al tenis. 
Ninguna ( ) 
Una ( ) 
Dos ( ) 
Tres o cuatro ( ) 
Cinco o más ( ) 
 
 
Revisión de los ítems 
 
Una vez elaborados los ítems, resulta muy conveniente que algún experto en el contenido 
de la prueba y en construcción de tests los revise. Si no es posible recurrir a algún experto, 
no es mala idea, como sugiere Navas (2001), que sea el mismo redactor de ítems quien 
haga la revisión, dejando pasar algunos días entre la creación del ítem y su revisión. 
 Hay que comprobar que cada ítem evalúa los contenidos y destrezas que le correspon-
den, de acuerdo con la tabla de especificaciones. Se ha de comprobar que no es ambiguo, 
que gramaticalmente está bien redactado, que el lenguaje no resulta ofensivo y, en los 
ítems de opción múltiple, que la opción correcta lo es realmente y que todos los distracto-
res son incorrectos. En realidad, se ha de comprobar que cada ítem cumple las recomen-
daciones que acabamos de ver. 
 Como vemos, los tests requieren un proceso sistemático de elaboración y una adminis-
tración controlada. Esto significa, por ejemplo, que una persona deberá obtener la misma 
puntuación en un test de Responsabilidad independientemente del evaluador que se lo 
aplique. Con otros métodos de evaluación la puntuación obtenida puede depender más del 
evaluador. Por ejemplo, distintos psicólogos clínicos pueden llegar a una conclusión dife-
rente respecto de la personalidad de un evaluado tras una entrevista clínica. 
Un punto fuerte de los tests es que permiten evaluar a las personas, por ejemplo, úni-
camente por sus habilidades, conocimientos, competencias o capacidades; es decir, por 
sus méritos o cualidades y con escasa participación de la subjetividad del evaluador. Sien-
do esto importante, es si cabe más importante que los tests sean justos. Es decir, deben dar 
al evaluado la puntuación que corresponde a su nivel en el constructo, sea cual sea su 
edad, género, discapacidad, raza, grupo étnico, nacionalidad, religión, orientación sexual, 
lengua y otras características personales. Los expertos deben analizar cada ítem para de-
terminar que cumple lo anterior. En un ejercicio de acceso a la universidad se preguntó 
por el significado de pucelana (natural de Valladolid). Hicieron mejor el ejercicio los se-
guidores de las crónicas deportivas que los que sabían más Lengua. La revisión mediante 
expertos hubiese podido detectar que el ítem no era apropiado pues medía, además del co-
nocimiento en Lengua, interés por el fútbol y por tanto resultaba injusto con los estudian-
tes que no eran aficionados al citado deporte. Existen procedimientos psicométricos para 
estudiar lo que se denomina como Funcionamiento Diferencial, que ayudan a determinar 
si los ítems y tests son o no justos. Los describiremos en el capítulo 13. 
 
 
36 Medición en Ciencias Sociales y de la Salud 
Cuantificación de las respuestas 
 
Una vez decidido el tipo de ítem y el formato de respuesta que se consideran más apropia-
dos, y de cara al estudio psicométrico de la prueba, es preciso decidir la manera de cuanti-
ficar las posibles respuestas a los ítems. 
 
 
Tests de rendimiento óptimo 
 
En general, los ítems de respuesta seleccionada en tests de rendimiento óptimo se cuanti-
ficarán con 1, el acierto, y con 0, el error. Se dice que un ítem es dicotómico cuando puede 
tomar sólo dos valores. La puntuación (directa) de un evaluado en el test, Xi, será la suma 
de las puntuaciones en los J ítems, e indicará su número de aciertos. 
 
∑
=
=
J
j
iji XX
1 
 [2.1] 
 
Para la cuantificación de los ítems de respuesta construida breve se recomienda hacer una 
lista de respuestas aceptables y otra de no aceptables y puntuar con 1 ó 0, respectivamen-
te. Se pueden hacer más de dos listas. Si se hicieran 4, una podría contener las respuestas 
muy buenas; otra, las buenas; una tercera, las regulares; y una cuarta, las respuestas inco-
rrectas. Cada ítem sería cuantificado como 3, 2, 1 ó 0, respectivamente. Los ítems que 
admiten un número prefijado (mayor de 2) de posibles valores al ser cuantificadosse lla-
man ítems politómicos. En este ejemplo, estaríamos ante ítems politómicos que pueden 
tomar cuatro valores. 
 En los ítems de respuesta construida extensa, conviene aplicar rúbricas (criterios de-
finidos de corrección) para obtener una cuantificación adecuada. Las hay analíticas y 
holísticas. En las rúbricas analíticas se detallan los distintos elementos que hay que valo-
rar en la respuesta, indicando cómo debe ser la respuesta que merezca cada una de las po-
sibles cuantificaciones. Por ejemplo, en la evaluación de una redacción2 se puede conside-
rar que los elementos a evaluar son a) las ideas y el contenido, b) la organización, c) la 
fluidez y d) la corrección gramatical. Ante cada elemento, la rúbrica detallaría el rendi-
miento al que correspondería cada posible puntuación. Ante el elemento “ideas y conteni-
do”, la peor calificación correspondería a redacciones que carezcan de idea central o que 
fuercen al lector a inferir la idea a partir de detalles sueltos. La máxima puntuación co-
rrespondería a una redacción clara, interesante y que aborde nítidamente el asunto central, 
que capture la atención de lector y que proporcione anécdotas enriquecedoras. La puntua-
ción del estudiante en la redacción sería la suma de sus puntuaciones en las cuatro partes 
que forman la rúbrica. En las rúbricas holísticas no se establecen los distintos elementos a 
evaluar, sino que se evalúa el ítem como un todo. Una buena rúbrica debe proporcionar 
puntuaciones muy similares al mismo ejercicio cuando es aplicada correctamente por dos 
evaluadores distintos. Permite que el estudiante sea evaluado en forma objetiva y consis-
 
2
 Tomado y adaptado de http://web.ccsd.k12.wy.us/RBA/LA/SecSoph.html 
Capítulo 2. Construcción de tests y análisis de ítems 37 
tente. Al mismo tiempo, permite al profesor especificar claramente qué espera del estu-
diante y cuáles son los criterios con los que va a calificar cada respuesta. Livingston 
(2009) expone las ventajas e inconvenientes de los distintos tipos de rúbricas. 
Sea cual sea el tipo de ítem de respuesta construida, la puntuación en el test se obtiene 
también aplicando la ecuación [2.1], es decir, sumando las puntuaciones obtenidas en los 
diferentes ítems. 
 
 
Tests de rendimiento típico 
 
La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere cier-
tos matices. Dado un formato de respuesta determinado, es necesario cuantificar las posi-
bles respuestas a un ítem teniendo en cuenta si es un ítem directo o inverso. 
 Por ejemplo, en un ítem con formato de respuesta de opción binaria (acuer-
do/desacuerdo), cuantificaremos el acuerdo con 2 si el ítem está planteado para medir de 
manera directa el constructo de interés. Lo cuantificaremos con 1, si está redactado de 
manera inversa. Se muestran 2 ítems de un cuestionario de actitud ante al aborto volunta-
rio: 
 
Abortar es matar. 
En desacuerdo ( ) De acuerdo ( ) 
 
 La madre es la dueña de su cuerpo en asuntos de aborto. 
En desacuerdo ( ) De acuerdo ( ) 
 
En el primero, que es inverso, la respuesta “De acuerdo” se puntuaría con 1 y “En des-
acuerdo” con 2; ya que estar en desacuerdo con esa afirmación indica una actitud más po-
sitiva hacia el aborto voluntario. En el segundo ítem, que es directo, “De acuerdo” se 
puntuaría con 2 y “En desacuerdo” con 1; ya que estar de acuerdo con esa afirmación in-
dica una actitud más positiva hacia el aborto voluntario. 
 Si el formato de respuesta es de K categorías ordenadas, las diversas categorías se 
cuantificarán normalmente desde 1 hasta K, teniendo en consideración si el ítem es directo 
o inverso. Por ejemplo, en ítems de 5 categorías, las dos posibles cuantificaciones serán: 1 
(Muy en desacuerdo), 2… 5 (Muy de acuerdo), en un ítem directo; y 5 (Muy en desacuer-
do), 4… 1 (Muy de acuerdo), en un ítem inverso. El ítem podría también cuantificarse uti-
lizando otras tandas de valores (por ejemplo, 0, 1, 2, 3 y 4, ó –2, –1, 0, 1 y 2). En realidad 
cualquier tanda de cinco valores enteros consecutivos es apropiada y proporciona los 
mismos resultados psicométricos. Además, la cuantificación de un ítem de opción binaria 
no ha de ser necesariamente 1 y 2 (podría ser, por ejemplo, 0 y 1). La puntuación de un 
evaluado en el test se obtiene sumando sus puntuaciones en los ítems (ecuación [2.1]). 
 
 Ejemplo 2.1. Cuantificación de ítems de categorías ordenadas 
 
La Tabla 2.2 muestra dos ítems de un test de Calidad de vida, con tres categorías. Se indi-
ca la cuantificación apropiada de cada categoría según sea el ítem directo o inverso. El 
primer ítem es directo y el segundo, inverso. 
38 Medición en Ciencias Sociales y de la Salud 
 
Tabla 2.2. Cuantificación de dos ítems de categorías ordenadas 
 En desacuerdo Indeciso De acuerdo 
Me siento apoyado por mi familia 1 2 3 
Mi vida carece de sentido 3 2 1 
 
 
 
Análisis de ítems 
 
Con análisis de ítems3 nos referimos a los procedimientos dirigidos a extraer información 
sobre su calidad. Estudiaremos procedimientos que permiten seleccionar los ítems más 
apropiados a los objetivos específicos del test. Después del proceso de análisis de ítems se 
podrán determinar los ítems que formarán parte del test definitivo, o construir la versión 
breve o reducida de un instrumento ya en uso. En cualquier caso, vamos a obtener indica-
dores que no deben interpretarse de forma automática, sino inteligentemente, atendiendo 
al objetivo específico del test. En contextos de evaluación educativa, por ejemplo, el aná-
lisis de ítems permite ir mejorando las preguntas con las que evaluamos y el examen en su 
conjunto, y nos puede informar sobre qué han aprendido o aprendido mal los estudiantes 
(Morales, 2009). 
 Downing y Haladyna (1997) distinguen entre el análisis cualitativo de ítems y el aná-
lisis cuantitativo. El primero precede a la aplicación del test y requiere comprobar, por lo 
general mediante expertos, que se han realizado adecuadamente las actividades comenta-
das en los apartados previos. Aplicado el test, se recomienda hacer el análisis cuantitativo. 
Cuando hablamos de análisis de ítems sin más, nos referimos a este último. Requiere la 
obtención para cada ítem de diversos indicadores, que pueden encuadrarse en tres catego-
rías: los de dificultad, los de discriminación y el de validez. 
 Tras aplicar el test provisional a una muestra de evaluados representativa de la pobla-
ción a la que va dirigida la prueba (se aconseja al menos entre 5 y 10 veces más evalua-
dos4 que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una 
matriz de datos de N filas (evaluados) x J columnas (ítems). El elemento Xij de esta matriz 
indica el valor obtenido por el evaluado i en el ítem j. Según la ecuación [2.1], sumando 
 
3 Tanto la TCT como la TRI proporcionan indicadores de las características psicométricas de los ítems. En este 
tema estudiaremos los indicadores que aporta la TCT. Los que aporta la TRI se verán al estudiar esta teoría. Un 
segundo comentario tiene que ver con la ubicación en el libro de este apartado. El análisis de ítems se ocupa del 
estudio de los ingredientes básicos de los tests. La calidad del todo (el test) depende, como cabe esperar, de la 
calidad de las partes (los ítems). Es, entonces, inevitable, que en el estudio de los ítems aparezcan conceptos de 
la calidad del test que estudiaremos en capítulos sucesivos. Por esta razón, en la mayoría de los manuales el aná-
lisis de los ítems más bien cierra los libros que los abre. Sin embargo, en el proceso de construcción de un test, el 
análisis de sus ítems precede a la determinación de los ítems que componen el test definitivo. Nuestra experien-
cia docente aconseja exponer a los estudiantes este tema al inicio de la materia y no al final, y siguiendo esta 
lógica hemos preferido mantener esa misma ordenación en el libro. 
4
 Varios ejemplos incumpliránesta recomendación. En este y siguientes capítulos expondremos ejemplos de 
tests con muy pocos ítems y muy pocos evaluados, muchos menos de los que necesitaría un test real. Son ejem-
plos pensados para facilitar la comprensión de lo expuesto, que requieren pocos cálculos y escaso espacio. 
Capítulo 2. Construcción de tests y análisis de ítems 39 
por filas obtendremos las puntuaciones directas (X) de los evaluados en el test. La Tabla 
2.3 muestra los datos obtenidos por cinco evaluados en un test de rendimiento óptimo de 3 
ítems (X1, X2 y X3). La columna más a la derecha muestra la puntuación de cada uno en el 
test (X), que es su número de aciertos si los 1 y 0 de la tabla indican acierto y error en el 
ítem. 
 
Tabla 2.3. Resultados de 5 evaluados en 3 ítems y en el test X 
X1 X2 X3 X 
1 1 0 2 
1 0 0 1 
0 1 1 2 
1 1 0 2 
0 1 1 2 
 
En el caso de un test de rendimiento típico, tendríamos una tabla similar. Los datos de 4 
evaluados en un test de Autoestima, con 5 ítems tipo Likert de 7 alternativas, podrían or-
ganizarse como se muestra en la Tabla 2.4. También en este caso, las puntuaciones en el 
test resultan de sumar las puntuaciones en los 5 ítems. 
 
Tabla 2.4. Resultados de 4 evaluados en 5 ítems y en el test X 
X1 X2 X3 X4 X5 X 
7 5 4 7 6 29 
1 1 3 4 2 11 
4 6 5 4 3 22 
6 6 5 5 7 29 
 
A estas tablas de datos se pueden aplicar los distintos indicadores que informarán de las 
características psicométricas de los ítems. 
 
 
Índice de dificultad 
 
Este indicador sirve para cuantificar el grado de dificultad de cada ítem. Se aplica a los 
ítems dicotómicos de los tests de rendimiento óptimo. El índice de dificultad de un ítem j, 
pj, se define como la proporción de evaluados que ha acertado el ítem. Es el cociente entre 
el número de evaluados que lo han acertado (Aj) y el total de evaluados que lo han respon-
dido (Nj). 
 
N
A
=p
j
j
j
 
[2.2]
 
40 Medición en Ciencias Sociales y de la Salud 
 
 Ejemplo 2.2. Obtención del índice de dificultad 
 
Supongamos que 5 evaluados responden a un test de 3 ítems. En la Tabla 2.5 se muestran 
sus puntuaciones. Nótese que los evaluados 4 y 5 han dejado ítems sin responder.
 
Tabla 2.5. Puntuaciones de 5 evaluados en 3 ítems y en el test X 
Evaluado X1 X2 X3 X 
1 1 1 0 2 
2 1 0 0 1 
3 0 1 1 2 
4 1 - - 1 
5 0 - 1 1 
 
Los índices de dificultad de los tres ítems serán: 
 
60,0
5
3
1
1
1 ===
N
A
p 
 
67,0
3
2
2
2
2 ===
N
A
p 
 
50,0
4
2
3
3
3 ===
N
A
p 
 
 
 
En los tests de opción múltiple es posible obtener aciertos respondiendo al azar. En el 
último apartado veremos los procedimientos que permiten descontar del número de acier-
tos obtenidos por cada evaluado los que presumiblemente se deben a haber respondido al 
azar. Algo similar cabe plantearse en relación al índice de dificultad. En un test en el que 
no haya respuestas al azar tendremos presumiblemente menos aciertos de los que tendría-
mos en ese mismo test si las hubiera habido. Se han propuesto fórmulas que corrigen los 
aciertos debidos a respuestas al azar. El índice de dificultad corregido de un ítem de op-
ción múltiple de K opciones, cjp , se obtiene aplicando la siguiente expresión (Schmeiser y 
Welch, 2006): 
 
1−
−=
K
N
F
pp
j
j
j
c
j
 
[2.3] 
 
Capítulo 2. Construcción de tests y análisis de ítems 41 
Donde pj es el índice de dificultad sin corregir y Fj es el número de personas que fallaron 
el ítem de los Nj que lo respondieron. Si los ítems del test del Ejemplo 2.2 tuviesen 4 op-
ciones, los nuevos índices de dificultad corregidos serían: 
 
47,013,060,0
14
5
2
60,0
1
1
1
11 =−=−
−=
−
−=
K
N
F
ppc 
 
56,011,067,0
14
3
1
67,0
1
2
2
22 =−=−
−=
−
−=
K
N
F
ppc 
 
33,017,050,0
14
4
2
50,0
1
3
3
33 =−=−
−=
−
−=
K
N
F
ppc 
 
Se observa que al aplicar la fórmula correctora los índices disminuyen cuando hay errores. 
Crocker y Algina (1986) recomiendan que la dificultad media de los ítems sea mayor de 
0,5 cuando haya en el test respuestas al azar. Proponen que la dificultad media sea 0,62, 
0,67 y 0,75, si los ítems tienen 4, 3 y 2 opciones, respectivamente. Aplicando a estos valo-
res la fórmula [2.3], con Fj/Nj = 1 – pj, se obtiene que en los tres casos 
c
jp es 0,50. 
 
 
Propiedades del índice de dificultad 
 
1. El valor mínimo que puede asumir p es 0 (cuando nadie acierta el ítem) y el valor 
máximo, 1 (todos los que lo intentan lo aciertan). A medida que p se acerca a 0, el ítem 
ha resultado más difícil; cuanto más se acerca a 1, ha resultado más fácil. Cuando el va-
lor está cerca de 0,5, el ítem tiene una dificultad media, no ha resultado ni fácil ni difí-
cil. En el Ejemplo 2.2 el ítem más fácil es el 2 y el más difícil, el 3. Nótese, por tanto, 
que valores altos en el índice de dificultad, indican mucha facilidad y no mucha dificul-
tad, como se podría esperar. Algunos (p. ej., McAlpine, 2002) prefieren llamar al indi-
cador índice de facilidad, pero no termina de prosperar la propuesta. 
2. El valor de p depende de la muestra. Un ítem aplicado a una muestra muy preparada 
(de alto nivel en el rasgo) será acertado por más evaluados que si es aplicado en una 
muestra poco preparada. Por tratarse del mismo ítem, lo deseable sería que el indicador 
de su dificultad no dependa de la muestra en la que es aplicado, pero el índice p no tie-
ne esta propiedad. El indicador de la dificultad del ítem dentro de la TRI sí proporciona 
valores que no dependen del nivel de la muestra en la que se aplique. 
3. El valor de p se relaciona con la varianza de los ítems: Si p es 0 ó 1, la varianza del 
ítem es cero, pues sólo se han producido en el ítem fallos y aciertos, respectivamente. 
A medida que p se acerca a 0,5, su varianza aumenta. De hecho, la varianza de un ítem 
42 Medición en Ciencias Sociales y de la Salud 
dicotómico puede obtenerse a partir de su índice de dificultad, pues ).1(2 jjj ppS −= 
La máxima varianza de un ítem dicotómico (0,25) se alcanza cuando p = 0,5. 
En un test, en el que la puntuación de la persona i es la suma de los J ítems (ecuación 
[2.1]), su varianza se puede obtener, a partir de las varianzas y covarianzas de los 
ítems, mediante la expresión 
 
∑ ∑∑∑ ∑∑
−
= +==
−
= +==
+=+=
1
1 1'
''
1
2
1
1 1'
'
1
22 22
J
j
J
jj
jjjj
J
j
j
J
j
J
jj
jj
J
j
jX SSrSSSS
 
[2.4] 
 
Es decir, la varianza del test es la suma de las varianzas de los J ítems y la suma de las 
J(J – 1) covarianzas que resultan al formar todos los pares posibles con J ítems. En la 
expresión anterior, se ha sustituido la covarianza (Sjj’) entre cada dos ítems por su valor 
(rjj’ Sj Sj’), teniendo en cuenta la definición de la correlación de Pearson. 
Por tanto, si queremos que el test tenga alta varianza conviene que contenga ítems tam-
bién de alta varianza; es decir, ítems con índices de dificultad próximos a 0,5. 
Al diseñar un test de rendimiento óptimo, se suele recomendar que se sitúen al inicio 
algunos ítems fáciles, por su efecto motivador (Navas, 2001; García-Cueto y Fidalgo, 
2005); en la parte central, los de dificultad media (valores p entre 0,30 y 0,70); y al fi-
nal, los más difíciles. El número de ítems de cada categoría de dificultad que deben in-
cluirse en el test depende de sus objetivos. 
En los tests referidos a norma, de poco sirve un ítem con p = 0 ó 1, ya que no ayudaría 
a establecer diferencias entre los evaluados, pues es un ítem que lo fallarían o acerta-
rían todos los evaluados. En un test referido al criterio, puede tener interés saber si to-
dos los evaluados tienen ciertos conocimientos elementales o muy básicos. Si es así, 
esos ítems tendrán necesariamente altos valores p y tendría sentido su inclusión y man-
tenimiento en el test. 
Por tanto, en general, los mejores ítems son los que aportan más varianza al test y son 
los que tienen valores de p medios. De hecho, algunos programas para el análisis psi-
cométrico de los ítems, como TAP (Brooks y Johanson, 2003), recomiendan el estudiodetenido y eventual descarte de los ítems con valores p mayores de 0,9 y menores de 
0,2. Sin embargo, como hemos señalado, puede tener sentido la inclusión y manteni-
miento de algunos ítems fáciles o muy fáciles en ciertos contextos aplicados, por ejem-
plo en tests referidos al criterio. 
 
 
El índice de dificultad en otros tipos de ítems 
 
Lo visto hasta ahora sobre el índice de dificultad se aplica a ítems dicotómicos de tests de 
rendimiento óptimo. En este escenario se entiende muy bien que la proporción de perso-
nas que aciertan el ítem sea el indicador de su dificultad. El índice p es la media aritmética 
de las puntuaciones conseguidas en el ítem por los N evaluados que lo han respondido. Pa-
ra el caso de ítems no dicotómicos de tests de rendimiento óptimo, la media en el ítem de 
los evaluados que han respondido sería también el indicador de su dificultad. Supongamos 
que la rúbrica para corregir un ítem de respuesta construida tiene como valores mínimo y 
máximo posibles, 0 y 12. Valores medios en el ítem próximos a 0 indicarán dificultad ex-
Capítulo 2. Construcción de tests y análisis de ítems 43 
trema, y próximos a 12, facilidad extrema. Una alternativa al cálculo de la media consiste 
en dividir la suma de puntos en el ítem por la suma máxima de puntos posible. Procedien-
do así se obtiene un indicador de la dificultad comprendido entre 0 (máxima dificultad) y 
1 (máxima facilidad). Supongamos, por ejemplo, una tarea que puede ser evaluada como 
0, 1, 2 ó 3. Si las puntuaciones en la tarea de 5 estudiantes han sido 3, 1, 3, 0 y 3, la suma 
de puntos sería 10, la suma máxima posible sería 15 y el índice de dificultad será 10/15 = 
0,67. Por tanto, la tarea es de dificultad media-baja. 
 En los tests de rendimiento típico la media de las puntuaciones en el ítem ofrece una 
información que guarda cierta similaridad con el concepto de dificultad del ítem, aunque 
no pueda hablarse propiamente de lo difícil que es el ítem. Por ejemplo, en un test de 
agresividad, un ítem podría ser Participo en peleas, con las opciones Nunca, Alguna vez, 
De vez en cuando y Con frecuencia, y recibiría una puntuación de 1 a 4. Un segundo ítem 
podría ser Discuto con la gente, con la misma escala de respuestas. La misma muestra 
responde a ambos ítems. Supongamos que la media de la muestra en el primero es 1,75 y 
en el segundo, 2,81. La menor media del ítem 1 indica que hay que tener más agresividad 
para obtener una puntuación concreta (por ejemplo, 3) en el ítem 1 que en el 2. Cuanto 
más baja es la media, más nivel de rasgo hace falta para alcanzar una cierta puntuación en 
el ítem. 
 
 
Índices de discriminación 
 
Un ítem que mida el constructo de interés debe discriminar entre los que tienen altos y ba-
jos valores en el constructo. Las personas con alta y baja Responsabilidad deberán puntuar 
de forma diferente en un ítem que realmente mida este constructo, aunque podrán obtener 
puntuaciones parecidas en un ítem que mida otro constructo. Se han propuesto varios in-
dicadores de la discriminación del ítem. Todos ellos requieren una medida apropiada del 
constructo, que muchas veces, aunque no necesariamente, es la puntuación obtenida en el 
test completo. Otras veces es un subconjunto de los ítems del test y otras, incluso, una 
medida del constructo externa al test. 
 
 
El índice de discriminación 
 
Este indicador se obtiene exclusivamente para ítems dicotómicos. Requiere establecer dos 
subgrupos de evaluados a partir de sus puntuaciones en el test: el de los que tienen altas y 
el de los que tienen bajas puntuaciones. Los subgrupos pueden estar compuestos por la 
mitad de la muestra o, más frecuentemente, por un porcentaje menor (27%, 33%, por lo 
general) si la muestra tiene suficiente tamaño. 
 Sea ps la proporción de personas del subgrupo superior que ha acertado el ítem. Sea pi 
la correspondiente proporción en el subgrupo inferior. El índice de discriminación de ítem 
j, Dj, se define como la diferencia entre ambas proporciones. 
 
isj ppD −= 
[2.5] 
 
44 Medición en Ciencias Sociales y de la Salud 
El indicador D toma valores entre –1 y 1. Cuando D = 1, todos los evaluados del subgrupo 
superior han acertado el ítem y ninguno del subgrupo inferior lo ha hecho. Cuando D = 0, 
la proporción de los que han acertado el ítem es la misma en ambos subgrupos. Si D = –1, 
ninguno del subgrupo superior ha acertado el ítem y todos los del subgrupo inferior lo han 
hecho. Valores próximos a cero indican que el ítem no discrimina. Cuanto D más se acer-
ca a uno, mayor es la capacidad discriminativa del ítem. Valores inferiores a 0,20 se con-
sideran valores inaceptables e indican que el ítem ha de ser eliminado (Crocker y Algina, 
1986). Los valores que puede tomar D dependen del valor del índice de dificultad p (Oos-
terhof, 1976). En el caso de valores extremos de p, no es posible que D tome valores altos. 
Por ejemplo, si el valor p de un ítem es 0,98, es evidente que ha debido de ser acertado por 
prácticamente todos los del grupo superior y también por prácticamente todos los del gru-
po inferior, no pudiendo D tomar un valor alto. Un razonamiento similar puede aplicarse 
cuando el valor de p es muy bajo. Cuando p toma un valor central es cuando D puede to-
mar un valor próximo o alejado de cero. 
 
 
Índices basados en la correlación entre el ítem y el test 
 
Otra estrategia para determinar si un ítem discrimina entre los evaluados que tienen altas y 
bajas puntuaciones en el constructo consiste en correlacionar las puntuaciones en el ítem 
con una medida del constructo, que por lo general es el rendimiento en el test. Esta estra-
tegia da lugar a los indicadores de discriminación basados en la correlación ítem-test. El 
indicador D es muy fácil de aplicar, pero normalmente no utiliza toda la información de la 
muestra, pues sólo entran en su cálculo los evaluados que pertenecen al subgrupo superior 
o inferior y se aplica sólo a ítems dicotómicos. Los indicadores de discriminación basados 
en la correlación ítem-test pueden aplicarse a ítems dicotómicos y no dicotómicos, a tests 
de rendimiento óptimo y típico, y la muestra completa participa en su cómputo. 
 El índice de discriminación del ítem j basado en la correlación ítem-test, rjX, se define 
como la correlación de Pearson entre las puntuaciones en el ítem y en el test. Se le suele 
llamar correlación ítem-test. 
 
 
 Ejemplo 2.3. Obtención de la correlación ítem-test en ítems politómicos 
 
Hemos aplicado un test de Satisfacción con los estudios universitarios. En la Tabla 2.6 se 
muestran las puntuaciones de 4 estudiantes en dos ítems del test y en el test completo X. 
El ítem 1 es Organizo actividades extracurriculares y el 2 es Asisto a clase. Ambos tienen 
cinco posibles respuestas, puntuadas de 1 (Muy infrecuentemente) a 5 (Muy frecuentemen-
te). 
La correlación ítem-test del ítem 1, que se obtiene calculando la correlación de Pear-
son entre las columnas 1 y 3, es r1X = 0,638. La del ítem 2, que resulta de correlacionar las 
columnas 2 y 3, es r2X = 0,348. 
 
 
Capítulo 2. Construcción de tests y análisis de ítems 45 
Tabla 2.6. Puntuaciones en 2 ítems 
X1 X2 X 
3 2 40 
2 3 35 
5 5 37 
1 1 32 
 
 
 
En el caso de un ítem dicotómico, podemos obtener la correlación ítem-test por tres pro-
cedimientos: 
 
1. El primero consiste en obtener la correlación de Pearson entre la columna de puntua-
ciones en el ítem y la de puntuaciones en el test, como en el Ejemplo 2.3. 
2. La correlación de Pearson entre una variable dicotómica y una continua recibe el nom-
bre de correlación biserial puntual (Amón, 1984). Por tanto, un segundo procedimiento 
consiste en hallar la correlación biserial puntual, rbp, entre el ítem y el test: 
 
pq
S
XX
r
X
qp
bp
−
= [2.6] 
 
Donde pX y qX son las medias en el test de los que acertaron el ítem y de los que no lo 
acertaron, SX es la desviación típica en el test y p es la proporción de evaluados que 
acertó el ítem. Por último, q = 1 – p.3. Un tercer procedimiento cuando el ítem es dicotómico es la correlación biserial, rb. Se 
puede aplicar cuando una variable es continua (puntuaciones en el test) y otra es di-
cotómica (el ítem), pero la variable dicotómica se considera como el resultado de dico-
tomizar una variable continua. La correlación biserial es una estimación de lo que sería 
la correlación de Pearson entre ambas variables continuas (Amón, 1984). 
 
 
y
pq
S
XX
r
X
qp
b
−
= [2.7]
 
 
El único elemento nuevo, y, es la ordenada que corresponde en la distribución normal a 
la puntuación que deja a su izquierda la probabilidad p. 
La correlación biserial puntual, en valor absoluto, es menor que la biserial para unos 
mismos datos. De hecho, rbp < 0,8rb (Lord y Novick, 1968, p. 340). 
 
Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener la corre-
lación ítem-test corregida, cjXr , o correlación del ítem con el resto del test. Consiste en 
correlacionar las puntuaciones en un ítem con las puntuaciones en el total del test después 
de restarle las puntuaciones del ítem cuyo indicador queremos obtener. La correlación en-
tre un ítem y el resto del test suele ser inferior a su correlación ítem-test, pues en este caso 
46 Medición en Ciencias Sociales y de la Salud 
se correlaciona una variable (el ítem) con otra (el test) en la que la primera variable está 
contenida. La correlación entre el ítem y el test puede ser artificialmente alta, por lo indi-
cado, especialmente cuando el test tiene pocos ítems. Izard (2005) considera que el efecto 
es despreciable cuando el test tiene más de 20 ítems. 
 
 
 Ejemplo 2.4. Obtención de las correlaciones ítem-test e ítem-resto del test5 
 
Hemos aplicado un test de cuatro ítems a cinco estudiantes. Sus puntuaciones se muestran 
en la Tabla 2.7. 
 
Tabla 2.7. Puntuaciones en 4 ítems de un test 
X1 X2 X3 X4 X 
0 1 1 0 2 
1 1 1 1 4 
1 0 1 1 3 
0 1 1 1 3 
1 1 0 1 3 
 
La correlación de Pearson entre el ítem X1 y el test X es 0,645. Aplicando la fórmula [2.6] 
se llega al mismo resultado: 
 
( ) ( ) ( )( ) 645,05253
4,0
25310
=
−
=
−
= pq
S
XX
r
X
qp
bp 
 
Para X1, la correlación biserial es: 
 
( ) ( ) ( )( )
819,0
3863,0
5253
4,0
25310
=
−
=
−
=
y
pq
S
XX
r
X
qp
b 
 
Comprobamos que rbp < 0,8rb = (0,8)(0,819) = 0,655. 
 Sumando las puntuaciones en los ítems 2, 3 y 4, podemos obtener las puntuaciones en 
el resto del test para el ítem 1. Al correlacionar el ítem 1 con el resto del test para ese ítem 
(las puntuaciones de los cinco evaluados serían, respectivamente, 2, 3, 2, 3 y 2) se obtiene 
la correlación ítem-test corregida o correlación ítem-resto del test para el ítem 1, que es 
.167,01 −=
c
Xr 
Nótese el fuerte descenso en el valor de la correlación (de 0,645 a –0,167), 
pues el test tiene sólo 4 ítems. 
 
 
 
5
 Los indicadores propuestos se obtienen mediante los programas de ordenador que se describen en el Apéndice. 
En el ejemplo 2.4 se detalla el cálculo de los indicadores para facilitar la comprensión de las fórmulas. El valor 
de la ordenada y puede extraerse de las tablas de la curva normal (p. ej., Amón, 1984) o calcularse directamente. 
Capítulo 2. Construcción de tests y análisis de ítems 47 
Se han propuesto otros muchos indicadores de discriminación. Oosterhof (1976) comparó 
19 de ellos tras aplicarlos a 50 ítems. Comprobó que la ordenación (en discriminación) 
que hacían los 19 indicadores de los 50 ítems básicamente coincidía. De hecho, obtuvo 
que la mayoría de las correlaciones entre los órdenes superaron el valor 0,90 (la menor 
correlación fue 0,616). Veamos en el siguiente ejemplo la relación entre los cuatro 
indicadores de discriminación que hemos descrito. 
 
 
 Ejemplo 2.5. Comparación entre los índices de discriminación 
 
Hemos aplicado los cuatro índices de discriminación (D, correlación biserial, correlación 
biserial puntual y correlación biserial puntual corregida) a los 14 ítems dicotómicos de un 
test. La Figura 2.1 muestra los valores obtenidos. 
 
Figura 2.1. Indicadores de discriminación de 14 ítems 
 
 
 
La gráfica muestra que los tres indicadores de discriminación que se basan en la 
correlación entre el ítem y el test (las líneas de trazo discontinuo) dan valores ordenados: 
los valores más altos corresponden a la correlación biserial (B en la gráfica), los medios a 
la biserial puntual (BP) y los menores a la biserial puntual corregida (BPC). El indicador 
D (trazo continuo) en estos datos da valores similares a la biserial puntual. Al 
correlacionar entre sí los valores de los 3 indicadores basados en la correlación, la menor 
correlación es 0,96 (entre la biserial puntual y la biserial puntual corregida), lo que 
muestra que la ordenacion de los 14 ítems sería básicamente la misma con cualquiera de 
ellos. Las correlaciones de estos 3 indicadores con D son 0,88 (con la biserial puntual 
corregida), 0,91 (biserial) y 0,96 (biserial puntual). Por tanto, en este ejemplo, se confirma 
la conclusión alcanzada por Oosterhof (1976) en el sentido de que los distintos 
indicadores aplicados a unos mismos ítems producen una ordenación similar de sus 
capacidades de discriminación. 
 
 
48 Medición en Ciencias Sociales y de la Salud 
Propiedades de las correlaciones ítem-test e ítem-resto del test 
 
1. La correlación de Pearson (y, por tanto, la correlación biserial puntual) toma valores 
entre –1 y 1. La correlación biserial puede valer más de 1 o menos de –1. Los indicado-
res de la discriminación basados en las correlaciones ítem-test nos informan de si el 
ítem está midiendo lo mismo que la prueba globalmente; es decir, del grado en que el 
ítem contribuye a medir lo mismo que mide el test. Los ítems con correlaciones nulas 
miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende 
evaluar un rasgo o constructo unitario, debiera considerarse la posible eliminación de 
los ítems con correlaciones próximas a cero. 
 Cuanto más se acerque a 1 el índice, mejor discrimina el ítem entre los que tienen pun-
tuaciones altas y bajas en el test. En el Ejemplo 2.3 vimos que la correlación ítem-test 
del ítem Organizo actividades extracurriculares es mayor que la del ítem Asisto a clase 
regularmente, por lo que el primer ítem discrimina mejor entre los que tienen alta y ba-
ja satisfacción con los estudios que el segundo. Es decir, la satisfacción con los estu-
dios se relaciona más con la organización de actividades extracurriculares que con la 
asistencia a clase. 
2. Cuando la correlación ítem-test es negativa y de entidad, debemos cuestionar la cuanti-
ficación que se ha aplicado al ítem. Se ha podido proponer como opción correcta una 
que no lo es, o se ha podido tomar el ítem como directo cuando es inverso, o viceversa. 
3. Crocker y Algina (1986) proponen que se tome como criterio mínimo de retención del 
ítem que la correlación sea significativamente distinta de cero. Dado que una correla-
ción de Pearson puede considerarse significativa cuando 2/1 α−> zNrxy , (Pardo, 
Ruiz y San Martín, 2009, p. 350), con una muestra de 100 personas y nivel de confian-
za del 95%, se llega a la referencia 0,206. Valores de r menores de 0,2 nos llevarían a 
descartar el ítem. Schmeiser y Welch (2006) coinciden en que para un test normativo 
son deseables índices de discriminación superiores a 0,2. Kehoe (1995) fija la referen-
cia en 0,15. 
 
 
 Ejemplo 2.6. Ejemplo de posible cuantificación incorrecta 
 
En una escala de Romanticismo, que hicieron nuestros estudiantes como práctica para 
aprender a construir un test de rendimiento típico, las correlaciones ítem-test corregidas de 
varios ítems se muestran en la Tabla 2.8. Se indica también qué ítems consideraron direc-
tos e inversos (D e I). Las correlaciones que se exponen son las halladas tras recodificar 
los ítems inversos, como se indicó en el apartado sobre cuantificación de las respuestas.6
 De rxy√100 > z0.975 = 1,96, se sigue que rxy > 0,196 ≈ 0.20. 
Capítulo 2. Construcción de tests y análisis de ítems 49 
Tabla 2.8. Correlaciones ítem-test corregidas de 5 ítems 
 Escala de Romanticismo rc 
D El amor es la razón de mi vida 0,60 
I Preferiría que él/ella se me declarara por teléfono y sin rodeos 0,10 
D Siempre que puedo, suelo sorprenderle con detalles inesperados 0,58 
D Si me invita la primera noche a su casa, no vuelvo a mirarle a la cara –0,27 
I Nunca me identifico con personajes de películas o cuentos 0,47 
 
Tres ítems, dos directos y uno inverso, tienen valores altos de la correlación entre el ítem 
y el resto del test (mayores de 0,47). Según el enunciado de los ítems, vemos que los muy 
románticos están de acuerdo en que el amor es la razón de sus vidas y que siempre que 
pueden sorprenden con regalos. Los muy románticos están en desacuerdo con el último 
ítem, pues es inverso. Hay que entender entonces que se identifican con personajes de 
películas y cuentos. El índice ítem-resto del test es cercano a cero (0,1) en el segundo 
ítem, lo que indica que los muy románticos no estarían especialmente de acuerdo ni en 
desacuerdo con ese ítem. De hecho, ¿por qué habrían de preferir los muy o poco románti-
cos la declaración por teléfono? Por último, en un ítem, considerado por los estudiantes 
directo, se obtiene una correlación ítem-resto del test negativa y de cierta entidad (–0,27). 
Los estudiantes consideraron, al etiquetar el ítem como directo, que las personas muy 
románticas debían estar de acuerdo con el enunciado y recibir con disgusto una invitación 
a subir a casa al poco de conocerse. El análisis psicométrico revela que en la muestra en la 
que se aplicó el test (estudiantes universitarios) no es así, sino al contrario. En este caso 
convendría plantearse considerar el ítem como inverso y repetir el análisis psicométrico de 
todos los ítems tras recodificarlo como inverso. 
 
 
 
Índice de validez 
 
A veces aplicamos tests no tanto porque estemos interesados en evaluar directamente el 
constructo que el test mide, sino porque sabemos que sus puntuaciones predicen bien una 
variable que interesa pronosticar. En un proceso de selección de personal, podemos apli-
car un test de Responsabilidad no porque estemos directamente interesados en conocer las 
puntuaciones de los candidatos, sino porque se sabe (Salgado y Moscoso, 2008) que las 
puntuaciones en Responsabilidad ayudan a predecir el desempeño laboral. En el tema 5 
estudiaremos los detalles dentro del apartado sobre evidencias de validez referida al crite-
rio. Se suele llamar criterio a la variable que queremos predecir y nos solemos referir a 
ella con la letra Y. 
 Se llama índice de validez de un ítem j, rjY, a la correlación
7 entre las puntuaciones en 
el ítem y el criterio externo Y. Por ser rjY un coeficiente de correlación, toma valores entre 
–1 y 1, y elevado al cuadrado indica la proporción de la varianza de Y que puede explicar-
 
7
 Lo ordinario es aplicar la correlación de Pearson, pero en ocasiones otras correlaciones pueden resultar más 
apropiadas para indicar la relación entre el ítem y el criterio. Si no se especifica nada más, se entiende que 
hablamos de la correlación de Pearson. 
50 Medición en Ciencias Sociales y de la Salud 
se por el ítem8. Cuanto más alejado de cero esté, más fuerte es la relación y mayor la ca-
pacidad predictora del ítem en relación al criterio Y. La capacidad predictora del ítem no 
depende del signo de la correlación. Si el índice de validez de un ítem con un criterio de 
Puntualidad fuese positivo (de 0,25, por ejemplo), es muy posible que el índice de validez 
de ese mismo ítem con otro criterio, como Absentismo laboral, sea negativo; dada la rela-
ción inversa que cabe esperar entre Puntualidad y Absentismo. 
 
 
 Ejemplo 2.7. Cálculo del índice de validez 
 
Supongamos que las puntuaciones de 5 personas en Desempeño laboral son las que apare-
cen en la columna Y de la Tabla 2.9. Queremos construir un test de Responsabilidad que 
pronostique las puntuaciones en el criterio Y. La tabla muestra además las puntuaciones de 
las 5 personas en los tres ítems del test y en el test completo X. 
 
Tabla 2.9. Puntuaciones de 5 evaluados en 3 ítems, el test X, y un criterio Y 
X1 X2 X3 X Y 
2 3 5 10 8 
3 1 0 4 2 
0 4 5 9 2 
5 1 0 6 4 
4 3 0 7 5 
 
Calculando la correlación de Pearson entre cada ítem y la columna Y se obtienen los índi-
ces de validez, que son 0,167 (ítem 1), 0,195 (ítem 2) y 0,293 (ítem 3). El ítem 3 tiene una 
relación más fuerte con el criterio que los otros dos. 
 
 
 
El índice de validez informa de la relación entre el ítem y el criterio Y. El concepto análo-
go, pero referido al test, es el coeficiente de validez, que estudiaremos más adelante (tema 
5). El coeficiente de validez de un test X en relación a un criterio Y, rXY, se puede obtener 
mediante la expresión (Lord y Novick, 1968, p. 332): 
 
∑
∑
=
==
J
j
jXj
J
j
jYj
XY
rS
rS
r
1
1
 [2.8] 
 
8
 Lo habitual es que el índice de validez de un ítem sea menor que sus índices de discriminación basados en la 
correlación ítem-test, pues lo normal es que el ítem correlacione más con el test para el que se ha construido que 
con un criterio externo. Los índices de validez suelen ser especialmente bajos (próximos a cero) cuando los ítems 
son dicotómicos. 
Capítulo 2. Construcción de tests y análisis de ítems 51 
La expresión anterior permite obtener la capacidad predictora del test respecto al criterio Y 
a partir de las propiedades (la desviación típica, la correlación ítem-test y el índice de va-
lidez) de los J ítems que forman el test. Nos puede facilitar la selección de los ítems que 
más ayuden a construir un test con máxima capacidad predictiva del criterio Y. 
 
 
 Ejemplo 2.8. Relación entre el coeficiente de validez y los índices de validez 
 
En el Ejemplo 2.7, si calculamos la correlación de Pearson entre las columnas X e Y, se 
obtiene el coeficiente de validez del test formado por los tres ítems, que es rXY = 0,580. 
 
Tabla 2.10. Datos descriptivos para 3 ítems 
 Sj rjX rjY SjrjX SjrjY 
X1 1,924 –0,588 0,167 –1,131 0,321 
X2 1,342 0,827 0,195 1,110 0,262 
X3 2,739 0,879 0,293 2,408 0,802 
 
A partir de los datos de la tabla podemos comprobar que la fórmula [2.8] proporciona ese 
mismo resultado: 
 
.580,0
408,2110,1131,1
802,0262,0321,0
3
1
3
1 =
++−
++
==
∑
∑
=
=
j
jXj
j
jYj
XY
rS
rS
r
 
 
 
 
Siguiendo a Lord y Novick (1968) y a Muñiz (1992), entre otros, hemos definido el índice 
de validez de un ítem como la correlación de Pearson entre el ítem y el criterio Y. otros 
autores, por ejemplo Crocker y Algina (1986) y Gulliksen (1987), definen el índice de va-
lidez como dicha correlación multiplicada por la desviación típica del ítem. Análogamen-
te, estos autores definen el índice de fiabilidad del ítem como la correlación ítem-test mul-
tiplicada por la desviación típica del ítem. La fiabilidad de un test es un concepto psi-
cométrico que se estudiará en el tema siguiente y que nos indica su capacidad para dar 
puntuaciones similares a personas con el mismo nivel en el rasgo. El índice de fiabilidad 
de un ítem informa de la aportación del ítem a la fiabilidad del test. Por tanto, siguiendo 
estas definiciones, el coeficiente de validez del test tiene en el numerador la suma de los 
índices de validez de los ítems que forman el test y en el denominador la suma de los índi-
ces de fiabilidad. Es, por tanto, evidente que si queremos un test que pronostique bien el 
criterio debemos seleccionar los ítems con altos índices de validez y/o bajos índices de 
fiabilidad. La situación es paradójica (Muñiz, 1992), pues nos indica que podríamos con-
seguir mejorar la capacidad predictora de un test por la vía de seleccionar ítems que corre-
lacionen menos con el test total (es decir, disminuyendouna propiedad positiva de un test, 
52 Medición en Ciencias Sociales y de la Salud 
como es su fiabilidad). Lo expuesto muestra que no siempre los ítems con mayores índi-
ces de discriminación resultan los más apropiados a los objetivos específicos del test. Vis-
to de otro modo, al eliminar ítems con bajas correlaciones ítem-test, con el propósito de 
maximizar la fiabilidad del test, seguramente afectaremos negativamente a su coeficiente 
de validez (Izard, 2005). 
 
 
Consideraciones adicionales sobre el análisis de ítems 
 
Livingston (2006) y Schmeiser y Welch (2006) señalan otros asuntos a tener en cuenta pa-
ra un correcto análisis de ítems. El análisis de los ítems se complica en los tests de veloci-
dad. En los tests de rendimiento óptimo, si los evaluados no han tenido tiempo para dar 
una respuesta meditada a todos los ítems, los que estén al final serán los que resulten más 
afectados. En estos ítems tendremos respuestas meditadas y respuestas casi aleatorias, lo 
que no ocurrirá en los que se encuentren al principio. El índice de dificultad por tanto re-
sultará afectado por la posición que ocupa el ítem en el test. En el apartado sobre formatos 
y tipos de ítems se ha expuesto la norma a seguir para convertir los ítems sin respuesta en 
ítems no alcanzados o en omisiones. El Ejemplo 2.9 muestra su impacto en los índices de 
dificultad de los ítems. 
 
 
 Ejemplo 2.9. Índices de dificultad e ítems sin respuestas 
 
La aplicación de la regla para considerar un ítem sin respuesta como omisión o como va-
lor perdido a los datos del Ejemplo 2.2 daría lugar a la Tabla 2.11. Hay tres ítems dejados 
sin responder. En el caso del evaluado 4 sus dos ítems dejados sin responder siguen a su 
única respuesta, luego habrían de clasificarse como ítems no alcanzados o valores perdi-
dos (y no se convertirían en errores). En el caso del evaluado 5, el ítem dejado sin respon-
der tiene detrás un ítem con respuesta y por tanto debe ser clasificado como omisión (y 
convertido en error). Se indica en la tabla con la cuantificación de 0 entre paréntesis. 
 
Tabla 2.11. Puntuaciones en 3 ítems 
X1 X2 X3 X 
1 1 0 2 
1 0 0 1 
0 1 1 2 
1 - - 1 
0 (0) 1 1 
 
Los índices de dificultad de los ítems 1 y 3 no cambian, pero sí el del ítem 2, que pasará a 
ser p2 =A2/N2= 2/4= 0,5, en vez de 0,67. 
 
 
 
Capítulo 2. Construcción de tests y análisis de ítems 53 
Otro asunto a considerar es el de la posible multidimensionalidad del test. Vamos a ver en 
temas posteriores procedimientos para detectar si tras las puntuaciones en el test hay sólo 
una dimensión (lo responsable que una persona es, por ejemplo), dos dimensiones (lo res-
ponsable y lo emocionalmente estable, por ejemplo) o más. En el caso de tests multidi-
mensionales tiene más sentido analizar conjuntamente los ítems que se relacionan con ca-
da dimensión, que un análisis conjunto de todos ellos. En el caso de tests educativos, Ke-
hoe (1995) recomienda explícitamente que sólo se haga el análisis conjunto de los ítems 
que evalúen un material homogéneo (es decir, un material en el que es poco probable que 
un estudiante lo haga bien en una parte y mal en otra). Si el material a evaluar no fuese 
homogéneo, habría que hacer un análisis conjunto de los ítems de cada bloque homogéneo 
de contenidos. 
 La estrategia anterior puede llevar a tener que hacer el análisis de un conjunto muy re-
ducido de ítems, lo que también plantea problemas. Para Livingston (2006), un análisis de 
20 ítems puede ser adecuado; pero de 10, quizás no. Cuando hay pocos ítems el impacto 
de uno en el test puede ser fuerte. Hemos visto procedimientos para corregir ese impacto, 
como la correlación ítem-test corregida, pero este indicador tiene el inconveniente de que 
se correlaciona cada ítem con un test diferente (el test menos el ítem del que estamos 
hallando el indicador), lo que dificulta la comparación de los índices de los distintos 
ítems. 
 Otro asunto a tener en cuenta es la presencia de ítems de baja calidad en el test. Si un 
test tiene sólo algún ítem deficiente, la correlación del ítem deficiente con el test nos dirá 
que efectivamente lo es. Si el test tuviese muchos ítems deficientes, la correlación podría 
no decir demasiado, ¡podría incluso informar erróneamente de la calidad de los buenos 
ítems! En los procedimientos para el estudio del funcionamiento diferencial de los ítems 
es habitual generar una medida del constructo de interés que se va progresivamente depu-
rando; es decir, de la que se van eliminando los ítems que parecen no medir lo que miden 
los demás. Algo similar cabría hacer en el análisis de ítems, para que la medida del cons-
tructo no esté contaminada por los ítems deficientes. 
 Un último asunto tiene que ver con las características de la muestra de evaluados en la 
que obtenemos los indicadores. Preparamos un examen, lo aplicamos y hacemos el co-
rrespondiente análisis de ítems. ¿Estamos seguros de que un ítem que resulte fácil (al co-
rresponderle, por ejemplo, un valor p = 0,80) volverá a ser fácil si lo volviésemos a apli-
car? ¿Estamos seguros de que un ítem con una correlación ítem-test negativa volverá a ob-
tener un índice negativo en otra aplicación? La respuesta a estas preguntas requiere, al 
menos, dos consideraciones. La primera es que cabe sólo esperar valores similares cuando 
las dos muestras de estudiantes tengan características similares. Si una muestra tuviese un 
nivel alto de conocimiento y otra un nivel bajo, evidentemente, no cabe esperar que el 
índice de dificultad de un ítem sea igual en ambas aplicaciones. Aceptando que las dos 
muestras tengan similares características, hay que tener en cuenta el tamaño de la muestra. 
El índice de dificultad, el de discriminación, etc. son indicadores que fluctúan muestral-
mente. Supongamos, por ejemplo, que un ítem de Matemáticas tiene un índice de dificul-
tad de 0,6 al ser aplicado a todos los estudiantes de la Comunidad de Madrid. Si lo aplicá-
semos a dos muestras de 100 estudiantes extraídos al azar de la citada población, muy 
probablemente no obtendremos que sea acertado por un mismo número de estudiantes en 
ambas muestras. Es probable que en ninguna de las dos sea acertado exactamente por 60 
estudiantes. Los posibles valores del índice de dificultad vendrían determinados por la dis-
tribución muestral de la proporción. Por lo tanto, cuanto menor sea el tamaño de la mues-
54 Medición en Ciencias Sociales y de la Salud 
tra en la que se aplica el test, menos debemos fiarnos de los particulares valores de los in-
dicadores, y tanto más probable es que, de haber aplicado el test a otra muestra, obtenga-
mos resultados diferentes. 
 En un estudio de simulación9 hemos comprobado que cuando se aplica un test de 20 
ítems a muestras de 50 personas simuladas extraídas de la misma población los índices de 
dificultad de los ítems de una muestra difieren poco de los obtenidos en las demás. Esto 
no ocurre, sin embargo, con las correlaciones ítem-test corregidas. De hecho, para que las 
correlaciones ítem-test corregidas sean similares en distintas muestras, deben estar forma-
das al menos por 400 personas simuladas. 
 Conviene, por tanto, que la muestra en la que aplicamos el test tenga un tamaño razo-
nable si se quiere extrapolar a otras aplicaciones los resultados obtenidos en un análisis de 
ítems. Morales (2009) recomienda muestras de 400 estudiantes o más. Crocker y Algina 
(1986) sugieren que no tengan menos de 200 evaluados y recomiendan, si el tamaño 
muestral lo permite, que se haga el análisis de ítems sobre una mitad de la muestra y se in-
forme de los indicadores de los ítems y del test con los datos de la otra mitad10. 
 Burton (2001a) concluye que tanto el índice D como las correlaciones ítem-test son 
muy poco estables, a no ser que se obtengan en muestras mucho mayores de las habituales 
en los contextos educativos. Su utilidad debería limitarse a comprobar las características 
de los ítems que resultan diagnosticados como muy buenoso muy malos. Estos últimos 
son los más interesantes porque pueden revelar que hay algún error en la clave de respues-
tas. Concluye que hay que quitar importancia a la discriminación de los ítems en la eva-
luación de la calidad de los exámenes. 
 
 
Análisis de las opciones incorrectas de respuesta 
 
En relación con el análisis de los ítems se encuentra también el estudio de los patrones de 
respuesta que se dan a las diferentes opciones de los ítems de opción múltiple. Un modelo 
muy simple, que desarrollaremos más extensamente en el apartado final de este tema, de 
cómo una persona responde a un ítem de opción múltiple, supone que: 
 
1. La persona conoce la opción correcta o no la conoce. Si la conoce, responde y acierta 
necesariamente. Es decir, no se contempla la posibilidad de que conociendo la respues-
ta, por despiste u otras razones, pueda seleccionar una opción incorrecta. 
2. Si no la conoce, tiene dos opciones: puede no responder o puede responder al azar entre 
las K opciones disponibles. Es este caso, se supone que elige las opciones con equipro-
babilidad y por tanto la probabilidad de acierto es 1/K y la de fallo es (K – 1)/K. 
 
Supongamos que 300 personas responden a un ítem de opción múltiple con 4 opciones (A, 
B, C y D) siguiendo el modelo anterior. Supongamos que ninguno sabe la respuesta co-
rrecta (la B, en nuestro caso marcada con un asterisco). Según el modelo, cada evaluado 
tendrá que responder al azar y la probabilidad de elegir cada opción es 1/4. Por tanto, el 
 
9
 Los detalles pueden solicitarse a los autores. 
10
 Ésta es una estrategia común de control de lo que se viene llamando “capitalización en el azar” o “sobre-
aprendizaje”. Tal estrategia reduce el efecto de las singularidades de la muestra en los valores de los indicadores. 
Capítulo 2. Construcción de tests y análisis de ítems 55 
número esperado de personas que deberá elegir cada opción es 300(1/4) = 75, como mues-
tra la siguiente tabla: 
 
 A B* C D 
Frecuencia esperada 75 75 75 75 
 
Supongamos que 100 de los 300 saben la respuesta. Según el modelo, esos 100 elegirán la 
opción correcta, B. Los restantes 200, al no saber la respuesta, elegirán al azar una de las 
cuatro opciones con equiprobabilidad. Las frecuencias esperadas de las 4 opciones se 
muestran en la siguiente tabla: 
 
 A B* C D 
Frecuencia esperada 50 100 + 50 50 50 
 
Si supiesen 200 la respuesta correcta, la correspondiente tabla sería: 
 
 A B* C D 
Frecuencia esperada 25 200 + 25 25 25 
 
Por último, si los 300 saben la respuesta, la tabla resultante sería: 
 
 A B* C D 
Frecuencia esperada 0 300 0 0 
 
Por tanto, en un ítem en el que se responde según el modelo expuesto, debe ocurrir que: 1) 
la alternativa correcta sea la más seleccionada, y 2) que las alternativas incorrectas lo sean 
por un número similar de personas. Estas dos circunstancias se cumplen exactamente en 
las tablas precedentes. En la aplicación real de un ítem no cabe esperar que la frecuencia 
de elección de las alternativas incorrectas coincida exactamente. Lo que sí debiera ocurrir 
es que se dé aproximadamente el patrón descrito. 
 
 
 Ejemplo 2.10. Estudio de las opciones incorrectas de respuesta 
 
Observemos los porcentajes de elección en las cinco opciones de tres ítems que se presen-
tan en la Tabla 12.2. El patrón de respuestas obtenido para el ítem 1 es adecuado, pues la 
mayor parte de la muestra selecciona la alternativa correcta, mientras que las incorrectas 
son seleccionadas por un porcentaje parecido de personas. El ítem 2 no sería muy adecua-
do, pues la muestra selecciona en mayor grado una alternativa incorrecta (la A) como co-
rrecta; al menos, debería pensarse en reformular esa alternativa incorrecta. En el ítem 3, 
dos alternativas incorrectas apenas son seleccionadas, con lo que se consideran como al-
ternativas no funcionales. Habría que reformular esas dos opciones de respuesta. 
 
56 Medición en Ciencias Sociales y de la Salud 
Tabla 2.12. Porcentajes de elección de las opciones en 3 ítems 
 Opción correcta Porcentaje elección de las opciones 
 A B C D E 
X1 B 17 40 14 13 16 
X2 C 35 15 21 17 12 
X3 A 60 1 21 18 0 
 
 
 
Las opciones que no son elegidas tienen especial importancia, pues esos ítems tienen K 
opciones, pero funcionalmente tienen menos. Esta situación plantea dudas sobre el proce-
der adecuado cuando hay que aplicar fórmulas que requieren especificar el número de op-
ciones; por ejemplo, a la hora de obtener el valor de p corregido por azar, aplicando la ex-
presión [2.3]. 
 Un comentario sobre la adecuación al modelo expuesto. Hemos propuesto que hay que 
elegir con cuidado los distractores. Hemos propuesto incluso que una buena estrategia es 
proponer como distractores los errores que comenten los estudiantes. Por ejemplo, un ítem 
de Matemáticas podría ser éste: 
 
¿Cuál es el resultado de la operación 6 + (2–3)3? 
a) –13 
b) 5 
c) 7 
 
La opción correcta es la b. El distractor a resulta de la operación 6 + (23–33) y el distractor 
c, de 6 + (1)3. Un test construido con ítems así permitiría conocer el nivel de cada estu-
diante en Matemáticas, pero no sólo eso. Los distractores elegidos darían pistas de qué no 
saben, qué tienen los estudiantes mal aprendido. Pero, ¿no es esto contradictorio con el 
modelo propuesto? Según el modelo, los evaluados que han elegido las opciones incorrec-
tas lo han hecho porque no sabían la respuesta correcta, han decidido no omitir y han res-
pondido al azar entre todas las opciones disponibles con equiprobabilidad. ¿Qué podemos 
concluir cuando una opción no es elegida, o una lo es más que la opción correcta? Una 
primera conclusión es que el modelo no se ha cumplido. Si los errores, como plantea el 
modelo, son exclusivamente resultado de las respuestas al azar, no se puede explicar que 
una opción no sea elegida por nadie y otra, por muchos. 
 Un modelo alternativo es que los estudiantes, cuando se penalizan los errores, no res-
ponden al azar sino que eligen la opción que creen correcta. Algunos eligen la realmente 
correcta, y otros, que saben menos, eligen la opción incorrecta que consideran correcta. 
Según este modelo, es posible que en una pregunta difícil sólo unos pocos elijan la opción 
correcta y la mayoría se decante por las distintas opciones incorrectas, que no necesaria-
mente habrían de ser igual de atractivas. Cada distractor plantea una solución considerada 
correcta por los que saben poco y la frecuencia de elección de cada una indicaría qué pro-
porción de estudiantes tiene el correspondiente aprendizaje incorrecto. Por tanto, no cabe 
esperar que la proporción de evaluados que tengan el conocimiento erróneo que les lleva 
al distractor a tenga que ser similar que la proporción de los que tengan el aprendizaje in-
correcto que lleva al c, y tampoco que tenga que ser menor que la proporción de estudian-
Capítulo 2. Construcción de tests y análisis de ítems 57 
tes que saben la respuesta correcta. Kehoe (1995) realiza las siguientes recomendaciones 
en relación a cómo se ha de proceder tras el estudio de las opciones incorrectas: a) Hay 
que reemplazar o eliminar los distractores que no son elegidos. b) No debiera preocupar-
nos que los distractores no sean elegidos por el mismo número de estudiantes, pues dife-
rentes tipos de errores pueden ser cometidos por distinto número de estudiantes. c) Que la 
mayoría de los estudiantes falle un ítem no implica que deba ser cambiado, aunque los 
ítems en los que ocurre esto debieran analizarse detenidamente. d) Hay que sospechar de 
un ítem en el que un distractor es más elegido que todas las demás opciones juntas, en es-
pecialsi la elección del distractor correlaciona positivamente con la puntuación en el test. 
 Los indicadores de discriminación vistos se pueden aplicar también a las opciones in-
correctas. El índice de discriminación D aplicado a cada distractor nos diría si hay dife-
rencia o no en la tasa de elección del distractor entre los subgrupos superior e inferior. Al-
go similar puede hacerse con los índices basados en la correlación ítem-test o ítem-resto 
del test. 
 
 
 Ejemplo 2.11. Correlación ítem-test en el estudio de las opciones incorrectas 
 
Los autores generamos el siguiente ítem de Razonamiento: 
 
Descubra el elemento que sigue en la serie 0, 1, 10, 11, 100, 101, ¿? 
a) 102 
b) 200 
c) 110 
d) 1000 
 
Aplicado el ítem a una muestra de N evaluados, conocemos la opción que cada uno ha 
elegido y la puntuación en el test. Con estos resultados, podemos generar la Tabla 2.13. 
La segunda columna contiene la opción elegida por cada evaluado. 
 
Tabla 2.13. Opción elegida por cada evaluado y puntuación en el test 
Evaluado Opción elegida a b c d X 
1 a 1 0 0 0 30 
2 d 0 0 0 1 23 
3 b 0 1 0 0 32 
4 a 1 0 0 0 25 
5 c 0 0 1 0 37 
6 c 0 0 1 0 12 
7 b 0 1 0 0 19 
. 
. 
 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
N d 0 0 0 1 23 
 
Las columnas a, b, c y d muestran un 1 y 3 ceros (1 en la columna que corresponde a la 
opción elegida). La proporción de evaluados que eligió cada opción fue: 0,01 (a), 0,04 (b), 
0,29 (c) y 0,56 (d). La correlación de las columnas 3, 4, 5 y 6 de la tabla con la puntuación 
58 Medición en Ciencias Sociales y de la Salud 
en el test, X, fue –0,09 (a), –0,12 (b), 0,07 (c) y 0,13 (d). Nótese que las proporciones y las 
correlaciones serían los índices de dificultad y discriminación, respectivamente, si consi-
deramos cada opción como la opción correcta. El estudio de estos valores da pistas sobre 
si la opción propuesta como correcta efectivamente lo es. 
¿Qué nos dicen los anteriores resultados de la calidad del ítem? Los creadores del ítem 
propusimos como opción correcta la d (la serie sería: 0, 1, 10, 11, 100, 101, 1000, 1001, 
etc.). La correlación ítem-test de esa opción es positiva (0,13), aunque baja. Lo sorpren-
dente es que otra opción, en principio falsa, dio una correlación también positiva con la 
puntuación en el test. Volvimos a leer el ítem y nos dimos cuenta de que la serie, si se en-
tiende expresada en código binario11, debe continuar con la opción c (110). Por tanto, la 
opción c es también una opción correcta posible. El estudio de la discriminación de las 
opciones del ítem nos ha indicado que tiene de hecho dos soluciones. Otro resultado de in-
terés es la escasa frecuencia de elección de los otros dos distractores. El ítem se aplicó en 
una oposición, donde los candidatos se juegan un puesto de trabajo y muchos años de pre-
paración, y se penalizaban los errores. En estos contextos, los que no saben la respuesta 
prefieren dejar el ítem en blanco a responder al azar. La proporción de omisión en este 
ítem fue del 10%. Esta proporción pudo también haberse incrementado por los opositores 
que se dieran cuenta de las dos soluciones posibles. La opción 1 no ha sido elegida casi 
por nadie. En resumen, es un ítem manifiestamente mejorable o directamente descartable. 
 
 
 
Análisis gráfico de ítems de opción múltiple 
 
Una estrategia complementaria, más que alternativa, de hacer el análisis de ítems consiste 
en recurrir a gráficos. Livingston (2006) y Dowing y Haladyna (1997) recomiendan esta 
estrategia. Supongamos que tenemos un test formado por ítems de 3 opciones. Se puede 
fácilmente obtener la gráfica que se muestra a continuación (Figura 2.2). Lo primero que 
hacemos es dividir la muestra en varios subgrupos (por lo general, 5) con un número de 
evaluados similar. En el ejemplo que sigue el primer subgrupo está formado por las per-
sonas que tienen las peores puntuaciones en el test (menores de 12); el segundo subgrupo, 
por los que tienen las puntuaciones 13 ó 14; el tercero, por los que tienen puntuaciones en-
tre 15 y 17; el cuarto por los que tienen puntuaciones entre 18 y 20; y el quinto por las me-
jores puntuaciones (superiores a 20). Se ha procurado que en cada subgrupo haya alrede-
dor de un 20% de la muestra. En el eje de ordenadas se muestra la proporción de evalua-
dos del correspondiente subgrupo que ha elegido cada una de las tres alternativas y la 
omisión. En la gráfica puede comprobarse que en el subgrupo con peor rendimiento en el 
test, alrededor de un 46% ha dejado el ítem sin responder, alrededor de un 22% ha elegido 
la opción 2, un 16% ha elegido la opción 1 y el restante 16% la opción 3. Similar informa-
ción se ofrece para cada uno de los cinco subgrupos. 
 
 
11 Pues 0 en binario es, en decimal, 0; 1 es 1; 10 es 2; 11 es 3; 100 es 4; y 101 es 5. Por tanto, el término que si-
gue a 101 podría ser 110 (en decimal, 6), que aparece como opción c. 
Capítulo 2. Construcción de tests y análisis de ítems 59 
Figura 2.2. Elección de las opciones de un ítem en función de la puntuación en el test 
 
 
Cada curva muestra cómo funciona la opción en los distintos subgrupos. En el caso de la 
opción correcta, cabe esperar que sea tanto más elegida cuanto mayor sea la puntuación en 
el test. Es decir, a la opción correcta deberá corresponder una curva creciente. La opción 
especificada como correcta en el ítem es la opción 3. En las opciones incorrectas o distrac-
tores debe ocurrir lo contrario: la proporción de personas que elige el distractor debe ser 
menor cuanto mayor es la puntuación en el test. Por lo tanto, cabe esperar curvas decre-
cientes. En la gráfica vemos que la curva es decreciente, aunque muy ligeramente, para el 
distractor 1 y creciente para el distractor 2. Parece, por tanto, que el distractor 2 no está 
funcionando bien y el 1 tampoco discrimina demasiado entre los que tienen puntuaciones 
altas y bajas en el test. Discrimina mejor la omisión. Otra información útil que nos da la 
gráfica es la proporción de elección de cada opción. Vemos que la opción 1 es muy poco 
elegida (sólo pasa, y ligeramente, del 10% en el subgrupo de los que menos puntuación 
han tenido en el test). Sin embargo, la proporción de omisión es la más alta en todos los 
subgrupos menos el último (que es sobrepasada por la opción correcta). 
 En el análisis cuantitativo, los indicadores psicométricos de este ítem se presentan en 
la Tabla 12.4. Se aprecia la alta proporción de omisiones y la baja tasa de elección del dis-
tractor 1. Los índices de discriminación de la opción correcta (marcada con un asterisco) 
son más bien bajos (sólo uno de los dos supera y por poco el valor 0,2). El distractor 2 
muestra indicadores de discriminación positivos, aunque muy bajos, cuando los debiera 
dar negativos, como los da el distractor 1. En conjunto, puede decirse que la calidad del 
ítem es baja. 
 
Tabla 2.14. Indicadores de las 3 opciones y de la omisión 
 1 2 3* Omisión 
Proporción de elección (p) 0,075 0,226 0,252 0,447 
Correlación ítem-test (rjX) –0,127 0,032 0,224 –0,154 
Índice de discriminación (D) –0,091 0,067 0,180 –0,156 
 
60 Medición en Ciencias Sociales y de la Salud 
Ejemplos de análisis de ítems 
Se muestran tres ejemplos. El primero corresponde a un examen con preguntas de opción 
múltiple; el segundo, a un test de rendimiento óptimo con preguntas abiertas; y el tercero, 
a un test de rendimiento típico con ítems de categorías ordenadas. 
 
 
 Ejemplo 2.12. Análisis de un examen de opción múltiple 
 
Hemos aplicado un examen de 14 ítems de opción múltiple (3 opciones) sobre los conte-
nidos de este tema a 87 estudiantes que cursaban la asignatura de Introducción a la Psico-
metría. Los estudiantes respondieron sabiendo que la calificación obtenida no tendría re-
percusión alguna en su nota final y con la instrucción de no dejar ítems sin responder. 
 El análisis psicométrico comienza con la creación del archivo de datos, que consta de 
tantas filascomo evaluados y tantas columnas como ítems. Para la obtención de los resul-
tados que siguen hemos utilizado los programas TAP (Brooks y Johanson, 2003) y SPSS. 
 Unos primeros datos de interés tienen que ver con la distribución de frecuencias de las 
puntuaciones en el test de los 87 estudiantes. El número medio de aciertos ha sido 9,149, 
el 65,4% de los 14 aciertos posibles. En proporción, 0,65 es también la media de los índi-
ces de dificultad p de los 14 ítems. Este valor incluye los aciertos que puedan haberse ob-
tenido respondiendo al azar. En este test la consideración es relevante, pues pedimos a los 
estudiantes que no dejasen respuestas sin contestar. Aplicando la fórmula [2.3], obtene-
mos la proporción media de acierto corregida, pc = 0,65 – (1 – 0,65)/2 =0,48, que queda 
muy cerca del valor 0,5 de referencia. Una primera conclusión del examen es que su nivel 
de dificultad medio es apropiado. Por tanto, los ítems facilitan que el test tenga variabili-
dad. La varianza de las puntuaciones en el examen resultó ser 4,15. 
 La Tabla 2.15 muestra para cada ítem el índice de dificultad (p) y cuatro indicadores 
de la discriminación: el índice de discriminación (D), la correlación biserial (rb), la corre-
lación biserial puntual (rbp) y la correlación biserial puntual corregida (r
c
bp). 
El primer ítem ha sido acertado por 74 de los 87 estudiantes. El índice de dificultad p 
es 0,85 (=74/87), el índice de discriminación D es 0,08. La correlación biserial es 0,31, la 
biserial puntual ítem-test es 0,20 y la correlación biserial puntual corregida, o ítem-resto 
del test, es 0,03. La tabla anterior proporciona similar información de los restantes 13 
ítems. No se han obtenido índices de discriminación negativos, excepto la correlación 
biserial puntual corregida del ítem 11. En todos los ítems la correlación biserial puntual 
está por encima de 0,20. En general, los ítems no plantean problemas de discriminación, 
aunque la correlación ítem-test corregida está muy cerca de cero en varios ítems. 
 
Capítulo 2. Construcción de tests y análisis de ítems 61 
Tabla 2.15. Resultados del análisis de 14 ítems de opción múltiple 
 
Ítem 
Dificultad 
p 
Discriminación 
D br bpr 
c
bpr 
1 0,85 0,08 0,31 0,20 0,03 
2 0,78 0,38 0,51 0,37 0,17 
3 0,87 0,10 0,34 0,21 0,05 
4 0,63 0,31 0,36 0,28 0,05 
5 0,48 0,46 0,52 0,41 0,18 
6 0,70 0,47 0,55 0,42 0,21 
7 0,28 0,46 0,55 0,41 0,20 
8 0,82 0,19 0,30 0,21 0,02 
9 0,62 0,22 0,36 0,28 0,04 
10 0,60 0,31 0,37 0,29 0,05 
11 0,63 0,22 0,27 0,21 –0,03 
12 0,83 0,25 0,45 0,30 0,12 
13 0,61 0,45 0,54 0,43 0,21 
14 0,45 0,56 0,62 0,49 0,27 
 
Analicemos las tasas de elección de las opciones incorrectas del ítem 4, que era: 
 
“La Comunidad Valenciana tiene 
a) más de 3 millones de habitantes, b) cinco aeropuertos, c) menos de tres millones de habitantes.” 
 
 ¿Cuál es el principal fallo del ítem anterior? 
 1) Las opciones no están dispuestas verticalmente. 
 2) Da pistas sobre la respuesta correcta. 
 3) Evalúa sólo el recuerdo. 
 
La Tabla 2.16 muestra la proporción de la muestra total que ha elegido cada una de las 
tres opciones (primera fila), la proporción que ha elegido cada opción del subgrupo supe-
rior (segunda fila) y del subgrupo inferior (tercera fila). La cuarta fila contiene la diferen-
cia entre las proporciones que aparecen en las filas segunda y tercera (es decir, el índice 
de discriminación D de cada opción). Las dos últimas filas muestran las correlaciones 
ítem-test e ítem-resto del test si se toma cada opción como la opción correcta. 
En la Tabla 2.16 comprobamos que la diferencia entre la proporción de acierto del 
grupo superior e inferior (0,31) coincide con el valor del índice de discriminación D para 
el ítem 4 en la Tabla 2.15. En el grupo completo la opción más elegida es la correcta (op-
ción 2). De las dos opciones incorrectas, la opción 1 es elegida por un 31% de los estu-
diantes, mientras que la 3 lo es sólo por el 6%. La opción 1 está funcionando como un 
buen distractor, pues efectivamente en una de las recomendaciones expuestas en el apar-
tado Redacción de ítems de opción múltiple se afirma que hay que disponer las opciones 
verticalmente, y ciertamente el ítem incumple esta recomendación. Los estudiantes de 
mayor conocimiento seguramente saben que el ítem incumple esa recomendación, pero se 
dan cuenta de que incumple otra más importante. Como está redactado el ítem, las opcio-
nes a y c son exhaustivas, pues la Comunidad Valenciana ha de tener más o menos de 3 
millones de habitantes, por lo que la opción correcta no puede ser la opción 1. Por tanto, el 
62 Medición en Ciencias Sociales y de la Salud 
principal fallo del ítem es que da pistas sobre la opción correcta. El distractor 3 ha sido 
muy poco elegido. Habría que cambiarlo por otro. La presencia de la palabra sólo ayuda 
quizás a hacer poco plausible el distractor, pues es difícil que un ítem evalúe sólo algo. Se 
podría cambiar ese distractor por La idea principal no está en el enunciado, que se refiere 
a otra recomendación que el ítem incumple pero que es también menos importante que lo 
indicado por la opción 2. 
 
Tabla 2.16. Indicadores de las 3 opciones 
 1 2 3 
Completo 0,31 0,63 0,06 
27% Superior (ps ) 0,15 0,81 0,04 
27% Inferior (pi ) 0,44 0,50 0,06 
Diferencia (ps–pi ) –0,29 0,31 –0,02 
bpr –0,25 0,28 –0,09 
c
bpr –0,04 0,05 –0,02 
 
Al aplicar el indicador D a los dos distractores, vemos que al 1 corresponde un indicador 
negativo de –0,29, mostrando que ha sido elegido preferentemente por los estudiantes del 
subgrupo inferior. El valor de D en el otro distractor, el 3, está muy próximo a cero. En 
cualquier caso, sólo 5 personas de la muestra total han elegido esa opción. De esas 5, una 
pertenece al subgrupo superior y dos al inferior. Cuando la frecuencia total de elección 
del distractor es tan baja no es posible obtener diferencias de entidad entre los subgrupos. 
 
Figura 2.3. Elección de las opciones de un ítem en función de la puntuación en el test 
 
 
La Figura 2.3 muestra la proporción de estudiantes que ha elegido cada alternativa dentro 
del subgrupo con puntuaciones bajas (33% de peores calificaciones en el test), medias 
(33% de puntuaciones centrales) y altas (34% de puntuaciones mejores). Se han formado 
sólo tres subgrupos por tener la muestra sólo 87 estudiantes. Se aprecia el adecuado fun-
cionamiento del distractor 1 y de la opción correcta 2. El distractor 3 apenas ha sido elegi-
do en ninguno de los subgrupos. 
Capítulo 2. Construcción de tests y análisis de ítems 63 
 En todos los items la correlación biserial puntual y la biserial están por encima de la 
referencia 0,20, lo que sugiere que ningún ítem requiere una revisión profunda. La Figura 
2.4 muestra que de los cuatro ítems con menores valores de la biserial puntual, tres (ítems 
1, 3 y 8) de ellos resultaron muy fáciles, con valores p superiores a 0,80. Como se ha 
comentado anteriormente, resulta complicado que ítems muy fáciles o muy difíciles sean a 
la vez discriminativos. Oosterhof (1976) encontró que cuanto más se aleja de 0,5 el índice 
de dificultad p del ítem, menores suelen ser los índices de discriminación. 
 
Figura 2.4. Relación entre los índices de dificultad y de discriminación 
 
 
 
El análisis visto puede extenderse a un examen compuesto por J preguntas abiertas. En 
ese caso, obtendríamos la media como indicador de la dificultad. Prestaríamos atención a 
la varianza de cada pregunta. En principio, como ocurre en el caso de ítems dicotómicos, 
los ítems que tienen más varianza son los que más ayudan a que el test tenga varianza. Por 
tanto, una pregunta con varianza nula o casi nula, en la que la mayoría de los estudiantes 
hayan obtenido la misma puntuación, no parece en principio una buena pregunta, aunque 
también aquí cabe hacer la salvedad de que puede tener sentido mantener algunas pregun-
tas muy fáciles si se introducen para constatar el dominio de conocimientos fundamenta-
les.El indicador de la capacidad discriminativa de cada pregunta sería la correlación de 
Pearson entre las puntuaciones en cada ítem y la puntuación en el test. Cabe también ob-
tener la correlación de Pearson entre las puntuaciones en la pregunta y en el resto del test, 
si son pocas las preguntas. Si tenemos una medida en un criterio externo que nos interese 
predecir, podríamos obtener el índice de validez de los ítems. En los dos ejemplos siguien-
tes se obtienen e interpretan todos estos indicadores con datos reales. 
 
 
 Ejemplo 2.13. Análisis de ítems abiertos 
 
En la parte práctica de un examen el estudiante ha de responder a 8 preguntas abiertas, 
puntuadas cada una entre 0 y 1. La nota en el examen práctico es la suma de las califica-
64 Medición en Ciencias Sociales y de la Salud 
ciones en sus 8 ítems. La Tabla 2.17 muestra la media, la varianza y la correlación ítem-
resto del test de cada ítem. El número de estudiantes del examen ha sido 68. 
 
Tabla 2.17. Resultados del análisis de 8 ítems 
Ítem Media Varianza 
Correlación 
ítem-resto del test 
1 0,79 0,10 0,06 
2 0,37 0,11 0,26 
3 0,12 0,09 –0,02 
4 0,92 0,07 0,16 
5 0,77 0,12 0,26 
6 0,69 0,09 0,40 
7 0,64 0,20 0,31 
8 0,36 0,16 0,21 
 
Se aprecia en la tabla que las preguntas han resultado muy diferentes en dificultad. La 4 
ha resultado muy fácil (su media, 0,92, está muy cerca de la máxima puntuación posible, 
1). La 3 ha resultado muy difícil (su media, 0,12, está cerca de cero). Los ítems 6 y 7 di-
fieren poco en dificultad (sus medias son 0,69 y 0,64), pero más en varianza. El ítem 7, en 
principio, ayuda más que el ítem 6 a que la nota en el examen tenga variabilidad. La últi-
ma columna muestra que cinco de los ocho ítems correlacionan más de 0,20 con el resto 
del test. En el ítem 4 la correlación está ligeramente por debajo de ese valor. En dos ítems 
(1 y 3) la correlación es muy próxima a cero y esos ítems no parecen relacionarse con el 
examen práctico en su totalidad. 
 
 
 
 Ejemplo 2.14. Análisis de ítems de categorías ordenadas 
 
Los autores hemos elaborado una escala de 12 ítems para medir Estabilidad Emocional. 
Cada ítem es un adjetivo y el evaluado debe indicar cómo de bien le describe, seleccio-
nando una de las 5 categorías disponibles (Muy mal, Mal, Ni bien ni mal, Bien, Muy bien). 
Los principales resultados del análisis de ítems (media, desviación típica y correlación 
ítem-test corregida) se muestran en la Tabla 2.18. Lo primero que llama la atención son 
los valores tan elevados de las medias12. Cada ítem se puntuó entre 1 y 5 (ítems directos) o 
entre 5 y 1 (ítems inversos). Por tanto, en los ítems directos, al obtenerse medias por en-
cima de 4, prácticamente todos los evaluados consideran que ser feliz, ser una persona 
madura… una persona equilibrada les describe bien o muy bien. Igualmente, en los ítems 
inversos, por superar las medias el valor 4, consideran que ser irritable, malhumorada… y 
ser una persona con sentimientos de culpa les describe mal o muy mal. Las desviaciones 
típicas son pequeñas, como cabe esperar cuando las medias son tan altas. Las correlacio-
nes de cada ítem con el resto del test son todas positivas, significativamente distintas de 
 
12
 Los datos se han obtenido en un proceso selectivo y muy probablemente las respuestas han sido parcialmente 
falseadas (deseabilidad social) para acomodarse al perfil psicológico que demanda el puesto. 
Capítulo 2. Construcción de tests y análisis de ítems 65 
cero, y mayores de la referencia 0,2. Por tanto, todos los ítems tienen una adecuada dis-
criminación y están contribuyendo a medir lo que se pretende medir con el test. No pare-
ce, por tanto, que haya que reconsiderar o anular ninguno de los 12 ítems. 
 
Tabla 2.18. Resultados del análisis de 12 ítems de categorías ordenadas 
 
Soy una persona… Media Desviación típica 
Correlación 
ítem-test 
corregida 
Feliz 4,39 0,583 0,423 
Estable 4,43 0,559 0,586 
Madura 4,28 0,537 0,521 
Optimista 4,32 0,577 0,482 
Equilibrada 4,43 0,576 0,571 
Coherente 4,26 0,578 0,486 
Irritable 4,33 0,614 0,542 
Malhumorada 4,34 0,568 0,594 
Miedosa 4,13 0,564 0,438 
Envidiosa 4,31 0,611 0,491 
Desanimada 4,35 0,596 0,574 
Con sentimientos de culpa 4,25 0,794 0,381 
 
 
 
Corrección de los efectos del azar 
 
En los tests formados por ítems de opción múltiple podemos sobrestimar el nivel de ren-
dimiento de algunas personas, dado que algunos de sus aciertos han podido producirse por 
haber respondido al azar, y no por saber la opción correcta. El problema entonces consiste 
en establecer un procedimiento para descontar del número total de aciertos (X) los que su-
puestamente se han producido por haber respondido al azar (Xa). 
 Supongamos que dos estudiantes saben lo mismo y responden al mismo test, que con-
siste en 100 preguntas con formato verdadero-falso. Los dos saben 60 preguntas. El pri-
mero responde a las 60 preguntas que sabe y omite las 40 que no sabe. Su puntuación en 
el test, su número de aciertos, será 60. El segundo estudiante responde a las 60 preguntas 
que sabe y decide responder estrictamente al azar a las otras 40. Como cada una tiene dos 
opciones, supongamos que acierta 20 de las 40. Pues bien, mientras que el primer estu-
diante tiene 60 aciertos (las preguntas que sabe), el segundo tiene 80 (las 60 que sabe y las 
20 que ha acertado por haber respondido al azar). En este apartado vamos a proponer un 
procedimiento que pretende eliminar del número total de aciertos los que presumiblemen-
te se deben al azar. 
 Ante un ítem, supondremos que la persona se encuentra en uno de dos estados de co-
nocimiento: en el estado conoce la respuesta o en el estado no conoce la respuesta. En el 
primer estado supondremos que conoce la respuesta y acierta con probabilidad 1. Si se en-
cuentra en el segundo estado, tiene dos posibilidades: no responder o elegir al azar una de 
las K opciones. Dado que el ítem tiene una sola opción correcta y que suponemos que to-
das las opciones son equiprobables cuando se responde al azar, la probabilidad de acierto 
66 Medición en Ciencias Sociales y de la Salud 
será 1/K y la de fallo será 1 – (1/K) = (K – 1)/K. La Figura 2.5 muestra las diferentes po-
sibilidades. 
 
Figura 2.5. Estados de conocimiento y resultados en el ítem 
 
 
Llamemos Ra al número de respuestas al azar que la persona da (es decir, al número de 
ítems que ha contestado sin saber la respuesta). De las Ra respuestas, algunas serán acier-
tos aleatorios (Xa) y otras serán errores (E). Nuestro objetivo es obtener el valor de Xa para 
descontarlo del número total de aciertos (X) que ha obtenido. 
 Respondiendo al azar, la probabilidad de fallar un ítem vimos que es (K – 1)/K. Si se 
responde al azar a Ra ítems, el número esperado de errores (E) será: 
 
K
K
RE a
1−
=
 
[2.9] 
 
Si despejamos Ra de esta expresión, se obtiene: 
 
E
K
K
Ra
1−
= [2.10] 
 
Siguiendo el mismo razonamiento, el número esperado de aciertos aleatorios cuando se 
dan Ra respuestas al azar será: 
 
K
RX aa
1
= [2.11] 
 
Si realizamos las sustituciones oportunas, se obtiene: 
 
E
KK
E
K
K
X a
1
11
1 −
=
−
= [2.12] 
 
La expresión anterior permite obtener Xa, a partir de los errores cometidos (E) y del núme-
ro de alternativas que tienen los ítems (K). Podemos observar que cada error se pondera 
por la expresión 1/(K – 1), lo que significa que por cada error hay que descontar tantos 
aciertos como indica ese cociente: en tests de 2 alternativas de respuesta, hay que descon-
Capítulo 2. Construcción de tests y análisis de ítems 67 
tar 1 acierto por cada error; en ítems de 3 alternativas, 0,5 aciertos por cada error; en ítems 
de 4 alternativas, 0,33 aciertos por cada error; y así sucesivamente. 
 La puntuación corregida de una persona en el test será: 
 
1−
−=−=
K
E
XXXX a
c [2.13] 
 
Si aplicásemos esta fórmula al ejemplo que planteamos al comienzo, tendríamos que, para 
el primer estudiante,60
12
0
60
1
=
−
−=
−
−=
K
E
XX c 
 
Para el segundo, 
 
60
12
20
80
1
=
−
−=
−
−=
K
E
XX c 
 
La fórmula correctora deja a ambos estudiantes, que sabían lo mismo, con la misma pun-
tuación (60), que son por cierto los ítems que sabían. 
 La fórmula anterior se aplica cuando todos los ítems tienen igual número de opciones. 
Si el número varía, un error en un ítem j de Kj opciones quitaría 1/(Kj – 1) aciertos (Frary, 
1988). Por tanto, Xa sería la suma de los valores 1/(Kj – 1) de los ítems en los que se obtu-
vo un error. 
 
 Ejemplo 2.15. Obtención de las puntuaciones corregidas 
 
Un test de conocimientos del nivel de inglés está formado por 140 ítems con 5 opciones 
de respuesta cada uno. En la Tabla 2.19 se detallan el número de aciertos (X), errores (E) y 
omisiones (O) que obtuvieron 3 evaluados. La última columna contiene sus puntuaciones 
corregidas. Si atendemos únicamente al número de aciertos obtenidos, quien más inglés 
parece saber es el evaluado 1, seguido del 2 y en último lugar el 3. Sin embargo, tras co-
rregir los efectos del azar, comprobamos que la corrección afecta al orden que estableci-
mos a partir de las puntuaciones sin corregir. Similarmente, si nos fijamos en la corrección 
hecha para el evaluado 3, vemos que no se le ha descontado nada, pues no cometió ningún 
error. 
 
Tabla 2.19. Aciertos, errores, omisiones y puntuaciones corregidas 
Evaluado X E O X c 
1 112 28 0 112 – 28/4 = 105 
2 110 12 18 110 – 12/4 = 107 
3 109 0 31 109 – 0/4 = 109 
 
 
68 Medición en Ciencias Sociales y de la Salud 
Haciendo así las cosas se está asumiendo que sólo se puede obtener un error cuando se 
responde al azar. El modelo no contempla la posibilidad de error por descuido o por haber 
aprendido algo mal, sino exclusivamente como resultado de una respuesta completamente 
al azar entre las K opciones. Por tanto, si hay errores es que ha habido respuestas al azar. 
Según la fórmula [2.13], a partir del número observado de errores puede obtenerse el 
número de aciertos que han debido producirse por azar y ese valor se resta del total de 
aciertos. Se pueden plantear otros modelos alternativos al expuesto en la Figura 2.5, de 
cómo los evaluados responden a los ítems de opción múltiple. De hecho, no es infrecuente 
que los alumnos salgan de un examen diciendo que no han dado una sola respuesta al 
azar y sin embargo obtienen errores. Esto ocurre porque consideran correctas opciones 
que no lo son. En cualquier caso, lo que es evidente es que inferir el número de aciertos 
debidos al azar a partir de estos errores es incorrecto, pues no se han generado por haber 
respondido al azar. En el apéndice de este tema se describe otra fórmula para la corrección 
de los efectos del azar. 
 ¿Hay que aplicar o no las fórmulas correctoras? No hay duda de que se ha de avisar al 
evaluado de si se va a aplicar o no alguna fórmula y de sus detalles, en su caso. No hay 
tanto acuerdo en relación a si es adecuado aplicarlas o no. Conviene tener en cuenta las 
consideraciones que se exponen a continuación. 
 Lo que hace la fórmula correctora es eliminar los aciertos que se obtienen al responder 
completamente al azar. En ese sentido, quien responde sólo a lo que sabe y quien respon-
de a lo que sabe y a lo que no (y a estas preguntas completamente al azar) deberá esperar, 
tras la aplicación de la fórmula correctora, la misma puntuación. Por lo tanto, si se aplica 
la fórmula descrita, debiera no importar dar respuestas al azar, pues se espera obtener el 
mismo número de aciertos. Supongamos que estamos ante un ítem de cinco opciones. Si 
alguien responde completamente al azar, la probabilidad de acierto es 0,20 y de fallo 0,80. 
Al aplicar la fórmula, por cada error el número de aciertos queda reducido en ¼ = 0,25. Si 
esto lo hace en los 20 ítems de un examen, su número esperado de aciertos y de errores es 
20(0,20) = 4 y 20(0,8) = 16, respectivamente. Al aplicar la fórmula correctora [2.13], 
tendríamos que Xc =4 – 16/4 = 0. Supongamos que alguien sabe que una de las opciones 
no es correcta. En ese caso, si responde completamente al azar entre las demás, la probabi-
lidad de acierto es 0,25 y la de fallo es 0,75. Si, por ejemplo, en 20 preguntas responde al 
azar entre cuatro opciones, pues tiene la seguridad de que una de las opciones no es co-
rrecta, el número esperado de aciertos por azar en esas 20 preguntas será (20)(0,25) = 5 y 
el de errores (20)(0,75)= 15. Sin embargo, al aplicarle la fórmula correctora, el número 
esperado de aciertos que se le quitarán serán (15)(0,25) = 3,75. Es decir, se le quitarían 
menos aciertos (3,75) de los que esperaría (5). Supongamos que puede descartar dos op-
ciones en cada ítem. En ese caso, si responde completamente al azar entre las demás, la 
probabilidad de acierto es 1/3 y la de fallo es 2/3. Si, por ejemplo, en 20 preguntas res-
ponde al azar entre las tres opciones, pues tiene la seguridad de que dos de las opciones no 
son correctas, el número esperado de aciertos por azar en esas 20 preguntas será 
(20)(1/3) = 6,7, y el de errores será (20)(2/3)=13,3. Al aplicarle la fórmula, el número de 
aciertos que se le quitarían sería (13,3)(0,25) = 3,32, que es inferior al número esperado de 
aciertos (6,7). Vuelve a resultar interesante responder al azar entre las tres opciones. 
En conclusión, si no se puede descartar ninguna opción, la fórmula te va quitar, en 
promedio, lo que ganes por haber respondido al azar. Si se tiene seguridad de que alguna 
opción es incorrecta, el número de aciertos esperado es mayor que el número de aciertos 
que la fórmula resta si se responde al azar entre las opciones no descartadas. Este resulta-
Capítulo 2. Construcción de tests y análisis de ítems 69 
do es importante, pues muestra que la aplicación de la fórmula correctora NO elimina to-
dos los aciertos que puedan haberse producido por responder al azar. Elimina todos los 
aciertos cuando se responde al azar entre todas las opciones, pero no cuando se elimina 
alguna porque se conoce que es falsa. 
 Entre los especialistas no existe acuerdo sobre el tipo de instrucciones que se tienen 
que dar, por ejemplo, en un examen con preguntas de opción múltiple. Cuando un estu-
diante no sabe lo suficiente para aprobar, la mejor estrategia que puede seguir es respon-
der al azar a las preguntas que no sabe, por si pudiera, por puro azar, obtener el número de 
aciertos requerido para aprobar. La recomendación general de “no responder al azar” no 
es la adecuada para estos estudiantes y cabe plantearse si puede darse como instrucción 
general cuando no es apropiada en algunas situaciones (Frary, 2008). Este autor concluye 
que: “…es difícil recomendar una fórmula correctora de los aciertos obtenidos por las 
respuestas dadas al azar en los exámenes de opción múltiple habituales en la universi-
dad… Lo más justo es recomendar a todos los estudiantes que lo mejor para ellos es con-
testar a todas las preguntas sea cual sea su nivel de conocimientos”. 
 Otros autores (Burton y Miller, 1996; Burton 2001b, 2004) están a favor de aplicar las 
fórmulas correctoras, porque son eficaces en la reducción de las respuestas al azar, indi-
cando a los evaluados la reducción que se va a aplicar por cada error. Burton (2001b) pro-
pone que se aplique la Fórmula [2.13] a pesar de que no corrija adecuadamente los acier-
tos atribuibles a las respuestas al azar, precisamente porque reduce o elimina dichas res-
puestas y porque considera deshonesto instruir a los evaluados para que respondan a lo 
que no saben. Otra ventaja de intentar evitar las respuestas al azar es que, desde un punto 
de vista instruccional, las respuestas erróneas son informativas de lo que un estudiante no 
ha llegado a aprender. Cuando fomentamos las respuestas al azar, se pierde esta valiosa 
información (Burton, 2004). 
 
70 Medición en Ciencias Sociales y de la Salud 
 
 
Apéndice 
 
 
Segunda fórmula correctora 
 
Traub, Hambleton y Singh (1969) propusieron una segunda fórmulaque premia las omisiones en 
vez de penalizar los errores. En un test de J ítems de opción múltiple de K opciones, con sólo una 
opción correcta, una persona obtiene X aciertos, O omisiones y E errores. En un ítem, si en vez de 
omitir se hubiese respondido al azar, la probabilidad de acierto sería 1/K. De haber hecho esto mis-
mo en los O ítems omitidos, el valor esperado de aciertos en los O ítems sería O(1/K)=O/K. Se pro-
pone como segunda fórmula la siguiente: 
 
K
O
XX c +=2
 
[2.16] 
 
La segunda fórmula añade los aciertos que cabe esperar obtener si se responde completamente al 
azar a los ítems de los que no se sabe la respuesta correcta, en vez de quitar los aciertos que se su-
ponen obtenidos por haber respondido al azar. Es evidente que las puntuaciones corregidas obteni-
das por la segunda fórmula por lo general serán más altas que las obtenidas por la primera. 
 La Tabla 2.20 se ha construido a partir de los datos de la Tabla 2.19, que incluye el patrón de re-
sultados de 3 evaluados en un test de 140 ítems de 5 opciones de respuesta. 
 
Tabla 2.20. Aciertos, errores, omisiones y puntuaciones corregidas 
Evaluado X E O cX cX 2 
1 112 28 0 105 112 + 0/5 = 112 
2 110 12 18 107 110 +18/5 = 113,6 
3 109 0 31 109 109 + 31/5 = 115,2 
 
Se aprecia que las tres personas están ordenadas de la misma manera en ambas fórmulas correctoras. 
Es más, si representamos gráficamente las puntuaciones de las tres personas según las dos correc-
ciones, vemos (Figura 2.6) que están en la misma recta: 
 
Figura 2.6. Relación lineal entre las dos fórmulas correctoras 
111
112
113
114
115
116
104 106 108 110
X
c
2
=
 X
 +
 O
/K
Xc = X - E/(K-1)
 
Capítulo 2. Construcción de tests y análisis de ítems 71 
 
La relación observada se cumple siempre, pues existe una relación lineal entre los valores que se ob-
tienen con ambas fórmulas: 
 
 
K
J
X
K
K
K
K
K
K
K
J
K
E
X
K
K
K
K
K
J
K
K
K
E
K
K
K
K
X
K
J
K
E
K
K
X
K
J
K
E
K
X
X
K
EXJ
X
K
O
XX
c
c
+
−
=
−












−
+
−
−=
−












−
+





−
−





−





 −=
+−




 −=+−−=
−−
+=+=
1
1
11
1
111
1
1
2
 
 
Ambas fórmulas son equivalentes, pues ordenan a las personas exactamente de la misma manera. 
Las puntuaciones obtenidas son, sin embargo, muy diferentes. La fórmula que premia las omisiones 
otorga puntuaciones más altas que la que penaliza los errores. Por tanto, a la hora de interpretar las 
puntuaciones habrá que tener esto en cuenta. No parece que pueda ponerse, por ejemplo, el mismo 
punto de corte de aprobado si se aplica una u otra. Algunos autores plantean que, desde un punto de 
vista ético, parece mejor estrategia premiar la omisión cuando no se sabe, que castigar lo que se 
quiere evitar (Frary, 2008). 
 Hemos visto que esas posiciones relativas de los evaluados son las mismas cuando se aplica una 
u otra fórmula. La relación de cX y cX 2 con la puntuación sin corregir, X, requiere algún comenta-
rio adicional. 
 Es fácil ver que existe una relación lineal perfecta entre cX
 
y X cuando no hay omisiones. 
 
 
111111 −
−





−
=
−
−
−
+=
−
−
−=
−
−=
K
J
K
K
X
K
J
K
X
X
K
XJ
X
K
E
XX c 
 
Como existe una relación lineal entre cX y cX 2 , se sigue que también la hay entre 
cX 2 y X. Por lo 
tanto, la posición relativa de las personas es la misma cuando son puntuadas con las dos fórmulas 
correctoras y la misma que se obtendría tomando la puntuación sin corregir, en el caso de que no 
hubiera omisiones. La relación entre la puntuación sin corregir y la corregida en el caso general, 
cuando hay omisiones, es de un fuerte componente lineal, pero no cabe esperar una relación lineal 
perfecta. La Figura 2.7 muestra los resultados de 80 estudiantes en un test de 14 ítems. Se obtuvo el 
siguiente diagrama de dispersión entre las puntuaciones corregidas Xc y las puntuaciones sin corre-
gir X. La correlación entre ambas es de 0,971. 
 
 
72 Medición en Ciencias Sociales y de la Salud 
Figura 2.7. Relación entre el total de aciertos, X, y la puntuación corregida, Xc 
 
 
 
Programas de ordenador para el análisis de ítems 
Son muchos los programas disponibles para la realización del análisis clásico de ítems. Algunos son 
además de libre distribución. A continuación se detallan las principales características de algunos y 
cómo pueden conseguirse. 
 TAP (Brooks y Johanson, 2003) es un programa de libre distribución. Proporciona para cada 
ítem los índices de dificultad (p), discriminación (D), correlación biserial (rb), correlación biserial 
puntual (rbp) y correlación biserial puntual corregida. Permite el estudio del funcionamiento de las 
opciones incorrectas, pues proporciona para cada opción la frecuencia de elección y el índice de dis-
criminación (D). No proporciona para los distractores las correlaciones ítem-test o ítem-resto del 
test. El tamaño del grupo superior e inferior lo fija por defecto en el 27% de la muestra, pero el 
usuario puede modificar el porcentaje. El programa puede obtenerse en la dirección: 
http://oak.cats.ohiou.edu/~brooksg/software.htm#TAP. 
 El programa CIA (http://shkim.myweb.uga.edu/), de libre distribución, obtiene para cada opción 
del ítem las correlaciones biserial y biserial puntual, con el test y con el resto del test. Divide la 
muestra en cinco subgrupos de igual tamaño (20%) y obtiene en cada uno cuántos evaluados han 
elegido cada una de las opciones. No permite cambiar el número de subgrupos. 
 Ledesma, Molina, Valero y Young (2002) han desarrollado un módulo, de libre distribución, 
que proporciona los siguientes datos: 1) Los estadísticos descriptivos para los ítems y el test, 2) los 
efectos de la eliminación de cada ítem en los estadísticos descriptivos del test, y 3) las correlaciones 
entre ítems, ítem-total e ítem-resto del test. El programa da los resultados no sólo mediante tablas, 
sino también mediante gráficas. 
 López-Pina (2005) proporciona otro programa de libre distribución para el análisis clásico de 
ítems, denominado CLM-1, válido para ítems de respuesta seleccionada. Obtiene los índices de difi-
Capítulo 2. Construcción de tests y análisis de ítems 73 
cultad y de discriminación estudiados y el índice de fiabilidad de cada ítem. Proporciona además da-
tos psicométricos del test completo. 
 ITEMAN es un programa específico de análisis clásico de ítems de opción múltiple y de cate-
gorías ordenadas. Proporciona para cada ítem el índice de dificultad, el índice de discriminación y 
las correlaciones biserial y biserial puntual sin corregir y corregidas. Más información en Lukas 
(1998) y en http://assess.com/. En esta misma dirección se puede encontrar otro programa, LERTAP 
5. Es una herramienta muy completa para el análisis clásico de ítems y tests. En lo relativo específi-
camente al análisis de ítems, proporciona los indicadores de dificultad y discriminación, tanto los 
basados en la diferencia entre grupos, como en la correlación con el test o resto del test. Permite la 
inclusión de un criterio externo al test. Proporciona información gráfica del rendimiento del ítem pa-
ra los distintos subgrupos. 
 El paquete SPSS no tiene específicamente un programa para el análisis de ítems, pero el proce-
dimiento Análisis de fiabilidad puede resultar útil. Proporciona para cada ítem su media y varianza, 
la correlación entre el ítem y el resto del test, y la media, varianza y fiabilidad del test si se elimina 
cada ítem. Este procedimiento puede aplicarse a ítems de respuesta seleccionada y construida, así 
como a ítems de categorías ordenadas. Lei y Wu (2007) han desarrollado programas para SPSS y 
SAS que completan el análisis clásico de ítems dicotómicos y politómicos de ambos paquetes. 
 El grupo de investigación TIDE, de la Universidad de Barcelona, ha desarrollado varios pro-
gramas relacionados con el análisis de ítems y tests. METRIX Engine obtiene para cada ítemsus es-
tadísticos descriptivos y los índices de dificultad y discriminación en el caso de ítems de opción 
múltiple. La aplicación SEDI (Renom, Rodríguez, Solanas, Doval, Núñez y Valle, 2001) acepta la 
salida del módulo de análisis de ítems de METRIX, evalúa la calidad de cada ítem y recomienda 
qué hacer con cada uno de ellos. Más información en http://www.ub.es/comporta/tide/Index.htm. 
 


 
 
3 
Modelo Clásico y fiabilidad 
 
 
 
 
 
Introducción 
 
En las Ciencias clásicas (Medicina, Física, Química...) existen aparatos, con márgenes de 
error especificados, para medir características muy diversas como son la tensión arterial, 
la temperatura o la concentración de determinados elementos químicos. A pesar de la di-
versidad de atributos que pueden medirse, cada uno de estos instrumentos debe satisfacer 
siempre cuatro tipos de exigencias: 
 
1. Que la medición sea fiable o replicable; es decir, que al repetir las medidas de la misma 
magnitud se produzcan resultados iguales o parecidos. Por ejemplo, esperaremos obte-
ner medidas similares independientemente de si el termómetro es digital o de mercurio, 
de la persona que toma la temperatura o, si el intervalo entre medidas es suficientemen-
te corto, del momento en que se realizan. 
2. Que las inferencias sobre los atributos que se realizan a partir de las medidas observa-
das sean válidas. Nuestras inferencias serán válidas si son ciertos los principios teóricos 
en los que se fundamentan. Por ejemplo, a partir del principio físico de la dilatación y 
teniendo en cuenta el valor del coeficiente de dilatación del mercurio, podemos deducir 
la temperatura de un objeto a partir de la marca del mercurio en un tubo de cristal. 
3. Que se siga el protocolo de aplicación del instrumento y que se atienda al manteni-
miento de éste, si es necesario. Por ejemplo, para detectar la presencia de fiebre debe-
mos saber en qué parte del cuerpo poner el termómetro y durante cuánto tiempo. 
4. Que se tenga en cuenta su rango de aplicabilidad. Cualquier instrumento tendrá un ran-
go de aplicabilidad según los niveles de atributo entre los que permite discriminar. En 
nuestro ejemplo, un termómetro para medir la temperatura corporal no será útil para 
medir las altas temperaturas en un horno. 
 
Las anteriores exigencias también deberían mantenerse para cualquier instrumento de 
medición en Psicología y disciplinas afines. Podemos pensar en las consecuencias que tie-
76 Medición en Ciencias Sociales y de la Salud 
ne para el psicólogo de selección que un test no proporcione una buena información de los 
niveles de inteligencia de los aspirantes; o las consecuencias que puede tener para un es-
tudiante que se le aplique una prueba de admisión a la universidad de forma inapropiada o 
incorrecta; también un psicólogo clínico que utiliza un test de depresión en su labor profe-
sional, debe tener un alto grado de certeza de que las puntuaciones que proporciona el test 
resultan buenas cuantificaciones de los niveles de depresión de sus pacientes; los ejemplos 
son innumerables… 
Sin embargo no resulta fácil medir atributos psicológicos pues no existen modelos teó-
ricos tan desarrollados y consensuados como los de las ciencias clásicas. Aun así, los 
psicólogos han intentando definir modelos teóricos que permitan inferir constructos teóri-
camente relevantes (o, al menos, predictivos) como la depresión a partir de los comporta-
mientos o las respuestas de los evaluados a una serie de ítems. Los procedimientos para 
evaluar la verosimilitud de esas inferencias se abordarán en el capítulo sobre validación de 
las medidas. 
El presente capítulo se centra en la primera exigencia (fiabilidad de las medidas) ya 
que si las medidas no se replican de una situación a otra, difícilmente podremos defender 
ninguna inferencia o predicción. Si las puntuaciones no se replican diremos que son poco 
precisas o poco fiables. En este capítulo, revisaremos el modelo matemático propuesto por 
Spearman (1904a; 1904b; 1907), que permite operativizar el concepto de fiabilidad y va-
lorar las posibles repercusiones de la falta de fiabilidad en nuestras decisiones. 
 
 
La Teoría Clásica de los Tests 
 
La principal idea del modelo de Spearman es que debemos distinguir entre el valor real 
del atributo que medimos (la puntuación verdadera) y la medida falible que obtenemos en 
el proceso de medición (la puntuación observada). Las medidas que tomamos incluyen un 
cierto grado de error. El error de medida expresa el grado en que nuestra medida se desvía 
del valor real. 
La idea de partida para poder graduar la precisión de un instrumento es que, cuanto 
más preciso es, más se replicarán nuestras observaciones en sucesivas mediciones. Aun-
que el planteamiento parece sencillo, dos obstáculos acompañan desde el principio a la 
medición de cualquier variable psicológica. El primero es que es difícil obtener medidas 
repetidas independientes de la misma persona con el mismo instrumento en un intervalo 
corto de tiempo. En Psicología esa falta de independencia (p. ej., porque haya recuerdo de 
las respuestas dadas en la primera ocasión) puede tener efectos en la replicabilidad de las 
medidas que no se asocian a la precisión del instrumento. Por tanto, es importante definir 
bien lo que se entiende por replicabilidad. El segundo obstáculo es la imposibilidad de ob-
tener mediciones directas. No podemos tener acceso directo al valor real de un atributo 
psicológico. Por tanto, será importante definir bien qué se entiende por puntuación verda-
dera y por error. 
Spearman desarrolló un modelo formal denominado Modelo Clásico o Modelo Lineal 
Clásico, fundamentado en diversos supuestos a partir de los cuales se definen los concep-
tos de puntuación verdadera y error y se extraen determinadas consecuencias de aplicabi-
lidad práctica para cuantificar el tamaño de esos errores y corregir su efecto. Cuando 
aplicamos un test pretendemos que sea preciso, es decir, que la variabilidad de los evalua-
Capítulo 3. Modelo clásico y fiabilidad 77 
dos según su puntuación en el test refleje su variabilidad real en el atributo. Pues bien, el 
Modelo Clásico nos permite deducir, de forma elegante, qué parte de la variabilidad en las 
puntuaciones en un test se debe a la variabilidad en el atributo medido y qué parte se ex-
plica por la presencia de errores en el proceso de medición. 
A las ideas de Spearman se han sumado posteriormente las aportaciones de otros mu-
chos investigadores. El armazón teórico del Modelo Clásico se conoce como Teoría 
Clásica de los Tests (TCT) y se trata del principal modelo de referencia para la construc-
ción y evaluación de tests psicológicos. En español, la información sobre el Modelo 
Clásico puede encontrarse en varios manuales (p. ej., Martínez Arias, 1995; Martínez 
Arias, Hernández Lloreda y Hernández Lloreda, 2006; Muñiz, 1998; Nunnally y Berns-
tein, 1995). En inglés, existen numerosos manuales sobre la Teoría de los Tests (p. ej., 
Allen y Yen, 1979; Crocker y Algina, 1986; Gulliksen, 1950; De Gruijter y van der 
Kamp, 2003; Furr y Bacharach, 2008). 
 
 
Los supuestos fundamentales del Modelo Clásico 
 
El Modelo Clásico se sustenta en varios supuestos muy simples (Feldt y Brennan, 1989; 
Haertel, 2006). Considere que para medir el atributo psicológico disponemos de varios 
tests distintos a los que llamaremos formas. Por ejemplo, si quisiéramos medir la Depre-
sión podríamos tener un banco de ítems enorme con muchas de las preguntas posibles. A 
partir de esas preguntas, podríamos construir distintos tests con especificaciones idénticas 
(igual número de ítems, contenido similar, etc.). Cada uno de esos tests sería una forma 
del test. A las puntuaciones que obtienen los evaluados en las distintas formas las deno-
minaremos como variables X1, X2,…, Xf ; a continuación se describe qué propiedades de-
ben tener esas formas para que podamos estimar la precisión de cualquiera de ellas. 
 
 
Primer supuesto: el modelo linealEl primer supuesto establece que la puntuación observada de una persona i en una forma f 
de un test (Xif) se descompone linealmente en dos componentes hipotéticos, la puntuación 
verdadera de la persona (Vi), que es una constante para cada persona i, y el error de medi-
da que se comete al medir el rasgo con el test f (Eif): 
 
ifiif EVX += [3.1] 
 
La puntuación verdadera refleja por tanto la puntuación en el atributo tal y como lo mide 
un test con esas especificaciones; esto quiere decir que las puntuaciones verdaderas de una 
persona en dos tests con distintas especificaciones, por ejemplo distinto número de ítems, 
no serán iguales. Observe que la puntuación Vi no lleva el subíndice f ; se asume que la 
puntuación verdadera del evaluado i es la misma en cada una de las formas: 
 
ifiii VVVV ==== 21 
 
78 Medición en Ciencias Sociales y de la Salud 
El error de medida depende de diferentes factores (propios de la persona, del test y de la 
situación) que hacen que su puntuación empírica, X, no sea exactamente su nivel de atri-
buto, V. Por ejemplo, en una prueba de conocimientos pueden constituir fuentes de error 
el nivel de ansiedad, la falta de motivación para responder, el ruido en el aula, la adecua-
ción de las instrucciones de aplicación, el nivel de riesgo asumido por el que responde, la 
suerte que se tiene al responder a las preguntas de las que no se sabe la respuesta, qué pre-
guntas concretas aparecen en la prueba, etc. 
Por tanto, el error de medida se establece como la diferencia entre la puntuación empí-
rica y la verdadera: 
 
iifif VXE −= [3.2] 
 
Considerando todo lo anterior, el Modelo Clásico puede expresarse en términos de varia-
bles como: 
 
ff EVX += [3.3] 
 
Para que se comprenda lo que significa cada uno de los términos, obsérvese la estructura 
de la siguiente matriz de datos en la Tabla 3.1. V, Ef (E1, E2,…) Xf , (X1, X2,…) son las va-
riables (el subíndice f indica la forma aplicada) y Vi, Eif, Xif, indican los valores concretos 
de las variables para el i-ésimo evaluado. 
 
Tabla 3.1. Estructura de una matriz de datos si aplicáramos distintas formas del test a un grupo de eva-
luados y fueran conocidas las puntuaciones verdaderas (V) 
 
Puntuación 
verdadera 
Error 
con 
el 
test 1 
Puntuación 
empírica 
en el test 1 
Error 
con 
el 
test 2 
Puntuación 
empírica 
en el test 2 
Error 
con 
el 
test 3 
Puntuación 
empírica 
en el test 3 
… 
 V E1 X1 = V + E1 E2 X2 = V + E2 E3 X3 = V + E3 … 
Evaluado 1 V1 E11 X11 E12 X12 E13 X13 … 
Evaluado 2 V2 E21 X21 E22 X22 E23 X23 … 
Evaluado 3 V3 E31 X31 E32 X32 E33 X33 … 
Evaluado 4 V4 E41 X41 E42 X42 E43 X43 … 
Evaluado 5 V5 E51 X51 E52 X52 E53 X53 … 
… … … … … … … ... … 
 
 
 Ejemplo 3.1. El Modelo Clásico lineal 
 
Supongamos que, para un grupo de personas, conocemos las puntuaciones V, Ef y Xf, en 
múltiples formas del test (en realidad, sólo podemos conocer las puntuaciones X; las res-
tantes puntuaciones se proponen únicamente por razones didácticas): 
Capítulo 3. Modelo clásico y fiabilidad 79 
Tabla 3.2. Puntuaciones verdaderas (V), puntuaciones observadas (X) y errores de medida (E) al aplicar 
varias formas de un test1,2 
Formas Forma 1 Forma 2 Forma 3 … 
 V E1 X1 E2 X2 E3 X3 … 
Evaluado 1 12 –2 10 0 12 0 12 … 
Evaluado 2 11 0 11 –2 9 –2 9 … 
Evaluado 3 11 0 11 2 13 2 13 … 
Evaluado 4 12 2 14 0 12 0 12 … 
Evaluado 5 4 0 4 0 4 0 4 … 
… … … … … … … … 
 
Puede observarse que la puntuación empírica del tercer evaluado en el segundo test (X32) 
es 13, por lo que se sobrestima su puntuación verdadera (V3), que es 11, en 2 puntos (que 
es el error, E32). Los evaluados 2 y 3 tienen la misma puntuación verdadera (11); sin em-
bargo sus puntuaciones observadas cuando se aplica la forma 2 del test son distintas (9 y 
13), lo que expresa que se comete cierto error de medida (subestimación en el primer caso 
y sobrestimación en el segundo). 
 
 
 
Segundo supuesto 
 
El problema es que E y V son desconocidas. Sin embargo, podemos obtener información 
sobre ellas si se plantean determinados supuestos adicionales. En muchos contextos pare-
ce razonable asumir que los errores serán unas veces positivos (por sobrestimación de la 
puntuación verdadera) y otras veces negativos (por subestimación). Por ejemplo, es posi-
ble que al responder a un examen la persona reciba más preguntas de los temas que más 
ha estudiado; en este caso, su puntuación empírica será una sobrestimación de lo que sabe 
(error positivo). En otros exámenes sucederá lo contrario (error negativo). Por tanto, desde 
un punto de vista conceptual, la mejor estimación del verdadero conocimiento del evalua-
do i será el promedio (valor esperado) de las puntuaciones empíricas que obtendría en un 
número elevado de aplicaciones. Éste es el segundo supuesto: 
 
)( iffi XV ε= [3.4] 
 
 
1
 En los ejemplos que siguen se considera que X, V y E son puntuaciones discretas. Sin embargo, éste no es un 
requerimiento del Modelo Clásico y, de hecho, las estimaciones de V y E pueden contener números decimales. 
2
 En los ejemplos que siguen se muestran tablas incompletas de datos. Por ejemplo, en la Tabla 3.2 se muestran 
los datos de 5 evaluados seleccionados de una población más amplia. El hecho de que el número de evaluados es 
más amplio se indica mediante puntos suspensivos. Por tanto, cuando se informe del resultado de cualquier 
cálculo realizado con la población total (sumas, medias y desviaciones típicas, etc.) éste no coincidirá general-
mente con el que se obtiene a partir de los datos de los 5 evaluados. Lo mismo puede decirse con respecto al 
número de formas aplicadas: aunque se muestran los resultados obtenidos en 3 formas se asume que se han apli-
cado muchas más. 
80 Medición en Ciencias Sociales y de la Salud 
Donde el símbolo εf (·) indica valor esperado de la variable dentro del paréntesis a través 
de f. Otra forma de presentar el segundo supuesto es: 
 
0)( =iff Eε [3.5] 
 
que es equivalente a decir que los errores que cometemos no son sistemáticos (el valor es-
perado de los errores a través de un conjunto de mediciones independientes de la misma 
persona es 0). Resulta fácil comprobar la igualdad entre [3.4] y [3.5], puesto que: 
 
0)()()()()( =−=−=−=−= iiiiffififfiiffiff VVVXVXVXE εεεεε 
 
Además, se asume que el valor esperado del error de medida es igual a 0, no sólo para 
cualquier persona, sino también para un grupo de evaluados a los que se aplica una única 
forma f: 
 
0)( ==
fEifi
E µε [3.6] 
 
Veamos en el siguiente ejemplo lo que implica el segundo supuesto. 
 
 Ejemplo 3.2. Segundo supuesto 
 
Tabla 3.3. Media de X y E para cada evaluado a través de las distintas formas y para cada forma a 
través de los distintos evaluados 
 
Forma 
1 
 
Forma 
2 
 
Forma 
3 
 
Media de X 
(a través de las 
formas) 
)( iff Xε 
 
Media de E 
(a través de las 
formas) 
)( iff Eε 
 V E1 X1 E2 X2 E3 X3 
Evaluado 1 12 –2 10 0 12 0 12 … 12 0 
Evaluado 2 11 0 11 –2 9 –2 9 … 11 0 
Evaluado 3 11 0 11 2 13 2 13 … 11 0 
Evaluado 4 12 2 14 0 12 0 12 … 12 0 
Evaluado 5 4 0 4 0 4 0 4 … 4 0 
… … … … … … … … … … 
fE
µ 0 0 0 
 
La media de las puntuaciones empíricas para el evaluado 2 coincidiría justamente con su 
puntuación verdadera (11). Es decir, la puntuación 11 expresa su nivel promedio en pun-
tuaciones empíricas de depresión a través de las distintas aplicaciones (11, 9, 9,…). Ese 
promedio puede considerarse la mejor estimación de su puntuación verdadera. Por otro 
lado, el segundo supuesto implicaría que las medias de los errores para un evaluado a 
través de distintas formas y para una forma a través de distintos evaluados son cero. Por 
ejemplo, para el segundo evaluado la media de los errores (0 , –2, –2, …) sería 0. Tam-
Capítulo 3. Modelo clásico y fiabilidad 81 
bién, según el modelo clásico, la mediade los errores en la forma 1 (–2, 0, 0, 2,…) sería 
igual a 0. 
 
 
 
Tercer, cuarto y quinto supuestos 
 
Si el error cometido al utilizar una forma no es sistemático parece razonable asumir que 
los errores en una forma (Ef) no correlacionan con las puntuaciones verdaderas (V), ni con 
los errores en otra forma (Ef’) ni con las puntuaciones verdaderas en otro test (Vk): 
 
Tercer supuesto: 
 
0=VE fρ [3.7] 
 
Cuarto supuesto: 
 
0
'
=
ff EE
ρ [3.8] 
 
Quinto supuesto: 
 
0=
kf VE
ρ [3.9] 
 
Eso supone asumir, por ejemplo, que las personas que tienen errores elevados (bajos) no 
tienen por qué tener asociadas puntuaciones verdaderas elevadas (bajas) en ese test (u 
otro) ni errores elevados (bajos) en otras formas del test. 
 
 
Descomposición de la varianza de las puntuaciones 
empíricas en un test 
 
Hasta ahora hemos observado una serie de supuestos sobre los errores de medida. Como 
ya hemos insistido, en la aplicación real de un test sólo se conocen las puntuaciones X de 
las personas, por lo que los supuestos planteados no pueden, en general, someterse a con-
trastación empírica. ¿Para qué sirven entonces estos cinco supuestos? ¿Qué nos dicen so-
bre las puntuaciones de las personas que responden a un test? Si asumimos que los su-
puestos son lógicos y razonables, podemos obtener indicadores que nos proporcionen in-
formación sobre el tamaño de los errores cometidos con un test. 
Para empezar, si aceptamos los supuestos, podremos delimitar algunas de las carac-
terísticas de las distribuciones de las variables implicadas en la población: 
 
VX f
µµ = [3.10] 
82 Medición en Ciencias Sociales y de la Salud 
222
ff EVX
σσσ += [3.11] 
 
Es decir, la media de las puntuaciones observadas en un test f coincidirá con la media de 
las puntuaciones verdaderas y, lo más importante, la varianza de las puntuaciones obser-
vadas en un test f se puede descomponer en varianza de las puntuaciones verdaderas y va-
rianza de los errores. 
En efecto, si tenemos una variable Xf que es combinación lineal de otras variables V y 
Ef, tal que: 
 
 ff EVX += 
 
puede demostrarse que la media y varianza de la variable X se deriva de las medias y va-
rianzas de las variables V y Ef; esto es: 
 
ff EVX
µµµ += 
 
y dado [3.6] se deriva [3.10]. Además: 
 
ffff EVVEEVX
σσρσσσ 2222 ++= 
 
y dado [3.7] se deriva [3.11]. 
 
 
 Ejemplo 3.3. Descomposición de la varianza de las puntuaciones empíricas 
 
En la Tabla 3.4 se presentan las medias y las varianzas para las distintas variables. 
 
Tabla 3.4. Medias y varianzas de las puntuaciones V, E y X en las distintas formas 
Formas Forma 1 Forma 2 Forma 3 
 V E1 X1 E2 X2 E3 X3 
Evaluado 1 12 –2 10 0 12 –1 11 … 
Evaluado 2 11 0 11 –2 9 –1 10 … 
Evaluado 3 11 0 11 2 13 –2 9 … 
Evaluado 4 12 2 14 0 12 0 12 … 
Evaluado 5 4 0 4 0 4 0 4 … 
… … … … … … … … 
Medias ( µ ) 12 0 12 0 12 0 12 
Varianzas ( 2σ ) 4 2 6 2 6 2 6 
 
Por ejemplo, µV se obtendría como la media de las puntuaciones verdaderas de todos los 
evaluados de la población (12, 11, 11, 12, 4,… ) que es 12. Observe que, en nuestro 
ejemplo, las medias de todas las formas son iguales entre sí e iguales a la media de las 
Capítulo 3. Modelo clásico y fiabilidad 83 
puntuaciones verdaderas (12). Además, la varianza de las puntuaciones empíricas en cual-
quiera de las formas (6) es el resultado de sumar a la varianza verdadera (4) la varianza de 
los errores en esa forma (2). Así pues, la variabilidad de las puntuaciones empíricas en 
una forma (6) se produce, en parte, por la variabilidad en el verdadero nivel de rasgo (4) y, 
en parte, por la presencia de errores y su contribución a la variabilidad (2). 
Si nuestras formas fueran muy precisas, la varianza de los errores en cada una de ellas 
sería 0 y la varianza de las puntuaciones empíricas en cada forma sería igual a la varianza 
de las puntuaciones verdaderas (ver Tabla 3.5). En este caso, el 100% de la variabilidad de 
las puntuaciones empíricas en cualquier forma refleja variabilidad en las puntuaciones 
verdaderas. Las correlaciones entre las puntuaciones verdaderas y empíricas sería 1. 
 
Tabla 3.5. Medias y varianzas de las puntuaciones V, E y X en las distintas formas para un test máxi-
mamente preciso 
Formas Forma 1 Forma 2 Forma 3 
 V E1 X1 E2 X2 E3 X3 
Evaluado 1 6 0 6 0 6 0 6 … 
Evaluado 2 11 0 11 0 11 0 11 … 
Evaluado 3 11 0 11 0 11 0 11 … 
Evaluado 4 12 0 12 0 12 0 12 … 
Evaluado 5 4 0 4 0 4 0 4 … 
… … … … … … … … 
Medias ( µ ) 12 0 12 0 12 0 12 
Varianzas ( 2σ ) 6 0 6 0 6 0 6 
 
 
 
Puesto que en el Modelo Clásico la varianza de las puntuaciones empíricas se descompo-
ne linealmente en varianza verdadera y varianza error sería importante obtener informa-
ción sobre cuánto de la varianza de las X se debe a la varianza de las V o saber cuánto co-
rrelaciona X con V. Nos encontramos con el inconveniente de desconocer las auténticas V 
de las N personas. En la siguiente sección se ofrece el método propuesto por Spearman pa-
ra eludir este problema. 
 
 
Concepto de formas paralelas y coeficiente de fiabilidad 
 
No podemos conocer directamente la correlación entre las puntuaciones empíricas en un 
test y las puntuaciones verdaderas. Sin embargo, resulta factible obtener la correlación en-
tre las puntuaciones empíricas que proporcionan dos formas paralelas de un test, diseña-
das ambas para evaluar el rasgo V de las personas. Veremos en esta sección que esta co-
rrelación nos proporciona la información que buscamos sobre la fiabilidad de las puntua-
ciones; es decir, sobre qué proporción de la varianza de X se debe a la varianza de V. 
84 Medición en Ciencias Sociales y de la Salud 
Hasta ahora hemos estado trabajando con el concepto de formas de un test X. El Mo-
delo Clásico original requiere que dichas formas sean formas paralelas. Según esto, dos 
formas paralelas X1 y X2 de un test se definen como tales mediante dos condiciones: 
 
1. Un individuo tiene la misma puntuación verdadera en ambas formas: 
 
iii VVV == 21 [3.12] 
 
2. La varianza de los errores de medida en ambas formas es la misma: 
 
22
21 EE
σσ = [3.13] 
 
Es decir, los dos tests miden con la misma precisión. Las formas que hemos visto en los 
ejemplos anteriores eran formas paralelas. En lo sucesivo, para simplificar, nos referire-
mos a la varianza error de cada forma paralela como σ2E (donde σ
2
E designa indistinta-
mente a σ2E1 o σ
2
E2).
 
Dos formas suelen hacerse paralelas por diseño, especificando en cada una igual 
número de ítems y especificaciones similares de contenidos. Por ejemplo, el test formado 
por los ítems impares de una prueba suele considerarse una forma paralela del test forma-
do por los ítems pares de esa misma prueba (si en principio no hay razón para pensar que 
los ítems de las dos mitades difieren en conjunto). 
Si tres formas (X1, X2 y X3) son paralelas, la distribución de sus puntuaciones observa-
das será idéntica en cuanto a media (ver [3.10]): 
 
321 XXX
µµµ == 
 
y varianza (ver [3.11]): 
 
222
321 XXX
σσσ == 
 
También serán iguales las covarianzas de esas formas entre sí: 
 
323121 XXXXXX
σσσ == , 
 
y las covarianzas con cualquier otra variable Z, 
 
ZXZXZX 321
σσσ == 
 
Lo mismo se aplica también a las correlaciones de las formas entre sí: 
 
323121 XXXXXX
ρρρ == 
Capítulo 3. Modelo clásico y fiabilidad 85 
Debe observarse que el paralelismo de las formas es lo que las hace intercambiables y lo 
que dota de significado a la definición operacional de la puntuación verdadera como valor 
esperado de las puntuaciones a través de las formas. 
En lo sucesivo, para simplificar, nos referiremos a cada forma paralela como X (para 
designar indistintamente a X1 o X2), por lo que utilizaremos los términos µX y σ2X para re-
ferirnos a la media y varianza de cualquiera de las formas paralelas. 
La correlación entre dos formas paralelas (X1y X2) es muy importante en el Modelo 
Clásico y se denomina coeficiente de fiabilidad. Puesto que ambas formas son paralelas, 
la correlación nos permite inferir algo sobre el grado de precisión de cualquiera de ellas. 
Es fácil entender por qué es una medida de precisión. Si las puntuaciones obtenidas en dos 
formas paralelas son precisas parece razonable esperar una correlación elevada en la po-
blación. Si ambas correlacionasen de forma mínima, no podríamos fiarnos de que refleja-
sen fidedignamente los niveles de rasgo verdaderos. Por tanto, el coeficiente de fiabilidad 
es un indicador de precisión; suele utilizarse el símbolo ρXX y es matemáticamente igual al 
cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuacio-
nes empíricas de cualquiera de las formas: 
 
2
2
21
X
V
XXXX
σ
σ
ρρ =≡ [3.14] 
 
Veamos por qué. La correlación entre formas paralelas puede expresarse como: 
 
21
21
21
XX
XX
XX σσ
σ
ρ = 
 
Puesto que las formas son paralelas, podemos referirnos con el término σX indistintamente 
a 
1X
σ o a 2Xσ : 
 
2
2121
21
21
21
X
XX
XX
XX
XX
XX
XX
σ
σ
σσ
σ
σσ
σ
ρ === 
 
Además, X1 = V1 + E1 y X2 = V2 + E2. Matemáticamente, si tenemos dos variables X1 y X2 
que son combinación lineal de otras, la covarianza entre ambas se deriva de las covarian-
zas entre todas las otras: 
 
2121122121 EEEVEVVVXX
σσσσσ +++= 
 
que se puede simplificar, dado [3.7] , [3.8] y [3.12]: 
 
2
21 VXX
σσ = 
 
por lo que se llega a la ecuación [3.14]: 
86 Medición en Ciencias Sociales y de la Salud 
 
2
2
2
21
21
X
V
X
XX
XX
σ
σ
σ
σ
ρ == 
 
Recordemos que la varianza de las puntuaciones en un test se descomponía en dos com-
ponentes, uno relacionado con los errores y otro con las puntuaciones verdaderas (ecua-
ción [3.11]). El valor del coeficiente de fiabilidad puede interpretarse entonces como la 
proporción de la varianza de las puntuaciones empíricas que puede atribuirse a la variabi-
lidad de las personas en las puntuaciones verdaderas. 
Lógicamente, el coeficiente de fiabilidad también nos índica qué proporción de va-
rianza de las puntuaciones en el test no se debe a la varianza de los errores: 
 
2
2
2
22
2
2
1
X
E
X
EX
X
V
XX
σ
σ
σ
σσ
σ
σ
ρ −=
−
== [3.15] 
 
Nótese además que el coeficiente de fiabilidad puede asumir valores entre 0 y 1, ya que se 
trata de un cociente de varianzas, cuyo valor es siempre positivo. 
Por otro lado, el coeficiente de fiabilidad también se puede interpretar como la corre-
lación al cuadrado entre las puntuaciones verdaderas y las puntuaciones observadas en el 
test. En efecto: 
 
( )
XX
X
V
VX
VEV
VX
XV
XV ρ
σ
σ
σσ
σσ
σσ
σ
ρ ==
+
==
2
2
22
22
22
2
2 [3.16] 
 
Es decir, que el coeficiente de fiabilidad es el cuadrado de la correlación entre X y V. Al 
valor ρXV se le denomina índice de fiabilidad: 
 
XXXV ρρ = [3.17] 
 
Tanto el coeficiente como el índice de fiabilidad reflejan la precisión de las medidas 
siempre que asumamos que en el grupo al que se aplica el test hay cierta variabilidad en la 
característica que se está midiendo. 
 
 
 
Ejemplo 3.4. Interpretación del coeficiente de fiabilidad 
 
Supongamos que la correlación entre dos formas paralelas X1 y X2 es 0,67 ( ρX1X2 = 0,67) y 
que la varianza de ambas formas es 6 (σ 2X = 6); entonces diríamos que el coeficiente de 
fiabilidad de las puntuaciones obtenidas en cualquiera de ellas es 0,67 ( ρ XX = 0,67). Es 
decir, la correlación entre X1 y X2 es el coeficiente de fiabilidad de las puntuaciones en la 
prueba X1 (y en la prueba X2). La varianza de X1 (o de X2), en nuestro ejemplo, es 6. El co-
eficiente de fiabilidad indicaría justamente qué proporción de esos 6 puntos, es varianza 
Capítulo 3. Modelo clásico y fiabilidad 87 
verdadera. Puesto que el coeficiente de fiabilidad es 0,67, podemos decir que el 67% de la 
varianza empírica es varianza verdadera. La varianza verdadera sería, justamente, 4 (el 
67% de 6): 
 
4)67,0(622 === XXXV ρσσ 
 
También podría deducirse la varianza de los errores de medida, que sería justamente 2 (el 
33 % de 6): 
 
2)33,0(6)1(22 ==−= XXXE ρσσ 
 
En nuestro ejemplo, el índice de fiabilidad sería 0,82 (que es la raíz de 0,67). 
 
 
 
Fórmula General de Spearman-Brown: Fiabilidad de las 
puntuaciones en un test compuesto por n formas paralelas 
 
Imaginemos que disponemos de n formas paralelas para medir un rasgo psicológico de-
terminado. Según lo visto, las n formas tendrán en la población las mismas varianzas 
empíricas. Además, las correlaciones entre todos los posibles pares de formas paralelas 
que podemos establecer serán también iguales, e indicarán la fiabilidad de cualquiera de 
ellas a la hora de determinar los niveles de rasgo. 
Sea ahora un test final compuesto por las n formas paralelas. Denominemos las pun-
tuaciones originales de cada persona en las n formas paralelas como X1,…, Xn, V1,…, Vn, 
E1,…, y En. Las puntuaciones en el test final alargado se obtienen sumando las puntuacio-
nes en las n formas: 
 
na XXX ++= ...1 [3.18] 
 
Para cada forma paralela, podemos separar la parte verdadera y la parte error: Xa = V + 
E1 + … + V + En; así podemos definir Xa = Va + Ea, donde Va = nV y Ea = E1 + … + En , 
ya que la puntuación verdadera es la misma en cada forma paralela, mientras que el error 
puede cambiar de una forma a otra. Los parámetros de la población en una forma paralela 
(cualquiera de ellas) podemos designarlos como σ2X, σ2V, σ2E y ρXX. Si unimos n formas 
paralelas en un único test, los parámetros de este test alargado podemos expresarlos como 
σ2Xa, σ2Va, σ2Ea y ρ nXX. Vamos a llegar a determinadas expresiones para obtener los pará-
metros del test alargado conociendo los parámetros de una forma paralela. 
La varianza empírica del test formado por n formas paralelas será: 
 
[ ]XXXXXXXXa nnnnn ρσρσσσ )1(1)1( 2222 −+=−+= [3.19] 
 
La varianza verdadera del test formado por n formas paralelas será: 
88 Medición en Ciencias Sociales y de la Salud 
 
222
VVa n σσ = [3.20] 
 
puesto que Va es una transformación lineal de V (Va = nV, donde n es una constante). 
La varianza error del test formado por n formas paralelas será: 
 
2222 )1( EEEEEEa nnnn σρσσσ =−+= [3.21] 
 
ya que ρEE , la correlación entre los errores de dos formas, es 0 según el 4º supuesto. 
A partir de las expresiones anteriores, y recordando que el coeficiente de fiabilidad es 
el cociente entre la varianza verdadera y la varianza empírica, podemos obtener el coefi-
ciente de fiabilidad de las puntuaciones en un test alargado n veces (ρnXX): 
 
( )[ ] XX
XX
XXXX
V
Xa
Va
nxx
n
n
nn
n
ρ
ρ
ρσ
σ
σ
σ
ρ
)1(1112
22
2
2
−+
=
−+
== [3.22] 
 
La expresión [3.22] se conoce como Fórmula General de Spearman-Brown, y permite ob-
tener el coeficiente de fiabilidad de las puntuaciones en un test compuesto por n formas 
paralelas (es decir, cuál será el coeficiente de fiabilidad, ρnXX, de un test que se forma con n 
versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad, ρXX). 
 
 
 Ejemplo 3.5. Fiabilidad de las puntuaciones en un test compuesto por n formas 
paralelas 
 
Si formamos un nuevo test uniendo las dos formas paralelas X1 y X2, ambas con varianzas 
iguales (σ2X = 6, σ2V = 4, σ2E =2) e igual coeficiente de fiabilidad (ρXX = 0,67), se obtiene 
un nuevo test con varianzas: 
 
[ ] [ ] 2067,0)1(16)2()1(122 =+=−+= XXXXa nn ρσσ 
16)4(22222 === VVa n σσ 
4)2(222 === EEa nσσ 
 
El coeficiente de fiabilidad del nuevo test sería: 
 
8,0
67,0)1(1
67,0)2(
)1(1
=
+
=
−+
=
XX
XX
nXX
n
n
ρ
ρ
ρ 
 
El 80% de la varianza del nuevo test (σ2Xa = 20) es varianza verdadera (σ2Va = 16). 
 
 
Capítulo 3. Modelo clásico y fiabilidad 89 
Según la Fórmula General de Spearman-Brown, el coeficiente de fiabilidad aumenta al 
alargar un test. Esto ocurre porque, al añadir n – 1 formas paralelas, la varianza debida a 
las puntuaciones verdaderas seincrementa más rápido (σ2Va = n
2σ2V) que la varianza debi-
da a los errores (σ2Ea = n σ2E). La Figura 3.1 muestra el efecto de multiplicar la longitud 
del test por n (n: 1, 2, ... 17) en 3 tests que difieren originalmente en ρXX (0,1, 0,4 y 0,7). 
 
Figura 3.1. Coeficiente de fiabilidad de las puntuaciones en un test alargado como función del coeficien-
te de fiabilidad del test original y del número n de formas paralelas 
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
n
0.1
0.4
0.7fia
bi
lid
ad
 d
e 
un
 te
st
 a
la
rg
ad
o 
n
ve
ce
s
 
El valor n = 1 representa lo que ocurre con el test original. Los otros valores de n (2, 
3,…) se refieren a lo que ocurre con los tests alargados (de longitud duplicada, triplica-
da,…). Observe que, en cualquiera de los tres tests, la ganancia en fiabilidad a medida 
que se incrementa la longitud no es lineal. Esto quiere decir, por ejemplo, que al pasar de 
n = 1 a n = 2 se obtiene mayor ganancia en precisión que al pasar de n = 2 a n = 3. Tam-
bién puede observarse que el incremento posible será menor cuanto mayor sea el coefi-
ciente de fiabilidad del test original, ya que el valor máximo que puede obtenerse es 1. 
 
 
 Ejemplo 3.6. Fiabilidad de las puntuaciones en un test compuesto 
por n formas paralelas 
 
Supongamos que una prueba de atención de 25 ítems obtiene en un grupo normativo un 
ρXX = 0,7. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test alargado 
tendría 100 ítems (4 veces el inicial), y su fiabilidad sería: 
 
903,0
7,0)3(1
7,0)4(
)1(1
=
+
=
−+
=
XX
XX
nXX
n
n
ρ
ρ
ρ 
 
Si cuadruplicáramos la longitud del test recién formado, pasaríamos de 100 a 400 ítems. 
El test alargado tendría un coeficiente de fiabilidad: 
 
90 Medición en Ciencias Sociales y de la Salud 
974,0
903,0)3(1
903,0)4(
)1(1
=
+
=
−+
=
XX
XX
nXX
n
n
ρ
ρ
ρ 
 
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del 
test de atención es de 0,203, mientras que en el segundo caso, el incremento es únicamen-
te de 0,071 (a pesar de que en el primer caso hemos añadido 75 ítems y en el segundo 
300). Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segun-
do caso que en el primero, y a que el segundo test tiene ya un considerable número de 
ítems (100). 
 
 
 
Es importante tener en cuenta que la Fórmula General de Spearman-Brown no debe apli-
carse cuando las formas añadidas no son paralelas o cuando al incrementar la longitud se 
producen efectos de fatiga (o de la práctica) al responder. Esto último ocurre, por ejemplo, 
cuando la persona no responde a los nuevos ítems con igual motivación, eficacia, aten-
ción, etc. Tampoco conviene olvidar que se requiere que la prueba original haya sido apli-
cada a un número suficiente de sujetos, de forma que el coeficiente de fiabilidad se halle 
bien estimado (Alsawalmeh y Feldt, 1999). Establecidas estas limitaciones, la fórmula de 
Spearman-Brown puede utilizarse para: 
 
1. Extrapolar cuál sería el número de ítems necesarios para que las puntuaciones en nues-
tro instrumento alcancen una determinada fiabilidad. Así, despejando n de la fórmula 
anterior: 
 
)1(
)1(
nXXXX
XXnXXn
ρρ
ρρ
−
−
= [3.23] 
 
donde ρnXX indica la fiabilidad que se quiere obtener, ρXX indica la fiabilidad actual y n 
es el número de formas paralelas que debería tener el test final para que se alcance esa 
fiabilidad. Lógicamente, si el test original tiene J ítems el test final deberá tener J’ 
ítems, donde J’ es igual a: 
 
nJJ =' 
 
En la práctica, la ecuación [3.23] puede resultar eficaz para diseñar un test inicial corto 
y estimar cuál debería ser su longitud para obtener un coeficiente de fiabilidad determi-
nado, y así comprobar si merece la pena diseñar nuevos ítems paralelos o reformar los 
ya creados. 
2. Poder comparar la fiabilidad de las puntuaciones en dos pruebas con distinto número de 
ítems. Si una prueba tiene J ítems y otra tiene J’ podemos ver cuál sería la fiabilidad de 
la primera si tuviera J’ ítems (J’ > J), para ello basta utilizar la fórmula de Spearman-
Brown sustituyendo n por J’/J. 
 
Capítulo 3. Modelo clásico y fiabilidad 91 
En ambas situaciones, n siempre indica el número de veces que el test final contiene al 
test original y n – 1 indica el número de formas que se añaden a la forma original. 
 
 
 Ejemplo 3.7. Utilidad de la fórmula de Spearman-Brown 
 
Supongamos que para las puntuaciones en un test inicial de 25 ítems se obtiene un coefi-
ciente de fiabilidad de 0,65, considerado bajo para los objetivos que se pretenden conse-
guir con su aplicación. Una manera de incrementar su precisión es alargarlo con ítems pa-
ralelos a los iniciales. Al constructor de la prueba le interesa que el test tenga, al menos, 
un coeficiente de fiabilidad de 0,86, y se pregunta con cuántos ítems lo conseguiría. Apli-
cando la fórmula [3.23], obtenemos: 
 
308,3
)86,01(65,0
)65,01(86,0
)1(
)1(
=
−
−
=
−
−
=
nxxxx
xxnxxn
ρρ
ρρ
 
 
Esto significa que si multiplicamos por 3,308 la longitud inicial del test, es decir, con un 
test de 83 ítems (3,308(25) = 82,7), conseguiremos la precisión deseada. Por tanto, a los 
25 ítems que tiene el test inicial habría que añadir 58 ítems paralelos (2,308 formas) para 
conseguir la fiabilidad de 0,86. 
Otro ejemplo. Consideremos que dos pruebas tienen, respectivamente, coeficientes de 
fiabilidad 0,65 y 0,7. La primera tiene 15 ítems y la segunda 20. ¿Cuál de las dos pruebas 
sería más precisa si ambas tuvieran el mismo número de ítems? Para responder a esta pre-
gunta, podemos calcular cúal sería el coeficiente de fiabilidad de las puntuaciones en la 
primera prueba si tuviera 20 ítems: 
 
33,1
15
20'
===
J
J
n 
 
El coeficiente de fiabilidad de la primera prueba sería: 
 
712,0
)65,0(33,01
)65,0(33,1
)1(1
=
+
=
−+
=
xx
xx
nxx n
n
ρ
ρ
ρ 
 
Lo que significa que, con el mismo número de ítems, la primera prueba sería más fiable en 
la muestra. 
 
 
 
Aproximaciones a la fiabilidad y tipos de error 
 
Hemos visto que, a partir del Modelo Clásico, se expresa un nuevo concepto, la fiabilidad 
de las puntuaciones en el test, que representa la proporción de la varianza de las puntua-
92 Medición en Ciencias Sociales y de la Salud 
ciones en el test que se debe a la varianza de las puntuaciones verdaderas. En términos ge-
nerales puede considerarse que la fiabilidad nos indica la replicabilidad de la medida a través 
de distintas condiciones, momentos, formas del test, etc. Ahora bien, la visión que se ha dado 
hasta ahora (coeficiente de fiabilidad como correlación entre formas paralelas) se encuentra 
algo simplificada. En realidad, el concepto de fiabilidad (o replicabilidad) de las puntuaciones 
es más complejo y puede entenderse de distintas maneras: 
 
1. Ya hemos observado que podemos calcular el coeficiente de fiabilidad como una corre-
lación entre formas paralelas. En ese caso estaríamos estudiando si se replican las mismas 
medidas al aplicar una prueba paralela con ítems distintos. Si ambas formas son paralelas, 
la correlación entre ambas indica su grado de equivalencia. En este sentido, replicabili-
dad implica que debemos obtener las mismas medidas cuando medimos lo mismo con 
pruebas equivalentes. 
2. También puede aludirse a la estabilidad temporal de las medidas que proporciona nues-
tro instrumento. En este sentido, replicabilidad implica que debemos obtener las mis-
mas medidas cuando medimos lo mismo en momentos distintos. 
3. Finalmente, puede hacerse referencia al grado en que diferentes partes del test miden un 
rasgo con consistencia. En este sentido, replicabilidad implica que debemos obtener las 
mismas puntuaciones cuando medimos lo mismo con distintas partes del test. 
 
Según el procedimiento utilizado para calcular el coeficiente de fiabilidad estaremos sien-
do sensibles en mayor o menor grado a distintas fuentesde error. Ya hemos observado 
que, en el Modelo Clásico, se establece que: 
 
ff EVX += 
 
Y también que el error es el resultado de todos aquellos factores (de la persona, de la si-
tuación o relativos a la composición del test) que hacen que la puntuación observada de 
una persona se aleje de su valor esperado. De forma más sencilla, un error implica un 
cambio en la puntuación de una persona de una medición a otra. Algunos autores suelen 
distinguir entre tres tipos de fuentes de error en los tests de respuesta seleccionada 
(Schmidt y Hunter, 1996, 1999; Schmidt, Le y Ilies, 2003): 
 
1. Los errores debidos a factores transitorios suponen modificaciones en las respuestas de 
una persona que se deben a factores que cambian de una sesión de aplicación a otra pe-
ro que, dentro de una sesión, afectan por igual a todos los ítems. Si aplicamos un test 
dos veces puede haber cambios en variables personales (salud, humor, motivación, efi-
ciencia mental, concentración, minuciosidad, impulsividad, etc.) o en variables situa-
cionales que no han sido controladas en la aplicación (claridad de las instrucciones, 
presencia de incentivos, tiempo de la aplicación, etc.). Tales variables pueden tener 
efectos en todas las medidas tomadas dentro de una misma sesión de aplicación. Cam-
bios en esas variables a través de las sesiones producirán cambios en las puntuaciones 
observadas. Por ejemplo, si alguien responde a una prueba de conocimientos con baja 
motivación, su rendimiento puede verse afectado. Su puntuación X estará por debajo de 
su puntuación V. Si volvemos a aplicar el mismo test en otro momento, en el que tenga 
Capítulo 3. Modelo clásico y fiabilidad 93 
mayor motivación, su puntuación X será mayor. El nivel de motivación afectará a todas 
sus respuestas recogidas en cada sesión. 
Los errores debidos a factores transitorios pueden detectarse estudiando cómo varía el 
rendimiento de la persona en distintos momentos temporales. Estos errores no son de-
tectables si el test se aplica una sola vez (pues en ese caso no podemos saber cómo 
cambiarían las puntuaciones de las personas si se les aplica el test en otro momento). 
2. Los errores debidos a la especificidad suponen cambios en las respuestas de una perso-
na que se deben al contenido concreto de los ítems que se le presentan. Por ejemplo, en 
una prueba de conocimientos de Filosofía cada estudiante puede tener distinto nivel de 
dominio de los distintos temas. Alguien puede saber mucho de Platón y poco de Kant. 
Si le hiciéramos una pregunta sobre Platón su puntuación V se sobrestimaría (ocurriría 
lo contrario si le hiciéramos una pregunta sobre Kant). Otro ejemplo: en una escala de 
Estabilidad Emocional se incluyen ítems en sentido directo y otros en sentido inverso; 
las respuestas de una persona en ítems de uno y otro tipo pueden ser distintas. 
Los errores debidos a la especificidad pueden detectarse estudiando cómo varía el ren-
dimiento de la persona en distintas partes del test. Estos errores no son detectables si se 
aplica la misma pregunta en dos ocasiones distintas (pues en ese caso no podemos sa-
ber cómo cambiarían las puntuaciones de las personas si les hubiéramos hecho otra 
pregunta). 
3. Los errores debidos a factores aleatorios se refieren al grado de inconsistencia en la 
respuesta que no puede ser atribuido directamente al contenido de los ítems, ni a otros 
factores de la persona o la situación que actúan de forma sistemática en el tiempo. Es 
producto de variaciones en la atención, de distracciones momentáneas, de la propia la-
bilidad intrínseca a nuestro sistema nervioso, etc. Por ejemplo, supongamos que al es-
cuchar un ítem de una prueba de inglés, el evaluado se ha distraído; como no ha escu-
chado la pregunta, falla el ítem. Consideremos que de haber escuchado el ítem lo 
hubiera acertado. En ese caso, si se le vuelve a aplicar el ítem lo acertará. La distrac-
ción no produce un error debido a la especificidad del ítem ya que el fallo inicial de la 
persona no tiene que ver con el contenido del ítem. Tampoco es un error debido a fac-
tores transitorios ya que la distracción no necesariamente ha afectado a todos los ítems 
aplicados en la misma sesión. 
 
En los siguientes apartados se recoge el grado en que cada coeficiente de fiabilidad es 
sensible a cada tipo de error. Antes de empezar, es necesario advertir de un cambio de no-
tación. Hasta el momento, el Modelo Clásico y los estadísticos (medias, varianzas, corre-
laciones,...) se han descrito en términos paramétricos; es decir, para la población. Por ello, 
se utilizaba la nomenclatura griega ( σ2X , ρxx , etc.). En la práctica vamos a disponer de da-
tos obtenidos en una muestra o grupo normativo concreto (S2X , rxx, etc.). Esto significa 
que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de di-
cha muestra, a partir de las cuales podemos obtener los estadísticos que sean oportunos. 
 
94 Medición en Ciencias Sociales y de la Salud 
Fiabilidad como correlación entre formas paralelas 
 
A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda 
versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que 
el test original pero con diferentes ítems. Como ya hemos explicado, dos versiones o for-
mas se consideran paralelas si su contenido es similar y, aplicadas a una misma muestra 
de personas, obtienen similares medias, varianzas y covarianzas con otras variables. 
La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en 
dos formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e in-
dicará el grado en que pueden considerarse equivalentes. Por ello, en ocasiones se deno-
mina a este coeficiente de fiabilidad coeficiente de equivalencia. Si las formas no fuesen 
paralelas puede subestimarse dicho coeficiente. 
 
 
 Ejemplo 3.8. Coeficiente de fiabilidad por el método de las formas paralelas 
 
Se han aplicado las dos formas de un test a 13 personas3, obteniendo los resultados que se 
muestran en la Tabla 3.6. 
 
Tabla 3.6. Cálculo del coeficiente de fiabilidad por el método de las formas paralelas 
Evaluados 1 2 3 4 5 6 7 8 9 10 11 12 13 
X1 = Forma 1 10 12 11 14 11 9 13 14 16 15 13 14 16 
X2 = Forma 2 9 13 14 16 10 10 13 15 14 14 12 10 17 
 
El coeficiente de fiabilidad sería: 
 
701,0
21
== XXXX rr 
 
Lo que se significa que el 70,1% de la varianza de las puntuaciones observadas en cual-
quiera de las formas es debida a la variabilidad en el verdadero nivel de rasgo. 
 
 
 
Es evidente que la falta de concordancia cuando se calcula el coeficiente de equivalencia 
se deberá a que las dos formas tienen contenidos específicos distintos o a que los ítems no 
son adecuados para medir el rasgo. En sentido estricto, el coeficiente de equivalencia no 
es sensible a los errores debidos a factores transitorios y nos indica qué proporción de la 
varianza de las puntuaciones empíricas en el test completo no se debe a la varianza de los 
errores debidos a factores específicos o al error debido a factores aleatorios. Sin embargo, 
 
3
 El uso de sólo 13 sujetos para evaluar las propiedades psicométricas de una prueba es, lógicamente, insuficien-
te. El pequeño tamaño de la muestra se debe a razones puramente didácticas, de forma que el lector pueda reali-
zar los cálculos si lo desea. 
Capítulo 3. Modelo clásico y fiabilidad 95 
su interpretación suele simplificarse, de tal forma que se entiende como proporción de va-
rianza de las puntuaciones empíricas explicada por las puntuaciones verdaderas. Esta 
última interpretación es razonable para ciertos rasgos, como por ejemplo el nivel de voca-
bulario, para los que se espera un efecto pequeño de los factores transitorios (ver por 
ejemplo, Reeve, Heggestad y George, 2005). 
No es común diseñar una forma paralela de un test para obtener datos sobre su fiabili-dad. Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determi-
nados trabajos que requieren dos aplicaciones sucesivas de un test cuyos contenidos se 
pueden recordar con facilidad. Por ejemplo, para evaluar la eficacia de ciertos programas 
cortos de enriquecimiento cognitivo o motivacional, conviene utilizar antes y después del 
entrenamiento pruebas equivalentes aunque con contenidos diferentes (formas paralelas), 
para evitar los efectos del recuerdo. 
 
 
Fiabilidad como estabilidad temporal 
 
Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un 
tiempo, volvemos a medir a las mismas personas en el mismo test, cabe esperar una corre-
lación de Pearson elevada entre ambas mediciones (reflejando así la concordancia de las 
medidas tomadas en dos momentos distintos). Dicha correlación entre la evaluación test y 
la evaluación retest (rXtestXretest) se denomina coeficiente de fiabilidad test-retest o de esta-
bilidad temporal, e indicará tanta mayor estabilidad temporal de las puntuaciones en la 
prueba cuanto más cercano a uno sea. 
Este modo de operar se desprende también directamente del Modelo Clásico, según el 
cual se define la fiabilidad como la correlación entre las puntuaciones empíricas en dos 
formas paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando 
en realidad es uno aplicado dos veces. 
 
 
 Ejemplo 3.9. Coeficiente de fiabilidad por el método test-retest 
 
Para obtener el coeficiente de estabilidad de una escala se aplica una forma del test a una 
muestra. Transcurridos dos meses, se vuelve a aplicar la misma forma a las mismas perso-
nas bajo las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones son las 
que aparecen en la Tabla 3.7. 
 
Tabla 3.7. Cálculo del coeficiente de estabilidad 
Evaluados 1 2 3 4 5 6 7 8 9 10 11 12 13 
XTest 10 12 11 14 11 9 13 14 16 15 13 14 16 
XRestest 11 12 13 15 12 12 10 15 13 18 11 15 17 
 
Para obtener el coeficiente de fiabilidad test-retest bastaría con correlacionar los datos de 
las dos aplicaciones: 
 
96 Medición en Ciencias Sociales y de la Salud 
639,0=
tetesttest XX
r 
 
En este caso se obtiene una cierta estabilidad de las puntuaciones. Si los niveles de rasgo 
de las personas no han variado a lo largo de los dos meses transcurridos entre las dos apli-
caciones, podemos decir que el test proporciona ciertas garantías (no óptimas) respecto a 
la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy 
parecidas (o similares) en las dos aplicaciones. 
 
 
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo 
estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, 
de lo contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada 
por la falta de precisión del instrumento. Es decir, es necesario asumir que las puntuacio-
nes verdaderas de los evaluados no han cambiado entre el test y el retest. Por tanto, no es 
adecuado calcular este coeficiente para cuando se pretenden medir atributos psicológicos 
que por naturaleza son fluctuantes (p. ej., estados de ansiedad). 
La determinación del intervalo temporal entre aplicaciones es importante y debe ser 
informada (Standards, AERA, APA y NCME, 1999; p. 32). Para establecer un período 
concreto, el efecto en las respuestas debido a la doble aplicación (efectos del aprendizaje, 
la fatiga, la maduración, el recuerdo, la motivación, el deseo de congruencia, etc.) debería 
ser analizado y controlado. Un efecto debido a la doble aplicación implicaría que: (1) las 
puntuaciones verdaderas de las personas han cambiado; (2) la precisión de las medidas ha 
variado entre el test y el retest. Si el intervalo es demasiado corto y no hay efectos de fati-
ga suele producirse una sobrestimación de la fiabilidad porque se recuerdan las respuestas. 
Por tanto, es aconsejable dejar más tiempo cuando los ítems y las respuestas pueden me-
morizarse con facilidad; de lo contrario, los evaluados podrían emitir pautas de respuesta 
similares en las dos aplicaciones del test únicamente por efectos del recuerdo y del deseo 
de responder de manera congruente. Debe tenerse en cuenta, sin embargo, que cuanto ma-
yor es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad 
de que se produzcan cambios reales en el rasgo (p. ej., por factores de tipo madurativo) y, 
por lo tanto, se subestime la fiabilidad de la prueba. El intervalo usual suele variar entre 
dos semanas y dos meses. 
Por otro lado, es importante tener en cuenta que, dado que se aplica la misma forma 
(i.e., las mismas preguntas) en dos momentos distintos, este coeficiente de fiabilidad no es 
sensible a los errores debidos a la especificidad. En sentido estricto, el coeficiente de esta-
bilidad nos indica qué proporción de la varianza de las puntuaciones empíricas en el test 
completo no se debe a la varianza de los errores debidos a factores transitorios o al error 
debido a factores aleatorios. Para la mayoría de los rasgos (p. ej., neuroticismo, capacidad 
verbal, etc.) el efecto de los errores debidos a la especificidad es importante. Por tanto, el 
coeficiente de estabilidad no puede ser considerado una buena estimación de la proporción 
de varianza de las puntuaciones empíricas que es explicada por las verdaderas. 
Capítulo 3. Modelo clásico y fiabilidad 97 
Fiabilidad como consistencia interna 
 
También se han propuesto otros coeficientes basados en una única aplicación del test y 
que, por tanto, son menos costosos de obtener. Con estos métodos se estudia la concor-
dancia entre las puntuaciones de los evaluados en distintas partes del test. Así, la fiabili-
dad se entiende ahora como el grado en que diferentes subconjuntos de ítems covarían, 
correlacionan o son consistentes entre sí. Todos estos coeficientes no son, por tanto, sen-
sibles al los errores debidos a factores transitorios. 
Lo más usual es estudiar la consistencia entre las dos mitades del test (método de dos 
mitades) o entre tantas partes como elementos tenga (consistencia interna global). 
 
 
Coeficiente de fiabilidad por el método de las dos mitades 
(método de Spearman-Brown) 
 
En primer lugar se divide el test en dos mitades (p. ej., ítems impares e ítems pares). Para 
cada persona se obtiene la puntuación directa en ambas mitades. Disponemos entonces de 
dos variables (XI y XP), cuya correlación de Pearson indica su grado de relación lineal. Si 
ambas mitades son paralelas, su correlación será el coeficiente de fiabilidad de las puntua-
ciones en la mitad del test. Una práctica habitual consiste en extrapolar el coeficiente de 
fiabilidad de las puntuaciones en el test completo (X = XI + XP) aplicando la fórmula de 
Spearman-Brown (haciendo n = 2, ya que el test completo tiene el doble de ítems que 
cualquiera de sus mitades): 
 
PI
PI
XX
XX
XXSB
r
r
r
+
=
1
2
 [3.24] 
 
A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido 
como la expresión de la consistencia entre dos mitades, es mayor que la correlación de 
Pearson entre ambas mitades. Sus valores pueden estar entre 0 y 1 e indica el grado en que 
un test compuesto por dos formas paralelas (las mitades) proporcionaría resultados simila-
res a otro test equivalente. En sentido estricto, nos indica qué proporción de la varianza de 
las puntuaciones empíricas en el test completo no se debe a la varianza error por muestreo 
de contenidos o error aleatorio. Sin embargo, suele interpretarse como proporción de va-
rianza de las puntuaciones en el test que es debida a las puntuaciones verdaderas. 
 
98 Medición en Ciencias Sociales y de la Salud 
 
 Ejemplo 3.10. Coeficiente de fiabilidad por el método de las dos mitades 
 
En la Tabla 3.8 se exponen los resultados de una muestra de 10 evaluados que responden 
a un test de 6 ítems (X1, X2, …, X6)valorados de forma dicotómica. En este caso se ob-
tendría que 
PI XX
r = 0,277, y por tanto: 
 
434,0
277,01
)277,0(2
=
+
=XXSB r 
 
De nuevo el tope de rXX lo tenemos en 1, con lo que podemos decir que las dos mitades 
del test no son muy consistentes entre sí. Únicamente un 43.4% de la varianza de las pun-
tuaciones empíricas se debe a la varianza de las verdaderas. No podríamos afirmar con su-
ficiente certeza que ambas mitades miden con precisión el rasgo de interés. 
 
Tabla 3.8. Cálculo del coeficiente de fiabilidad por el método de las dos mitades 
Evaluados X1 X2 X3 X4 X5 X6 XI XP X 
1 1 0 1 0 1 0 3 0 3 
2 0 1 1 1 0 1 1 3 4 
3 0 0 1 0 0 0 1 0 1 
4 0 1 1 1 0 0 1 2 3 
5 0 0 0 1 0 0 0 1 1 
6 1 1 1 1 1 1 3 3 6 
7 1 1 1 1 1 1 3 3 6 
8 0 1 1 1 0 1 1 3 4 
9 0 1 0 0 0 0 0 1 1 
10 0 0 0 1 0 0 0 1 1 
Varianza (S2) 0,233 0,267 0,233 0,233 0,233 0,267 1,567 1,567 4 
 
 
 
Al calcular el coeficiente de fiabilidad por el método de las dos mitades hay que tener en 
cuenta varias precauciones: 
 
1. La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los 
tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma 
que se comienza a responder a los ítems más fáciles hasta llegar a los situados al final 
del test, que son los más difíciles. Si realizásemos la partición en dos mitades atendien-
do a su disposición en la prueba (la primera mitad formada por los primeros J/2 ítems, 
la segunda por los J/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran 
la misma media. Por ello, para obtener este coeficiente, hay que cuidar el modo en que 
se forman las mitades para garantizar su paralelismo; así, ambas mitades deberían estar 
equilibradas en cuanto a la dificultad, los contenidos y la posición media de sus ítems 
en el test. Por ejemplo, si en un test de 20 ítems de Extraversión, 10 miden Sociabilidad 
Capítulo 3. Modelo clásico y fiabilidad 99 
y otros 10 miden Impulsividad, las dos formas que construyamos deberían estar equili-
bradas en el número de ítems de ambas facetas. 
2. Si las respuestas a los ítems dependen demasiado de su orden serial en el test (p. ej., en 
un test de velocidad) es preferible utilizar otros procedimientos para evitar que el coefi-
ciente de fiabilidad se sobrestime. También hay que ser cautos cuando existen grupos 
de ítems que hacen referencia a un estímulo común (testlets); al repartir esos ítems a 
través de las mitades, se puede sobrestimar el coeficiente de fiabilidad. En esos casos, 
el hecho de que una persona obtenga la misma puntuación en las dos partes podrá ser 
considerado un artefacto metodológico (p. ej., en una prueba de velocidad, la puntua-
ción en la parte del test formada por los ítems impares siempre será muy similar a la 
puntuación en la parte del test formada por los ítems pares). En el caso de pruebas de 
velocidad se recomienda no utilizar índices de consistencia interna (o proceder a la 
eliminación del análisis de los ítems que no han sido alcanzados por un porcentaje de 
personas). En el caso de ítems que hacen referencia a un estímulo común se recomien-
da que se mantengan en una misma mitad, ya que si se reparten entre las dos mitades se 
sobrestimará el coeficiente de fiabilidad (ver Haertel, 2006). 
3. Un inconveniente de este método es que existen muchas formas de dividir el test en dos 
mitades y cada una de ellas arrojará un resultado distinto. De hecho, para McDonald 
(1999) el procedimiento de las dos mitades no es recomendable porque introduce en su 
estimación la variabilidad debida al método utilizado para dividir el test en dos. 
 
Al calcular el coeficiente de fiabilidad mediante la fórmula de Spearman-Brown se asume 
que las dos mitades son formas paralelas. Esto no ocurrirá cuando las dos mitades difieran 
en el número de ítems (variarán las varianzas verdaderas y las varianzas de error). Por 
ejemplo, cuando el número de ítems es impar, es incorrecto aplicar la fórmula de Spear-
man-Brown directamente, puesto que las dos formas ya no serían paralelas. En ese caso, 
el coeficiente de fiabilidad obtenido por la fórmula de Spearman-Brown supone una pe-
queña subestimación del coeficiente de fiabilidad, por lo que puede calcularse un coefi-
ciente de fiabilidad corregido. En el capítulo 8 se muestran otras formas de calcular el co-
eficiente por el método de las dos mitades cuando las formas no son paralelas. 
 
 
Coeficiente α de Cronbach 
 
Como hemos indicado, existen muchas formas de dividir el test en dos mitades. Para re-
solver este problema se ha propuesto el coeficiente alfa, un indicador de consistencia in-
terna con el que se estudia la concordancia entre las puntuaciones de las personas entre las 
partes más elementales del test: los ítems. 
Considere que tenemos un test con J ítems: 
 
∑∑∑ +==
j
j
j
j
j
j EVXX [3.25]
 
Si se cumplen los supuestos del Modelo Clásico podemos definir la proporción de varian-
za del test que es varianza verdadera: 
 
100 Medición en Ciencias Sociales y de la Salud 
2
'
2
2
2 '
X
jj
VV
j
V
X
V
jjj
σ
σσ
σ
σ
∑∑
≠
+
= [3.26] 
 
Los parámetros que aparecen en el numerador se refieren a las puntuaciones verdaderas en 
los ítems. Sin embargo, asumiendo los supuestos de la TCT, se cumplirá poblacionalmen-
te que el promedio de las covarianzas empíricas entre ítems es igual al promedio de las 
covarianzas verdaderas: 
 
)1()1(
''
''
−
=
−
∑∑
≠≠
JJJJ
jj
VV
jj
XX jjjj
σσ
 [3.27] 
 
y, por tanto: 
 
∑∑
≠≠
=
''
''
jj
XX
jj
VV jjjj
σσ [3.28] 
 
Por otro lado, la covarianza entre dos variables nunca puede ser mayor que la varianza de 
cualquiera de ellas; por tanto, debe cumplirse siempre que el promedio de las covarianzas 
verdaderas entre ítems es menor o igual que el promedio de sus varianzas verdaderas: 
 
JJJ
j
V
jj
VV jjj ∑∑
≤
−
≠
2
'
)1(
'
σσ
 [3.29] 
 
Y, por tanto, considerando [3.28] y [3.29]: 
 
11
''2
''
−
=
−
≥
∑∑
∑ ≠≠ JJ
jj
XX
jj
VV
j
V
jjjj
j
σσ
σ [3.30] 
 
De las ecuaciones [3.26], [3.28] y [3.30] se deriva la siguiente relación: 
 
2
'
2
'
'
2
'
2
2
2 ''
'
'
1
)1(
X
jj
XX
X
jj
XX
jj
XX
X
jj
VV
j
V
X
V
jjjj
jj
jjj
J
JJ
σ
σ
σ
σ
σ
σ
σσ
σ
σ
∑∑
∑
∑∑
≠≠
≠
≠
−
=
+
−
≥
+
= [3.31] 
 
 
 
 
Capítulo 3. Modelo clásico y fiabilidad 101 
Pues bien, el denominado coeficiente α (Cronbach, 1951) es: 
 
2
'
'
1 X
jj
XX jj
J
J
σ
σ
α
∑
≠
−
= [3.32] 
 
Y se dice que el coeficiente α es un límite inferior del coeficiente de fiabilidad, ya que 
siempre toma valores iguales o por debajo de éste [ 22 XV σσα ≤ ]. 
Para datos muestrales tres formas de expresar el coeficiente α serían4: 
 
Ecuación 1 [3.33] 
 
)(
1 2
'
'
X
jj
XX
S
S
J
J
jj∑
≠
−
=α 
 
Ecuación 2 [3.34] 
 
)1(
1 2
2
X
j
X
S
S
J
J
j∑
−
−
=α 
Ecuación 3 [3.35] 
 
S
S
jj XX '=α 
 
donde ∑
≠ '
'
jj
XX jj
S es la suma de las covarianzas entre ítems, ∑
j
X j
S 2 es la suma de las va-
rianzas de los ítems, 
'jj XX
S indica el promedio de las covarianzas entre ítems 
( ))1(
'
'
−







= ∑
≠
JJSS
jj
XXXX jjlj
 y S es el promedio de los J 2 elementos de la matriz de 
varianzas-covarianzas entre ítems: 2
'
2
'
JSSS
jj
XX
j
X
jjj 







+= ∑∑
≠
. 
 
El coeficiente α es útil para expresar en qué grado las medidas que obtenemos de las 
personas dependen de los ítems aplicados. La pregunta a la que se responde es: ¿los eva-
luados habrían obtenido puntuaciones similares si hubiéramos aplicado otro test de la 
misma longitud construido siguiendo la misma lógica? 
El coeficiente α siempre toma valores menores o iguales a 1 (el numerador en la ecua-
ción 3.35 tiene que ser menor o igual que el denominador). Generalmente, toma valores 
entre 0 y 1 pero puede ser negativo (el denominador en la ecuación 3.35 es siempre posi-
tivo, pero el numerador puede ser negativo). Valores del coeficientepróximos a 1 indican 
fiabilidad alta; valores próximos a 0, fiabilidad baja. 
 
4
 Para comprobar la igualdad de las 3 ecuaciones, recordemos que la puntuación en el test es una combinación 
lineal de las puntuaciones en los ítems y, por tanto, la varianza del test puede expresarse como la suma de las va-
rianzas y covarianzas entre ítems: 
 
∑∑
≠
+=
'
22
'
jj
XX
j
XX jjj
SSS 
102 Medición en Ciencias Sociales y de la Salud 
 
 
 Ejemplo 3.11. Coeficiente alfa 
 
Podemos calcular el coeficiente α con los datos del ejemplo de la Tabla 3.8. El coeficiente 
α, en este caso, sería: 
 








−
−
=
∑
2
2
1
1 X
X
S
S
J
J jα = 76,0
4
267,0233,0233,0233,0267,0233,0
1
5
6
=




 +++++− 
 
El coeficiente α obtenido representa un valor aceptable, pues se ha obtenido con sólo 6 
ítems, que nos indica que existe un grado de covariación medio-alto entre los ítems. 
 
 
 
La cuantía del coeficiente α depende de dos factores principalmente: 
 
1. Consistencia interna o grado de covariación (correlación) promedio entre los ítems. 
Como es lógico, un grado de covariación mayor entre dos ítems implica que el efecto 
de aplicar uno u otro para puntuar a las personas es menos importante. Podemos obser-
var en la expresión [3.35] que el coeficiente α tendrá un valor mayor cuanto mayor sea 
el promedio de las covarianzas. Asumirá valores cercanos a cero si el promedio de las 
covarianzas es próximo a 0. El máximo valor de α es 1, ya que la covarianza entre dos 
ítems nunca puede ser mayor que las varianzas de éstos (ya que el numerador nunca 
puede ser mayor que el denominador). El grado de covariación será mayor si los ítems 
están midiendo una única dimensión o rasgo (o dimensiones distintas pero correlacio-
nadas) y mayor cuanto mejor reflejen esa dimensión (o dimensiones). Sin embargo, y 
para evitar malos entendidos, debemos recordar que α, por sí solo, no constituye un in-
dicador de unidimensionalidad ya que: 
 
a. Se pueden estar midiendo distintas dimensiones pero correlacionadas. 
b. La covariación promedio puede llegar a ser alta incluso si un conjunto reducido de 
ítems no covarían con los demás. 
c. Como se describe a continuación, cierto grado de multidimensionalidad del test pue-
de compensarse incrementando el número de ítems (Cortina, 1993; Streiner, 2003). Por 
tanto, para concluir sobre la unidimensionalidad del test es aconsejable aplicar otras 
técnicas estadísticas, como el Análisis Factorial (ver capítulos 6 y 10). 
 
2. Número de ítems. En la ecuación [3.35] se observa también que el coeficiente α será 
mayor cuanto mayor sea el número de ítems. En efecto, llamemos al promedio de las 
varianzas de los ítems 2
jX
S : 
 
Capítulo 3. Modelo clásico y fiabilidad 103 
J
S
S
j
X
X
j
j
∑
=
2
2 
 
La fórmula 3.35 se puede escribir como: 
 
2
2
2
2
'
'
'
'
)1(1
)1(
j
jj
j
jj
jjj
jj
X
XX
X
XX
XXX
XX
S
S
J
S
S
J
J
SJJSJ
S
−+
=
−+
=α 
 
Si al añadir ítems se mantiene constante el cociente entre el promedio de las covarianzas 
y el promedio de las varianzas, el valor del coeficiente α será mayor cuanto mayor sea 
J. Puede observarse el parecido de la estructura de esta fórmula y la de Spearman-
Brown. 
 
 
 Ejemplo 3.12. Coeficiente alfa y unidimensionalidad del test 
 
En las siguientes tablas (3.9, 3.10 y 3.11) se muestran las matrices de varianzas-
covarianzas entre los ítems de tres pruebas; los tests A y B tienen 6 ítems, mientras que el 
C tiene 12 ítems. Los datos son ficticios para ilustrar mediante un ejemplo simple las pro-
piedades del coeficiente α. Para el test A: 
 
)(
1 2
'
X
jj
XX
S
S
J
J
lj∑
≠
−
=α = 74,0
9,3
4,2
5
6
=





 
 
Para el test B: 
 
)(
1 2
'
X
jj
XX
S
S
J
J
lj∑
≠
−
=α = 74,0
9,3
4,2
5
6
=





 
 
 
Para el test C: 
 
)(
1 2
'
X
jj
XX
S
S
J
J
lj∑
≠
−
=α = 87,0
15
12
11
12
=





 
104 Medición en Ciencias Sociales y de la Salud 
 
 
Tabla 3.9. Matriz de varianzas-covarianzas entre ítems (Test A) 
 X1 X2 X3 X4 X5 X6 
X1 0,25 0,20 0,20 0 0 0 
X2 0,20 0,25 0,20 0 0 0 
X3 0,20 0,20 0,25 0 0 0 
X4 0 0 0 0,25 0,20 0,20 
X5 0 0 0 0,20 0,25 0,20 
X6 0 0 0 0,20 0,20 0,25 
 
Tabla 3.10. Matriz de varianzas-covarianzas entre ítems (Test B) 
 X1 X2 X3 X4 X5 X6 
X1 0,25 0,08 0,08 0,08 0,08 0,08 
X2 0,08 0,25 0,08 0,08 0,08 0,08 
X3 0,08 0,20 0,25 0,08 0,08 0,08 
X4 0,08 0,08 0,08 0,25 0,08 0,08 
X5 0,08 0,08 0,08 0,08 0,25 0,08 
X6 0,08 0,08 0,08 0,08 0,08 0,25 
 
Tabla 3.11. Matriz de varianzas-covarianzas entre ítems (Test C) 
 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 
X1 0,25 0,20 0,20 0,20 0,20 0,20 0 0 0 0 0 0 
X2 0,20 0,25 0,20 0,20 0,20 0,20 0 0 0 0 0 0 
X3 0,20 0,20 0,25 0,20 0,20 0,20 0 0 0 0 0 0 
X4 0,20 0,20 0,20 0,25 0,20 0,20 0 0 0 0 0 0 
X5 0,20 0,20 0,20 0,20 0,25 0,20 0 0 0 0 0 0 
X6 0,20 0,20 0,20 0,20 0,20 0,25 0 0 0 0 0 0 
X7 0 0 0 0 0 0 0,25 0,20 0,20 0,20 0,20 0,20 
X8 0 0 0 0 0 0 0,20 0,25 0,20 0,20 0,20 0,20 
X9 0 0 0 0 0 0 0,20 0,20 0,25 0,20 0,20 0,20 
X10 0 0 0 0 0 0 0,20 0,20 0,20 0,25 0,20 0,20 
X11 0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,25 0,20 
X12 0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,20 0,25 
 
Podemos observar que los tests A y B tienen el mismo coeficiente α. Sin embargo, la in-
terpretación de los resultados sería bastante distinta. Aunque los dos tests tienen el mismo 
número de ítems, la misma varianza y el mismo promedio para las covarianzas entre 
ítems, el patrón de resultados es muy distinto atendiendo a las covarianzas concretas entre 
ítems. En el test A los ítems miden dos dimensiones; los ítems del 1 al 3 miden una di-
mensión y los ítems del 4 al 6 miden otra dimensión. En el test B los 6 ítems miden una 
única dimensión, aunque las covarianzas entre los ítems que covarían positivamente son 
menores que las encontradas para el test A. Para el Test C se obtiene un coeficiente α su-
perior (0,87). Observe que a pesar del alto valor del coeficiente obtenido, los ítems tam-
bién miden dos dimensiones (los ítems del 1 al 6 miden una dimensión y los ítems del 7 al 
12 miden otra dimensión). De hecho, las covarianzas entre los ítems que covarían positi-
Capítulo 3. Modelo clásico y fiabilidad 105 
vamente son similares a las encontradas para los ítems que covarían en el Test A; sin em-
bargo, al ser el test más largo el coeficiente obtenido es mayor. 
 
 
 
Lo anterior ilustra que la interpretación del coeficiente α debe complementarse con los re-
sultados obtenidos a partir del análisis de ítems y del Análisis Factorial. Un coeficiente α 
bajo puede indicar que los diferentes ítems miden rasgos o constructos diferentes o que el 
test es demasiado corto. 
El coeficiente α puede interpretarse como una estimación “a la baja” del coeficiente 
de fiabilidad como consistencia interna. Para interpretar el coeficiente α como un coefi-
ciente de fiabilidad del test se requiere asumir que todos los ítems son paralelos o, al me-
nos, esencialmente tau-equivalentes (ver capítulo 8 para la definición de tauequivalencia). 
En la práctica, es muy difícil que esto se produzca. Cuando los ítems no son equivalentes, 
el coeficiente alfa poblacional debe interpretarse como una subestimación del coeficiente 
de fiabilidad como consitencia interna (Lord y Novick, 1968): α ≤ σ 2V / σ 2X. Esto quiere 
decir que si obtenemos un coeficiente α de 0,7, el coeficiente de fiabilidad podría estar, 
teóricamente, entre 0,7 y 1. Por tanto, en sentido estricto, el coeficiente α no puede inter-
pretarse como un coeficiente de fiabilidad. 
Una ventaja del coeficiente α es que no requiere dividir el test en distintas mitades. 
Cada test puede tener muchos coeficientes de fiabilidad por el método de las dos mitades 
pero siempre tendrá, para una muestra concreta, un único coeficiente α. Sin embargo, al 
calcular el coeficiente α hay que tener en cuenta una serie de precauciones, ya que adole-
ce de algunosproblemas comunes a los otros indicadores de consistencia interna: 
 
1. Las respuestas a los ítems pueden correlacionar excesivamente, independientemente de 
su contenido, si el test es de velocidad o hay efectos de fatiga. 
2. También hay que ser cauto cuando existen grupos de ítems que comparten su especifi-
cidad (p. ej., si conjuntos de ítems de un test de comprensión lectora se refieren a pasa-
jes comunes). En ambos casos es preferible obtener otros indicadores de fiabilidad. 
Una solución sencilla para el último caso puede ser construir testlets (p. ej., cada testlet 
sería la suma de las puntuaciones de los ítems que se refieren a un pasaje común) y cal-
cular el coeficiente alfa tomando los testlets como ítems. 
3. Debe evitarse aumentar el coeficiente α artificialmente, incluyendo ítems redundantes 
en el test (p. ej., ítems muy parecidos en el enunciado). 
4. Finalmente, el coeficiente alfa no es sensible al efecto de los errores debidos a factores 
transitorios (Becker, 2000; Green, 2003; Schmidt y Hunter, 1996, 1999). En la presen-
cia de este tipo de errores, el coeficiente α es una sobrestimación del coeficiente de fia-
bilidad. 
 
El coeficiente α es probablemente el indicador de fiabilidad más utilizado (Hogan, 
Benjamin y Brezinski, 2000). Sin embargo, la discusión sobre su interpretación sigue ge-
nerando polémica. En el número de marzo de 2009, una de las revistas psicométricas más 
prestigiosas, Psychometrika, dedicó un número especial sobre la interpretación, usos, abu-
106 Medición en Ciencias Sociales y de la Salud 
sos y alternativas al coeficiente α como aproximación a la fiabilidad. La interpretación del 
coeficiente α puede ser especialmente problemática si el test no es unidimensional. 
En relación al uso del test, debe distinguirse entre el valor del coeficiente alfa como un 
indicador de la consistencia interna o como un indicador de que el test puede ser utilizado 
en la práctica. Un coeficiente alfa de 0,60 puede indicar una alta consistencia interna si la 
prueba tiene sólo 6 ítems. Sin embargo, esa alta consistencia interna no legitima su uso, 
porque la precisión de nuestras medidas será claramente insuficiente. 
Existen otros muchos indicadores relacionados con el coeficiente alfa, pero la mayoría 
de ellos raramente son aplicados en la práctica. Por ejemplo, los coeficientes denominados 
KR-21 y KR-20 (Kuder y Richardson, 1937) son casos particulares del coeficiente α para 
ítems dicótomicos. Mientras que KR-20 es matemáticamente equivalente al coeficiente al-
fa, el coeficiente KR-21 no lo es, ya que en su cómputo se asume que los ítems tienen la 
misma dificultad y se cumplirá siempre que KR-21 ≤ α. 
 
 
El error típico de medida 
 
Definición 
 
Asumiendo el postulado fundamental del Modelo Clásico, que expresa la relación 
X = V + E, hemos observado que se cumple la siguiente relación para datos poblacionales 
σ 2X = σ 2V + σ 2E. También hemos demostrado que ρXX = 1 – σ 2E / σ 2X, de donde se dedu-
ce que la desviación típica de los errores puede obtenerse a partir de la expresión: 
 
XXXE ρσσ −= 1 [3.36] 
 
σE es la desviación típica de los errores al aplicar un test en la población. En el Modelo 
Clásico suele asumirse que σE expresa también la desviación típica de los errores de me-
dida que obtendríamos, para una persona, al aplicarle distintas formas del test (σEi). Es de-
cir, que σEi = σE. A la desviación típica de los errores de medida (σE) se denomina error 
típico de medida. Representa una medida de precisión: cuanto más cercano a 0 sea el error 
típico de medida de un test, eso significará que dicho test proporciona a cada persona una 
puntuación X cercana a su nivel de rasgo V. El error típico de medida es muy importante, 
ya que indica la variabilidad de las puntuaciones X si tomáramos para la misma persona 
distintas medidas. En efecto, para un individuo i, la variabilidad de las puntuaciones a 
través de distintas formas paralelas se explica por la varianza de los errores (ya que, sien-
do su puntuación verdadera constante a través de las formas, σ 2Vi = 0): 
 
2222
iiii EEVX
σσσσ =+= 
 
Si el error típico de medida σEi es 0, eso quiere decir que el evaluado i obtendrá siempre la 
misma puntuación X en las distintas mediciones (como el test en ese caso es máximamen-
te preciso, la puntuación X del evaluado coincidirá siempre con su puntuación V). Cuanto 
menos preciso sea el test, mayor será σEi. Si el coeficiente de fiabilidad de las puntuacio-
Capítulo 3. Modelo clásico y fiabilidad 107 
nes fuera 0 (ρXX = 0), entonces el error típico de medida sería el máximo posible, σE = σX; 
esto quiere decir que cuando trabajamos con una prueba poco precisa la variabilidad de las 
puntuaciones observadas para una persona en distintas mediciones va a ser tan grande como 
la variabilidad de las puntuaciones observadas en la población. Luego el test resultará poco 
útil para informarnos sobre los niveles de atributo de las personas. 
 
 
 Ejemplo 3.13. Coeficiente de fiabilidad y error típico de medida 
 
En la figura 3.2 se presentan 2 gráficos de dispersión entre V y X para dos tests. La media 
y desviación típica de X son 50 y 9,65, respectivamente. El primero representa lo que ocu-
rre para un test con un coeficiente de fiabilidad de 0,9 y un error típico de 3,05 (relación 
lineal positiva y elevada). El segundo, lo que ocurre para un test con un coeficiente de fia-
bilidad de 0 y un error típico de 9,65 (no existe relación lineal entre X y V). 
 
Figura 3.2. Relación entre V y X para dos tests 
 
En la figura 3.3 se representa la puntuación media y la variabilidad en X como función de 
V para esos mismos tests para las puntuaciones verdaderas entre 41 y 61. 
 
Figura 3.3. Puntuación esperada y variabilidad en X como función de V para dos tests. 
 
0 
10 
20 
30 
40 
50 
60 
70 
80 
90 
0 10 20 30 40 50 60 70 80 90 100 
V 
X 
0 
10 
20 
30 
40 
50 
60 
70 
80 
90 
0 10 20 30 40 50 60 70 80 90 100 
V 
0 
10 
20 
30 
40 
50 
60 
70 
42 44 46 48 50 52 54 56 58 60 
X 
V 
X 
0 
10 
20 
30 
40 
50 
60 
70 
42 44 46 48 50 52 54 56 58 60 
X 
V 
X 
X 
108 Medición en Ciencias Sociales y de la Salud 
 
Para el test con alta fiabilidad (izquierda) el valor esperado en X es función de V. Por 
ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada 
en el test de 45 y sus puntuaciones suelen oscilar en la mayoría de los casos entre 42 y 48. 
Para el test con fiabilidad nula (derecha), el valor esperado en X no depende de V. Por 
ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada 
de 50 (la media del test) y sus puntuaciones suelen oscilar aproximadamente entre 40 y 
60. En ese caso, la puntuación en el test no nos informa del nivel de rasgo. Puede obser-
varse que la amplitud de los intervalos en cada test (42-48 y 40-60) se relaciona inversa-
mente con su fiabilidad y es proporcional al error típico de medida. 
 
 
 
De lo anterior debe deducirse que el tamaño del error típico de medida debe interpretarse 
en relación a la variabilidad de las puntuaciones empíricas. Si σE es 1 y σX es 15, nuestro 
test será más preciso que si σE es 0,8 y σX es 1. 
En una muestra concreta el error típico de medida se estima como: 
 
XXXE rSS −= 1 [3.37] 
 
 
 Ejemplo 3.14. Cálculo del error típico de medida 
 
En un test la desviación típica es 2,832 y el coeficiente de fiabilidad es 0,771; el error típico 
de medida se obtendría como: 
 
355,1771,01832,21 ' =−=−= XXXE rSS 
 
Esto quiere decir que si aplicáramos a una persona tests paralelos, la desviación típica de 
las puntuaciones empíricas sería 1,355. 
 
 
 
Aplicaciones del error típico de medida 
 
El error típico de medida nos sirve para saber: (1) el rango de puntuaciones en el cual se 
encuentra la puntuación verdadera de una persona; (2) si la diferencia de puntuaciones ob-
servadas entre dos personas expresa una diferencia en parteverdadera; (3) si el cambio en 
las puntuaciones observadas de una persona después de una intervención refleja un cam-
bio en parte verdadero. 
Desde el Modelo Clásico se suele asumir que la distribución de las puntuaciones ob-
servadas de una persona en las distintas formas paralelas es normal, con media su puntua-
ción verdadera y desviación típica el error típico de medida: 
Capítulo 3. Modelo clásico y fiabilidad 109 
 
),(~ Eii VNX σ [3.38] 
 
Puesto que se asume la distribución normal puede decirse que los valores de la variable 
estarán entre el valor Vi – z1 – α/2σE y el valor Vi + z1 – α/2σE con una probabilidad 1 – α5, 
donde z1 – α es el valor z que deja por debajo una probabilidad 1 – α en la distribución 
normal. Por ejemplo, con α = 0,05, si σE = 1,355 y Vi = 5 podremos decir que los valores 
de X estarán, en el 95% de las mediciones, entre 2,344 (= 5 – (1,96)1,355) y 7,656 (= 5 + 
(1,96)1,355). 
En la realidad operamos al revés, pues no conocemos Vi sino Xi y queremos establecer 
un intervalo de confianza sobre Vi. Además, se trabaja con la estimación muestral del 
error típico de medida. Para ello, se procede de la siguiente manera para establecer los 
límites inferior y superior del intervalo de confianza: 
 
EiLs
EiLi
SzXV
SzXV
2/1
2/1
α
α
−
−
+=
−=
 [3.39] 
 
Por ejemplo, con α = 0,05, si SE = 1,355 y Xi = 5, diremos que los valores de Vi estarán 
entre 2,344 (VLi = 5 – (1,96)1,355) y 7,656 (VLs = 5 + (1,96)1,355) con un nivel de con-
fianza del 95% (al establecer de ese modo el intervalo sobre la puntuación verdadera, nos 
equivocaremos en nuestra afirmación en el 5% de los casos). 
Además, mediante el error de medida podemos saber si una diferencia en puntuaciones 
empíricas refleja una diferencia no nula de puntuaciones verdaderas. Por ejemplo, un test 
impreciso puede proporcionar a dos personas puntuaciones empíricas diferentes aunque sus 
niveles de rasgo sean iguales. Utilizando los procedimientos de la estadística inferencial, po-
demos contrastar con cierta probabilidad si dos puntuaciones empíricas diferentes suponen o 
no niveles de rasgo distintos, o si un incremento en la puntuación empírica de una persona re-
fleja un incremento en su nivel de rasgo. 
Para realizar el contraste, partimos de una situación en la que observamos una diferen-
cia entre dos puntuaciones empíricas obtenidas en el mismo test (o en tests paralelos), X1 y 
X2, y queremos saber si la diferencia entre esas puntuaciones empíricas refleja una dife-
rencia en los niveles de rasgo verdaderos, V1 y V2. Partimos de que la diferencia entre X1 
y X2 se distribuye normalmente: 
 
)2,(~ 2121 ESVVNXX −− [3.40] 
 
Y esto nos permite obtener: 
 
2
)()( 2121
ES
VVXX
Z
−−−
= )1,0(~ N 
 
 
5
 A pesar de denominarse de la misma forma, no debe confundirse el nivel de significación α de un contraste de 
hipótesis (la probabilidad asociada a la zona de rechazo de H0) con el coeficiente α de Cronbach. 
110 Medición en Ciencias Sociales y de la Salud 
Lo más usual es contrastar si la diferencia entre X1 y X2 es estadísticamente distinta de 0. 
Bajo la hipótesis nula, se considera que V1 – V2 = 0 (las puntuaciones verdaderas son igua-
les) y obtenemos el estadístico de contraste: 
 
2
)( 21
ES
XX
Z
−
= [3.41] 
 
El Cuadro 3.1 resume los pasos de este contraste. El contraste puede ser bilateral (p. ej., la 
hipótesis nula es que no hay diferencias en puntuaciones verdaderas) o unilateral (p. ej., la 
hipótesis nula es que la persona no ha mejorado su puntuación verdadera después del tra-
tamiento). Si el valor Z se encuentra en la zona crítica, admitiremos, con la probabilidad esta-
blecida α de equivocarnos, que las puntuaciones V1 y V2 son distintas (o que ha habido una 
mejora). De lo contrario, admitiremos que, dada la precisión del test, no podemos concluir 
que la diferencia en puntuaciones empíricas exprese una diferencia (o mejora) en el verdadero 
nivel de rasgo. Como se muestra en el cuadro, también podemos establecer un intervalo de 
confianza para la diferencia en puntuaciones verdaderas. 
 
Cuadro 3.1. Resumen del contraste sobre puntuaciones verdaderas 
 
1. Hipótesis: 
a. Contraste bilateral: H0: V1 = V2 ; H1:V1 ≠ V2 
b. Contraste unilateral derecho: H0: V1 ≤ V2 ; H1: V1 > V2 
c. Contraste unilateral izquierdo: H0: V1 ≥ V2 ; H1: V1 < V2 
2. Supuestos: Se asume una distribución normal para )2,(~ 2121 ESVVNXX −− 
3. Estadístico del contraste: 
 
2
21
ES
XX
Z
−
= 
 
4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación 
típica 1. 
5. Zona crítica 
a. Contraste bilateral: Z ≤ zα/2 y Z ≥ z1–α/2 
b. Contraste unilateral derecho: Z ≥ z1–α/2 
c. Contraste unilateral izquierdo: Z ≤ zα/2 
6. Regla de decisión: se rechaza H0 si el estadístico de contraste cae en la zona críti-
ca; en caso contrario, se mantiene. 
7. Intervalo de confianza: 22/12121 EVV SzXXIC α−− ±−= 
 
 
Capítulo 3. Modelo clásico y fiabilidad 111 
 
 Ejemplo 3.15. Contraste de puntuaciones verdaderas 
 
En la escala de Neuroticismo de un test dos personas obtienen unas puntuaciones directas 
de 13 y 15 puntos, respectivamente. La desviación típica del test es 2,832 y 77,0=XXr . 
El investigador se pregunta si, con un nivel de confianza del 95%, puede concluir que am-
bas personas difieren en el rasgo o nivel verdadero. 
En este caso, los pasos a seguir serían: 
 
1. Hipótesis: H0: V1 = V2; H1:V1 ≠ V2 (contraste bilateral). 
2. Supuestos: Se asume una distribución normal para )2,(~ 2121 ESVVNXX −− . 
3. Estadístico del contraste: 
 
044,1
916,1
1315
2355,1
1315
2
12 =
−
=
−
=
−
=
ES
XX
Z 
 
4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación típica 1. 
5. Zona crítica: Z ≤ –1,96 y Z ≥ 1,96 
6. Regla de decisión: como –1,96 < 1,044 < 1,96, se mantiene H0. 
7. Intervalo de confianza: =±−= −− 22/12121 EVV SzXXIC α 
 )756,5;756,1()916,1(96,12 −=±= 
 
Con un nivel de confianza del 95%, la zona de aceptación queda establecida entre los 
límites z0,025 = –1,96 y z0,975 = 1,96, con lo cual, dada la precisión del test, no podemos 
concluir, con α = 0,05, que las dos personas difieran en el verdadero nivel de rasgo. Esto 
es lógico, ya que la diferencia encontrada entre las puntuaciones empíricas (2 puntos) no 
es mucho mayor que el error típico de medida (1,355 puntos). El intervalo de confianza 
nos dice que, con un nivel de confianza del 95%, la diferencia verdadera se encuentra 
aproximadamente entre –1,756 puntos y 5,756 puntos, que es un intervalo relativamente 
amplio. En esta escala, las diferencias entre dos puntuaciones empezarían a ser estadísti-
camente significativas (con α = 0,05) a partir de 3,756 ( ≅ 1,96(1,916)) puntos. 
 
 
 
Formas de incrementar la fiabilidad de un test 
 
Existen varias formas de incrementar la fiabilidad de un test: 
 
1. Aumentar el número de ítems: Una de las maneras de incrementar la fiabilidad de un 
test es aumentar el número de ítems. Para estudiar el efecto de la longitud del test, pue-
de aplicarse la fórmula de Spearman-Brown: 
112 Medición en Ciencias Sociales y de la Salud 
 
xx
xx
xx
rn
nr
R
)1(1 −+
= 
 
Mediante la cual puede estudiarse cómo aumentaría la fiabilidad al incrementar el 
número de ítems si no hay efectos de fatiga (que producen correlaciones entre los erro-
res de medida de los ítems), si las formas añadidas son paralelas y si los errores debidos 
a factores transitorios son pequeños (Feldt y Brennan, 1989; Schmidt y otros, 2003). 
Además, debe tenerse una precaución adicional: al añadir ítems nuevos no debe buscar-
se el aumento artificial del coeficiente α incluyendo ítems redundantes. 
2. Eliminar ítems problemáticos. Además de incrementar el número de ítems, pueden eli-
minarse los ítems problemáticos (cuya correlación con la puntuación en el resto del test 
es baja). Entre los ítems de igualvariabilidad, los de mayor correlación biserial puntual 
con el test, rbp , son los que más contribuyen a incrementar α ya que tendrán mayor 
promedio de covarianzas con el resto de los ítems. Para ítems con igual varianza, α es 
proporcional a los valores rbp de los ítems ya que: 
 


























−





−
=
∑
∑
=
=
2
1
,
1
2
1
1 J
j
jbpX
J
j
X
rS
S
J
J
j
j
α [3.42] 
 
 
Y, si las varianzas son iguales: 
 


















−
−
= ∑
=
2
1
,11
J
j
jbprJJ
Jα [3.43] 
 
 
Si en la fase de análisis de ítems tenemos como objetivo elaborar un test con elevada 
consistencia interna, tenemos que quedarnos con los ítems que manifiestan una mayor 
correlación ítem-test. Sin embargo, esta regla, de uso frecuente, debe aplicarse con pre-
caución ya que: 
 
a. Si un ítem correlaciona de forma aceptable con el resto del test no debería eliminarse 
incluso si con ello cambia poco o aumenta la fiabilidad, ya que existen otras propieda-
des psicométricas del test que podrían verse afectadas (p. ej., el nivel de representación 
de los contenidos). 
b. Si la muestra es pequeña, es probable que el aumento en el coeficiente α al quitar un 
ítem con baja rbp no se replique en una nueva muestra. 
Capítulo 3. Modelo clásico y fiabilidad 113 
c. Si el objetivo del estudio psicométrico no es el desarrollo de un nuevo test puede ser 
cuestionable la eliminación de ítems, pues ello dificultará la comparación de los coefi-
cientes de fiabilidad que se obtendrían con la nueva versión de la prueba. 
3. Mejorar las condiciones de aplicación. Finalmente, tras la aplicación de un test pode-
mos detectar ciertos aspectos que se han podido descuidar (instrucciones de aplicación 
poco claras, tiempos de aplicación inadecuados, etc.). Al homogeneizar al máximo las 
condiciones de aplicación (especialmente en lo relativo a las instrucciones y a los tiem-
pos de aplicación de la prueba) haremos que éstas no incrementen la variabilidad error 
en las puntuaciones. 
 
 
Coeficiente de fiabilidad y características de la muestra 
 
Actualmente se considera un error hablar de fiabilidad del test (Fan y Yin, 2003; Thomp-
son y Vacha-Haase, 2000). Parece que es más correcto hablar de fiabilidad de las puntua-
ciones obtenidas en el test. Más que un debate terminológico, lo que se pretende destacar 
es que el coeficiente de fiabilidad obtenido para un test dependerá de la muestra de perso-
nas en la cual lo hayamos calculado (especialmente, de la variabilidad en la característica 
medida), de las fuentes de error a las que es sensible el coeficiente obtenido y de la situa-
ción de aplicación (p. ej., de las instrucciones proporcionadas). 
La variabilidad de las puntuaciones en la muestra es uno de los factores que más puede 
afectar al valor del coeficiente de fiabilidad. Más concretamente, obtendremos un coefi-
ciente de fiabilidad mayor cuanto más heterogénea (mayor varianza en el rasgo) sea la 
muestra. Por ejemplo, es usual que un test de Inteligencia obtenga un rXX mayor en una 
muestra de la población general que una muestra de universitarios o en otra de personas 
con deficiencias cognitivas. Esto se debe a que, en último término, el coeficiente de fiabi-
lidad es una correlación de Pearson y, por tanto, se ve afectado por los mismos factores 
estadísticos que ésta. 
Existen fórmulas para corregir los efectos de la variabilidad, denominas como fórmu-
las para la corrección del coeficiente de fiabilidad por restricción de rango. Su aplicación 
no está exenta de supuestos (p. ej., que la varianza error se mantiene constante a través de 
los grupos) y, por tanto, de críticas. En concreto, asumiendo que la varianza de los errores 
es la misma en dos grupos (A y B), el coeficiente de fiabilidad en el grupo B puede obte-
nerse como: 
 
( )
2
)(
)(
2
)(
)(
1
1
BX
AXXAX
BXX
σ
ρσ
ρ
−
−= [3.44] 
 
donde ρxx(A) y ρxx(B) indican el coeficiente de fiabilidad en los grupos A y B respectivamen-
te; σ 2X(A) y σ 2X(B) indican las varianzas de las puntuaciones empíricas en los grupos A y B, 
respectivamente. Esta fórmula no debería aplicarse si existen razones para pensar que los 
grupos difieren en cuanto a la varianza de los errores (lo que puede ocurrir si la precisión 
del test varía mucho dependiendo del nivel de rasgo). 
 
114 Medición en Ciencias Sociales y de la Salud 
 
 Ejemplo 3.16. Corrección por restricción de rango 
 
Tras un proceso de selección se ha aplicado una prueba de Extraversión al grupo de per-
sonas seleccionadas. Se obtiene un coeficiente de fiabilidad de 0,6 y una varianza de las 
puntuaciones en el test de 7. El investigador se pregunta cuál habría sido el coeficiente de 
fiabilidad si hubiera aplicado el test en el grupo completo de aspirantes que se presentaron 
al proceso de selección. En el manual de la prueba se describe que su varianza es 10 en la 
población. Asumiendo que en el grupo de aspirantes ésa sea la varianza, la estimación del 
coeficiente de fiabilidad para dicho grupo será: 
 
( )
72,0
10
6,017
1 =
−
−=XXρ 
 
Algunos autores consideran que en un grupo de aspirantes suele haber menor variabilidad 
en el rasgo que en la población. Esto puede ocurrir por un efecto de autoselección (p. ej., 
si las personas poco extravertidas optan por no presentarse a trabajos en los que se de-
manda esa característica de personalidad). Estudios publicados previos pueden servir para 
valorar el grado en que se produce este efecto para distintas características de personali-
dad y en distintos tipos de trabajos (ver por ejemplo, Ones y Viswesvaran, 2003). 
 
 
 
Valores mínimos para los indicadores de fiabilidad 
 
La falta de fiabilidad de las puntuaciones en un test supone que una parte importante de la 
variabilidad de las puntuaciones es aleatoria. Ante este problema, la pregunta podría ser: 
¿A partir de qué valor del coeficiente de fiabilidad aceptamos que las puntuaciones son 
suficientemente fiables? La respuesta a esta pregunta es ambigua porque está mal formu-
lada. Es un error pensar que existen límites casi mágicos, como el 0,7, a partir de los cua-
les nos podemos olvidar de la falta de precisión de las puntuaciones del test (Schmidt y 
Hunter, 1999). Este error surge a partir de los intentos de establecer guías que nos permi-
tan concretar valores mínimos de precisión para las pruebas. Por ejemplo, Nunnally 
(1967) recomendaba inicialmente valores por encima de 0,5 o 0,6 en las fases tempranas 
de la investigación; en versiones posteriores de su manual incrementaron el valor a 0,7 
(Nunnally y Bernstein, 1994); para instrumentos que se vayan a utilizar en investigación 
básica recomiendan un valor mínimo de 0,8 y si se va a hacer un uso clínico 0,9 es, para 
ellos, el valor mínimo aceptable6. En realidad, el valor del coeficiente de fiabilidad que 
podamos aceptar debe venir fijado más por el uso específico que se vaya a hacer del test 
(p. ej., considerando la precisión requerida para ese uso o las consecuencias de la falta de 
 
6
 Aunque para Streiner este último criterio es demasiado exigente y puede resultar contraproducente ya que, en 
su opinión, un valor tan alto sólo se puede obtener a costa de incrementar la redundancia de los ítems en el test 
(Streiner, 2003). 
Capítulo 3. Modelo clásico y fiabilidad 115 
precisión) que por una regla mágica, por muy consensuada que pueda estar. Sirvan como 
ejemplo estos tres ámbitos de uso de las puntuaciones en un test: 
 
1. En contextos de investigación básica, para estudiar las relaciones entre constructos. 
Por ejemplo, Schmidt y Hunter (1999) muestran que la correlación entre dos variables 
medidas con pruebas cuyo coeficiente de fiabilidad sea 0,70 se verá subestimada, en 
promedio, en un 30% (p. ej., una correlación de 0,3 pasará a ser una correlación de 
0,21). Esto puede hacer que relaciones reales dejen de ser estadísticamentesignificati-
vas. Lo mismo ocurre si estamos comparando las puntuaciones medias de los evaluados 
en dos grupos (p. ej., experimental y control). Si el test no resulta suficientemente fia-
ble, las diferencias no serán estadísticamente significativas. En este tipo de situaciones, 
una forma adecuada de plantearnos la pregunta es: ¿son las puntuaciones en el test lo 
suficientemente fiables para detectar la relación o efecto que se pretende detectar dados 
los tamaños muestrales de los grupos? 
2. En contextos de selección, para elegir a los candidatos aptos para el puesto. En estos 
contextos es frecuente que haya un límite en el número de plazas ofertadas. En ese ca-
so, los requerimientos en relación a la fiabilidad del test aplicado pueden depender de 
su uso (es diferente aplicarlo como filtro que para tomar decisiones finales), de la ratio 
de selección (p. ej., si se debe seleccionar al 20% con puntuaciones superiores o si se 
debe seleccionar al 10%), de la proporción de aspirantes aptos para el puesto y de otras 
consecuencias que pueda tener la aplicación. 
3. En contextos de evaluación diagnóstica o de certificación, para clasificar a los evalua-
dos en relación con varias categorías o puntos de corte. En ese caso, la precisión re-
querida dependerá de los niveles de puntuaciones que deseamos discriminar y de las 
consecuencias que pueda tener una clasificación errónea. Cuanto más próximos sean 
los niveles de rasgo en los que se quiere discriminar y más graves las consecuencias de 
una decisión errónea, mayor será la fiabilidad requerida. 
 
 
Software para la Teoría Clásica de los Tests 
 
Los programas estadísticos de carácter general (SPSS, SAS, STATISTICA) proporcionan 
diversos indicadores psicométricos de fiabilidad según el Modelo Clásico. Los programas 
comerciales como LERTAP 5 (Nelson, 2001) e ITEMAN (ASC, 1988) permiten el análi-
sis clásico de ítems y ofrecen distinta información sobre la fiabilidad de las puntuaciones 
en el test. Los programas TAP (Brooks y Johanson, 2003) y CIA (Kim, 1999) son muy 
similares al programa ITEMAN en cuanto a su funcionalidad y son de libre distribución. 
El programa CLM (López-Pina, 2005), también de libre distribución, proporciona un gran 
número de indicadores de fiabilidad. TIAPLUS, desarrollado en uno de los centros de in-
vestigación psicométrica más prestigiosos (CITO, 2006) permite también el análisis clási-
co de ítems y la obtención de distintos estadísticos para el estudio de la fiabilidad. En Es-
paña, Renom y colaboradores (2007) han desarrollado una plataforma web (www.etest.es) 
de análisis psicométrico que integra distintas herramientas desarrolladas previamente por 
el equipo (METRIX, X-PAT, etc.). 
 
 
116 Medición en Ciencias Sociales y de la Salud 
Indicadores de fiabilidad con SPSS 
 
Los indicadores de fiabilidad pueden obtenerse en SPSS dentro del menú Analizar > Es-
cala > Análisis de fiabilidad. Para obtener el coeficiente de fiabilidad por el método de 
las dos mitades debe elegirse (en la pestaña correspondiente) el modelo dos mitades. El 
orden en el que se introducen las variables (i. e., los ítems) en la lista Elementos determi-
na qué ítems forman cada mitad. Si el número de ítems es par, las primeras J/2 variables 
formarán la primera mitad y las siguientes J/2 variables formarán la segunda mitad del 
test. Si el número de ítems es impar, las primeras (J+1)/2 variables formarán parte de la 
primera mitad y las siguientes (J – 1)/ 2 variables formarán la segunda mitad del test. En 
la salida de resultados se ofrece el coeficiente SBrXX, denominado como Coeficiente de 
Spearman-Brown (Longitud igual). Si el número de ítems es impar, entonces obtendre-
mos el coeficiente corregido [Coeficiente de Spearman-Brown (Longitud desigual)]. 
El coeficiente α puede obtenerse en SPSS eligiendo el modelo Alfa dentro del menú 
Analizar > Escala > Análisis de fiabilidad. En la salida de resultados se ofrece el coefi-
ciente α etiquetado como “Alfa de Cronbach” y el coeficiente α z etiquetado como “Alfa 
de Cronbach basado en los elementos tipificados”. Este último resulta de aplicar la 
fórmula tras transformar las puntuaciones a escala típica, lo que puede ser conveniente si 
los ítems tienen diferente formato de respuesta. 
 
 
 Ejemplo 3.17. Coeficiente de fiabilidad por el método de las dos mitades con SPSS 
 
En una prueba de 11 ítems de Neuroticismo aplicada a 1569 evaluados, se obtuvieron en 
SPSS los resultados que aparecen en las siguientes tablas. 
 
Tabla 3.12. Estadísticos de fiabilidad con el modelo Dos mitades en SPSS 
 Correlación entre formas 0,589 
Coeficiente de Spearman-Brown Longitud igual 0,741 
Longitud desigual 0,743 
 Dos mitades de Guttman 0,739 
 
 
Tabla 3.13. Estadísticos descriptivos con el modelo Dos mitades en SPSS 
 Media Varianza Desviación típica Nº de elementos 
Parte 1 3,78 2,793 1,671 6a 
Parte 2 2,56 2,264 1,505 5b 
Ambas partes 6,34 8,019 2,832 11 
a. Los elementos son: u1, u2, u3, u4, u5, u6. 
b. Los elementos son: u7, u8, u9, u10, u11. 
 
Capítulo 3. Modelo clásico y fiabilidad 117 
 
Tabla 3.14. Estadísticos de fiabilidad con el modelo Alfa en SPSS 
Alfa de Cronbach Alfa de Cronbach basada en los elementos tipificados Nº de elementos 
0,771 0,773 11 
 
En este caso, SBrXX es igual a 0,741 y el valor corregido, 0,743. Como puede observarse, 
los valores son bastante parecidos. Concluiríamos que el 74% de la varianza del test se 
debe a la varianza verdadera en el nivel de rasgo. En este caso el coeficiente α es 0,771, lo 
que indica que el grado de consistencia interna (o covariación media entre los ítems) es 
medio-alto. Además, el coeficiente α es mayor que el coeficiente de fiabilidad por el 
método de las dos mitades. Esto quiere decir que probablemente existen otras formas de 
dividir el test en dos mitades que dan lugar a mayores coeficientes de fiabilidad. 
 
 
 
 
Apéndice 
 
 
Otras consideraciones sobre el concepto de puntuación verdadera 
 
A lo largo del capítulo hemos ofrecido una definición operacional de puntuación verdadera, según la 
cual se considera como el promedio (valor esperado) de las puntuaciones observadas que obtendría 
una persona en un número elevado de aplicaciones: Vi = εf (Xif). Es importante ser consciente de que 
a partir de esta definición se establece que la puntuación verdadera depende no sólo de la persona 
sino del instrumento utilizado y de las condiciones de aplicación. Por tanto, la puntuación verdadera 
de una persona dependerá de su nivel de rasgo, de las propiedades del instrumento de medición (di-
ficultad de los ítems, longitud del test, etc.) y de las condiciones de aplicación (p. ej., en qué grado 
las instrucciones le alientan a responder al azar cuando desconoce la respuesta). Si el test fuera una 
prueba de conocimientos de 30 ítems, que se aplica informando a los evaluados que se les van a pe-
nalizar los errores, la puntuación verdadera de una persona es la puntuación promedio que obtendría 
en distintas pruebas de conocimientos de 30 ítems con las mismas especificaciones de contenido, di-
ficultad e instrucciones de aplicación (p. ej., en relación a la penalización de los errores). 
El tema es más complejo de lo que parece a primera vista. Si una característica de la aplicación 
(p. ej., tiempo de aplicación de la prueba) se mantiene constante a través del proceso de medición, 
su efecto en las puntuaciones observadas pasará automáticamente a formar parte de la puntuación 
verdadera (en ese caso, una puntuación verdadera específica que reflejaría el valor del atributo en el 
contexto concreto de aplicación). Por otro lado, si la misma característica de la aplicación no está 
controlada por el aplicador y fluctúa de una ocasión a otra, la puntuación verdadera (que podríamos 
denominar genérica) reflejaría un efecto promedio de la variable de aplicación y la variabilidad en 
las puntuaciones observadas provocada por la variabilidad en las condiciones de aplicación pasaría a 
formarparte del error. 
Todo lo anterior implica que la puntuación verdadera no tiene por qué representar el nivel ver-
dadero en el atributo que pretendemos medir; V es, simplemente, un promedio de lo que la persona 
obtendría en tests “como el nuestro”. El coeficiente de fiabilidad sólo nos informa de cómo variaría 
la puntuación X de la persona en distintas aplicaciones. Desde luego, un coeficiente de fiabilidad ba-
jo indica que estamos midiendo un atributo de forma imprecisa, pero un coeficiente de fiabilidad al-
118 Medición en Ciencias Sociales y de la Salud 
to no implica necesariamente que estemos midiendo el atributo que queremos medir. Esto último es 
una cuestión de validez de las puntuaciones, a la que se dedicará el capítulo 5. 
 
 
Intervalos de confianza para los estimadores de fiabilidad 
 
Cada vez es más frecuente que para cualquier índice estadístico se exija informar del intervalo con-
fidencial, que nos indica entre qué valores puede encontrarse el estadístico en la población. Por 
ejemplo, un valor rXX = 0,7 es poco informativo si se ha obtenido en una muestra de 20 personas. 
Fan y Thompson (2001) resumen los procedimientos más usuales para construir intervalos de con-
fianza. 
 
 
Coeficiente α 
 
En este apartado utilizaremos el símbolo α̂ para referirnos al valor del coeficiente obtenido en la 
muestra y el símbolo α para referirnos al valor del coeficiente obtenido en la población. Para el co-
eficiente α, el intervalo de confianza puede obtenerse de la forma: 
 
2,1,2/inf )ˆ1(1)( glglFIC ααα −−= 2,1,2/1sup )ˆ1(1)( glglFIC ααα −−−= 
 
donde )(inf αIC y )(sup αIC son los límites inferior y superior del intervalo respectivamente; α̂ 
es la estimación muestral de α; F representa los valores de la distribución F para los valores de pro-
babilidad acumulada α/2 y 1 – α/2, con grados de libertad gl1 = (N – 1) y gl2 = (N – 1)(J – 1). 
 
 
Coeficientes de fiabilidad como correlación entre formas paralelas y fiabilidad test-retest 
 
Para coeficientes de fiabilidad que pueden interpretarse directamente como correlaciones (coeficien-
te de fiabilidad test-retest, coeficiente de fiabilidad como correlación entre formas paralelas) se pue-
den aplicar los procedimientos estadísticos usuales cuando se trabaja con correlaciones; los límites 
del intervalo confidencial se pueden obtener mediante los siguientes pasos: 
 
1. Se transforma el coeficiente de fiabilidad, mediante una transformación Z de Fisher: 
 






−
+
=
XX
XX
r
r
r
z
XX 1
1
ln5,0 
 
2. Se calcula la desviación típica de la distribución muestral de rxxz : 
 
3
1
−
=
NXXr
zσ 
 
3. Se obtienen los intervalos de confianza para rxxz : 
 
XXrXXXX
zrr zzzIC σα 2/1inf )( −−= 
XXrXXXX
zrr zzzIC σα 2/1sup )( −+= 
Capítulo 3. Modelo clásico y fiabilidad 119 
 
4. Se transforman los límites del intervalo a la escala de correlaciones, mediante una transformación 
inversa Z de Fisher: 
 
1))(2exp(
1))(2exp(
)(
inf
inf
inf +
−
=
XX
XX
r
r
XX
zIC
zIC
rIC 
1))(2exp(
1))(2exp(
)(
sup
sup
sup +
−
=
XX
XX
r
r
XX
zIC
zIC
rIC 
 
 
Coeficiente de fiabilidad por el método de las dos mitades 
 
Para el coficiente de fiabilidad por el método de las dos mitades se puede obtener el intervalo de 
confianza de una forma similar. Recuerde que el punto de partida es la correlación entre las dos mi-
tades, 
PXIX
r . Podemos calcular los intervalos de confianza para la correlación 
PXIX
r , siguiendo el 
procedimiento anterior: 
 
1))(2exp(
1))(2exp(
)(
inf
inf
inf +
−
=
PXIX
PXIX
PI
r
r
XX
zIC
zIC
rIC 
1))(2exp(
1))(2exp(
)(
sup
sup
sup +
−
=
PXIX
PXIX
PI
r
r
XX
zIC
zIC
rIC 
 
y aplicar la fórmula de Spearman-Brown para obtener los límites del intervalo: 
 
)(1
)(2
)(
inf
inf
inf
PI
PI
XX
XX
XX
rIC
rIC
rIC
+
= 
)(1
)(2
)(
sup
sup
sup
PI
PI
XX
XX
XX
rIC
rIC
rIC
+
= 
 
 
 Ejemplo 3.18. Intervalos de confianza para los coeficientes de fiabilidad 
 
 
Coeficiente alfa 
 
En una muestra de 1.569 personas y un test de 11 ítems, se obtuvo un α̂ = 0,771; en ese caso, los 
límites del intervalo de confianza (con un nivel de confianza del 95%) para el coeficiente α son: 
 
754,0)075,1)771,01((1))ˆ1((1)( 2,1,2/inf =−−=−−= glglFIC ααα 
787,0)928,0)771,01((1))ˆ1((1)( 2,1,2/1sup =−−=−−= − glglFIC ααα 
 
Lo que indica que podemos afirmar, con una confianza del 95%, que el coeficiente α en la pobla-
ción se encuentra entre 0,754 y 0,787. En este caso, el intervalo es estrecho porque el tamaño de la 
muestra es grande (N = 1569). También puede obtenerse el intervalo de confianza con SPSS. En el 
menú Escalas > Análisis de fiabilidad, se selecciona el modelo Alfa; en Estadísticos, se selecciona 
Coeficiente de correlación intraclase (Modelo: Dos factores, efectos mixtos; Tipo: consistencia) 
y se obtiene una tabla similar a la 3.15. 
120 Medición en Ciencias Sociales y de la Salud 
Tabla 3.15. Coeficiente de correlación intraclase 
 Intervalo de confianza 95% 
 Correlación intraclase Límite inferior Límite superior 
Medidas promedio 0,771 0,754 0,787 
 
 
Coeficiente de fiabilidad como correlación entre formas paralelas 
 
En la misma muestra, la correlación entre el test de 11 ítems y otra forma paralela es también rxx = 
0,771. Los intervalos de confianza, con un nivel de confianza del 95%, se obtendrían siguiendo los 
pasos previamente mostrados: 
 
1. Transformación de rxx a Z de Fisher: 
 
023,1
771,01
771,01
ln5,0
1
1
ln5,0 =





−
+
=





−
+
=
XX
XX
r
r
r
z
XX
 
 
2. Se obtienen los intervalos de confianza para rxxz : 
 
973,0
1566
1
96,1023,1)( 2/1inf =−=−= −
XXrXXXX
zrr zzzIC σα 
072,1
1566
1
96,1023,1)( 2/1sup =+=+= −
XXrXXXX
zrr zzzIC σα 
 
4. Se aplica la transformación inversa Z de Fisher: 
 
750,0
1))973,0(2exp(
1))973,0(2exp(
1))(2exp(
1))(2exp(
)(
inf
inf
inf =+
−
=
+
−
=
XX
XX
r
r
XX
zIC
zIC
rIC 
790,0
1))072,1(2exp(
1))072,1(2exp(
1))(2exp(
1))(2exp(
)(
sup
sup
sup =+
−
=
+
−
=
XX
XX
r
r
XX
zIC
zIC
rIC 
 
Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficien-
te de fiabilidad en la población estará entre 0,75 y 0,79. 
 
 
Coeficiente de fiabilidad por el método de las dos mitades 
 
Obtenemos, para los mismos datos, que la correlación entre formas es 0,589 y el coeficiente de fia-
bilidad por el método de las dos mitades es 0,741. Los intervalos de confianza pueden obtenerse rea-
lizando los siguientes cálculos: 
 
 
 
 
Capítulo 3. Modelo clásico y fiabilidad 121 
1. Transformación de 
PXIX
r a Z de Fisher: 
 
676,0
589,01
589,01
ln5,0
1
1
ln5,0 =





−
+
=







−
+
=
PXIX
PXIX
PXIX
r
r
r
r
r
z 
 
2. Se obtienen los intervalos de confianza para la Z de Fisher: 
 
627,0
1566
1
96,1676,0)( 2/1inf =−=−= −
PXIXrPXIXPXIX
zrr zzzIC σα 
726,0
1566
1
96,1676,0)( 2/1sup =+=+= −
PXIXrPXIXPXIX
zrr zzzIC σα 
 
3. Se aplica la transformación inversa Z de Fisher: 
 
556,0
1))627,0(2exp(
1))627,0(2exp(
1))(2exp(
1))(2exp(
)(
inf
inf
inf =+
−
=
+
−
=
PXIX
PXIX
PXIX
r
r
r
zIC
zIC
IC 
620,0
1))726,0(2exp(
1))726,0(2exp(
1))(2exp(
1))(2exp(
)(
sup
sup
sup =+
−
=
+
−
=
PXIX
PXIX
PXIX
r
r
r
zIC
zIC
IC 
 
4. Se obtienen los intervalos: 
 
715,0
556,01
)556,0(2
)(1
)(2
)(
inf
inf
inf =+
=
+
=
PXIX
PXIX
r
r
XX
IC
IC
rIC 
765,0
620,01
)620,0(2
)(1
)(2
)(
sup
sup
sup =+
=
+
=
PXIX
PXIX
r
r
XX
IC
IC
rIC 
 
 
 
Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficien-
te de fiabilidad en la población estará entre 0,715 y 0,765. 


 
 
4 
Introducción a la Teoría de la 
Respuesta al Ítem 
 
 
 
 
 
 
Introducción 
 
La Teoría Clásica de los Tests (TCT) continúa siendo el modelo predominante para la 
construcción de tests psicológicos tanto por la sencillez de sus procedimientos y supuestos 
como por su demostrada utilidadpráctica. Sin embargo, se conocen bien las limitaciones 
teóricas del modelo clásico y se ha desarrollado un nuevo enfoque psicométrico, la Teoría de 
la Respuesta al Ítem (TRI), que permite superarlas. La TRI supone una aproximación más 
fina en el estudio de las propiedades psicométricas de un test, ya que modela de forma 
más realista las respuestas de las personas, toma los ítems como unidad de análisis y 
permite describir algunas propiedades psicométricas del instrumento mediante indicadores 
invariantes, que no dependen de la muestra en la que se aplique (siempre que se cumplan 
una serie de supuestos). 
Los principios de la TRI se remontan a los trabajos de Thurstone (1925; 1927), Lawley 
(1943), Guttman (1944) y Lazarsfeld (1950; 1959). El interés era obtener instrumentos de 
medida cuyas propiedades no dependieran de la muestra en la que se aplicaran. Fue Lord 
(1952) quien hizo la aportación definitiva, presentando el primer modelo de TRI en un 
monográfico de la revista Psychometrika. Sin embargo, es después de los años sesenta 
cuando se empiezan a desarrollar nuevos modelos y procedimientos que facilitan su 
aplicabilidad (Rasch, 1960; Lord y Novick, 1968). En los ochenta, será Lord el que acuñe 
la denominación de Teoría de la Respuesta al Ítem (Lord, 1980) y se publican diversos 
libros que constituyen las obras de referencia sobre la TRI (Hambleton y Swaminathan, 
1985; Hambleton, Swaminathan y Rogers, 1991; Hulin, Drasgow y Parsons, 1983; Lord, 
1980). Después de los ochenta, y sobre todo en las dos últimas décadas, no han dejado de 
proponerse nuevos modelos y aplicaciones de la TRI. Descripciones de los viejos y 
nuevos modelos pueden encontrarse en numerosas fuentes, en inglés (De Ayala, 2009; 
124 Medición en Ciencias Sociales y de la Salud 
 
Embretson y Hershberger, 1999; Embretson y Reise, 2000; Ostini y Nering, 2006; Thissen 
y Wainer, 2001; Van der Linden y Hambleton, 1997) y en español (López-Pina, 1995; 
Martínez Arias et al., 2006; Muñiz, 1996, 1997; Revuelta, Abad y Ponsoda, 2006). 
Hasta hace poco, en España existían pocos instrumentos psicológicos desarrollados 
exclusivamente en el marco de la TRI. Una razón es que los nuevos procedimientos de la 
TRI son más costosos, complejos y exigentes en las comprobaciones de los supuestos. Sin 
embargo, en otros países, su uso es muy frecuente en pruebas de selección o acreditación 
aplicadas a grandes muestras (p. ej., SAT, GRE, TOEFL, ASVAB, etc.) y en contextos de 
evaluación educativa. La TRI se ha convertido también en una herramienta indispensable 
cuando se quiere comparar las diferencias entre diversos países o culturas (p. ej., en los tests 
que forman el TIMSS o las pruebas educativas del proyecto OECD/PISA). En España, son 
cada vez más los tests basados específicamente en la TRI o en los que se complementa el 
estudio psicométrico realizado desde la TCT. También son cada vez más frecuentes los 
trabajos de investigación aplicada sustentados en estos modelos y el desarrollo de ciertos 
tipos de tests que requieren de la TRI, como son los Tests Adaptativos Informatizados, de los 
cuales existen ya diversas versiones operativas para evaluar diferentes atributos. 
El presente capítulo representa una introducción al tema, incluyendo únicamente 
aspectos generales y los modelos de TRI para ítems de rendimiento óptimo, donde cada 
respuesta es cuantificada como acierto o error. En los capítulos 11 y 12 se profundiza en 
los procedimientos estadísticos de estimación y ajuste, así como en otro tipo de modelos. 
En los capítulos 13 y 15 se describen algunas de las principales aplicaciones. 
 
 
 
Limitaciones de la TCT 
 
Existen diversas razones por las que la TRI supone un modelo teóricamente más adecuado 
que la TCT. Entre las limitaciones de la TCT, superables desde la TRI, cabe destacar: 
 
1. Ausencia de invarianza de los parámetros. En la TCT la puntuación verdadera Vi es un 
parámetro de la persona cuyo valor depende del conjunto particular de ítems adminis-
trados. Es claro que distintos tests, con distinta longitud o distinta dificultad, darán lu-
gar a distinta puntuación verdadera para la misma persona. No parece razonable un 
modelo en el que la puntuación verdadera de la persona depende de la versión del test 
que apliquemos (p. ej., fácil o difícil). Por otro lado, las propiedades psicométricas de 
los ítems (su media, su varianza, su índice de discriminación, etc.) también dependen 
de la distribución del rasgo en la muestra donde se obtienen. La TCT no proporciona 
un modo sencillo de saber cuál sería la dificultad de un ítem en otra muestra distinta a 
la que se ha aplicado el test. Frente a la TCT, una de las propiedades de la TRI es que 
los parámetros estimados son invariantes si se cumplen los supuestos del modelo; de 
esta manera, en la TRI, el valor del parámetro que indica el verdadero nivel de rasgo de 
un evaluado no depende de los ítems aplicados (p. ej., si son fáciles o difíciles). Asi-
mismo, el valor de los parámetros de los ítems no depende de la muestra donde se ob-
tienen (p. ej., si es de alto o bajo nivel de habilidad). 
2. Se asume que la precisión del test es la misma, independientemente del nivel de rasgo 
medido. Sin embargo, un test puede ser más o menos preciso para un nivel de rasgo en 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 125 
 
función, por ejemplo, de la dificultad de los ítems aplicados; si los ítems son difíciles, 
el test discriminará mejor en los niveles altos. La TRI permite obtener la precisión con 
la que cada persona es medida, según su nivel de rasgo y en función de los ítems con-
cretos que se le hayan aplicado. 
3. No se dispone de indicadores de bondad de ajuste que nos informen del grado en que 
el modelo se ajusta a los datos. Los supuestos de paralelismo son los únicos contrasta-
bles empíricamente (ver capítulo 10), pero raramente se realizan estas comprobaciones 
pues, por un lado, requieren la elaboración de distintas formas del test y, por otro, se 
sabe que el supuesto de paralelismo estricto raramente se cumple, dado que es muy 
difícil elaborar tests que sean realmente paralelos. En la TRI se dispone de indicadores 
de bondad de ajuste que permiten estudiar el grado en que los datos se ajustan al mode-
lo y a los supuestos establecidos. 
 
La TRI permite superar varias de las limitaciones de la TCT mediante una metodología 
más compleja, que requiere establecer modelos matemáticos, la estimación de sus paráme-
tros y enjuiciar el ajuste entre datos y modelos. 
 
 
La Curva Característica del Ítem 
 
Para comenzar a resolver las limitaciones de la TCT, lo primero que se necesita es un mo-
delo que nos indique cómo varía la dificultad de un ítem en función del nivel de rasgo. Pa-
ra ello, desde la TRI se ha desarrollado el concepto de Curva Característica del Ítem 
(CCI). Una CCI nos indica la probabilidad que tienen de acertar un ítem las personas que 
lo responden. Esta probabilidad depende, naturalmente, del nivel de la persona en la va-
riable medida, pero también de las características del ítem en concreto. 
Podemos ver esto mediante un ejemplo. Supongamos que tenemos un test largo que 
mide Capacidad de Razonamiento Inductivo y que ha sido aplicado a una muestra nume-
rosa de personas (100.000, por ejemplo). Supongamos que la menor y mayor puntuación 
obtenidas en el test son 50 y 150 y que la puntuación en el test sea un buen indicador del 
nivel de rasgo verdadero. Para trabajar en una escala de interpretación más clara, utiliza-
remos la puntuación en el test en puntuaciones típicas (–3 indica una puntuación baja, 0 
una puntuación media y 3 una puntuación alta). Vamos a representar el rendimiento en un 
ítem concreto de la siguiente forma: Nos fijamos en todas las personas que han obtenido 
la puntuación en torno a –3 (supongamos que son 132) y vemos cuántas han acertado el 
ítem (supongamos que han sido sólo 5) y calculamos la proporción (5/132 = 0,04). Hace-
mos lo mismo con los queobtuvieron en el test una puntuación en torno a –2,9 puntos (y 
obtenemos la proporción, supongamos que 0,15),... con las que obtuvieron en el test pun-
tuación en torno a 0,0 (la proporción fue 0,48),... con las que obtuvieron puntuación en 
torno a 3 (la proporción fue 0,98). La Figura 4.1 muestra la proporción de aciertos en el 
grupo de personas que obtuvo en el test puntuaciones en torno a –3, –2,9, –2,8, etc. 
Puede verse que cuanto mayor es la puntuación en el test, mayor es la proporción de 
aciertos en el ítem. A una puntuación de 0 le corresponde una proporción de 0,48, lo que 
indica que para personas con ese nivel de rendimiento en el test resultará un ítem de difi-
cultad intermedia; mientras que a una puntuación de 3,0 le corresponde una proporción de 
126 Medición en Ciencias Sociales y de la Salud 
 
0,98 (el ítem resultará fácil para ese nivel). La función de la Figura 4.1 suele denominarse 
CCI empírica. 
 
 
Figura 4.1. CCI empírica. Probabilidad de acierto a un ítem en función de la puntuación tipificada (Z) 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-3 -2 -1 0 1 2 3
Capacidad de Razonamiento Inductivo (z)
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em
 (P
)
 
 
 
Desde la TRI se resume la información que contiene cada CCI empírica en una fórmula o 
modelo en el que (con uno, dos o tres parámetros del ítem) se recoge la información con-
tenida en la función. Por tanto, en la aplicación de de la TRI, un paso inexcusable es optar 
por un modelo que sea una buena descripción del rendimiento en los ítems. 
En la Figura 4.2 se representan dos de los muchos modelos que podrían aplicarse. 
En la figura de la izquierda se ha aplicado un modelo lineal que, en el ejemplo, sigue la 
siguiente ecuación: 
 
492,0177,0 += ZP 
 
Un inconveniente de este modelo es que para niveles de rasgo extremos pueden obtenerse 
valores de P imposibles (negativos o mayores que uno). 
En la figura de la derecha se ha aplicado un modelo logístico que, en el ejemplo, sigue 
la siguiente ecuación: 
 
05,01,11
1
+−+
=
Ze
P 
 
donde e es la base de los logaritmos neperianos (2,718). En este modelo, el valor de P ne-
cesariamente estará comprendido entre 0 y 1. Ésta es una de las razones por la que en TRI 
suelen aplicarse los modelos logísticos. Una de las características de los modelos logísti-
cos es que la razón entre p y 1 – p se incrementa exponencialmente en relación a z. La 
forma exacta de la función exponencial dependerá de las características del ítem. 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 127 
 
 
 
Figura 4.2. CCI según un modelo teórico. Modelo lineal (arriba) y Modelo logístico (abajo) 
P = 0,177z + 0,492
-0,2
-0,1
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-3 -2 -1 0 1 2 3
Capacidad de Razonamiento Inductivo (z)
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em
 (P
)
-0,2
-0,1
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-3 -2 -1 0 1 2 3
Capacidad de Razonamiento Inductivo (z)
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em
 (P
)
P = 1 / (1 + exp (-1,1 z + 0,05))
 
 
 
 
Modelos de TRI para ítems dicotómicos 
 
Un problema importante es que la puntuación típica observada en el test, Z, puede no ser 
una buena medida del nivel de rasgo. Por ejemplo, si el test tiene un bajo coeficiente de 
fiabilidad; en ese caso, si se utilizara Z en el eje de abscisas, la CCI no representaría bien 
la relación entre el nivel de rasgo y la probabilidad de acertar el ítem. Por ello, en TRI se 
aplica el modelo utilizando el verdadero nivel de rasgo, al que se le denomina θ, que es 
una variable no observable (como lo era V en la TCT). Más adelante veremos cómo se 
pueden estimar las CCI siendo θ no observable. Pero antes debemos estudiar los distintos 
modelos logísticos que pueden dar cuenta de datos como los mostrados en la Figura 4.1. 
 
128 Medición en Ciencias Sociales y de la Salud 
 
 
 
Modelo logístico de un parámetro (ML1P) 
 
Éste es el modelo más simple de todos. Se asume que los ítems varían sólo en un paráme-
tro de dificultad, al que se le denomina parámetro b. La expresión matemática es: 
 
)(
1
1
)(
jbθDaj e
θP
−−+
= [4.1] 
 
donde Pj(θ ) es la expresión que utilizaremos a partir de ahora para referirnos a la probabi-
lidad de que una persona acierte el ítem j en función de su nivel de rasgo θ. Así pues, los 
términos de la fórmula son: 
 
Pj(θ ) Probabilidad de acertar el ítem j si el nivel de rasgo es θ. 
θ Nivel de rasgo o nivel de habilidad de la persona; cuanto mayor sea θ, mante-
niendo constantes los demás elementos de la fórmula, mayor será Pj(θ). Gene-
ralmente, se asume que θ está en una escala de puntuaciones típicas; por tanto, 
sus valores variarán generalmente entre –3 y 3. 
bj Es el parámetro de dificultad del ítem j; a mayor valor bj, manteniendo cons-
tantes los demás elementos de la fórmula, menor será Pj(θ). En el ML1P el va-
lor de bj indica el nivel de θ en el que la probabilidad de acertar el ítem es 0,5. 
Si el nivel de rasgo θ está en una escala de puntuaciones típicas, los valores de 
b variarán generalmente entre –3 y 3. 
a Parámetro de discriminación, que en este modelo se asume que es igual para 
todos los ítems (por ello, no aparece el subíndice j). Por tanto, en el ML1P el 
parámetro a es una constante e indica la mayor o menor inclinación o pendien-
te de la CCI cuando θ = bj. Esto significa que en el ML1P todos los ítems tie-
nen la misma pendiente. Generalmente, si el nivel de rasgo θ está en una esca-
la de puntuaciones típicas, puede tomar valores entre 0,3 y 2,5 (sólo uno de 
ellos para todos los ítems de un test) según los ítems sean más o menos discri-
minativos. 
e Base de los logaritmos neperianos (2,718). 
D Constante (D = 1,702 ó 1)1. En lo que sigue, asumiremos que D = 1,702. Es 
importante que el investigador explicite siempre cual es el valor de D. Si se 
elige el valor D = 1,702, se dice que se está utilizando el modelo con métrica 
normal. Si se elige el valor D = 1, se dice que se está utilizando el modelo con 
métrica logística. 
 
 
1
 El valor de D es arbitrario y no afecta al ajuste de la función. Lo habitual es elegir D = 1; sin embargo, algunos 
autores utilizan D = 1,702; cuando D = 1,702, la función logística, fL(z), es muy similar a otra función muy 
conocida, FN (z), la función de probabilidad acumulada de la distribución normal, Z ~ N(0 , 1), evaluada en z: 
 
)()0,5Zexp(
2
1
1
1
)( 2
702,1
zFdZ
e
zf N
zZ
Z
zL
=−≅
+
= ∫
=
−∞=
− π
 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 129 
 
Otra forma frecuente de presentar el ML1P es: 
 
)(
1
1
)(
jbθj e
θP
−−+
= [4.2] 
 
que elimina las constantes a y D del modelo. Ambas ecuaciones ([4.1] y [4.2]) son equiva-
lentes (ver apéndice). El modelo expresado en la ecuación [4.2] suele denominarse Mode-
lo de Rasch. 
 
 
 Ejemplo 4.1. Cálculo de la probabilidad de acierto en el ML1P 
 
Una persona con nivel de habilidad θ = 1 responde a un ítem j con parámetro de discrimi-
nación 1 y parámetro de dificultad 1 (θ = 1, a = 1, bj = 1), su probabilidad de acertar será: 
 
5,0
1
1
1
1
)1(
011)(1(702,1
=
+
=
+
==
−− ee
θP
)j
 
 
El índice de dificultad (bj) es, justamente, aquel valor de θ para el cual Pj(θ ) = 0,5. Por 
tanto, cuanto mayor sea b más difícil es el ítem. 
 
 
 
En la Figura 4.3, se representan las CCI de dos ítems que difieren en dificultad. 
 
 
Figura 4.3. CCI según el ML1P (D = 1,702; a = 1) para 2 ítems con b1 = –0,95 y b2 = 0,6. 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
P1(q)
P2(q)
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em P1(θ)
P2(θ)
 
En la primera, la que está más a la izquierda, el valor de θ al que corresponde P1(θ ) = 0,5 
es aproximadamente –0,95.Por lo tanto, la dificultad del primer ítem es b1= –0,95. En el 
segundo ítem, el valor de θ al que corresponde P2(θ ) = 0,5 es aproximadamente 0,6. Por 
b1 b2 
130 Medición en Ciencias Sociales y de la Salud 
 
lo tanto, la dificultad del segundo ítem es b2 = 0,6. La Figura muestra que la probabilidad 
de acertar el ítem es sistemáticamente menor en el ítem 2 que en el ítem 1 para cualquier 
θ. El ítem 2 es más difícil que el uno, y sus índices de dificultad así lo muestran (b2 > b1). 
Una interpretación de la probabilidad Pj(θ ) es la siguiente: si P1(θ = −0,95) = 0,5 eso 
quiere decir que para una población con nivel de rasgo θ = –0,95, el 50% acierta este ítem; 
o, también, que una persona de rasgo θ = –0,95 acertará el 50% de los ítems con propie-
dades psicométricas iguales a las de este ítem. 
En la Figura 4.3 puede observarse que las CCI de los dos ítems tienen la misma pen-
diente. Ésta es una propiedad importante del ML1P: las CCI de distintos ítems nunca se 
cruzan, por lo que el ordenamiento que hacemos de los ítems por su dificultad será siem-
pre el mismo independientemente del grupo de personas con el que trabajemos; si un ítem 
es más fácil que otro, lo es para cualquier nivel de habilidad. De la misma manera, el or-
denamiento que haremos de los evaluados por su nivel de habilidad será siempre el mis-
mo, independientemente del conjunto de ítems que le apliquemos; si una persona tiene 
más probabilidad de acertar un ítem que otra, también tendrá mayor probabilidad de acer-
tar cualquier otro ítem, lo que hace mucho más clara la interpretación del significado de θ. 
Si se cumplen estas dos propiedades se habla de Objetividad Específica de las medidas. 
Veremos que en otros modelos de TRI no se cumplen. 
 
 
 Ejemplo 4.2. Modelo de Rasch 
 
En la Tabla 4.1 se muestran los parámetros b de 3 ítems de una escala de cálculo numérico 
y los parámetros θ de 3 personas, obtenidos después de aplicar el modelo de Rasch. Una 
ventaja de la TRI frente a la TCT es que los parámetros θ de las personas y los parámetros 
b de los ítems están expresados en la misma escala; es decir, podemos comparar directa-
mente el nivel θ de una persona con el parámetro b de un ítem. En el ejemplo, el evaluado 
3 tiene un nivel de rasgo de 0. Su probabilidad de acertar los tres ítems puede deducirse de 
la relación entre su θ y el parámetro b de esos tres ítems; en concreto, su probabilidad de 
acertar el ítem 4 es alta (mayor que 0,5) ya que ese ítem tiene parámetro b menor que su 
θ; su probabilidad de acertar el ítem 3 es media (igual a 0,5) ya que ese ítem tiene paráme-
tro b menor que su θ; su probabilidad de acertar el ítem 5 es baja (menor que 0,5) ya que 
ese ítem tiene mayor parámetro b menor que su θ. Tales comparaciones no son posibles 
desde la TCT, donde los índices de dificultad (pj) y la puntuación en el test (Xj) están ex-
presados en distinta escala. 
Desde los modelos de Rasch, se facilita la interpretación de las puntuaciones de las 
personas. Si las operaciones cognitivas para resolver los ítems han sido bien delimitadas, 
podemos darle significado a cada nivel de rasgo en función de cuáles son las probabilida-
des de resolver exitosamente cada operación (implícita en cada ítem). Por ejemplo, el ítem 
5 requiere que el estudiante sea capaz de resolver raíces cuadradas de una cierta compleji-
dad. Un nivel de θ de 1,5 significa que existe una probabilidad de 0,5 de resolver ese tipo 
de raíces. Siguiendo ese razonamiento podemos llegar a una idea más exacta de qué com-
petencias implica cada nivel de habilidad. 
 
 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 131 
 
Tabla 4.1. Parámetros de tres evaluados y tres ítems según el modelo de Rasch aplicado para modelar 
las respuestas a una prueba de cálculo numérico 
θ del 
evaluado 
 Evaluado Valor Ítem 
b del 
ítem 
 Contenido del ítem 
 –2 
 –1,75 Ítem 4 –1,75 213,5 + 2,085 – 13,65 = 
 –1,5 
 –1,25 
 –1 
–0,75 Sujeto 1 –0,75 
 –0,5 
 –0,25 
0 Sujeto 3 0 Ítem 3 0 2 (12 – 8) – 4 (2 – 4) = 
 0,25 
0,5 Sujeto 2 0,5 
 0,75 
 1 
 1,5 Ítem 5 1,5 =2516.157 
 2 
 
 
 
 
 Modelo logístico de dos parámetros (ML2P) 
 
Este modelo permite que el parámetro a, que indica la capacidad discriminativa del ítem, 
varíe de ítem a ítem: 
 
)(
1
1
)(
jj bθDaj e
θP
−−+
= [4.3] 
 
donde el parámetro aj sigue siendo el parámetro de discriminación, pero en este modelo 
puede variar de ítem a ítem (por ello se añade el subíndice j). El parámetro aj indica la 
mayor o menor inclinación o pendiente de la CCI cuando θ = bj. La pendiente en ese pun-
to es exactamente 0,25Daj. 
En la Figura 4.4 se muestran las CCI de dos ítems de igual dificultad (b1= b2 = 0,75), 
pero que difieren en el parámetro de discriminación. El parámetro a se relaciona con la 
pendiente; es proporcional al ángulo que forma la CCI en relación al eje de abscisas. La 
principal diferencia entre los dos ítems es que el 2 (línea de puntos), cuando θ = 0,75, tie-
ne una pendiente mucho mayor (a2 = 2,4) que la del ítem 1 (a1 = 0,4). Como la pendiente 
es tan alta, las personas con θ > 0,75 tienen casi todas ellas una muy alta probabilidad de 
acertar el ítem 2 (y casi todas ellas lo acertarán), y las personas con θ < 0,75 tienen casi 
todas ellas una probabilidad próxima a cero de acertarlo (y casi ninguna lo acertará). Por 
lo tanto, el ítem 2 discrimina entre los que tienen θ > 0,75 y los que tienen θ < 0,75. Por 
132 Medición en Ciencias Sociales y de la Salud 
 
su parte, el ítem 1 tiene muy poca pendiente cuando θ = 0,75. En consecuencia, aunque la 
mayoría de las personas con θ > 0,75 lo acertarán, muchas lo fallarán (pues la probabili-
dad de acierto es claramente inferior a uno). Igualmente, aunque la mayoría de las perso-
nas con θ < 0,75 fallarán el ítem, muchas lo acertarán, pues la probabilidad de acierto es 
claramente superior a cero. En el ítem 1 la probabilidad crece muy suavemente a medida 
que aumenta θ, por lo que no es buen discriminador entre las personas con θ > 0,75 y las 
que tienen θ < 0,75. 
 
Figura 4.4. CCI según el ML2P para 2 ítems (a1 = 0,4; b1 = 0,75; a2 = 2,4; b2 = 0,75). 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
P1(q)
P2(q)
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em P1(θ)
P2(θ)
 
 
Los valores de a oscilarán generalmente entre 0,3 y 2,5, y se suelen considerar ítems dis-
criminativos los que tienen valores a mayores de uno. El parámetro bj se interpreta, en es-
te modelo, de la misma manera que en el ML1P. 
 
 
Modelo logístico de tres parámetros (ML3P) 
 
Este modelo añade a los dos parámetros a y b un tercero, c, que representa la probabilidad 
de acertar el ítem al azar. Más exactamente, c es el valor de Pj(θ) para valores extrema-
damente bajos de θ. La expresión del modelo de 3 parámetros es la siguiente: 
 
e+
cc=θP
jj b-Da
jjj )(1
1
)1()(
θ−
−+ [4.4] 
 
Los parámetros en la ecuación [4.4] se interpretan en este caso de la siguiente manera: 
 
1. El parámetro cj de pseudoazar representa la probabilidad de acierto para personas 
con un nivel de rasgo extremadamente bajo. Si no hay omisiones, suele tomar un valor 
próximo al inverso del número de opciones de respuesta (algo menor si se descartan 
opciones incorrectas con facilidad). Su valor también depende de la presencia de omi-
siones: cuanto mayor sea el número de personas que no responden al ítem, menor será 
el parámetro c. Como es una probabilidad, sus valores pueden oscilar entre 0 y 1, pero 
generalmente varían entre 0 y 0,5. 
a1 a2 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 133 
 
2. El parámetro bj de dificultad indica la posición de la CCI en relación al eje de absci-
sas (cuanto mayor es la dificultad del ítem, más hacia la derecha se posiciona la CCI).Se encuentra en la misma métrica que θ, por lo que sus valores suelen oscilar en el 
mismo rango. Indica el nivel de habilidad θ donde la probabilidad de acertar es el valor 
medio entre cj y 1; es decir, 0,5(1 + cj). Éste es el punto de máxima discriminación del 
ítem (es decir, el punto donde la pendiente de la CCI es máxima). 
3. El parámetro aj de discriminación es proporcional a la pendiente que tiene la CCI en 
el valor θ = bj.2 Los valores de a suelen oscilar entre 0,3 y 2,5 (según la métrica del ni-
vel de rasgo que hemos fijado). 
 
Debemos observar que los parámetros de dificultad y discriminación no son iguales a los 
del modelo ML2P3. 
En la Figura 4.5 podemos ver la CCI de dos ítems con los mismos valores de a (1) y 
b (0), pero distintos valores de parámetro c (c1= 0 y c2= 0,2). 
 
2
 En concreto, la pendiente en el punto θ = bj depende de aj y de cj y es 0,25Daj(1 – cj). 
3
 Definamos que la probabilidad de acertar como función del nivel de rasgo si no hubiera aciertos por azar sigue 
el ML2P: 
 
e+
=θP
jj bDa
*
j )(1
1
)( −− θ
 
 
En condiciones donde hay respuestas al azar el ML2P es inadecuado. Pues bien, el modelo de 3 parámetros in-
cluye al anterior modelo un nuevo parámetro cj que indica la probabilidad de aciertos por azar: 
 
jjjj cθPθP=θP ))(1()()(
** −+ 
 
La lógica del modelo de la ecuación es la siguiente. La probabilidad de acertar es la probabilidad de saber la res-
puesta [P*j (θ)], más la probabilidad de no saberla [1 – P*j (θ)] multiplicada por la probabilidad de acertarla 
cuando no se sabe la respuesta [cj]; el parámetro cj sirve para modelar el hecho de que aunque uno no sepa la 
respuesta, puede acertarla eligiendo al azar entre las opciones o escogiendo aquella que resulte más atractiva. A 
partir de la expresión anterior se puede obtener la ecuación [4.4]: 
 
e+
ccθPcccθPθP=θP
jj b-Dajjjjjjjjj )(
***
1
1
)1()()1())(1()()( θ−−+=−+=−+
 
 
Observe que aunque el desarrollo del ML3P se inspira en el ML2P, las ecuaciones de ambos modelos son distin-
tas, [4.3] y [4.4], por lo que los parámetros aj y bj serán también distintos. 
134 Medición en Ciencias Sociales y de la Salud 
 
Figura 4.5. CCI según el ML3P para 2 ítems (a1 = 1; b1 = 0; c1 = 0; a2 = 1; b2 = 0; c2 = 0,2) 
 
 
Desde nuestro punto de vista, el modelo más completo es el ML3P. En el modelo de 
Rasch y en el ML2P no se contemplan las respuestas al azar. Esto hace que ambos puedan 
ajustarse peor cuando se trabaja con ítems de opción múltiple, especialmente para ítems 
de dificultad elevada. Además, en el modelo de Rasch, tampoco se contempla la posibili-
dad de que los ítems tengan distinto parámetro de discriminación. Esto supone asumir que 
no hay ítems peores y mejores para medir el nivel de rasgo (o, en todo caso, que aquellos 
ítems cuyo parámetro a se diferencie mucho del de los otros ítems deberían ser eliminados 
de la prueba). El modelo de Rasch raramente se ajusta a los datos si no es mediante una 
criba de ítems que, finalmente, puede acabar por socavar la validez del test. Por otro lado, 
la aplicación del ML3P requiere procedimientos más complejos de estimación de los 
parámetros y muestras más numerosas. Los que defienden el modelo de Rasch se basan en 
algunas de sus recomendables propiedades estadísticas (p. ej., la objetividad específica o, 
como veremos más adelante, que proporciona estimadores suficientes de los parámetros4). 
Además, justifican que si un modelo más parsimonioso (con menos parámetros) se ajusta 
a los datos, es preferible a modelos más complejos. 
A partir de una CCI conoceremos también la probabilidad de fallar el ítem, a la que 
nos referiremos como Qj(θ ). Más genéricamente, podremos referirnos a la probabilidad 
de una respuesta xj al ítem j, lo que suele expresarse como: 
 
jj x
j
x
jjjj QP=xXP
−= 1)()()|( θθθ [4.5] 
 
que es una forma compacta de referirse a la probabilidad de la respuesta xj; observe que la 
fórmula anterior se simplifica en cada caso al resultado correcto: 
 
)()()()|1( 01 θθθθ jjjjj PQP=XP == 
)()()()|0( 10 θθθθ jjjjj QQP=XP == 
 
 
4 Se dice de un estimador que es suficiente si agota toda la información disponible en la muestra para estimar el 
parámetro. 
c2 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 135 
 
 
Supuestos de la TRI 
 
Un paso previo a la aplicación de los modelos de TRI es la comprobación de que se cum-
plen sus dos supuestos fundamentales: unidimensionalidad e independencia local. En este 
apartado se describen los dos supuestos y por qué son importantes. En los capítulos 6, 10 
y 11 se profundizará en los procedimientos para comprobar ambos supuestos. 
 
 
Unidimensionalidad 
 
En los modelos anteriores la probabilidad de acertar un ítem depende únicamente de sus 
parámetros y de θ. Por ejemplo, en un ítem que mida el nivel de vocabulario inglés, la 
probabilidad de acertarlo depende de los valores a, b y c del ítem y del nivel de vocabula-
rio en inglés de la persona (θ) , pero no de otros rasgos, como podría ser su inteligencia. 
En otras palabras, se asume que el rendimiento en los ítems que forman el test depende 
del nivel de la persona en un solo rasgo o dimensión. A este supuesto se le denomina su-
puesto de unidimensionalidad. La mayoría de las definiciones actuales de unidimensiona-
lidad hacen referencia al análisis factorial y al concepto de independencia local débil: 
 
0|' =θσ jj XX [4.6] 
 
que implica que las covarianzas entre ítems para muestras con el mismo nivel de rasgo 
son cero. En otras palabras, cumpliéndose el supuesto, si seleccionáramos a un grupo de 
evaluados con el mismo nivel de rasgo la correlación entre dos ítems cualesquiera sería 
cero. Según los modelos, dos ítems correlacionan sólo porque acertarlos depende de θ; por 
tanto, si condicionamos los datos en dos ítems a los valores θ debe desaparecer la correla-
ción. En los Capítulos 6 y 10 se estudiarán los procedimientos de análisis factorial que 
permiten estudiar si se cumple el supuesto de unidimensionalidad. 
 
 
Independencia local 
 
Existe independencia local entre los ítems de un test si la respuesta de una persona a uno 
de ellos no depende de sus respuestas a los otros. La independencia local se deriva de la 
unidimensionalidad porque significa que la respuesta a un ítem sólo depende de sus pará-
metros y de θ, y no está influida por el orden de presentación de los ítems, las respuestas 
que ya se hayan dado, etc. Para modelos como los descritos, la unidimensionalidad impli-
ca independencia local; sin embargo, conviene mantener separados ambos supuestos, ya 
que en los modelos multidimensionales de TRI no son equivalentes. Matemáticamente, la 
independencia local se define en términos probabilísticos: la probabilidad de que un eva-
luado i tenga un patrón de respuestas en un test de J ítems es igual al producto de las pro-
babilidades de cada respuesta en cada uno de ellos por separado: 
 
136 Medición en Ciencias Sociales y de la Salud 
 
∏
=
=====
J
j
ijjiJJii xXPxXxXxXP
1
2211 )|()|,,...,( θθ 
 
o, de forma más compacta: 
 
∏
=
==
J
j
ijj xXPP
1
)|()|( θθiX [4.7] 
 
donde P(Xi|θ ) designa la probabilidad del patrón de respuestas para el evaluado i; Xi se 
define como un vector con las respuestas del evaluado i, Xi = {xi1, xi2, xi3,…, xiJ}
5. Este 
planteamiento se conoce también como supuesto de independencia local fuerte. Gracias a 
este supuesto se cumple que, conociendo los parámetros del evaluado y de los ítems, po-
demos hallar la probabilidad de su patrón de respuestas en el test completo. 
El supuesto de independencia local fuerte, como vemos, está referido a todos los ítems 
del test y por tanto es difícil de contrastar empíricamente. Por ello se suele contrastar el 
supuesto de independencia local débil, ya mencionado, relativo sólo a pares de ítems. Tal 
supuesto implica que, para cualquier parde ítems, se cumple que las probabilidades de 
respuesta son independientes para evaluados con el mismo nivel de rasgo θ : 
 
)|()|()|,( 2221112211 θxXPθxXPθxXxXP iiii ===== [4.8] 
 
que también puede expresarse, en el caso de ítems dicotómicos, como (ver ecuación 
[4.5]): 
 
2211 1
22
1
112211 )()()()()|,( iiii
xxxx
ii QPQPθxXxXP
−−=== θθθθ 
 
En el caso de ítems dicotómicos, es fácil observar que si se cumple lo anterior se cumple 
que la covarianza entre los ítems es 0 para evaluados con el mismo nivel de rasgo. En 
efecto, la covarianza entre los ítems 1 y 2 se calcula como: 
 
)|1()|1()|1,1( 2121|21 θXPθXPθXXPθXX ==−===σ 
 
Si hay independencia local los dos términos a la derecha de la ecuación son iguales. Por el 
contrario, si hay dependencia local: 
 
0|' ≠θσ jj XX 
 
La dependencia local puede ser positiva o negativa. Si es positiva ( 0|' >θσ jj XX ), el núme-
ro de personas con la misma respuesta en los dos ítems es mayor que el esperado según el 
modelo unidimensional. Generalmente, ítems con dependencia local positiva miden una 
 
5
 Las variables en negrita se utilizan para designar una matriz o un vector. 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 137 
 
misma dimensión específica distinta de θ . Por ejemplo, puede ocurrir que dos ítems ten-
gan un enunciado similar y sean redundantes o que para su resolución requieran una des-
treza que no requieren otros ítems del test; si se aplica un modelo de TRI a estos datos, los 
ítems parecerán más discriminativos de lo que realmente son y se sobrestimará la preci-
sión de la prueba. Si la dependencia local es negativa ( 0|' <θσ jj XX ), esto quiere decir que 
cuando una persona tiende a rendir mejor de lo esperado en un ítem, tiende a rendir peor 
en otro ítem (y viceversa). Generalmente, ítems con dependencia local negativa miden 
dimensiones distintas. 
 
 
 Ejemplo 4.3. Concepto de Independencia Local 
 
Un test consta de dos ítems y la probabilidad de que un evaluado J acierte el primero es 
P1(θ ) = 0,4 y la de que acierte el segundo P2(θ ) = 0,8. El principio de independencia local 
establece que la probabilidad de que acierte los dos viene dada por: 
 
320)80)(40()()( 21 ,,,θPθP == 
 
La probabilidad de acertar el primero y fallar el segundo sería: 
 
080)20)(40()()( 21 ,,,θQθP == 
 
La de que falle el primero y acierte el segundo será: 
 
480)80)(60()()( 21 ,,,θPθQ == 
 
La de que falle ambos ítems será: 
 
120)20)(60()()( 21 ,,,θQθQ == 
 
Supongamos que 100 personas con idéntico nivel de rasgo que la persona J, θ = 0, con-
testan al test. Se esperarían aproximadamente los resultados de la Tabla 4.2. 
 
Tabla 4.2. Número de personas con cada patrón de respuestas (1, acierto; 0, error) si se cumple la in-
dependencia local 
Ítem 1 Ítem 2 Nº personas esperado si se cumpliera la independencia local 
1 1 (0,4)(0,8)(100) = 32 
1 0 (0,4)(0,2)(100) = 8 
0 1 (0,6)(0,8)(100) = 48 
0 0 (0,6)(0,2)(100) = 12 
 
138 Medición en Ciencias Sociales y de la Salud 
 
Si correlacionamos las 100 respuestas al primer ítem con las 100 respuestas al segundo, el 
resultado sería cero, lo que indicaría que se cumple el supuesto de independencia local; es 
decir, que σXjXj’|θ = 0: 
 
( ) ( ) ( )
0
100
80
100
40
100
32
0|10|10|1,1 21210|21
=−=
=====−===== θXPθXPθXXPθXXσ
 
 
 
 
Estimación de parámetros 
 
En la práctica, una vez que se han comprobado los supuestos de unidimensionalidad e in-
dependencia local, el siguiente paso es aplicar un modelo de TRI, lo que requiere un 
método estadístico para estimar los parámetros de los evaluados y de los ítems. Seleccio-
nado un modelo de TRI, hay que aplicar el test a una muestra amplia y, a partir de la ma-
triz de respuestas obtenidas, estimar los parámetros de cada ítem y la θ de cada evaluado. 
La estimación de parámetros es el paso que nos permite llegar desde las respuestas cono-
cidas de las personas a los ítems hasta los valores desconocidos de los parámetros de los 
ítems y de los niveles de rasgo. 
 
 
El concepto de estimación máximo verosímil (ML) 
 
Para obtener las estimaciones se aplica fundamentalmente el método de máxima verosimi-
litud (ML)6, mediante el cual se encuentran los valores de los parámetros que hagan más 
probable la matriz de respuestas obtenida. La estimación de los parámetros en TRI supone 
un proceso complejo. La mejor referencia para una descripción detallada de todos los pro-
 
6
 Veamos a continuación un ejemplo sencillo de estimación ML. Si lanzamos una moneda diez veces y obtene-
mos siete caras, el estimador ML del parámetro p (probabilidad de cara de la moneda) es 7/10 = 0,7. El resultado 
"siete caras en diez lanzamientos" es poco compatible con que la probabilidad de cara sea 0,1, o 0,2. De hecho, 
la probabilidad de obtener siete caras y tres cruces es prácticamente cero si p = 0,1 o si p = 0,2. Dicha probabili-
dad pasa a ser 0,117 si p = 0,5, y alcanza el máximo valor (0,267) cuando p = 0,7. El estimador ML proporciona 
el valor de p bajo el que es máxima la probabilidad del suceso que se ha observado. La probabilidad de x caras 
en n lanzamientos sigue la distribución binomial: 
 
xxqp
x
n
pnxB −





= 1),;( 
 
donde el primer término después de la igualdad, el número combinatorio, indica el número de formas en las que 
pueden surgir x caras en n lanzamientos. En el ejemplo, hay 120 maneras distintas de obtener 7 caras en 10 lan-
zamientos. Si la probabilidad de cara es 0,7 entonces la probabilidad de que se obtengan 7 caras en 10 lanza-
mientos es 0,267: 
 
267,0)00222,0(1203,07,0
)!310(!7
!10
)7,0,10;7( 37 ==
−
==== pnxB 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 139 
 
cedimientos de estimación la encontramos en los libros de Baker (p.ej., Baker y Kim, 
2004). Información similar en español puede encontrarse en López- Pina (1995) o también 
en Revuelta, Abad y Ponsoda (2006). 
 
 
Fases en el proceso de estimación de los parámetros 
 
En TRI, se pueden distinguir dos objetivos de estimación: 
 
1. La primera vez que se aplica un test hay que estimar conjuntamente los parámetros de 
los ítems y los parámetros θ. Ese proceso se conoce como calibración de los ítems. La 
fase de calibración es la de mayor complicación puesto que hay que hacer asunciones 
sobre la distribución del nivel de rasgo y se requieren muestras numerosas. Si tenemos, 
por ejemplo, diez ítems que miden un mismo rasgo, los podemos aplicar a una muestra 
de 300 personas. La matriz de datos tendrá 300 filas, siendo cada fila la secuencia de 
unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el 
ML3P, tendremos que estimar los 30 parámetros de los ítems (es decir, a, b y c de cada 
ítem) y 300 parámetros de las personas (los 300 valores θ, uno por persona). 
2. Una vez que son estimados los parámetros de los ítems, pueden considerarse conocidos 
y usados en posteriores aplicaciones para estimar el nivel de rasgo de las personas. 
Hablaremos entonces de estimación del nivel de rasgo. 
 
A continuación, se ilustra cada una de las fases. Empezaremos por el caso más simple, la 
estimación del nivel de rasgo. 
 
 
Estimación del nivel de rasgo por el método ML 
 
En TRI, el procedimiento de estimación sigue una lógica similar al comentado para la 
moneda. Supongamos, por ejemplo, que tenemos un test compuesto por tan sólo dos ítems 
para los que ya conocemos sus parámetros (b1 = –0,7; b2 = 1), y que lo aplicamos a una 
persona. Supongamos también que acierta el primero y falla el segundo. A partir de estas 
respuestas la estimación ML de su θ se puede explicar de forma gráfica. Como el evalua-
do acierta el primer ítem, podemos calcular, mediante su CCI (recuérdese que los paráme-
tros del ítem son conocidos), la probabilidad de que esto ocurra para cada nivel de θ. Esto 
se muestra en la Figura4.6. 
Como el evaluado ha fallado el segundo ítem, a partir de su CCI podemos calcular 
la probabilidad de que esto ocurra para cada uno de los valores de θ. En concreto, como la 
probabilidad de fallar, Q2(θ ), se puede obtener a partir de la probabilidad de acertar, po-
dremos representar la probabilidad de error en el segundo ítem como se muestra en la Fi-
gura 4.7. Nótese que no se representa la CCI del ítem 2, pues para cada valor de θ se ha 
representado la probabilidad de error y no la de acierto. Puede observarse que es más pro-
bable que fallen el ítem los evaluados con niveles bajos de habilidad que los evaluados 
con niveles altos (cosa bastante lógica). 
 
140 Medición en Ciencias Sociales y de la Salud 
 
Figura 4.6. Probabilidad de acertar el ítem 1 con parámetro b1 = –0,7 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em
 1
 
 
Figura 4.7. Probabilidad de fallar el ítem 2 con parámetro b2 = 1 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
Pr
ob
ab
ili
da
d
de
 fa
llo
 e
n 
el
 ít
em
 2
 
 
El valor estimado de θ para esta persona sería aquel que haga más probable el resultado 
obtenido (acertar el primer ítem y fallar el segundo). Según el supuesto de independencia 
local, ambos sucesos son independientes y, por lo tanto, la probabilidad de que ocurran 
ambos conjuntamente es igual al producto de las probabilidades de acertar el primero, 
P1(θ ), por la de fallar el segundo, Q2(θ ) (ver ecuación [4.8]). 
La probabilidad del patrón de respuestas se denomina en este contexto función de ve-
rosimilitud (para el evaluado i) y se designa como Li(θ ), que indica la probabilidad de las 
respuestas de un evaluado dado un valor del parámetro θ, siendo conocidos los parámetros 
a, b y c de los ítems. En nuestro caso: 
 
)()()( 21 θQθPθLi = 
 
Si representamos gráficamente la función L(θ ) para cada valor de θ, obtendríamos la Fi-
gura 4.8. En este caso vemos que el valor θ que hace más probable el resultado obtenido 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 141 
 
(acierto en el primer ítem y fallo en el segundo) es algo mayor que cero. De hecho, 0,15 
será la θ estimada para esta persona. 
 
Figura 4.8. Probabilidad de acertar el ítem 1 y fallar el ítem 2 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
L(
θ)
: F
un
ci
ón
 d
e 
Ve
ro
si
m
ili
tu
d
 
 
En general, se responderá a un número de ítems mayor de dos y se producirán particulares 
secuencias de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y errores 
para un evaluado i se puede expresar como: 
 
∏
=
−=≡
J
j
x
j
x
jii
ijij θQθPPθL
1
1
)()()|()( θX [4.9] 
 
El nivel de rasgo estimado por el método de máxima verosimilitud (ML) es el valor θ que 
maximiza la expresión anterior. 
 
 
 Ejemplo 4.4. Estimación del nivel de rasgo por el método ML 
 
Un test consta de 4 ítems, cuyos parámetros, según el modelo de Rasch, son –1, 0, 1 y 2. 
Una persona completa el test y acierta los tres primeros ítems y falla el cuarto. Puede ob-
tenerse el valor de la función de verosimilitud, Li(θ ), para los siguientes valores θ : –3, –2, 
–1, 0, 1, 2 y 3, y así comprobar cuál de ellos maximiza Li(θ ). Aplicando la fórmula del 
ML1P se obtiene la probabilidad de acierto para cada ítem y cada uno de los valores de θ 
(ver Tabla 4.3). La función de verosimilitud, Li(θ ), al haber acertado los 3 primeros ítems 
y fallado el último, será la siguiente: 
 
)()()()()( 4321 θQθPθPθPθLi = 
 
Al aplicar la fórmula se obtiene Li(θ ) para cada valor de θ. Por ejemplo, para θ = 2: 
 
142 Medición en Ciencias Sociales y de la Salud 
 
Li(θ = 2) = (0,99)(0,97)(0,85)(0,50) = 0,41 
 
En la última fila de la Tabla 4.3 se muestra el valor de Li(θ ) para cada valor de θ. 
 
Tabla 4.3. Probabilidad de la respuesta dada al ítem como función del nivel de θ 
Ítems b Respuesta θ –3 –2 –1 0 1 2 3 
1 –1 1 P1(θ) 0,03 0,15 0,50 0,85 0,97 0,99 1,00 
2 0 1 P2(θ) 0,01 0,03 0,15 0,50 0,85 0,97 0,99 
3 1 1 P3(θ) 0,00 0,01 0,03 0,15 0,50 0,85 0,97 
4 2 0 Q4(θ) 1,00 1,00 0,99 0,97 0,85 0,50 0,15 
 Li(θ) 0,00 0,00 0,00 0,06 0,35 0,41 0,15 
 
Por lo tanto, de los siete valores θ, el que maximiza Li(θ ) es θ = 2. El procedimiento des-
crito no es muy preciso, porque sólo se ha hecho la comprobación para 7 valores de rasgo. 
Cuando se trata de estimar en una situación real el nivel de rasgo, no se hace una búsque-
da restringida a unos cuantos valores. En la Figura 4.9 se muestran los valores Li(θ) para 
todos los valores θ comprendidos entre –4 y 4. 
 
Figura 4.9. Probabilidad de acertar los tres primeros ítems y fallar el cuarto 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
L(
θ)
: F
un
ci
ón
 d
e 
Ve
ro
si
m
ili
tu
d
 
 
En este ejemplo, el valor θ que maximiza Li(θ ) es 1,6 (ver Figura 4.9). Por tanto, la pun-
tuación estimada para esta persona sería 1,6. 
 
 
 
En la TRI, se obtiene el máximo de Li(θ ) por métodos numéricos, mediante programas de 
ordenador que contienen algoritmos que encuentran el valor θ para el que la función Li(θ ) 
alcanza el valor máximo. Para ello, se utiliza otra función que tiene el mismo máximo, Ln 
Li(θ ), más tratable matemáticamente: 
 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 143 
 
[ ]∑
=
−+=
J
j
jijjiji θQLnxθPLnxθLLn
1
))(()1())(())(( [4.10] 
 
Para obtener el máximo de una función puede calcularse la derivada de esa función (re-
cuerde que si la derivada de una función en un punto es cero, la función tiene un máximo, 
un mínimo o un punto de inflexión). Se busca el parámetro θ para el que se satisface la 
ecuación: 
 
0))(( =θLLn iδθ
δ
 [4.11] 
 
La derivada de Ln(Li(θ )), en el caso del ML3P, es: 
 
∑
=
−=
J
j
jij
j
j
ji θPx
θP
θP
aDθLLn
1
*
))((
)(
)(
))((
δθ
δ
 [4.12] 
 
donde P*j(θ ) se define como: 
 
)(
*
1
1
)(
jj bDa
j
e
θP
−−+
=
θ
 [4.13] 
 
y donde aj y bj son los parámetros de discriminación y dificultad estimados en el ML3P. 
El máximo en Ln Li(θ ) se obtiene para el valor de θ en el que la derivada es cero. Esto 
ocurre cuando la suma ponderada de las diferencias [xij – Pj(θ )] se aproxima a 0 (ver 
ecuación [4.12]). La ponderación refleja que se da más importancia a los ítems más dis-
criminativos y a aquellos en los que la diferencia entre P*j(θ ) y Pj(θ ) es más pequeña, lo 
que ocurre cuando ambas probabilidades son altas (el término P*j(θ )/Pj(θ ) oscilará entre 
0, para niveles muy bajos, y 1 para niveles muy altos de rasgo). 
Para el ML2P se tendría que: 
 
))(())((
1
θ
δθ
δ
jij
J
j
ji PxaDθLLn −= ∑
=
 [4.14] 
 
Indicando que se ponderan más las respuestas a los ítems más discriminativos. Mientras 
que para el ML1P, tendríamos: 
 
∑
=
−=
J
j
jiji PxDaLLn
1
))(())(( θθ
δθ
δ
 [4.15] 
 
Observe que en el modelo de Rasch, la ecuación [4.15] se simplifica a: 
 
144 Medición en Ciencias Sociales y de la Salud 
 
∑
=
−=
J
j
jiji PxLLn
1
))(())(( θθ
δθ
δ
 [4.16] 
 
Por tanto, en este último caso todos los ítems tendrían la misma importancia para la esti-
mación; el valor θ estimado será aquel que haga que el número esperado de aciertos coin-
cida con el número observado. Es decir, aquella θ para la que se cumple la igualdad: 
 
∑∑
==
=
J
j
j
J
j
ij Px
11
)(θ [4.17] 
 
Y, en definitiva, puesto que la suma de las puntuaciones en los ítems es la puntuación en 
el test, será aquella θ para la que se cumple la igualdad: 
 
∑
=
=
J
j
ji PX
1
)(θ [4.18] 
 
 
Calibraciónde los ítems 
 
Partiendo de que tanto los parámetros de los ítems como los parámetros de los evaluados 
son desconocidos, existen distintos procedimientos para estimar los parámetros de los 
ítems. De nuevo, se trata de estimar los parámetros a, b y c de los ítems que maximizan la 
probabilidad de las respuestas observadas. Para ello, es necesario el uso de programas in-
formáticos específicos. En el capítulo 11 se describen los procedimientos y algunos de los 
programas disponibles para la estimación de parámetros en TRI. 
 
 
 Ejemplo 4.5. Calibración de los ítems de un test de cálculo numérico 
 
Una prueba de 7 ítems de cálculo numérico (Tabla 4.4) ha sido respondida por 2.000 estu-
diantes. Al aplicar la TRI obtenemos las estimaciones de los parámetros de los ítems que 
se muestran en la Tabla 4.5. Puede verse que el parámetro a guarda una relación directa 
con la correlación ítem-test de la TCT (r = 0,75), mientras que el parámetro b guarda una 
relación inversa con el índice de dificultad clásico o proporción de aciertos (r = –0,97). El 
ítem más fácil es el primero (menor parámetro b) y el más difícil el quinto (mayor pará-
metro b). Los ítems más discriminativos son el 6 y el 7 (que se refieren a series numéri-
cas). El ítem 7 tiene el mayor parámetro c; podría ser que en este ítem la opción correcta 
d) sea atractiva para quien no sabe la respuesta (dado que –42 es el número más próximo a 
–40). Por otro lado, dados los parámetros de los ítems, concluiríamos que aplicar el ML1P 
sería inadecuado pues sólo los ítems 3, 4 y 5 tienen un parámetro c bajo y un parámetro a 
similar. En la Figura 4.10 se muestran las CCI de los 7 ítems. 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 145 
 
Tabla 4.4. Siete ítems de una prueba de cálculo numérico 
Ítem 
Opciones 
a) b) c) d) 
1. ¿Cuál es el resultado de la siguiente operación? 
2 + 8 – 15 + 9 – 7 – 3 
–16 6 –6 –26 
2. ¿Cuál es el resultado de la siguiente operación? 
(125/5) – (2)(2,5) + 2,455 
2,475 –2,425 2,425 2,485 
3. ¿Cuál es el resultado de la siguiente operación? 
2 (12 – 8) – 4 (2 – 4)) 
16 0 24 –8 
4. ¿Cuál es el resultado de la siguiente operación? 
213,5 + 2,085 – 13,65 
204,235 203,065 202,035 201,935 
5. La raíz cuadrada de 157,2516 es: 12,455 12,554 12,45 12,54 
6. Siga la serie 12,3, 14, 15,7, 17,4,… hasta encontrar el 
término que (por defecto o por exceso) se aproxime más 
a 22. ¿Cuál es el término? 
21,5 22,5 20,8 22,4 
7. Siga la serie –78, –69, –60,… hasta encontrar el 
término que (por defecto o por exceso) se aproxime más 
a –40. ¿Cuál es el término? 
–52 –51 –33 –42 
 
 
Tabla 4.5. Parámetros según la TCT y la TRI con el modelo logístico de 3 parámetros (métrica normal) 
 P rcbp a b c 
1 0,91 0,20 0,68 –1,92 0,33 
2 0,78 0,35 0,97 –0,97 0,10 
3 0,52 0,24 0,51 0,20 0,11 
4 0,76 0,24 0,59 –0,88 0,24 
5 0,29 0,21 0,52 1,53 0,07 
6 0,34 0,34 1,14 0,71 0,06 
7 0,62 0,30 1,42 0,26 0,36 
 
 
Figura 4.10. CCI según el modelo logístico de tres parámetros 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
CCI1
CCI2
CCI3
CCI4
CCI5
CCI6
CCI7P
ro
ba
bi
lid
ad
de
 a
ci
er
to
 e
n 
el
 ít
em
 
 
146 Medición en Ciencias Sociales y de la Salud 
 
En definitiva, la TRI nos permite reproducir mediante un modelo cuál va a ser la propor-
ción de aciertos en cada nivel de rasgo, algo que no proporcionaba la TCT. Además, el ni-
vel de rasgo θ puede estimarse en función del patrón de respuestas a los ítems. En la Figu-
ra 4.11 se muestran las funciones de verosimilitud asociadas a 4 patrones de respuesta. 
 
Figura 4.11. Máximo de la función de verosimilud, Li(θ ) para cuatro patrones de respuesta 
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
1111110
1110000
1111000
1000000L
(θ
):
 F
un
ci
ón
 d
e 
ve
ro
si
m
ili
tu
d
 
 
Los valores θ estimados por máxima verosimilitud para cada uno de esos patrones de res-
puesta serían, respectivamente –2,740 (“fallar los seis últimos ítems”), –0,633 (“fallar los 
cuatro últimos ítems”), –0,205 (“fallar los tres últimos ítems”) y 0,740 (“fallar el último 
ítem”). 
 
 
 
Bondad de ajuste: Comparación de las CCI teóricas 
y las CCI observadas 
 
La mayor parte de los programas informáticos de TRI incluyen estadísticos y residuos que 
permiten cuantificar la discrepancia entre los datos observados y los esperados si el mode-
lo fuera correcto. Un modelo de TRI sólo puede aplicarse a unos datos, si estos datos se 
ajustan al modelo. La estrategia más utilizada para estudiar el ajuste es, para cada ítem, 
obtener el grado de discrepancia entre las probabilidades teóricas y empíricas de escoger 
cada opción de respuesta, condicionadas al nivel de rasgo. Tradicionalmente, se ha pro-
puesto agrupar a las personas en Q intervalos según su nivel de rasgo estimado (p. ej., 10 
intervalos). La agrupación se hace de forma que en cada intervalo haya un número míni-
mo de personas (p. ej., 5). En este caso, la proporción observada de aciertos en cada inter-
valo (Oq) se obtendría simplemente como la proporción observada de aciertos en el grupo 
q; la probabilidad teórica (Eq) es la probabilidad de acierto que predice el modelo, según 
la curva característica del ítem, para la media o la mediana del nivel de rasgo estimado en 
ese intervalo. Posteriormente, para cada ítem se obtiene un estadístico G2: 
 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 147 
 








−
−
−+∑
= E
O
LnO
E
O
LnON=G
q
q
q
q
q
q
Q
q
Trad
1
1
)1(2
1
2 [4.19] 
 
Si se cumple la Hipótesis nula (i. e., el modelo se ajusta a los datos) el estadístico anterior 
se distribuye según χ2 con Q grados de libertad. Este estadístico está implementado en 
programas como BILOG o PARSCALE, pero su uso es desaconsejable si el test es corto 
(p. ej., menos de 20 ítems) ya que los valores pueden sobrestimarse si la agrupación de los 
evaluados por su nivel de rasgo no es precisa (ver, por ejemplo, Stone y Zhang, 2003). En 
ese caso pueden aparecer discrepancias entre Oq y Eq que no se deben al desajuste al mo-
delo. 
Para resolver ese problema, Orlando y Thissen (2000) propusieron un estadístico para 
contrastar si la probabilidad de acertar observada como función de la puntuación observa-
da X (OX) difiere estadísticamente de la probabilidad de acertar según el modelo (EX): 
 








−
−−
+∑
−
= E
E-O
E
E-OI=
X
XX
X
XX
J
X
Orlando
1
))1()1(()( 221
1
2χ [4.20] 
 
De esta manera no se requiere agrupar a los evaluados por una variable no observable, θ. 
El valor EX se calcula mediante el algoritmo iterativo de Lord-Wingersky (1984) y su ob-
tención requiere el uso de un programa informático. Si se cumple la hipótesis nula (el mo-
delo se ajusta a los datos) el estadístico anterior se distribuye según χ2 con J–1–t grados 
de libertad, donde t es el número de parámetros estimados para el ítem. 
En la actualidad, no es fácil decidir qué índices de bondad de ajuste son los mejores. 
Un problema de los contrastes estadísticos es que con muestras grandes las discrepancias 
pueden ser estadísticamente significativas, pero ser irrelevantes desde el punto de vista 
práctico. Lo contrario también puede ocurrir. Grandes discrepancias pueden no resultar 
estadísticamente significativas si la muestra es demasiado pequeña. Nuestra recomenda-
ción es completar la información de estos estadísticos con una inspección visual del ajuste 
de la CCI, tal como se hace en el siguiente ejemplo. 
 
 
 Ejemplo 4.6. Ajuste para los ítems del test de cálculo numérico 
 
Para cada ítem de cálculo numérico se obtuvo el estadístico χ 2 de Orlando y Thissen. Este 
indicador se puede obtener con el programa GOODFIT de libre distribución (Orlando y 
Thissen, 2000). Los resultados se muestran en la Tabla 4.6 y la informacióngráfica para el 
ítem 1 en la Figura 4.12. Puede comprobarse que el ítem 1 muestra el peor funcionamien-
to. Sin embargo, la inspección visual permite comprobar que la diferencia entre la curva 
predicha por el modelo y la curva observada, aunque estadísticamente significativa, es 
irrelevante desde el punto de vista práctico. 
 
148 Medición en Ciencias Sociales y de la Salud 
 
Tabla 4.6. Índices de ajuste basados en la comparación de las probabilidades de acertar (observada y 
esperada) como función del test 
Ítems χ 2Orlando gl P 
1 11,5 3 0,009 
2 11,3 3 0,010 
3 3,96 3 0,266 
4 3,55 3 0,314 
5 2,84 3 0,417 
6 1,89 3 0,596 
7 3,64 3 0,303 
 
 
Figura 4.12. Probabilidades observada y esperada de acertar el ítem 1 como función de la puntuación X 
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0 1 2 3 4 5 6 7
X
O
E
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em
Pr
ob
ab
ili
da
d
de
 a
ci
er
to
 e
n 
el
 ít
em
 
 
 
 
La precisión de las puntuaciones en TRI 
 
Función de información y error típico de estimación de θ 
 
En la TCT un concepto fundamental es el error típico de medida (ver ecuación [3.37]), 
que nos permite conocer en qué grado la puntuación empírica en un test, X, es una buena 
aproximación a la puntuación verdadera, V. En concreto, a partir de SE, se puede estable-
cer el intervalo de confianza en torno al cual se encuentra la puntuación verdadera de una 
persona. En TRI, un concepto análogo al error típico de medida es el error típico de esti-
mación de θ. Si aplicáramos un test con un suficiente número de ítems a personas con 
igual θ, la estimación ML de θ ( θ̂ ) se distribuiría normalmente con media igual al pará-
metro verdadero (θ ) y desviación típica Se(θ ), que es el error típico de estimación de θ : 
 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 149 
 
)(
1
)|ˆ()(
θ
θθσθ
I
Se =≡ [4.21] 
 
donde I(θ ) se denomina función de información del test. Como se muestra en la ecua-
ción, cuanto mayor sea la información, menor será el error típico de estimación. La fun-
ción de información en TRI es un concepto análogo al de coeficiente de fiabilidad en 
TCT. Ambas son medidas de precisión a partir de las cuales se deriva un error típico (de 
medida en TCT y de estimación de θ en TRI). Las diferencias principales son que: 
 
1. Mientras que el coeficiente de fiabilidad es un valor escalar, la función de información 
es una función; es decir, en TRI el valor de precisión varía para cada valor de θ. 
2. Mientras que el coeficiente de fiabilidad puede tomar valores entre 0 y 1, la función de 
información puede tomar cualquier valor igual o superior a 0. 
 
La función de información del test, I(θ ), se obtiene como la suma de las funciones de in-
formaciones de los ítems: 
 
∑
=
=
J
j
jII
1
)()( θθ [4.22] 
 
La función de información de cada ítem para los modelos de uno, dos y tres parámetros se 
muestra en la Tabla 4.7, donde P*j(θ ) se define en la ecuación [4.13] y Q*j(θ ) = 1– P*j(θ ). 
 
Tabla 4.7. Ecuaciones para calcular la función de información de un ítem en los modelos logísticos 
Modelo Ecuación para calcular la función de información 
ML1P )()()( 22 θθθ jjj QPaDI = 
[4.23] 
 
ML2P )()()( jj
22 θθθ QPaDI jj = [4.24] 
ML3P ))()()(1)(()()( j
***22 θθθθθ PPcQPaDI jjjjjj −= 
 
[4.25] 
 
 
Por tanto, el valor de la función de información del test dependerá de varios factores: 
 
1. Número de ítems aplicado (como ocurría en la TCT): En general, al aumentar la longi-
tud del test aumenta la información (ver ecuación [4.22]). 
2. De los parámetros a y c de los ítems aplicados: a mayores parámetros de discrimina-
ción y menores parámetros de adivinación, mayor será I(θ ) (ver ecuaciones [4.23] a 
[4.25]). 
3. De la proximidad entre θ y bj: cuanto menor sea la distancia entre los parámetros de di-
ficultad de los ítems aplicados y el nivel de rasgo de la persona, mayor será I(θ ). Los 
productos Pj(θ )Qj(θ ), para el ML1P y el ML2P, y el producto P*j(θ )Q*j(θ ), para el 
150 Medición en Ciencias Sociales y de la Salud 
 
ML3P, alcanzan su máximo valor cuando θ = bj. Estos productos aparecen en las 
ecuaciones [4.23] a [4.25]. 
4. Del grado en que Pj(θ ) se aleja de cj: cuanto más próxima se encuentre la probabilidad 
a la esperada por efecto de la adivinación, menor será I(θ) (ver ecuación [4.25]; el co-
ciente P*j(θ )/Pj(θ ) alcanza su valor máximo para niveles altos de θ, cuando 
P*j(θ )/Pj(θ ) ≅ 1). 
 
 
 Ejemplo 4.7. Función de información del test de cálculo numérico 
 
En la Tabla 4.8 se muestra la información proporcionada, para distintos niveles θ, por los 
ítems de cálculo numérico y por el test completo. 
 
Tabla 4.8. Función de información de los ítems y del test 
Ítem a b c –3 –2 –1 0 1 2 3 
1 0,68 –1,92 0,33 0,072 0,164 0,154 0,076 0,028 0,009 0,003 
2 0,97 –0,97 0,10 0,021 0,207 0,555 0,336 0,088 0,018 0,003 
3 0,51 0,20 0,11 0,013 0,043 0,099 0,147 0,141 0,094 0,049 
4 0,59 –0,88 0,24 0,024 0,082 0,150 0,144 0,084 0,038 0,015 
5 0,52 1,53 0,07 0,003 0,011 0,038 0,093 0,155 0,167 0,120 
6 1,14 0,71 0,06 0,000 0,001 0,045 0,460 0,791 0,246 0,041 
7 1,42 0,26 0,36 0,000 0,000 0,019 0,506 0,433 0,054 0,005 
Test 0,133 0,509 1,059 1,763 1,721 0,626 0,237 
 
Por ejemplo, la función de información del ítem 2 para θ = 0. Se calcula como: 
 
( ) 832,0
1
11
))97,0(0)(97,0(702,1)(
*
2
22
=
+
==
−−−− ee+1
P
b-Da θ
θ 
( ) 849,0
1
90,0
10,0
1
1
)1(
))97,0(0)(97,0(702,1)(222 22
=
+
+=−+=
−−−− ee+
ccP
b-Da θ
θ 
( ) ( ) ( ) ( )( )
336,0
849,0
832,0
)10,01)(832,01(832,097,0702,1
)1(
22
2
*
2
2
*
2
*
2
2
2
2
2
=





−−=
=







−=
θ
θ
θθθ
P
P
cQPaDI
 
 
Puede observarse que el test proporciona la mayor información para los niveles de rasgo 
entre 0 y 1. 
Normalmente, la función de información se representa de forma gráfica. En la Figura 
4.13 se observa que los que más contribuyen a la precisión son los ítems 2, 6 y 7 (los más 
discriminativos). Los ítems 1, 3, 4 y 5 proporcionan muy poca información (i. e., sus fun-
ciones de información son bastante planas). Para aumentar la precisión en niveles de θ ba-
jos (p. ej., menores que cero) deberíamos añadir ítems similares en dificultad al ítem 2. 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 151 
 
 
Figura 4.13. Función de información de los ítems y del test 
0,0
0,5
1,0
1,5
2,0
2,5
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
FII1
FII2
FII3
FII4
FII5
FII6
FII7
FI del test
Fu
nc
ió
n
de
 in
fo
rm
ac
ió
n 
de
 lo
s 
íte
m
s 
y 
de
l t
es
t
 
 
El error típico de estimación se representa en la Figura 4.14. Observe que el error típico y 
la información están inversamente relacionados. Cuando la información es mayor, el error 
típico es menor, y viceversa. Puede concluirse que, en general, la precisión del test no es 
adecuada, especialmente a la hora de discriminar entre niveles de rasgo bajos o entre nive-
les de rasgo altos7. 
 
Figura 4.14. Error típico de estimación de θ 
0,0
0,5
1,0
1,5
2,0
2,5
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
Se
(θ
)
 
 
 
 
El hecho de que la función de información sea la suma de las funciones de información de 
los ítems nos permite elegir los ítems más adecuados en cada momento en función de las 
 
7
 Debe observarse que la función de información depende del modelo aplicado. Por ejemplo, en niveles de θ ba-
jos, la aplicación del ML1P dará valores mayores que el ML3P en la función de información, I(θ ). Sin embar-
go, los distintos modelos (ML1P, ML2P, ML3P) no deben compararse en este sentido. Si el modelo de un 
parámetro no se ajustara a los datos, las fórmulas que habríamos proporcionado para obtener el errortípico de 
estimación dejarían de ser válidas. 
152 Medición en Ciencias Sociales y de la Salud 
 
 
demandas de la aplicación. Por ejemplo, si en un proceso de selección de personal sólo 
vamos a elegir a unos pocos evaluados muy competentes, a partir de un banco de ítems 
calibrado podríamos elegir aquellos que proporcionan más información para niveles altos 
de θ. Esto nos permitiría aplicar un número reducido de ítems sin perder precisión al esti-
mar θ. 
En general, un ítem j es máximamente preciso para niveles de rasgo θ = bj (en el caso 
del ML1P y del ML2P) o, de forma más general, cuando θ = θmax, siendo θmax (Hamble-
ton, Swaminathan y Rogers, 1991; p. 92): 
 
j
j
j
Da
c
b
)815,05,0ln(
max
++
+=θ [4.26] 
 
que es el valor de rasgo para el cual el ítem proporcionará la información máxima; esta in-
formación máxima puede calcularse de la siguiente forma (Hambleton y Swaminathan, 
1985): 
 
2
2
32
22
max
)1(2
)81(8201
25,0)(
j
jjj
j
c
ccc
aDI
−



 ++−−
=θ [4.27] 
 
expresión que, en el ML2P, se reduce a I(θmax) = 0,25D2aj2. 
 
 
Intervalos de confianza para la estimación de θ 
 
A partir del error típico de estimación se puede obtener el intervalo confidencial en el que, 
con probabilidad predeterminada, se ha de encontrar el nivel de rasgo de la persona. En 
concreto, si al nivel θ estimado de una persona le sumamos y restamos (1,96)Se(θ ), obte-
nemos los extremos del intervalo en el que, con nivel de confianza del 95%, se encontrará 
su verdadero nivel de rasgo. Por ejemplo, si la θ estimada es 0,8 y su error típico de esti-
mación es 0,22, entonces, el nivel de rasgo de dicha persona se encuentra entre 0,37 (pues 
0,8 – (1,96)0,22 = 0,37) y 1,23 (pues 0,8 + (1,96)0,22 = 1,23), con confianza del 95%. 
 
 
Función de información y fiabilidad 
 
A partir de la función de información del test se puede obtener un coeficiente de fiabilidad 
marginal para las estimaciones del nivel de rasgo: 
 
∑+
==
Q
q
qq
TRI
gSe
r
)()( 22
2
2
ˆ
2
ˆˆ
θθσ
σ
σ
σ
θ
θ
θ
θ
θθ
 [4.28] 
 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 153 
 
La expresión g(θ ) indica la distribución del rasgo. La ecuación [4.28] es el cociente entre 
la varianza del verdadero nivel de rasgo, σ2θ, y la varianza del rasgo estimado, 2θ̂σ . Indica 
qué proporción de la varianza de las estimaciones es varianza verdadera. Mediante el uso 
de esta fórmula puede anticiparse el coeficiente de fiabilidad que se obtendría en una 
muestra en la que el rasgo tenga distribución g(θ) y varianza σ2θ. Otra forma de expresar 
el coeficiente de fiabilidad marginal es como: 
 
2
ˆ
22
ˆ
ˆˆ
)()(
θ
θ
θθ σ
θθσ ∑−
=
Q
q
qq
TRI
gSe
r [4.29] 
 
Si θ̂ está estandarizada la ecuación se simplifica a: 
 
∑−=
Q
q
qq
TRI gSer )()(1 2ˆˆ θθθθ 
 
En ocasiones, también se calcula cuál sería el coeficiente de fiabilidad si todos los evalua-
dos de una muestra fueran medidos con la precisión que se obtiene en un nivel de θ dado 
(θ = θq). En ese caso, se aplica la siguiente fórmula: 
 
2
ˆ
22
ˆ
ˆˆ
)(
)(
θ
θ
θθ σ
θσ
θ
q
q
TRI
Se
r
−
= [4.30] 
 
Si θ̂ está estandarizada la ecuación se simplifica a: 
 
2
ˆˆ )(1)( qq
TRI Ser θθθθ −= 
 
 
La Curva Característica del Test (CCT) 
 
La representación de la relación entre θ y el rendimiento esperado en el test se denomina 
Curva Característica del Test. Para un valor θ concreto, el valor esperado en el test se ob-
tiene como la suma de las correspondientes probabilidades de acierto de los ítems para di-
cho nivel de rasgo, que pueden obtenerse a partir de sus curvas características: 
 
∑
=
=≡
J
j
jPXX
1
)()|()( θθεθ [4.31] 
 
154 Medición en Ciencias Sociales y de la Salud 
 
La CCT permite la transformación de la escala de θ a la escala de puntuaciones directas. 
Además la CCT desempeña un papel importante en algunos de los procedimientos de 
equiparación de parámetros (tal como se verá en el capítulo 11). 
 
 
 Ejemplo 4.8. Curva Característica del Test 
 
La CCT del test de 7 ítems de cálculo numérico se representa en la Figura 4.15. Puede ob-
servarse que la relación entre θ (el nivel de rasgo) y X (la puntuación esperada en el test) 
no es lineal. A alguien con un nivel de θ de 4 corresponde un número esperado de aciertos 
próximo al número de ítems (en nuestro caso, 7). 
 
Figura 4.15. CCT del test de cálculo numérico 
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
7,0
-4
,0
-3
,5
-3
,0
-2
,5
-2
,0
-1
,5
-1
,0
-0
,5 0,
0
0,
5
1,
0
1,
5
2,
0
2,
5
3,
0
3,
5
4,
0
θ
C
ur
va
 C
ar
ac
te
rís
tic
a
de
l T
es
t
 
 
 
 
Aplicaciones 
 
El desarrollo de la TRI ha supuesto un cierto avance, tanto en algunos contextos aplicados 
de evaluación psicológica y educativa, como en contextos de investigación muy diversos. 
Tal como vamos viendo, aplicar la TRI a las puntuaciones que se obtienen en los ítems de 
un test tiene ciertas ventajas, siendo una de las principales la estimación del error que se 
comente concretamente con cada persona. Los desarrollos de la TRI permiten aplicaciones 
más eficientes, ya que facilitan el ensamblado de un test (la selección de los ítems que lo 
formarán) para optimizar la precisión de las estimaciones de rasgo. También permite ob-
tener indicadores psicométricos para los ítems, complementarios (y relacionados) a los de 
la TCT. El estudio de los parámetros de los ítems que se estiman en diferentes grupos va a 
facilitar el análisis de posibles problemas no deseados, como sería que la prueba perjudi-
cara a uno de dichos grupos sin motivo justificado. 
Este marco teórico no resulta, sin embargo, la panacea universal para analizar las me-
diciones que se realizan con cualquier tipo de test en cualquier tipo de contexto de evalua-
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 155 
 
ción. Resultando muchas veces complementaria a la TCT, la TRI resulta especialmente 
útil en los estudios de evaluación a gran escala, donde es preciso medir muestras numero-
sas de personas y en diferentes ocasiones. Por una parte, en este tipo de estudios (p. ej., 
sobre evaluación educativa) se satisfacen los requisitos muestrales necesarios para su apli-
cación; por otra parte, en aplicaciones transculturales de tests se demandan ciertos estu-
dios particulares (p. ej., equiparación de puntuaciones o estudio del funcionamiento dife-
rencial de los ítems) para los que la TRI proporciona métodos y procedimientos más ade-
cuados que la TCT. 
Algunas de las principales aplicaciones de la TRI se describen con cierto detalle en 
otros capítulos de este libro: Equiparación de Parámetros (capítulo 11), Funcionamiento 
Diferencial (capítulo 13) y Tests Adaptativos Informatizados (capítulo 15). 
 
 
Ventajas y desventajas de los modelos de TRI 
 
Las aplicaciones de la TRI no serían posibles sin ciertas propiedades teóricas de estos mo-
delos, que sintetizamos en las siguientes: 
 
1. Invarianza de los parámetros de los evaluados. En TRI se concibe de forma más opera-
tiva el nivel de rasgo del evaluado. Desaparece el concepto de puntuación verdadera, 
que en la TCT se ligaba íntimamente al test utilizado (por ejemplo, la puntuación ver-
dadera cambiaba si el test tenía más ítems o ítems con distinta dificultad). La TRI se 
centra en las propiedades psicométricas de los ítems y, a partir de ellas, deriva las pro-
piedades psicométricas del test. En TRI se establece que el nivel de rasgo es un pará-
metro θ del evaluado que puede ser estimado una vez que se conocen los parámetros de 
los ítems del test que se está aplicando. 
No debe confundirse la invarianza de parámetros con la invarianza de las estimaciones 
de los parámetros; es decir, el parámetro de la persona que indica su nivel de rasgo será 
el mismo se utilice un test corto o un test largo, pero la estimación de ese parámetro 
dependerá del test utilizado (se realizará con más precisión en el test largo). 
2. Invarianza de los parámetrosde los ítems. Si se cumplen los supuestos del modelo, los 
parámetros estimados de los ítems no dependen, salvo transformación lineal (ver 
Apéndice), de la muestra donde se obtienen. Esto permite que podamos estudiar las 
propiedades psicométricas del mismo ítem en distintos grupos, incluso si difieren en 
media o variabilidad en el nivel de rasgo. 
3. No se asume la homocedasticidad del error. En TRI la precisión del test está condicio-
nada al nivel de rasgo y a los ítems aplicados. De esta manera, se esquiva una de las 
principales críticas que se ha realizado al concepto de fiabilidad en TCT. 
4. Se dispone de indicadores de bondad de ajuste, que hacen el modelo falsable y permi-
ten así la comparación de distintos modelos alternativos para las respuestas. 
 
Sin embargo, no todo son ventajas en el actual desarrollo que tienen los principales mode-
los de la TRI: 
 
1. Se requiere un gran número de evaluados para obtener las estimaciones de los paráme-
tros, especialmente en los modelos más complejos (p. ej., los que incluyen parámetros 
156 Medición en Ciencias Sociales y de la Salud 
 
de adivinación o algunos modelos para ítems politómicos) (Thissen y Wainer, 1982). 
Como el problema de los requisitos muestrales no es independiente del método de es-
timación empleado, se tratará con más detalle en el capítulo 11. 
2. Los supuestos son muy restrictivos. Los modelos de Rasch son los más afectados por 
esta crítica, ya que asumen ausencia de adivinación en las respuestas (algo poco razo-
nable cuando trabajamos con ítems de opción múltiple) e igual parámetro de discrimi-
nación de los ítems (algo que, por lo general, no se cumple). Los supuestos de unidi-
mensionalidad o independencia local pueden ser poco realistas en algunos casos. Afor-
tunadamente, se están desarrollando modelos psicométricos de TRI que no requieren el 
cumplimiento de estos supuestos (p. ej., modelos multidimensionales o modelos para 
testlets). 
3. Los procedimientos para comprobar el ajuste no son totalmente satisfactorios, funda-
mentalmente porque se desconoce la distribución de los índices de ajuste. Por ejemplo, 
algunos indicadores dependen de la longitud del test o de la calidad de las estimaciones 
del nivel de rasgo. 
4. La concepción sobre las fuentes de error que afectan a las puntuaciones de las personas 
en los tests es limitada, sobre todo si la comparamos con la propuesta que se hace desde 
la Teoría de la Generalizabilidad (TG). La mayor parte de los modelos de TRI ignoran 
aquellas fuentes de error de medida que no están relacionadas con el contenido especí-
fico de los ítems. La TG permite el estudio del efecto de diferentes fuentes de error, tal 
como veremos en el capítulo 9. En TRI no se reconocen distintas fuentes de error 
(Brennan, 2004), aunque algunos tímidos intentos empiezan a esbozarse (Bock, Bren-
nan y Muraki, 2002). 
5. Como también ocurre en TCT, la TRI se centra en el problema de la precisión, con lo 
que ha desviado de algún modo la atención de los psicómetras hacia problemas técni-
cos (p. ej., la estimación de parámetros o la evaluación del ajuste), ignorando en parte 
el tema de la validez (Muñiz, 1996). La TRI (al menos los modelos descritos hasta el 
momento) es fundamentalmente una teoría descriptiva (no psicológica) sobre el modelo 
de respuesta a los ítems. 
 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 157 
 
 
 
Apéndice 
 
La escala métrica de θ 
 
Para comparar dos objetos en un atributo necesitamos que las medidas se hayan tomado en la misma 
escala. El concepto de escala métrica hace referencia a las unidades de medida y al origen (i. e., el 
punto cero) de una escala. Por ejemplo, la temperatura puede expresarse en una escala de grados 
Celsius o en una escala de grados Fahrenheit; ambas son legitimas y equivalentes mediante la co-
rrespondiente transformación lineal [Temp(oF) = 1,8Temp(oC) + 32]. 
Para las puntuaciones en un test se suele asumir un nivel de medida de intervalo, como para la 
temperatura. Esto quiere decir que no hay un cero absoluto en la escala que indique un nivel cero de 
atributo y, por lo tanto, no sólo son arbitrarias las unidades de medida (i. e.: hablar en oF o en oC) si-
no también el origen de la escala. En este nivel de medida, como no existe un cero absoluto, la afir-
mación de que un objeto tiene el doble de temperatura que otro no tiene sentido; como tampoco lo 
tiene, por ejemplo, afirmar que una persona es el doble de inteligente que otra. En otras palabras, el 
nivel de medida determina qué transformaciones de la escala son posibles y qué afirmaciones acerca 
del atributo tienen sentido y cuáles no. 
¿Qué valores puede tomar θ? ¿Cuál es el origen o punto cero de la escala? ¿Y las unidades de 
medida? Al ser θ una variable con nivel de medida de intervalo, el origen es arbitrario. En la prácti-
ca, suele trabajarse con la escala θ en puntuaciones típicas ( µθ = 0; σ 2θ = 1). Esto quiere decir que 
la escala de θ es tal que, en la muestra, la media es cero y la varianza 1; los valores θ variarán gene-
ralmente entre –3,0 y 3,0. Una vez definida la escala para θ, automáticamente los parámetros a y b 
se sitúan en una métrica consistente con ella: por ejemplo, los valores del parámetro b variarán, ge-
neralmente, entre –3,0 y 3,0; el valor de a entre 0,3 y 2,5. A lo largo del capítulo se ha asumido esta 
escala métrica para θ. 
Sin embargo, el nivel θ del evaluado puede definirse en cualquier escala métrica consistente con 
su nivel de medida, en este caso de intervalo. Esto quiere decir que si efectuamos una transforma-
ción lineal de θ (g > 0): 
 
hgθθ* += [4.32]
 
las probabilidades de acierto no cambian si, a la vez, transformamos también los parámetros a y b 
de los ítems para que se hallen en una métrica consistente con la de θ∗: 
 
g
a
a* = [4.33] 
hgbb j
*
j += [4.34] 
 
En efecto: 
 
)(
1
1
1
1
1
1
)(
)(
))(()(
*
θP
e
e
e
θP jbθDa
hgbhgθ
g
a
DbθDa
*
j
j
j
*
j
*
=
+
=
+
=
+
=
−−
+−+−−−
 
 
158 Medición en Ciencias Sociales y de la Salud 
 
Por tanto, el modelo con parámetros θ*, a* y b*j es equivalente al modelo con parámetros θ, a y bj. 
Es decir, lo mismo que en la temperatura, podemos expresar los parámetros en distinta escala. El 
rango de valores que pueden tomar los parámetros a, b y θ dependerá de la escala métrica que utili-
cemos. Para resolver esta indeterminación debemos explicitar si θ está en una escala de puntuacio-
nes típicas o en otra escala. 
Observe que ahora podemos explicar por qué las ecuaciones del ML1P [4.1] y del modelo de 
Rasch [4.2] son equivalentes. En efecto, si definimos: 
 
j
*
j Dabb = 
θθ Da* = 
 
Entonces el modelo de Rasch se transforma en el ML1P: 
 
)()()( 1
1
1
1
1
1
**
jjj
bθDaDabDaθbθ eee
−−−−−− +
=
+
=
+
 
 
Si el parámetro θ del ML1P se expresa en puntuaciones típicas (σθ = 1), entonces la desviación 
típica del parámetro θ* en el modelo de Rasch será: 
 
 Da
θ
=*σ 
 
Otro ejemplo de esta necesidad de explicitar la escala métrica se relaciona con el parámetro de dis-
criminación de los ítems: el parámetro a de un modelo será distinto si utilizamos D = 1,702 o D = 1. 
La elección de uno u otro define la escala métrica de la discriminación: parámetro a en métrica 
normal o en métrica logística. 
 
 
La escala logit 
 
Si p es una probabilidad, la función logit de p es ln[p/(1 p)] 
 






−
≡
p
p
p
1
ln)(logit 
 
En el modelo de Rasch suele utilizarse la escala logit (log-odds-unit) para informar de los paráme-
tros. Al utilizar la ecuación [4.2], el logit de la probabilidad de acertar un ítem es: 
 
j
b
b
b
j
j
bθe
e
e
θQ
θP
j
j
j
−==












+
−
+=







 −
−−
−−
)ln(
1
1
1
1
1
ln
)(
)(
ln
)(
)(
)(
θ
θ
θ
 
 
Es decir, depende sólo del nivel de rasgo y de la dificultad del ítem. Utilizando esta escala es más 
fácil interpretar las diferencias de rendimiento entre dos personas en el mismoítem o de la misma 
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 159 
 
persona en dos ítems. Por ejemplo, una diferencia en la escala logit de las probabilidad de acertar un 
ítem que tienen dos personas, será: 
 
1212
1
1
2
2
)()(
)(
)(
ln
)(
)(
ln θθbθbθ
θQ
θP
θQ
θP
jj
j
j
j
j −=−−−=








−








 
 
Lo que muestra que dicha diferencia no depende del ítem, sino únicamente de los dos niveles de 
rasgo. Una diferencia en la escala logit, para una persona, entre las probabilidades de acertar dos 
ítems distintos, será: 
 
2112
1
1
2
2 )()(
)(
)(
ln
)(
)(
ln bbbθbθ
θQ
θP
θQ
θP
−=−−−=





−





 
 
En el modelo de Rasch, las diferencias en la escala logit se corresponden directamente con las dife-
rencias en θ (o en b). Al informar del nivel de rasgo en la escala logit se informa de θ y al informar 
de la dificultad en la escala logit se informa de b. El punto cero de la escala logit es arbitrario. Nor-
malmente se establece como punto cero la media de los parámetros b de los ítems o la media del ni-
vel de rasgo. En el primer caso, los valores θ iguales a 0 indican que se tiene una probabilidad de 
acertar ítems de dificultad media de 0,5. En el segundo caso, los valores b iguales a 0 se correspon-
den con ítems que los evaluados de nivel medio aciertan con probabilidad 0,5. 
 


 
 
5 
Concepto y evidencias 
de validez 
 
 
 
 
 
 
El concepto de validez 
 
Como ya hemos visto en los capítulos precedentes, los estudios de fiabilidad nos informan 
de si estamos midiendo con mucho o con poco error de medida, pero no informan de qué 
atributo estamos midiendo. Los estudios de validez van a aportar significado a las puntua-
ciones que estamos obteniendo, permitiéndonos conocer si el uso que pretendemos hacer 
de ellas es o no adecuado. 
Los indicadores de fiabilidad son diferentes en las distintas teorías y el concepto de 
fiabilidad sólo ha ido matizándose a lo largo de los años, ligado al desarrollo de las distin-
tas teorías de los tests. El concepto de validez, sin embargo, ha cambiado enormemente, 
tal como veremos en el último apartado del presente capítulo. La validez ha sido definida 
de muchas maneras a lo largo de la historia de la Psicometría y su definición sigue cam-
biando. Lo único que se ha mantenido a través del tiempo es su consideración como la 
propiedad más importante y fundamental al desarrollar y evaluar un test (p. ej.: Anastasi 
y Urbina, 1997; Cronbach, 1988). 
La conceptualización actualmente dominante sobre la validez es la que recogen los 
Standards for Educational and Psychological Testing en su edición de 1999. En este do-
cumento, elaborado por tres importantes asociaciones profesionales americanas (AERA, 
APA y NCME), se define la validez como el grado en que la teoría y los datos disponibles 
apoyan la interpretación de las puntuaciones de un test para un uso concreto. Hay varios 
aspectos que se pueden destacar de esta definición: 
 
1. Al igual que ocurre en el caso de la fiabilidad, ya no hablamos de validez de un test si-
no de validez de las puntuaciones de un test. No tiene sentido hablar de “propiedades 
del test”, ya que éstas dependen del contexto de evaluación y de la muestra. 
162 Medición en Ciencias Sociales y de la Salud 
 
2. El profesional responsable de la aplicación de un test debe consultar el manual del 
mismo para averiguar si la utilización e interpretación pretendida por él coincide con la 
proporcionada por la documentación de la prueba. En caso negativo, para poder reali-
zar la interpretación pretendida deberá desarrollar una investigación, un estudio de va-
lidación, que le permita recoger información que apoye (o no) su utilización. Por lo 
tanto, la validación no sólo incumbe a los tests de nueva creación, sino que representa 
un proceso de acumulación de evidencias que apoyan las interpretaciones propuestas 
para las puntuaciones de un test, para así poder comprender mejor qué significan. 
 
Siguiendo la propuesta de Kane (2006a), que es consistente con la visión de los Standards, 
el proceso de validación implicaría el uso de dos argumentos: el argumento interpretativo 
y el argumento de validez. El proceso de validación debe comenzar con el desarrollo del 
argumento interpretativo, que supone proponer con detalle interpretaciones y usos de las 
puntuaciones. Por ejemplo, debemos especificar todas las asunciones en las que se basa el 
test, los componentes del constructo, las diferencias con otros constructos y sus relaciones 
con otras variables. Si las interpretaciones y usos no están claramente identificados enton-
ces no pueden ser evaluados. 
El segundo, el argumento de validez, consiste en evaluar el argumento interpretativo. 
La interpretación propuesta para las puntuaciones determina las clases de evidencia nece-
sarias para la validación. Es posible que una o varias de las interpretaciones sean válidas 
mientras que otras se consideren inválidas. Por ejemplo, es posible que un test de persona-
lidad sea adecuado para un proceso de selección de personal, pero no lo sea para un pro-
ceso de diagnóstico de patologías. El argumento de validez implica la evaluación de las 
interpretaciones propuestas a través de una serie de análisis lógicos y estudios empíricos, 
siendo siempre necesaria la integración de las diferentes clases de evidencia. Las eviden-
cias de validez son, por lo tanto, las pruebas recogidas para apoyar la interpretación pro-
puesta. La principal ventaja de esta aproximación sería que intenta proporcionar una guía 
para dirigir los esfuerzos de investigación. Las clases de evidencia que serían más relevan-
tes son aquellas que apoyan inferencias y asunciones del argumento interpretativo que son 
más problemáticas. Además, la etapa de evaluación también implica una búsqueda de 
asunciones ocultas y de posibles interpretaciones alternativas de las puntuaciones. 
Si concebimos la validación como el proceso investigador en el que se van acumulan-
do evidencias sobre la interpretación de las puntuaciones de un test, resulta patente que 
para obtener estas evidencias podremos usar una enorme variedad de métodos o estrate-
gias. De ahí que ya no usemos el término “tipos de validez” sino el de “tipos de eviden-
cia”, intentando resaltar el carácter unitario del concepto de validez. Estas diferentes fuen-
tes de evidencia no representan distintos tipos de validez. Ahora se plantea el estudio de 
evidencias basadas en el contenido, la estructura interna, la relación con otras variables, el 
proceso de respuesta y las consecuencias de la aplicación del test. 
Para analizar los datos de las distintas fuentes de evidencia se usa una amplia variedad 
de técnicas, que por su importancia y especificidad se tratarán en distintos capítulos. Con-
cretamente, para obtener evidencias relativas a la estructura interna de las puntuaciones es 
preponderante el uso del Análisis Factorial Exploratorio (AFE) y del Análisis Factorial 
Confirmatorio (AFC). Estas dos técnicas se exponen, respectivamente, en los capítulos 6 y 
10. Dentro de las evidencias relativas a la estructura interna también pueden ubicarse los 
trabajos encaminados a evaluar el funcionamiento diferencial de los ítems (FDI); la defi-
nición y la tecnología para la detección del FDI se proporciona en el capítulo 13. Por otra 
Capítulo 5. Concepto y evidencias de validez 163 
parte, en el capítulo 14, se incluyen otros procedimientos que se aplican para obtener in-
formación sobre la relación del test con otras variables (p. ej.: la regresión lineal múltiple) 
y sobre la generalización de la validez. 
Hay numerosos manuales en los que se tratan el concepto y las evidencias de validez, 
tanto en español (p. ej.: Martínez Arias, Hernández-Lloreda y Hernández-Lloreda, 2006; 
Muñiz, 2002; Navas, 2001), como en inglés (p. ej.: Carmines y Zeller, 1979; Crocker y 
Algina, 1986; Wainer y Braun, 1988). 
 
 
Evidencias basadas en elcontenido del test 
 
Definición 
 
Es fácil comprender la necesidad de examinar el contenido de un test como un primer pa-
so para juzgar si un instrumento puede usarse para un propósito en particular. Por ejem-
plo, estudiantes, padres y profesores esperan que las preguntas de un examen de Lengua 
de Educación Primaria sean consistentes con los objetivos curriculares para esa asignatura 
y nivel. Esto es especialmente evidente en los tests educativos. No sorprende, por tanto, 
que la necesidad de examinar el contenido de los tests apareciese ya en 1954 en un docu-
mento de la APA sobre recomendaciones técnicas para el diseño y uso de los tests. 
Es necesario aclarar que por contenido del test no nos referimos únicamente a los 
ítems que lo componen. Actualmente se incluyen, además, las instrucciones para su admi-
nistración y las rúbricas o criterios para su corrección y puntuación. 
Sireci (2003) indica que hay al menos dos aspectos esenciales que se deben tener en 
cuenta para realizar la validación del contenido: la definición del dominio, y la representa-
ción del dominio. La definición del dominio se refiere a la definición operativa del conte-
nido. En la mayoría de los tests educativos esta definición tiene la forma de una tabla de 
especificaciones de doble entrada, en la que las filas indican las áreas de contenido rele-
vantes para el dominio en cuestión y las columnas indican las operaciones o procesos 
cognitivos implicados en la resolución de las tareas planteadas. Se especifican además los 
porcentajes de ítems asignados a cada combinación de área y proceso cognitivo. 
Las empresas de tests más importantes de EE. UU. (p. ej.: American College Testing, 
California Bureau Test, Educational Testing Service…) suelen emplear estas tablas. Así 
por ejemplo, en la página web del National Assessment of Educational Program (NAEP)1 
podemos encontrar varios ejemplos. El NAEP es el programa de evaluación del rendi-
miento académico llevado a cabo por el Departamento de Educación de EE. UU., que 
permite comparar el rendimiento de los estudiantes en la escuela en varias materias y en 
todos los estados. Si tomamos, por ejemplo, la tabla de especificaciones para la evaluación 
del progreso educativo en Geografía vemos que incluye tres áreas de contenidos: espacio 
y lugar, ambiente y sociedad, y conexiones y dinámicas espaciales. Las dimensiones cog-
nitivas evaluadas son conocimiento, comprensión y aplicación. Se muestran, además, los 
porcentajes de distribución de ítems por áreas de contenido y algunos ejemplos de ítems 
para cada combinación de área y habilidad cognitiva. Así por ejemplo, el ítem “¿Qué fac-
tores estimulan las migraciones humanas?” está diseñado para medir “conocimiento” en 
 
1 http://nces.ed.gov/nationsreportcard/geography/elements.asp 
164 Medición en Ciencias Sociales y de la Salud 
 
el área “conexiones y dinámicas espaciales”. Mientras que el ítem “Explique las razones 
que los mexicanos y cubanos tienen hoy en día para emigrar a los Estados Unidos” está 
diseñado para medir “comprensión” en la misma área de conocimiento. 
Para definir el dominio de manera adecuada podemos usar varias fuentes. En los tests 
educativos es habitual usar los libros de texto y los objetivos curriculares; en el ámbito de 
selección de personal es frecuente usar los resultados de los análisis de puestos de trabajo; 
los datos obtenidos en tales análisis se usan para defender la evaluación de áreas específi-
cas y para establecer su importancia en el test (p. ej., la proporción de ítems de cada una). 
En los tests de aptitudes se utilizan las teorías sobre las habilidades mentales y su funcio-
namiento. 
Hasta ahora nos hemos ocupado de la definición del dominio. El segundo elemento 
resaltado por Sireci es la representación del dominio, que a su vez abarca dos aspectos: la 
representatividad y la relevancia. La representatividad o cobertura del dominio indica la 
adecuación con que el contenido del test representa todas las facetas del dominio definido. 
Hay que examinar si todo el contenido del dominio está siendo medido y si hay facetas 
concretas que han sido infrarrepresentadas. Por su parte, al estudiar la relevancia exami-
namos el grado en que cada ítem del test mide el dominio definido, pudiéndose detectar 
problemas relativos a la presencia de contenidos irrelevantes. 
 
 
Procedimientos 
 
La mayoría de los estudios de validación de contenido requieren del trabajo de jueces o 
expertos que evalúan los ítems del test y emiten juicios sobre el grado de emparejamiento 
entre los ítems y los objetivos definidos en la tabla de especificaciones. Habitualmente se 
trabaja con un reducido número de jueces que emiten una cantidad importante de evalua-
ciones. Es crucial realizar una cuidadosa selección de los expertos. En un estudio “tradi-
cional” de validez de contenido, una vez identificado el grupo de expertos en el dominio 
evaluado, éstos deben informar del grado en que el dominio está bien definido y del grado 
en que el test lo representa bien. Se pueden utilizar varios procedimientos para que los 
jueces evalúen el emparejamiento entre los ítems y los objetivos del test. 
Rovinelli y Hambleton (1977) propusieron una tarea en la que cada juez juzga si el 
contenido de cada ítem refleja cada uno de los objetivos especificados. El juez debe asig-
nar “+1” si considera que el ítem mide el objetivo, “−1” si cree que no lo mide y “0” si 
tiene dudas sobre si lo mide o no. Por ejemplo, en un test de 10 objetivos y 4 ítems por 
objetivo cada juez debería realizar 400 juicios. El índice de congruencia ítem-objetivo se 
obtiene mediante la expresión: 
 
( )jjkjk XX
N
N
I −
−
=
22
 [5.1] 
 
Siendo N el número de objetivos, jkX la media de los jueces para el ítem j en el objetivo 
k y jX la media de los jueces para el ítem j en todos los objetivos. 
Este índice toma valores entre −1 y 1. Nótese que un valor del índice de 1 en un ítem 
indicaría que todos los jueces lo han valorado +1 en el objetivo k (la media del ítem en el 
Capítulo 5. Concepto y evidencias de validez 165 
objetivo sería igual a 1) y −1 en todos los demás objetivos. Un valor del índice de −1 indi-
caría que todos los jueces lo han valorado −1 en el objetivo k y +1 en todos los demás ob-
jetivos. Podemos fijar un punto de corte para decidir qué ítems presentan valores adecua-
dos y cuáles no. Por ejemplo, si tenemos 20 jueces y 10 áreas de contenido. Podríamos 
exigir que al menos 15 jueces valorasen el ítem como adecuado para el objetivo propuesto 
e inadecuado para los otros. En este ejemplo, el índice debería valer 0,75. 
 
 
 Ejemplo 5.1. El índice de congruencia de Rovinelli y Hambleton 
 
En la Tabla 5.1 se muestran las hipotéticas evaluaciones de una muestra de 10 jueces re-
cogidas con este procedimiento para un test de 6 ítems que pretende medir 2 objetivos. En 
negrita se muestran los ítems que han sido diseñados para medir cada objetivo. Así, los 
tres primeros ítems fueron diseñados para evaluar el objetivo 1 y los tres últimos para el 
objetivo 2. Cada juez debe realizar 12 valoraciones (6 ítems × 2 objetivos). Por ejemplo, 
el juez 1 evalúa con “+1” al ítem 3 en el objetivo 1 (cree que lo mide) y con “0” a ese 
mismo ítem en el objetivo 2 (tiene dudas sobre si lo mide o no). 
 
Tabla 5.1. Evaluaciones hipotéticas de 10 jueces para un test de 6 ítems que mide 2 objetivos 
 Jueces 
Objetivos Ítems 1 2 3 4 5 6 7 8 9 10 ∑
=
=
10
1
i
i
iX 
1 1 +1 +1 +1 +1 +1 +1 0 +1 +1 +1 9 
 2 +1 +1 0 +1 +1 +1 0 +1 +1 +1 8 
 3 +1 0 +1 +1 +1 +1 +1 +1 +1 −1 7 
 4 −1 0 −1 −1 −1 −1 −1 0 0 −1 −7 
 5 −1 0 −1 −1 −1 −1 −1 −1 −1 −1 −9 
 6 −1 0 −1 −1 −1 −1 −1 0 −1 −1 −8 
2 1 −1 0 −1 −1 −1 −1 −1 0 −1 −1 −8 
 2 −1 0 −1 −1 −1 −1 −1 −1 0 −1 −8 
 3 0 +1 −1 −1 −1 −1 −1 −1 −1 0 −6 
 4 +1 +1 +1 +1 +1 +1 0 +1 +1 +1 9 
 5 +1 +1 0 +1 0 +1 0 −1 +1 +1 6 
 6 +1 +1 +1 +1 +1 0 +1 −1 +1 0 6 
 
El índice de congruencia del ítem 3 y el objetivo