Vista previa del material en texto
Medición en ciencias sociales y de la salud PROYECTO EDITORIAL: Metodología de las Ciencias del Comportamiento y de la Salud Directores: Antonio Pardo Merino Miguel Ángel Ruiz Díaz E D ITO R IA L S IN TES IS Medición en ciencias sociales y de la salud Francisco J. Abad • Julio Olea • Vicente Ponsoda • Carmen García Reservados todos los derechos. Está prohibido, bajo las sanciones penales y el resarcimiento civil previstos en las leyes, reproducir, registrar o transmitir esta publicación, íntegra o parcialmente, por cualquier sistema de recuperación y por cualquier medio, sea mecánico, electrónico, magnético, electroóptico, por fotocopia o por cualquier otro, sin la autorización previa por escrito de Editorial Síntesis, S. A. © Francisco J. Abad, Julio Olea, Vicente Ponsoda y Carmen García © EDITORIAL SÍNTESIS, S. A. Vallehermoso, 34. 28015 Madrid Teléfono 91 593 20 98 http://www.sintesis.com ISBN:978-84-975672-7-5 Depósito Legal: M. 5.521-2011 Impreso en España - Printed in Spain Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado ISBN: 978-84-995861-4-4 Índice de contenidos Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Primera Parte 1. Introducción Psicometría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Tipos de tests y ámbitos de aplicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2. Construcción de tests y análisis de ítems Diseño del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Construcción provisional del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Cuantificación de las respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Análisis de ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Corrección de los efectos del azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3. Modelo Clásico y fiabilidad Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 La Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Los supuestos fundamentales del Modelo Clásico. . . . . . . . . . . . . . . . . . . . . . . . . 77 Descomposición de la varianza de las puntuaciones empíricas en un test . . . . . . . 81 Concepto de formas paralelas y coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . 83 Fórmula general de Spearman-Brown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Aproximaciones a la fiabilidad y tipos de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Fiabilidad como correlación entre formas paralelas. . . . . . . . . . . . . . . . . . . . . . . . 94 Fiabilidad como estabilidad temporal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Fiabilidad como consistencia interna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 El error típico de medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Formas de incrementar la fiabilidad de un test. . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Coeficiente de fiabilidad y características de la muestra. . . . . . . . . . . . . . . . . . . . . 113 Valores mínimos para los indicadores de fiabilidad. . . . . . . . . . . . . . . . . . . . . . . . 114 Software para la Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8 Medición en Ciencias Sociales y de la Salud 4. Introducción a la Teoría de la Respuesta al Ítem Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Limitaciones de la TCT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 La Curva Característica del Ítem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Modelos de TRI para ítems dicotómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Supuestos de la TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 La precisión de las puntuaciones en TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 La Curva Característica del Test. . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 Ventajas y desventajas de los modelos de TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 5. Concepto y evidencias de validez El concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 Evidencias basadas en el contenido del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Definición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Procedimientos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 Evidencias basadas en la estructura interna del test. . . . . . . . . . . . . . . . . . . . . . . . . 170 Evidencias basadas en la relación con otras variables. . . . . . . . . . . . . . . . . . . . . . . 171 La evidencia convergente y discriminante. . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Evidencia sobre la relación entre el test y algún criterio relevante. . . . . . . . . . 177 Evidencias basadas en los procesos de respuesta a los ítems. . . . . . . . . . . . . . . . . 195 Evidencias basadas en las consecuencias de la aplicación del test. . . . . . . . . . . . . 199 Evolución histórica del concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6. Análisis Factorial Exploratorio Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Visión general del AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 La ecuación fundamental del modelo factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Conceptos básicos del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 El AFE paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 Decisiones sobre el método de extracción de factores. . . . . . . . . . . . . . . . . . . 220 Selección del número de factores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 El problema de la indeterminación factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . 232 Procedimientos de rotación ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235Procedimientos de rotación oblicua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 Puntuaciones factoriales por el método de ponderación simple . . . . . . . . . . . . . . . 241 Otras decisiones importantes en el AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 Otros métodos de extracción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 Índice de contenidos 9 Métodos adicionales para decidir el número de factores. . . . . . . . . . . . . . . . . 252 El significado del término rotación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 Análisis factorial de segundo orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 El análisis factorial de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Procedimientos alternativos para calcular las puntuaciones factoriales . . . . . 263 Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 7. Interpretación de las puntuaciones Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Baremos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 Baremos cronológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Baremos centiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 Baremos típicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 Baremos en la Teoría de la Respuesta al Ítem. . . . . . . . . . . .. . . . . . . . . . . . . . 282 Otros métodos para dar significado a las puntuaciones. . . . . . . . . . . . . . . . . . . . . . 283 El mapeo de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 Descripción de cada nivel de desempeño. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 Puntos de corte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 Segunda Parte 8. Métodos alternativos para estimar el coeficiente de fiabilidad Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Grados de equivalencia entre formas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 Otras formas de calcular el coeficiente de fiabilidad a partir de dos mitades. . . . . 297 Otras formas de calcular el coeficiente de fiabilidad del test a partir de los ítems . 299 Coeficiente de fiabilidad como límite inferior. . . . . . . . . . . . . . . . . . . . . . . . . 301 Coeficientes de fiabilidad basados en el análisis factorial. . . . . . . . . . . . . . . . 304 Coeficiente de fiabilidad de una batería de tests o de tests multidimensionales. . . 310 Testlets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 9. Fiabilidad interjueces y medición del cambio Fiabilidad interjueces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 Coeficiente kappa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 Coeficiente de concordancia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Coeficiente de correlación intraclase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Coeficiente de correlación intraclase como un caso particular del coeficiente de generalizabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 Coeficientes de generalizabilidad para dos fuentes de error. . . . . . . . . . . . . . . 325 10 Medición en Ciencias Sociales y de la Salud Fiabilidad de las diferencias y medición del cambio. . . . . . . . . . . . . . . . . . . . . . . . 330 Fiabilidad de las diferencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 Significación clínica e indicadores de cambio fiable. . . . . . . . . . . . . . . . . . . . 333 ¿Diferencias de las puntuaciones directas o diferencias en los rasgos latentes?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 10. Análisis Factorial Confirmatorio Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 El AFC paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 Representación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 Conceptos básicos del modelo de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 Identificación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 Índices de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Re-especificación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 Modelos confirmatorios multigrupo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . . . . . 379 Malos usos de los modelos de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 11. TRI: procedimientos estadísticos Comprobación de supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 Unidimensionalidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 Independencia local. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 Calibración de los ítems: método de estimación Máximo-Verosímil Marginal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 Estimación bayesiana modal a posteriori del nivel de rasgo (MAP). . . . . . . . 393 Estimación bayesiana esperada a posteriori del nivel de rasgo (EAP) y desviación típica posterior (PSD). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396 Estimación bayesiana de los parámetros de los ítems. . . . . . . . . . . . . . . . . . . . 397 Comprobación de la bondad de ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . 400 Procedimientos de equiparación de parámetros. . . . . . . . . . . . . . . .. . . . . . . . . . . . 402 Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . 408 TRI: Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410 12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 El modelo de respuesta graduada (MRG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 La puntuación esperada en el ítem y la Curva Característica del Test. . . . . . . . . . 423 Supuestos de unidimensionalidad e independencia local. . . . . . . . . . . . . . . . . . . . 424 Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 Índice de contenidos 11 Comprobación del ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 Comprobación del ajuste: métodos estadísticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 Estimación de θ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 Función de información. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 Otros modelos politómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 13. Funcionamiento diferencial de los ítems y adaptación de tests a otras culturas Sesgo, funcionamiento diferencial e impacto adverso. . . . . . . . . . . . . . . . . . . . . . . 447 Evidencias externas de sesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 Funcionamiento diferencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 DIF uniforme y DIF no uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 Estrategias para el estudio del funcionamiento diferencial. . . . . . . . . . . . . . . . 452 Métodos basados en las puntuaciones directas. . . . . . . . . . . . . . . . . . . . . . 452 Métodos basados en variables latentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 Depuración de la prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 Consideraciones finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 Impacto adverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 Adaptación de tests a otras culturas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 Procedimientos de traducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 Estudios de equivalencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 14. Otras estrategias de validación El análisis de regresión lineal múltiple y la validez referida a un criterio. . . . . . . . 475 Marco de trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 La correlación múltiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 Los coeficientes de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 Las pruebas de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 Supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 Multicolinealidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 Regresión por pasos (Stepwise). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493 Técnicas de análisis estadístico de las matrices MRMM. . . . . . . . . . . . . . . . . . . . . 494 El estadístico “I” de Sawilowsky. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494 Aproximación desde el análisis factorial confirmatorio. . . . . . . . . . . . . . . . . . 495 La generalización de la validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502 Validez diagnóstica de las puntuaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504 Caso 1: Validez diagnóstica de las puntuaciones en un único test. . . . . . . . . . 505 Caso 2: Validez diagnóstica de las puntuaciones en varios tests. . . . . . . . . . . . 508 15. Tests informatizados y otros formatos de tests Tests informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 Tests fijos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 Tests adaptativos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 12 Medición en Ciencias Sociales y de la Salud Aplicaciones a través de Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523 Tests basados en modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 524 Nuevos formatos para la prevención del falseamiento de respuestas. . . . . . . . . . . 525 Detección del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526 Prevención del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530 Referencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 Prólogo Escribir un libro exige tomar un conjunto de opciones previas sobre su contenido y estilo. Una vez recibida la oferta de Editorial Síntesis, muchos fueron los debates entre los auto- res para definir en concreto el libro que queríamos escribir: ¿para qué tipo de lectores?, ¿qué contenidos incluir?, ¿a qué nivel hacerlo?, ¿cómo establecer un estilo didáctico man- teniendo el rigor formal?, ¿cómo fomentar destrezas y no sólo conocimientos? En reali- dad, la respuesta a la primera de estas preguntas sirve para responder en parte las siguien- tes. El libro que presentamos es un libro de Psicometría que puede resultar de interés para estudiantes e investigadores de las Ciencias Sociales y de las Ciencias de la Salud. Hemos encontrado dos razones fundamentales para escribirlo: en primer lugar, que parte del libro sirva a nuestros estudiantes de grado como referencia básica para el aprendizaje de la asignatura troncal de Psicometría; en segundo lugar, la opción por describir determinados temas que consideramos relevantes para una formación más elevada y que es difícil en- contrar en otros de los buenos textos sobre Medición escritos en español. La primera parte del libro incluye 7 temas de lo que podríamos definir como Psico- metría fundamental, pensados como los contenidos básicos para las asignaturas troncales de grado. ¿Qué eslo que consideramos como fundamental (podríamos calificarlo como “mínimo”) para la formación psicométrica de un estudiante de grado? Nuestras opciones se han fundamentado en un intento de mejorar el proceso de enseñanza y aprendizaje de la Psicometría en los nuevos planes de estudio requeridos en el proceso de acomodación al Espacio Europeo de Educación Superior. Por tanto, tenemos presente un marco concreto de desarrollo de los contenidos: una asignatura troncal que podría oscilar entre 6 y 9 crédi- tos ECTS, con contenidos fundamentales (aunque no exclusivos) de Teorías de los Tests y poniendo énfasis en complementar los contenidos teóricos con la formación práctica. En este sentido, y adicionalmente a una rigurosa formación teórica en los modelos fundamen- tales de medición (Teoría Clásica y Teoría de la Respuesta al Ítem), pretendemos que el estudiante se encuentre capacitado para entender la información psicométrica básica que aportan diversos instrumentos de evaluación, fundamentalmente los tests; optamos además por que el estudiante se enfrente con problemas concretos de medición, maneje el software fundamental para el estudio psicométrico de un test y sea capaz de elaborar in- formes técnicos sobre los resultados. Los estudiantes que adquieran estas competencias serán capaces de redactar buenos ítems, de analizar sus propiedades métricas, de aplicar las mejores técnicas y procedimientos para estudiar la fiabilidad y validez de las puntua- ciones de los tests, así como de interpretar adecuadamente las asignadas mediante el ba- remo correspondiente. Con esta primera parte del libro pretendemos establecer las bases para la adquisición de estos conocimientos, pero no sirve del todo para adquirir las destre- zas de tipo más aplicado. Completaremos la formación con la propuesta y seguimiento de varios trabajos prácticos cuyas guías los estudiantes tendrán disponibles en nuestras pági- nas de docencia. 14 Medición en Ciencias Sociales y de la Salud Los temas de la segunda parte, que podrían considerarse como la iniciación a una Psicometría aplicada avanzada, se refieren a contenidos más específicos, propios de los que deben saber los estudiantes que quieran especializarse en temas de Metodología (en materias optativas y en estudios de posgrado) o los investigadores en Ciencias Sociales y de la Salud que desarrollan o adaptan tests. Los temas incluidos en esta segunda parte pueden considerarse como extensiones y aplicaciones particulares de los descritos en la primera parte. Así, hemos optado por desarrollar más ampliamente los contenidos sobre modelos psicométricos, incluyendo procedimientos alternativos para estimar la fiabilidad, el tema de la medición del cambio y contenidos más avanzados sobre TRI (procedimien- tos estadísticos y modelos politómicos). Sobre la validación de puntuaciones, en esta se- gunda parte se tratan con bastante detenimiento los temas de análisis factorial confirmato- rio, funcionamiento diferencial de los ítems y adaptación de tests a otras culturas, así co- mo otras estrategias específicas de validación. Finalmente, se incluye un tema sobre tests informatizados y otros formatos de ítems. Con ello hemos querido avanzar en determina- das aplicaciones psicométricas que cada vez resultan más usuales en la investigación y en la práctica profesional, pero que seguramente no tienen cabida en las materias troncales de los planes de estudio de grado. Tanto una como otra parte quedarían didácticamente cojas sin la descripción básica de los programas informáticos disponibles para hacer las cosas. En este sentido, en el libro se describen los procedimientos básicos para realizar las estimaciones con diversos pro- gramas informáticos: SPSS y FACTOR (modelo clásico y análisis factorial exploratorio), MULTILOG (para la TRI) y MPLUS (para el análisis factorial confirmatorio). 1 Introducción Psicometría Etimológicamente, la Psicometría es la disciplina que tiene por objeto la medición de la “psique”; hoy en día diremos mejor la medición de capacidades, atributos o características psicológicas. Su objetivo es establecer “teorías sobre” y “métodos para” la medición en Psicología y en otras disciplinas afines. Se caracteriza en primer lugar porque utiliza la formulación matemática para desarrollar teorías y modelos para la medición de variables psicológicas. La define, en segundo lugar, su interés por promover métodos, técnicas e instrumentos para la mejor medición posible de dichas variables en cualquier contexto de especialización de las Ciencias Sociales y de la Salud. Las variables objeto de medición pueden ser de diverso tipo, y no son independientes de las perspectivas teóricas asumidas: rasgos, actitudes, procesos, conductas, conocimientos, destrezas, actividad psicofisiológi- ca, etc. En este sentido, es objeto de la Psicometría el análisis de cualquier asignación numérica que se realiza sobre variables psicológicas, obtenida por diversos procedimien- tos o instrumentos, en términos de su precisión (error de medida) y validez (inferencias de diverso tipo que pueden realizarse a partir de dichas asignaciones), que en definitiva son los conceptos clave bajo cualquiera de los prismas teóricos de la disciplina y las propieda- des psicométricas fundamentales que deberemos analizar. En general, el objeto de la me- dición son las personas, aunque también pueden serlo los grupos, las instituciones o estí- mulos de diverso tipo. En cuanto a los instrumentos empleados para la obtención de pun- tuaciones, los tests son los más utilizados, aunque no son los únicos (por ejemplo, pueden derivarse mediciones a partir de los juicios subjetivos de unas personas sobre ciertas ca- racterísticas de otras o establecer diseños observacionales para efectuar determinados re- gistros conductuales). Algunos antecedentes y eventos históricos pueden ayudarnos a comprender la identidad y el sentido de la Psicometría como disciplina: 1. La Psicofísica. Aunque algunos ancestros de la medición psicológica son previos, es en el ámbito de los estudios psicofísicos del siglo XIX donde surge el problema de la me- dición de las sensaciones, dentro del objetivo general de la Psicofísica establecido por 16 Medición en Ciencias Sociales y de la Salud Fechner como la ciencia exacta que estudia las relaciones funcionales entre el cuerpo y la mente. A partir de los trabajos de Weber, Fechner establece su famosa ley logarítmi- ca, S = k log E, para describir la relación matemática entre un continuo estimular, E, y la sensación producida en la persona, S. Los psicofísicos perciben enseguida la dificul- tad que representa la medición de hechos mentales (sensaciones) y proponen varios métodos indirectos para su medición. Realizaban experimentos donde incrementaban progresivamente la cantidad de estimulación (por ejemplo una señal acústica) y medían la sensación contando el número de veces que una persona percibía cambios en dicha estimulación desde el umbral absoluto (cuando el evaluado empieza a percibir el ruido) hasta el nivel de intensidad física presentado en un ensayo concreto. En el laboratorio de Leipzig, fundado por Wundt, algunos investigadores como Donders y Cattell emple- an el tiempo de reacción y la cantidad de eventos recordados como medida de rendi- miento en diversos procesos psicológicos (atención, memoria…). 2. El interés inicial por la medición de las diferencias individuales. A finales del siglo XIX Galton funda el famoso laboratorio antropométrico de Londres, cuna del estudio de las diferencias individuales, tratando de estudiar las distribuciones de diversas medi- ciones físicas y psicológicas de las personas, tal como habían hecho en Astronomía (entre ellos Gauss) para estudiar las diferencias individuales a la hora de estimar la ve- locidad del movimiento de los astros. Además de medidas antropométricas, Galton em- pleó determinados instrumentos para medir la fuerza física o la capacidadde discrimi- nación auditiva y visual; también le interesó medir los errores que cometían las perso- nas en ciertas tareas de estimación de longitudes o ángulos. Uno de sus colaboradores, J. M. Cattell, acuñará en 1890 el término “test mental” para referirse al rendimiento en diversas tareas sensoriomotoras en las que se cuantificaba el tiempo de reacción o las estimaciones subjetivas (por ejemplo de longitud, tiempo transcurrido, discriminación táctil, dolor...). 3. El interés inicial por la medición de capacidades cognitivas superiores. En los albores del siglo XX, el Ministerio Francés de Instrucción Pública propone a Binet que esta- blezca procedimientos para diferenciar a los niños con deficiencia mental (que no son capaces de conseguir los objetivos escolares) de los que no tienen problemas intelec- tuales. Binet y Simon propondrán tests de inteligencia para medir capacidades cogniti- vas superiores, como la comprensión del lenguaje, el razonamiento, la memoria o la capacidad de abstracción, mediante tareas no muy diferentes a las que se plantean en los actuales tests de inteligencia o de aptitudes intelectuales. Diseñaron tests de diferen- te dificultad y contenido para las distintas edades (entre 3 y 15 años), lo que se conside- ra que representa el primer intento de adaptar la dificultad de los tests al diferente nivel previsible de los evaluados. Por ejemplo, para los niños más pequeños propusieron ta- reas de reconocimiento del cuerpo humano, de memoria de series cortas de dígitos o de comparación de longitudes de líneas; para los mayores propusieron ítems sobre cons- trucción de frases con determinadas palabras, recuerdo de textos escritos, repeticiones de series largas de dígitos, resolución de problemas, etc. Acuñaron el concepto de edad mental, como la media del rendimiento en un test de los estudiantes de una edad real determinada. Unos años más tarde se adaptan los tests de Binet en Estados Unidos (Terman impulsa varias versiones) y comienzan a interpretarse normativamente las puntuaciones mediante el baremo cronológico de cociente intelectual (CI). La aplica- ción masiva de tests de inteligencia (y los correspondientes formatos de respuesta de opción múltiple) se inicia con la evaluación de los soldados estadounidenses que parti- Capítulo 1. Introducción 17 cipaban en la Primera Guerra Mundial. También en este contexto comienzan algunos esbozos de lo que serán los tests psicométricos de personalidad, cuyo arranque será más tardío debido en parte a que inicialmente la medición de la personalidad se reali- zaba con tests proyectivos (Rorschach propone el suyo en 1921). 4. La Teoría Clásica de los Tests (TCT). En los primeros tests de Inteligencia, las puntua- ciones de las personas se daban como verdaderos indicadores de su nivel de capacidad, error que no pasó desapercibido para algunos estadísticos. En las dos primeras décadas del siglo XX, Spearman propone un sencillo modelo matemático para conceptualizar el error de medida (E) asociado a las puntuaciones de los tests (la idea fundamental se re- fleja en el primer supuesto clásico ( EVX += ), así como procedimientos para estimar la fiabilidad de las puntuaciones (bajo la definición de tests paralelos) y las relaciones entre fiabilidad y longitud del test. Son los fundamentos de la TCT, que será completa- da progresivamente en las siguientes décadas por las aportaciones de otros autores, en- tre los que cabe destacar a Thurstone y Cronbach. Aunque hoy en día se sigue investi- gando sobre procedimientos y técnicas fundamentadas en la TCT, podría decirse que a mitad del siglo pasado están ya establecidos los pilares fundamentales del modelo clásico y de los métodos para estimar la fiabilidad de las puntuaciones. La vigencia de la TCT en la actualidad dice mucho del acierto de sus planteamientos y de su utilidad para la medición en Psicología. Muchos desarrollos del modelo clásico se aplican a puntuaciones que se obtienen con procedimientos diferentes a los tests. 5. No todo es error de medida: la validez de las puntuaciones. La enorme amplitud de aplicaciones de tests psicológicos hace necesario enfatizar los aspectos de la validez de las puntuaciones. Aunque pueden destacarse diferentes hitos históricos sobre el tema, nos referimos a 3 de ellos: a) Las puntuaciones en los tests de Cattel y en los tests de Binet se correlacionaron con las calificaciones escolares (por cierto, los segundos mos- traron mayor relación con el rendimiento académico), que es el inicio del estudio de evidencias de validez predictiva; ya Spearman había esbozado a principios de siglo la idea de que las diferentes medidas de capacidad cognitiva correlacionaban entre sí, lo que representa un primer esbozo de la búsqueda de evidencias sobre la estructura inter- na de los tests. b) Unas décadas después, hacia los años 30 y 40, los trabajos de Thurs- tone sobre análisis factorial proporcionarán la herramienta estadística para obtener este tipo de evidencias, aplicándose inicialmente en el marco del estudio de la inteligencia y de las aptitudes intelectuales que pueden diferenciarse. c) Siempre ha sido referencia en Psicometría un trabajo sobre validez de constructo de Cronbach y Meehl, publicado en 1955, en el que se amplían las estrategias de validación de las puntuaciones de los tests. 6. La Teoría de la Respuesta al Ítem (TRI). Si bien la TCT ha mantenido (y mantiene) mucha vigencia para analizar las propiedades de las mediciones que realizamos con tests, en los años 60 del siglo pasado surgen nuevos modelos matemáticos (Rasch, Lord y Birnbaum son los pioneros de la TRI) con la intención de superar algunos de los in- convenientes del modelo clásico. La idea fundamental común a los diversos modelos de TRI, tal como veremos, será enfatizar el estudio psicométrico de los ítems (y no tan- to del test) y realizar mediciones invariantes de las propiedades métricas de los ítems (que no dependan de las características particulares de las muestras donde se aplican) y de las estimaciones de los niveles de las personas (que no dependan de las característi- cas particulares de los ítems aplicados). La TRI va a permitir ampliar las estrategias de medición con tests y las formas de estudiar las propiedades psicométricas de las esti- 18 Medición en Ciencias Sociales y de la Salud maciones, tanto de los ítems como de las personas. Por ejemplo, progresivamente se emplearán desarrollos de TRI para la medición mediante Tests Adaptativos Informati- zados (TAI) o para el estudio del posible sesgo de los ítems y de los tests (si perjudican o no a un grupo concreto de personas). ¿Se ocupa sólo la Psicometría de las mediciones que se realizan con los tests? Claramente no. Aunque la Psicometría es fundamentalmente Teorías de los Tests, no lo es exclusiva- mente. Debe reconocerse que uno de los instrumentos que ha demostrado más utilidad pa- ra la medición psicológica (y por tanto para el psicólogo aplicado) son los tests1, tal como lo atestigua su cada vez más extenso uso en diferentes contextos de evaluación psicológi- ca y educativa, y el enorme bagaje de investigación que actualmente se realiza sobre las teorías de los tests y sus aplicaciones, fundamentalmente en relación a los modelos y técnicas derivados de la TRI. No disponemos de mejores instrumentos cuando se pretende inferir el nivel de las personas en variables latentes no directamente medibles y de las que desconocemos sus valores verdaderos, y seguramente esta peculiaridad (la necesidad de medir variables no directamente observables) es la responsable de que en Psicología exista una disciplina propia dedicada a la medición, lo que no es usual en otras disciplinas cientí- ficas. Sin embargo, es la Psicometría la que debe guiar también el análisis de la calidad de otros tipos de mediciones, por ejemplo, las derivadas de entrevistas, métodos observacio- nales o técnicas psicofisiológicas, incluso cuando no sea el objetivo prioritariorealizar in- ferencias sobre rasgos latentes sino describir comportamientos. Hemos dicho que Psicometría no es únicamente Teorías de los Tests. Desde la tradi- ción psicofísica se enfatizan procedimientos y técnicas de asignación numérica a objetos, eventos o personas empleando como instrumento de medida el propio juicio humano. Este núcleo de interés, denominado tradicionalmente como Escalamiento, fue evolucionando desde los objetivos establecidos por la Psicofísica a la medición de atributos estrictamente psicológicos carentes de correlatos físicos. En las primeras décadas del siglo XX, Thurs- tone propuso varios modelos y procedimientos estadísticos (sus famosas leyes del juicio comparativo y categórico) para, a partir de ciertos juicios subjetivos de un grupo de per- sonas, ordenar cuantitativamente en una escala unidimensional, por ejemplo, la gravedad de determinados delitos o el nivel actitudinal de las personas sobre un tema determinado. Con el tiempo, autores como Torgerson, Shepard y Kruskal propondrán modelos de esca- lamiento multidimensional, también basados en estrategias de recogida de datos sobre jui- cios de las personas, donde un determinado estímulo o persona tiene asignaciones numéri- cas en diversas dimensiones. En español, los libros de Arce (1993, 1994) y Real (2001) describen estos y otros modelos de escalamiento, así como el modo de aplicarlos con dife- rentes programas informáticos. Dados los problemas peculiares que tenemos para la medición de atributos psicológi- cos, la Psicometría se ha planteado también, desde las denominadas como Teorías de la Medición, lo que realmente representa medir y las propiedades de los números que asig- namos a las personas o a los estímulos en determinados atributos psicológicos. Se han propuesto diferentes teorías para establecer los requisitos lógicos y matemáticos que de- ben cumplirse para que las asignaciones numéricas representen realmente a los atributos 1 A veces se emplea, en vez de test, otros términos como cuestionario, escala, inventario o examen, para enfati- zar que con el instrumento se pretende medir atributos concretos (por ejemplo, personalidad, actitudes, conduc- tas o conocimientos). Capítulo 1. Introducción 19 psicológicos. La que más relevancia aplicada ha tenido ha sido la Teoría de las escalas de medida de Stevens (definiendo las propiedades y las transformaciones admisibles asocia- das a los niveles de medida nominal, ordinal, de intervalo y de razón), si bien ha sido fuer- temente criticada desde otras perspectivas (teorías representacional, de medición conjunta, operacionalista, etc.). Una introducción a estos temas puede consultarse en Ponsoda (2008); los planteamientos teóricos y los principales puntos de controversia, a veces im- portantes (incluso hasta poner en duda la posibilidad de medición de lo psicológico), están bien descritos en los libros de Michell (1999) y Borsboom (2005). Tipos de tests y ámbitos de aplicación Consideramos genéricamente un test como un procedimiento estandarizado que sirve para muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de indi- cadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable latente. A partir de las respuestas correctas a unos ítems de analogías verbales y sinónimos debe- mos inferir la aptitud verbal de las personas; tras manifestar el grado de acuerdo con de- terminadas afirmaciones debemos inferir el nivel de actitudes xenófobas; después de res- ponder a un conjunto de ítems sobre aspectos gramaticales del inglés debemos inferir el nivel de comprensión escrita en el idioma. Para hablar propiamente de test, se han de cumplir tres condiciones. En primer lugar, los ítems han de tener propiedades psicométricas conocidas y se han de haber elaborado siguiendo las oportunas normas de construcción. No siempre es fácil distinguir a simple vista cuándo estamos ante un test o ante algo que sólo lo es en apariencia, por no haberse elaborado adecuadamente. En segundo lugar, un test requiere una administración contro- lada. Se han de seguir las instrucciones, las condiciones de administración y de puntua- ción establecidas en el proceso de construcción del test. En tercer lugar, el test debe pre- tender evaluar a una persona en un atributo de interés. A veces se confunden los tests con otros instrumentos, como las encuestas, cuya finalidad no es puntuar a cada persona que responde, sino saber, por ejemplo, las tendencias de voto a los distintos partidos. Son muy diversos los tipos de atributos psicológicos a medir, y por tanto los tipos de tests y los formatos de ítems de que disponemos en Psicología. Hace unos años que varios historiadores de la Psicología Española (Quintana, Albert y López-Martín, 2008) rescata- ron y editaron unos “Apuntes para un curso de Psicología aplicada a la selección profesio- nal”, elaborados en 1924 por el doctor Rodrigo Lavín como material docente de su cátedra de Psicología Experimental. Esta auténtica joya casi centenaria, de recomendable lectura, representa una de las primeras veces que en España se habla sistemáticamente de los tipos y usos de los tests; decía ya entonces el autor que “Como la observación nos da muy po- cos datos utilizables y la conversación o entrevista no basta para descubrir las habilida- des de los solicitantes, es necesario recurrir a los tests. Se puede decir que estamos en el comienzo de los tests y, a pesar de eso, hay un desarrollo extraordinario de ellos; ello in- dica lo que sucederá andando el tiempo”. Hablaba el autor de que existían entonces tests de capacidades o habilidades, tanto generales como específicas, y que en la selección pro- fesional eran de especial importancia los tests de fuerza, de resistencia a la fatiga, de con- trol motor y de capacidades mentales (atención, sensación y percepción, imaginación e in- teligencia general). Seguramente influenciado por los procedimientos de medida de 20 Medición en Ciencias Sociales y de la Salud Wundt, de los psicofísicos y de Galton, Rodrigo Lavín describía con detalle algunos apa- ratos mecánicos y ciertos procedimientos de puntuación que podían emplearse para la me- dición de competencias y habilidades, así como algunas tareas de papel y lápiz que podían plantearse para medir la capacidad imaginativa o la inteligencia general (ya entonces esta- ba al tanto de los tests de Binet y de los empleados en el ejército estadounidense). Transcurrido cierto tiempo, en las primeras páginas de sus imperecederos apuntes so- bre “Introducción a la Teoría de los Tests” (una parte ha sido reeditada en Psicothema ba- jo el título de “Los tests y el análisis factorial” en 1996), don Mariano Yela recordaba la connotación etimológica de la palabra (testis, testigo, testimonio) y realizaba una clasifi- cación de los tests atendiendo al método general seguido (tests psicométricos vs. tests proyectivos), a su fin (cualitativos vs. cuantitativos), a la relación con el aplicador (perso- nales vs. impersonales), al modo de aplicación (individuales vs. colectivos), al material que se emplea (impresos vs. manipulativos) y, fundamentalmente, atendiendo al tipo de atributo que miden (diferenciando diversos tests de rendimiento, de aptitud o de persona- lidad). Actualmente las cosas han cambiado bastante en cuanto a los tipos de tests que se ela- boran en Psicología para la medición de atributos psicológicos, y por tanto, en relación a los recursos que un psicólogo aplicado puede emplear para su medición. A las tradiciona- les categorías del profesor Yela podrían proponerse otras, pero habría que añadir al menos dos fundamentales que tuvieran en cuenta el medio de aplicación (tests de lápiz y papel vs. tests informatizados) y el modelo en que se sustentan los análisis psicométricos (tests analizados desde la Teoría Clásica vs. desde la Teoría de la Respuesta al Ítem). Tratando de realizar unresumen sobre los diferentes tipos de tests de que disponemos en la actuali- dad en Psicología, atendiendo a varios criterios generales de clasificación, podríamos es- tablecer los siguientes: 1. Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal como se hace en los tests de personalidad o en las escalas de actitudes). 2. Según el modelo psicométrico desde el que se analizan las propiedades de los ítems y de las puntuaciones de los evaluados, hablamos de tests analizados desde la TCT y de tests analizados desde la TRI. Ambos modelos pueden aplicarse a las puntuaciones de un mismo test. 3. Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests informa- tizados. Dentro de estos últimos se distingue entre tests fijos informatizados (aquellos que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos que se eligen de un banco determinado para optimizar ciertas propiedades psicométricas en un grupo de personas específico) y tests adaptativos informatizados (los que presentan di- ferentes ítems del banco a los diferentes evaluados, dependiendo del nivel progresivo que vayan manifestando en la prueba). 4. Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests referidos al criterio (la interpretación se refiere al rendimiento individual conseguido por una persona en relación a unos criterios o dominios establecidos de antemano). Ca- be interpretar desde ambas perspectivas el rendimiento en el mismo test. Capítulo 1. Introducción 21 5. Según el formato de respuesta establecido, diferenciamos distintos tipos de tests, por ejemplo: tests de respuesta construida (caso de las preguntas abiertas tipo ensayo), tests de respuesta seleccionada (son tests de rendimiento óptimo con varias opciones de res- puesta, normalmente con una sola opción correcta), tests de categorías ordenadas (por ejemplo con varias categorías para manifestar el grado de acuerdo con determinadas sentencias) o tests de respuesta binaria o elección forzosa (típicos, como veremos, de los tests ipsativos o de ciertos tests de personalidad). Los tests informatizados permiten formatos de ítems muy novedosos, así como procedimientos de respuesta y de puntua- ción singulares, empleando los recursos que tienen los ordenadores. 6. Según el marco teórico psicológico de referencia hablamos, por ejemplo, de tests psi- cométricos, proyectivos, situacionales, conductuales o basados en modelos cognitivos. 7. Según el establecimiento, o no, de tiempo límite para la realización de la prueba, hablamos, respectivamente, de tests de velocidad o tests de potencia. Son también muy variados los usos que se hacen de las puntuaciones en los tests. Navas (2001) recoge 6 funciones de los tests: diagnóstico (detección de problemas en el ámbito clínico o en el escolar), selección (de los trabajadores con el perfil más adecuado al puesto de trabajo), clasificación (por ejemplo, determinación del nivel de inglés para ubicar al es- tudiante en el curso adecuado), certificación (acreditación de que un profesional tiene la cualificación adecuada), consejo (para facilitar la decisión sobre los estudios a emprender, por ejemplo cuando interesa medir la prevalencia de enfermedades o los logros consegui- dos con programas de intervención psicosocial); y descripción e información (informan de lo que un alumno sabe, del rendimiento de un curso, profesor, colegio, comunidad, país… en relación a los demás). Los tests se emplean en la práctica totalidad de las especialidades, y por tanto en los diversos ámbitos de aplicación de la Psicología y de otras disciplinas afines. Medir lo psi- cológico representa muchas veces la difícil tarea de medir lo inobservable, objetivo en el que se ha avanzado mucho en las últimas décadas por varias razones fundamentales. En primer lugar, porque cada vez es mayor la demanda social, como así lo atestiguan los re- sultados de la encuesta realizada por Muñiz y Fernández Hermida (2000) entre varios mi- les de psicólogos colegiados dedicados a las diversas especialidades. Cada vez resulta más usual emplear tests en contextos de evaluación y tratamiento psicológicos, en procesos de evaluación psicopedagógica, de intervención psicosocial o de selección de personal. Cada vez son más importantes las consecuencias que para las personas y las organizaciones tie- nen las puntuaciones en los tests. Paso a paso, y aunque todavía con cierta lejanía respecto a otros países, tanto los profesionales de la Psicología como otros responsables de organi- zaciones públicas y privadas confían cada vez más en la utilidad de los tests para conse- guir ciertos objetivos aplicados. No es raro este incremento en el uso de los tests en una sociedad cada vez más sensible a la evaluación de los resultados de las intervenciones y a la acreditación de competencias individuales e institucionales. En segundo lugar, y también en relación con esta mayor sensibilidad social, se ha am- pliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace unos años las aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o pruebas de personalidad, cada vez existen más requerimientos profesionales (y más es- pecíficos) sobre los rasgos, competencias o comportamientos que deben medirse. Además, la pluralidad epistemológica que caracteriza a nuestra disciplina y a nuestra profesión ha 22 Medición en Ciencias Sociales y de la Salud impulsado la creación de tests desde posiciones teóricas diferentes y cada vez más fieles a los modelos teóricos en que se sustentan. En tercer lugar, porque cada vez es mayor la exigencia psicométrica a la que somete- mos a las puntuaciones de los tests. El ineludible requisito de “medir bien” (que podría- mos concretarlo en los tradicionales tópicos de fiabilidad y validez de las puntuaciones) está impulsando el desarrollo de nuevos tipos de tests y nuevos modelos psicométricos pa- ra estudiar las garantías que ofrecen sus aplicaciones, entre los que destacan los modelos de TRI. Cada vez son más los profesionales que no aplican los tests por mera rutina, sino que exigen buenos tests para objetivos específicos, es decir, los que han demostrado su utilidad para los fines que tienen planteados. Se ha evolucionado mucho desde la mera adaptación de tests elaborados originalmente en otro idioma y para otra cultura (a veces sin traspasar el necesario rubicón psicométrico), al uso de aquellos que manifiestan ga- rantías psicométricas aceptables, sean diseñados originalmente o adaptados de unas cultu- ras a otras. En cuarto lugar, porque los avances tecnológicos, fundamentalmente los informáticos, ayudan a medir mejor (de forma más válida y fiable) ciertos atributos y a incrementar la eficiencia de las aplicaciones. 2 Construcción de tests y análisis de ítems Un test está formado por una serie de ítems (o elementos, reactivos, preguntas, cuestio- nes,…) a los que cada individuo debe responder. Después de cuantificar las respuestas de una persona a los ítems del test, se pretende asignar una puntuación (a veces, varias) a esa persona respecto al constructo o atributo que se pretende medir. La puntuación asignada debería indicar su grado o nivel en el atributo, constructo o rasgo a evaluar. Vimos en el capítulo precedente que en las Ciencias Sociales y de la Salud es frecuente recurrir a indi- cadores para obtener la posición de la persona en un constructo. Se puede, por ejemplo, inferir su posición social tras preguntarle dónde vive, cómo es su casa, cuánto gana… Pa-ra la medida de muchos constructos utilizamos también la medición mediante indicadores (Navas, 2001). Los ítems de un test de Responsabilidad, por ejemplo, serán los indicado- res que nos permitan llegar al nivel de la persona en la variable latente Responsabilidad, a partir de un conjunto de respuestas. En este tema vamos a estudiar cómo se construyen los tests y los indicadores de cali- dad psicométrica de los ítems. En capítulos sucesivos estudiaremos los indicadores de ca- lidad del test como un todo. El primer paso para la construcción del test es detallar minuciosamente los objetivos que se pretenden conseguir con su aplicación y las características fundamentales que debe tener. Cuando hayamos especificado ambas cosas, tendremos que decidir el tipo de ítem que resulta más apropiado. Estudiaremos los formatos más comunes y las normas de re- dacción que se recomienda seguir. En el proceso de construcción de un test hay que elaborar más ítems de los que pen- samos aplicar, con la idea de someterlos a un proceso de control de calidad que nos permi- ta quedarnos con los más apropiados y conseguir así el mejor test posible. El proceso de control de calidad tiene dos partes: una cualitativa y otra cuantitativa. La cualitativa pre- 24 Medición en Ciencias Sociales y de la Salud cede a la administración de los ítems y requiere que varios expertos comprueben que se han seguido correctamente todos los pasos en la construcción del test. Estudiaremos también cómo se convierten en valores numéricos las respuestas dadas a los ítems. El siguiente paso del proceso es la aplicación piloto del test provisional (es de- cir, del test formado a partir de los ítems que se consideran adecuados tras el análisis cua- litativo). Tras la administración piloto, se procede al estudio cuantitativo de las caracterís- ticas de los ítems mediante un proceso denominado como análisis de ítems. A continua- ción, hay que decidir qué ítems concretos formarán el test definitivo. Se llama ensamblaje del test al proceso por el que se forma el test a partir de los ítems disponibles que han su- perado los controles de calidad. Una ventaja de seguir un proceso sistemático es que se va a conseguir un test similar al que hubiesen obtenido otros expertos, e incluso a un segundo test que hiciéramos noso- tros, si éste fuera el interés. El proceso de construcción requiere además que se haya pen- sado en todos los aspectos que afectan a la calidad del test resultante, lo que previsible- mente ayudará a conseguir un mejor resultado final. Diseño del test Lo primero a especificar es el constructo, atributo o característica psicológica a evaluar y el propósito del test. Hay que dar respuestas a tres preguntas (Navas, 2001): ¿Qué se va a medir con el test?, ¿a quién se va a medir? y ¿qué uso se piensa hacer de las puntuacio- nes? Podemos querer evaluar el nivel de Autoestima, Motivación, Inteligencia, el nivel de conocimientos en cierta materia, la calidad autopercibida del sueño, etc. Las teorías sobre los constructos suponen siempre un punto de referencia importante. Ciertamente son mu- chos los constructos que podemos querer evaluar, pero no son menos los propósitos de la evaluación. Por ejemplo, en un test educativo, Bloom, Hastings y Madaus (1971) han pro- puesto tres posibles propósitos: a) la evaluación inicial para diagnosticar puntos fuertes y débiles y ubicar a los estudiantes en el curso adecuado, b) la evaluación formativa para va- lorar el progreso en la instrucción y decidir qué y cómo enseñarles, y c) la evaluación su- mativa para determinar el nivel de conocimientos adquirido en un curso por cada estu- diante. El propósito del test condiciona qué tipos de ítems pueden ser más apropiados. Por ejemplo, un test para la evaluación del dominio del inglés, a aplicar en las pruebas de ac- ceso a la universidad, puede requerir ciertos tipos de ítems (por ejemplo, que evalúen la comprensión de textos científicos), distintos de los que pudiera utilizar un test a aplicar en procesos selectivos y cuyo propósito sea excluir del proceso a los candidatos que no al- cancen un nivel mínimo prefijado de comprensión oral del idioma. Hay que atender a varias características de la población a evaluar, como la edad, el ni- vel educativo, la familiaridad con el medio de administración (por ejemplo, con el orde- nador cuando se vaya a construir un test informatizado), la eventual presencia de discapa- cidades y de diferencias en el dominio del lenguaje. En estos dos últimos casos, habría que considerar la política de acomodaciones a aplicar y su equivalencia (comprobar que la puntuación en el test corresponde al nivel en el constructo, sin ventaja o desventaja atri- buible a las acomodaciones). La acomodación más frecuente consiste en modificar el tiempo de administración, de manera que un evaluado con discapacidad motora, por Capítulo 2. Construcción de tests y análisis de ítems 25 ejemplo, alcance la misma puntuación que otro sin discapacidad que tenga su mismo nivel en el constructo. A veces se preparan cuadernillos e instrucciones en distintos idiomas, o en tamaños de letra y formato diferentes. Otras veces se cambia el modo de administra- ción, que puede pasar de colectivo a individual, o se leen o interpretan los ítems al evalua- do para facilitarle su comprensión. Schmeiser y Welch (2006) recomiendan prestar atención a lo que llaman restricciones administrativas. Las hay de distinto tipo: de tiempo, de coste, de medios (como aulas, or- denadores o vigilantes disponibles), etc. Los medios disponibles pueden condicionar el número de tests a construir si se quiere preservar la seguridad de la prueba. Por ejemplo, en contextos de evaluación educativa, la escasez de aulas o de vigilantes podría aconsejar la construcción de varios exámenes equivalentes, en vez de un único examen. De todas las restricciones, las más importantes son las relacionadas con el tiempo de administración. Dependiendo de la trascendencia del test (no tiene la misma un examen de una parte de la materia que uno con el que se consigue la acreditación para trabajar como médico, por ejemplo), de la edad de los evaluados o del tipo de ítems, será necesario un test con unas u otras características psicométricas, más largo o más corto y que requiera más o menos tiempo de aplicación. La longitud óptima del test es aquella que, siendo aceptable para los evaluados, proporciona puntuaciones con la calidad necesaria para justificar el uso previs- to o las decisiones que se toman en el proceso de evaluación. Vimos en el capítulo precedente que hay tests referidos a normas y referidos al crite- rio. El tipo de test también condiciona la prueba concreta que finalmente construyamos. También habrá que decidir si finalmente se va a dar a cada evaluado una o más puntua- ciones, y, en el caso de sólo una, cómo contribuyen a ella las diferentes partes del test. Además del propósito y de todo lo expuesto anteriormente, conviene construir la tabla de especificaciones, donde se detallan los contenidos del test, las destrezas cognitivas a evaluar y el porcentaje de ítems que debe corresponder a cada celdilla que resulta de cru- zar los contenidos y las destrezas. En evaluación educativa, hay que analizar el programa del curso, preguntar a los profesores qué explican y qué tiempo dedican a cada parte, hacer una revisión bibliográfica, etc. En selección de personal, se han propuesto técnicas propias, como el análisis de puestos o la técnica de los incidentes críticos, que facilitan la especificación de los contenidos y destrezas. La Tabla 2.1 (adaptada de la Tabla 9.2 de Schmeiser y Welch, 2006, p. 317) muestra la estructura de una tabla de especificaciones de un examen de Asesoramiento Psicológico. Incluye dos destrezas: Comprensión (de hechos, razones, relaciones, principios, fórmulas, gráficos y detección de errores en los procedimientos y en la práctica) y Aplicación (habi- lidad para seleccionary aplicar principios y reglas, analizar e interpretar situaciones, ex- traer conclusiones y diagnosticar necesidades y problemas). La tabla muestra que el 42% de las preguntas del test evaluarán la destreza Compren- sión frente al resto (58%) que evaluará Aplicación. En cuanto a contenidos, hay partes menos importantes, como Fundamentos del asesoramiento (un 6% de los contenidos), y otras más importantes, como Asesoramiento individual (30%). La tabla debe detallar los contenidos de cada parte. Por ejemplo, dentro de la parte de Fundamentos del asesora- miento, los modelos de asesoramiento representan el 1% del total del test y se va a evaluar en ellos exclusivamente la destreza Comprensión. 26 Medición en Ciencias Sociales y de la Salud Tabla 2.1. Ejemplo de tabla de especificaciones Peso del contenido Peso de las destrezas cognitivas Comprensión Aplicación Fundamentos del asesoramiento 6% 4% 2% Modelos de asesoramiento 1% 1% 0% Propósitos y objetivos del asesora- miento 2% 1% 1% Consideraciones éticas y legales 2% 1% 1% El equipo de asesoramiento 1% 1% 0% Asesoramiento individual 30% 10% 20% … Asesoramiento grupal 10% 5% 5% … Desarrollo de carreras 20% 13% 7% … Total del test 100% 42% 58% Hay que detallar también las partes del constructo a evaluar cuando elaboremos un test en contextos no educativos. Por ejemplo, si queremos medir Dogmatismo, debemos estable- cer los diversos componentes o manifestaciones del mismo: dogmatismo ante la política, ante la educación de los hijos, ante la religión, en las relaciones familiares, etc. En un test de calidad de vida en diabéticos, el test deberá evaluar los determinantes de la calidad de vida en la población general (la situación familiar, social, laboral…) y, además, los es- pecíficos de la población de diabéticos a la que el test va dirigido (tolerancia al tratamien- to, temor ante la evolución de la enfermedad…). Construcción provisional del test El siguiente paso para la construcción del test es la elaboración de los ítems. Se suele re- comendar que al menos se elaboren el doble de ítems de los que se piensa que debiera te- ner el test. En los apartados sucesivos veremos que algunos ítems serán descartados por no satisfacer los controles de calidad. Al haber elaborado más ítems de los necesarios po- dremos quedarnos con los mejores. Debemos conseguir un conjunto de ítems ante los que quepa esperar respuestas distintas de los que tengan alto y bajo nivel en el constructo que queremos medir. Si, por ejemplo, pretendemos evaluar la actitud ante la inmigración, un ítem podría requerir al evaluado informar de si está o no de acuerdo con la frase: La inmi- gración trae más ventajas que inconvenientes. Cabe esperar que las personas con actitud positiva estén de acuerdo y las personas con actitud negativa, en desacuerdo. Si queremos medir el dominio de las ecuaciones de primer grado, podríamos proponer como ítem el si- guiente: Obtenga el valor de x en la ecuación 2x – 4 = 2. Los que dominen dichas ecua- ciones encontrarán la solución correcta y los que no, no. El rendimiento en ambos ítems depende del nivel de dominio del constructo que se quiere evaluar. Capítulo 2. Construcción de tests y análisis de ítems 27 Tipos y formatos de ítems Como hemos visto, podemos hablar de tests de rendimiento óptimo y de rendimiento típi- co. En uno de rendimiento óptimo quien responde pretende obtener la máxima puntuación posible. Así ocurre ante un examen, una prueba de aptitudes, un test de inteligencia, etc. En un test de rendimiento típico quien responde debe hacerlo de forma que su puntuación informe de cómo es o de su posición personal sobre lo que se pregunta. En este caso, no tiene sentido hablar de rendimiento máximo. Los tests de rendimiento óptimo y típico di- fieren en las siguientes 3 características: 1. El tiempo de administración del test. En los tests de rendimiento óptimo, hay que de- terminarlo con mucho cuidado. Vimos en el capítulo precedente que se distingue entre tests de velocidad y de potencia. En los primeros se fija el tiempo de administración de forma que sea muy difícil resolver todos los ítems. Con frecuencia la tarea es muy sen- cilla (por ejemplo, sumas de un solo dígito) y se trata de ver cuántas sumas es capaz de hacer cada persona en el tiempo disponible. En los tests de potencia, por el contrario, se suele dar tiempo suficiente para que sea posible dar una respuesta meditada a cada ítem. En los de velocidad, lo que importa es saber cuántos ítems es capaz de hacer el evaluado; mientras que en los de potencia se presta especial atención a las característi- cas de los ítems que hace. En la práctica, la mayoría de los tests de rendimiento óptimo son de potencia, si bien se fija el tiempo de administración de modo que no sobre de- masiado. Eso hace que el test pueda resultar parcialmente de velocidad para los evalua- dos más lentos. Para considerar a una prueba como un test de potencia suele establecer- se que una clara mayoría haya podido dar una respuesta meditada a un 90% o más de los ítems (Schmeiser y Welch, 2006). En los tests de rendimiento típico el tiempo de aplicación tiene escasa o nula relevan- cia. Muchos tests de personalidad, por ejemplo, no tienen un tiempo límite de aplica- ción y se permite que cada evaluado responda a su ritmo. Se dan a veces instrucciones del tipo “responda sin pensar demasiado” con la idea de obtener la primera respuesta a los ítems, no para indicar que el tiempo de administración es limitado. 2. Tratamiento de las preguntas dejadas sin contestar. En un test de rendimiento óptimo, cuando no se responde a un ítem, caben dos posibilidades. Puede ser un ítem que el evaluado no ha tenido tiempo de leer (en lo sucesivo, ítem no alcanzado) o puede que no haya querido dar la respuesta tras haberlo leído (omisión). Si el test es (puro) de ve- locidad, cabe suponer que los ítems sin respuesta son ítems no alcanzados. Si fuese (puro) de potencia, cabe suponer que ha tenido tiempo suficiente para estudiar todos los ítems y que ha omitido deliberadamente la respuesta, y son, por tanto, omisiones. Por lo general, como no suele haber tests puros, lo que se suele hacer es considerar como ítems no alcanzados por un evaluado los que siguen a su última respuesta, y como omi- siones los no respondidos que preceden a su última respuesta. Tal proceder no está exento de cierta lógica, pero choca con las estrategias de respuestas de algunos evalua- dos. Por ejemplo, ciertas personas hacen una lectura rápida del test y responden a los ítems que les resultan fáciles. Después, pasan a responder, uno a uno, despacio, hasta donde lleguen. Con esta estrategia, los ítems dejados sin responder, previos al último ítem respondido en la primera pasada rápida, van a ser considerados como omisiones cuando han podido no ser vistos detenidamente (Schmeiser y Welch, 2006). 28 Medición en Ciencias Sociales y de la Salud En los tests de rendimiento típico las no respuestas tienen otro significado. Suelen indi- car que el ítem no se entiende o hay desinterés y falta de motivación en el evaluado. Algunos tests dan pautas sobre qué hacer con las no respuestas. Por ejemplo, en el test de los cinco grandes factores de la personalidad NEO-FFI (Costa y McCrae, 1999) se recomienda la no calificación de quien tenga más de 10 ítems sin respuesta en los 60 ítems del test, y se dan pautas concretas de cómo puntuar los ítems dejados sin respues- ta cuando son menos de 10. 3. Respuestas al azar y sesgos de respuesta. En los tests de rendimiento óptimo con ítems de opción múltiple (en los que se ha de elegir una respuesta entre varias) es posible ob- tener aciertos, respondiendo al azar, no sabiendo la respuesta correcta. Al final del capítulo estudiaremos distintas estrategias y soluciones a este problema. En los tests de rendimiento típico no caben las respuestas al azar si se está respondiendo al test conse- riedad, pero sí podemos encontrar sesgos de respuesta, como la tendencia a utilizar las categorías extremas, la aquiescencia y la deseabilidad social (Guilford, 1954). En los ítems en los que el evaluado ha de emitir su respuesta eligiendo una categoría, nos po- demos encontrar que dos evaluados, de nivel similar de rasgo, difieran en su tendencia al uso de las categorías extremas; uno podría utilizarlas en casi todas sus respuestas, mientras que otro podría no utilizarlas apenas. La aquiescencia es la tendencia a res- ponder afirmativa o negativamente a un ítem independientemente de su contenido. Para evitar este sesgo de respuesta resulta eficaz la redacción de ítems directos e inversos; en los primeros, se espera una respuesta afirmativa de los que tengan alto nivel de ras- go, mientras que en los segundos se espera negativa. El problema de la deseabilidad social y del falseamiento de las respuestas en los tests, dada su importancia en determi- nados contextos de evaluación psicológica, se considera con detalle en el capítulo 15 de este libro. Formatos de ítems en tests de rendimiento óptimo1 En los tests de rendimiento óptimo pueden elaborarse preguntas abiertas (formato de res- puesta construida) o preguntas con opciones preestablecidas (formato de respuesta selec- cionada). Los dos formatos más comunes de los ítems con respuesta seleccionada son los ítems de verdadero-falso y los de opción múltiple. a) Verdadero-falso: Se muestran dos alternativas y se ha de elegir la que se considera co- rrecta. Por ejemplo, un ítem de un test de Historia Moderna podría ser: Pi y Margall fue presidente de la 1ª República Española. V( ) F( ) 1 En este capítulo expondremos los tipos de ítems de respuesta de uso más frecuente, tanto en tests de rendi- miento óptimo como típico. Sin embargo, conviene advertir que en los últimos años han surgido formatos inno- vadores de ítems, por ejemplo los que utilizan las posibilidades del ordenador, y que permiten evaluar construc- tos que los ítems tradicionales de lápiz y papel no pueden evaluar o no lo hacen con la misma eficacia (Olea, Abad y Barrada, 2010). En el capítulo 15 se mostrarán ejemplos de estos nuevos formatos. Capítulo 2. Construcción de tests y análisis de ítems 29 b) Opción múltiple. Un ítem de opción múltiple consta de un enunciado y de tres o más opciones de respuesta, de las que sólo una es correcta. Por ejemplo, un ítem de un test de aptitud verbal puede ser: Coche es a volante, como bicicleta es a... a) Pedal b) Sillín c) Manillar d) Cambio Hay también varios tipos de ítems de respuesta construida (Navas, 2001). Los hay que re- quieren sólo completar una frase (Las provincias que integran la Comunidad Autónoma de Extremadura son…..); otros requieren una respuesta más extensa, aunque breve, como responder en un párrafo de pocas líneas; o mucho más extensa, como hacer una redacción o construir una maqueta. Un ítem que requiere una respuesta corta sería Exponga en no más de 10 líneas las dos principales características de la pintura de Goya, y una extensa Detalle la influencia de los escritores latinoamericanos en la novela española del siglo XX. Otro tipo de examen abierto es el portafolio, en el que el evaluado presenta a evaluar un conjunto de trabajos que ha realizado y que considera buenos ejemplos del nivel de aprendizaje que ha alcanzado. En las décadas 80-90 hubo mucho debate en contextos de evaluación educativa sobre si eran mejor los ítems de respuesta construida o seleccionada. Los partidarios de la res- puesta construida decían que sólo este formato permite la evaluación de procesos superio- res y que la respuesta seleccionada tiene el problema de los aciertos por azar. Los partida- rios de la respuesta seleccionada enfatizaban que este formato muestrea mejor los conte- nidos, pues pueden hacerse más preguntas, y que la corrección es subjetiva y más costosa en los ítems de respuesta construida. Estudios posteriores han puesto de manifiesto que las respuestas a los ítems abiertos se pueden cuantificar de forma fiable, que con ambos tipos de ítems se puede evaluar procesos de aprendizaje de alto nivel y que ambos formatos proporcionan resultados altamente correlacionados cuando se mide el mismo dominio. Algunos autores enfatizan que no resultan formatos redundantes, pues se suelen medir destrezas distintas (Schmeiser y Welch, 2006). Por tanto, ambos tipos de ítems más que ser excluyentes son complementarios; unos son más apropiados que otros según sean los objetivos concretos del test (Martínez, Moreno y Muñiz, 2005). Una exposición más detallada de otros formatos alternativos para ítems de respuesta construida y para ítems de respuesta seleccionada puede consultarse en la página web http://www.uam.es/docencia/ace/ y en Martínez et al. (2005). Formatos de ítems en tests de rendimiento típico Los formatos de respuesta seleccionada más frecuentes en los tests de rendimiento típico son los de opción binaria y categorías ordenadas: a) Opción binaria: La persona debe elegir entre dos opciones antagónicas: por ejemplo, ante un determinado enunciado, manifestar si está de acuerdo o no, o decir si describe su 30 Medición en Ciencias Sociales y de la Salud modo usual de comportarse. Un ítem de un cuestionario sobre la actitud de los padres hacia los profesores de sus hijos puede ser: En realidad, los profesores hacen poco más que cuidar de nuestros hijos cuando trabajamos. Desacuerdo ( ) Acuerdo ( ) b) Categorías ordenadas. Se establece un continuo ordinal de más de dos categorías, que permite a la persona matizar mejor su respuesta. Puede o no incluir una categoría central para indicar la posición intermedia de la escala de respuesta. Por ejemplo, un ítem sobre la actitud de los adolescentes hacia el consumo de drogas podría ser el que sigue: Las drogas pueden realmente resolver problemas de uno mismo. ( ) Muy en desacuerdo ( ) Bastante en desacuerdo ( ) Neutral ( ) Bastante de acuerdo ( ) Muy de acuerdo En el ítem precedente Muy en desacuerdo, Bastante en desacuerdo… serían las etiquetas de las cinco categorías. A veces, se establecen sólo las dos etiquetas extremas del conti- nuo, dejando señaladas las restantes categorías, como muestra la siguiente escala de res- puesta: (Muy en desacuerdo)__ __ __ __ __ __ __ (Muy de acuerdo) Hay varios tipos de escalas de respuestas (Morales, Urosa y Blanco, 2003). Las más co- munes son la de grado de acuerdo y la de frecuencia. En la primera, llamada también es- cala tipo Likert, se ha de manifestar el grado de acuerdo con la frase, mientras que en la segunda se ha de indicar la frecuencia del comportamiento descrito en el enunciado. En otras escalas de respuesta se ha de indicar la importancia que se da a lo que indica la frase o cómo de correcta es la descripción que la frase hace de quien responde. Los dos ítems que siguen utilizan la escala de grado de acuerdo y la de frecuencia, respectivamente. Me encanta Madrid. En desacuerdo Indiferente De acuerdo Cuido mi alimentación. Nunca Algunas veces Muchas veces Siempre Tres asuntos relevantes en relación a los ítems tipo Likert son el número de categorías de la escala de respuesta, la presencia o no de categoría central y la elección de las etiquetas. Se suele recomendar que el número de categorías sea 5 o un valor próximo (Hernán- dez, Muñiz y García-Cueto, 2000; Morales et al., 2003). No se obtienen mejores tests cuando se utilizan escalas de respuestas con muchas más categorías, pues se producen in- Capítulo 2. Construcción de tests y análisis de ítems 31 consistencias en las respuestas. La probabilidad de que una persona elija la misma cate- goría ante una misma frase, supuesto que no haya cambiado su nivel de rasgo, será mayor si ha de responder con una escala de 5 categorías que con una de20, de ahí que, cuando son muchas las categorías disponibles, se incremente la inconsistencia. Con sólo dos o tres categorías se puede dificultar la manifestación del auténtico nivel de rasgo. Por ejemplo, dos personas, una que esté muy de acuerdo y otra que esté sólo de acuerdo, tendrán que utilizar la misma categoría si la escala es En desacuerdo/No sé/ De acuerdo. En poblacio- nes especiales, como discapacitados o personas mayores, puede resultar más adecuada una escala de pocas categorías. En las escalas de grado de acuerdo, no está del todo claro si es mejor fijar un número par o impar de categorías. Hay razones a favor y en contra de la categoría central (que puede etiquetarse como indiferente, neutral, dudo, no sé…). Su inclusión permite que al- guien que realmente no está de acuerdo ni en desacuerdo con la frase pueda indicarlo. En un ítem sin categoría central tendría que manifestarse como ligeramente de acuerdo o en desacuerdo, cuando su posición ante el enunciado no es ésa. Los partidarios de eliminar la categoría central argumentan que con demasiada frecuencia dicha categoría termina sien- do la elegida por los que responden con poco cuidado o de forma poco sincera. Los parti- darios de un número par de categorías suelen serlo también de un número más alto de ca- tegorías, de forma que se pueda entender que el ítem tiene en realidad dos categorías cen- trales (ligeramente de acuerdo y ligeramente en desacuerdo). La investigación muestra que los indicadores psicométricos de los ítems no dependen de la existencia o no de cate- goría central cuando el número de categorías es mayor de tres (Morales et al., 2003). Por último, se han propuesto muchas tandas de etiquetas. Morales et al. (2003, pp. 55- 58) muestran varias. Las etiquetas han de abarcar todo el continuo (de acuerdo- desacuerdo, frecuencia, importancia…) y además se ha de procurar que el salto en el con- tinuo entre cada dos etiquetas consecutivas sea de similar cuantía. La escala de respuesta Muy en desacuerdo/En desacuerdo/Indeciso incumpliría la primera exigencia, pues las personas que estén de acuerdo no tienen una categoría que les permita indicarlo. El ítem que sigue incumple la segunda exigencia, pues la distancia en el continuo entre las dos primeras categorías es menor que la que hay entre la segunda y tercera. La Educación está en crisis. Muy en desacuerdo En desacuerdo De acuerdo Muy de acuerdo Redacción de ítems de opción múltiple Se han propuesto conjuntos de recomendaciones para la correcta redacción de los ítems de opción múltiple. Se basan a veces, aunque no siempre, en estudios empíricos en los que se ha comprobado que su incumplimiento genera ítems de peor calidad. Haladyna, Downing y Rodríguez (2002) han propuesto 31 recomendaciones. Moreno, Martínez y Muñiz (2004) las han reelaborado y proponen las siguientes 12, clasificadas en 3 apartados, que reproducimos a continuación con ligeros cambios: 32 Medición en Ciencias Sociales y de la Salud A. Elección del contenido que se desea evaluar. 1. Cada ítem debe evaluar el contenido de una celdilla de la tabla de especificaciones, lo que garantiza que el test muestreará bien todo el contenido a evaluar. Hay que evi- tar los ítems triviales. 2. El ítem deberá ser sencillo o complejo, concreto o abstracto, memorístico o de razo- namiento en función de las destrezas y contenidos que deba evaluar. Las dos primeras recomendaciones indican que la creación de los ítems ha de ceñirse a lo estudiado en el primer apartado sobre diseño del test y, en particular, a lo establecido en la tabla de especificaciones. B. Expresión del contenido en el ítem. 3. Lo central debe expresarse en el enunciado. Cada opción es un complemento que debe concordar gramaticalmente con el enunciado, pues la opción que no concuerda suele ser incorrecta. 4. La sintaxis o estructura gramatical debe ser correcta. Conviene evitar ítems dema- siado escuetos o profusos, ambiguos o confusos. Conviene cuidar especialmente las expresiones negativas para evitar que puedan ser interpretadas incorrectamente. 5. La semántica debe estar ajustada al contenido y a la comprensión lingüística de las personas evaluadas. Si no es así, las respuestas al ítem dependerán del constructo que se pretende medir, como se pretende, pero también de la comprensión lingüística de los evaluados, que no se pretende. C. Construcción de las opciones. 6. La opción correcta debe ser sólo una y debe ir acompañada por distractores plausi- bles. Si las opciones incorrectas no son plausibles, no sabremos cuántas opciones del ítem están actuando como auténticos distractores. 7. La opción correcta debe estar repartida entre las distintas ubicaciones, evitando la tendencia natural a ubicar la opción correcta en las posiciones centrales (Attali y Bar- Hillel, 2003). 8. Las opciones deben ser preferiblemente tres. Se han realizado trabajos que prueban que no suelen resultar mejores los ítems de 4 ó 5 opciones que los de 3 (p. ej., Abad, Olea y Ponsoda, 2001). Lo serían si la cuarta, quinta… opción fuesen de la misma cali- dad que las tres primeras, lo que no es frecuente. Por tanto, suele resultar más apropia- do, por ejemplo, un test de 80 ítems de 3 opciones que uno de 40 ítems de 6 opciones, a pesar de que el tiempo dedicado al procesamiento de los ítems sea parecido en ambos casos. 9. Las opciones deben presentarse usualmente en vertical. Cuando se presentan en horizontal, una tras otra, es más fácil que alguna no se entienda correctamente. 10. El conjunto de opciones de cada ítem debe aparecer estructurado. Por ejemplo, si las opciones fuesen valores numéricos, se recomienda que aparezcan ordenados. La or- denación facilita la correcta comprensión del ítem. Capítulo 2. Construcción de tests y análisis de ítems 33 11. Las opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. Por ello, deben evitarse las opciones “Todas las anteriores” y “Ninguna de las ante- riores”. A veces se redactan dos opciones de forma que necesariamente una de las dos es correcta, de lo que se puede inferir que las restantes son incorrectas. 12. Ninguna opción debe destacar del resto ni en contenido ni en apariencia. Cuando una opción destaca en contenido o apariencia suele dar pistas sobre si es o no correcta. No es infrecuente encontrarse en un ítem varias opciones poco elaboradas y muy bre- ves, que son incorrectas, y una más elaborada, más extensa, que es la correcta. Hemos revisado (García, Ponsoda, Sierra, 2009) más de 50 exámenes de opción múltiple con los que se evalúa en la universidad y hemos comprobado que se suelen incumplir al- gunas de las recomendaciones expuestas. De hecho, hemos encontrado: − Ítems con ninguna o más de una solución correcta. − Ítems con demasiado texto. Con el loable propósito de que el estudiante vea el interés e importancia de lo que se pregunta, muchas veces se redactan ítems con mucho más tex- to del necesario, lo que puede dificultar su comprensión. − Ítems que dan pistas de la solución correcta. A veces, la pista resulta de la falta de con- cordancia gramatical entre el enunciado y alguna opción. Otras veces, una opción es mucho más larga y está más elaborada que las demás. En otras ocasiones se ofrecen dos opciones que agotan las posibles respuestas. A veces se proponen ítems que apare- cen resueltos en otros ítems del mismo test. En estas situaciones, el rendimiento en el ítem no depende sólo del nivel de conocimiento, como debiera ser, sino de la capacidad del estudiante para captar estas pistas. − Presencia de opciones del tipo “Ninguna de las anteriores” y “Todas las anteriores”. Muchas veces, por la necesidad de redactar el número de opciones preestablecido, se termina incluyendo una opción de este tipo, seguramente porque requiere menos es- fuerzo que elaborar una opción plausible nueva. − Opciones incorrectas (o distractores) poco plausibles. Las opcionesincorrectas poco plausibles son poco elegidas y tenemos entonces la duda de cuántas opciones realmente funcionales tiene el ítem. Las opciones incorrectas no deberían descartarse utilizando sólo el sentido común. Las alternativas no ciertas deben ser elegidas entre los errores o confusiones que usualmente tienen las personas que no conocen la respuesta correcta a la pregunta. Otra posible estrategia para generar buenos distractores sería el uso de al- ternativas de respuesta que son verdaderas para otras preguntas, pero que son inciertas para el enunciado al que se asocian. Redacción de ítems de categorías ordenadas Respecto a la manera de formular las cuestiones en los tests de rendimiento típico, se han propuesto algunas recomendaciones que pueden ayudar a su correcta redacción: 34 Medición en Ciencias Sociales y de la Salud 1. Utilizar el tiempo presente. 2. Deben ser relevantes, en el sentido de que su contenido debe relacionarse claramente con el rasgo. Hay que redactar frases ante las que darían respuestas distintas los que tengan alto y bajo nivel en el rasgo que se pretenda evaluar. 3. Se debe cuidar que el contenido sea claro y evitar una excesiva generalidad. Resultan mejor los ítems formados por frases cortas, simples e inteligibles. Hay que evitar in- cluir dos contenidos en un ítem. 4. Para minimizar la aquiescencia conviene redactar ítems de modo directo e inverso. 5. Conviene evitar el uso de negaciones, pues dificultan la comprensión de la frase, y de universales (todo, siempre, nunca...), pues llevan a casi todos los evaluados a elegir la misma categoría de respuesta. Algunas escalas de Sinceridad utilizan precisamente es- tos universales para detectar el falseamiento de respuestas. Un enunciado de un posible ítem de una escala de Sinceridad sería Nunca me ha apetecido hacer algo prohibido, precisamente con la idea de que los evaluados que respondan sin falsear se habrán de manifestar en desacuerdo con el enunciado. Se recomienda generar tantos ítems directos como inversos. Lo preferible es que los ítems inversos no lleven negaciones. En un ítem para medir el interés por el estudio, la frase “Me gusta estudiar” daría lugar a un ítem directo, y las frases “No me gusta estudiar” y “Me aburre estudiar” darían lugar a ítems inversos. La última sería preferible a la penúl- tima pues evita la negación. La presencia de ítems directos e inversos en un test tiene en ocasiones más trascendencia psicométrica de la que aparentemente cabría esperar. Se ha encontrado que la presencia de ítems directos e inversos termina afectando a la estructura interna del test, es decir, a las dimensiones que se miden. Por ejemplo, Tomás y Oliver (1999) comprueban que esto ocurre en el test de Autoestima de Rosenberg. De ahí que haya instrumentos que sólo contienen ítems directos. Un error que suelen cometer los que tienen poca experiencia en la redacción de ítems es la introducción en la frase de más de un contenido. Por ejemplo, en un ítem hay que manifestarse de acuerdo o en desacuerdo ante el siguiente enunciado “Pienso que es bue- no premiar a los hijos cuando se portan bien y que da mejor resultado que castigarlos cuando hacen algo mal”. La frase en realidad contiene dos afirmaciones y la respuesta dada a la frase original puede referirse a la primera, a la segunda o a ambas. Otro error frecuente en la redacción de estos ítems es el uso inadecuado de la escala de respuesta. Por ejemplo, el ítem que sigue estaría mejor redactado con una escala de fre- cuencia que de grado de acuerdo, como se muestra en la redacción alternativa. Juego al tenis al menos una vez por semana. Muy en desacuerdo ( ) En desacuerdo ( ) Indeciso ( ) De acuerdo ( ) Muy de acuerdo ( ) Capítulo 2. Construcción de tests y análisis de ítems 35 Redacción alternativa: Indique cuántas veces a la semana, en promedio, juega al tenis. Ninguna ( ) Una ( ) Dos ( ) Tres o cuatro ( ) Cinco o más ( ) Revisión de los ítems Una vez elaborados los ítems, resulta muy conveniente que algún experto en el contenido de la prueba y en construcción de tests los revise. Si no es posible recurrir a algún experto, no es mala idea, como sugiere Navas (2001), que sea el mismo redactor de ítems quien haga la revisión, dejando pasar algunos días entre la creación del ítem y su revisión. Hay que comprobar que cada ítem evalúa los contenidos y destrezas que le correspon- den, de acuerdo con la tabla de especificaciones. Se ha de comprobar que no es ambiguo, que gramaticalmente está bien redactado, que el lenguaje no resulta ofensivo y, en los ítems de opción múltiple, que la opción correcta lo es realmente y que todos los distracto- res son incorrectos. En realidad, se ha de comprobar que cada ítem cumple las recomen- daciones que acabamos de ver. Como vemos, los tests requieren un proceso sistemático de elaboración y una adminis- tración controlada. Esto significa, por ejemplo, que una persona deberá obtener la misma puntuación en un test de Responsabilidad independientemente del evaluador que se lo aplique. Con otros métodos de evaluación la puntuación obtenida puede depender más del evaluador. Por ejemplo, distintos psicólogos clínicos pueden llegar a una conclusión dife- rente respecto de la personalidad de un evaluado tras una entrevista clínica. Un punto fuerte de los tests es que permiten evaluar a las personas, por ejemplo, úni- camente por sus habilidades, conocimientos, competencias o capacidades; es decir, por sus méritos o cualidades y con escasa participación de la subjetividad del evaluador. Sien- do esto importante, es si cabe más importante que los tests sean justos. Es decir, deben dar al evaluado la puntuación que corresponde a su nivel en el constructo, sea cual sea su edad, género, discapacidad, raza, grupo étnico, nacionalidad, religión, orientación sexual, lengua y otras características personales. Los expertos deben analizar cada ítem para de- terminar que cumple lo anterior. En un ejercicio de acceso a la universidad se preguntó por el significado de pucelana (natural de Valladolid). Hicieron mejor el ejercicio los se- guidores de las crónicas deportivas que los que sabían más Lengua. La revisión mediante expertos hubiese podido detectar que el ítem no era apropiado pues medía, además del co- nocimiento en Lengua, interés por el fútbol y por tanto resultaba injusto con los estudian- tes que no eran aficionados al citado deporte. Existen procedimientos psicométricos para estudiar lo que se denomina como Funcionamiento Diferencial, que ayudan a determinar si los ítems y tests son o no justos. Los describiremos en el capítulo 13. 36 Medición en Ciencias Sociales y de la Salud Cuantificación de las respuestas Una vez decidido el tipo de ítem y el formato de respuesta que se consideran más apropia- dos, y de cara al estudio psicométrico de la prueba, es preciso decidir la manera de cuanti- ficar las posibles respuestas a los ítems. Tests de rendimiento óptimo En general, los ítems de respuesta seleccionada en tests de rendimiento óptimo se cuanti- ficarán con 1, el acierto, y con 0, el error. Se dice que un ítem es dicotómico cuando puede tomar sólo dos valores. La puntuación (directa) de un evaluado en el test, Xi, será la suma de las puntuaciones en los J ítems, e indicará su número de aciertos. ∑ = = J j iji XX 1 [2.1] Para la cuantificación de los ítems de respuesta construida breve se recomienda hacer una lista de respuestas aceptables y otra de no aceptables y puntuar con 1 ó 0, respectivamen- te. Se pueden hacer más de dos listas. Si se hicieran 4, una podría contener las respuestas muy buenas; otra, las buenas; una tercera, las regulares; y una cuarta, las respuestas inco- rrectas. Cada ítem sería cuantificado como 3, 2, 1 ó 0, respectivamente. Los ítems que admiten un número prefijado (mayor de 2) de posibles valores al ser cuantificadosse lla- man ítems politómicos. En este ejemplo, estaríamos ante ítems politómicos que pueden tomar cuatro valores. En los ítems de respuesta construida extensa, conviene aplicar rúbricas (criterios de- finidos de corrección) para obtener una cuantificación adecuada. Las hay analíticas y holísticas. En las rúbricas analíticas se detallan los distintos elementos que hay que valo- rar en la respuesta, indicando cómo debe ser la respuesta que merezca cada una de las po- sibles cuantificaciones. Por ejemplo, en la evaluación de una redacción2 se puede conside- rar que los elementos a evaluar son a) las ideas y el contenido, b) la organización, c) la fluidez y d) la corrección gramatical. Ante cada elemento, la rúbrica detallaría el rendi- miento al que correspondería cada posible puntuación. Ante el elemento “ideas y conteni- do”, la peor calificación correspondería a redacciones que carezcan de idea central o que fuercen al lector a inferir la idea a partir de detalles sueltos. La máxima puntuación co- rrespondería a una redacción clara, interesante y que aborde nítidamente el asunto central, que capture la atención de lector y que proporcione anécdotas enriquecedoras. La puntua- ción del estudiante en la redacción sería la suma de sus puntuaciones en las cuatro partes que forman la rúbrica. En las rúbricas holísticas no se establecen los distintos elementos a evaluar, sino que se evalúa el ítem como un todo. Una buena rúbrica debe proporcionar puntuaciones muy similares al mismo ejercicio cuando es aplicada correctamente por dos evaluadores distintos. Permite que el estudiante sea evaluado en forma objetiva y consis- 2 Tomado y adaptado de http://web.ccsd.k12.wy.us/RBA/LA/SecSoph.html Capítulo 2. Construcción de tests y análisis de ítems 37 tente. Al mismo tiempo, permite al profesor especificar claramente qué espera del estu- diante y cuáles son los criterios con los que va a calificar cada respuesta. Livingston (2009) expone las ventajas e inconvenientes de los distintos tipos de rúbricas. Sea cual sea el tipo de ítem de respuesta construida, la puntuación en el test se obtiene también aplicando la ecuación [2.1], es decir, sumando las puntuaciones obtenidas en los diferentes ítems. Tests de rendimiento típico La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere cier- tos matices. Dado un formato de respuesta determinado, es necesario cuantificar las posi- bles respuestas a un ítem teniendo en cuenta si es un ítem directo o inverso. Por ejemplo, en un ítem con formato de respuesta de opción binaria (acuer- do/desacuerdo), cuantificaremos el acuerdo con 2 si el ítem está planteado para medir de manera directa el constructo de interés. Lo cuantificaremos con 1, si está redactado de manera inversa. Se muestran 2 ítems de un cuestionario de actitud ante al aborto volunta- rio: Abortar es matar. En desacuerdo ( ) De acuerdo ( ) La madre es la dueña de su cuerpo en asuntos de aborto. En desacuerdo ( ) De acuerdo ( ) En el primero, que es inverso, la respuesta “De acuerdo” se puntuaría con 1 y “En des- acuerdo” con 2; ya que estar en desacuerdo con esa afirmación indica una actitud más po- sitiva hacia el aborto voluntario. En el segundo ítem, que es directo, “De acuerdo” se puntuaría con 2 y “En desacuerdo” con 1; ya que estar de acuerdo con esa afirmación in- dica una actitud más positiva hacia el aborto voluntario. Si el formato de respuesta es de K categorías ordenadas, las diversas categorías se cuantificarán normalmente desde 1 hasta K, teniendo en consideración si el ítem es directo o inverso. Por ejemplo, en ítems de 5 categorías, las dos posibles cuantificaciones serán: 1 (Muy en desacuerdo), 2… 5 (Muy de acuerdo), en un ítem directo; y 5 (Muy en desacuer- do), 4… 1 (Muy de acuerdo), en un ítem inverso. El ítem podría también cuantificarse uti- lizando otras tandas de valores (por ejemplo, 0, 1, 2, 3 y 4, ó –2, –1, 0, 1 y 2). En realidad cualquier tanda de cinco valores enteros consecutivos es apropiada y proporciona los mismos resultados psicométricos. Además, la cuantificación de un ítem de opción binaria no ha de ser necesariamente 1 y 2 (podría ser, por ejemplo, 0 y 1). La puntuación de un evaluado en el test se obtiene sumando sus puntuaciones en los ítems (ecuación [2.1]). Ejemplo 2.1. Cuantificación de ítems de categorías ordenadas La Tabla 2.2 muestra dos ítems de un test de Calidad de vida, con tres categorías. Se indi- ca la cuantificación apropiada de cada categoría según sea el ítem directo o inverso. El primer ítem es directo y el segundo, inverso. 38 Medición en Ciencias Sociales y de la Salud Tabla 2.2. Cuantificación de dos ítems de categorías ordenadas En desacuerdo Indeciso De acuerdo Me siento apoyado por mi familia 1 2 3 Mi vida carece de sentido 3 2 1 Análisis de ítems Con análisis de ítems3 nos referimos a los procedimientos dirigidos a extraer información sobre su calidad. Estudiaremos procedimientos que permiten seleccionar los ítems más apropiados a los objetivos específicos del test. Después del proceso de análisis de ítems se podrán determinar los ítems que formarán parte del test definitivo, o construir la versión breve o reducida de un instrumento ya en uso. En cualquier caso, vamos a obtener indica- dores que no deben interpretarse de forma automática, sino inteligentemente, atendiendo al objetivo específico del test. En contextos de evaluación educativa, por ejemplo, el aná- lisis de ítems permite ir mejorando las preguntas con las que evaluamos y el examen en su conjunto, y nos puede informar sobre qué han aprendido o aprendido mal los estudiantes (Morales, 2009). Downing y Haladyna (1997) distinguen entre el análisis cualitativo de ítems y el aná- lisis cuantitativo. El primero precede a la aplicación del test y requiere comprobar, por lo general mediante expertos, que se han realizado adecuadamente las actividades comenta- das en los apartados previos. Aplicado el test, se recomienda hacer el análisis cuantitativo. Cuando hablamos de análisis de ítems sin más, nos referimos a este último. Requiere la obtención para cada ítem de diversos indicadores, que pueden encuadrarse en tres catego- rías: los de dificultad, los de discriminación y el de validez. Tras aplicar el test provisional a una muestra de evaluados representativa de la pobla- ción a la que va dirigida la prueba (se aconseja al menos entre 5 y 10 veces más evalua- dos4 que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos de N filas (evaluados) x J columnas (ítems). El elemento Xij de esta matriz indica el valor obtenido por el evaluado i en el ítem j. Según la ecuación [2.1], sumando 3 Tanto la TCT como la TRI proporcionan indicadores de las características psicométricas de los ítems. En este tema estudiaremos los indicadores que aporta la TCT. Los que aporta la TRI se verán al estudiar esta teoría. Un segundo comentario tiene que ver con la ubicación en el libro de este apartado. El análisis de ítems se ocupa del estudio de los ingredientes básicos de los tests. La calidad del todo (el test) depende, como cabe esperar, de la calidad de las partes (los ítems). Es, entonces, inevitable, que en el estudio de los ítems aparezcan conceptos de la calidad del test que estudiaremos en capítulos sucesivos. Por esta razón, en la mayoría de los manuales el aná- lisis de los ítems más bien cierra los libros que los abre. Sin embargo, en el proceso de construcción de un test, el análisis de sus ítems precede a la determinación de los ítems que componen el test definitivo. Nuestra experien- cia docente aconseja exponer a los estudiantes este tema al inicio de la materia y no al final, y siguiendo esta lógica hemos preferido mantener esa misma ordenación en el libro. 4 Varios ejemplos incumpliránesta recomendación. En este y siguientes capítulos expondremos ejemplos de tests con muy pocos ítems y muy pocos evaluados, muchos menos de los que necesitaría un test real. Son ejem- plos pensados para facilitar la comprensión de lo expuesto, que requieren pocos cálculos y escaso espacio. Capítulo 2. Construcción de tests y análisis de ítems 39 por filas obtendremos las puntuaciones directas (X) de los evaluados en el test. La Tabla 2.3 muestra los datos obtenidos por cinco evaluados en un test de rendimiento óptimo de 3 ítems (X1, X2 y X3). La columna más a la derecha muestra la puntuación de cada uno en el test (X), que es su número de aciertos si los 1 y 0 de la tabla indican acierto y error en el ítem. Tabla 2.3. Resultados de 5 evaluados en 3 ítems y en el test X X1 X2 X3 X 1 1 0 2 1 0 0 1 0 1 1 2 1 1 0 2 0 1 1 2 En el caso de un test de rendimiento típico, tendríamos una tabla similar. Los datos de 4 evaluados en un test de Autoestima, con 5 ítems tipo Likert de 7 alternativas, podrían or- ganizarse como se muestra en la Tabla 2.4. También en este caso, las puntuaciones en el test resultan de sumar las puntuaciones en los 5 ítems. Tabla 2.4. Resultados de 4 evaluados en 5 ítems y en el test X X1 X2 X3 X4 X5 X 7 5 4 7 6 29 1 1 3 4 2 11 4 6 5 4 3 22 6 6 5 5 7 29 A estas tablas de datos se pueden aplicar los distintos indicadores que informarán de las características psicométricas de los ítems. Índice de dificultad Este indicador sirve para cuantificar el grado de dificultad de cada ítem. Se aplica a los ítems dicotómicos de los tests de rendimiento óptimo. El índice de dificultad de un ítem j, pj, se define como la proporción de evaluados que ha acertado el ítem. Es el cociente entre el número de evaluados que lo han acertado (Aj) y el total de evaluados que lo han respon- dido (Nj). N A =p j j j [2.2] 40 Medición en Ciencias Sociales y de la Salud Ejemplo 2.2. Obtención del índice de dificultad Supongamos que 5 evaluados responden a un test de 3 ítems. En la Tabla 2.5 se muestran sus puntuaciones. Nótese que los evaluados 4 y 5 han dejado ítems sin responder. Tabla 2.5. Puntuaciones de 5 evaluados en 3 ítems y en el test X Evaluado X1 X2 X3 X 1 1 1 0 2 2 1 0 0 1 3 0 1 1 2 4 1 - - 1 5 0 - 1 1 Los índices de dificultad de los tres ítems serán: 60,0 5 3 1 1 1 === N A p 67,0 3 2 2 2 2 === N A p 50,0 4 2 3 3 3 === N A p En los tests de opción múltiple es posible obtener aciertos respondiendo al azar. En el último apartado veremos los procedimientos que permiten descontar del número de acier- tos obtenidos por cada evaluado los que presumiblemente se deben a haber respondido al azar. Algo similar cabe plantearse en relación al índice de dificultad. En un test en el que no haya respuestas al azar tendremos presumiblemente menos aciertos de los que tendría- mos en ese mismo test si las hubiera habido. Se han propuesto fórmulas que corrigen los aciertos debidos a respuestas al azar. El índice de dificultad corregido de un ítem de op- ción múltiple de K opciones, cjp , se obtiene aplicando la siguiente expresión (Schmeiser y Welch, 2006): 1− −= K N F pp j j j c j [2.3] Capítulo 2. Construcción de tests y análisis de ítems 41 Donde pj es el índice de dificultad sin corregir y Fj es el número de personas que fallaron el ítem de los Nj que lo respondieron. Si los ítems del test del Ejemplo 2.2 tuviesen 4 op- ciones, los nuevos índices de dificultad corregidos serían: 47,013,060,0 14 5 2 60,0 1 1 1 11 =−=− −= − −= K N F ppc 56,011,067,0 14 3 1 67,0 1 2 2 22 =−=− −= − −= K N F ppc 33,017,050,0 14 4 2 50,0 1 3 3 33 =−=− −= − −= K N F ppc Se observa que al aplicar la fórmula correctora los índices disminuyen cuando hay errores. Crocker y Algina (1986) recomiendan que la dificultad media de los ítems sea mayor de 0,5 cuando haya en el test respuestas al azar. Proponen que la dificultad media sea 0,62, 0,67 y 0,75, si los ítems tienen 4, 3 y 2 opciones, respectivamente. Aplicando a estos valo- res la fórmula [2.3], con Fj/Nj = 1 – pj, se obtiene que en los tres casos c jp es 0,50. Propiedades del índice de dificultad 1. El valor mínimo que puede asumir p es 0 (cuando nadie acierta el ítem) y el valor máximo, 1 (todos los que lo intentan lo aciertan). A medida que p se acerca a 0, el ítem ha resultado más difícil; cuanto más se acerca a 1, ha resultado más fácil. Cuando el va- lor está cerca de 0,5, el ítem tiene una dificultad media, no ha resultado ni fácil ni difí- cil. En el Ejemplo 2.2 el ítem más fácil es el 2 y el más difícil, el 3. Nótese, por tanto, que valores altos en el índice de dificultad, indican mucha facilidad y no mucha dificul- tad, como se podría esperar. Algunos (p. ej., McAlpine, 2002) prefieren llamar al indi- cador índice de facilidad, pero no termina de prosperar la propuesta. 2. El valor de p depende de la muestra. Un ítem aplicado a una muestra muy preparada (de alto nivel en el rasgo) será acertado por más evaluados que si es aplicado en una muestra poco preparada. Por tratarse del mismo ítem, lo deseable sería que el indicador de su dificultad no dependa de la muestra en la que es aplicado, pero el índice p no tie- ne esta propiedad. El indicador de la dificultad del ítem dentro de la TRI sí proporciona valores que no dependen del nivel de la muestra en la que se aplique. 3. El valor de p se relaciona con la varianza de los ítems: Si p es 0 ó 1, la varianza del ítem es cero, pues sólo se han producido en el ítem fallos y aciertos, respectivamente. A medida que p se acerca a 0,5, su varianza aumenta. De hecho, la varianza de un ítem 42 Medición en Ciencias Sociales y de la Salud dicotómico puede obtenerse a partir de su índice de dificultad, pues ).1(2 jjj ppS −= La máxima varianza de un ítem dicotómico (0,25) se alcanza cuando p = 0,5. En un test, en el que la puntuación de la persona i es la suma de los J ítems (ecuación [2.1]), su varianza se puede obtener, a partir de las varianzas y covarianzas de los ítems, mediante la expresión ∑ ∑∑∑ ∑∑ − = +== − = +== +=+= 1 1 1' '' 1 2 1 1 1' ' 1 22 22 J j J jj jjjj J j j J j J jj jj J j jX SSrSSSS [2.4] Es decir, la varianza del test es la suma de las varianzas de los J ítems y la suma de las J(J – 1) covarianzas que resultan al formar todos los pares posibles con J ítems. En la expresión anterior, se ha sustituido la covarianza (Sjj’) entre cada dos ítems por su valor (rjj’ Sj Sj’), teniendo en cuenta la definición de la correlación de Pearson. Por tanto, si queremos que el test tenga alta varianza conviene que contenga ítems tam- bién de alta varianza; es decir, ítems con índices de dificultad próximos a 0,5. Al diseñar un test de rendimiento óptimo, se suele recomendar que se sitúen al inicio algunos ítems fáciles, por su efecto motivador (Navas, 2001; García-Cueto y Fidalgo, 2005); en la parte central, los de dificultad media (valores p entre 0,30 y 0,70); y al fi- nal, los más difíciles. El número de ítems de cada categoría de dificultad que deben in- cluirse en el test depende de sus objetivos. En los tests referidos a norma, de poco sirve un ítem con p = 0 ó 1, ya que no ayudaría a establecer diferencias entre los evaluados, pues es un ítem que lo fallarían o acerta- rían todos los evaluados. En un test referido al criterio, puede tener interés saber si to- dos los evaluados tienen ciertos conocimientos elementales o muy básicos. Si es así, esos ítems tendrán necesariamente altos valores p y tendría sentido su inclusión y man- tenimiento en el test. Por tanto, en general, los mejores ítems son los que aportan más varianza al test y son los que tienen valores de p medios. De hecho, algunos programas para el análisis psi- cométrico de los ítems, como TAP (Brooks y Johanson, 2003), recomiendan el estudiodetenido y eventual descarte de los ítems con valores p mayores de 0,9 y menores de 0,2. Sin embargo, como hemos señalado, puede tener sentido la inclusión y manteni- miento de algunos ítems fáciles o muy fáciles en ciertos contextos aplicados, por ejem- plo en tests referidos al criterio. El índice de dificultad en otros tipos de ítems Lo visto hasta ahora sobre el índice de dificultad se aplica a ítems dicotómicos de tests de rendimiento óptimo. En este escenario se entiende muy bien que la proporción de perso- nas que aciertan el ítem sea el indicador de su dificultad. El índice p es la media aritmética de las puntuaciones conseguidas en el ítem por los N evaluados que lo han respondido. Pa- ra el caso de ítems no dicotómicos de tests de rendimiento óptimo, la media en el ítem de los evaluados que han respondido sería también el indicador de su dificultad. Supongamos que la rúbrica para corregir un ítem de respuesta construida tiene como valores mínimo y máximo posibles, 0 y 12. Valores medios en el ítem próximos a 0 indicarán dificultad ex- Capítulo 2. Construcción de tests y análisis de ítems 43 trema, y próximos a 12, facilidad extrema. Una alternativa al cálculo de la media consiste en dividir la suma de puntos en el ítem por la suma máxima de puntos posible. Procedien- do así se obtiene un indicador de la dificultad comprendido entre 0 (máxima dificultad) y 1 (máxima facilidad). Supongamos, por ejemplo, una tarea que puede ser evaluada como 0, 1, 2 ó 3. Si las puntuaciones en la tarea de 5 estudiantes han sido 3, 1, 3, 0 y 3, la suma de puntos sería 10, la suma máxima posible sería 15 y el índice de dificultad será 10/15 = 0,67. Por tanto, la tarea es de dificultad media-baja. En los tests de rendimiento típico la media de las puntuaciones en el ítem ofrece una información que guarda cierta similaridad con el concepto de dificultad del ítem, aunque no pueda hablarse propiamente de lo difícil que es el ítem. Por ejemplo, en un test de agresividad, un ítem podría ser Participo en peleas, con las opciones Nunca, Alguna vez, De vez en cuando y Con frecuencia, y recibiría una puntuación de 1 a 4. Un segundo ítem podría ser Discuto con la gente, con la misma escala de respuestas. La misma muestra responde a ambos ítems. Supongamos que la media de la muestra en el primero es 1,75 y en el segundo, 2,81. La menor media del ítem 1 indica que hay que tener más agresividad para obtener una puntuación concreta (por ejemplo, 3) en el ítem 1 que en el 2. Cuanto más baja es la media, más nivel de rasgo hace falta para alcanzar una cierta puntuación en el ítem. Índices de discriminación Un ítem que mida el constructo de interés debe discriminar entre los que tienen altos y ba- jos valores en el constructo. Las personas con alta y baja Responsabilidad deberán puntuar de forma diferente en un ítem que realmente mida este constructo, aunque podrán obtener puntuaciones parecidas en un ítem que mida otro constructo. Se han propuesto varios in- dicadores de la discriminación del ítem. Todos ellos requieren una medida apropiada del constructo, que muchas veces, aunque no necesariamente, es la puntuación obtenida en el test completo. Otras veces es un subconjunto de los ítems del test y otras, incluso, una medida del constructo externa al test. El índice de discriminación Este indicador se obtiene exclusivamente para ítems dicotómicos. Requiere establecer dos subgrupos de evaluados a partir de sus puntuaciones en el test: el de los que tienen altas y el de los que tienen bajas puntuaciones. Los subgrupos pueden estar compuestos por la mitad de la muestra o, más frecuentemente, por un porcentaje menor (27%, 33%, por lo general) si la muestra tiene suficiente tamaño. Sea ps la proporción de personas del subgrupo superior que ha acertado el ítem. Sea pi la correspondiente proporción en el subgrupo inferior. El índice de discriminación de ítem j, Dj, se define como la diferencia entre ambas proporciones. isj ppD −= [2.5] 44 Medición en Ciencias Sociales y de la Salud El indicador D toma valores entre –1 y 1. Cuando D = 1, todos los evaluados del subgrupo superior han acertado el ítem y ninguno del subgrupo inferior lo ha hecho. Cuando D = 0, la proporción de los que han acertado el ítem es la misma en ambos subgrupos. Si D = –1, ninguno del subgrupo superior ha acertado el ítem y todos los del subgrupo inferior lo han hecho. Valores próximos a cero indican que el ítem no discrimina. Cuanto D más se acer- ca a uno, mayor es la capacidad discriminativa del ítem. Valores inferiores a 0,20 se con- sideran valores inaceptables e indican que el ítem ha de ser eliminado (Crocker y Algina, 1986). Los valores que puede tomar D dependen del valor del índice de dificultad p (Oos- terhof, 1976). En el caso de valores extremos de p, no es posible que D tome valores altos. Por ejemplo, si el valor p de un ítem es 0,98, es evidente que ha debido de ser acertado por prácticamente todos los del grupo superior y también por prácticamente todos los del gru- po inferior, no pudiendo D tomar un valor alto. Un razonamiento similar puede aplicarse cuando el valor de p es muy bajo. Cuando p toma un valor central es cuando D puede to- mar un valor próximo o alejado de cero. Índices basados en la correlación entre el ítem y el test Otra estrategia para determinar si un ítem discrimina entre los evaluados que tienen altas y bajas puntuaciones en el constructo consiste en correlacionar las puntuaciones en el ítem con una medida del constructo, que por lo general es el rendimiento en el test. Esta estra- tegia da lugar a los indicadores de discriminación basados en la correlación ítem-test. El indicador D es muy fácil de aplicar, pero normalmente no utiliza toda la información de la muestra, pues sólo entran en su cálculo los evaluados que pertenecen al subgrupo superior o inferior y se aplica sólo a ítems dicotómicos. Los indicadores de discriminación basados en la correlación ítem-test pueden aplicarse a ítems dicotómicos y no dicotómicos, a tests de rendimiento óptimo y típico, y la muestra completa participa en su cómputo. El índice de discriminación del ítem j basado en la correlación ítem-test, rjX, se define como la correlación de Pearson entre las puntuaciones en el ítem y en el test. Se le suele llamar correlación ítem-test. Ejemplo 2.3. Obtención de la correlación ítem-test en ítems politómicos Hemos aplicado un test de Satisfacción con los estudios universitarios. En la Tabla 2.6 se muestran las puntuaciones de 4 estudiantes en dos ítems del test y en el test completo X. El ítem 1 es Organizo actividades extracurriculares y el 2 es Asisto a clase. Ambos tienen cinco posibles respuestas, puntuadas de 1 (Muy infrecuentemente) a 5 (Muy frecuentemen- te). La correlación ítem-test del ítem 1, que se obtiene calculando la correlación de Pear- son entre las columnas 1 y 3, es r1X = 0,638. La del ítem 2, que resulta de correlacionar las columnas 2 y 3, es r2X = 0,348. Capítulo 2. Construcción de tests y análisis de ítems 45 Tabla 2.6. Puntuaciones en 2 ítems X1 X2 X 3 2 40 2 3 35 5 5 37 1 1 32 En el caso de un ítem dicotómico, podemos obtener la correlación ítem-test por tres pro- cedimientos: 1. El primero consiste en obtener la correlación de Pearson entre la columna de puntua- ciones en el ítem y la de puntuaciones en el test, como en el Ejemplo 2.3. 2. La correlación de Pearson entre una variable dicotómica y una continua recibe el nom- bre de correlación biserial puntual (Amón, 1984). Por tanto, un segundo procedimiento consiste en hallar la correlación biserial puntual, rbp, entre el ítem y el test: pq S XX r X qp bp − = [2.6] Donde pX y qX son las medias en el test de los que acertaron el ítem y de los que no lo acertaron, SX es la desviación típica en el test y p es la proporción de evaluados que acertó el ítem. Por último, q = 1 – p.3. Un tercer procedimiento cuando el ítem es dicotómico es la correlación biserial, rb. Se puede aplicar cuando una variable es continua (puntuaciones en el test) y otra es di- cotómica (el ítem), pero la variable dicotómica se considera como el resultado de dico- tomizar una variable continua. La correlación biserial es una estimación de lo que sería la correlación de Pearson entre ambas variables continuas (Amón, 1984). y pq S XX r X qp b − = [2.7] El único elemento nuevo, y, es la ordenada que corresponde en la distribución normal a la puntuación que deja a su izquierda la probabilidad p. La correlación biserial puntual, en valor absoluto, es menor que la biserial para unos mismos datos. De hecho, rbp < 0,8rb (Lord y Novick, 1968, p. 340). Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener la corre- lación ítem-test corregida, cjXr , o correlación del ítem con el resto del test. Consiste en correlacionar las puntuaciones en un ítem con las puntuaciones en el total del test después de restarle las puntuaciones del ítem cuyo indicador queremos obtener. La correlación en- tre un ítem y el resto del test suele ser inferior a su correlación ítem-test, pues en este caso 46 Medición en Ciencias Sociales y de la Salud se correlaciona una variable (el ítem) con otra (el test) en la que la primera variable está contenida. La correlación entre el ítem y el test puede ser artificialmente alta, por lo indi- cado, especialmente cuando el test tiene pocos ítems. Izard (2005) considera que el efecto es despreciable cuando el test tiene más de 20 ítems. Ejemplo 2.4. Obtención de las correlaciones ítem-test e ítem-resto del test5 Hemos aplicado un test de cuatro ítems a cinco estudiantes. Sus puntuaciones se muestran en la Tabla 2.7. Tabla 2.7. Puntuaciones en 4 ítems de un test X1 X2 X3 X4 X 0 1 1 0 2 1 1 1 1 4 1 0 1 1 3 0 1 1 1 3 1 1 0 1 3 La correlación de Pearson entre el ítem X1 y el test X es 0,645. Aplicando la fórmula [2.6] se llega al mismo resultado: ( ) ( ) ( )( ) 645,05253 4,0 25310 = − = − = pq S XX r X qp bp Para X1, la correlación biserial es: ( ) ( ) ( )( ) 819,0 3863,0 5253 4,0 25310 = − = − = y pq S XX r X qp b Comprobamos que rbp < 0,8rb = (0,8)(0,819) = 0,655. Sumando las puntuaciones en los ítems 2, 3 y 4, podemos obtener las puntuaciones en el resto del test para el ítem 1. Al correlacionar el ítem 1 con el resto del test para ese ítem (las puntuaciones de los cinco evaluados serían, respectivamente, 2, 3, 2, 3 y 2) se obtiene la correlación ítem-test corregida o correlación ítem-resto del test para el ítem 1, que es .167,01 −= c Xr Nótese el fuerte descenso en el valor de la correlación (de 0,645 a –0,167), pues el test tiene sólo 4 ítems. 5 Los indicadores propuestos se obtienen mediante los programas de ordenador que se describen en el Apéndice. En el ejemplo 2.4 se detalla el cálculo de los indicadores para facilitar la comprensión de las fórmulas. El valor de la ordenada y puede extraerse de las tablas de la curva normal (p. ej., Amón, 1984) o calcularse directamente. Capítulo 2. Construcción de tests y análisis de ítems 47 Se han propuesto otros muchos indicadores de discriminación. Oosterhof (1976) comparó 19 de ellos tras aplicarlos a 50 ítems. Comprobó que la ordenación (en discriminación) que hacían los 19 indicadores de los 50 ítems básicamente coincidía. De hecho, obtuvo que la mayoría de las correlaciones entre los órdenes superaron el valor 0,90 (la menor correlación fue 0,616). Veamos en el siguiente ejemplo la relación entre los cuatro indicadores de discriminación que hemos descrito. Ejemplo 2.5. Comparación entre los índices de discriminación Hemos aplicado los cuatro índices de discriminación (D, correlación biserial, correlación biserial puntual y correlación biserial puntual corregida) a los 14 ítems dicotómicos de un test. La Figura 2.1 muestra los valores obtenidos. Figura 2.1. Indicadores de discriminación de 14 ítems La gráfica muestra que los tres indicadores de discriminación que se basan en la correlación entre el ítem y el test (las líneas de trazo discontinuo) dan valores ordenados: los valores más altos corresponden a la correlación biserial (B en la gráfica), los medios a la biserial puntual (BP) y los menores a la biserial puntual corregida (BPC). El indicador D (trazo continuo) en estos datos da valores similares a la biserial puntual. Al correlacionar entre sí los valores de los 3 indicadores basados en la correlación, la menor correlación es 0,96 (entre la biserial puntual y la biserial puntual corregida), lo que muestra que la ordenacion de los 14 ítems sería básicamente la misma con cualquiera de ellos. Las correlaciones de estos 3 indicadores con D son 0,88 (con la biserial puntual corregida), 0,91 (biserial) y 0,96 (biserial puntual). Por tanto, en este ejemplo, se confirma la conclusión alcanzada por Oosterhof (1976) en el sentido de que los distintos indicadores aplicados a unos mismos ítems producen una ordenación similar de sus capacidades de discriminación. 48 Medición en Ciencias Sociales y de la Salud Propiedades de las correlaciones ítem-test e ítem-resto del test 1. La correlación de Pearson (y, por tanto, la correlación biserial puntual) toma valores entre –1 y 1. La correlación biserial puede valer más de 1 o menos de –1. Los indicado- res de la discriminación basados en las correlaciones ítem-test nos informan de si el ítem está midiendo lo mismo que la prueba globalmente; es decir, del grado en que el ítem contribuye a medir lo mismo que mide el test. Los ítems con correlaciones nulas miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende evaluar un rasgo o constructo unitario, debiera considerarse la posible eliminación de los ítems con correlaciones próximas a cero. Cuanto más se acerque a 1 el índice, mejor discrimina el ítem entre los que tienen pun- tuaciones altas y bajas en el test. En el Ejemplo 2.3 vimos que la correlación ítem-test del ítem Organizo actividades extracurriculares es mayor que la del ítem Asisto a clase regularmente, por lo que el primer ítem discrimina mejor entre los que tienen alta y ba- ja satisfacción con los estudios que el segundo. Es decir, la satisfacción con los estu- dios se relaciona más con la organización de actividades extracurriculares que con la asistencia a clase. 2. Cuando la correlación ítem-test es negativa y de entidad, debemos cuestionar la cuanti- ficación que se ha aplicado al ítem. Se ha podido proponer como opción correcta una que no lo es, o se ha podido tomar el ítem como directo cuando es inverso, o viceversa. 3. Crocker y Algina (1986) proponen que se tome como criterio mínimo de retención del ítem que la correlación sea significativamente distinta de cero. Dado que una correla- ción de Pearson puede considerarse significativa cuando 2/1 α−> zNrxy , (Pardo, Ruiz y San Martín, 2009, p. 350), con una muestra de 100 personas y nivel de confian- za del 95%, se llega a la referencia 0,206. Valores de r menores de 0,2 nos llevarían a descartar el ítem. Schmeiser y Welch (2006) coinciden en que para un test normativo son deseables índices de discriminación superiores a 0,2. Kehoe (1995) fija la referen- cia en 0,15. Ejemplo 2.6. Ejemplo de posible cuantificación incorrecta En una escala de Romanticismo, que hicieron nuestros estudiantes como práctica para aprender a construir un test de rendimiento típico, las correlaciones ítem-test corregidas de varios ítems se muestran en la Tabla 2.8. Se indica también qué ítems consideraron direc- tos e inversos (D e I). Las correlaciones que se exponen son las halladas tras recodificar los ítems inversos, como se indicó en el apartado sobre cuantificación de las respuestas.6 De rxy√100 > z0.975 = 1,96, se sigue que rxy > 0,196 ≈ 0.20. Capítulo 2. Construcción de tests y análisis de ítems 49 Tabla 2.8. Correlaciones ítem-test corregidas de 5 ítems Escala de Romanticismo rc D El amor es la razón de mi vida 0,60 I Preferiría que él/ella se me declarara por teléfono y sin rodeos 0,10 D Siempre que puedo, suelo sorprenderle con detalles inesperados 0,58 D Si me invita la primera noche a su casa, no vuelvo a mirarle a la cara –0,27 I Nunca me identifico con personajes de películas o cuentos 0,47 Tres ítems, dos directos y uno inverso, tienen valores altos de la correlación entre el ítem y el resto del test (mayores de 0,47). Según el enunciado de los ítems, vemos que los muy románticos están de acuerdo en que el amor es la razón de sus vidas y que siempre que pueden sorprenden con regalos. Los muy románticos están en desacuerdo con el último ítem, pues es inverso. Hay que entender entonces que se identifican con personajes de películas y cuentos. El índice ítem-resto del test es cercano a cero (0,1) en el segundo ítem, lo que indica que los muy románticos no estarían especialmente de acuerdo ni en desacuerdo con ese ítem. De hecho, ¿por qué habrían de preferir los muy o poco románti- cos la declaración por teléfono? Por último, en un ítem, considerado por los estudiantes directo, se obtiene una correlación ítem-resto del test negativa y de cierta entidad (–0,27). Los estudiantes consideraron, al etiquetar el ítem como directo, que las personas muy románticas debían estar de acuerdo con el enunciado y recibir con disgusto una invitación a subir a casa al poco de conocerse. El análisis psicométrico revela que en la muestra en la que se aplicó el test (estudiantes universitarios) no es así, sino al contrario. En este caso convendría plantearse considerar el ítem como inverso y repetir el análisis psicométrico de todos los ítems tras recodificarlo como inverso. Índice de validez A veces aplicamos tests no tanto porque estemos interesados en evaluar directamente el constructo que el test mide, sino porque sabemos que sus puntuaciones predicen bien una variable que interesa pronosticar. En un proceso de selección de personal, podemos apli- car un test de Responsabilidad no porque estemos directamente interesados en conocer las puntuaciones de los candidatos, sino porque se sabe (Salgado y Moscoso, 2008) que las puntuaciones en Responsabilidad ayudan a predecir el desempeño laboral. En el tema 5 estudiaremos los detalles dentro del apartado sobre evidencias de validez referida al crite- rio. Se suele llamar criterio a la variable que queremos predecir y nos solemos referir a ella con la letra Y. Se llama índice de validez de un ítem j, rjY, a la correlación 7 entre las puntuaciones en el ítem y el criterio externo Y. Por ser rjY un coeficiente de correlación, toma valores entre –1 y 1, y elevado al cuadrado indica la proporción de la varianza de Y que puede explicar- 7 Lo ordinario es aplicar la correlación de Pearson, pero en ocasiones otras correlaciones pueden resultar más apropiadas para indicar la relación entre el ítem y el criterio. Si no se especifica nada más, se entiende que hablamos de la correlación de Pearson. 50 Medición en Ciencias Sociales y de la Salud se por el ítem8. Cuanto más alejado de cero esté, más fuerte es la relación y mayor la ca- pacidad predictora del ítem en relación al criterio Y. La capacidad predictora del ítem no depende del signo de la correlación. Si el índice de validez de un ítem con un criterio de Puntualidad fuese positivo (de 0,25, por ejemplo), es muy posible que el índice de validez de ese mismo ítem con otro criterio, como Absentismo laboral, sea negativo; dada la rela- ción inversa que cabe esperar entre Puntualidad y Absentismo. Ejemplo 2.7. Cálculo del índice de validez Supongamos que las puntuaciones de 5 personas en Desempeño laboral son las que apare- cen en la columna Y de la Tabla 2.9. Queremos construir un test de Responsabilidad que pronostique las puntuaciones en el criterio Y. La tabla muestra además las puntuaciones de las 5 personas en los tres ítems del test y en el test completo X. Tabla 2.9. Puntuaciones de 5 evaluados en 3 ítems, el test X, y un criterio Y X1 X2 X3 X Y 2 3 5 10 8 3 1 0 4 2 0 4 5 9 2 5 1 0 6 4 4 3 0 7 5 Calculando la correlación de Pearson entre cada ítem y la columna Y se obtienen los índi- ces de validez, que son 0,167 (ítem 1), 0,195 (ítem 2) y 0,293 (ítem 3). El ítem 3 tiene una relación más fuerte con el criterio que los otros dos. El índice de validez informa de la relación entre el ítem y el criterio Y. El concepto análo- go, pero referido al test, es el coeficiente de validez, que estudiaremos más adelante (tema 5). El coeficiente de validez de un test X en relación a un criterio Y, rXY, se puede obtener mediante la expresión (Lord y Novick, 1968, p. 332): ∑ ∑ = == J j jXj J j jYj XY rS rS r 1 1 [2.8] 8 Lo habitual es que el índice de validez de un ítem sea menor que sus índices de discriminación basados en la correlación ítem-test, pues lo normal es que el ítem correlacione más con el test para el que se ha construido que con un criterio externo. Los índices de validez suelen ser especialmente bajos (próximos a cero) cuando los ítems son dicotómicos. Capítulo 2. Construcción de tests y análisis de ítems 51 La expresión anterior permite obtener la capacidad predictora del test respecto al criterio Y a partir de las propiedades (la desviación típica, la correlación ítem-test y el índice de va- lidez) de los J ítems que forman el test. Nos puede facilitar la selección de los ítems que más ayuden a construir un test con máxima capacidad predictiva del criterio Y. Ejemplo 2.8. Relación entre el coeficiente de validez y los índices de validez En el Ejemplo 2.7, si calculamos la correlación de Pearson entre las columnas X e Y, se obtiene el coeficiente de validez del test formado por los tres ítems, que es rXY = 0,580. Tabla 2.10. Datos descriptivos para 3 ítems Sj rjX rjY SjrjX SjrjY X1 1,924 –0,588 0,167 –1,131 0,321 X2 1,342 0,827 0,195 1,110 0,262 X3 2,739 0,879 0,293 2,408 0,802 A partir de los datos de la tabla podemos comprobar que la fórmula [2.8] proporciona ese mismo resultado: .580,0 408,2110,1131,1 802,0262,0321,0 3 1 3 1 = ++− ++ == ∑ ∑ = = j jXj j jYj XY rS rS r Siguiendo a Lord y Novick (1968) y a Muñiz (1992), entre otros, hemos definido el índice de validez de un ítem como la correlación de Pearson entre el ítem y el criterio Y. otros autores, por ejemplo Crocker y Algina (1986) y Gulliksen (1987), definen el índice de va- lidez como dicha correlación multiplicada por la desviación típica del ítem. Análogamen- te, estos autores definen el índice de fiabilidad del ítem como la correlación ítem-test mul- tiplicada por la desviación típica del ítem. La fiabilidad de un test es un concepto psi- cométrico que se estudiará en el tema siguiente y que nos indica su capacidad para dar puntuaciones similares a personas con el mismo nivel en el rasgo. El índice de fiabilidad de un ítem informa de la aportación del ítem a la fiabilidad del test. Por tanto, siguiendo estas definiciones, el coeficiente de validez del test tiene en el numerador la suma de los índices de validez de los ítems que forman el test y en el denominador la suma de los índi- ces de fiabilidad. Es, por tanto, evidente que si queremos un test que pronostique bien el criterio debemos seleccionar los ítems con altos índices de validez y/o bajos índices de fiabilidad. La situación es paradójica (Muñiz, 1992), pues nos indica que podríamos con- seguir mejorar la capacidad predictora de un test por la vía de seleccionar ítems que corre- lacionen menos con el test total (es decir, disminuyendouna propiedad positiva de un test, 52 Medición en Ciencias Sociales y de la Salud como es su fiabilidad). Lo expuesto muestra que no siempre los ítems con mayores índi- ces de discriminación resultan los más apropiados a los objetivos específicos del test. Vis- to de otro modo, al eliminar ítems con bajas correlaciones ítem-test, con el propósito de maximizar la fiabilidad del test, seguramente afectaremos negativamente a su coeficiente de validez (Izard, 2005). Consideraciones adicionales sobre el análisis de ítems Livingston (2006) y Schmeiser y Welch (2006) señalan otros asuntos a tener en cuenta pa- ra un correcto análisis de ítems. El análisis de los ítems se complica en los tests de veloci- dad. En los tests de rendimiento óptimo, si los evaluados no han tenido tiempo para dar una respuesta meditada a todos los ítems, los que estén al final serán los que resulten más afectados. En estos ítems tendremos respuestas meditadas y respuestas casi aleatorias, lo que no ocurrirá en los que se encuentren al principio. El índice de dificultad por tanto re- sultará afectado por la posición que ocupa el ítem en el test. En el apartado sobre formatos y tipos de ítems se ha expuesto la norma a seguir para convertir los ítems sin respuesta en ítems no alcanzados o en omisiones. El Ejemplo 2.9 muestra su impacto en los índices de dificultad de los ítems. Ejemplo 2.9. Índices de dificultad e ítems sin respuestas La aplicación de la regla para considerar un ítem sin respuesta como omisión o como va- lor perdido a los datos del Ejemplo 2.2 daría lugar a la Tabla 2.11. Hay tres ítems dejados sin responder. En el caso del evaluado 4 sus dos ítems dejados sin responder siguen a su única respuesta, luego habrían de clasificarse como ítems no alcanzados o valores perdi- dos (y no se convertirían en errores). En el caso del evaluado 5, el ítem dejado sin respon- der tiene detrás un ítem con respuesta y por tanto debe ser clasificado como omisión (y convertido en error). Se indica en la tabla con la cuantificación de 0 entre paréntesis. Tabla 2.11. Puntuaciones en 3 ítems X1 X2 X3 X 1 1 0 2 1 0 0 1 0 1 1 2 1 - - 1 0 (0) 1 1 Los índices de dificultad de los ítems 1 y 3 no cambian, pero sí el del ítem 2, que pasará a ser p2 =A2/N2= 2/4= 0,5, en vez de 0,67. Capítulo 2. Construcción de tests y análisis de ítems 53 Otro asunto a considerar es el de la posible multidimensionalidad del test. Vamos a ver en temas posteriores procedimientos para detectar si tras las puntuaciones en el test hay sólo una dimensión (lo responsable que una persona es, por ejemplo), dos dimensiones (lo res- ponsable y lo emocionalmente estable, por ejemplo) o más. En el caso de tests multidi- mensionales tiene más sentido analizar conjuntamente los ítems que se relacionan con ca- da dimensión, que un análisis conjunto de todos ellos. En el caso de tests educativos, Ke- hoe (1995) recomienda explícitamente que sólo se haga el análisis conjunto de los ítems que evalúen un material homogéneo (es decir, un material en el que es poco probable que un estudiante lo haga bien en una parte y mal en otra). Si el material a evaluar no fuese homogéneo, habría que hacer un análisis conjunto de los ítems de cada bloque homogéneo de contenidos. La estrategia anterior puede llevar a tener que hacer el análisis de un conjunto muy re- ducido de ítems, lo que también plantea problemas. Para Livingston (2006), un análisis de 20 ítems puede ser adecuado; pero de 10, quizás no. Cuando hay pocos ítems el impacto de uno en el test puede ser fuerte. Hemos visto procedimientos para corregir ese impacto, como la correlación ítem-test corregida, pero este indicador tiene el inconveniente de que se correlaciona cada ítem con un test diferente (el test menos el ítem del que estamos hallando el indicador), lo que dificulta la comparación de los índices de los distintos ítems. Otro asunto a tener en cuenta es la presencia de ítems de baja calidad en el test. Si un test tiene sólo algún ítem deficiente, la correlación del ítem deficiente con el test nos dirá que efectivamente lo es. Si el test tuviese muchos ítems deficientes, la correlación podría no decir demasiado, ¡podría incluso informar erróneamente de la calidad de los buenos ítems! En los procedimientos para el estudio del funcionamiento diferencial de los ítems es habitual generar una medida del constructo de interés que se va progresivamente depu- rando; es decir, de la que se van eliminando los ítems que parecen no medir lo que miden los demás. Algo similar cabría hacer en el análisis de ítems, para que la medida del cons- tructo no esté contaminada por los ítems deficientes. Un último asunto tiene que ver con las características de la muestra de evaluados en la que obtenemos los indicadores. Preparamos un examen, lo aplicamos y hacemos el co- rrespondiente análisis de ítems. ¿Estamos seguros de que un ítem que resulte fácil (al co- rresponderle, por ejemplo, un valor p = 0,80) volverá a ser fácil si lo volviésemos a apli- car? ¿Estamos seguros de que un ítem con una correlación ítem-test negativa volverá a ob- tener un índice negativo en otra aplicación? La respuesta a estas preguntas requiere, al menos, dos consideraciones. La primera es que cabe sólo esperar valores similares cuando las dos muestras de estudiantes tengan características similares. Si una muestra tuviese un nivel alto de conocimiento y otra un nivel bajo, evidentemente, no cabe esperar que el índice de dificultad de un ítem sea igual en ambas aplicaciones. Aceptando que las dos muestras tengan similares características, hay que tener en cuenta el tamaño de la muestra. El índice de dificultad, el de discriminación, etc. son indicadores que fluctúan muestral- mente. Supongamos, por ejemplo, que un ítem de Matemáticas tiene un índice de dificul- tad de 0,6 al ser aplicado a todos los estudiantes de la Comunidad de Madrid. Si lo aplicá- semos a dos muestras de 100 estudiantes extraídos al azar de la citada población, muy probablemente no obtendremos que sea acertado por un mismo número de estudiantes en ambas muestras. Es probable que en ninguna de las dos sea acertado exactamente por 60 estudiantes. Los posibles valores del índice de dificultad vendrían determinados por la dis- tribución muestral de la proporción. Por lo tanto, cuanto menor sea el tamaño de la mues- 54 Medición en Ciencias Sociales y de la Salud tra en la que se aplica el test, menos debemos fiarnos de los particulares valores de los in- dicadores, y tanto más probable es que, de haber aplicado el test a otra muestra, obtenga- mos resultados diferentes. En un estudio de simulación9 hemos comprobado que cuando se aplica un test de 20 ítems a muestras de 50 personas simuladas extraídas de la misma población los índices de dificultad de los ítems de una muestra difieren poco de los obtenidos en las demás. Esto no ocurre, sin embargo, con las correlaciones ítem-test corregidas. De hecho, para que las correlaciones ítem-test corregidas sean similares en distintas muestras, deben estar forma- das al menos por 400 personas simuladas. Conviene, por tanto, que la muestra en la que aplicamos el test tenga un tamaño razo- nable si se quiere extrapolar a otras aplicaciones los resultados obtenidos en un análisis de ítems. Morales (2009) recomienda muestras de 400 estudiantes o más. Crocker y Algina (1986) sugieren que no tengan menos de 200 evaluados y recomiendan, si el tamaño muestral lo permite, que se haga el análisis de ítems sobre una mitad de la muestra y se in- forme de los indicadores de los ítems y del test con los datos de la otra mitad10. Burton (2001a) concluye que tanto el índice D como las correlaciones ítem-test son muy poco estables, a no ser que se obtengan en muestras mucho mayores de las habituales en los contextos educativos. Su utilidad debería limitarse a comprobar las características de los ítems que resultan diagnosticados como muy buenoso muy malos. Estos últimos son los más interesantes porque pueden revelar que hay algún error en la clave de respues- tas. Concluye que hay que quitar importancia a la discriminación de los ítems en la eva- luación de la calidad de los exámenes. Análisis de las opciones incorrectas de respuesta En relación con el análisis de los ítems se encuentra también el estudio de los patrones de respuesta que se dan a las diferentes opciones de los ítems de opción múltiple. Un modelo muy simple, que desarrollaremos más extensamente en el apartado final de este tema, de cómo una persona responde a un ítem de opción múltiple, supone que: 1. La persona conoce la opción correcta o no la conoce. Si la conoce, responde y acierta necesariamente. Es decir, no se contempla la posibilidad de que conociendo la respues- ta, por despiste u otras razones, pueda seleccionar una opción incorrecta. 2. Si no la conoce, tiene dos opciones: puede no responder o puede responder al azar entre las K opciones disponibles. Es este caso, se supone que elige las opciones con equipro- babilidad y por tanto la probabilidad de acierto es 1/K y la de fallo es (K – 1)/K. Supongamos que 300 personas responden a un ítem de opción múltiple con 4 opciones (A, B, C y D) siguiendo el modelo anterior. Supongamos que ninguno sabe la respuesta co- rrecta (la B, en nuestro caso marcada con un asterisco). Según el modelo, cada evaluado tendrá que responder al azar y la probabilidad de elegir cada opción es 1/4. Por tanto, el 9 Los detalles pueden solicitarse a los autores. 10 Ésta es una estrategia común de control de lo que se viene llamando “capitalización en el azar” o “sobre- aprendizaje”. Tal estrategia reduce el efecto de las singularidades de la muestra en los valores de los indicadores. Capítulo 2. Construcción de tests y análisis de ítems 55 número esperado de personas que deberá elegir cada opción es 300(1/4) = 75, como mues- tra la siguiente tabla: A B* C D Frecuencia esperada 75 75 75 75 Supongamos que 100 de los 300 saben la respuesta. Según el modelo, esos 100 elegirán la opción correcta, B. Los restantes 200, al no saber la respuesta, elegirán al azar una de las cuatro opciones con equiprobabilidad. Las frecuencias esperadas de las 4 opciones se muestran en la siguiente tabla: A B* C D Frecuencia esperada 50 100 + 50 50 50 Si supiesen 200 la respuesta correcta, la correspondiente tabla sería: A B* C D Frecuencia esperada 25 200 + 25 25 25 Por último, si los 300 saben la respuesta, la tabla resultante sería: A B* C D Frecuencia esperada 0 300 0 0 Por tanto, en un ítem en el que se responde según el modelo expuesto, debe ocurrir que: 1) la alternativa correcta sea la más seleccionada, y 2) que las alternativas incorrectas lo sean por un número similar de personas. Estas dos circunstancias se cumplen exactamente en las tablas precedentes. En la aplicación real de un ítem no cabe esperar que la frecuencia de elección de las alternativas incorrectas coincida exactamente. Lo que sí debiera ocurrir es que se dé aproximadamente el patrón descrito. Ejemplo 2.10. Estudio de las opciones incorrectas de respuesta Observemos los porcentajes de elección en las cinco opciones de tres ítems que se presen- tan en la Tabla 12.2. El patrón de respuestas obtenido para el ítem 1 es adecuado, pues la mayor parte de la muestra selecciona la alternativa correcta, mientras que las incorrectas son seleccionadas por un porcentaje parecido de personas. El ítem 2 no sería muy adecua- do, pues la muestra selecciona en mayor grado una alternativa incorrecta (la A) como co- rrecta; al menos, debería pensarse en reformular esa alternativa incorrecta. En el ítem 3, dos alternativas incorrectas apenas son seleccionadas, con lo que se consideran como al- ternativas no funcionales. Habría que reformular esas dos opciones de respuesta. 56 Medición en Ciencias Sociales y de la Salud Tabla 2.12. Porcentajes de elección de las opciones en 3 ítems Opción correcta Porcentaje elección de las opciones A B C D E X1 B 17 40 14 13 16 X2 C 35 15 21 17 12 X3 A 60 1 21 18 0 Las opciones que no son elegidas tienen especial importancia, pues esos ítems tienen K opciones, pero funcionalmente tienen menos. Esta situación plantea dudas sobre el proce- der adecuado cuando hay que aplicar fórmulas que requieren especificar el número de op- ciones; por ejemplo, a la hora de obtener el valor de p corregido por azar, aplicando la ex- presión [2.3]. Un comentario sobre la adecuación al modelo expuesto. Hemos propuesto que hay que elegir con cuidado los distractores. Hemos propuesto incluso que una buena estrategia es proponer como distractores los errores que comenten los estudiantes. Por ejemplo, un ítem de Matemáticas podría ser éste: ¿Cuál es el resultado de la operación 6 + (2–3)3? a) –13 b) 5 c) 7 La opción correcta es la b. El distractor a resulta de la operación 6 + (23–33) y el distractor c, de 6 + (1)3. Un test construido con ítems así permitiría conocer el nivel de cada estu- diante en Matemáticas, pero no sólo eso. Los distractores elegidos darían pistas de qué no saben, qué tienen los estudiantes mal aprendido. Pero, ¿no es esto contradictorio con el modelo propuesto? Según el modelo, los evaluados que han elegido las opciones incorrec- tas lo han hecho porque no sabían la respuesta correcta, han decidido no omitir y han res- pondido al azar entre todas las opciones disponibles con equiprobabilidad. ¿Qué podemos concluir cuando una opción no es elegida, o una lo es más que la opción correcta? Una primera conclusión es que el modelo no se ha cumplido. Si los errores, como plantea el modelo, son exclusivamente resultado de las respuestas al azar, no se puede explicar que una opción no sea elegida por nadie y otra, por muchos. Un modelo alternativo es que los estudiantes, cuando se penalizan los errores, no res- ponden al azar sino que eligen la opción que creen correcta. Algunos eligen la realmente correcta, y otros, que saben menos, eligen la opción incorrecta que consideran correcta. Según este modelo, es posible que en una pregunta difícil sólo unos pocos elijan la opción correcta y la mayoría se decante por las distintas opciones incorrectas, que no necesaria- mente habrían de ser igual de atractivas. Cada distractor plantea una solución considerada correcta por los que saben poco y la frecuencia de elección de cada una indicaría qué pro- porción de estudiantes tiene el correspondiente aprendizaje incorrecto. Por tanto, no cabe esperar que la proporción de evaluados que tengan el conocimiento erróneo que les lleva al distractor a tenga que ser similar que la proporción de los que tengan el aprendizaje in- correcto que lleva al c, y tampoco que tenga que ser menor que la proporción de estudian- Capítulo 2. Construcción de tests y análisis de ítems 57 tes que saben la respuesta correcta. Kehoe (1995) realiza las siguientes recomendaciones en relación a cómo se ha de proceder tras el estudio de las opciones incorrectas: a) Hay que reemplazar o eliminar los distractores que no son elegidos. b) No debiera preocupar- nos que los distractores no sean elegidos por el mismo número de estudiantes, pues dife- rentes tipos de errores pueden ser cometidos por distinto número de estudiantes. c) Que la mayoría de los estudiantes falle un ítem no implica que deba ser cambiado, aunque los ítems en los que ocurre esto debieran analizarse detenidamente. d) Hay que sospechar de un ítem en el que un distractor es más elegido que todas las demás opciones juntas, en es- pecialsi la elección del distractor correlaciona positivamente con la puntuación en el test. Los indicadores de discriminación vistos se pueden aplicar también a las opciones in- correctas. El índice de discriminación D aplicado a cada distractor nos diría si hay dife- rencia o no en la tasa de elección del distractor entre los subgrupos superior e inferior. Al- go similar puede hacerse con los índices basados en la correlación ítem-test o ítem-resto del test. Ejemplo 2.11. Correlación ítem-test en el estudio de las opciones incorrectas Los autores generamos el siguiente ítem de Razonamiento: Descubra el elemento que sigue en la serie 0, 1, 10, 11, 100, 101, ¿? a) 102 b) 200 c) 110 d) 1000 Aplicado el ítem a una muestra de N evaluados, conocemos la opción que cada uno ha elegido y la puntuación en el test. Con estos resultados, podemos generar la Tabla 2.13. La segunda columna contiene la opción elegida por cada evaluado. Tabla 2.13. Opción elegida por cada evaluado y puntuación en el test Evaluado Opción elegida a b c d X 1 a 1 0 0 0 30 2 d 0 0 0 1 23 3 b 0 1 0 0 32 4 a 1 0 0 0 25 5 c 0 0 1 0 37 6 c 0 0 1 0 12 7 b 0 1 0 0 19 . . . . . . . . . . . . . . N d 0 0 0 1 23 Las columnas a, b, c y d muestran un 1 y 3 ceros (1 en la columna que corresponde a la opción elegida). La proporción de evaluados que eligió cada opción fue: 0,01 (a), 0,04 (b), 0,29 (c) y 0,56 (d). La correlación de las columnas 3, 4, 5 y 6 de la tabla con la puntuación 58 Medición en Ciencias Sociales y de la Salud en el test, X, fue –0,09 (a), –0,12 (b), 0,07 (c) y 0,13 (d). Nótese que las proporciones y las correlaciones serían los índices de dificultad y discriminación, respectivamente, si consi- deramos cada opción como la opción correcta. El estudio de estos valores da pistas sobre si la opción propuesta como correcta efectivamente lo es. ¿Qué nos dicen los anteriores resultados de la calidad del ítem? Los creadores del ítem propusimos como opción correcta la d (la serie sería: 0, 1, 10, 11, 100, 101, 1000, 1001, etc.). La correlación ítem-test de esa opción es positiva (0,13), aunque baja. Lo sorpren- dente es que otra opción, en principio falsa, dio una correlación también positiva con la puntuación en el test. Volvimos a leer el ítem y nos dimos cuenta de que la serie, si se en- tiende expresada en código binario11, debe continuar con la opción c (110). Por tanto, la opción c es también una opción correcta posible. El estudio de la discriminación de las opciones del ítem nos ha indicado que tiene de hecho dos soluciones. Otro resultado de in- terés es la escasa frecuencia de elección de los otros dos distractores. El ítem se aplicó en una oposición, donde los candidatos se juegan un puesto de trabajo y muchos años de pre- paración, y se penalizaban los errores. En estos contextos, los que no saben la respuesta prefieren dejar el ítem en blanco a responder al azar. La proporción de omisión en este ítem fue del 10%. Esta proporción pudo también haberse incrementado por los opositores que se dieran cuenta de las dos soluciones posibles. La opción 1 no ha sido elegida casi por nadie. En resumen, es un ítem manifiestamente mejorable o directamente descartable. Análisis gráfico de ítems de opción múltiple Una estrategia complementaria, más que alternativa, de hacer el análisis de ítems consiste en recurrir a gráficos. Livingston (2006) y Dowing y Haladyna (1997) recomiendan esta estrategia. Supongamos que tenemos un test formado por ítems de 3 opciones. Se puede fácilmente obtener la gráfica que se muestra a continuación (Figura 2.2). Lo primero que hacemos es dividir la muestra en varios subgrupos (por lo general, 5) con un número de evaluados similar. En el ejemplo que sigue el primer subgrupo está formado por las per- sonas que tienen las peores puntuaciones en el test (menores de 12); el segundo subgrupo, por los que tienen las puntuaciones 13 ó 14; el tercero, por los que tienen puntuaciones en- tre 15 y 17; el cuarto por los que tienen puntuaciones entre 18 y 20; y el quinto por las me- jores puntuaciones (superiores a 20). Se ha procurado que en cada subgrupo haya alrede- dor de un 20% de la muestra. En el eje de ordenadas se muestra la proporción de evalua- dos del correspondiente subgrupo que ha elegido cada una de las tres alternativas y la omisión. En la gráfica puede comprobarse que en el subgrupo con peor rendimiento en el test, alrededor de un 46% ha dejado el ítem sin responder, alrededor de un 22% ha elegido la opción 2, un 16% ha elegido la opción 1 y el restante 16% la opción 3. Similar informa- ción se ofrece para cada uno de los cinco subgrupos. 11 Pues 0 en binario es, en decimal, 0; 1 es 1; 10 es 2; 11 es 3; 100 es 4; y 101 es 5. Por tanto, el término que si- gue a 101 podría ser 110 (en decimal, 6), que aparece como opción c. Capítulo 2. Construcción de tests y análisis de ítems 59 Figura 2.2. Elección de las opciones de un ítem en función de la puntuación en el test Cada curva muestra cómo funciona la opción en los distintos subgrupos. En el caso de la opción correcta, cabe esperar que sea tanto más elegida cuanto mayor sea la puntuación en el test. Es decir, a la opción correcta deberá corresponder una curva creciente. La opción especificada como correcta en el ítem es la opción 3. En las opciones incorrectas o distrac- tores debe ocurrir lo contrario: la proporción de personas que elige el distractor debe ser menor cuanto mayor es la puntuación en el test. Por lo tanto, cabe esperar curvas decre- cientes. En la gráfica vemos que la curva es decreciente, aunque muy ligeramente, para el distractor 1 y creciente para el distractor 2. Parece, por tanto, que el distractor 2 no está funcionando bien y el 1 tampoco discrimina demasiado entre los que tienen puntuaciones altas y bajas en el test. Discrimina mejor la omisión. Otra información útil que nos da la gráfica es la proporción de elección de cada opción. Vemos que la opción 1 es muy poco elegida (sólo pasa, y ligeramente, del 10% en el subgrupo de los que menos puntuación han tenido en el test). Sin embargo, la proporción de omisión es la más alta en todos los subgrupos menos el último (que es sobrepasada por la opción correcta). En el análisis cuantitativo, los indicadores psicométricos de este ítem se presentan en la Tabla 12.4. Se aprecia la alta proporción de omisiones y la baja tasa de elección del dis- tractor 1. Los índices de discriminación de la opción correcta (marcada con un asterisco) son más bien bajos (sólo uno de los dos supera y por poco el valor 0,2). El distractor 2 muestra indicadores de discriminación positivos, aunque muy bajos, cuando los debiera dar negativos, como los da el distractor 1. En conjunto, puede decirse que la calidad del ítem es baja. Tabla 2.14. Indicadores de las 3 opciones y de la omisión 1 2 3* Omisión Proporción de elección (p) 0,075 0,226 0,252 0,447 Correlación ítem-test (rjX) –0,127 0,032 0,224 –0,154 Índice de discriminación (D) –0,091 0,067 0,180 –0,156 60 Medición en Ciencias Sociales y de la Salud Ejemplos de análisis de ítems Se muestran tres ejemplos. El primero corresponde a un examen con preguntas de opción múltiple; el segundo, a un test de rendimiento óptimo con preguntas abiertas; y el tercero, a un test de rendimiento típico con ítems de categorías ordenadas. Ejemplo 2.12. Análisis de un examen de opción múltiple Hemos aplicado un examen de 14 ítems de opción múltiple (3 opciones) sobre los conte- nidos de este tema a 87 estudiantes que cursaban la asignatura de Introducción a la Psico- metría. Los estudiantes respondieron sabiendo que la calificación obtenida no tendría re- percusión alguna en su nota final y con la instrucción de no dejar ítems sin responder. El análisis psicométrico comienza con la creación del archivo de datos, que consta de tantas filascomo evaluados y tantas columnas como ítems. Para la obtención de los resul- tados que siguen hemos utilizado los programas TAP (Brooks y Johanson, 2003) y SPSS. Unos primeros datos de interés tienen que ver con la distribución de frecuencias de las puntuaciones en el test de los 87 estudiantes. El número medio de aciertos ha sido 9,149, el 65,4% de los 14 aciertos posibles. En proporción, 0,65 es también la media de los índi- ces de dificultad p de los 14 ítems. Este valor incluye los aciertos que puedan haberse ob- tenido respondiendo al azar. En este test la consideración es relevante, pues pedimos a los estudiantes que no dejasen respuestas sin contestar. Aplicando la fórmula [2.3], obtene- mos la proporción media de acierto corregida, pc = 0,65 – (1 – 0,65)/2 =0,48, que queda muy cerca del valor 0,5 de referencia. Una primera conclusión del examen es que su nivel de dificultad medio es apropiado. Por tanto, los ítems facilitan que el test tenga variabili- dad. La varianza de las puntuaciones en el examen resultó ser 4,15. La Tabla 2.15 muestra para cada ítem el índice de dificultad (p) y cuatro indicadores de la discriminación: el índice de discriminación (D), la correlación biserial (rb), la corre- lación biserial puntual (rbp) y la correlación biserial puntual corregida (r c bp). El primer ítem ha sido acertado por 74 de los 87 estudiantes. El índice de dificultad p es 0,85 (=74/87), el índice de discriminación D es 0,08. La correlación biserial es 0,31, la biserial puntual ítem-test es 0,20 y la correlación biserial puntual corregida, o ítem-resto del test, es 0,03. La tabla anterior proporciona similar información de los restantes 13 ítems. No se han obtenido índices de discriminación negativos, excepto la correlación biserial puntual corregida del ítem 11. En todos los ítems la correlación biserial puntual está por encima de 0,20. En general, los ítems no plantean problemas de discriminación, aunque la correlación ítem-test corregida está muy cerca de cero en varios ítems. Capítulo 2. Construcción de tests y análisis de ítems 61 Tabla 2.15. Resultados del análisis de 14 ítems de opción múltiple Ítem Dificultad p Discriminación D br bpr c bpr 1 0,85 0,08 0,31 0,20 0,03 2 0,78 0,38 0,51 0,37 0,17 3 0,87 0,10 0,34 0,21 0,05 4 0,63 0,31 0,36 0,28 0,05 5 0,48 0,46 0,52 0,41 0,18 6 0,70 0,47 0,55 0,42 0,21 7 0,28 0,46 0,55 0,41 0,20 8 0,82 0,19 0,30 0,21 0,02 9 0,62 0,22 0,36 0,28 0,04 10 0,60 0,31 0,37 0,29 0,05 11 0,63 0,22 0,27 0,21 –0,03 12 0,83 0,25 0,45 0,30 0,12 13 0,61 0,45 0,54 0,43 0,21 14 0,45 0,56 0,62 0,49 0,27 Analicemos las tasas de elección de las opciones incorrectas del ítem 4, que era: “La Comunidad Valenciana tiene a) más de 3 millones de habitantes, b) cinco aeropuertos, c) menos de tres millones de habitantes.” ¿Cuál es el principal fallo del ítem anterior? 1) Las opciones no están dispuestas verticalmente. 2) Da pistas sobre la respuesta correcta. 3) Evalúa sólo el recuerdo. La Tabla 2.16 muestra la proporción de la muestra total que ha elegido cada una de las tres opciones (primera fila), la proporción que ha elegido cada opción del subgrupo supe- rior (segunda fila) y del subgrupo inferior (tercera fila). La cuarta fila contiene la diferen- cia entre las proporciones que aparecen en las filas segunda y tercera (es decir, el índice de discriminación D de cada opción). Las dos últimas filas muestran las correlaciones ítem-test e ítem-resto del test si se toma cada opción como la opción correcta. En la Tabla 2.16 comprobamos que la diferencia entre la proporción de acierto del grupo superior e inferior (0,31) coincide con el valor del índice de discriminación D para el ítem 4 en la Tabla 2.15. En el grupo completo la opción más elegida es la correcta (op- ción 2). De las dos opciones incorrectas, la opción 1 es elegida por un 31% de los estu- diantes, mientras que la 3 lo es sólo por el 6%. La opción 1 está funcionando como un buen distractor, pues efectivamente en una de las recomendaciones expuestas en el apar- tado Redacción de ítems de opción múltiple se afirma que hay que disponer las opciones verticalmente, y ciertamente el ítem incumple esta recomendación. Los estudiantes de mayor conocimiento seguramente saben que el ítem incumple esa recomendación, pero se dan cuenta de que incumple otra más importante. Como está redactado el ítem, las opcio- nes a y c son exhaustivas, pues la Comunidad Valenciana ha de tener más o menos de 3 millones de habitantes, por lo que la opción correcta no puede ser la opción 1. Por tanto, el 62 Medición en Ciencias Sociales y de la Salud principal fallo del ítem es que da pistas sobre la opción correcta. El distractor 3 ha sido muy poco elegido. Habría que cambiarlo por otro. La presencia de la palabra sólo ayuda quizás a hacer poco plausible el distractor, pues es difícil que un ítem evalúe sólo algo. Se podría cambiar ese distractor por La idea principal no está en el enunciado, que se refiere a otra recomendación que el ítem incumple pero que es también menos importante que lo indicado por la opción 2. Tabla 2.16. Indicadores de las 3 opciones 1 2 3 Completo 0,31 0,63 0,06 27% Superior (ps ) 0,15 0,81 0,04 27% Inferior (pi ) 0,44 0,50 0,06 Diferencia (ps–pi ) –0,29 0,31 –0,02 bpr –0,25 0,28 –0,09 c bpr –0,04 0,05 –0,02 Al aplicar el indicador D a los dos distractores, vemos que al 1 corresponde un indicador negativo de –0,29, mostrando que ha sido elegido preferentemente por los estudiantes del subgrupo inferior. El valor de D en el otro distractor, el 3, está muy próximo a cero. En cualquier caso, sólo 5 personas de la muestra total han elegido esa opción. De esas 5, una pertenece al subgrupo superior y dos al inferior. Cuando la frecuencia total de elección del distractor es tan baja no es posible obtener diferencias de entidad entre los subgrupos. Figura 2.3. Elección de las opciones de un ítem en función de la puntuación en el test La Figura 2.3 muestra la proporción de estudiantes que ha elegido cada alternativa dentro del subgrupo con puntuaciones bajas (33% de peores calificaciones en el test), medias (33% de puntuaciones centrales) y altas (34% de puntuaciones mejores). Se han formado sólo tres subgrupos por tener la muestra sólo 87 estudiantes. Se aprecia el adecuado fun- cionamiento del distractor 1 y de la opción correcta 2. El distractor 3 apenas ha sido elegi- do en ninguno de los subgrupos. Capítulo 2. Construcción de tests y análisis de ítems 63 En todos los items la correlación biserial puntual y la biserial están por encima de la referencia 0,20, lo que sugiere que ningún ítem requiere una revisión profunda. La Figura 2.4 muestra que de los cuatro ítems con menores valores de la biserial puntual, tres (ítems 1, 3 y 8) de ellos resultaron muy fáciles, con valores p superiores a 0,80. Como se ha comentado anteriormente, resulta complicado que ítems muy fáciles o muy difíciles sean a la vez discriminativos. Oosterhof (1976) encontró que cuanto más se aleja de 0,5 el índice de dificultad p del ítem, menores suelen ser los índices de discriminación. Figura 2.4. Relación entre los índices de dificultad y de discriminación El análisis visto puede extenderse a un examen compuesto por J preguntas abiertas. En ese caso, obtendríamos la media como indicador de la dificultad. Prestaríamos atención a la varianza de cada pregunta. En principio, como ocurre en el caso de ítems dicotómicos, los ítems que tienen más varianza son los que más ayudan a que el test tenga varianza. Por tanto, una pregunta con varianza nula o casi nula, en la que la mayoría de los estudiantes hayan obtenido la misma puntuación, no parece en principio una buena pregunta, aunque también aquí cabe hacer la salvedad de que puede tener sentido mantener algunas pregun- tas muy fáciles si se introducen para constatar el dominio de conocimientos fundamenta- les.El indicador de la capacidad discriminativa de cada pregunta sería la correlación de Pearson entre las puntuaciones en cada ítem y la puntuación en el test. Cabe también ob- tener la correlación de Pearson entre las puntuaciones en la pregunta y en el resto del test, si son pocas las preguntas. Si tenemos una medida en un criterio externo que nos interese predecir, podríamos obtener el índice de validez de los ítems. En los dos ejemplos siguien- tes se obtienen e interpretan todos estos indicadores con datos reales. Ejemplo 2.13. Análisis de ítems abiertos En la parte práctica de un examen el estudiante ha de responder a 8 preguntas abiertas, puntuadas cada una entre 0 y 1. La nota en el examen práctico es la suma de las califica- 64 Medición en Ciencias Sociales y de la Salud ciones en sus 8 ítems. La Tabla 2.17 muestra la media, la varianza y la correlación ítem- resto del test de cada ítem. El número de estudiantes del examen ha sido 68. Tabla 2.17. Resultados del análisis de 8 ítems Ítem Media Varianza Correlación ítem-resto del test 1 0,79 0,10 0,06 2 0,37 0,11 0,26 3 0,12 0,09 –0,02 4 0,92 0,07 0,16 5 0,77 0,12 0,26 6 0,69 0,09 0,40 7 0,64 0,20 0,31 8 0,36 0,16 0,21 Se aprecia en la tabla que las preguntas han resultado muy diferentes en dificultad. La 4 ha resultado muy fácil (su media, 0,92, está muy cerca de la máxima puntuación posible, 1). La 3 ha resultado muy difícil (su media, 0,12, está cerca de cero). Los ítems 6 y 7 di- fieren poco en dificultad (sus medias son 0,69 y 0,64), pero más en varianza. El ítem 7, en principio, ayuda más que el ítem 6 a que la nota en el examen tenga variabilidad. La últi- ma columna muestra que cinco de los ocho ítems correlacionan más de 0,20 con el resto del test. En el ítem 4 la correlación está ligeramente por debajo de ese valor. En dos ítems (1 y 3) la correlación es muy próxima a cero y esos ítems no parecen relacionarse con el examen práctico en su totalidad. Ejemplo 2.14. Análisis de ítems de categorías ordenadas Los autores hemos elaborado una escala de 12 ítems para medir Estabilidad Emocional. Cada ítem es un adjetivo y el evaluado debe indicar cómo de bien le describe, seleccio- nando una de las 5 categorías disponibles (Muy mal, Mal, Ni bien ni mal, Bien, Muy bien). Los principales resultados del análisis de ítems (media, desviación típica y correlación ítem-test corregida) se muestran en la Tabla 2.18. Lo primero que llama la atención son los valores tan elevados de las medias12. Cada ítem se puntuó entre 1 y 5 (ítems directos) o entre 5 y 1 (ítems inversos). Por tanto, en los ítems directos, al obtenerse medias por en- cima de 4, prácticamente todos los evaluados consideran que ser feliz, ser una persona madura… una persona equilibrada les describe bien o muy bien. Igualmente, en los ítems inversos, por superar las medias el valor 4, consideran que ser irritable, malhumorada… y ser una persona con sentimientos de culpa les describe mal o muy mal. Las desviaciones típicas son pequeñas, como cabe esperar cuando las medias son tan altas. Las correlacio- nes de cada ítem con el resto del test son todas positivas, significativamente distintas de 12 Los datos se han obtenido en un proceso selectivo y muy probablemente las respuestas han sido parcialmente falseadas (deseabilidad social) para acomodarse al perfil psicológico que demanda el puesto. Capítulo 2. Construcción de tests y análisis de ítems 65 cero, y mayores de la referencia 0,2. Por tanto, todos los ítems tienen una adecuada dis- criminación y están contribuyendo a medir lo que se pretende medir con el test. No pare- ce, por tanto, que haya que reconsiderar o anular ninguno de los 12 ítems. Tabla 2.18. Resultados del análisis de 12 ítems de categorías ordenadas Soy una persona… Media Desviación típica Correlación ítem-test corregida Feliz 4,39 0,583 0,423 Estable 4,43 0,559 0,586 Madura 4,28 0,537 0,521 Optimista 4,32 0,577 0,482 Equilibrada 4,43 0,576 0,571 Coherente 4,26 0,578 0,486 Irritable 4,33 0,614 0,542 Malhumorada 4,34 0,568 0,594 Miedosa 4,13 0,564 0,438 Envidiosa 4,31 0,611 0,491 Desanimada 4,35 0,596 0,574 Con sentimientos de culpa 4,25 0,794 0,381 Corrección de los efectos del azar En los tests formados por ítems de opción múltiple podemos sobrestimar el nivel de ren- dimiento de algunas personas, dado que algunos de sus aciertos han podido producirse por haber respondido al azar, y no por saber la opción correcta. El problema entonces consiste en establecer un procedimiento para descontar del número total de aciertos (X) los que su- puestamente se han producido por haber respondido al azar (Xa). Supongamos que dos estudiantes saben lo mismo y responden al mismo test, que con- siste en 100 preguntas con formato verdadero-falso. Los dos saben 60 preguntas. El pri- mero responde a las 60 preguntas que sabe y omite las 40 que no sabe. Su puntuación en el test, su número de aciertos, será 60. El segundo estudiante responde a las 60 preguntas que sabe y decide responder estrictamente al azar a las otras 40. Como cada una tiene dos opciones, supongamos que acierta 20 de las 40. Pues bien, mientras que el primer estu- diante tiene 60 aciertos (las preguntas que sabe), el segundo tiene 80 (las 60 que sabe y las 20 que ha acertado por haber respondido al azar). En este apartado vamos a proponer un procedimiento que pretende eliminar del número total de aciertos los que presumiblemen- te se deben al azar. Ante un ítem, supondremos que la persona se encuentra en uno de dos estados de co- nocimiento: en el estado conoce la respuesta o en el estado no conoce la respuesta. En el primer estado supondremos que conoce la respuesta y acierta con probabilidad 1. Si se en- cuentra en el segundo estado, tiene dos posibilidades: no responder o elegir al azar una de las K opciones. Dado que el ítem tiene una sola opción correcta y que suponemos que to- das las opciones son equiprobables cuando se responde al azar, la probabilidad de acierto 66 Medición en Ciencias Sociales y de la Salud será 1/K y la de fallo será 1 – (1/K) = (K – 1)/K. La Figura 2.5 muestra las diferentes po- sibilidades. Figura 2.5. Estados de conocimiento y resultados en el ítem Llamemos Ra al número de respuestas al azar que la persona da (es decir, al número de ítems que ha contestado sin saber la respuesta). De las Ra respuestas, algunas serán acier- tos aleatorios (Xa) y otras serán errores (E). Nuestro objetivo es obtener el valor de Xa para descontarlo del número total de aciertos (X) que ha obtenido. Respondiendo al azar, la probabilidad de fallar un ítem vimos que es (K – 1)/K. Si se responde al azar a Ra ítems, el número esperado de errores (E) será: K K RE a 1− = [2.9] Si despejamos Ra de esta expresión, se obtiene: E K K Ra 1− = [2.10] Siguiendo el mismo razonamiento, el número esperado de aciertos aleatorios cuando se dan Ra respuestas al azar será: K RX aa 1 = [2.11] Si realizamos las sustituciones oportunas, se obtiene: E KK E K K X a 1 11 1 − = − = [2.12] La expresión anterior permite obtener Xa, a partir de los errores cometidos (E) y del núme- ro de alternativas que tienen los ítems (K). Podemos observar que cada error se pondera por la expresión 1/(K – 1), lo que significa que por cada error hay que descontar tantos aciertos como indica ese cociente: en tests de 2 alternativas de respuesta, hay que descon- Capítulo 2. Construcción de tests y análisis de ítems 67 tar 1 acierto por cada error; en ítems de 3 alternativas, 0,5 aciertos por cada error; en ítems de 4 alternativas, 0,33 aciertos por cada error; y así sucesivamente. La puntuación corregida de una persona en el test será: 1− −=−= K E XXXX a c [2.13] Si aplicásemos esta fórmula al ejemplo que planteamos al comienzo, tendríamos que, para el primer estudiante,60 12 0 60 1 = − −= − −= K E XX c Para el segundo, 60 12 20 80 1 = − −= − −= K E XX c La fórmula correctora deja a ambos estudiantes, que sabían lo mismo, con la misma pun- tuación (60), que son por cierto los ítems que sabían. La fórmula anterior se aplica cuando todos los ítems tienen igual número de opciones. Si el número varía, un error en un ítem j de Kj opciones quitaría 1/(Kj – 1) aciertos (Frary, 1988). Por tanto, Xa sería la suma de los valores 1/(Kj – 1) de los ítems en los que se obtu- vo un error. Ejemplo 2.15. Obtención de las puntuaciones corregidas Un test de conocimientos del nivel de inglés está formado por 140 ítems con 5 opciones de respuesta cada uno. En la Tabla 2.19 se detallan el número de aciertos (X), errores (E) y omisiones (O) que obtuvieron 3 evaluados. La última columna contiene sus puntuaciones corregidas. Si atendemos únicamente al número de aciertos obtenidos, quien más inglés parece saber es el evaluado 1, seguido del 2 y en último lugar el 3. Sin embargo, tras co- rregir los efectos del azar, comprobamos que la corrección afecta al orden que estableci- mos a partir de las puntuaciones sin corregir. Similarmente, si nos fijamos en la corrección hecha para el evaluado 3, vemos que no se le ha descontado nada, pues no cometió ningún error. Tabla 2.19. Aciertos, errores, omisiones y puntuaciones corregidas Evaluado X E O X c 1 112 28 0 112 – 28/4 = 105 2 110 12 18 110 – 12/4 = 107 3 109 0 31 109 – 0/4 = 109 68 Medición en Ciencias Sociales y de la Salud Haciendo así las cosas se está asumiendo que sólo se puede obtener un error cuando se responde al azar. El modelo no contempla la posibilidad de error por descuido o por haber aprendido algo mal, sino exclusivamente como resultado de una respuesta completamente al azar entre las K opciones. Por tanto, si hay errores es que ha habido respuestas al azar. Según la fórmula [2.13], a partir del número observado de errores puede obtenerse el número de aciertos que han debido producirse por azar y ese valor se resta del total de aciertos. Se pueden plantear otros modelos alternativos al expuesto en la Figura 2.5, de cómo los evaluados responden a los ítems de opción múltiple. De hecho, no es infrecuente que los alumnos salgan de un examen diciendo que no han dado una sola respuesta al azar y sin embargo obtienen errores. Esto ocurre porque consideran correctas opciones que no lo son. En cualquier caso, lo que es evidente es que inferir el número de aciertos debidos al azar a partir de estos errores es incorrecto, pues no se han generado por haber respondido al azar. En el apéndice de este tema se describe otra fórmula para la corrección de los efectos del azar. ¿Hay que aplicar o no las fórmulas correctoras? No hay duda de que se ha de avisar al evaluado de si se va a aplicar o no alguna fórmula y de sus detalles, en su caso. No hay tanto acuerdo en relación a si es adecuado aplicarlas o no. Conviene tener en cuenta las consideraciones que se exponen a continuación. Lo que hace la fórmula correctora es eliminar los aciertos que se obtienen al responder completamente al azar. En ese sentido, quien responde sólo a lo que sabe y quien respon- de a lo que sabe y a lo que no (y a estas preguntas completamente al azar) deberá esperar, tras la aplicación de la fórmula correctora, la misma puntuación. Por lo tanto, si se aplica la fórmula descrita, debiera no importar dar respuestas al azar, pues se espera obtener el mismo número de aciertos. Supongamos que estamos ante un ítem de cinco opciones. Si alguien responde completamente al azar, la probabilidad de acierto es 0,20 y de fallo 0,80. Al aplicar la fórmula, por cada error el número de aciertos queda reducido en ¼ = 0,25. Si esto lo hace en los 20 ítems de un examen, su número esperado de aciertos y de errores es 20(0,20) = 4 y 20(0,8) = 16, respectivamente. Al aplicar la fórmula correctora [2.13], tendríamos que Xc =4 – 16/4 = 0. Supongamos que alguien sabe que una de las opciones no es correcta. En ese caso, si responde completamente al azar entre las demás, la probabi- lidad de acierto es 0,25 y la de fallo es 0,75. Si, por ejemplo, en 20 preguntas responde al azar entre cuatro opciones, pues tiene la seguridad de que una de las opciones no es co- rrecta, el número esperado de aciertos por azar en esas 20 preguntas será (20)(0,25) = 5 y el de errores (20)(0,75)= 15. Sin embargo, al aplicarle la fórmula correctora, el número esperado de aciertos que se le quitarán serán (15)(0,25) = 3,75. Es decir, se le quitarían menos aciertos (3,75) de los que esperaría (5). Supongamos que puede descartar dos op- ciones en cada ítem. En ese caso, si responde completamente al azar entre las demás, la probabilidad de acierto es 1/3 y la de fallo es 2/3. Si, por ejemplo, en 20 preguntas res- ponde al azar entre las tres opciones, pues tiene la seguridad de que dos de las opciones no son correctas, el número esperado de aciertos por azar en esas 20 preguntas será (20)(1/3) = 6,7, y el de errores será (20)(2/3)=13,3. Al aplicarle la fórmula, el número de aciertos que se le quitarían sería (13,3)(0,25) = 3,32, que es inferior al número esperado de aciertos (6,7). Vuelve a resultar interesante responder al azar entre las tres opciones. En conclusión, si no se puede descartar ninguna opción, la fórmula te va quitar, en promedio, lo que ganes por haber respondido al azar. Si se tiene seguridad de que alguna opción es incorrecta, el número de aciertos esperado es mayor que el número de aciertos que la fórmula resta si se responde al azar entre las opciones no descartadas. Este resulta- Capítulo 2. Construcción de tests y análisis de ítems 69 do es importante, pues muestra que la aplicación de la fórmula correctora NO elimina to- dos los aciertos que puedan haberse producido por responder al azar. Elimina todos los aciertos cuando se responde al azar entre todas las opciones, pero no cuando se elimina alguna porque se conoce que es falsa. Entre los especialistas no existe acuerdo sobre el tipo de instrucciones que se tienen que dar, por ejemplo, en un examen con preguntas de opción múltiple. Cuando un estu- diante no sabe lo suficiente para aprobar, la mejor estrategia que puede seguir es respon- der al azar a las preguntas que no sabe, por si pudiera, por puro azar, obtener el número de aciertos requerido para aprobar. La recomendación general de “no responder al azar” no es la adecuada para estos estudiantes y cabe plantearse si puede darse como instrucción general cuando no es apropiada en algunas situaciones (Frary, 2008). Este autor concluye que: “…es difícil recomendar una fórmula correctora de los aciertos obtenidos por las respuestas dadas al azar en los exámenes de opción múltiple habituales en la universi- dad… Lo más justo es recomendar a todos los estudiantes que lo mejor para ellos es con- testar a todas las preguntas sea cual sea su nivel de conocimientos”. Otros autores (Burton y Miller, 1996; Burton 2001b, 2004) están a favor de aplicar las fórmulas correctoras, porque son eficaces en la reducción de las respuestas al azar, indi- cando a los evaluados la reducción que se va a aplicar por cada error. Burton (2001b) pro- pone que se aplique la Fórmula [2.13] a pesar de que no corrija adecuadamente los acier- tos atribuibles a las respuestas al azar, precisamente porque reduce o elimina dichas res- puestas y porque considera deshonesto instruir a los evaluados para que respondan a lo que no saben. Otra ventaja de intentar evitar las respuestas al azar es que, desde un punto de vista instruccional, las respuestas erróneas son informativas de lo que un estudiante no ha llegado a aprender. Cuando fomentamos las respuestas al azar, se pierde esta valiosa información (Burton, 2004). 70 Medición en Ciencias Sociales y de la Salud Apéndice Segunda fórmula correctora Traub, Hambleton y Singh (1969) propusieron una segunda fórmulaque premia las omisiones en vez de penalizar los errores. En un test de J ítems de opción múltiple de K opciones, con sólo una opción correcta, una persona obtiene X aciertos, O omisiones y E errores. En un ítem, si en vez de omitir se hubiese respondido al azar, la probabilidad de acierto sería 1/K. De haber hecho esto mis- mo en los O ítems omitidos, el valor esperado de aciertos en los O ítems sería O(1/K)=O/K. Se pro- pone como segunda fórmula la siguiente: K O XX c +=2 [2.16] La segunda fórmula añade los aciertos que cabe esperar obtener si se responde completamente al azar a los ítems de los que no se sabe la respuesta correcta, en vez de quitar los aciertos que se su- ponen obtenidos por haber respondido al azar. Es evidente que las puntuaciones corregidas obteni- das por la segunda fórmula por lo general serán más altas que las obtenidas por la primera. La Tabla 2.20 se ha construido a partir de los datos de la Tabla 2.19, que incluye el patrón de re- sultados de 3 evaluados en un test de 140 ítems de 5 opciones de respuesta. Tabla 2.20. Aciertos, errores, omisiones y puntuaciones corregidas Evaluado X E O cX cX 2 1 112 28 0 105 112 + 0/5 = 112 2 110 12 18 107 110 +18/5 = 113,6 3 109 0 31 109 109 + 31/5 = 115,2 Se aprecia que las tres personas están ordenadas de la misma manera en ambas fórmulas correctoras. Es más, si representamos gráficamente las puntuaciones de las tres personas según las dos correc- ciones, vemos (Figura 2.6) que están en la misma recta: Figura 2.6. Relación lineal entre las dos fórmulas correctoras 111 112 113 114 115 116 104 106 108 110 X c 2 = X + O /K Xc = X - E/(K-1) Capítulo 2. Construcción de tests y análisis de ítems 71 La relación observada se cumple siempre, pues existe una relación lineal entre los valores que se ob- tienen con ambas fórmulas: K J X K K K K K K K J K E X K K K K K J K K K E K K K K X K J K E K K X K J K E K X X K EXJ X K O XX c c + − = − − + − −= − − + − − − −= +− −=+−−= −− +=+= 1 1 11 1 111 1 1 2 Ambas fórmulas son equivalentes, pues ordenan a las personas exactamente de la misma manera. Las puntuaciones obtenidas son, sin embargo, muy diferentes. La fórmula que premia las omisiones otorga puntuaciones más altas que la que penaliza los errores. Por tanto, a la hora de interpretar las puntuaciones habrá que tener esto en cuenta. No parece que pueda ponerse, por ejemplo, el mismo punto de corte de aprobado si se aplica una u otra. Algunos autores plantean que, desde un punto de vista ético, parece mejor estrategia premiar la omisión cuando no se sabe, que castigar lo que se quiere evitar (Frary, 2008). Hemos visto que esas posiciones relativas de los evaluados son las mismas cuando se aplica una u otra fórmula. La relación de cX y cX 2 con la puntuación sin corregir, X, requiere algún comenta- rio adicional. Es fácil ver que existe una relación lineal perfecta entre cX y X cuando no hay omisiones. 111111 − − − = − − − += − − −= − −= K J K K X K J K X X K XJ X K E XX c Como existe una relación lineal entre cX y cX 2 , se sigue que también la hay entre cX 2 y X. Por lo tanto, la posición relativa de las personas es la misma cuando son puntuadas con las dos fórmulas correctoras y la misma que se obtendría tomando la puntuación sin corregir, en el caso de que no hubiera omisiones. La relación entre la puntuación sin corregir y la corregida en el caso general, cuando hay omisiones, es de un fuerte componente lineal, pero no cabe esperar una relación lineal perfecta. La Figura 2.7 muestra los resultados de 80 estudiantes en un test de 14 ítems. Se obtuvo el siguiente diagrama de dispersión entre las puntuaciones corregidas Xc y las puntuaciones sin corre- gir X. La correlación entre ambas es de 0,971. 72 Medición en Ciencias Sociales y de la Salud Figura 2.7. Relación entre el total de aciertos, X, y la puntuación corregida, Xc Programas de ordenador para el análisis de ítems Son muchos los programas disponibles para la realización del análisis clásico de ítems. Algunos son además de libre distribución. A continuación se detallan las principales características de algunos y cómo pueden conseguirse. TAP (Brooks y Johanson, 2003) es un programa de libre distribución. Proporciona para cada ítem los índices de dificultad (p), discriminación (D), correlación biserial (rb), correlación biserial puntual (rbp) y correlación biserial puntual corregida. Permite el estudio del funcionamiento de las opciones incorrectas, pues proporciona para cada opción la frecuencia de elección y el índice de dis- criminación (D). No proporciona para los distractores las correlaciones ítem-test o ítem-resto del test. El tamaño del grupo superior e inferior lo fija por defecto en el 27% de la muestra, pero el usuario puede modificar el porcentaje. El programa puede obtenerse en la dirección: http://oak.cats.ohiou.edu/~brooksg/software.htm#TAP. El programa CIA (http://shkim.myweb.uga.edu/), de libre distribución, obtiene para cada opción del ítem las correlaciones biserial y biserial puntual, con el test y con el resto del test. Divide la muestra en cinco subgrupos de igual tamaño (20%) y obtiene en cada uno cuántos evaluados han elegido cada una de las opciones. No permite cambiar el número de subgrupos. Ledesma, Molina, Valero y Young (2002) han desarrollado un módulo, de libre distribución, que proporciona los siguientes datos: 1) Los estadísticos descriptivos para los ítems y el test, 2) los efectos de la eliminación de cada ítem en los estadísticos descriptivos del test, y 3) las correlaciones entre ítems, ítem-total e ítem-resto del test. El programa da los resultados no sólo mediante tablas, sino también mediante gráficas. López-Pina (2005) proporciona otro programa de libre distribución para el análisis clásico de ítems, denominado CLM-1, válido para ítems de respuesta seleccionada. Obtiene los índices de difi- Capítulo 2. Construcción de tests y análisis de ítems 73 cultad y de discriminación estudiados y el índice de fiabilidad de cada ítem. Proporciona además da- tos psicométricos del test completo. ITEMAN es un programa específico de análisis clásico de ítems de opción múltiple y de cate- gorías ordenadas. Proporciona para cada ítem el índice de dificultad, el índice de discriminación y las correlaciones biserial y biserial puntual sin corregir y corregidas. Más información en Lukas (1998) y en http://assess.com/. En esta misma dirección se puede encontrar otro programa, LERTAP 5. Es una herramienta muy completa para el análisis clásico de ítems y tests. En lo relativo específi- camente al análisis de ítems, proporciona los indicadores de dificultad y discriminación, tanto los basados en la diferencia entre grupos, como en la correlación con el test o resto del test. Permite la inclusión de un criterio externo al test. Proporciona información gráfica del rendimiento del ítem pa- ra los distintos subgrupos. El paquete SPSS no tiene específicamente un programa para el análisis de ítems, pero el proce- dimiento Análisis de fiabilidad puede resultar útil. Proporciona para cada ítem su media y varianza, la correlación entre el ítem y el resto del test, y la media, varianza y fiabilidad del test si se elimina cada ítem. Este procedimiento puede aplicarse a ítems de respuesta seleccionada y construida, así como a ítems de categorías ordenadas. Lei y Wu (2007) han desarrollado programas para SPSS y SAS que completan el análisis clásico de ítems dicotómicos y politómicos de ambos paquetes. El grupo de investigación TIDE, de la Universidad de Barcelona, ha desarrollado varios pro- gramas relacionados con el análisis de ítems y tests. METRIX Engine obtiene para cada ítemsus es- tadísticos descriptivos y los índices de dificultad y discriminación en el caso de ítems de opción múltiple. La aplicación SEDI (Renom, Rodríguez, Solanas, Doval, Núñez y Valle, 2001) acepta la salida del módulo de análisis de ítems de METRIX, evalúa la calidad de cada ítem y recomienda qué hacer con cada uno de ellos. Más información en http://www.ub.es/comporta/tide/Index.htm. 3 Modelo Clásico y fiabilidad Introducción En las Ciencias clásicas (Medicina, Física, Química...) existen aparatos, con márgenes de error especificados, para medir características muy diversas como son la tensión arterial, la temperatura o la concentración de determinados elementos químicos. A pesar de la di- versidad de atributos que pueden medirse, cada uno de estos instrumentos debe satisfacer siempre cuatro tipos de exigencias: 1. Que la medición sea fiable o replicable; es decir, que al repetir las medidas de la misma magnitud se produzcan resultados iguales o parecidos. Por ejemplo, esperaremos obte- ner medidas similares independientemente de si el termómetro es digital o de mercurio, de la persona que toma la temperatura o, si el intervalo entre medidas es suficientemen- te corto, del momento en que se realizan. 2. Que las inferencias sobre los atributos que se realizan a partir de las medidas observa- das sean válidas. Nuestras inferencias serán válidas si son ciertos los principios teóricos en los que se fundamentan. Por ejemplo, a partir del principio físico de la dilatación y teniendo en cuenta el valor del coeficiente de dilatación del mercurio, podemos deducir la temperatura de un objeto a partir de la marca del mercurio en un tubo de cristal. 3. Que se siga el protocolo de aplicación del instrumento y que se atienda al manteni- miento de éste, si es necesario. Por ejemplo, para detectar la presencia de fiebre debe- mos saber en qué parte del cuerpo poner el termómetro y durante cuánto tiempo. 4. Que se tenga en cuenta su rango de aplicabilidad. Cualquier instrumento tendrá un ran- go de aplicabilidad según los niveles de atributo entre los que permite discriminar. En nuestro ejemplo, un termómetro para medir la temperatura corporal no será útil para medir las altas temperaturas en un horno. Las anteriores exigencias también deberían mantenerse para cualquier instrumento de medición en Psicología y disciplinas afines. Podemos pensar en las consecuencias que tie- 76 Medición en Ciencias Sociales y de la Salud ne para el psicólogo de selección que un test no proporcione una buena información de los niveles de inteligencia de los aspirantes; o las consecuencias que puede tener para un es- tudiante que se le aplique una prueba de admisión a la universidad de forma inapropiada o incorrecta; también un psicólogo clínico que utiliza un test de depresión en su labor profe- sional, debe tener un alto grado de certeza de que las puntuaciones que proporciona el test resultan buenas cuantificaciones de los niveles de depresión de sus pacientes; los ejemplos son innumerables… Sin embargo no resulta fácil medir atributos psicológicos pues no existen modelos teó- ricos tan desarrollados y consensuados como los de las ciencias clásicas. Aun así, los psicólogos han intentando definir modelos teóricos que permitan inferir constructos teóri- camente relevantes (o, al menos, predictivos) como la depresión a partir de los comporta- mientos o las respuestas de los evaluados a una serie de ítems. Los procedimientos para evaluar la verosimilitud de esas inferencias se abordarán en el capítulo sobre validación de las medidas. El presente capítulo se centra en la primera exigencia (fiabilidad de las medidas) ya que si las medidas no se replican de una situación a otra, difícilmente podremos defender ninguna inferencia o predicción. Si las puntuaciones no se replican diremos que son poco precisas o poco fiables. En este capítulo, revisaremos el modelo matemático propuesto por Spearman (1904a; 1904b; 1907), que permite operativizar el concepto de fiabilidad y va- lorar las posibles repercusiones de la falta de fiabilidad en nuestras decisiones. La Teoría Clásica de los Tests La principal idea del modelo de Spearman es que debemos distinguir entre el valor real del atributo que medimos (la puntuación verdadera) y la medida falible que obtenemos en el proceso de medición (la puntuación observada). Las medidas que tomamos incluyen un cierto grado de error. El error de medida expresa el grado en que nuestra medida se desvía del valor real. La idea de partida para poder graduar la precisión de un instrumento es que, cuanto más preciso es, más se replicarán nuestras observaciones en sucesivas mediciones. Aun- que el planteamiento parece sencillo, dos obstáculos acompañan desde el principio a la medición de cualquier variable psicológica. El primero es que es difícil obtener medidas repetidas independientes de la misma persona con el mismo instrumento en un intervalo corto de tiempo. En Psicología esa falta de independencia (p. ej., porque haya recuerdo de las respuestas dadas en la primera ocasión) puede tener efectos en la replicabilidad de las medidas que no se asocian a la precisión del instrumento. Por tanto, es importante definir bien lo que se entiende por replicabilidad. El segundo obstáculo es la imposibilidad de ob- tener mediciones directas. No podemos tener acceso directo al valor real de un atributo psicológico. Por tanto, será importante definir bien qué se entiende por puntuación verda- dera y por error. Spearman desarrolló un modelo formal denominado Modelo Clásico o Modelo Lineal Clásico, fundamentado en diversos supuestos a partir de los cuales se definen los concep- tos de puntuación verdadera y error y se extraen determinadas consecuencias de aplicabi- lidad práctica para cuantificar el tamaño de esos errores y corregir su efecto. Cuando aplicamos un test pretendemos que sea preciso, es decir, que la variabilidad de los evalua- Capítulo 3. Modelo clásico y fiabilidad 77 dos según su puntuación en el test refleje su variabilidad real en el atributo. Pues bien, el Modelo Clásico nos permite deducir, de forma elegante, qué parte de la variabilidad en las puntuaciones en un test se debe a la variabilidad en el atributo medido y qué parte se ex- plica por la presencia de errores en el proceso de medición. A las ideas de Spearman se han sumado posteriormente las aportaciones de otros mu- chos investigadores. El armazón teórico del Modelo Clásico se conoce como Teoría Clásica de los Tests (TCT) y se trata del principal modelo de referencia para la construc- ción y evaluación de tests psicológicos. En español, la información sobre el Modelo Clásico puede encontrarse en varios manuales (p. ej., Martínez Arias, 1995; Martínez Arias, Hernández Lloreda y Hernández Lloreda, 2006; Muñiz, 1998; Nunnally y Berns- tein, 1995). En inglés, existen numerosos manuales sobre la Teoría de los Tests (p. ej., Allen y Yen, 1979; Crocker y Algina, 1986; Gulliksen, 1950; De Gruijter y van der Kamp, 2003; Furr y Bacharach, 2008). Los supuestos fundamentales del Modelo Clásico El Modelo Clásico se sustenta en varios supuestos muy simples (Feldt y Brennan, 1989; Haertel, 2006). Considere que para medir el atributo psicológico disponemos de varios tests distintos a los que llamaremos formas. Por ejemplo, si quisiéramos medir la Depre- sión podríamos tener un banco de ítems enorme con muchas de las preguntas posibles. A partir de esas preguntas, podríamos construir distintos tests con especificaciones idénticas (igual número de ítems, contenido similar, etc.). Cada uno de esos tests sería una forma del test. A las puntuaciones que obtienen los evaluados en las distintas formas las deno- minaremos como variables X1, X2,…, Xf ; a continuación se describe qué propiedades de- ben tener esas formas para que podamos estimar la precisión de cualquiera de ellas. Primer supuesto: el modelo linealEl primer supuesto establece que la puntuación observada de una persona i en una forma f de un test (Xif) se descompone linealmente en dos componentes hipotéticos, la puntuación verdadera de la persona (Vi), que es una constante para cada persona i, y el error de medi- da que se comete al medir el rasgo con el test f (Eif): ifiif EVX += [3.1] La puntuación verdadera refleja por tanto la puntuación en el atributo tal y como lo mide un test con esas especificaciones; esto quiere decir que las puntuaciones verdaderas de una persona en dos tests con distintas especificaciones, por ejemplo distinto número de ítems, no serán iguales. Observe que la puntuación Vi no lleva el subíndice f ; se asume que la puntuación verdadera del evaluado i es la misma en cada una de las formas: ifiii VVVV ==== 21 78 Medición en Ciencias Sociales y de la Salud El error de medida depende de diferentes factores (propios de la persona, del test y de la situación) que hacen que su puntuación empírica, X, no sea exactamente su nivel de atri- buto, V. Por ejemplo, en una prueba de conocimientos pueden constituir fuentes de error el nivel de ansiedad, la falta de motivación para responder, el ruido en el aula, la adecua- ción de las instrucciones de aplicación, el nivel de riesgo asumido por el que responde, la suerte que se tiene al responder a las preguntas de las que no se sabe la respuesta, qué pre- guntas concretas aparecen en la prueba, etc. Por tanto, el error de medida se establece como la diferencia entre la puntuación empí- rica y la verdadera: iifif VXE −= [3.2] Considerando todo lo anterior, el Modelo Clásico puede expresarse en términos de varia- bles como: ff EVX += [3.3] Para que se comprenda lo que significa cada uno de los términos, obsérvese la estructura de la siguiente matriz de datos en la Tabla 3.1. V, Ef (E1, E2,…) Xf , (X1, X2,…) son las va- riables (el subíndice f indica la forma aplicada) y Vi, Eif, Xif, indican los valores concretos de las variables para el i-ésimo evaluado. Tabla 3.1. Estructura de una matriz de datos si aplicáramos distintas formas del test a un grupo de eva- luados y fueran conocidas las puntuaciones verdaderas (V) Puntuación verdadera Error con el test 1 Puntuación empírica en el test 1 Error con el test 2 Puntuación empírica en el test 2 Error con el test 3 Puntuación empírica en el test 3 … V E1 X1 = V + E1 E2 X2 = V + E2 E3 X3 = V + E3 … Evaluado 1 V1 E11 X11 E12 X12 E13 X13 … Evaluado 2 V2 E21 X21 E22 X22 E23 X23 … Evaluado 3 V3 E31 X31 E32 X32 E33 X33 … Evaluado 4 V4 E41 X41 E42 X42 E43 X43 … Evaluado 5 V5 E51 X51 E52 X52 E53 X53 … … … … … … … … ... … Ejemplo 3.1. El Modelo Clásico lineal Supongamos que, para un grupo de personas, conocemos las puntuaciones V, Ef y Xf, en múltiples formas del test (en realidad, sólo podemos conocer las puntuaciones X; las res- tantes puntuaciones se proponen únicamente por razones didácticas): Capítulo 3. Modelo clásico y fiabilidad 79 Tabla 3.2. Puntuaciones verdaderas (V), puntuaciones observadas (X) y errores de medida (E) al aplicar varias formas de un test1,2 Formas Forma 1 Forma 2 Forma 3 … V E1 X1 E2 X2 E3 X3 … Evaluado 1 12 –2 10 0 12 0 12 … Evaluado 2 11 0 11 –2 9 –2 9 … Evaluado 3 11 0 11 2 13 2 13 … Evaluado 4 12 2 14 0 12 0 12 … Evaluado 5 4 0 4 0 4 0 4 … … … … … … … … … Puede observarse que la puntuación empírica del tercer evaluado en el segundo test (X32) es 13, por lo que se sobrestima su puntuación verdadera (V3), que es 11, en 2 puntos (que es el error, E32). Los evaluados 2 y 3 tienen la misma puntuación verdadera (11); sin em- bargo sus puntuaciones observadas cuando se aplica la forma 2 del test son distintas (9 y 13), lo que expresa que se comete cierto error de medida (subestimación en el primer caso y sobrestimación en el segundo). Segundo supuesto El problema es que E y V son desconocidas. Sin embargo, podemos obtener información sobre ellas si se plantean determinados supuestos adicionales. En muchos contextos pare- ce razonable asumir que los errores serán unas veces positivos (por sobrestimación de la puntuación verdadera) y otras veces negativos (por subestimación). Por ejemplo, es posi- ble que al responder a un examen la persona reciba más preguntas de los temas que más ha estudiado; en este caso, su puntuación empírica será una sobrestimación de lo que sabe (error positivo). En otros exámenes sucederá lo contrario (error negativo). Por tanto, desde un punto de vista conceptual, la mejor estimación del verdadero conocimiento del evalua- do i será el promedio (valor esperado) de las puntuaciones empíricas que obtendría en un número elevado de aplicaciones. Éste es el segundo supuesto: )( iffi XV ε= [3.4] 1 En los ejemplos que siguen se considera que X, V y E son puntuaciones discretas. Sin embargo, éste no es un requerimiento del Modelo Clásico y, de hecho, las estimaciones de V y E pueden contener números decimales. 2 En los ejemplos que siguen se muestran tablas incompletas de datos. Por ejemplo, en la Tabla 3.2 se muestran los datos de 5 evaluados seleccionados de una población más amplia. El hecho de que el número de evaluados es más amplio se indica mediante puntos suspensivos. Por tanto, cuando se informe del resultado de cualquier cálculo realizado con la población total (sumas, medias y desviaciones típicas, etc.) éste no coincidirá general- mente con el que se obtiene a partir de los datos de los 5 evaluados. Lo mismo puede decirse con respecto al número de formas aplicadas: aunque se muestran los resultados obtenidos en 3 formas se asume que se han apli- cado muchas más. 80 Medición en Ciencias Sociales y de la Salud Donde el símbolo εf (·) indica valor esperado de la variable dentro del paréntesis a través de f. Otra forma de presentar el segundo supuesto es: 0)( =iff Eε [3.5] que es equivalente a decir que los errores que cometemos no son sistemáticos (el valor es- perado de los errores a través de un conjunto de mediciones independientes de la misma persona es 0). Resulta fácil comprobar la igualdad entre [3.4] y [3.5], puesto que: 0)()()()()( =−=−=−=−= iiiiffififfiiffiff VVVXVXVXE εεεεε Además, se asume que el valor esperado del error de medida es igual a 0, no sólo para cualquier persona, sino también para un grupo de evaluados a los que se aplica una única forma f: 0)( == fEifi E µε [3.6] Veamos en el siguiente ejemplo lo que implica el segundo supuesto. Ejemplo 3.2. Segundo supuesto Tabla 3.3. Media de X y E para cada evaluado a través de las distintas formas y para cada forma a través de los distintos evaluados Forma 1 Forma 2 Forma 3 Media de X (a través de las formas) )( iff Xε Media de E (a través de las formas) )( iff Eε V E1 X1 E2 X2 E3 X3 Evaluado 1 12 –2 10 0 12 0 12 … 12 0 Evaluado 2 11 0 11 –2 9 –2 9 … 11 0 Evaluado 3 11 0 11 2 13 2 13 … 11 0 Evaluado 4 12 2 14 0 12 0 12 … 12 0 Evaluado 5 4 0 4 0 4 0 4 … 4 0 … … … … … … … … … … fE µ 0 0 0 La media de las puntuaciones empíricas para el evaluado 2 coincidiría justamente con su puntuación verdadera (11). Es decir, la puntuación 11 expresa su nivel promedio en pun- tuaciones empíricas de depresión a través de las distintas aplicaciones (11, 9, 9,…). Ese promedio puede considerarse la mejor estimación de su puntuación verdadera. Por otro lado, el segundo supuesto implicaría que las medias de los errores para un evaluado a través de distintas formas y para una forma a través de distintos evaluados son cero. Por ejemplo, para el segundo evaluado la media de los errores (0 , –2, –2, …) sería 0. Tam- Capítulo 3. Modelo clásico y fiabilidad 81 bién, según el modelo clásico, la mediade los errores en la forma 1 (–2, 0, 0, 2,…) sería igual a 0. Tercer, cuarto y quinto supuestos Si el error cometido al utilizar una forma no es sistemático parece razonable asumir que los errores en una forma (Ef) no correlacionan con las puntuaciones verdaderas (V), ni con los errores en otra forma (Ef’) ni con las puntuaciones verdaderas en otro test (Vk): Tercer supuesto: 0=VE fρ [3.7] Cuarto supuesto: 0 ' = ff EE ρ [3.8] Quinto supuesto: 0= kf VE ρ [3.9] Eso supone asumir, por ejemplo, que las personas que tienen errores elevados (bajos) no tienen por qué tener asociadas puntuaciones verdaderas elevadas (bajas) en ese test (u otro) ni errores elevados (bajos) en otras formas del test. Descomposición de la varianza de las puntuaciones empíricas en un test Hasta ahora hemos observado una serie de supuestos sobre los errores de medida. Como ya hemos insistido, en la aplicación real de un test sólo se conocen las puntuaciones X de las personas, por lo que los supuestos planteados no pueden, en general, someterse a con- trastación empírica. ¿Para qué sirven entonces estos cinco supuestos? ¿Qué nos dicen so- bre las puntuaciones de las personas que responden a un test? Si asumimos que los su- puestos son lógicos y razonables, podemos obtener indicadores que nos proporcionen in- formación sobre el tamaño de los errores cometidos con un test. Para empezar, si aceptamos los supuestos, podremos delimitar algunas de las carac- terísticas de las distribuciones de las variables implicadas en la población: VX f µµ = [3.10] 82 Medición en Ciencias Sociales y de la Salud 222 ff EVX σσσ += [3.11] Es decir, la media de las puntuaciones observadas en un test f coincidirá con la media de las puntuaciones verdaderas y, lo más importante, la varianza de las puntuaciones obser- vadas en un test f se puede descomponer en varianza de las puntuaciones verdaderas y va- rianza de los errores. En efecto, si tenemos una variable Xf que es combinación lineal de otras variables V y Ef, tal que: ff EVX += puede demostrarse que la media y varianza de la variable X se deriva de las medias y va- rianzas de las variables V y Ef; esto es: ff EVX µµµ += y dado [3.6] se deriva [3.10]. Además: ffff EVVEEVX σσρσσσ 2222 ++= y dado [3.7] se deriva [3.11]. Ejemplo 3.3. Descomposición de la varianza de las puntuaciones empíricas En la Tabla 3.4 se presentan las medias y las varianzas para las distintas variables. Tabla 3.4. Medias y varianzas de las puntuaciones V, E y X en las distintas formas Formas Forma 1 Forma 2 Forma 3 V E1 X1 E2 X2 E3 X3 Evaluado 1 12 –2 10 0 12 –1 11 … Evaluado 2 11 0 11 –2 9 –1 10 … Evaluado 3 11 0 11 2 13 –2 9 … Evaluado 4 12 2 14 0 12 0 12 … Evaluado 5 4 0 4 0 4 0 4 … … … … … … … … … Medias ( µ ) 12 0 12 0 12 0 12 Varianzas ( 2σ ) 4 2 6 2 6 2 6 Por ejemplo, µV se obtendría como la media de las puntuaciones verdaderas de todos los evaluados de la población (12, 11, 11, 12, 4,… ) que es 12. Observe que, en nuestro ejemplo, las medias de todas las formas son iguales entre sí e iguales a la media de las Capítulo 3. Modelo clásico y fiabilidad 83 puntuaciones verdaderas (12). Además, la varianza de las puntuaciones empíricas en cual- quiera de las formas (6) es el resultado de sumar a la varianza verdadera (4) la varianza de los errores en esa forma (2). Así pues, la variabilidad de las puntuaciones empíricas en una forma (6) se produce, en parte, por la variabilidad en el verdadero nivel de rasgo (4) y, en parte, por la presencia de errores y su contribución a la variabilidad (2). Si nuestras formas fueran muy precisas, la varianza de los errores en cada una de ellas sería 0 y la varianza de las puntuaciones empíricas en cada forma sería igual a la varianza de las puntuaciones verdaderas (ver Tabla 3.5). En este caso, el 100% de la variabilidad de las puntuaciones empíricas en cualquier forma refleja variabilidad en las puntuaciones verdaderas. Las correlaciones entre las puntuaciones verdaderas y empíricas sería 1. Tabla 3.5. Medias y varianzas de las puntuaciones V, E y X en las distintas formas para un test máxi- mamente preciso Formas Forma 1 Forma 2 Forma 3 V E1 X1 E2 X2 E3 X3 Evaluado 1 6 0 6 0 6 0 6 … Evaluado 2 11 0 11 0 11 0 11 … Evaluado 3 11 0 11 0 11 0 11 … Evaluado 4 12 0 12 0 12 0 12 … Evaluado 5 4 0 4 0 4 0 4 … … … … … … … … … Medias ( µ ) 12 0 12 0 12 0 12 Varianzas ( 2σ ) 6 0 6 0 6 0 6 Puesto que en el Modelo Clásico la varianza de las puntuaciones empíricas se descompo- ne linealmente en varianza verdadera y varianza error sería importante obtener informa- ción sobre cuánto de la varianza de las X se debe a la varianza de las V o saber cuánto co- rrelaciona X con V. Nos encontramos con el inconveniente de desconocer las auténticas V de las N personas. En la siguiente sección se ofrece el método propuesto por Spearman pa- ra eludir este problema. Concepto de formas paralelas y coeficiente de fiabilidad No podemos conocer directamente la correlación entre las puntuaciones empíricas en un test y las puntuaciones verdaderas. Sin embargo, resulta factible obtener la correlación en- tre las puntuaciones empíricas que proporcionan dos formas paralelas de un test, diseña- das ambas para evaluar el rasgo V de las personas. Veremos en esta sección que esta co- rrelación nos proporciona la información que buscamos sobre la fiabilidad de las puntua- ciones; es decir, sobre qué proporción de la varianza de X se debe a la varianza de V. 84 Medición en Ciencias Sociales y de la Salud Hasta ahora hemos estado trabajando con el concepto de formas de un test X. El Mo- delo Clásico original requiere que dichas formas sean formas paralelas. Según esto, dos formas paralelas X1 y X2 de un test se definen como tales mediante dos condiciones: 1. Un individuo tiene la misma puntuación verdadera en ambas formas: iii VVV == 21 [3.12] 2. La varianza de los errores de medida en ambas formas es la misma: 22 21 EE σσ = [3.13] Es decir, los dos tests miden con la misma precisión. Las formas que hemos visto en los ejemplos anteriores eran formas paralelas. En lo sucesivo, para simplificar, nos referire- mos a la varianza error de cada forma paralela como σ2E (donde σ 2 E designa indistinta- mente a σ2E1 o σ 2 E2). Dos formas suelen hacerse paralelas por diseño, especificando en cada una igual número de ítems y especificaciones similares de contenidos. Por ejemplo, el test formado por los ítems impares de una prueba suele considerarse una forma paralela del test forma- do por los ítems pares de esa misma prueba (si en principio no hay razón para pensar que los ítems de las dos mitades difieren en conjunto). Si tres formas (X1, X2 y X3) son paralelas, la distribución de sus puntuaciones observa- das será idéntica en cuanto a media (ver [3.10]): 321 XXX µµµ == y varianza (ver [3.11]): 222 321 XXX σσσ == También serán iguales las covarianzas de esas formas entre sí: 323121 XXXXXX σσσ == , y las covarianzas con cualquier otra variable Z, ZXZXZX 321 σσσ == Lo mismo se aplica también a las correlaciones de las formas entre sí: 323121 XXXXXX ρρρ == Capítulo 3. Modelo clásico y fiabilidad 85 Debe observarse que el paralelismo de las formas es lo que las hace intercambiables y lo que dota de significado a la definición operacional de la puntuación verdadera como valor esperado de las puntuaciones a través de las formas. En lo sucesivo, para simplificar, nos referiremos a cada forma paralela como X (para designar indistintamente a X1 o X2), por lo que utilizaremos los términos µX y σ2X para re- ferirnos a la media y varianza de cualquiera de las formas paralelas. La correlación entre dos formas paralelas (X1y X2) es muy importante en el Modelo Clásico y se denomina coeficiente de fiabilidad. Puesto que ambas formas son paralelas, la correlación nos permite inferir algo sobre el grado de precisión de cualquiera de ellas. Es fácil entender por qué es una medida de precisión. Si las puntuaciones obtenidas en dos formas paralelas son precisas parece razonable esperar una correlación elevada en la po- blación. Si ambas correlacionasen de forma mínima, no podríamos fiarnos de que refleja- sen fidedignamente los niveles de rasgo verdaderos. Por tanto, el coeficiente de fiabilidad es un indicador de precisión; suele utilizarse el símbolo ρXX y es matemáticamente igual al cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuacio- nes empíricas de cualquiera de las formas: 2 2 21 X V XXXX σ σ ρρ =≡ [3.14] Veamos por qué. La correlación entre formas paralelas puede expresarse como: 21 21 21 XX XX XX σσ σ ρ = Puesto que las formas son paralelas, podemos referirnos con el término σX indistintamente a 1X σ o a 2Xσ : 2 2121 21 21 21 X XX XX XX XX XX XX σ σ σσ σ σσ σ ρ === Además, X1 = V1 + E1 y X2 = V2 + E2. Matemáticamente, si tenemos dos variables X1 y X2 que son combinación lineal de otras, la covarianza entre ambas se deriva de las covarian- zas entre todas las otras: 2121122121 EEEVEVVVXX σσσσσ +++= que se puede simplificar, dado [3.7] , [3.8] y [3.12]: 2 21 VXX σσ = por lo que se llega a la ecuación [3.14]: 86 Medición en Ciencias Sociales y de la Salud 2 2 2 21 21 X V X XX XX σ σ σ σ ρ == Recordemos que la varianza de las puntuaciones en un test se descomponía en dos com- ponentes, uno relacionado con los errores y otro con las puntuaciones verdaderas (ecua- ción [3.11]). El valor del coeficiente de fiabilidad puede interpretarse entonces como la proporción de la varianza de las puntuaciones empíricas que puede atribuirse a la variabi- lidad de las personas en las puntuaciones verdaderas. Lógicamente, el coeficiente de fiabilidad también nos índica qué proporción de va- rianza de las puntuaciones en el test no se debe a la varianza de los errores: 2 2 2 22 2 2 1 X E X EX X V XX σ σ σ σσ σ σ ρ −= − == [3.15] Nótese además que el coeficiente de fiabilidad puede asumir valores entre 0 y 1, ya que se trata de un cociente de varianzas, cuyo valor es siempre positivo. Por otro lado, el coeficiente de fiabilidad también se puede interpretar como la corre- lación al cuadrado entre las puntuaciones verdaderas y las puntuaciones observadas en el test. En efecto: ( ) XX X V VX VEV VX XV XV ρ σ σ σσ σσ σσ σ ρ == + == 2 2 22 22 22 2 2 [3.16] Es decir, que el coeficiente de fiabilidad es el cuadrado de la correlación entre X y V. Al valor ρXV se le denomina índice de fiabilidad: XXXV ρρ = [3.17] Tanto el coeficiente como el índice de fiabilidad reflejan la precisión de las medidas siempre que asumamos que en el grupo al que se aplica el test hay cierta variabilidad en la característica que se está midiendo. Ejemplo 3.4. Interpretación del coeficiente de fiabilidad Supongamos que la correlación entre dos formas paralelas X1 y X2 es 0,67 ( ρX1X2 = 0,67) y que la varianza de ambas formas es 6 (σ 2X = 6); entonces diríamos que el coeficiente de fiabilidad de las puntuaciones obtenidas en cualquiera de ellas es 0,67 ( ρ XX = 0,67). Es decir, la correlación entre X1 y X2 es el coeficiente de fiabilidad de las puntuaciones en la prueba X1 (y en la prueba X2). La varianza de X1 (o de X2), en nuestro ejemplo, es 6. El co- eficiente de fiabilidad indicaría justamente qué proporción de esos 6 puntos, es varianza Capítulo 3. Modelo clásico y fiabilidad 87 verdadera. Puesto que el coeficiente de fiabilidad es 0,67, podemos decir que el 67% de la varianza empírica es varianza verdadera. La varianza verdadera sería, justamente, 4 (el 67% de 6): 4)67,0(622 === XXXV ρσσ También podría deducirse la varianza de los errores de medida, que sería justamente 2 (el 33 % de 6): 2)33,0(6)1(22 ==−= XXXE ρσσ En nuestro ejemplo, el índice de fiabilidad sería 0,82 (que es la raíz de 0,67). Fórmula General de Spearman-Brown: Fiabilidad de las puntuaciones en un test compuesto por n formas paralelas Imaginemos que disponemos de n formas paralelas para medir un rasgo psicológico de- terminado. Según lo visto, las n formas tendrán en la población las mismas varianzas empíricas. Además, las correlaciones entre todos los posibles pares de formas paralelas que podemos establecer serán también iguales, e indicarán la fiabilidad de cualquiera de ellas a la hora de determinar los niveles de rasgo. Sea ahora un test final compuesto por las n formas paralelas. Denominemos las pun- tuaciones originales de cada persona en las n formas paralelas como X1,…, Xn, V1,…, Vn, E1,…, y En. Las puntuaciones en el test final alargado se obtienen sumando las puntuacio- nes en las n formas: na XXX ++= ...1 [3.18] Para cada forma paralela, podemos separar la parte verdadera y la parte error: Xa = V + E1 + … + V + En; así podemos definir Xa = Va + Ea, donde Va = nV y Ea = E1 + … + En , ya que la puntuación verdadera es la misma en cada forma paralela, mientras que el error puede cambiar de una forma a otra. Los parámetros de la población en una forma paralela (cualquiera de ellas) podemos designarlos como σ2X, σ2V, σ2E y ρXX. Si unimos n formas paralelas en un único test, los parámetros de este test alargado podemos expresarlos como σ2Xa, σ2Va, σ2Ea y ρ nXX. Vamos a llegar a determinadas expresiones para obtener los pará- metros del test alargado conociendo los parámetros de una forma paralela. La varianza empírica del test formado por n formas paralelas será: [ ]XXXXXXXXa nnnnn ρσρσσσ )1(1)1( 2222 −+=−+= [3.19] La varianza verdadera del test formado por n formas paralelas será: 88 Medición en Ciencias Sociales y de la Salud 222 VVa n σσ = [3.20] puesto que Va es una transformación lineal de V (Va = nV, donde n es una constante). La varianza error del test formado por n formas paralelas será: 2222 )1( EEEEEEa nnnn σρσσσ =−+= [3.21] ya que ρEE , la correlación entre los errores de dos formas, es 0 según el 4º supuesto. A partir de las expresiones anteriores, y recordando que el coeficiente de fiabilidad es el cociente entre la varianza verdadera y la varianza empírica, podemos obtener el coefi- ciente de fiabilidad de las puntuaciones en un test alargado n veces (ρnXX): ( )[ ] XX XX XXXX V Xa Va nxx n n nn n ρ ρ ρσ σ σ σ ρ )1(1112 22 2 2 −+ = −+ == [3.22] La expresión [3.22] se conoce como Fórmula General de Spearman-Brown, y permite ob- tener el coeficiente de fiabilidad de las puntuaciones en un test compuesto por n formas paralelas (es decir, cuál será el coeficiente de fiabilidad, ρnXX, de un test que se forma con n versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad, ρXX). Ejemplo 3.5. Fiabilidad de las puntuaciones en un test compuesto por n formas paralelas Si formamos un nuevo test uniendo las dos formas paralelas X1 y X2, ambas con varianzas iguales (σ2X = 6, σ2V = 4, σ2E =2) e igual coeficiente de fiabilidad (ρXX = 0,67), se obtiene un nuevo test con varianzas: [ ] [ ] 2067,0)1(16)2()1(122 =+=−+= XXXXa nn ρσσ 16)4(22222 === VVa n σσ 4)2(222 === EEa nσσ El coeficiente de fiabilidad del nuevo test sería: 8,0 67,0)1(1 67,0)2( )1(1 = + = −+ = XX XX nXX n n ρ ρ ρ El 80% de la varianza del nuevo test (σ2Xa = 20) es varianza verdadera (σ2Va = 16). Capítulo 3. Modelo clásico y fiabilidad 89 Según la Fórmula General de Spearman-Brown, el coeficiente de fiabilidad aumenta al alargar un test. Esto ocurre porque, al añadir n – 1 formas paralelas, la varianza debida a las puntuaciones verdaderas seincrementa más rápido (σ2Va = n 2σ2V) que la varianza debi- da a los errores (σ2Ea = n σ2E). La Figura 3.1 muestra el efecto de multiplicar la longitud del test por n (n: 1, 2, ... 17) en 3 tests que difieren originalmente en ρXX (0,1, 0,4 y 0,7). Figura 3.1. Coeficiente de fiabilidad de las puntuaciones en un test alargado como función del coeficien- te de fiabilidad del test original y del número n de formas paralelas 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 n 0.1 0.4 0.7fia bi lid ad d e un te st a la rg ad o n ve ce s El valor n = 1 representa lo que ocurre con el test original. Los otros valores de n (2, 3,…) se refieren a lo que ocurre con los tests alargados (de longitud duplicada, triplica- da,…). Observe que, en cualquiera de los tres tests, la ganancia en fiabilidad a medida que se incrementa la longitud no es lineal. Esto quiere decir, por ejemplo, que al pasar de n = 1 a n = 2 se obtiene mayor ganancia en precisión que al pasar de n = 2 a n = 3. Tam- bién puede observarse que el incremento posible será menor cuanto mayor sea el coefi- ciente de fiabilidad del test original, ya que el valor máximo que puede obtenerse es 1. Ejemplo 3.6. Fiabilidad de las puntuaciones en un test compuesto por n formas paralelas Supongamos que una prueba de atención de 25 ítems obtiene en un grupo normativo un ρXX = 0,7. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test alargado tendría 100 ítems (4 veces el inicial), y su fiabilidad sería: 903,0 7,0)3(1 7,0)4( )1(1 = + = −+ = XX XX nXX n n ρ ρ ρ Si cuadruplicáramos la longitud del test recién formado, pasaríamos de 100 a 400 ítems. El test alargado tendría un coeficiente de fiabilidad: 90 Medición en Ciencias Sociales y de la Salud 974,0 903,0)3(1 903,0)4( )1(1 = + = −+ = XX XX nXX n n ρ ρ ρ En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de atención es de 0,203, mientras que en el segundo caso, el incremento es únicamen- te de 0,071 (a pesar de que en el primer caso hemos añadido 75 ítems y en el segundo 300). Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segun- do caso que en el primero, y a que el segundo test tiene ya un considerable número de ítems (100). Es importante tener en cuenta que la Fórmula General de Spearman-Brown no debe apli- carse cuando las formas añadidas no son paralelas o cuando al incrementar la longitud se producen efectos de fatiga (o de la práctica) al responder. Esto último ocurre, por ejemplo, cuando la persona no responde a los nuevos ítems con igual motivación, eficacia, aten- ción, etc. Tampoco conviene olvidar que se requiere que la prueba original haya sido apli- cada a un número suficiente de sujetos, de forma que el coeficiente de fiabilidad se halle bien estimado (Alsawalmeh y Feldt, 1999). Establecidas estas limitaciones, la fórmula de Spearman-Brown puede utilizarse para: 1. Extrapolar cuál sería el número de ítems necesarios para que las puntuaciones en nues- tro instrumento alcancen una determinada fiabilidad. Así, despejando n de la fórmula anterior: )1( )1( nXXXX XXnXXn ρρ ρρ − − = [3.23] donde ρnXX indica la fiabilidad que se quiere obtener, ρXX indica la fiabilidad actual y n es el número de formas paralelas que debería tener el test final para que se alcance esa fiabilidad. Lógicamente, si el test original tiene J ítems el test final deberá tener J’ ítems, donde J’ es igual a: nJJ =' En la práctica, la ecuación [3.23] puede resultar eficaz para diseñar un test inicial corto y estimar cuál debería ser su longitud para obtener un coeficiente de fiabilidad determi- nado, y así comprobar si merece la pena diseñar nuevos ítems paralelos o reformar los ya creados. 2. Poder comparar la fiabilidad de las puntuaciones en dos pruebas con distinto número de ítems. Si una prueba tiene J ítems y otra tiene J’ podemos ver cuál sería la fiabilidad de la primera si tuviera J’ ítems (J’ > J), para ello basta utilizar la fórmula de Spearman- Brown sustituyendo n por J’/J. Capítulo 3. Modelo clásico y fiabilidad 91 En ambas situaciones, n siempre indica el número de veces que el test final contiene al test original y n – 1 indica el número de formas que se añaden a la forma original. Ejemplo 3.7. Utilidad de la fórmula de Spearman-Brown Supongamos que para las puntuaciones en un test inicial de 25 ítems se obtiene un coefi- ciente de fiabilidad de 0,65, considerado bajo para los objetivos que se pretenden conse- guir con su aplicación. Una manera de incrementar su precisión es alargarlo con ítems pa- ralelos a los iniciales. Al constructor de la prueba le interesa que el test tenga, al menos, un coeficiente de fiabilidad de 0,86, y se pregunta con cuántos ítems lo conseguiría. Apli- cando la fórmula [3.23], obtenemos: 308,3 )86,01(65,0 )65,01(86,0 )1( )1( = − − = − − = nxxxx xxnxxn ρρ ρρ Esto significa que si multiplicamos por 3,308 la longitud inicial del test, es decir, con un test de 83 ítems (3,308(25) = 82,7), conseguiremos la precisión deseada. Por tanto, a los 25 ítems que tiene el test inicial habría que añadir 58 ítems paralelos (2,308 formas) para conseguir la fiabilidad de 0,86. Otro ejemplo. Consideremos que dos pruebas tienen, respectivamente, coeficientes de fiabilidad 0,65 y 0,7. La primera tiene 15 ítems y la segunda 20. ¿Cuál de las dos pruebas sería más precisa si ambas tuvieran el mismo número de ítems? Para responder a esta pre- gunta, podemos calcular cúal sería el coeficiente de fiabilidad de las puntuaciones en la primera prueba si tuviera 20 ítems: 33,1 15 20' === J J n El coeficiente de fiabilidad de la primera prueba sería: 712,0 )65,0(33,01 )65,0(33,1 )1(1 = + = −+ = xx xx nxx n n ρ ρ ρ Lo que significa que, con el mismo número de ítems, la primera prueba sería más fiable en la muestra. Aproximaciones a la fiabilidad y tipos de error Hemos visto que, a partir del Modelo Clásico, se expresa un nuevo concepto, la fiabilidad de las puntuaciones en el test, que representa la proporción de la varianza de las puntua- 92 Medición en Ciencias Sociales y de la Salud ciones en el test que se debe a la varianza de las puntuaciones verdaderas. En términos ge- nerales puede considerarse que la fiabilidad nos indica la replicabilidad de la medida a través de distintas condiciones, momentos, formas del test, etc. Ahora bien, la visión que se ha dado hasta ahora (coeficiente de fiabilidad como correlación entre formas paralelas) se encuentra algo simplificada. En realidad, el concepto de fiabilidad (o replicabilidad) de las puntuaciones es más complejo y puede entenderse de distintas maneras: 1. Ya hemos observado que podemos calcular el coeficiente de fiabilidad como una corre- lación entre formas paralelas. En ese caso estaríamos estudiando si se replican las mismas medidas al aplicar una prueba paralela con ítems distintos. Si ambas formas son paralelas, la correlación entre ambas indica su grado de equivalencia. En este sentido, replicabili- dad implica que debemos obtener las mismas medidas cuando medimos lo mismo con pruebas equivalentes. 2. También puede aludirse a la estabilidad temporal de las medidas que proporciona nues- tro instrumento. En este sentido, replicabilidad implica que debemos obtener las mis- mas medidas cuando medimos lo mismo en momentos distintos. 3. Finalmente, puede hacerse referencia al grado en que diferentes partes del test miden un rasgo con consistencia. En este sentido, replicabilidad implica que debemos obtener las mismas puntuaciones cuando medimos lo mismo con distintas partes del test. Según el procedimiento utilizado para calcular el coeficiente de fiabilidad estaremos sien- do sensibles en mayor o menor grado a distintas fuentesde error. Ya hemos observado que, en el Modelo Clásico, se establece que: ff EVX += Y también que el error es el resultado de todos aquellos factores (de la persona, de la si- tuación o relativos a la composición del test) que hacen que la puntuación observada de una persona se aleje de su valor esperado. De forma más sencilla, un error implica un cambio en la puntuación de una persona de una medición a otra. Algunos autores suelen distinguir entre tres tipos de fuentes de error en los tests de respuesta seleccionada (Schmidt y Hunter, 1996, 1999; Schmidt, Le y Ilies, 2003): 1. Los errores debidos a factores transitorios suponen modificaciones en las respuestas de una persona que se deben a factores que cambian de una sesión de aplicación a otra pe- ro que, dentro de una sesión, afectan por igual a todos los ítems. Si aplicamos un test dos veces puede haber cambios en variables personales (salud, humor, motivación, efi- ciencia mental, concentración, minuciosidad, impulsividad, etc.) o en variables situa- cionales que no han sido controladas en la aplicación (claridad de las instrucciones, presencia de incentivos, tiempo de la aplicación, etc.). Tales variables pueden tener efectos en todas las medidas tomadas dentro de una misma sesión de aplicación. Cam- bios en esas variables a través de las sesiones producirán cambios en las puntuaciones observadas. Por ejemplo, si alguien responde a una prueba de conocimientos con baja motivación, su rendimiento puede verse afectado. Su puntuación X estará por debajo de su puntuación V. Si volvemos a aplicar el mismo test en otro momento, en el que tenga Capítulo 3. Modelo clásico y fiabilidad 93 mayor motivación, su puntuación X será mayor. El nivel de motivación afectará a todas sus respuestas recogidas en cada sesión. Los errores debidos a factores transitorios pueden detectarse estudiando cómo varía el rendimiento de la persona en distintos momentos temporales. Estos errores no son de- tectables si el test se aplica una sola vez (pues en ese caso no podemos saber cómo cambiarían las puntuaciones de las personas si se les aplica el test en otro momento). 2. Los errores debidos a la especificidad suponen cambios en las respuestas de una perso- na que se deben al contenido concreto de los ítems que se le presentan. Por ejemplo, en una prueba de conocimientos de Filosofía cada estudiante puede tener distinto nivel de dominio de los distintos temas. Alguien puede saber mucho de Platón y poco de Kant. Si le hiciéramos una pregunta sobre Platón su puntuación V se sobrestimaría (ocurriría lo contrario si le hiciéramos una pregunta sobre Kant). Otro ejemplo: en una escala de Estabilidad Emocional se incluyen ítems en sentido directo y otros en sentido inverso; las respuestas de una persona en ítems de uno y otro tipo pueden ser distintas. Los errores debidos a la especificidad pueden detectarse estudiando cómo varía el ren- dimiento de la persona en distintas partes del test. Estos errores no son detectables si se aplica la misma pregunta en dos ocasiones distintas (pues en ese caso no podemos sa- ber cómo cambiarían las puntuaciones de las personas si les hubiéramos hecho otra pregunta). 3. Los errores debidos a factores aleatorios se refieren al grado de inconsistencia en la respuesta que no puede ser atribuido directamente al contenido de los ítems, ni a otros factores de la persona o la situación que actúan de forma sistemática en el tiempo. Es producto de variaciones en la atención, de distracciones momentáneas, de la propia la- bilidad intrínseca a nuestro sistema nervioso, etc. Por ejemplo, supongamos que al es- cuchar un ítem de una prueba de inglés, el evaluado se ha distraído; como no ha escu- chado la pregunta, falla el ítem. Consideremos que de haber escuchado el ítem lo hubiera acertado. En ese caso, si se le vuelve a aplicar el ítem lo acertará. La distrac- ción no produce un error debido a la especificidad del ítem ya que el fallo inicial de la persona no tiene que ver con el contenido del ítem. Tampoco es un error debido a fac- tores transitorios ya que la distracción no necesariamente ha afectado a todos los ítems aplicados en la misma sesión. En los siguientes apartados se recoge el grado en que cada coeficiente de fiabilidad es sensible a cada tipo de error. Antes de empezar, es necesario advertir de un cambio de no- tación. Hasta el momento, el Modelo Clásico y los estadísticos (medias, varianzas, corre- laciones,...) se han descrito en términos paramétricos; es decir, para la población. Por ello, se utilizaba la nomenclatura griega ( σ2X , ρxx , etc.). En la práctica vamos a disponer de da- tos obtenidos en una muestra o grupo normativo concreto (S2X , rxx, etc.). Esto significa que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de di- cha muestra, a partir de las cuales podemos obtener los estadísticos que sean oportunos. 94 Medición en Ciencias Sociales y de la Salud Fiabilidad como correlación entre formas paralelas A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original pero con diferentes ítems. Como ya hemos explicado, dos versiones o for- mas se consideran paralelas si su contenido es similar y, aplicadas a una misma muestra de personas, obtienen similares medias, varianzas y covarianzas con otras variables. La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e in- dicará el grado en que pueden considerarse equivalentes. Por ello, en ocasiones se deno- mina a este coeficiente de fiabilidad coeficiente de equivalencia. Si las formas no fuesen paralelas puede subestimarse dicho coeficiente. Ejemplo 3.8. Coeficiente de fiabilidad por el método de las formas paralelas Se han aplicado las dos formas de un test a 13 personas3, obteniendo los resultados que se muestran en la Tabla 3.6. Tabla 3.6. Cálculo del coeficiente de fiabilidad por el método de las formas paralelas Evaluados 1 2 3 4 5 6 7 8 9 10 11 12 13 X1 = Forma 1 10 12 11 14 11 9 13 14 16 15 13 14 16 X2 = Forma 2 9 13 14 16 10 10 13 15 14 14 12 10 17 El coeficiente de fiabilidad sería: 701,0 21 == XXXX rr Lo que se significa que el 70,1% de la varianza de las puntuaciones observadas en cual- quiera de las formas es debida a la variabilidad en el verdadero nivel de rasgo. Es evidente que la falta de concordancia cuando se calcula el coeficiente de equivalencia se deberá a que las dos formas tienen contenidos específicos distintos o a que los ítems no son adecuados para medir el rasgo. En sentido estricto, el coeficiente de equivalencia no es sensible a los errores debidos a factores transitorios y nos indica qué proporción de la varianza de las puntuaciones empíricas en el test completo no se debe a la varianza de los errores debidos a factores específicos o al error debido a factores aleatorios. Sin embargo, 3 El uso de sólo 13 sujetos para evaluar las propiedades psicométricas de una prueba es, lógicamente, insuficien- te. El pequeño tamaño de la muestra se debe a razones puramente didácticas, de forma que el lector pueda reali- zar los cálculos si lo desea. Capítulo 3. Modelo clásico y fiabilidad 95 su interpretación suele simplificarse, de tal forma que se entiende como proporción de va- rianza de las puntuaciones empíricas explicada por las puntuaciones verdaderas. Esta última interpretación es razonable para ciertos rasgos, como por ejemplo el nivel de voca- bulario, para los que se espera un efecto pequeño de los factores transitorios (ver por ejemplo, Reeve, Heggestad y George, 2005). No es común diseñar una forma paralela de un test para obtener datos sobre su fiabili-dad. Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determi- nados trabajos que requieren dos aplicaciones sucesivas de un test cuyos contenidos se pueden recordar con facilidad. Por ejemplo, para evaluar la eficacia de ciertos programas cortos de enriquecimiento cognitivo o motivacional, conviene utilizar antes y después del entrenamiento pruebas equivalentes aunque con contenidos diferentes (formas paralelas), para evitar los efectos del recuerdo. Fiabilidad como estabilidad temporal Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un tiempo, volvemos a medir a las mismas personas en el mismo test, cabe esperar una corre- lación de Pearson elevada entre ambas mediciones (reflejando así la concordancia de las medidas tomadas en dos momentos distintos). Dicha correlación entre la evaluación test y la evaluación retest (rXtestXretest) se denomina coeficiente de fiabilidad test-retest o de esta- bilidad temporal, e indicará tanta mayor estabilidad temporal de las puntuaciones en la prueba cuanto más cercano a uno sea. Este modo de operar se desprende también directamente del Modelo Clásico, según el cual se define la fiabilidad como la correlación entre las puntuaciones empíricas en dos formas paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es uno aplicado dos veces. Ejemplo 3.9. Coeficiente de fiabilidad por el método test-retest Para obtener el coeficiente de estabilidad de una escala se aplica una forma del test a una muestra. Transcurridos dos meses, se vuelve a aplicar la misma forma a las mismas perso- nas bajo las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones son las que aparecen en la Tabla 3.7. Tabla 3.7. Cálculo del coeficiente de estabilidad Evaluados 1 2 3 4 5 6 7 8 9 10 11 12 13 XTest 10 12 11 14 11 9 13 14 16 15 13 14 16 XRestest 11 12 13 15 12 12 10 15 13 18 11 15 17 Para obtener el coeficiente de fiabilidad test-retest bastaría con correlacionar los datos de las dos aplicaciones: 96 Medición en Ciencias Sociales y de la Salud 639,0= tetesttest XX r En este caso se obtiene una cierta estabilidad de las puntuaciones. Si los niveles de rasgo de las personas no han variado a lo largo de los dos meses transcurridos entre las dos apli- caciones, podemos decir que el test proporciona ciertas garantías (no óptimas) respecto a la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy parecidas (o similares) en las dos aplicaciones. Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada por la falta de precisión del instrumento. Es decir, es necesario asumir que las puntuacio- nes verdaderas de los evaluados no han cambiado entre el test y el retest. Por tanto, no es adecuado calcular este coeficiente para cuando se pretenden medir atributos psicológicos que por naturaleza son fluctuantes (p. ej., estados de ansiedad). La determinación del intervalo temporal entre aplicaciones es importante y debe ser informada (Standards, AERA, APA y NCME, 1999; p. 32). Para establecer un período concreto, el efecto en las respuestas debido a la doble aplicación (efectos del aprendizaje, la fatiga, la maduración, el recuerdo, la motivación, el deseo de congruencia, etc.) debería ser analizado y controlado. Un efecto debido a la doble aplicación implicaría que: (1) las puntuaciones verdaderas de las personas han cambiado; (2) la precisión de las medidas ha variado entre el test y el retest. Si el intervalo es demasiado corto y no hay efectos de fati- ga suele producirse una sobrestimación de la fiabilidad porque se recuerdan las respuestas. Por tanto, es aconsejable dejar más tiempo cuando los ítems y las respuestas pueden me- morizarse con facilidad; de lo contrario, los evaluados podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente por efectos del recuerdo y del deseo de responder de manera congruente. Debe tenerse en cuenta, sin embargo, que cuanto ma- yor es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad de que se produzcan cambios reales en el rasgo (p. ej., por factores de tipo madurativo) y, por lo tanto, se subestime la fiabilidad de la prueba. El intervalo usual suele variar entre dos semanas y dos meses. Por otro lado, es importante tener en cuenta que, dado que se aplica la misma forma (i.e., las mismas preguntas) en dos momentos distintos, este coeficiente de fiabilidad no es sensible a los errores debidos a la especificidad. En sentido estricto, el coeficiente de esta- bilidad nos indica qué proporción de la varianza de las puntuaciones empíricas en el test completo no se debe a la varianza de los errores debidos a factores transitorios o al error debido a factores aleatorios. Para la mayoría de los rasgos (p. ej., neuroticismo, capacidad verbal, etc.) el efecto de los errores debidos a la especificidad es importante. Por tanto, el coeficiente de estabilidad no puede ser considerado una buena estimación de la proporción de varianza de las puntuaciones empíricas que es explicada por las verdaderas. Capítulo 3. Modelo clásico y fiabilidad 97 Fiabilidad como consistencia interna También se han propuesto otros coeficientes basados en una única aplicación del test y que, por tanto, son menos costosos de obtener. Con estos métodos se estudia la concor- dancia entre las puntuaciones de los evaluados en distintas partes del test. Así, la fiabili- dad se entiende ahora como el grado en que diferentes subconjuntos de ítems covarían, correlacionan o son consistentes entre sí. Todos estos coeficientes no son, por tanto, sen- sibles al los errores debidos a factores transitorios. Lo más usual es estudiar la consistencia entre las dos mitades del test (método de dos mitades) o entre tantas partes como elementos tenga (consistencia interna global). Coeficiente de fiabilidad por el método de las dos mitades (método de Spearman-Brown) En primer lugar se divide el test en dos mitades (p. ej., ítems impares e ítems pares). Para cada persona se obtiene la puntuación directa en ambas mitades. Disponemos entonces de dos variables (XI y XP), cuya correlación de Pearson indica su grado de relación lineal. Si ambas mitades son paralelas, su correlación será el coeficiente de fiabilidad de las puntua- ciones en la mitad del test. Una práctica habitual consiste en extrapolar el coeficiente de fiabilidad de las puntuaciones en el test completo (X = XI + XP) aplicando la fórmula de Spearman-Brown (haciendo n = 2, ya que el test completo tiene el doble de ítems que cualquiera de sus mitades): PI PI XX XX XXSB r r r + = 1 2 [3.24] A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido como la expresión de la consistencia entre dos mitades, es mayor que la correlación de Pearson entre ambas mitades. Sus valores pueden estar entre 0 y 1 e indica el grado en que un test compuesto por dos formas paralelas (las mitades) proporcionaría resultados simila- res a otro test equivalente. En sentido estricto, nos indica qué proporción de la varianza de las puntuaciones empíricas en el test completo no se debe a la varianza error por muestreo de contenidos o error aleatorio. Sin embargo, suele interpretarse como proporción de va- rianza de las puntuaciones en el test que es debida a las puntuaciones verdaderas. 98 Medición en Ciencias Sociales y de la Salud Ejemplo 3.10. Coeficiente de fiabilidad por el método de las dos mitades En la Tabla 3.8 se exponen los resultados de una muestra de 10 evaluados que responden a un test de 6 ítems (X1, X2, …, X6)valorados de forma dicotómica. En este caso se ob- tendría que PI XX r = 0,277, y por tanto: 434,0 277,01 )277,0(2 = + =XXSB r De nuevo el tope de rXX lo tenemos en 1, con lo que podemos decir que las dos mitades del test no son muy consistentes entre sí. Únicamente un 43.4% de la varianza de las pun- tuaciones empíricas se debe a la varianza de las verdaderas. No podríamos afirmar con su- ficiente certeza que ambas mitades miden con precisión el rasgo de interés. Tabla 3.8. Cálculo del coeficiente de fiabilidad por el método de las dos mitades Evaluados X1 X2 X3 X4 X5 X6 XI XP X 1 1 0 1 0 1 0 3 0 3 2 0 1 1 1 0 1 1 3 4 3 0 0 1 0 0 0 1 0 1 4 0 1 1 1 0 0 1 2 3 5 0 0 0 1 0 0 0 1 1 6 1 1 1 1 1 1 3 3 6 7 1 1 1 1 1 1 3 3 6 8 0 1 1 1 0 1 1 3 4 9 0 1 0 0 0 0 0 1 1 10 0 0 0 1 0 0 0 1 1 Varianza (S2) 0,233 0,267 0,233 0,233 0,233 0,267 1,567 1,567 4 Al calcular el coeficiente de fiabilidad por el método de las dos mitades hay que tener en cuenta varias precauciones: 1. La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a responder a los ítems más fáciles hasta llegar a los situados al final del test, que son los más difíciles. Si realizásemos la partición en dos mitades atendien- do a su disposición en la prueba (la primera mitad formada por los primeros J/2 ítems, la segunda por los J/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran la misma media. Por ello, para obtener este coeficiente, hay que cuidar el modo en que se forman las mitades para garantizar su paralelismo; así, ambas mitades deberían estar equilibradas en cuanto a la dificultad, los contenidos y la posición media de sus ítems en el test. Por ejemplo, si en un test de 20 ítems de Extraversión, 10 miden Sociabilidad Capítulo 3. Modelo clásico y fiabilidad 99 y otros 10 miden Impulsividad, las dos formas que construyamos deberían estar equili- bradas en el número de ítems de ambas facetas. 2. Si las respuestas a los ítems dependen demasiado de su orden serial en el test (p. ej., en un test de velocidad) es preferible utilizar otros procedimientos para evitar que el coefi- ciente de fiabilidad se sobrestime. También hay que ser cautos cuando existen grupos de ítems que hacen referencia a un estímulo común (testlets); al repartir esos ítems a través de las mitades, se puede sobrestimar el coeficiente de fiabilidad. En esos casos, el hecho de que una persona obtenga la misma puntuación en las dos partes podrá ser considerado un artefacto metodológico (p. ej., en una prueba de velocidad, la puntua- ción en la parte del test formada por los ítems impares siempre será muy similar a la puntuación en la parte del test formada por los ítems pares). En el caso de pruebas de velocidad se recomienda no utilizar índices de consistencia interna (o proceder a la eliminación del análisis de los ítems que no han sido alcanzados por un porcentaje de personas). En el caso de ítems que hacen referencia a un estímulo común se recomien- da que se mantengan en una misma mitad, ya que si se reparten entre las dos mitades se sobrestimará el coeficiente de fiabilidad (ver Haertel, 2006). 3. Un inconveniente de este método es que existen muchas formas de dividir el test en dos mitades y cada una de ellas arrojará un resultado distinto. De hecho, para McDonald (1999) el procedimiento de las dos mitades no es recomendable porque introduce en su estimación la variabilidad debida al método utilizado para dividir el test en dos. Al calcular el coeficiente de fiabilidad mediante la fórmula de Spearman-Brown se asume que las dos mitades son formas paralelas. Esto no ocurrirá cuando las dos mitades difieran en el número de ítems (variarán las varianzas verdaderas y las varianzas de error). Por ejemplo, cuando el número de ítems es impar, es incorrecto aplicar la fórmula de Spear- man-Brown directamente, puesto que las dos formas ya no serían paralelas. En ese caso, el coeficiente de fiabilidad obtenido por la fórmula de Spearman-Brown supone una pe- queña subestimación del coeficiente de fiabilidad, por lo que puede calcularse un coefi- ciente de fiabilidad corregido. En el capítulo 8 se muestran otras formas de calcular el co- eficiente por el método de las dos mitades cuando las formas no son paralelas. Coeficiente α de Cronbach Como hemos indicado, existen muchas formas de dividir el test en dos mitades. Para re- solver este problema se ha propuesto el coeficiente alfa, un indicador de consistencia in- terna con el que se estudia la concordancia entre las puntuaciones de las personas entre las partes más elementales del test: los ítems. Considere que tenemos un test con J ítems: ∑∑∑ +== j j j j j j EVXX [3.25] Si se cumplen los supuestos del Modelo Clásico podemos definir la proporción de varian- za del test que es varianza verdadera: 100 Medición en Ciencias Sociales y de la Salud 2 ' 2 2 2 ' X jj VV j V X V jjj σ σσ σ σ ∑∑ ≠ + = [3.26] Los parámetros que aparecen en el numerador se refieren a las puntuaciones verdaderas en los ítems. Sin embargo, asumiendo los supuestos de la TCT, se cumplirá poblacionalmen- te que el promedio de las covarianzas empíricas entre ítems es igual al promedio de las covarianzas verdaderas: )1()1( '' '' − = − ∑∑ ≠≠ JJJJ jj VV jj XX jjjj σσ [3.27] y, por tanto: ∑∑ ≠≠ = '' '' jj XX jj VV jjjj σσ [3.28] Por otro lado, la covarianza entre dos variables nunca puede ser mayor que la varianza de cualquiera de ellas; por tanto, debe cumplirse siempre que el promedio de las covarianzas verdaderas entre ítems es menor o igual que el promedio de sus varianzas verdaderas: JJJ j V jj VV jjj ∑∑ ≤ − ≠ 2 ' )1( ' σσ [3.29] Y, por tanto, considerando [3.28] y [3.29]: 11 ''2 '' − = − ≥ ∑∑ ∑ ≠≠ JJ jj XX jj VV j V jjjj j σσ σ [3.30] De las ecuaciones [3.26], [3.28] y [3.30] se deriva la siguiente relación: 2 ' 2 ' ' 2 ' 2 2 2 '' ' ' 1 )1( X jj XX X jj XX jj XX X jj VV j V X V jjjj jj jjj J JJ σ σ σ σ σ σ σσ σ σ ∑∑ ∑ ∑∑ ≠≠ ≠ ≠ − = + − ≥ + = [3.31] Capítulo 3. Modelo clásico y fiabilidad 101 Pues bien, el denominado coeficiente α (Cronbach, 1951) es: 2 ' ' 1 X jj XX jj J J σ σ α ∑ ≠ − = [3.32] Y se dice que el coeficiente α es un límite inferior del coeficiente de fiabilidad, ya que siempre toma valores iguales o por debajo de éste [ 22 XV σσα ≤ ]. Para datos muestrales tres formas de expresar el coeficiente α serían4: Ecuación 1 [3.33] )( 1 2 ' ' X jj XX S S J J jj∑ ≠ − =α Ecuación 2 [3.34] )1( 1 2 2 X j X S S J J j∑ − − =α Ecuación 3 [3.35] S S jj XX '=α donde ∑ ≠ ' ' jj XX jj S es la suma de las covarianzas entre ítems, ∑ j X j S 2 es la suma de las va- rianzas de los ítems, 'jj XX S indica el promedio de las covarianzas entre ítems ( ))1( ' ' − = ∑ ≠ JJSS jj XXXX jjlj y S es el promedio de los J 2 elementos de la matriz de varianzas-covarianzas entre ítems: 2 ' 2 ' JSSS jj XX j X jjj += ∑∑ ≠ . El coeficiente α es útil para expresar en qué grado las medidas que obtenemos de las personas dependen de los ítems aplicados. La pregunta a la que se responde es: ¿los eva- luados habrían obtenido puntuaciones similares si hubiéramos aplicado otro test de la misma longitud construido siguiendo la misma lógica? El coeficiente α siempre toma valores menores o iguales a 1 (el numerador en la ecua- ción 3.35 tiene que ser menor o igual que el denominador). Generalmente, toma valores entre 0 y 1 pero puede ser negativo (el denominador en la ecuación 3.35 es siempre posi- tivo, pero el numerador puede ser negativo). Valores del coeficientepróximos a 1 indican fiabilidad alta; valores próximos a 0, fiabilidad baja. 4 Para comprobar la igualdad de las 3 ecuaciones, recordemos que la puntuación en el test es una combinación lineal de las puntuaciones en los ítems y, por tanto, la varianza del test puede expresarse como la suma de las va- rianzas y covarianzas entre ítems: ∑∑ ≠ += ' 22 ' jj XX j XX jjj SSS 102 Medición en Ciencias Sociales y de la Salud Ejemplo 3.11. Coeficiente alfa Podemos calcular el coeficiente α con los datos del ejemplo de la Tabla 3.8. El coeficiente α, en este caso, sería: − − = ∑ 2 2 1 1 X X S S J J jα = 76,0 4 267,0233,0233,0233,0267,0233,0 1 5 6 = +++++− El coeficiente α obtenido representa un valor aceptable, pues se ha obtenido con sólo 6 ítems, que nos indica que existe un grado de covariación medio-alto entre los ítems. La cuantía del coeficiente α depende de dos factores principalmente: 1. Consistencia interna o grado de covariación (correlación) promedio entre los ítems. Como es lógico, un grado de covariación mayor entre dos ítems implica que el efecto de aplicar uno u otro para puntuar a las personas es menos importante. Podemos obser- var en la expresión [3.35] que el coeficiente α tendrá un valor mayor cuanto mayor sea el promedio de las covarianzas. Asumirá valores cercanos a cero si el promedio de las covarianzas es próximo a 0. El máximo valor de α es 1, ya que la covarianza entre dos ítems nunca puede ser mayor que las varianzas de éstos (ya que el numerador nunca puede ser mayor que el denominador). El grado de covariación será mayor si los ítems están midiendo una única dimensión o rasgo (o dimensiones distintas pero correlacio- nadas) y mayor cuanto mejor reflejen esa dimensión (o dimensiones). Sin embargo, y para evitar malos entendidos, debemos recordar que α, por sí solo, no constituye un in- dicador de unidimensionalidad ya que: a. Se pueden estar midiendo distintas dimensiones pero correlacionadas. b. La covariación promedio puede llegar a ser alta incluso si un conjunto reducido de ítems no covarían con los demás. c. Como se describe a continuación, cierto grado de multidimensionalidad del test pue- de compensarse incrementando el número de ítems (Cortina, 1993; Streiner, 2003). Por tanto, para concluir sobre la unidimensionalidad del test es aconsejable aplicar otras técnicas estadísticas, como el Análisis Factorial (ver capítulos 6 y 10). 2. Número de ítems. En la ecuación [3.35] se observa también que el coeficiente α será mayor cuanto mayor sea el número de ítems. En efecto, llamemos al promedio de las varianzas de los ítems 2 jX S : Capítulo 3. Modelo clásico y fiabilidad 103 J S S j X X j j ∑ = 2 2 La fórmula 3.35 se puede escribir como: 2 2 2 2 ' ' ' ' )1(1 )1( j jj j jj jjj jj X XX X XX XXX XX S S J S S J J SJJSJ S −+ = −+ =α Si al añadir ítems se mantiene constante el cociente entre el promedio de las covarianzas y el promedio de las varianzas, el valor del coeficiente α será mayor cuanto mayor sea J. Puede observarse el parecido de la estructura de esta fórmula y la de Spearman- Brown. Ejemplo 3.12. Coeficiente alfa y unidimensionalidad del test En las siguientes tablas (3.9, 3.10 y 3.11) se muestran las matrices de varianzas- covarianzas entre los ítems de tres pruebas; los tests A y B tienen 6 ítems, mientras que el C tiene 12 ítems. Los datos son ficticios para ilustrar mediante un ejemplo simple las pro- piedades del coeficiente α. Para el test A: )( 1 2 ' X jj XX S S J J lj∑ ≠ − =α = 74,0 9,3 4,2 5 6 = Para el test B: )( 1 2 ' X jj XX S S J J lj∑ ≠ − =α = 74,0 9,3 4,2 5 6 = Para el test C: )( 1 2 ' X jj XX S S J J lj∑ ≠ − =α = 87,0 15 12 11 12 = 104 Medición en Ciencias Sociales y de la Salud Tabla 3.9. Matriz de varianzas-covarianzas entre ítems (Test A) X1 X2 X3 X4 X5 X6 X1 0,25 0,20 0,20 0 0 0 X2 0,20 0,25 0,20 0 0 0 X3 0,20 0,20 0,25 0 0 0 X4 0 0 0 0,25 0,20 0,20 X5 0 0 0 0,20 0,25 0,20 X6 0 0 0 0,20 0,20 0,25 Tabla 3.10. Matriz de varianzas-covarianzas entre ítems (Test B) X1 X2 X3 X4 X5 X6 X1 0,25 0,08 0,08 0,08 0,08 0,08 X2 0,08 0,25 0,08 0,08 0,08 0,08 X3 0,08 0,20 0,25 0,08 0,08 0,08 X4 0,08 0,08 0,08 0,25 0,08 0,08 X5 0,08 0,08 0,08 0,08 0,25 0,08 X6 0,08 0,08 0,08 0,08 0,08 0,25 Tabla 3.11. Matriz de varianzas-covarianzas entre ítems (Test C) X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X1 0,25 0,20 0,20 0,20 0,20 0,20 0 0 0 0 0 0 X2 0,20 0,25 0,20 0,20 0,20 0,20 0 0 0 0 0 0 X3 0,20 0,20 0,25 0,20 0,20 0,20 0 0 0 0 0 0 X4 0,20 0,20 0,20 0,25 0,20 0,20 0 0 0 0 0 0 X5 0,20 0,20 0,20 0,20 0,25 0,20 0 0 0 0 0 0 X6 0,20 0,20 0,20 0,20 0,20 0,25 0 0 0 0 0 0 X7 0 0 0 0 0 0 0,25 0,20 0,20 0,20 0,20 0,20 X8 0 0 0 0 0 0 0,20 0,25 0,20 0,20 0,20 0,20 X9 0 0 0 0 0 0 0,20 0,20 0,25 0,20 0,20 0,20 X10 0 0 0 0 0 0 0,20 0,20 0,20 0,25 0,20 0,20 X11 0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,25 0,20 X12 0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,20 0,25 Podemos observar que los tests A y B tienen el mismo coeficiente α. Sin embargo, la in- terpretación de los resultados sería bastante distinta. Aunque los dos tests tienen el mismo número de ítems, la misma varianza y el mismo promedio para las covarianzas entre ítems, el patrón de resultados es muy distinto atendiendo a las covarianzas concretas entre ítems. En el test A los ítems miden dos dimensiones; los ítems del 1 al 3 miden una di- mensión y los ítems del 4 al 6 miden otra dimensión. En el test B los 6 ítems miden una única dimensión, aunque las covarianzas entre los ítems que covarían positivamente son menores que las encontradas para el test A. Para el Test C se obtiene un coeficiente α su- perior (0,87). Observe que a pesar del alto valor del coeficiente obtenido, los ítems tam- bién miden dos dimensiones (los ítems del 1 al 6 miden una dimensión y los ítems del 7 al 12 miden otra dimensión). De hecho, las covarianzas entre los ítems que covarían positi- Capítulo 3. Modelo clásico y fiabilidad 105 vamente son similares a las encontradas para los ítems que covarían en el Test A; sin em- bargo, al ser el test más largo el coeficiente obtenido es mayor. Lo anterior ilustra que la interpretación del coeficiente α debe complementarse con los re- sultados obtenidos a partir del análisis de ítems y del Análisis Factorial. Un coeficiente α bajo puede indicar que los diferentes ítems miden rasgos o constructos diferentes o que el test es demasiado corto. El coeficiente α puede interpretarse como una estimación “a la baja” del coeficiente de fiabilidad como consistencia interna. Para interpretar el coeficiente α como un coefi- ciente de fiabilidad del test se requiere asumir que todos los ítems son paralelos o, al me- nos, esencialmente tau-equivalentes (ver capítulo 8 para la definición de tauequivalencia). En la práctica, es muy difícil que esto se produzca. Cuando los ítems no son equivalentes, el coeficiente alfa poblacional debe interpretarse como una subestimación del coeficiente de fiabilidad como consitencia interna (Lord y Novick, 1968): α ≤ σ 2V / σ 2X. Esto quiere decir que si obtenemos un coeficiente α de 0,7, el coeficiente de fiabilidad podría estar, teóricamente, entre 0,7 y 1. Por tanto, en sentido estricto, el coeficiente α no puede inter- pretarse como un coeficiente de fiabilidad. Una ventaja del coeficiente α es que no requiere dividir el test en distintas mitades. Cada test puede tener muchos coeficientes de fiabilidad por el método de las dos mitades pero siempre tendrá, para una muestra concreta, un único coeficiente α. Sin embargo, al calcular el coeficiente α hay que tener en cuenta una serie de precauciones, ya que adole- ce de algunosproblemas comunes a los otros indicadores de consistencia interna: 1. Las respuestas a los ítems pueden correlacionar excesivamente, independientemente de su contenido, si el test es de velocidad o hay efectos de fatiga. 2. También hay que ser cauto cuando existen grupos de ítems que comparten su especifi- cidad (p. ej., si conjuntos de ítems de un test de comprensión lectora se refieren a pasa- jes comunes). En ambos casos es preferible obtener otros indicadores de fiabilidad. Una solución sencilla para el último caso puede ser construir testlets (p. ej., cada testlet sería la suma de las puntuaciones de los ítems que se refieren a un pasaje común) y cal- cular el coeficiente alfa tomando los testlets como ítems. 3. Debe evitarse aumentar el coeficiente α artificialmente, incluyendo ítems redundantes en el test (p. ej., ítems muy parecidos en el enunciado). 4. Finalmente, el coeficiente alfa no es sensible al efecto de los errores debidos a factores transitorios (Becker, 2000; Green, 2003; Schmidt y Hunter, 1996, 1999). En la presen- cia de este tipo de errores, el coeficiente α es una sobrestimación del coeficiente de fia- bilidad. El coeficiente α es probablemente el indicador de fiabilidad más utilizado (Hogan, Benjamin y Brezinski, 2000). Sin embargo, la discusión sobre su interpretación sigue ge- nerando polémica. En el número de marzo de 2009, una de las revistas psicométricas más prestigiosas, Psychometrika, dedicó un número especial sobre la interpretación, usos, abu- 106 Medición en Ciencias Sociales y de la Salud sos y alternativas al coeficiente α como aproximación a la fiabilidad. La interpretación del coeficiente α puede ser especialmente problemática si el test no es unidimensional. En relación al uso del test, debe distinguirse entre el valor del coeficiente alfa como un indicador de la consistencia interna o como un indicador de que el test puede ser utilizado en la práctica. Un coeficiente alfa de 0,60 puede indicar una alta consistencia interna si la prueba tiene sólo 6 ítems. Sin embargo, esa alta consistencia interna no legitima su uso, porque la precisión de nuestras medidas será claramente insuficiente. Existen otros muchos indicadores relacionados con el coeficiente alfa, pero la mayoría de ellos raramente son aplicados en la práctica. Por ejemplo, los coeficientes denominados KR-21 y KR-20 (Kuder y Richardson, 1937) son casos particulares del coeficiente α para ítems dicótomicos. Mientras que KR-20 es matemáticamente equivalente al coeficiente al- fa, el coeficiente KR-21 no lo es, ya que en su cómputo se asume que los ítems tienen la misma dificultad y se cumplirá siempre que KR-21 ≤ α. El error típico de medida Definición Asumiendo el postulado fundamental del Modelo Clásico, que expresa la relación X = V + E, hemos observado que se cumple la siguiente relación para datos poblacionales σ 2X = σ 2V + σ 2E. También hemos demostrado que ρXX = 1 – σ 2E / σ 2X, de donde se dedu- ce que la desviación típica de los errores puede obtenerse a partir de la expresión: XXXE ρσσ −= 1 [3.36] σE es la desviación típica de los errores al aplicar un test en la población. En el Modelo Clásico suele asumirse que σE expresa también la desviación típica de los errores de me- dida que obtendríamos, para una persona, al aplicarle distintas formas del test (σEi). Es de- cir, que σEi = σE. A la desviación típica de los errores de medida (σE) se denomina error típico de medida. Representa una medida de precisión: cuanto más cercano a 0 sea el error típico de medida de un test, eso significará que dicho test proporciona a cada persona una puntuación X cercana a su nivel de rasgo V. El error típico de medida es muy importante, ya que indica la variabilidad de las puntuaciones X si tomáramos para la misma persona distintas medidas. En efecto, para un individuo i, la variabilidad de las puntuaciones a través de distintas formas paralelas se explica por la varianza de los errores (ya que, sien- do su puntuación verdadera constante a través de las formas, σ 2Vi = 0): 2222 iiii EEVX σσσσ =+= Si el error típico de medida σEi es 0, eso quiere decir que el evaluado i obtendrá siempre la misma puntuación X en las distintas mediciones (como el test en ese caso es máximamen- te preciso, la puntuación X del evaluado coincidirá siempre con su puntuación V). Cuanto menos preciso sea el test, mayor será σEi. Si el coeficiente de fiabilidad de las puntuacio- Capítulo 3. Modelo clásico y fiabilidad 107 nes fuera 0 (ρXX = 0), entonces el error típico de medida sería el máximo posible, σE = σX; esto quiere decir que cuando trabajamos con una prueba poco precisa la variabilidad de las puntuaciones observadas para una persona en distintas mediciones va a ser tan grande como la variabilidad de las puntuaciones observadas en la población. Luego el test resultará poco útil para informarnos sobre los niveles de atributo de las personas. Ejemplo 3.13. Coeficiente de fiabilidad y error típico de medida En la figura 3.2 se presentan 2 gráficos de dispersión entre V y X para dos tests. La media y desviación típica de X son 50 y 9,65, respectivamente. El primero representa lo que ocu- rre para un test con un coeficiente de fiabilidad de 0,9 y un error típico de 3,05 (relación lineal positiva y elevada). El segundo, lo que ocurre para un test con un coeficiente de fia- bilidad de 0 y un error típico de 9,65 (no existe relación lineal entre X y V). Figura 3.2. Relación entre V y X para dos tests En la figura 3.3 se representa la puntuación media y la variabilidad en X como función de V para esos mismos tests para las puntuaciones verdaderas entre 41 y 61. Figura 3.3. Puntuación esperada y variabilidad en X como función de V para dos tests. 0 10 20 30 40 50 60 70 80 90 0 10 20 30 40 50 60 70 80 90 100 V X 0 10 20 30 40 50 60 70 80 90 0 10 20 30 40 50 60 70 80 90 100 V 0 10 20 30 40 50 60 70 42 44 46 48 50 52 54 56 58 60 X V X 0 10 20 30 40 50 60 70 42 44 46 48 50 52 54 56 58 60 X V X X 108 Medición en Ciencias Sociales y de la Salud Para el test con alta fiabilidad (izquierda) el valor esperado en X es función de V. Por ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada en el test de 45 y sus puntuaciones suelen oscilar en la mayoría de los casos entre 42 y 48. Para el test con fiabilidad nula (derecha), el valor esperado en X no depende de V. Por ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada de 50 (la media del test) y sus puntuaciones suelen oscilar aproximadamente entre 40 y 60. En ese caso, la puntuación en el test no nos informa del nivel de rasgo. Puede obser- varse que la amplitud de los intervalos en cada test (42-48 y 40-60) se relaciona inversa- mente con su fiabilidad y es proporcional al error típico de medida. De lo anterior debe deducirse que el tamaño del error típico de medida debe interpretarse en relación a la variabilidad de las puntuaciones empíricas. Si σE es 1 y σX es 15, nuestro test será más preciso que si σE es 0,8 y σX es 1. En una muestra concreta el error típico de medida se estima como: XXXE rSS −= 1 [3.37] Ejemplo 3.14. Cálculo del error típico de medida En un test la desviación típica es 2,832 y el coeficiente de fiabilidad es 0,771; el error típico de medida se obtendría como: 355,1771,01832,21 ' =−=−= XXXE rSS Esto quiere decir que si aplicáramos a una persona tests paralelos, la desviación típica de las puntuaciones empíricas sería 1,355. Aplicaciones del error típico de medida El error típico de medida nos sirve para saber: (1) el rango de puntuaciones en el cual se encuentra la puntuación verdadera de una persona; (2) si la diferencia de puntuaciones ob- servadas entre dos personas expresa una diferencia en parteverdadera; (3) si el cambio en las puntuaciones observadas de una persona después de una intervención refleja un cam- bio en parte verdadero. Desde el Modelo Clásico se suele asumir que la distribución de las puntuaciones ob- servadas de una persona en las distintas formas paralelas es normal, con media su puntua- ción verdadera y desviación típica el error típico de medida: Capítulo 3. Modelo clásico y fiabilidad 109 ),(~ Eii VNX σ [3.38] Puesto que se asume la distribución normal puede decirse que los valores de la variable estarán entre el valor Vi – z1 – α/2σE y el valor Vi + z1 – α/2σE con una probabilidad 1 – α5, donde z1 – α es el valor z que deja por debajo una probabilidad 1 – α en la distribución normal. Por ejemplo, con α = 0,05, si σE = 1,355 y Vi = 5 podremos decir que los valores de X estarán, en el 95% de las mediciones, entre 2,344 (= 5 – (1,96)1,355) y 7,656 (= 5 + (1,96)1,355). En la realidad operamos al revés, pues no conocemos Vi sino Xi y queremos establecer un intervalo de confianza sobre Vi. Además, se trabaja con la estimación muestral del error típico de medida. Para ello, se procede de la siguiente manera para establecer los límites inferior y superior del intervalo de confianza: EiLs EiLi SzXV SzXV 2/1 2/1 α α − − += −= [3.39] Por ejemplo, con α = 0,05, si SE = 1,355 y Xi = 5, diremos que los valores de Vi estarán entre 2,344 (VLi = 5 – (1,96)1,355) y 7,656 (VLs = 5 + (1,96)1,355) con un nivel de con- fianza del 95% (al establecer de ese modo el intervalo sobre la puntuación verdadera, nos equivocaremos en nuestra afirmación en el 5% de los casos). Además, mediante el error de medida podemos saber si una diferencia en puntuaciones empíricas refleja una diferencia no nula de puntuaciones verdaderas. Por ejemplo, un test impreciso puede proporcionar a dos personas puntuaciones empíricas diferentes aunque sus niveles de rasgo sean iguales. Utilizando los procedimientos de la estadística inferencial, po- demos contrastar con cierta probabilidad si dos puntuaciones empíricas diferentes suponen o no niveles de rasgo distintos, o si un incremento en la puntuación empírica de una persona re- fleja un incremento en su nivel de rasgo. Para realizar el contraste, partimos de una situación en la que observamos una diferen- cia entre dos puntuaciones empíricas obtenidas en el mismo test (o en tests paralelos), X1 y X2, y queremos saber si la diferencia entre esas puntuaciones empíricas refleja una dife- rencia en los niveles de rasgo verdaderos, V1 y V2. Partimos de que la diferencia entre X1 y X2 se distribuye normalmente: )2,(~ 2121 ESVVNXX −− [3.40] Y esto nos permite obtener: 2 )()( 2121 ES VVXX Z −−− = )1,0(~ N 5 A pesar de denominarse de la misma forma, no debe confundirse el nivel de significación α de un contraste de hipótesis (la probabilidad asociada a la zona de rechazo de H0) con el coeficiente α de Cronbach. 110 Medición en Ciencias Sociales y de la Salud Lo más usual es contrastar si la diferencia entre X1 y X2 es estadísticamente distinta de 0. Bajo la hipótesis nula, se considera que V1 – V2 = 0 (las puntuaciones verdaderas son igua- les) y obtenemos el estadístico de contraste: 2 )( 21 ES XX Z − = [3.41] El Cuadro 3.1 resume los pasos de este contraste. El contraste puede ser bilateral (p. ej., la hipótesis nula es que no hay diferencias en puntuaciones verdaderas) o unilateral (p. ej., la hipótesis nula es que la persona no ha mejorado su puntuación verdadera después del tra- tamiento). Si el valor Z se encuentra en la zona crítica, admitiremos, con la probabilidad esta- blecida α de equivocarnos, que las puntuaciones V1 y V2 son distintas (o que ha habido una mejora). De lo contrario, admitiremos que, dada la precisión del test, no podemos concluir que la diferencia en puntuaciones empíricas exprese una diferencia (o mejora) en el verdadero nivel de rasgo. Como se muestra en el cuadro, también podemos establecer un intervalo de confianza para la diferencia en puntuaciones verdaderas. Cuadro 3.1. Resumen del contraste sobre puntuaciones verdaderas 1. Hipótesis: a. Contraste bilateral: H0: V1 = V2 ; H1:V1 ≠ V2 b. Contraste unilateral derecho: H0: V1 ≤ V2 ; H1: V1 > V2 c. Contraste unilateral izquierdo: H0: V1 ≥ V2 ; H1: V1 < V2 2. Supuestos: Se asume una distribución normal para )2,(~ 2121 ESVVNXX −− 3. Estadístico del contraste: 2 21 ES XX Z − = 4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación típica 1. 5. Zona crítica a. Contraste bilateral: Z ≤ zα/2 y Z ≥ z1–α/2 b. Contraste unilateral derecho: Z ≥ z1–α/2 c. Contraste unilateral izquierdo: Z ≤ zα/2 6. Regla de decisión: se rechaza H0 si el estadístico de contraste cae en la zona críti- ca; en caso contrario, se mantiene. 7. Intervalo de confianza: 22/12121 EVV SzXXIC α−− ±−= Capítulo 3. Modelo clásico y fiabilidad 111 Ejemplo 3.15. Contraste de puntuaciones verdaderas En la escala de Neuroticismo de un test dos personas obtienen unas puntuaciones directas de 13 y 15 puntos, respectivamente. La desviación típica del test es 2,832 y 77,0=XXr . El investigador se pregunta si, con un nivel de confianza del 95%, puede concluir que am- bas personas difieren en el rasgo o nivel verdadero. En este caso, los pasos a seguir serían: 1. Hipótesis: H0: V1 = V2; H1:V1 ≠ V2 (contraste bilateral). 2. Supuestos: Se asume una distribución normal para )2,(~ 2121 ESVVNXX −− . 3. Estadístico del contraste: 044,1 916,1 1315 2355,1 1315 2 12 = − = − = − = ES XX Z 4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación típica 1. 5. Zona crítica: Z ≤ –1,96 y Z ≥ 1,96 6. Regla de decisión: como –1,96 < 1,044 < 1,96, se mantiene H0. 7. Intervalo de confianza: =±−= −− 22/12121 EVV SzXXIC α )756,5;756,1()916,1(96,12 −=±= Con un nivel de confianza del 95%, la zona de aceptación queda establecida entre los límites z0,025 = –1,96 y z0,975 = 1,96, con lo cual, dada la precisión del test, no podemos concluir, con α = 0,05, que las dos personas difieran en el verdadero nivel de rasgo. Esto es lógico, ya que la diferencia encontrada entre las puntuaciones empíricas (2 puntos) no es mucho mayor que el error típico de medida (1,355 puntos). El intervalo de confianza nos dice que, con un nivel de confianza del 95%, la diferencia verdadera se encuentra aproximadamente entre –1,756 puntos y 5,756 puntos, que es un intervalo relativamente amplio. En esta escala, las diferencias entre dos puntuaciones empezarían a ser estadísti- camente significativas (con α = 0,05) a partir de 3,756 ( ≅ 1,96(1,916)) puntos. Formas de incrementar la fiabilidad de un test Existen varias formas de incrementar la fiabilidad de un test: 1. Aumentar el número de ítems: Una de las maneras de incrementar la fiabilidad de un test es aumentar el número de ítems. Para estudiar el efecto de la longitud del test, pue- de aplicarse la fórmula de Spearman-Brown: 112 Medición en Ciencias Sociales y de la Salud xx xx xx rn nr R )1(1 −+ = Mediante la cual puede estudiarse cómo aumentaría la fiabilidad al incrementar el número de ítems si no hay efectos de fatiga (que producen correlaciones entre los erro- res de medida de los ítems), si las formas añadidas son paralelas y si los errores debidos a factores transitorios son pequeños (Feldt y Brennan, 1989; Schmidt y otros, 2003). Además, debe tenerse una precaución adicional: al añadir ítems nuevos no debe buscar- se el aumento artificial del coeficiente α incluyendo ítems redundantes. 2. Eliminar ítems problemáticos. Además de incrementar el número de ítems, pueden eli- minarse los ítems problemáticos (cuya correlación con la puntuación en el resto del test es baja). Entre los ítems de igualvariabilidad, los de mayor correlación biserial puntual con el test, rbp , son los que más contribuyen a incrementar α ya que tendrán mayor promedio de covarianzas con el resto de los ítems. Para ítems con igual varianza, α es proporcional a los valores rbp de los ítems ya que: − − = ∑ ∑ = = 2 1 , 1 2 1 1 J j jbpX J j X rS S J J j j α [3.42] Y, si las varianzas son iguales: − − = ∑ = 2 1 ,11 J j jbprJJ Jα [3.43] Si en la fase de análisis de ítems tenemos como objetivo elaborar un test con elevada consistencia interna, tenemos que quedarnos con los ítems que manifiestan una mayor correlación ítem-test. Sin embargo, esta regla, de uso frecuente, debe aplicarse con pre- caución ya que: a. Si un ítem correlaciona de forma aceptable con el resto del test no debería eliminarse incluso si con ello cambia poco o aumenta la fiabilidad, ya que existen otras propieda- des psicométricas del test que podrían verse afectadas (p. ej., el nivel de representación de los contenidos). b. Si la muestra es pequeña, es probable que el aumento en el coeficiente α al quitar un ítem con baja rbp no se replique en una nueva muestra. Capítulo 3. Modelo clásico y fiabilidad 113 c. Si el objetivo del estudio psicométrico no es el desarrollo de un nuevo test puede ser cuestionable la eliminación de ítems, pues ello dificultará la comparación de los coefi- cientes de fiabilidad que se obtendrían con la nueva versión de la prueba. 3. Mejorar las condiciones de aplicación. Finalmente, tras la aplicación de un test pode- mos detectar ciertos aspectos que se han podido descuidar (instrucciones de aplicación poco claras, tiempos de aplicación inadecuados, etc.). Al homogeneizar al máximo las condiciones de aplicación (especialmente en lo relativo a las instrucciones y a los tiem- pos de aplicación de la prueba) haremos que éstas no incrementen la variabilidad error en las puntuaciones. Coeficiente de fiabilidad y características de la muestra Actualmente se considera un error hablar de fiabilidad del test (Fan y Yin, 2003; Thomp- son y Vacha-Haase, 2000). Parece que es más correcto hablar de fiabilidad de las puntua- ciones obtenidas en el test. Más que un debate terminológico, lo que se pretende destacar es que el coeficiente de fiabilidad obtenido para un test dependerá de la muestra de perso- nas en la cual lo hayamos calculado (especialmente, de la variabilidad en la característica medida), de las fuentes de error a las que es sensible el coeficiente obtenido y de la situa- ción de aplicación (p. ej., de las instrucciones proporcionadas). La variabilidad de las puntuaciones en la muestra es uno de los factores que más puede afectar al valor del coeficiente de fiabilidad. Más concretamente, obtendremos un coefi- ciente de fiabilidad mayor cuanto más heterogénea (mayor varianza en el rasgo) sea la muestra. Por ejemplo, es usual que un test de Inteligencia obtenga un rXX mayor en una muestra de la población general que una muestra de universitarios o en otra de personas con deficiencias cognitivas. Esto se debe a que, en último término, el coeficiente de fiabi- lidad es una correlación de Pearson y, por tanto, se ve afectado por los mismos factores estadísticos que ésta. Existen fórmulas para corregir los efectos de la variabilidad, denominas como fórmu- las para la corrección del coeficiente de fiabilidad por restricción de rango. Su aplicación no está exenta de supuestos (p. ej., que la varianza error se mantiene constante a través de los grupos) y, por tanto, de críticas. En concreto, asumiendo que la varianza de los errores es la misma en dos grupos (A y B), el coeficiente de fiabilidad en el grupo B puede obte- nerse como: ( ) 2 )( )( 2 )( )( 1 1 BX AXXAX BXX σ ρσ ρ − −= [3.44] donde ρxx(A) y ρxx(B) indican el coeficiente de fiabilidad en los grupos A y B respectivamen- te; σ 2X(A) y σ 2X(B) indican las varianzas de las puntuaciones empíricas en los grupos A y B, respectivamente. Esta fórmula no debería aplicarse si existen razones para pensar que los grupos difieren en cuanto a la varianza de los errores (lo que puede ocurrir si la precisión del test varía mucho dependiendo del nivel de rasgo). 114 Medición en Ciencias Sociales y de la Salud Ejemplo 3.16. Corrección por restricción de rango Tras un proceso de selección se ha aplicado una prueba de Extraversión al grupo de per- sonas seleccionadas. Se obtiene un coeficiente de fiabilidad de 0,6 y una varianza de las puntuaciones en el test de 7. El investigador se pregunta cuál habría sido el coeficiente de fiabilidad si hubiera aplicado el test en el grupo completo de aspirantes que se presentaron al proceso de selección. En el manual de la prueba se describe que su varianza es 10 en la población. Asumiendo que en el grupo de aspirantes ésa sea la varianza, la estimación del coeficiente de fiabilidad para dicho grupo será: ( ) 72,0 10 6,017 1 = − −=XXρ Algunos autores consideran que en un grupo de aspirantes suele haber menor variabilidad en el rasgo que en la población. Esto puede ocurrir por un efecto de autoselección (p. ej., si las personas poco extravertidas optan por no presentarse a trabajos en los que se de- manda esa característica de personalidad). Estudios publicados previos pueden servir para valorar el grado en que se produce este efecto para distintas características de personali- dad y en distintos tipos de trabajos (ver por ejemplo, Ones y Viswesvaran, 2003). Valores mínimos para los indicadores de fiabilidad La falta de fiabilidad de las puntuaciones en un test supone que una parte importante de la variabilidad de las puntuaciones es aleatoria. Ante este problema, la pregunta podría ser: ¿A partir de qué valor del coeficiente de fiabilidad aceptamos que las puntuaciones son suficientemente fiables? La respuesta a esta pregunta es ambigua porque está mal formu- lada. Es un error pensar que existen límites casi mágicos, como el 0,7, a partir de los cua- les nos podemos olvidar de la falta de precisión de las puntuaciones del test (Schmidt y Hunter, 1999). Este error surge a partir de los intentos de establecer guías que nos permi- tan concretar valores mínimos de precisión para las pruebas. Por ejemplo, Nunnally (1967) recomendaba inicialmente valores por encima de 0,5 o 0,6 en las fases tempranas de la investigación; en versiones posteriores de su manual incrementaron el valor a 0,7 (Nunnally y Bernstein, 1994); para instrumentos que se vayan a utilizar en investigación básica recomiendan un valor mínimo de 0,8 y si se va a hacer un uso clínico 0,9 es, para ellos, el valor mínimo aceptable6. En realidad, el valor del coeficiente de fiabilidad que podamos aceptar debe venir fijado más por el uso específico que se vaya a hacer del test (p. ej., considerando la precisión requerida para ese uso o las consecuencias de la falta de 6 Aunque para Streiner este último criterio es demasiado exigente y puede resultar contraproducente ya que, en su opinión, un valor tan alto sólo se puede obtener a costa de incrementar la redundancia de los ítems en el test (Streiner, 2003). Capítulo 3. Modelo clásico y fiabilidad 115 precisión) que por una regla mágica, por muy consensuada que pueda estar. Sirvan como ejemplo estos tres ámbitos de uso de las puntuaciones en un test: 1. En contextos de investigación básica, para estudiar las relaciones entre constructos. Por ejemplo, Schmidt y Hunter (1999) muestran que la correlación entre dos variables medidas con pruebas cuyo coeficiente de fiabilidad sea 0,70 se verá subestimada, en promedio, en un 30% (p. ej., una correlación de 0,3 pasará a ser una correlación de 0,21). Esto puede hacer que relaciones reales dejen de ser estadísticamentesignificati- vas. Lo mismo ocurre si estamos comparando las puntuaciones medias de los evaluados en dos grupos (p. ej., experimental y control). Si el test no resulta suficientemente fia- ble, las diferencias no serán estadísticamente significativas. En este tipo de situaciones, una forma adecuada de plantearnos la pregunta es: ¿son las puntuaciones en el test lo suficientemente fiables para detectar la relación o efecto que se pretende detectar dados los tamaños muestrales de los grupos? 2. En contextos de selección, para elegir a los candidatos aptos para el puesto. En estos contextos es frecuente que haya un límite en el número de plazas ofertadas. En ese ca- so, los requerimientos en relación a la fiabilidad del test aplicado pueden depender de su uso (es diferente aplicarlo como filtro que para tomar decisiones finales), de la ratio de selección (p. ej., si se debe seleccionar al 20% con puntuaciones superiores o si se debe seleccionar al 10%), de la proporción de aspirantes aptos para el puesto y de otras consecuencias que pueda tener la aplicación. 3. En contextos de evaluación diagnóstica o de certificación, para clasificar a los evalua- dos en relación con varias categorías o puntos de corte. En ese caso, la precisión re- querida dependerá de los niveles de puntuaciones que deseamos discriminar y de las consecuencias que pueda tener una clasificación errónea. Cuanto más próximos sean los niveles de rasgo en los que se quiere discriminar y más graves las consecuencias de una decisión errónea, mayor será la fiabilidad requerida. Software para la Teoría Clásica de los Tests Los programas estadísticos de carácter general (SPSS, SAS, STATISTICA) proporcionan diversos indicadores psicométricos de fiabilidad según el Modelo Clásico. Los programas comerciales como LERTAP 5 (Nelson, 2001) e ITEMAN (ASC, 1988) permiten el análi- sis clásico de ítems y ofrecen distinta información sobre la fiabilidad de las puntuaciones en el test. Los programas TAP (Brooks y Johanson, 2003) y CIA (Kim, 1999) son muy similares al programa ITEMAN en cuanto a su funcionalidad y son de libre distribución. El programa CLM (López-Pina, 2005), también de libre distribución, proporciona un gran número de indicadores de fiabilidad. TIAPLUS, desarrollado en uno de los centros de in- vestigación psicométrica más prestigiosos (CITO, 2006) permite también el análisis clási- co de ítems y la obtención de distintos estadísticos para el estudio de la fiabilidad. En Es- paña, Renom y colaboradores (2007) han desarrollado una plataforma web (www.etest.es) de análisis psicométrico que integra distintas herramientas desarrolladas previamente por el equipo (METRIX, X-PAT, etc.). 116 Medición en Ciencias Sociales y de la Salud Indicadores de fiabilidad con SPSS Los indicadores de fiabilidad pueden obtenerse en SPSS dentro del menú Analizar > Es- cala > Análisis de fiabilidad. Para obtener el coeficiente de fiabilidad por el método de las dos mitades debe elegirse (en la pestaña correspondiente) el modelo dos mitades. El orden en el que se introducen las variables (i. e., los ítems) en la lista Elementos determi- na qué ítems forman cada mitad. Si el número de ítems es par, las primeras J/2 variables formarán la primera mitad y las siguientes J/2 variables formarán la segunda mitad del test. Si el número de ítems es impar, las primeras (J+1)/2 variables formarán parte de la primera mitad y las siguientes (J – 1)/ 2 variables formarán la segunda mitad del test. En la salida de resultados se ofrece el coeficiente SBrXX, denominado como Coeficiente de Spearman-Brown (Longitud igual). Si el número de ítems es impar, entonces obtendre- mos el coeficiente corregido [Coeficiente de Spearman-Brown (Longitud desigual)]. El coeficiente α puede obtenerse en SPSS eligiendo el modelo Alfa dentro del menú Analizar > Escala > Análisis de fiabilidad. En la salida de resultados se ofrece el coefi- ciente α etiquetado como “Alfa de Cronbach” y el coeficiente α z etiquetado como “Alfa de Cronbach basado en los elementos tipificados”. Este último resulta de aplicar la fórmula tras transformar las puntuaciones a escala típica, lo que puede ser conveniente si los ítems tienen diferente formato de respuesta. Ejemplo 3.17. Coeficiente de fiabilidad por el método de las dos mitades con SPSS En una prueba de 11 ítems de Neuroticismo aplicada a 1569 evaluados, se obtuvieron en SPSS los resultados que aparecen en las siguientes tablas. Tabla 3.12. Estadísticos de fiabilidad con el modelo Dos mitades en SPSS Correlación entre formas 0,589 Coeficiente de Spearman-Brown Longitud igual 0,741 Longitud desigual 0,743 Dos mitades de Guttman 0,739 Tabla 3.13. Estadísticos descriptivos con el modelo Dos mitades en SPSS Media Varianza Desviación típica Nº de elementos Parte 1 3,78 2,793 1,671 6a Parte 2 2,56 2,264 1,505 5b Ambas partes 6,34 8,019 2,832 11 a. Los elementos son: u1, u2, u3, u4, u5, u6. b. Los elementos son: u7, u8, u9, u10, u11. Capítulo 3. Modelo clásico y fiabilidad 117 Tabla 3.14. Estadísticos de fiabilidad con el modelo Alfa en SPSS Alfa de Cronbach Alfa de Cronbach basada en los elementos tipificados Nº de elementos 0,771 0,773 11 En este caso, SBrXX es igual a 0,741 y el valor corregido, 0,743. Como puede observarse, los valores son bastante parecidos. Concluiríamos que el 74% de la varianza del test se debe a la varianza verdadera en el nivel de rasgo. En este caso el coeficiente α es 0,771, lo que indica que el grado de consistencia interna (o covariación media entre los ítems) es medio-alto. Además, el coeficiente α es mayor que el coeficiente de fiabilidad por el método de las dos mitades. Esto quiere decir que probablemente existen otras formas de dividir el test en dos mitades que dan lugar a mayores coeficientes de fiabilidad. Apéndice Otras consideraciones sobre el concepto de puntuación verdadera A lo largo del capítulo hemos ofrecido una definición operacional de puntuación verdadera, según la cual se considera como el promedio (valor esperado) de las puntuaciones observadas que obtendría una persona en un número elevado de aplicaciones: Vi = εf (Xif). Es importante ser consciente de que a partir de esta definición se establece que la puntuación verdadera depende no sólo de la persona sino del instrumento utilizado y de las condiciones de aplicación. Por tanto, la puntuación verdadera de una persona dependerá de su nivel de rasgo, de las propiedades del instrumento de medición (di- ficultad de los ítems, longitud del test, etc.) y de las condiciones de aplicación (p. ej., en qué grado las instrucciones le alientan a responder al azar cuando desconoce la respuesta). Si el test fuera una prueba de conocimientos de 30 ítems, que se aplica informando a los evaluados que se les van a pe- nalizar los errores, la puntuación verdadera de una persona es la puntuación promedio que obtendría en distintas pruebas de conocimientos de 30 ítems con las mismas especificaciones de contenido, di- ficultad e instrucciones de aplicación (p. ej., en relación a la penalización de los errores). El tema es más complejo de lo que parece a primera vista. Si una característica de la aplicación (p. ej., tiempo de aplicación de la prueba) se mantiene constante a través del proceso de medición, su efecto en las puntuaciones observadas pasará automáticamente a formar parte de la puntuación verdadera (en ese caso, una puntuación verdadera específica que reflejaría el valor del atributo en el contexto concreto de aplicación). Por otro lado, si la misma característica de la aplicación no está controlada por el aplicador y fluctúa de una ocasión a otra, la puntuación verdadera (que podríamos denominar genérica) reflejaría un efecto promedio de la variable de aplicación y la variabilidad en las puntuaciones observadas provocada por la variabilidad en las condiciones de aplicación pasaría a formarparte del error. Todo lo anterior implica que la puntuación verdadera no tiene por qué representar el nivel ver- dadero en el atributo que pretendemos medir; V es, simplemente, un promedio de lo que la persona obtendría en tests “como el nuestro”. El coeficiente de fiabilidad sólo nos informa de cómo variaría la puntuación X de la persona en distintas aplicaciones. Desde luego, un coeficiente de fiabilidad ba- jo indica que estamos midiendo un atributo de forma imprecisa, pero un coeficiente de fiabilidad al- 118 Medición en Ciencias Sociales y de la Salud to no implica necesariamente que estemos midiendo el atributo que queremos medir. Esto último es una cuestión de validez de las puntuaciones, a la que se dedicará el capítulo 5. Intervalos de confianza para los estimadores de fiabilidad Cada vez es más frecuente que para cualquier índice estadístico se exija informar del intervalo con- fidencial, que nos indica entre qué valores puede encontrarse el estadístico en la población. Por ejemplo, un valor rXX = 0,7 es poco informativo si se ha obtenido en una muestra de 20 personas. Fan y Thompson (2001) resumen los procedimientos más usuales para construir intervalos de con- fianza. Coeficiente α En este apartado utilizaremos el símbolo α̂ para referirnos al valor del coeficiente obtenido en la muestra y el símbolo α para referirnos al valor del coeficiente obtenido en la población. Para el co- eficiente α, el intervalo de confianza puede obtenerse de la forma: 2,1,2/inf )ˆ1(1)( glglFIC ααα −−= 2,1,2/1sup )ˆ1(1)( glglFIC ααα −−−= donde )(inf αIC y )(sup αIC son los límites inferior y superior del intervalo respectivamente; α̂ es la estimación muestral de α; F representa los valores de la distribución F para los valores de pro- babilidad acumulada α/2 y 1 – α/2, con grados de libertad gl1 = (N – 1) y gl2 = (N – 1)(J – 1). Coeficientes de fiabilidad como correlación entre formas paralelas y fiabilidad test-retest Para coeficientes de fiabilidad que pueden interpretarse directamente como correlaciones (coeficien- te de fiabilidad test-retest, coeficiente de fiabilidad como correlación entre formas paralelas) se pue- den aplicar los procedimientos estadísticos usuales cuando se trabaja con correlaciones; los límites del intervalo confidencial se pueden obtener mediante los siguientes pasos: 1. Se transforma el coeficiente de fiabilidad, mediante una transformación Z de Fisher: − + = XX XX r r r z XX 1 1 ln5,0 2. Se calcula la desviación típica de la distribución muestral de rxxz : 3 1 − = NXXr zσ 3. Se obtienen los intervalos de confianza para rxxz : XXrXXXX zrr zzzIC σα 2/1inf )( −−= XXrXXXX zrr zzzIC σα 2/1sup )( −+= Capítulo 3. Modelo clásico y fiabilidad 119 4. Se transforman los límites del intervalo a la escala de correlaciones, mediante una transformación inversa Z de Fisher: 1))(2exp( 1))(2exp( )( inf inf inf + − = XX XX r r XX zIC zIC rIC 1))(2exp( 1))(2exp( )( sup sup sup + − = XX XX r r XX zIC zIC rIC Coeficiente de fiabilidad por el método de las dos mitades Para el coficiente de fiabilidad por el método de las dos mitades se puede obtener el intervalo de confianza de una forma similar. Recuerde que el punto de partida es la correlación entre las dos mi- tades, PXIX r . Podemos calcular los intervalos de confianza para la correlación PXIX r , siguiendo el procedimiento anterior: 1))(2exp( 1))(2exp( )( inf inf inf + − = PXIX PXIX PI r r XX zIC zIC rIC 1))(2exp( 1))(2exp( )( sup sup sup + − = PXIX PXIX PI r r XX zIC zIC rIC y aplicar la fórmula de Spearman-Brown para obtener los límites del intervalo: )(1 )(2 )( inf inf inf PI PI XX XX XX rIC rIC rIC + = )(1 )(2 )( sup sup sup PI PI XX XX XX rIC rIC rIC + = Ejemplo 3.18. Intervalos de confianza para los coeficientes de fiabilidad Coeficiente alfa En una muestra de 1.569 personas y un test de 11 ítems, se obtuvo un α̂ = 0,771; en ese caso, los límites del intervalo de confianza (con un nivel de confianza del 95%) para el coeficiente α son: 754,0)075,1)771,01((1))ˆ1((1)( 2,1,2/inf =−−=−−= glglFIC ααα 787,0)928,0)771,01((1))ˆ1((1)( 2,1,2/1sup =−−=−−= − glglFIC ααα Lo que indica que podemos afirmar, con una confianza del 95%, que el coeficiente α en la pobla- ción se encuentra entre 0,754 y 0,787. En este caso, el intervalo es estrecho porque el tamaño de la muestra es grande (N = 1569). También puede obtenerse el intervalo de confianza con SPSS. En el menú Escalas > Análisis de fiabilidad, se selecciona el modelo Alfa; en Estadísticos, se selecciona Coeficiente de correlación intraclase (Modelo: Dos factores, efectos mixtos; Tipo: consistencia) y se obtiene una tabla similar a la 3.15. 120 Medición en Ciencias Sociales y de la Salud Tabla 3.15. Coeficiente de correlación intraclase Intervalo de confianza 95% Correlación intraclase Límite inferior Límite superior Medidas promedio 0,771 0,754 0,787 Coeficiente de fiabilidad como correlación entre formas paralelas En la misma muestra, la correlación entre el test de 11 ítems y otra forma paralela es también rxx = 0,771. Los intervalos de confianza, con un nivel de confianza del 95%, se obtendrían siguiendo los pasos previamente mostrados: 1. Transformación de rxx a Z de Fisher: 023,1 771,01 771,01 ln5,0 1 1 ln5,0 = − + = − + = XX XX r r r z XX 2. Se obtienen los intervalos de confianza para rxxz : 973,0 1566 1 96,1023,1)( 2/1inf =−=−= − XXrXXXX zrr zzzIC σα 072,1 1566 1 96,1023,1)( 2/1sup =+=+= − XXrXXXX zrr zzzIC σα 4. Se aplica la transformación inversa Z de Fisher: 750,0 1))973,0(2exp( 1))973,0(2exp( 1))(2exp( 1))(2exp( )( inf inf inf =+ − = + − = XX XX r r XX zIC zIC rIC 790,0 1))072,1(2exp( 1))072,1(2exp( 1))(2exp( 1))(2exp( )( sup sup sup =+ − = + − = XX XX r r XX zIC zIC rIC Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficien- te de fiabilidad en la población estará entre 0,75 y 0,79. Coeficiente de fiabilidad por el método de las dos mitades Obtenemos, para los mismos datos, que la correlación entre formas es 0,589 y el coeficiente de fia- bilidad por el método de las dos mitades es 0,741. Los intervalos de confianza pueden obtenerse rea- lizando los siguientes cálculos: Capítulo 3. Modelo clásico y fiabilidad 121 1. Transformación de PXIX r a Z de Fisher: 676,0 589,01 589,01 ln5,0 1 1 ln5,0 = − + = − + = PXIX PXIX PXIX r r r r r z 2. Se obtienen los intervalos de confianza para la Z de Fisher: 627,0 1566 1 96,1676,0)( 2/1inf =−=−= − PXIXrPXIXPXIX zrr zzzIC σα 726,0 1566 1 96,1676,0)( 2/1sup =+=+= − PXIXrPXIXPXIX zrr zzzIC σα 3. Se aplica la transformación inversa Z de Fisher: 556,0 1))627,0(2exp( 1))627,0(2exp( 1))(2exp( 1))(2exp( )( inf inf inf =+ − = + − = PXIX PXIX PXIX r r r zIC zIC IC 620,0 1))726,0(2exp( 1))726,0(2exp( 1))(2exp( 1))(2exp( )( sup sup sup =+ − = + − = PXIX PXIX PXIX r r r zIC zIC IC 4. Se obtienen los intervalos: 715,0 556,01 )556,0(2 )(1 )(2 )( inf inf inf =+ = + = PXIX PXIX r r XX IC IC rIC 765,0 620,01 )620,0(2 )(1 )(2 )( sup sup sup =+ = + = PXIX PXIX r r XX IC IC rIC Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficien- te de fiabilidad en la población estará entre 0,715 y 0,765. 4 Introducción a la Teoría de la Respuesta al Ítem Introducción La Teoría Clásica de los Tests (TCT) continúa siendo el modelo predominante para la construcción de tests psicológicos tanto por la sencillez de sus procedimientos y supuestos como por su demostrada utilidadpráctica. Sin embargo, se conocen bien las limitaciones teóricas del modelo clásico y se ha desarrollado un nuevo enfoque psicométrico, la Teoría de la Respuesta al Ítem (TRI), que permite superarlas. La TRI supone una aproximación más fina en el estudio de las propiedades psicométricas de un test, ya que modela de forma más realista las respuestas de las personas, toma los ítems como unidad de análisis y permite describir algunas propiedades psicométricas del instrumento mediante indicadores invariantes, que no dependen de la muestra en la que se aplique (siempre que se cumplan una serie de supuestos). Los principios de la TRI se remontan a los trabajos de Thurstone (1925; 1927), Lawley (1943), Guttman (1944) y Lazarsfeld (1950; 1959). El interés era obtener instrumentos de medida cuyas propiedades no dependieran de la muestra en la que se aplicaran. Fue Lord (1952) quien hizo la aportación definitiva, presentando el primer modelo de TRI en un monográfico de la revista Psychometrika. Sin embargo, es después de los años sesenta cuando se empiezan a desarrollar nuevos modelos y procedimientos que facilitan su aplicabilidad (Rasch, 1960; Lord y Novick, 1968). En los ochenta, será Lord el que acuñe la denominación de Teoría de la Respuesta al Ítem (Lord, 1980) y se publican diversos libros que constituyen las obras de referencia sobre la TRI (Hambleton y Swaminathan, 1985; Hambleton, Swaminathan y Rogers, 1991; Hulin, Drasgow y Parsons, 1983; Lord, 1980). Después de los ochenta, y sobre todo en las dos últimas décadas, no han dejado de proponerse nuevos modelos y aplicaciones de la TRI. Descripciones de los viejos y nuevos modelos pueden encontrarse en numerosas fuentes, en inglés (De Ayala, 2009; 124 Medición en Ciencias Sociales y de la Salud Embretson y Hershberger, 1999; Embretson y Reise, 2000; Ostini y Nering, 2006; Thissen y Wainer, 2001; Van der Linden y Hambleton, 1997) y en español (López-Pina, 1995; Martínez Arias et al., 2006; Muñiz, 1996, 1997; Revuelta, Abad y Ponsoda, 2006). Hasta hace poco, en España existían pocos instrumentos psicológicos desarrollados exclusivamente en el marco de la TRI. Una razón es que los nuevos procedimientos de la TRI son más costosos, complejos y exigentes en las comprobaciones de los supuestos. Sin embargo, en otros países, su uso es muy frecuente en pruebas de selección o acreditación aplicadas a grandes muestras (p. ej., SAT, GRE, TOEFL, ASVAB, etc.) y en contextos de evaluación educativa. La TRI se ha convertido también en una herramienta indispensable cuando se quiere comparar las diferencias entre diversos países o culturas (p. ej., en los tests que forman el TIMSS o las pruebas educativas del proyecto OECD/PISA). En España, son cada vez más los tests basados específicamente en la TRI o en los que se complementa el estudio psicométrico realizado desde la TCT. También son cada vez más frecuentes los trabajos de investigación aplicada sustentados en estos modelos y el desarrollo de ciertos tipos de tests que requieren de la TRI, como son los Tests Adaptativos Informatizados, de los cuales existen ya diversas versiones operativas para evaluar diferentes atributos. El presente capítulo representa una introducción al tema, incluyendo únicamente aspectos generales y los modelos de TRI para ítems de rendimiento óptimo, donde cada respuesta es cuantificada como acierto o error. En los capítulos 11 y 12 se profundiza en los procedimientos estadísticos de estimación y ajuste, así como en otro tipo de modelos. En los capítulos 13 y 15 se describen algunas de las principales aplicaciones. Limitaciones de la TCT Existen diversas razones por las que la TRI supone un modelo teóricamente más adecuado que la TCT. Entre las limitaciones de la TCT, superables desde la TRI, cabe destacar: 1. Ausencia de invarianza de los parámetros. En la TCT la puntuación verdadera Vi es un parámetro de la persona cuyo valor depende del conjunto particular de ítems adminis- trados. Es claro que distintos tests, con distinta longitud o distinta dificultad, darán lu- gar a distinta puntuación verdadera para la misma persona. No parece razonable un modelo en el que la puntuación verdadera de la persona depende de la versión del test que apliquemos (p. ej., fácil o difícil). Por otro lado, las propiedades psicométricas de los ítems (su media, su varianza, su índice de discriminación, etc.) también dependen de la distribución del rasgo en la muestra donde se obtienen. La TCT no proporciona un modo sencillo de saber cuál sería la dificultad de un ítem en otra muestra distinta a la que se ha aplicado el test. Frente a la TCT, una de las propiedades de la TRI es que los parámetros estimados son invariantes si se cumplen los supuestos del modelo; de esta manera, en la TRI, el valor del parámetro que indica el verdadero nivel de rasgo de un evaluado no depende de los ítems aplicados (p. ej., si son fáciles o difíciles). Asi- mismo, el valor de los parámetros de los ítems no depende de la muestra donde se ob- tienen (p. ej., si es de alto o bajo nivel de habilidad). 2. Se asume que la precisión del test es la misma, independientemente del nivel de rasgo medido. Sin embargo, un test puede ser más o menos preciso para un nivel de rasgo en Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 125 función, por ejemplo, de la dificultad de los ítems aplicados; si los ítems son difíciles, el test discriminará mejor en los niveles altos. La TRI permite obtener la precisión con la que cada persona es medida, según su nivel de rasgo y en función de los ítems con- cretos que se le hayan aplicado. 3. No se dispone de indicadores de bondad de ajuste que nos informen del grado en que el modelo se ajusta a los datos. Los supuestos de paralelismo son los únicos contrasta- bles empíricamente (ver capítulo 10), pero raramente se realizan estas comprobaciones pues, por un lado, requieren la elaboración de distintas formas del test y, por otro, se sabe que el supuesto de paralelismo estricto raramente se cumple, dado que es muy difícil elaborar tests que sean realmente paralelos. En la TRI se dispone de indicadores de bondad de ajuste que permiten estudiar el grado en que los datos se ajustan al mode- lo y a los supuestos establecidos. La TRI permite superar varias de las limitaciones de la TCT mediante una metodología más compleja, que requiere establecer modelos matemáticos, la estimación de sus paráme- tros y enjuiciar el ajuste entre datos y modelos. La Curva Característica del Ítem Para comenzar a resolver las limitaciones de la TCT, lo primero que se necesita es un mo- delo que nos indique cómo varía la dificultad de un ítem en función del nivel de rasgo. Pa- ra ello, desde la TRI se ha desarrollado el concepto de Curva Característica del Ítem (CCI). Una CCI nos indica la probabilidad que tienen de acertar un ítem las personas que lo responden. Esta probabilidad depende, naturalmente, del nivel de la persona en la va- riable medida, pero también de las características del ítem en concreto. Podemos ver esto mediante un ejemplo. Supongamos que tenemos un test largo que mide Capacidad de Razonamiento Inductivo y que ha sido aplicado a una muestra nume- rosa de personas (100.000, por ejemplo). Supongamos que la menor y mayor puntuación obtenidas en el test son 50 y 150 y que la puntuación en el test sea un buen indicador del nivel de rasgo verdadero. Para trabajar en una escala de interpretación más clara, utiliza- remos la puntuación en el test en puntuaciones típicas (–3 indica una puntuación baja, 0 una puntuación media y 3 una puntuación alta). Vamos a representar el rendimiento en un ítem concreto de la siguiente forma: Nos fijamos en todas las personas que han obtenido la puntuación en torno a –3 (supongamos que son 132) y vemos cuántas han acertado el ítem (supongamos que han sido sólo 5) y calculamos la proporción (5/132 = 0,04). Hace- mos lo mismo con los queobtuvieron en el test una puntuación en torno a –2,9 puntos (y obtenemos la proporción, supongamos que 0,15),... con las que obtuvieron en el test pun- tuación en torno a 0,0 (la proporción fue 0,48),... con las que obtuvieron puntuación en torno a 3 (la proporción fue 0,98). La Figura 4.1 muestra la proporción de aciertos en el grupo de personas que obtuvo en el test puntuaciones en torno a –3, –2,9, –2,8, etc. Puede verse que cuanto mayor es la puntuación en el test, mayor es la proporción de aciertos en el ítem. A una puntuación de 0 le corresponde una proporción de 0,48, lo que indica que para personas con ese nivel de rendimiento en el test resultará un ítem de difi- cultad intermedia; mientras que a una puntuación de 3,0 le corresponde una proporción de 126 Medición en Ciencias Sociales y de la Salud 0,98 (el ítem resultará fácil para ese nivel). La función de la Figura 4.1 suele denominarse CCI empírica. Figura 4.1. CCI empírica. Probabilidad de acierto a un ítem en función de la puntuación tipificada (Z) 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -3 -2 -1 0 1 2 3 Capacidad de Razonamiento Inductivo (z) Pr ob ab ili da d de a ci er to e n el ít em (P ) Desde la TRI se resume la información que contiene cada CCI empírica en una fórmula o modelo en el que (con uno, dos o tres parámetros del ítem) se recoge la información con- tenida en la función. Por tanto, en la aplicación de de la TRI, un paso inexcusable es optar por un modelo que sea una buena descripción del rendimiento en los ítems. En la Figura 4.2 se representan dos de los muchos modelos que podrían aplicarse. En la figura de la izquierda se ha aplicado un modelo lineal que, en el ejemplo, sigue la siguiente ecuación: 492,0177,0 += ZP Un inconveniente de este modelo es que para niveles de rasgo extremos pueden obtenerse valores de P imposibles (negativos o mayores que uno). En la figura de la derecha se ha aplicado un modelo logístico que, en el ejemplo, sigue la siguiente ecuación: 05,01,11 1 +−+ = Ze P donde e es la base de los logaritmos neperianos (2,718). En este modelo, el valor de P ne- cesariamente estará comprendido entre 0 y 1. Ésta es una de las razones por la que en TRI suelen aplicarse los modelos logísticos. Una de las características de los modelos logísti- cos es que la razón entre p y 1 – p se incrementa exponencialmente en relación a z. La forma exacta de la función exponencial dependerá de las características del ítem. Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 127 Figura 4.2. CCI según un modelo teórico. Modelo lineal (arriba) y Modelo logístico (abajo) P = 0,177z + 0,492 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -3 -2 -1 0 1 2 3 Capacidad de Razonamiento Inductivo (z) Pr ob ab ili da d de a ci er to e n el ít em (P ) -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -3 -2 -1 0 1 2 3 Capacidad de Razonamiento Inductivo (z) Pr ob ab ili da d de a ci er to e n el ít em (P ) P = 1 / (1 + exp (-1,1 z + 0,05)) Modelos de TRI para ítems dicotómicos Un problema importante es que la puntuación típica observada en el test, Z, puede no ser una buena medida del nivel de rasgo. Por ejemplo, si el test tiene un bajo coeficiente de fiabilidad; en ese caso, si se utilizara Z en el eje de abscisas, la CCI no representaría bien la relación entre el nivel de rasgo y la probabilidad de acertar el ítem. Por ello, en TRI se aplica el modelo utilizando el verdadero nivel de rasgo, al que se le denomina θ, que es una variable no observable (como lo era V en la TCT). Más adelante veremos cómo se pueden estimar las CCI siendo θ no observable. Pero antes debemos estudiar los distintos modelos logísticos que pueden dar cuenta de datos como los mostrados en la Figura 4.1. 128 Medición en Ciencias Sociales y de la Salud Modelo logístico de un parámetro (ML1P) Éste es el modelo más simple de todos. Se asume que los ítems varían sólo en un paráme- tro de dificultad, al que se le denomina parámetro b. La expresión matemática es: )( 1 1 )( jbθDaj e θP −−+ = [4.1] donde Pj(θ ) es la expresión que utilizaremos a partir de ahora para referirnos a la probabi- lidad de que una persona acierte el ítem j en función de su nivel de rasgo θ. Así pues, los términos de la fórmula son: Pj(θ ) Probabilidad de acertar el ítem j si el nivel de rasgo es θ. θ Nivel de rasgo o nivel de habilidad de la persona; cuanto mayor sea θ, mante- niendo constantes los demás elementos de la fórmula, mayor será Pj(θ). Gene- ralmente, se asume que θ está en una escala de puntuaciones típicas; por tanto, sus valores variarán generalmente entre –3 y 3. bj Es el parámetro de dificultad del ítem j; a mayor valor bj, manteniendo cons- tantes los demás elementos de la fórmula, menor será Pj(θ). En el ML1P el va- lor de bj indica el nivel de θ en el que la probabilidad de acertar el ítem es 0,5. Si el nivel de rasgo θ está en una escala de puntuaciones típicas, los valores de b variarán generalmente entre –3 y 3. a Parámetro de discriminación, que en este modelo se asume que es igual para todos los ítems (por ello, no aparece el subíndice j). Por tanto, en el ML1P el parámetro a es una constante e indica la mayor o menor inclinación o pendien- te de la CCI cuando θ = bj. Esto significa que en el ML1P todos los ítems tie- nen la misma pendiente. Generalmente, si el nivel de rasgo θ está en una esca- la de puntuaciones típicas, puede tomar valores entre 0,3 y 2,5 (sólo uno de ellos para todos los ítems de un test) según los ítems sean más o menos discri- minativos. e Base de los logaritmos neperianos (2,718). D Constante (D = 1,702 ó 1)1. En lo que sigue, asumiremos que D = 1,702. Es importante que el investigador explicite siempre cual es el valor de D. Si se elige el valor D = 1,702, se dice que se está utilizando el modelo con métrica normal. Si se elige el valor D = 1, se dice que se está utilizando el modelo con métrica logística. 1 El valor de D es arbitrario y no afecta al ajuste de la función. Lo habitual es elegir D = 1; sin embargo, algunos autores utilizan D = 1,702; cuando D = 1,702, la función logística, fL(z), es muy similar a otra función muy conocida, FN (z), la función de probabilidad acumulada de la distribución normal, Z ~ N(0 , 1), evaluada en z: )()0,5Zexp( 2 1 1 1 )( 2 702,1 zFdZ e zf N zZ Z zL =−≅ + = ∫ = −∞= − π Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 129 Otra forma frecuente de presentar el ML1P es: )( 1 1 )( jbθj e θP −−+ = [4.2] que elimina las constantes a y D del modelo. Ambas ecuaciones ([4.1] y [4.2]) son equiva- lentes (ver apéndice). El modelo expresado en la ecuación [4.2] suele denominarse Mode- lo de Rasch. Ejemplo 4.1. Cálculo de la probabilidad de acierto en el ML1P Una persona con nivel de habilidad θ = 1 responde a un ítem j con parámetro de discrimi- nación 1 y parámetro de dificultad 1 (θ = 1, a = 1, bj = 1), su probabilidad de acertar será: 5,0 1 1 1 1 )1( 011)(1(702,1 = + = + == −− ee θP )j El índice de dificultad (bj) es, justamente, aquel valor de θ para el cual Pj(θ ) = 0,5. Por tanto, cuanto mayor sea b más difícil es el ítem. En la Figura 4.3, se representan las CCI de dos ítems que difieren en dificultad. Figura 4.3. CCI según el ML1P (D = 1,702; a = 1) para 2 ítems con b1 = –0,95 y b2 = 0,6. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ P1(q) P2(q) Pr ob ab ili da d de a ci er to e n el ít em P1(θ) P2(θ) En la primera, la que está más a la izquierda, el valor de θ al que corresponde P1(θ ) = 0,5 es aproximadamente –0,95.Por lo tanto, la dificultad del primer ítem es b1= –0,95. En el segundo ítem, el valor de θ al que corresponde P2(θ ) = 0,5 es aproximadamente 0,6. Por b1 b2 130 Medición en Ciencias Sociales y de la Salud lo tanto, la dificultad del segundo ítem es b2 = 0,6. La Figura muestra que la probabilidad de acertar el ítem es sistemáticamente menor en el ítem 2 que en el ítem 1 para cualquier θ. El ítem 2 es más difícil que el uno, y sus índices de dificultad así lo muestran (b2 > b1). Una interpretación de la probabilidad Pj(θ ) es la siguiente: si P1(θ = −0,95) = 0,5 eso quiere decir que para una población con nivel de rasgo θ = –0,95, el 50% acierta este ítem; o, también, que una persona de rasgo θ = –0,95 acertará el 50% de los ítems con propie- dades psicométricas iguales a las de este ítem. En la Figura 4.3 puede observarse que las CCI de los dos ítems tienen la misma pen- diente. Ésta es una propiedad importante del ML1P: las CCI de distintos ítems nunca se cruzan, por lo que el ordenamiento que hacemos de los ítems por su dificultad será siem- pre el mismo independientemente del grupo de personas con el que trabajemos; si un ítem es más fácil que otro, lo es para cualquier nivel de habilidad. De la misma manera, el or- denamiento que haremos de los evaluados por su nivel de habilidad será siempre el mis- mo, independientemente del conjunto de ítems que le apliquemos; si una persona tiene más probabilidad de acertar un ítem que otra, también tendrá mayor probabilidad de acer- tar cualquier otro ítem, lo que hace mucho más clara la interpretación del significado de θ. Si se cumplen estas dos propiedades se habla de Objetividad Específica de las medidas. Veremos que en otros modelos de TRI no se cumplen. Ejemplo 4.2. Modelo de Rasch En la Tabla 4.1 se muestran los parámetros b de 3 ítems de una escala de cálculo numérico y los parámetros θ de 3 personas, obtenidos después de aplicar el modelo de Rasch. Una ventaja de la TRI frente a la TCT es que los parámetros θ de las personas y los parámetros b de los ítems están expresados en la misma escala; es decir, podemos comparar directa- mente el nivel θ de una persona con el parámetro b de un ítem. En el ejemplo, el evaluado 3 tiene un nivel de rasgo de 0. Su probabilidad de acertar los tres ítems puede deducirse de la relación entre su θ y el parámetro b de esos tres ítems; en concreto, su probabilidad de acertar el ítem 4 es alta (mayor que 0,5) ya que ese ítem tiene parámetro b menor que su θ; su probabilidad de acertar el ítem 3 es media (igual a 0,5) ya que ese ítem tiene paráme- tro b menor que su θ; su probabilidad de acertar el ítem 5 es baja (menor que 0,5) ya que ese ítem tiene mayor parámetro b menor que su θ. Tales comparaciones no son posibles desde la TCT, donde los índices de dificultad (pj) y la puntuación en el test (Xj) están ex- presados en distinta escala. Desde los modelos de Rasch, se facilita la interpretación de las puntuaciones de las personas. Si las operaciones cognitivas para resolver los ítems han sido bien delimitadas, podemos darle significado a cada nivel de rasgo en función de cuáles son las probabilida- des de resolver exitosamente cada operación (implícita en cada ítem). Por ejemplo, el ítem 5 requiere que el estudiante sea capaz de resolver raíces cuadradas de una cierta compleji- dad. Un nivel de θ de 1,5 significa que existe una probabilidad de 0,5 de resolver ese tipo de raíces. Siguiendo ese razonamiento podemos llegar a una idea más exacta de qué com- petencias implica cada nivel de habilidad. Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 131 Tabla 4.1. Parámetros de tres evaluados y tres ítems según el modelo de Rasch aplicado para modelar las respuestas a una prueba de cálculo numérico θ del evaluado Evaluado Valor Ítem b del ítem Contenido del ítem –2 –1,75 Ítem 4 –1,75 213,5 + 2,085 – 13,65 = –1,5 –1,25 –1 –0,75 Sujeto 1 –0,75 –0,5 –0,25 0 Sujeto 3 0 Ítem 3 0 2 (12 – 8) – 4 (2 – 4) = 0,25 0,5 Sujeto 2 0,5 0,75 1 1,5 Ítem 5 1,5 =2516.157 2 Modelo logístico de dos parámetros (ML2P) Este modelo permite que el parámetro a, que indica la capacidad discriminativa del ítem, varíe de ítem a ítem: )( 1 1 )( jj bθDaj e θP −−+ = [4.3] donde el parámetro aj sigue siendo el parámetro de discriminación, pero en este modelo puede variar de ítem a ítem (por ello se añade el subíndice j). El parámetro aj indica la mayor o menor inclinación o pendiente de la CCI cuando θ = bj. La pendiente en ese pun- to es exactamente 0,25Daj. En la Figura 4.4 se muestran las CCI de dos ítems de igual dificultad (b1= b2 = 0,75), pero que difieren en el parámetro de discriminación. El parámetro a se relaciona con la pendiente; es proporcional al ángulo que forma la CCI en relación al eje de abscisas. La principal diferencia entre los dos ítems es que el 2 (línea de puntos), cuando θ = 0,75, tie- ne una pendiente mucho mayor (a2 = 2,4) que la del ítem 1 (a1 = 0,4). Como la pendiente es tan alta, las personas con θ > 0,75 tienen casi todas ellas una muy alta probabilidad de acertar el ítem 2 (y casi todas ellas lo acertarán), y las personas con θ < 0,75 tienen casi todas ellas una probabilidad próxima a cero de acertarlo (y casi ninguna lo acertará). Por lo tanto, el ítem 2 discrimina entre los que tienen θ > 0,75 y los que tienen θ < 0,75. Por 132 Medición en Ciencias Sociales y de la Salud su parte, el ítem 1 tiene muy poca pendiente cuando θ = 0,75. En consecuencia, aunque la mayoría de las personas con θ > 0,75 lo acertarán, muchas lo fallarán (pues la probabili- dad de acierto es claramente inferior a uno). Igualmente, aunque la mayoría de las perso- nas con θ < 0,75 fallarán el ítem, muchas lo acertarán, pues la probabilidad de acierto es claramente superior a cero. En el ítem 1 la probabilidad crece muy suavemente a medida que aumenta θ, por lo que no es buen discriminador entre las personas con θ > 0,75 y las que tienen θ < 0,75. Figura 4.4. CCI según el ML2P para 2 ítems (a1 = 0,4; b1 = 0,75; a2 = 2,4; b2 = 0,75). 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ P1(q) P2(q) Pr ob ab ili da d de a ci er to e n el ít em P1(θ) P2(θ) Los valores de a oscilarán generalmente entre 0,3 y 2,5, y se suelen considerar ítems dis- criminativos los que tienen valores a mayores de uno. El parámetro bj se interpreta, en es- te modelo, de la misma manera que en el ML1P. Modelo logístico de tres parámetros (ML3P) Este modelo añade a los dos parámetros a y b un tercero, c, que representa la probabilidad de acertar el ítem al azar. Más exactamente, c es el valor de Pj(θ) para valores extrema- damente bajos de θ. La expresión del modelo de 3 parámetros es la siguiente: e+ cc=θP jj b-Da jjj )(1 1 )1()( θ− −+ [4.4] Los parámetros en la ecuación [4.4] se interpretan en este caso de la siguiente manera: 1. El parámetro cj de pseudoazar representa la probabilidad de acierto para personas con un nivel de rasgo extremadamente bajo. Si no hay omisiones, suele tomar un valor próximo al inverso del número de opciones de respuesta (algo menor si se descartan opciones incorrectas con facilidad). Su valor también depende de la presencia de omi- siones: cuanto mayor sea el número de personas que no responden al ítem, menor será el parámetro c. Como es una probabilidad, sus valores pueden oscilar entre 0 y 1, pero generalmente varían entre 0 y 0,5. a1 a2 Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 133 2. El parámetro bj de dificultad indica la posición de la CCI en relación al eje de absci- sas (cuanto mayor es la dificultad del ítem, más hacia la derecha se posiciona la CCI).Se encuentra en la misma métrica que θ, por lo que sus valores suelen oscilar en el mismo rango. Indica el nivel de habilidad θ donde la probabilidad de acertar es el valor medio entre cj y 1; es decir, 0,5(1 + cj). Éste es el punto de máxima discriminación del ítem (es decir, el punto donde la pendiente de la CCI es máxima). 3. El parámetro aj de discriminación es proporcional a la pendiente que tiene la CCI en el valor θ = bj.2 Los valores de a suelen oscilar entre 0,3 y 2,5 (según la métrica del ni- vel de rasgo que hemos fijado). Debemos observar que los parámetros de dificultad y discriminación no son iguales a los del modelo ML2P3. En la Figura 4.5 podemos ver la CCI de dos ítems con los mismos valores de a (1) y b (0), pero distintos valores de parámetro c (c1= 0 y c2= 0,2). 2 En concreto, la pendiente en el punto θ = bj depende de aj y de cj y es 0,25Daj(1 – cj). 3 Definamos que la probabilidad de acertar como función del nivel de rasgo si no hubiera aciertos por azar sigue el ML2P: e+ =θP jj bDa * j )(1 1 )( −− θ En condiciones donde hay respuestas al azar el ML2P es inadecuado. Pues bien, el modelo de 3 parámetros in- cluye al anterior modelo un nuevo parámetro cj que indica la probabilidad de aciertos por azar: jjjj cθPθP=θP ))(1()()( ** −+ La lógica del modelo de la ecuación es la siguiente. La probabilidad de acertar es la probabilidad de saber la res- puesta [P*j (θ)], más la probabilidad de no saberla [1 – P*j (θ)] multiplicada por la probabilidad de acertarla cuando no se sabe la respuesta [cj]; el parámetro cj sirve para modelar el hecho de que aunque uno no sepa la respuesta, puede acertarla eligiendo al azar entre las opciones o escogiendo aquella que resulte más atractiva. A partir de la expresión anterior se puede obtener la ecuación [4.4]: e+ ccθPcccθPθP=θP jj b-Dajjjjjjjjj )( *** 1 1 )1()()1())(1()()( θ−−+=−+=−+ Observe que aunque el desarrollo del ML3P se inspira en el ML2P, las ecuaciones de ambos modelos son distin- tas, [4.3] y [4.4], por lo que los parámetros aj y bj serán también distintos. 134 Medición en Ciencias Sociales y de la Salud Figura 4.5. CCI según el ML3P para 2 ítems (a1 = 1; b1 = 0; c1 = 0; a2 = 1; b2 = 0; c2 = 0,2) Desde nuestro punto de vista, el modelo más completo es el ML3P. En el modelo de Rasch y en el ML2P no se contemplan las respuestas al azar. Esto hace que ambos puedan ajustarse peor cuando se trabaja con ítems de opción múltiple, especialmente para ítems de dificultad elevada. Además, en el modelo de Rasch, tampoco se contempla la posibili- dad de que los ítems tengan distinto parámetro de discriminación. Esto supone asumir que no hay ítems peores y mejores para medir el nivel de rasgo (o, en todo caso, que aquellos ítems cuyo parámetro a se diferencie mucho del de los otros ítems deberían ser eliminados de la prueba). El modelo de Rasch raramente se ajusta a los datos si no es mediante una criba de ítems que, finalmente, puede acabar por socavar la validez del test. Por otro lado, la aplicación del ML3P requiere procedimientos más complejos de estimación de los parámetros y muestras más numerosas. Los que defienden el modelo de Rasch se basan en algunas de sus recomendables propiedades estadísticas (p. ej., la objetividad específica o, como veremos más adelante, que proporciona estimadores suficientes de los parámetros4). Además, justifican que si un modelo más parsimonioso (con menos parámetros) se ajusta a los datos, es preferible a modelos más complejos. A partir de una CCI conoceremos también la probabilidad de fallar el ítem, a la que nos referiremos como Qj(θ ). Más genéricamente, podremos referirnos a la probabilidad de una respuesta xj al ítem j, lo que suele expresarse como: jj x j x jjjj QP=xXP −= 1)()()|( θθθ [4.5] que es una forma compacta de referirse a la probabilidad de la respuesta xj; observe que la fórmula anterior se simplifica en cada caso al resultado correcto: )()()()|1( 01 θθθθ jjjjj PQP=XP == )()()()|0( 10 θθθθ jjjjj QQP=XP == 4 Se dice de un estimador que es suficiente si agota toda la información disponible en la muestra para estimar el parámetro. c2 Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 135 Supuestos de la TRI Un paso previo a la aplicación de los modelos de TRI es la comprobación de que se cum- plen sus dos supuestos fundamentales: unidimensionalidad e independencia local. En este apartado se describen los dos supuestos y por qué son importantes. En los capítulos 6, 10 y 11 se profundizará en los procedimientos para comprobar ambos supuestos. Unidimensionalidad En los modelos anteriores la probabilidad de acertar un ítem depende únicamente de sus parámetros y de θ. Por ejemplo, en un ítem que mida el nivel de vocabulario inglés, la probabilidad de acertarlo depende de los valores a, b y c del ítem y del nivel de vocabula- rio en inglés de la persona (θ) , pero no de otros rasgos, como podría ser su inteligencia. En otras palabras, se asume que el rendimiento en los ítems que forman el test depende del nivel de la persona en un solo rasgo o dimensión. A este supuesto se le denomina su- puesto de unidimensionalidad. La mayoría de las definiciones actuales de unidimensiona- lidad hacen referencia al análisis factorial y al concepto de independencia local débil: 0|' =θσ jj XX [4.6] que implica que las covarianzas entre ítems para muestras con el mismo nivel de rasgo son cero. En otras palabras, cumpliéndose el supuesto, si seleccionáramos a un grupo de evaluados con el mismo nivel de rasgo la correlación entre dos ítems cualesquiera sería cero. Según los modelos, dos ítems correlacionan sólo porque acertarlos depende de θ; por tanto, si condicionamos los datos en dos ítems a los valores θ debe desaparecer la correla- ción. En los Capítulos 6 y 10 se estudiarán los procedimientos de análisis factorial que permiten estudiar si se cumple el supuesto de unidimensionalidad. Independencia local Existe independencia local entre los ítems de un test si la respuesta de una persona a uno de ellos no depende de sus respuestas a los otros. La independencia local se deriva de la unidimensionalidad porque significa que la respuesta a un ítem sólo depende de sus pará- metros y de θ, y no está influida por el orden de presentación de los ítems, las respuestas que ya se hayan dado, etc. Para modelos como los descritos, la unidimensionalidad impli- ca independencia local; sin embargo, conviene mantener separados ambos supuestos, ya que en los modelos multidimensionales de TRI no son equivalentes. Matemáticamente, la independencia local se define en términos probabilísticos: la probabilidad de que un eva- luado i tenga un patrón de respuestas en un test de J ítems es igual al producto de las pro- babilidades de cada respuesta en cada uno de ellos por separado: 136 Medición en Ciencias Sociales y de la Salud ∏ = ===== J j ijjiJJii xXPxXxXxXP 1 2211 )|()|,,...,( θθ o, de forma más compacta: ∏ = == J j ijj xXPP 1 )|()|( θθiX [4.7] donde P(Xi|θ ) designa la probabilidad del patrón de respuestas para el evaluado i; Xi se define como un vector con las respuestas del evaluado i, Xi = {xi1, xi2, xi3,…, xiJ} 5. Este planteamiento se conoce también como supuesto de independencia local fuerte. Gracias a este supuesto se cumple que, conociendo los parámetros del evaluado y de los ítems, po- demos hallar la probabilidad de su patrón de respuestas en el test completo. El supuesto de independencia local fuerte, como vemos, está referido a todos los ítems del test y por tanto es difícil de contrastar empíricamente. Por ello se suele contrastar el supuesto de independencia local débil, ya mencionado, relativo sólo a pares de ítems. Tal supuesto implica que, para cualquier parde ítems, se cumple que las probabilidades de respuesta son independientes para evaluados con el mismo nivel de rasgo θ : )|()|()|,( 2221112211 θxXPθxXPθxXxXP iiii ===== [4.8] que también puede expresarse, en el caso de ítems dicotómicos, como (ver ecuación [4.5]): 2211 1 22 1 112211 )()()()()|,( iiii xxxx ii QPQPθxXxXP −−=== θθθθ En el caso de ítems dicotómicos, es fácil observar que si se cumple lo anterior se cumple que la covarianza entre los ítems es 0 para evaluados con el mismo nivel de rasgo. En efecto, la covarianza entre los ítems 1 y 2 se calcula como: )|1()|1()|1,1( 2121|21 θXPθXPθXXPθXX ==−===σ Si hay independencia local los dos términos a la derecha de la ecuación son iguales. Por el contrario, si hay dependencia local: 0|' ≠θσ jj XX La dependencia local puede ser positiva o negativa. Si es positiva ( 0|' >θσ jj XX ), el núme- ro de personas con la misma respuesta en los dos ítems es mayor que el esperado según el modelo unidimensional. Generalmente, ítems con dependencia local positiva miden una 5 Las variables en negrita se utilizan para designar una matriz o un vector. Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 137 misma dimensión específica distinta de θ . Por ejemplo, puede ocurrir que dos ítems ten- gan un enunciado similar y sean redundantes o que para su resolución requieran una des- treza que no requieren otros ítems del test; si se aplica un modelo de TRI a estos datos, los ítems parecerán más discriminativos de lo que realmente son y se sobrestimará la preci- sión de la prueba. Si la dependencia local es negativa ( 0|' <θσ jj XX ), esto quiere decir que cuando una persona tiende a rendir mejor de lo esperado en un ítem, tiende a rendir peor en otro ítem (y viceversa). Generalmente, ítems con dependencia local negativa miden dimensiones distintas. Ejemplo 4.3. Concepto de Independencia Local Un test consta de dos ítems y la probabilidad de que un evaluado J acierte el primero es P1(θ ) = 0,4 y la de que acierte el segundo P2(θ ) = 0,8. El principio de independencia local establece que la probabilidad de que acierte los dos viene dada por: 320)80)(40()()( 21 ,,,θPθP == La probabilidad de acertar el primero y fallar el segundo sería: 080)20)(40()()( 21 ,,,θQθP == La de que falle el primero y acierte el segundo será: 480)80)(60()()( 21 ,,,θPθQ == La de que falle ambos ítems será: 120)20)(60()()( 21 ,,,θQθQ == Supongamos que 100 personas con idéntico nivel de rasgo que la persona J, θ = 0, con- testan al test. Se esperarían aproximadamente los resultados de la Tabla 4.2. Tabla 4.2. Número de personas con cada patrón de respuestas (1, acierto; 0, error) si se cumple la in- dependencia local Ítem 1 Ítem 2 Nº personas esperado si se cumpliera la independencia local 1 1 (0,4)(0,8)(100) = 32 1 0 (0,4)(0,2)(100) = 8 0 1 (0,6)(0,8)(100) = 48 0 0 (0,6)(0,2)(100) = 12 138 Medición en Ciencias Sociales y de la Salud Si correlacionamos las 100 respuestas al primer ítem con las 100 respuestas al segundo, el resultado sería cero, lo que indicaría que se cumple el supuesto de independencia local; es decir, que σXjXj’|θ = 0: ( ) ( ) ( ) 0 100 80 100 40 100 32 0|10|10|1,1 21210|21 =−= =====−===== θXPθXPθXXPθXXσ Estimación de parámetros En la práctica, una vez que se han comprobado los supuestos de unidimensionalidad e in- dependencia local, el siguiente paso es aplicar un modelo de TRI, lo que requiere un método estadístico para estimar los parámetros de los evaluados y de los ítems. Seleccio- nado un modelo de TRI, hay que aplicar el test a una muestra amplia y, a partir de la ma- triz de respuestas obtenidas, estimar los parámetros de cada ítem y la θ de cada evaluado. La estimación de parámetros es el paso que nos permite llegar desde las respuestas cono- cidas de las personas a los ítems hasta los valores desconocidos de los parámetros de los ítems y de los niveles de rasgo. El concepto de estimación máximo verosímil (ML) Para obtener las estimaciones se aplica fundamentalmente el método de máxima verosimi- litud (ML)6, mediante el cual se encuentran los valores de los parámetros que hagan más probable la matriz de respuestas obtenida. La estimación de los parámetros en TRI supone un proceso complejo. La mejor referencia para una descripción detallada de todos los pro- 6 Veamos a continuación un ejemplo sencillo de estimación ML. Si lanzamos una moneda diez veces y obtene- mos siete caras, el estimador ML del parámetro p (probabilidad de cara de la moneda) es 7/10 = 0,7. El resultado "siete caras en diez lanzamientos" es poco compatible con que la probabilidad de cara sea 0,1, o 0,2. De hecho, la probabilidad de obtener siete caras y tres cruces es prácticamente cero si p = 0,1 o si p = 0,2. Dicha probabili- dad pasa a ser 0,117 si p = 0,5, y alcanza el máximo valor (0,267) cuando p = 0,7. El estimador ML proporciona el valor de p bajo el que es máxima la probabilidad del suceso que se ha observado. La probabilidad de x caras en n lanzamientos sigue la distribución binomial: xxqp x n pnxB − = 1),;( donde el primer término después de la igualdad, el número combinatorio, indica el número de formas en las que pueden surgir x caras en n lanzamientos. En el ejemplo, hay 120 maneras distintas de obtener 7 caras en 10 lan- zamientos. Si la probabilidad de cara es 0,7 entonces la probabilidad de que se obtengan 7 caras en 10 lanza- mientos es 0,267: 267,0)00222,0(1203,07,0 )!310(!7 !10 )7,0,10;7( 37 == − ==== pnxB Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 139 cedimientos de estimación la encontramos en los libros de Baker (p.ej., Baker y Kim, 2004). Información similar en español puede encontrarse en López- Pina (1995) o también en Revuelta, Abad y Ponsoda (2006). Fases en el proceso de estimación de los parámetros En TRI, se pueden distinguir dos objetivos de estimación: 1. La primera vez que se aplica un test hay que estimar conjuntamente los parámetros de los ítems y los parámetros θ. Ese proceso se conoce como calibración de los ítems. La fase de calibración es la de mayor complicación puesto que hay que hacer asunciones sobre la distribución del nivel de rasgo y se requieren muestras numerosas. Si tenemos, por ejemplo, diez ítems que miden un mismo rasgo, los podemos aplicar a una muestra de 300 personas. La matriz de datos tendrá 300 filas, siendo cada fila la secuencia de unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el ML3P, tendremos que estimar los 30 parámetros de los ítems (es decir, a, b y c de cada ítem) y 300 parámetros de las personas (los 300 valores θ, uno por persona). 2. Una vez que son estimados los parámetros de los ítems, pueden considerarse conocidos y usados en posteriores aplicaciones para estimar el nivel de rasgo de las personas. Hablaremos entonces de estimación del nivel de rasgo. A continuación, se ilustra cada una de las fases. Empezaremos por el caso más simple, la estimación del nivel de rasgo. Estimación del nivel de rasgo por el método ML En TRI, el procedimiento de estimación sigue una lógica similar al comentado para la moneda. Supongamos, por ejemplo, que tenemos un test compuesto por tan sólo dos ítems para los que ya conocemos sus parámetros (b1 = –0,7; b2 = 1), y que lo aplicamos a una persona. Supongamos también que acierta el primero y falla el segundo. A partir de estas respuestas la estimación ML de su θ se puede explicar de forma gráfica. Como el evalua- do acierta el primer ítem, podemos calcular, mediante su CCI (recuérdese que los paráme- tros del ítem son conocidos), la probabilidad de que esto ocurra para cada nivel de θ. Esto se muestra en la Figura4.6. Como el evaluado ha fallado el segundo ítem, a partir de su CCI podemos calcular la probabilidad de que esto ocurra para cada uno de los valores de θ. En concreto, como la probabilidad de fallar, Q2(θ ), se puede obtener a partir de la probabilidad de acertar, po- dremos representar la probabilidad de error en el segundo ítem como se muestra en la Fi- gura 4.7. Nótese que no se representa la CCI del ítem 2, pues para cada valor de θ se ha representado la probabilidad de error y no la de acierto. Puede observarse que es más pro- bable que fallen el ítem los evaluados con niveles bajos de habilidad que los evaluados con niveles altos (cosa bastante lógica). 140 Medición en Ciencias Sociales y de la Salud Figura 4.6. Probabilidad de acertar el ítem 1 con parámetro b1 = –0,7 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ Pr ob ab ili da d de a ci er to e n el ít em 1 Figura 4.7. Probabilidad de fallar el ítem 2 con parámetro b2 = 1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ Pr ob ab ili da d de fa llo e n el ít em 2 El valor estimado de θ para esta persona sería aquel que haga más probable el resultado obtenido (acertar el primer ítem y fallar el segundo). Según el supuesto de independencia local, ambos sucesos son independientes y, por lo tanto, la probabilidad de que ocurran ambos conjuntamente es igual al producto de las probabilidades de acertar el primero, P1(θ ), por la de fallar el segundo, Q2(θ ) (ver ecuación [4.8]). La probabilidad del patrón de respuestas se denomina en este contexto función de ve- rosimilitud (para el evaluado i) y se designa como Li(θ ), que indica la probabilidad de las respuestas de un evaluado dado un valor del parámetro θ, siendo conocidos los parámetros a, b y c de los ítems. En nuestro caso: )()()( 21 θQθPθLi = Si representamos gráficamente la función L(θ ) para cada valor de θ, obtendríamos la Fi- gura 4.8. En este caso vemos que el valor θ que hace más probable el resultado obtenido Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 141 (acierto en el primer ítem y fallo en el segundo) es algo mayor que cero. De hecho, 0,15 será la θ estimada para esta persona. Figura 4.8. Probabilidad de acertar el ítem 1 y fallar el ítem 2 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ L( θ) : F un ci ón d e Ve ro si m ili tu d En general, se responderá a un número de ítems mayor de dos y se producirán particulares secuencias de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y errores para un evaluado i se puede expresar como: ∏ = −=≡ J j x j x jii ijij θQθPPθL 1 1 )()()|()( θX [4.9] El nivel de rasgo estimado por el método de máxima verosimilitud (ML) es el valor θ que maximiza la expresión anterior. Ejemplo 4.4. Estimación del nivel de rasgo por el método ML Un test consta de 4 ítems, cuyos parámetros, según el modelo de Rasch, son –1, 0, 1 y 2. Una persona completa el test y acierta los tres primeros ítems y falla el cuarto. Puede ob- tenerse el valor de la función de verosimilitud, Li(θ ), para los siguientes valores θ : –3, –2, –1, 0, 1, 2 y 3, y así comprobar cuál de ellos maximiza Li(θ ). Aplicando la fórmula del ML1P se obtiene la probabilidad de acierto para cada ítem y cada uno de los valores de θ (ver Tabla 4.3). La función de verosimilitud, Li(θ ), al haber acertado los 3 primeros ítems y fallado el último, será la siguiente: )()()()()( 4321 θQθPθPθPθLi = Al aplicar la fórmula se obtiene Li(θ ) para cada valor de θ. Por ejemplo, para θ = 2: 142 Medición en Ciencias Sociales y de la Salud Li(θ = 2) = (0,99)(0,97)(0,85)(0,50) = 0,41 En la última fila de la Tabla 4.3 se muestra el valor de Li(θ ) para cada valor de θ. Tabla 4.3. Probabilidad de la respuesta dada al ítem como función del nivel de θ Ítems b Respuesta θ –3 –2 –1 0 1 2 3 1 –1 1 P1(θ) 0,03 0,15 0,50 0,85 0,97 0,99 1,00 2 0 1 P2(θ) 0,01 0,03 0,15 0,50 0,85 0,97 0,99 3 1 1 P3(θ) 0,00 0,01 0,03 0,15 0,50 0,85 0,97 4 2 0 Q4(θ) 1,00 1,00 0,99 0,97 0,85 0,50 0,15 Li(θ) 0,00 0,00 0,00 0,06 0,35 0,41 0,15 Por lo tanto, de los siete valores θ, el que maximiza Li(θ ) es θ = 2. El procedimiento des- crito no es muy preciso, porque sólo se ha hecho la comprobación para 7 valores de rasgo. Cuando se trata de estimar en una situación real el nivel de rasgo, no se hace una búsque- da restringida a unos cuantos valores. En la Figura 4.9 se muestran los valores Li(θ) para todos los valores θ comprendidos entre –4 y 4. Figura 4.9. Probabilidad de acertar los tres primeros ítems y fallar el cuarto 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ L( θ) : F un ci ón d e Ve ro si m ili tu d En este ejemplo, el valor θ que maximiza Li(θ ) es 1,6 (ver Figura 4.9). Por tanto, la pun- tuación estimada para esta persona sería 1,6. En la TRI, se obtiene el máximo de Li(θ ) por métodos numéricos, mediante programas de ordenador que contienen algoritmos que encuentran el valor θ para el que la función Li(θ ) alcanza el valor máximo. Para ello, se utiliza otra función que tiene el mismo máximo, Ln Li(θ ), más tratable matemáticamente: Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 143 [ ]∑ = −+= J j jijjiji θQLnxθPLnxθLLn 1 ))(()1())(())(( [4.10] Para obtener el máximo de una función puede calcularse la derivada de esa función (re- cuerde que si la derivada de una función en un punto es cero, la función tiene un máximo, un mínimo o un punto de inflexión). Se busca el parámetro θ para el que se satisface la ecuación: 0))(( =θLLn iδθ δ [4.11] La derivada de Ln(Li(θ )), en el caso del ML3P, es: ∑ = −= J j jij j j ji θPx θP θP aDθLLn 1 * ))(( )( )( ))(( δθ δ [4.12] donde P*j(θ ) se define como: )( * 1 1 )( jj bDa j e θP −−+ = θ [4.13] y donde aj y bj son los parámetros de discriminación y dificultad estimados en el ML3P. El máximo en Ln Li(θ ) se obtiene para el valor de θ en el que la derivada es cero. Esto ocurre cuando la suma ponderada de las diferencias [xij – Pj(θ )] se aproxima a 0 (ver ecuación [4.12]). La ponderación refleja que se da más importancia a los ítems más dis- criminativos y a aquellos en los que la diferencia entre P*j(θ ) y Pj(θ ) es más pequeña, lo que ocurre cuando ambas probabilidades son altas (el término P*j(θ )/Pj(θ ) oscilará entre 0, para niveles muy bajos, y 1 para niveles muy altos de rasgo). Para el ML2P se tendría que: ))(())(( 1 θ δθ δ jij J j ji PxaDθLLn −= ∑ = [4.14] Indicando que se ponderan más las respuestas a los ítems más discriminativos. Mientras que para el ML1P, tendríamos: ∑ = −= J j jiji PxDaLLn 1 ))(())(( θθ δθ δ [4.15] Observe que en el modelo de Rasch, la ecuación [4.15] se simplifica a: 144 Medición en Ciencias Sociales y de la Salud ∑ = −= J j jiji PxLLn 1 ))(())(( θθ δθ δ [4.16] Por tanto, en este último caso todos los ítems tendrían la misma importancia para la esti- mación; el valor θ estimado será aquel que haga que el número esperado de aciertos coin- cida con el número observado. Es decir, aquella θ para la que se cumple la igualdad: ∑∑ == = J j j J j ij Px 11 )(θ [4.17] Y, en definitiva, puesto que la suma de las puntuaciones en los ítems es la puntuación en el test, será aquella θ para la que se cumple la igualdad: ∑ = = J j ji PX 1 )(θ [4.18] Calibraciónde los ítems Partiendo de que tanto los parámetros de los ítems como los parámetros de los evaluados son desconocidos, existen distintos procedimientos para estimar los parámetros de los ítems. De nuevo, se trata de estimar los parámetros a, b y c de los ítems que maximizan la probabilidad de las respuestas observadas. Para ello, es necesario el uso de programas in- formáticos específicos. En el capítulo 11 se describen los procedimientos y algunos de los programas disponibles para la estimación de parámetros en TRI. Ejemplo 4.5. Calibración de los ítems de un test de cálculo numérico Una prueba de 7 ítems de cálculo numérico (Tabla 4.4) ha sido respondida por 2.000 estu- diantes. Al aplicar la TRI obtenemos las estimaciones de los parámetros de los ítems que se muestran en la Tabla 4.5. Puede verse que el parámetro a guarda una relación directa con la correlación ítem-test de la TCT (r = 0,75), mientras que el parámetro b guarda una relación inversa con el índice de dificultad clásico o proporción de aciertos (r = –0,97). El ítem más fácil es el primero (menor parámetro b) y el más difícil el quinto (mayor pará- metro b). Los ítems más discriminativos son el 6 y el 7 (que se refieren a series numéri- cas). El ítem 7 tiene el mayor parámetro c; podría ser que en este ítem la opción correcta d) sea atractiva para quien no sabe la respuesta (dado que –42 es el número más próximo a –40). Por otro lado, dados los parámetros de los ítems, concluiríamos que aplicar el ML1P sería inadecuado pues sólo los ítems 3, 4 y 5 tienen un parámetro c bajo y un parámetro a similar. En la Figura 4.10 se muestran las CCI de los 7 ítems. Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 145 Tabla 4.4. Siete ítems de una prueba de cálculo numérico Ítem Opciones a) b) c) d) 1. ¿Cuál es el resultado de la siguiente operación? 2 + 8 – 15 + 9 – 7 – 3 –16 6 –6 –26 2. ¿Cuál es el resultado de la siguiente operación? (125/5) – (2)(2,5) + 2,455 2,475 –2,425 2,425 2,485 3. ¿Cuál es el resultado de la siguiente operación? 2 (12 – 8) – 4 (2 – 4)) 16 0 24 –8 4. ¿Cuál es el resultado de la siguiente operación? 213,5 + 2,085 – 13,65 204,235 203,065 202,035 201,935 5. La raíz cuadrada de 157,2516 es: 12,455 12,554 12,45 12,54 6. Siga la serie 12,3, 14, 15,7, 17,4,… hasta encontrar el término que (por defecto o por exceso) se aproxime más a 22. ¿Cuál es el término? 21,5 22,5 20,8 22,4 7. Siga la serie –78, –69, –60,… hasta encontrar el término que (por defecto o por exceso) se aproxime más a –40. ¿Cuál es el término? –52 –51 –33 –42 Tabla 4.5. Parámetros según la TCT y la TRI con el modelo logístico de 3 parámetros (métrica normal) P rcbp a b c 1 0,91 0,20 0,68 –1,92 0,33 2 0,78 0,35 0,97 –0,97 0,10 3 0,52 0,24 0,51 0,20 0,11 4 0,76 0,24 0,59 –0,88 0,24 5 0,29 0,21 0,52 1,53 0,07 6 0,34 0,34 1,14 0,71 0,06 7 0,62 0,30 1,42 0,26 0,36 Figura 4.10. CCI según el modelo logístico de tres parámetros 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ CCI1 CCI2 CCI3 CCI4 CCI5 CCI6 CCI7P ro ba bi lid ad de a ci er to e n el ít em 146 Medición en Ciencias Sociales y de la Salud En definitiva, la TRI nos permite reproducir mediante un modelo cuál va a ser la propor- ción de aciertos en cada nivel de rasgo, algo que no proporcionaba la TCT. Además, el ni- vel de rasgo θ puede estimarse en función del patrón de respuestas a los ítems. En la Figu- ra 4.11 se muestran las funciones de verosimilitud asociadas a 4 patrones de respuesta. Figura 4.11. Máximo de la función de verosimilud, Li(θ ) para cuatro patrones de respuesta -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ 1111110 1110000 1111000 1000000L (θ ): F un ci ón d e ve ro si m ili tu d Los valores θ estimados por máxima verosimilitud para cada uno de esos patrones de res- puesta serían, respectivamente –2,740 (“fallar los seis últimos ítems”), –0,633 (“fallar los cuatro últimos ítems”), –0,205 (“fallar los tres últimos ítems”) y 0,740 (“fallar el último ítem”). Bondad de ajuste: Comparación de las CCI teóricas y las CCI observadas La mayor parte de los programas informáticos de TRI incluyen estadísticos y residuos que permiten cuantificar la discrepancia entre los datos observados y los esperados si el mode- lo fuera correcto. Un modelo de TRI sólo puede aplicarse a unos datos, si estos datos se ajustan al modelo. La estrategia más utilizada para estudiar el ajuste es, para cada ítem, obtener el grado de discrepancia entre las probabilidades teóricas y empíricas de escoger cada opción de respuesta, condicionadas al nivel de rasgo. Tradicionalmente, se ha pro- puesto agrupar a las personas en Q intervalos según su nivel de rasgo estimado (p. ej., 10 intervalos). La agrupación se hace de forma que en cada intervalo haya un número míni- mo de personas (p. ej., 5). En este caso, la proporción observada de aciertos en cada inter- valo (Oq) se obtendría simplemente como la proporción observada de aciertos en el grupo q; la probabilidad teórica (Eq) es la probabilidad de acierto que predice el modelo, según la curva característica del ítem, para la media o la mediana del nivel de rasgo estimado en ese intervalo. Posteriormente, para cada ítem se obtiene un estadístico G2: Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 147 − − −+∑ = E O LnO E O LnON=G q q q q q q Q q Trad 1 1 )1(2 1 2 [4.19] Si se cumple la Hipótesis nula (i. e., el modelo se ajusta a los datos) el estadístico anterior se distribuye según χ2 con Q grados de libertad. Este estadístico está implementado en programas como BILOG o PARSCALE, pero su uso es desaconsejable si el test es corto (p. ej., menos de 20 ítems) ya que los valores pueden sobrestimarse si la agrupación de los evaluados por su nivel de rasgo no es precisa (ver, por ejemplo, Stone y Zhang, 2003). En ese caso pueden aparecer discrepancias entre Oq y Eq que no se deben al desajuste al mo- delo. Para resolver ese problema, Orlando y Thissen (2000) propusieron un estadístico para contrastar si la probabilidad de acertar observada como función de la puntuación observa- da X (OX) difiere estadísticamente de la probabilidad de acertar según el modelo (EX): − −− +∑ − = E E-O E E-OI= X XX X XX J X Orlando 1 ))1()1(()( 221 1 2χ [4.20] De esta manera no se requiere agrupar a los evaluados por una variable no observable, θ. El valor EX se calcula mediante el algoritmo iterativo de Lord-Wingersky (1984) y su ob- tención requiere el uso de un programa informático. Si se cumple la hipótesis nula (el mo- delo se ajusta a los datos) el estadístico anterior se distribuye según χ2 con J–1–t grados de libertad, donde t es el número de parámetros estimados para el ítem. En la actualidad, no es fácil decidir qué índices de bondad de ajuste son los mejores. Un problema de los contrastes estadísticos es que con muestras grandes las discrepancias pueden ser estadísticamente significativas, pero ser irrelevantes desde el punto de vista práctico. Lo contrario también puede ocurrir. Grandes discrepancias pueden no resultar estadísticamente significativas si la muestra es demasiado pequeña. Nuestra recomenda- ción es completar la información de estos estadísticos con una inspección visual del ajuste de la CCI, tal como se hace en el siguiente ejemplo. Ejemplo 4.6. Ajuste para los ítems del test de cálculo numérico Para cada ítem de cálculo numérico se obtuvo el estadístico χ 2 de Orlando y Thissen. Este indicador se puede obtener con el programa GOODFIT de libre distribución (Orlando y Thissen, 2000). Los resultados se muestran en la Tabla 4.6 y la informacióngráfica para el ítem 1 en la Figura 4.12. Puede comprobarse que el ítem 1 muestra el peor funcionamien- to. Sin embargo, la inspección visual permite comprobar que la diferencia entre la curva predicha por el modelo y la curva observada, aunque estadísticamente significativa, es irrelevante desde el punto de vista práctico. 148 Medición en Ciencias Sociales y de la Salud Tabla 4.6. Índices de ajuste basados en la comparación de las probabilidades de acertar (observada y esperada) como función del test Ítems χ 2Orlando gl P 1 11,5 3 0,009 2 11,3 3 0,010 3 3,96 3 0,266 4 3,55 3 0,314 5 2,84 3 0,417 6 1,89 3 0,596 7 3,64 3 0,303 Figura 4.12. Probabilidades observada y esperada de acertar el ítem 1 como función de la puntuación X 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 1 2 3 4 5 6 7 X O E Pr ob ab ili da d de a ci er to e n el ít em Pr ob ab ili da d de a ci er to e n el ít em La precisión de las puntuaciones en TRI Función de información y error típico de estimación de θ En la TCT un concepto fundamental es el error típico de medida (ver ecuación [3.37]), que nos permite conocer en qué grado la puntuación empírica en un test, X, es una buena aproximación a la puntuación verdadera, V. En concreto, a partir de SE, se puede estable- cer el intervalo de confianza en torno al cual se encuentra la puntuación verdadera de una persona. En TRI, un concepto análogo al error típico de medida es el error típico de esti- mación de θ. Si aplicáramos un test con un suficiente número de ítems a personas con igual θ, la estimación ML de θ ( θ̂ ) se distribuiría normalmente con media igual al pará- metro verdadero (θ ) y desviación típica Se(θ ), que es el error típico de estimación de θ : Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 149 )( 1 )|ˆ()( θ θθσθ I Se =≡ [4.21] donde I(θ ) se denomina función de información del test. Como se muestra en la ecua- ción, cuanto mayor sea la información, menor será el error típico de estimación. La fun- ción de información en TRI es un concepto análogo al de coeficiente de fiabilidad en TCT. Ambas son medidas de precisión a partir de las cuales se deriva un error típico (de medida en TCT y de estimación de θ en TRI). Las diferencias principales son que: 1. Mientras que el coeficiente de fiabilidad es un valor escalar, la función de información es una función; es decir, en TRI el valor de precisión varía para cada valor de θ. 2. Mientras que el coeficiente de fiabilidad puede tomar valores entre 0 y 1, la función de información puede tomar cualquier valor igual o superior a 0. La función de información del test, I(θ ), se obtiene como la suma de las funciones de in- formaciones de los ítems: ∑ = = J j jII 1 )()( θθ [4.22] La función de información de cada ítem para los modelos de uno, dos y tres parámetros se muestra en la Tabla 4.7, donde P*j(θ ) se define en la ecuación [4.13] y Q*j(θ ) = 1– P*j(θ ). Tabla 4.7. Ecuaciones para calcular la función de información de un ítem en los modelos logísticos Modelo Ecuación para calcular la función de información ML1P )()()( 22 θθθ jjj QPaDI = [4.23] ML2P )()()( jj 22 θθθ QPaDI jj = [4.24] ML3P ))()()(1)(()()( j ***22 θθθθθ PPcQPaDI jjjjjj −= [4.25] Por tanto, el valor de la función de información del test dependerá de varios factores: 1. Número de ítems aplicado (como ocurría en la TCT): En general, al aumentar la longi- tud del test aumenta la información (ver ecuación [4.22]). 2. De los parámetros a y c de los ítems aplicados: a mayores parámetros de discrimina- ción y menores parámetros de adivinación, mayor será I(θ ) (ver ecuaciones [4.23] a [4.25]). 3. De la proximidad entre θ y bj: cuanto menor sea la distancia entre los parámetros de di- ficultad de los ítems aplicados y el nivel de rasgo de la persona, mayor será I(θ ). Los productos Pj(θ )Qj(θ ), para el ML1P y el ML2P, y el producto P*j(θ )Q*j(θ ), para el 150 Medición en Ciencias Sociales y de la Salud ML3P, alcanzan su máximo valor cuando θ = bj. Estos productos aparecen en las ecuaciones [4.23] a [4.25]. 4. Del grado en que Pj(θ ) se aleja de cj: cuanto más próxima se encuentre la probabilidad a la esperada por efecto de la adivinación, menor será I(θ) (ver ecuación [4.25]; el co- ciente P*j(θ )/Pj(θ ) alcanza su valor máximo para niveles altos de θ, cuando P*j(θ )/Pj(θ ) ≅ 1). Ejemplo 4.7. Función de información del test de cálculo numérico En la Tabla 4.8 se muestra la información proporcionada, para distintos niveles θ, por los ítems de cálculo numérico y por el test completo. Tabla 4.8. Función de información de los ítems y del test Ítem a b c –3 –2 –1 0 1 2 3 1 0,68 –1,92 0,33 0,072 0,164 0,154 0,076 0,028 0,009 0,003 2 0,97 –0,97 0,10 0,021 0,207 0,555 0,336 0,088 0,018 0,003 3 0,51 0,20 0,11 0,013 0,043 0,099 0,147 0,141 0,094 0,049 4 0,59 –0,88 0,24 0,024 0,082 0,150 0,144 0,084 0,038 0,015 5 0,52 1,53 0,07 0,003 0,011 0,038 0,093 0,155 0,167 0,120 6 1,14 0,71 0,06 0,000 0,001 0,045 0,460 0,791 0,246 0,041 7 1,42 0,26 0,36 0,000 0,000 0,019 0,506 0,433 0,054 0,005 Test 0,133 0,509 1,059 1,763 1,721 0,626 0,237 Por ejemplo, la función de información del ítem 2 para θ = 0. Se calcula como: ( ) 832,0 1 11 ))97,0(0)(97,0(702,1)( * 2 22 = + == −−−− ee+1 P b-Da θ θ ( ) 849,0 1 90,0 10,0 1 1 )1( ))97,0(0)(97,0(702,1)(222 22 = + +=−+= −−−− ee+ ccP b-Da θ θ ( ) ( ) ( ) ( )( ) 336,0 849,0 832,0 )10,01)(832,01(832,097,0702,1 )1( 22 2 * 2 2 * 2 * 2 2 2 2 2 = −−= = −= θ θ θθθ P P cQPaDI Puede observarse que el test proporciona la mayor información para los niveles de rasgo entre 0 y 1. Normalmente, la función de información se representa de forma gráfica. En la Figura 4.13 se observa que los que más contribuyen a la precisión son los ítems 2, 6 y 7 (los más discriminativos). Los ítems 1, 3, 4 y 5 proporcionan muy poca información (i. e., sus fun- ciones de información son bastante planas). Para aumentar la precisión en niveles de θ ba- jos (p. ej., menores que cero) deberíamos añadir ítems similares en dificultad al ítem 2. Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 151 Figura 4.13. Función de información de los ítems y del test 0,0 0,5 1,0 1,5 2,0 2,5 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ FII1 FII2 FII3 FII4 FII5 FII6 FII7 FI del test Fu nc ió n de in fo rm ac ió n de lo s íte m s y de l t es t El error típico de estimación se representa en la Figura 4.14. Observe que el error típico y la información están inversamente relacionados. Cuando la información es mayor, el error típico es menor, y viceversa. Puede concluirse que, en general, la precisión del test no es adecuada, especialmente a la hora de discriminar entre niveles de rasgo bajos o entre nive- les de rasgo altos7. Figura 4.14. Error típico de estimación de θ 0,0 0,5 1,0 1,5 2,0 2,5 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ Se (θ ) El hecho de que la función de información sea la suma de las funciones de información de los ítems nos permite elegir los ítems más adecuados en cada momento en función de las 7 Debe observarse que la función de información depende del modelo aplicado. Por ejemplo, en niveles de θ ba- jos, la aplicación del ML1P dará valores mayores que el ML3P en la función de información, I(θ ). Sin embar- go, los distintos modelos (ML1P, ML2P, ML3P) no deben compararse en este sentido. Si el modelo de un parámetro no se ajustara a los datos, las fórmulas que habríamos proporcionado para obtener el errortípico de estimación dejarían de ser válidas. 152 Medición en Ciencias Sociales y de la Salud demandas de la aplicación. Por ejemplo, si en un proceso de selección de personal sólo vamos a elegir a unos pocos evaluados muy competentes, a partir de un banco de ítems calibrado podríamos elegir aquellos que proporcionan más información para niveles altos de θ. Esto nos permitiría aplicar un número reducido de ítems sin perder precisión al esti- mar θ. En general, un ítem j es máximamente preciso para niveles de rasgo θ = bj (en el caso del ML1P y del ML2P) o, de forma más general, cuando θ = θmax, siendo θmax (Hamble- ton, Swaminathan y Rogers, 1991; p. 92): j j j Da c b )815,05,0ln( max ++ +=θ [4.26] que es el valor de rasgo para el cual el ítem proporcionará la información máxima; esta in- formación máxima puede calcularse de la siguiente forma (Hambleton y Swaminathan, 1985): 2 2 32 22 max )1(2 )81(8201 25,0)( j jjj j c ccc aDI − ++−− =θ [4.27] expresión que, en el ML2P, se reduce a I(θmax) = 0,25D2aj2. Intervalos de confianza para la estimación de θ A partir del error típico de estimación se puede obtener el intervalo confidencial en el que, con probabilidad predeterminada, se ha de encontrar el nivel de rasgo de la persona. En concreto, si al nivel θ estimado de una persona le sumamos y restamos (1,96)Se(θ ), obte- nemos los extremos del intervalo en el que, con nivel de confianza del 95%, se encontrará su verdadero nivel de rasgo. Por ejemplo, si la θ estimada es 0,8 y su error típico de esti- mación es 0,22, entonces, el nivel de rasgo de dicha persona se encuentra entre 0,37 (pues 0,8 – (1,96)0,22 = 0,37) y 1,23 (pues 0,8 + (1,96)0,22 = 1,23), con confianza del 95%. Función de información y fiabilidad A partir de la función de información del test se puede obtener un coeficiente de fiabilidad marginal para las estimaciones del nivel de rasgo: ∑+ == Q q qq TRI gSe r )()( 22 2 2 ˆ 2 ˆˆ θθσ σ σ σ θ θ θ θ θθ [4.28] Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 153 La expresión g(θ ) indica la distribución del rasgo. La ecuación [4.28] es el cociente entre la varianza del verdadero nivel de rasgo, σ2θ, y la varianza del rasgo estimado, 2θ̂σ . Indica qué proporción de la varianza de las estimaciones es varianza verdadera. Mediante el uso de esta fórmula puede anticiparse el coeficiente de fiabilidad que se obtendría en una muestra en la que el rasgo tenga distribución g(θ) y varianza σ2θ. Otra forma de expresar el coeficiente de fiabilidad marginal es como: 2 ˆ 22 ˆ ˆˆ )()( θ θ θθ σ θθσ ∑− = Q q qq TRI gSe r [4.29] Si θ̂ está estandarizada la ecuación se simplifica a: ∑−= Q q qq TRI gSer )()(1 2ˆˆ θθθθ En ocasiones, también se calcula cuál sería el coeficiente de fiabilidad si todos los evalua- dos de una muestra fueran medidos con la precisión que se obtiene en un nivel de θ dado (θ = θq). En ese caso, se aplica la siguiente fórmula: 2 ˆ 22 ˆ ˆˆ )( )( θ θ θθ σ θσ θ q q TRI Se r − = [4.30] Si θ̂ está estandarizada la ecuación se simplifica a: 2 ˆˆ )(1)( qq TRI Ser θθθθ −= La Curva Característica del Test (CCT) La representación de la relación entre θ y el rendimiento esperado en el test se denomina Curva Característica del Test. Para un valor θ concreto, el valor esperado en el test se ob- tiene como la suma de las correspondientes probabilidades de acierto de los ítems para di- cho nivel de rasgo, que pueden obtenerse a partir de sus curvas características: ∑ = =≡ J j jPXX 1 )()|()( θθεθ [4.31] 154 Medición en Ciencias Sociales y de la Salud La CCT permite la transformación de la escala de θ a la escala de puntuaciones directas. Además la CCT desempeña un papel importante en algunos de los procedimientos de equiparación de parámetros (tal como se verá en el capítulo 11). Ejemplo 4.8. Curva Característica del Test La CCT del test de 7 ítems de cálculo numérico se representa en la Figura 4.15. Puede ob- servarse que la relación entre θ (el nivel de rasgo) y X (la puntuación esperada en el test) no es lineal. A alguien con un nivel de θ de 4 corresponde un número esperado de aciertos próximo al número de ítems (en nuestro caso, 7). Figura 4.15. CCT del test de cálculo numérico 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 -4 ,0 -3 ,5 -3 ,0 -2 ,5 -2 ,0 -1 ,5 -1 ,0 -0 ,5 0, 0 0, 5 1, 0 1, 5 2, 0 2, 5 3, 0 3, 5 4, 0 θ C ur va C ar ac te rís tic a de l T es t Aplicaciones El desarrollo de la TRI ha supuesto un cierto avance, tanto en algunos contextos aplicados de evaluación psicológica y educativa, como en contextos de investigación muy diversos. Tal como vamos viendo, aplicar la TRI a las puntuaciones que se obtienen en los ítems de un test tiene ciertas ventajas, siendo una de las principales la estimación del error que se comente concretamente con cada persona. Los desarrollos de la TRI permiten aplicaciones más eficientes, ya que facilitan el ensamblado de un test (la selección de los ítems que lo formarán) para optimizar la precisión de las estimaciones de rasgo. También permite ob- tener indicadores psicométricos para los ítems, complementarios (y relacionados) a los de la TCT. El estudio de los parámetros de los ítems que se estiman en diferentes grupos va a facilitar el análisis de posibles problemas no deseados, como sería que la prueba perjudi- cara a uno de dichos grupos sin motivo justificado. Este marco teórico no resulta, sin embargo, la panacea universal para analizar las me- diciones que se realizan con cualquier tipo de test en cualquier tipo de contexto de evalua- Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 155 ción. Resultando muchas veces complementaria a la TCT, la TRI resulta especialmente útil en los estudios de evaluación a gran escala, donde es preciso medir muestras numero- sas de personas y en diferentes ocasiones. Por una parte, en este tipo de estudios (p. ej., sobre evaluación educativa) se satisfacen los requisitos muestrales necesarios para su apli- cación; por otra parte, en aplicaciones transculturales de tests se demandan ciertos estu- dios particulares (p. ej., equiparación de puntuaciones o estudio del funcionamiento dife- rencial de los ítems) para los que la TRI proporciona métodos y procedimientos más ade- cuados que la TCT. Algunas de las principales aplicaciones de la TRI se describen con cierto detalle en otros capítulos de este libro: Equiparación de Parámetros (capítulo 11), Funcionamiento Diferencial (capítulo 13) y Tests Adaptativos Informatizados (capítulo 15). Ventajas y desventajas de los modelos de TRI Las aplicaciones de la TRI no serían posibles sin ciertas propiedades teóricas de estos mo- delos, que sintetizamos en las siguientes: 1. Invarianza de los parámetros de los evaluados. En TRI se concibe de forma más opera- tiva el nivel de rasgo del evaluado. Desaparece el concepto de puntuación verdadera, que en la TCT se ligaba íntimamente al test utilizado (por ejemplo, la puntuación ver- dadera cambiaba si el test tenía más ítems o ítems con distinta dificultad). La TRI se centra en las propiedades psicométricas de los ítems y, a partir de ellas, deriva las pro- piedades psicométricas del test. En TRI se establece que el nivel de rasgo es un pará- metro θ del evaluado que puede ser estimado una vez que se conocen los parámetros de los ítems del test que se está aplicando. No debe confundirse la invarianza de parámetros con la invarianza de las estimaciones de los parámetros; es decir, el parámetro de la persona que indica su nivel de rasgo será el mismo se utilice un test corto o un test largo, pero la estimación de ese parámetro dependerá del test utilizado (se realizará con más precisión en el test largo). 2. Invarianza de los parámetrosde los ítems. Si se cumplen los supuestos del modelo, los parámetros estimados de los ítems no dependen, salvo transformación lineal (ver Apéndice), de la muestra donde se obtienen. Esto permite que podamos estudiar las propiedades psicométricas del mismo ítem en distintos grupos, incluso si difieren en media o variabilidad en el nivel de rasgo. 3. No se asume la homocedasticidad del error. En TRI la precisión del test está condicio- nada al nivel de rasgo y a los ítems aplicados. De esta manera, se esquiva una de las principales críticas que se ha realizado al concepto de fiabilidad en TCT. 4. Se dispone de indicadores de bondad de ajuste, que hacen el modelo falsable y permi- ten así la comparación de distintos modelos alternativos para las respuestas. Sin embargo, no todo son ventajas en el actual desarrollo que tienen los principales mode- los de la TRI: 1. Se requiere un gran número de evaluados para obtener las estimaciones de los paráme- tros, especialmente en los modelos más complejos (p. ej., los que incluyen parámetros 156 Medición en Ciencias Sociales y de la Salud de adivinación o algunos modelos para ítems politómicos) (Thissen y Wainer, 1982). Como el problema de los requisitos muestrales no es independiente del método de es- timación empleado, se tratará con más detalle en el capítulo 11. 2. Los supuestos son muy restrictivos. Los modelos de Rasch son los más afectados por esta crítica, ya que asumen ausencia de adivinación en las respuestas (algo poco razo- nable cuando trabajamos con ítems de opción múltiple) e igual parámetro de discrimi- nación de los ítems (algo que, por lo general, no se cumple). Los supuestos de unidi- mensionalidad o independencia local pueden ser poco realistas en algunos casos. Afor- tunadamente, se están desarrollando modelos psicométricos de TRI que no requieren el cumplimiento de estos supuestos (p. ej., modelos multidimensionales o modelos para testlets). 3. Los procedimientos para comprobar el ajuste no son totalmente satisfactorios, funda- mentalmente porque se desconoce la distribución de los índices de ajuste. Por ejemplo, algunos indicadores dependen de la longitud del test o de la calidad de las estimaciones del nivel de rasgo. 4. La concepción sobre las fuentes de error que afectan a las puntuaciones de las personas en los tests es limitada, sobre todo si la comparamos con la propuesta que se hace desde la Teoría de la Generalizabilidad (TG). La mayor parte de los modelos de TRI ignoran aquellas fuentes de error de medida que no están relacionadas con el contenido especí- fico de los ítems. La TG permite el estudio del efecto de diferentes fuentes de error, tal como veremos en el capítulo 9. En TRI no se reconocen distintas fuentes de error (Brennan, 2004), aunque algunos tímidos intentos empiezan a esbozarse (Bock, Bren- nan y Muraki, 2002). 5. Como también ocurre en TCT, la TRI se centra en el problema de la precisión, con lo que ha desviado de algún modo la atención de los psicómetras hacia problemas técni- cos (p. ej., la estimación de parámetros o la evaluación del ajuste), ignorando en parte el tema de la validez (Muñiz, 1996). La TRI (al menos los modelos descritos hasta el momento) es fundamentalmente una teoría descriptiva (no psicológica) sobre el modelo de respuesta a los ítems. Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 157 Apéndice La escala métrica de θ Para comparar dos objetos en un atributo necesitamos que las medidas se hayan tomado en la misma escala. El concepto de escala métrica hace referencia a las unidades de medida y al origen (i. e., el punto cero) de una escala. Por ejemplo, la temperatura puede expresarse en una escala de grados Celsius o en una escala de grados Fahrenheit; ambas son legitimas y equivalentes mediante la co- rrespondiente transformación lineal [Temp(oF) = 1,8Temp(oC) + 32]. Para las puntuaciones en un test se suele asumir un nivel de medida de intervalo, como para la temperatura. Esto quiere decir que no hay un cero absoluto en la escala que indique un nivel cero de atributo y, por lo tanto, no sólo son arbitrarias las unidades de medida (i. e.: hablar en oF o en oC) si- no también el origen de la escala. En este nivel de medida, como no existe un cero absoluto, la afir- mación de que un objeto tiene el doble de temperatura que otro no tiene sentido; como tampoco lo tiene, por ejemplo, afirmar que una persona es el doble de inteligente que otra. En otras palabras, el nivel de medida determina qué transformaciones de la escala son posibles y qué afirmaciones acerca del atributo tienen sentido y cuáles no. ¿Qué valores puede tomar θ? ¿Cuál es el origen o punto cero de la escala? ¿Y las unidades de medida? Al ser θ una variable con nivel de medida de intervalo, el origen es arbitrario. En la prácti- ca, suele trabajarse con la escala θ en puntuaciones típicas ( µθ = 0; σ 2θ = 1). Esto quiere decir que la escala de θ es tal que, en la muestra, la media es cero y la varianza 1; los valores θ variarán gene- ralmente entre –3,0 y 3,0. Una vez definida la escala para θ, automáticamente los parámetros a y b se sitúan en una métrica consistente con ella: por ejemplo, los valores del parámetro b variarán, ge- neralmente, entre –3,0 y 3,0; el valor de a entre 0,3 y 2,5. A lo largo del capítulo se ha asumido esta escala métrica para θ. Sin embargo, el nivel θ del evaluado puede definirse en cualquier escala métrica consistente con su nivel de medida, en este caso de intervalo. Esto quiere decir que si efectuamos una transforma- ción lineal de θ (g > 0): hgθθ* += [4.32] las probabilidades de acierto no cambian si, a la vez, transformamos también los parámetros a y b de los ítems para que se hallen en una métrica consistente con la de θ∗: g a a* = [4.33] hgbb j * j += [4.34] En efecto: )( 1 1 1 1 1 1 )( )( ))(()( * θP e e e θP jbθDa hgbhgθ g a DbθDa * j j j * j * = + = + = + = −− +−+−−− 158 Medición en Ciencias Sociales y de la Salud Por tanto, el modelo con parámetros θ*, a* y b*j es equivalente al modelo con parámetros θ, a y bj. Es decir, lo mismo que en la temperatura, podemos expresar los parámetros en distinta escala. El rango de valores que pueden tomar los parámetros a, b y θ dependerá de la escala métrica que utili- cemos. Para resolver esta indeterminación debemos explicitar si θ está en una escala de puntuacio- nes típicas o en otra escala. Observe que ahora podemos explicar por qué las ecuaciones del ML1P [4.1] y del modelo de Rasch [4.2] son equivalentes. En efecto, si definimos: j * j Dabb = θθ Da* = Entonces el modelo de Rasch se transforma en el ML1P: )()()( 1 1 1 1 1 1 ** jjj bθDaDabDaθbθ eee −−−−−− + = + = + Si el parámetro θ del ML1P se expresa en puntuaciones típicas (σθ = 1), entonces la desviación típica del parámetro θ* en el modelo de Rasch será: Da θ =*σ Otro ejemplo de esta necesidad de explicitar la escala métrica se relaciona con el parámetro de dis- criminación de los ítems: el parámetro a de un modelo será distinto si utilizamos D = 1,702 o D = 1. La elección de uno u otro define la escala métrica de la discriminación: parámetro a en métrica normal o en métrica logística. La escala logit Si p es una probabilidad, la función logit de p es ln[p/(1 p)] − ≡ p p p 1 ln)(logit En el modelo de Rasch suele utilizarse la escala logit (log-odds-unit) para informar de los paráme- tros. Al utilizar la ecuación [4.2], el logit de la probabilidad de acertar un ítem es: j b b b j j bθe e e θQ θP j j j −== + − += − −− −− )ln( 1 1 1 1 1 ln )( )( ln )( )( )( θ θ θ Es decir, depende sólo del nivel de rasgo y de la dificultad del ítem. Utilizando esta escala es más fácil interpretar las diferencias de rendimiento entre dos personas en el mismoítem o de la misma Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 159 persona en dos ítems. Por ejemplo, una diferencia en la escala logit de las probabilidad de acertar un ítem que tienen dos personas, será: 1212 1 1 2 2 )()( )( )( ln )( )( ln θθbθbθ θQ θP θQ θP jj j j j j −=−−−= − Lo que muestra que dicha diferencia no depende del ítem, sino únicamente de los dos niveles de rasgo. Una diferencia en la escala logit, para una persona, entre las probabilidades de acertar dos ítems distintos, será: 2112 1 1 2 2 )()( )( )( ln )( )( ln bbbθbθ θQ θP θQ θP −=−−−= − En el modelo de Rasch, las diferencias en la escala logit se corresponden directamente con las dife- rencias en θ (o en b). Al informar del nivel de rasgo en la escala logit se informa de θ y al informar de la dificultad en la escala logit se informa de b. El punto cero de la escala logit es arbitrario. Nor- malmente se establece como punto cero la media de los parámetros b de los ítems o la media del ni- vel de rasgo. En el primer caso, los valores θ iguales a 0 indican que se tiene una probabilidad de acertar ítems de dificultad media de 0,5. En el segundo caso, los valores b iguales a 0 se correspon- den con ítems que los evaluados de nivel medio aciertan con probabilidad 0,5. 5 Concepto y evidencias de validez El concepto de validez Como ya hemos visto en los capítulos precedentes, los estudios de fiabilidad nos informan de si estamos midiendo con mucho o con poco error de medida, pero no informan de qué atributo estamos midiendo. Los estudios de validez van a aportar significado a las puntua- ciones que estamos obteniendo, permitiéndonos conocer si el uso que pretendemos hacer de ellas es o no adecuado. Los indicadores de fiabilidad son diferentes en las distintas teorías y el concepto de fiabilidad sólo ha ido matizándose a lo largo de los años, ligado al desarrollo de las distin- tas teorías de los tests. El concepto de validez, sin embargo, ha cambiado enormemente, tal como veremos en el último apartado del presente capítulo. La validez ha sido definida de muchas maneras a lo largo de la historia de la Psicometría y su definición sigue cam- biando. Lo único que se ha mantenido a través del tiempo es su consideración como la propiedad más importante y fundamental al desarrollar y evaluar un test (p. ej.: Anastasi y Urbina, 1997; Cronbach, 1988). La conceptualización actualmente dominante sobre la validez es la que recogen los Standards for Educational and Psychological Testing en su edición de 1999. En este do- cumento, elaborado por tres importantes asociaciones profesionales americanas (AERA, APA y NCME), se define la validez como el grado en que la teoría y los datos disponibles apoyan la interpretación de las puntuaciones de un test para un uso concreto. Hay varios aspectos que se pueden destacar de esta definición: 1. Al igual que ocurre en el caso de la fiabilidad, ya no hablamos de validez de un test si- no de validez de las puntuaciones de un test. No tiene sentido hablar de “propiedades del test”, ya que éstas dependen del contexto de evaluación y de la muestra. 162 Medición en Ciencias Sociales y de la Salud 2. El profesional responsable de la aplicación de un test debe consultar el manual del mismo para averiguar si la utilización e interpretación pretendida por él coincide con la proporcionada por la documentación de la prueba. En caso negativo, para poder reali- zar la interpretación pretendida deberá desarrollar una investigación, un estudio de va- lidación, que le permita recoger información que apoye (o no) su utilización. Por lo tanto, la validación no sólo incumbe a los tests de nueva creación, sino que representa un proceso de acumulación de evidencias que apoyan las interpretaciones propuestas para las puntuaciones de un test, para así poder comprender mejor qué significan. Siguiendo la propuesta de Kane (2006a), que es consistente con la visión de los Standards, el proceso de validación implicaría el uso de dos argumentos: el argumento interpretativo y el argumento de validez. El proceso de validación debe comenzar con el desarrollo del argumento interpretativo, que supone proponer con detalle interpretaciones y usos de las puntuaciones. Por ejemplo, debemos especificar todas las asunciones en las que se basa el test, los componentes del constructo, las diferencias con otros constructos y sus relaciones con otras variables. Si las interpretaciones y usos no están claramente identificados enton- ces no pueden ser evaluados. El segundo, el argumento de validez, consiste en evaluar el argumento interpretativo. La interpretación propuesta para las puntuaciones determina las clases de evidencia nece- sarias para la validación. Es posible que una o varias de las interpretaciones sean válidas mientras que otras se consideren inválidas. Por ejemplo, es posible que un test de persona- lidad sea adecuado para un proceso de selección de personal, pero no lo sea para un pro- ceso de diagnóstico de patologías. El argumento de validez implica la evaluación de las interpretaciones propuestas a través de una serie de análisis lógicos y estudios empíricos, siendo siempre necesaria la integración de las diferentes clases de evidencia. Las eviden- cias de validez son, por lo tanto, las pruebas recogidas para apoyar la interpretación pro- puesta. La principal ventaja de esta aproximación sería que intenta proporcionar una guía para dirigir los esfuerzos de investigación. Las clases de evidencia que serían más relevan- tes son aquellas que apoyan inferencias y asunciones del argumento interpretativo que son más problemáticas. Además, la etapa de evaluación también implica una búsqueda de asunciones ocultas y de posibles interpretaciones alternativas de las puntuaciones. Si concebimos la validación como el proceso investigador en el que se van acumulan- do evidencias sobre la interpretación de las puntuaciones de un test, resulta patente que para obtener estas evidencias podremos usar una enorme variedad de métodos o estrate- gias. De ahí que ya no usemos el término “tipos de validez” sino el de “tipos de eviden- cia”, intentando resaltar el carácter unitario del concepto de validez. Estas diferentes fuen- tes de evidencia no representan distintos tipos de validez. Ahora se plantea el estudio de evidencias basadas en el contenido, la estructura interna, la relación con otras variables, el proceso de respuesta y las consecuencias de la aplicación del test. Para analizar los datos de las distintas fuentes de evidencia se usa una amplia variedad de técnicas, que por su importancia y especificidad se tratarán en distintos capítulos. Con- cretamente, para obtener evidencias relativas a la estructura interna de las puntuaciones es preponderante el uso del Análisis Factorial Exploratorio (AFE) y del Análisis Factorial Confirmatorio (AFC). Estas dos técnicas se exponen, respectivamente, en los capítulos 6 y 10. Dentro de las evidencias relativas a la estructura interna también pueden ubicarse los trabajos encaminados a evaluar el funcionamiento diferencial de los ítems (FDI); la defi- nición y la tecnología para la detección del FDI se proporciona en el capítulo 13. Por otra Capítulo 5. Concepto y evidencias de validez 163 parte, en el capítulo 14, se incluyen otros procedimientos que se aplican para obtener in- formación sobre la relación del test con otras variables (p. ej.: la regresión lineal múltiple) y sobre la generalización de la validez. Hay numerosos manuales en los que se tratan el concepto y las evidencias de validez, tanto en español (p. ej.: Martínez Arias, Hernández-Lloreda y Hernández-Lloreda, 2006; Muñiz, 2002; Navas, 2001), como en inglés (p. ej.: Carmines y Zeller, 1979; Crocker y Algina, 1986; Wainer y Braun, 1988). Evidencias basadas en elcontenido del test Definición Es fácil comprender la necesidad de examinar el contenido de un test como un primer pa- so para juzgar si un instrumento puede usarse para un propósito en particular. Por ejem- plo, estudiantes, padres y profesores esperan que las preguntas de un examen de Lengua de Educación Primaria sean consistentes con los objetivos curriculares para esa asignatura y nivel. Esto es especialmente evidente en los tests educativos. No sorprende, por tanto, que la necesidad de examinar el contenido de los tests apareciese ya en 1954 en un docu- mento de la APA sobre recomendaciones técnicas para el diseño y uso de los tests. Es necesario aclarar que por contenido del test no nos referimos únicamente a los ítems que lo componen. Actualmente se incluyen, además, las instrucciones para su admi- nistración y las rúbricas o criterios para su corrección y puntuación. Sireci (2003) indica que hay al menos dos aspectos esenciales que se deben tener en cuenta para realizar la validación del contenido: la definición del dominio, y la representa- ción del dominio. La definición del dominio se refiere a la definición operativa del conte- nido. En la mayoría de los tests educativos esta definición tiene la forma de una tabla de especificaciones de doble entrada, en la que las filas indican las áreas de contenido rele- vantes para el dominio en cuestión y las columnas indican las operaciones o procesos cognitivos implicados en la resolución de las tareas planteadas. Se especifican además los porcentajes de ítems asignados a cada combinación de área y proceso cognitivo. Las empresas de tests más importantes de EE. UU. (p. ej.: American College Testing, California Bureau Test, Educational Testing Service…) suelen emplear estas tablas. Así por ejemplo, en la página web del National Assessment of Educational Program (NAEP)1 podemos encontrar varios ejemplos. El NAEP es el programa de evaluación del rendi- miento académico llevado a cabo por el Departamento de Educación de EE. UU., que permite comparar el rendimiento de los estudiantes en la escuela en varias materias y en todos los estados. Si tomamos, por ejemplo, la tabla de especificaciones para la evaluación del progreso educativo en Geografía vemos que incluye tres áreas de contenidos: espacio y lugar, ambiente y sociedad, y conexiones y dinámicas espaciales. Las dimensiones cog- nitivas evaluadas son conocimiento, comprensión y aplicación. Se muestran, además, los porcentajes de distribución de ítems por áreas de contenido y algunos ejemplos de ítems para cada combinación de área y habilidad cognitiva. Así por ejemplo, el ítem “¿Qué fac- tores estimulan las migraciones humanas?” está diseñado para medir “conocimiento” en 1 http://nces.ed.gov/nationsreportcard/geography/elements.asp 164 Medición en Ciencias Sociales y de la Salud el área “conexiones y dinámicas espaciales”. Mientras que el ítem “Explique las razones que los mexicanos y cubanos tienen hoy en día para emigrar a los Estados Unidos” está diseñado para medir “comprensión” en la misma área de conocimiento. Para definir el dominio de manera adecuada podemos usar varias fuentes. En los tests educativos es habitual usar los libros de texto y los objetivos curriculares; en el ámbito de selección de personal es frecuente usar los resultados de los análisis de puestos de trabajo; los datos obtenidos en tales análisis se usan para defender la evaluación de áreas específi- cas y para establecer su importancia en el test (p. ej., la proporción de ítems de cada una). En los tests de aptitudes se utilizan las teorías sobre las habilidades mentales y su funcio- namiento. Hasta ahora nos hemos ocupado de la definición del dominio. El segundo elemento resaltado por Sireci es la representación del dominio, que a su vez abarca dos aspectos: la representatividad y la relevancia. La representatividad o cobertura del dominio indica la adecuación con que el contenido del test representa todas las facetas del dominio definido. Hay que examinar si todo el contenido del dominio está siendo medido y si hay facetas concretas que han sido infrarrepresentadas. Por su parte, al estudiar la relevancia exami- namos el grado en que cada ítem del test mide el dominio definido, pudiéndose detectar problemas relativos a la presencia de contenidos irrelevantes. Procedimientos La mayoría de los estudios de validación de contenido requieren del trabajo de jueces o expertos que evalúan los ítems del test y emiten juicios sobre el grado de emparejamiento entre los ítems y los objetivos definidos en la tabla de especificaciones. Habitualmente se trabaja con un reducido número de jueces que emiten una cantidad importante de evalua- ciones. Es crucial realizar una cuidadosa selección de los expertos. En un estudio “tradi- cional” de validez de contenido, una vez identificado el grupo de expertos en el dominio evaluado, éstos deben informar del grado en que el dominio está bien definido y del grado en que el test lo representa bien. Se pueden utilizar varios procedimientos para que los jueces evalúen el emparejamiento entre los ítems y los objetivos del test. Rovinelli y Hambleton (1977) propusieron una tarea en la que cada juez juzga si el contenido de cada ítem refleja cada uno de los objetivos especificados. El juez debe asig- nar “+1” si considera que el ítem mide el objetivo, “−1” si cree que no lo mide y “0” si tiene dudas sobre si lo mide o no. Por ejemplo, en un test de 10 objetivos y 4 ítems por objetivo cada juez debería realizar 400 juicios. El índice de congruencia ítem-objetivo se obtiene mediante la expresión: ( )jjkjk XX N N I − − = 22 [5.1] Siendo N el número de objetivos, jkX la media de los jueces para el ítem j en el objetivo k y jX la media de los jueces para el ítem j en todos los objetivos. Este índice toma valores entre −1 y 1. Nótese que un valor del índice de 1 en un ítem indicaría que todos los jueces lo han valorado +1 en el objetivo k (la media del ítem en el Capítulo 5. Concepto y evidencias de validez 165 objetivo sería igual a 1) y −1 en todos los demás objetivos. Un valor del índice de −1 indi- caría que todos los jueces lo han valorado −1 en el objetivo k y +1 en todos los demás ob- jetivos. Podemos fijar un punto de corte para decidir qué ítems presentan valores adecua- dos y cuáles no. Por ejemplo, si tenemos 20 jueces y 10 áreas de contenido. Podríamos exigir que al menos 15 jueces valorasen el ítem como adecuado para el objetivo propuesto e inadecuado para los otros. En este ejemplo, el índice debería valer 0,75. Ejemplo 5.1. El índice de congruencia de Rovinelli y Hambleton En la Tabla 5.1 se muestran las hipotéticas evaluaciones de una muestra de 10 jueces re- cogidas con este procedimiento para un test de 6 ítems que pretende medir 2 objetivos. En negrita se muestran los ítems que han sido diseñados para medir cada objetivo. Así, los tres primeros ítems fueron diseñados para evaluar el objetivo 1 y los tres últimos para el objetivo 2. Cada juez debe realizar 12 valoraciones (6 ítems × 2 objetivos). Por ejemplo, el juez 1 evalúa con “+1” al ítem 3 en el objetivo 1 (cree que lo mide) y con “0” a ese mismo ítem en el objetivo 2 (tiene dudas sobre si lo mide o no). Tabla 5.1. Evaluaciones hipotéticas de 10 jueces para un test de 6 ítems que mide 2 objetivos Jueces Objetivos Ítems 1 2 3 4 5 6 7 8 9 10 ∑ = = 10 1 i i iX 1 1 +1 +1 +1 +1 +1 +1 0 +1 +1 +1 9 2 +1 +1 0 +1 +1 +1 0 +1 +1 +1 8 3 +1 0 +1 +1 +1 +1 +1 +1 +1 −1 7 4 −1 0 −1 −1 −1 −1 −1 0 0 −1 −7 5 −1 0 −1 −1 −1 −1 −1 −1 −1 −1 −9 6 −1 0 −1 −1 −1 −1 −1 0 −1 −1 −8 2 1 −1 0 −1 −1 −1 −1 −1 0 −1 −1 −8 2 −1 0 −1 −1 −1 −1 −1 −1 0 −1 −8 3 0 +1 −1 −1 −1 −1 −1 −1 −1 0 −6 4 +1 +1 +1 +1 +1 +1 0 +1 +1 +1 9 5 +1 +1 0 +1 0 +1 0 −1 +1 +1 6 6 +1 +1 +1 +1 +1 0 +1 −1 +1 0 6 El índice de congruencia del ítem 3 y el objetivo