Buscar

Bondad de ajuste

Prévia do material em texto

Inferencia Estadística 2009/2
Capitulo 5: Prueba de la bondad de ajuste de 
Chi-cuadrado
Profesor: Víctor Correa S.
2
A. Variables categóricas
B. Prueba de la bondad de ajuste, estadístico Q de Pearson
C. Prueba de independencia
D. Prueba de homogeneidad 
INDICE DE CONTENIDO CAPITULO 6:
3
1 A. Variables categóricas
2 Variable categórica: indica a qué grupo o categoría pertenece una entidad.
3 Ejemplo 
1. Cara superior de un dado, categorías 1, 2, 3, 4, 5, 6.
2. Genero, categorías 1 = Mujer; 2 = Hombre.
3. Preferencia por un modelo de automóvil, categorías 
1= Modelo A; 2= Modelo B y 3= Modelo C.
4
Las variables categóricas son muy utilizadas en las encuestas, dado que es más fácil obtener respuesta a 
alternativas que a cantidades.
Hasta aquí, sólo habíamos visto variables categóricas con dos modalidades como el “Genero”.
5
4 Sea lapoblación: X variable con categorías i = 1, 2, . . . , I.
5 Consideremos una m.a.s, X1 , . . . , Xn y los estadísticos:
6 Tabla de contingencia: Frecuencias observadas de O1 , . . . , OI, en una
muestra aleatoria simple de la población.
Oi = frecuencia de la categoría “i” en la muestra.
Si el muestreo es con reemplazo (1): Oi ∼ B(n, πi ), πi = P[ X = i ] 
En el análisis de datos categóricos se trabaja con los estadísticos O1 , . . . , OI
en lugar de la muestra original X1 , . . . , Xn.
6
Tabla de contingencia. 
Categoría i 1 2 3 4 5 6 Total
O i 4 6 17 16 8 9 60
Se lanza un dado 60 veces. Los resultados son los siguientes:
Muestra: 4 3 3 1 2 3 4 6 5 6 2 4 1 3 3 5 3 4 3 4 3 3 4 5 4 5 6 4 5 1
6 4 4 2 3 3 2 4 4 5 6 3 6 2 4 6 4 6 3 2 5 4 6 3 3 3 5 3 1 4
7 Ejemplo 
7
8 B. Prueba de la bondad del ajuste
9 Ejemplo (continuación ejemplo 7)
Se quiere saber si el dado está cargado.
La pregunta anterior se refiere a la distribución de X:
P(x) = P[ X = x ] = π x x = 1 , . . . , 6
Hipótesis de la bondad de ajuste:
9a H0 : π1 = π2 = . . . = π6 = 1/6 vs H1: otro caso. 
10 Método para la prueba 9a: plantear hipótesis separadas, H0 : π i = 1/6,
y aplicar, por ejemplo, intervalos de confianza, regiones de rechazo o valor-p.
8
11 El problema con los métodos anteriores, es que no es posible fijar a priori (antes de realizar la prueba) la
significación global del test. 
11a La hipótesis en (9a) se llama bondad del ajuste,porque consiste en probar si los datos se ajustan a una 
distribución de probabilidades dada en H0, que en el ejemplo anterior es una discreta uniforme (iguales
probabilidades).
11b La prueba de la bondad de ajuste, en cierto sentido, cierra el circulo del curso de Inferencia, dado que:
- La mayoría de las veces no conocemos la distribución de la población. 
- Entonces, podemos suponer un modelo parámetrico para la distribución. 
- La prueba de la bondad de ajuste permite saber la evidencia en los datos contra la distribución hipotética.
Si la evidencia es moderada o alta, conviene suponer otra distribución, hasta encontrar una que presente un 
“buen ajuste” con los datos.
9
12 Estadístico de prueba Q de Pearson:
Oi ∼ B(n, πi ), πi = Pr[ X = i ], E i0 = E[O i ] 0 = nπi0 = 60(1/6) = 10
13 Para probar la hipótesis en (9a), comparamos las frecuencias observadasy
esperadas, suponiendo la hipótesis nula cierta.Un estadístico razonable es:
13a )()()( 20 66
2
0 22
2
0 11 EOEOEO −+⋅⋅⋅+−+−
14 Karl Pearson en 1900, descubrió que con una “leve” modificación de (13a), se
obtenía un estadístico con una distribución asintótica con probabilidades que
se podían tabular. 
La idea es rechazar H0, si el estadístico anterior toma un valor muy grande en 
la muestra observada. 
10
15 Propiedad: Estadístico Q de Pearson.
16a La aproximación asintótica es buena si Oi > 5, para cada celda i.
(si no, se une la celda con pocas observaciones, con otra celda)
16b Hay I – 1 grados de libertad porque O1 + . . .+ OI = n.
16c La distribución asintótica de Q es una Chi-cuadrado con I –1 grados de
libertad.
 ~ 
)( 2
1
a
1
2
−
=
∑
−= I
I
i i
ii
E
EO
Q χ
Gráfico de la ley (densidad) Chi-cuadrado.
11
17 Ejemplo (continuación ejemplo 7 )
Prueba de la bondad de ajuste en el ejemplo 7
• Con los datos se obtiene Qobs= 14,2. 
Bajo H0, Ei 0 = E[O i ] = nπi = 60 *1/6 = 10, 
2
5
6
1
2
 ~ 
10
)10( 0 χ
H
a
i
iOQ ∑
=
−=
Categoría 1 2 3 4 5 6 Total
O i 4 6 17 16 8 9 60
E io 10 10 10 10 10 10 
• Región de rechazo: R: Q / Q > Qc y
• Cómo, Qobs= 14,2; se rechaza al 5%.. El dado no es legal.
07,11 2 95,0 ;5 
2
 - 1 ;g.l. === χχ αcQ
• valor-p < 0,025 ( valor exacto = 0,014; Excel: =DISTR.CHI( x, gl ); x=14,2; gl =5 )
12
18 C. Prueba de Independencia
19 Ejemplo 
Una muestra de 1.000 personas se clasifica según los criterios:
X: Genero, categorías 1 = Mujer; 2 = Hombre.
Y: Preferencia, categorías 1= Modelo A; 2 = Modelo B y 3 = Modelo C.
Oij = frecuencia del “cruce”( i , j ) en la muestra, i = 1, 2; j = 1, 2 , 3.
19a Tabla de contingencia Oij
¿Se puede afirmar con significación del 5%, que genero y preferencia por un
modelo de automóvil son independientes?
 Modelo
Genero
 
 A B C Totales
Mujer
Hombre
 160 145 290
 88 125 192
 595
 405
Totales 248 270 482 1.000
13
19b Las realizaciones de la muestra (X , Y): (X1 , Y1 ) , ... , (Xn , Yn ), n = 1000. se puede visualizar en la tabla
siguiente:
Individuo X Y
1
2
3
4
5
.
.
1.000
 1 3
 1 1
 1 1
 2 2
 1 3
. .
. .
2 3.
14
19c Modelo Estadistico:
Población: ( X, Y ), X : Genero, i = 1, 2; Y: Preferencia, j = 1 , 2 , 3.
Distribución conjuntade X, Y: p( i , j) = P[ X = i , Y = j ] = π i j
19d Hipótesis de independencia: H0 : π i j = π i • × π• j vs H1 : otro caso
H0 : Hay independencia vs H1 : No hay independencia
Explicación: 
X , Y son independientes si, π i j = p(i , j) = p( i )× p( j ) = π i• × π • j
Donde,
p( i ) = P[ X = i ] = Σ j π i j = π i • ( suma por columnas en la fila i)
p( j ) = P[ Y = j ] = Σ i π i j = π • j ( suma por filas en la columna j ) 
15
20 Las funciones de probabilidad, p(i) y p(j), son las “distribuciones marginales” (se anotan en los márgenes), de la
tabla de distribución conjunta p(i , j) de la población ( X, Y ). 
Ejercicio: ¿Cómo se simularías una m.a.s. de la población ( X, Y ), como extracciones de fichas de una urna? 
¿Qué necesitarías?
16
21 Estadístico Q de Pearson: 2
)1)(1(
1 1 
2
 ~ 
ˆ
)ˆ( 0
0
0
−−
= =
∑∑
−
= JI
H
a
I
i
J
j ij
ijij
E
EO
Q χ
Explicación del estadístico anterior:
21a Bajo H0 : π i j = π i • × π• j , se tiene, Eij 0 = E[O ij ] = n π i j = n π i• π • j
21b Como Ho no determina valores para π i• y π • j , es necesario estimar:
O i • = suma por columnas en la fila i en la tabla de contingencia.
O• j = suma por filas en la columna j en la tabla de contingencia.
n
O
p iii
•
•• ==π̂ n
O
p jjj
•
•• ==π̂ jiji ppnOEE ••== )(ˆ ˆ 0j i 0
1 2 3
1 O11 O12 O13 O1•
2 O22 O2•
O• 1 O• 2 O• 3 O• • = n
17
21c Los grados de libertad
La tabla de contingencia tiene I×J celdas así los grados de libertad iniciales
son I×J - 1.
Pero hay que estimar: I - 1 parámetros, porque, Σ π i • = 1
J - 1 parámetros, porque, Σ π • j = 1
Propiedad
Si hay que estimarm parámetros en Q, entonces, los grados de libertad en la
distribución Chi-cuadrado se reducen a gl = I×J – 1 – m.
La propiedad anterior, implica que los grados de libertad en Q son: 
gl = I× J – 1 – (I-1) – (J-1) = (I–1)× (J–1).
18
22 Ejemplo (continuación ejemplo 19 )
• Con los datos de la tabla y la fórmula en 21, se obtiene Qobs= 6,44.
• Grados de libertad, gl = (I - 1) (J – 1) = ( 2 –1 )( 3 –1 ) = 2.
• Región de rechazo: R: Q / Q > Qc y
• Cómo, Qobs= 6,44; se rechaza al 5%.. Hay dependencia.
99,5 2 95,0 2; 
2
-1 ; g.l. === χχ αcQ
• valor-p = 0,04 ( Excel: =DISTR.CHI( x, gl ); x=6,44; gl =2 )
19
23 D. Prueba de Homogeneidad
Se seleccionan tres muestras independiente de 200 personas de Izquierda, 150
de centro y 150 de derecha.
A cada muestra se les pregunta si están de acuerdo con una nueva ley de
impuestos.
Para cada opinión (Acuerdo, desacuerdo, No sabe), ¿son iguales las
proporciones de izquierda, centro y derecha? 
Izquierda Centro Derecha
Acuerdo 41% 41% 47%
Desacuerdo 47% 45% 41%
No Sabe 13% 14% 12%
Base Muestra 200 150 150
20
23a La tabla anterior sólo muestra los resultados para las muestras. 
La tabla siguiente muestra los parametros poblacionales que interesan:
Poblaciones (manera de pensar)
Izquierda Centro Derecha
Acuerdo πai πac πad
Opiniones Desacuerdo πdi πdc πdd
No sabe πni πnc πnd
1 1 1
Entonces, la hipotesis que interesa es:
Ho: πai = πac = πad ; πdi = πdc = πdd ; πni = πnc= πnd
vs
H1: Para al menos una opinión, las proporciones de izquierda, centro y derecha no son iguales.
Entonces, se dice que Ho establece que las proporciones de cada opinión son
homogéneas(iguales) entre poblaciones (“manera de pensar”).
21
23b La prueba Chi cuadrado trabaja con frecuencias absolutas. 
Frecuencias observadas (Tabla de contingencia):
Muestras (manera de pensar)
Izquierda Centro Derecha Total 
Acuerdo 82 70 62 214
Opiniones Desacuerdo 93 62 67 222 
No sabe 25 18 21 64
Total 200 150 150 
Frecuencias esperadas bajo Ho cierta: 
Izquierda Centro Derecha 
Acuerdo nI πa nC πa nD πa
Opiniones Desacuerdo nI πd nC πd nD πd
No sabe nI πn nC πn nD πn
22
23c Grados de libertad: 9 - 1 - 6 = 4
Región de rechazo: R: Q / Q > Qc = 
Qobs= 1,53; no se rechaza al 5% . 
488,9 2 95,0 4; 
2
-1 ; g.l. == χχ α
23
24 Ejercicio (Bondad de ajuste con a Normal) 
Se quiere saber si un conjunto de 810 datos, se puede considerar una muestra
aleatoria de una distribución normal.
Promedio = 165,0 y Desviación estándar = 6,0 
Intervalo Frecuencia Frec. Relativa
Menos 145
145 – 150
150 – 155
155 – 160
160 - 165
165 – 170
170 – 175
175 - 180
189 - 185
Más de 185
1
2
34
122
262
228
125
28
7
1
0,00012
0,00247
0,04198
0,15062
0,32346
0,28148
0,15432
0,03457
0,00864
0,00012
810 1,00000
Aplica la prueba de bondad de ajuste al 5%.
24
Tabla Distribución Chi cuadrado Acumulada
Valor Tabulado = x, P( X2 < x ) = Probabilidad
Probabilidad
g.l 0,005 0,01 0,025 0,05 0,1 0,25 0,75 0,9 0,95 0,975 0,99 0,995
1 0,000 0,000 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635 7,879
2 0,010 0,020 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210 10,597
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,832 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475 20,278
8 1,344 1,647 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666 23,589
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209 25,188
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725 26,757
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217 28,300
13 3,565 4,107 5,009 5,892 7,041 9,299 15,984 19,812 22,362 24,736 27,688 29,819
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409 35,718
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289 42,796
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638 44,181
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980 45,558
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 44,314 46,928
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642 48,290
27 11,808 12,878 14,573 16,151 18,114 21,749 31,528 36,741 40,113 43,195 46,963 49,645
28 12,461 13,565 15,308 16,928 18,939 22,657 32,620 37,916 41,337 44,461 48,278 50,994
29 13,121 14,256 16,047 17,708 19,768 23,567 33,711 39,087 42,557 45,722 49,588 52,335
30 13,787 14,953 16,791 18,493 20,599 24,478 34,800 40,256 43,773 46,979 50,892 53,672
25
Nota:
(1) Si no hay reemplazo, la distribución es hipergeométrica: Oi ∼ HGeom(n,ri ,N ), donde, N es el 
tamaño y ri la frecuencia de la categoría “i”, en el universo, respectivamente.
} ,{ 1 0 
 
] Pr[)( i
ii
i rn,Min...,,x
n
N
xn
rN
x
r
xOxp =











−
−






===

Continue navegando