Vista previa del material en texto
Capítulo 3
Elementos de Inferencia Estadística
Es muy cierto que cuando no está en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es más probable.
R. Descartes, Discurso del Método, 1637
En el capítulo anterior hemos discutido la estructura axiomática de las
probabilidades que será la base del análisis de inferencia estadística. Resulta natural
preguntarse por qué es necesario “inferir”.1 Después de todo, si tenemos un conjunto de
observaciones podemos describirlas usando alguna función de probabilidad o, en el
peor de los casos, usando un histograma.
3.01 Modelo probabilístico, modelo muestral y modelo estadístico
La lógica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque
axiomático de probabilidades para formalizar el concepto de experimento aleatorio ( )ℰ
definido en el espacio de probabilidades S ,ℱ , P · . La incertidumbre respecto del
resultado particular del experimento se resume en P · . Para evitar la rigidez de esta
formalización utilizamos un espacio equivalente ( , ℝ B , P x · ), en el que definimos
variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma
(−∞ , x ] podemos construir una función punto que describa congruentemente la
probabilidad de ocurrencia de los eventos en x y que llamamos la función de
distribución, F ⋅ :
P s : X s∈(−∞ , x ] , s∈S =Px (−∞ , x ]=F x (3.1)
Esta función puede ser simplificada y hecha aún más flexible con la ayuda de la
función de densidad, la que cumple F x =∫
−∞
x
f u du . La ventaja de usar f u es que
ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre
asociada al experimento por incertidumbre respecto de los parámetros ℰ que, dentro
de una familia de formas funcionales, identifican una función de densidad específica a la
que denominamos f x , .
1 Inferir viende del latín “inferre” que significa “causar o llevar en sí”. El sentido popular de “extraer una
conclusión” es probablemente del siglo 16.
3.2
Finalmente, definimos el modelo probabilístico ={ f x; ,∈} a la familia de
funciones paramétricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para
describir las observaciones, x. Se presume que el vector de parámetros pertenece al
espacio de los parámetros (típicamente un múltiplo de la recta real).
La intuición es directa: dado un conjunto de observaciones, x, cuando se postula
un modelo probabilístico que las describa basado en una distribución f x , , se ha
eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos
(PGD), reemplazándola por incertidumbre respecto de la parametrización adecuada de
la función f x , .
El objetivo de la inferencia estadística es precisamente identificar y hacer tests de
hipótesis sobre aquel * que, con algún criterio, sea elegido para que f x ,* describa
adecuadamente los datos. Para la inferencia se usarán datos de corte transversal, de
series de tiempo, o una combinación de ambos tipos de datos que llamamos datos de
panel.
Note la importante diferencia entre la descripción de datos y la inferencia
estadística. La descripción de las observaciones puede ser hecha por medio de funciones
de distribución escogidas a su vez mediante el análisis de la frecuencia de los datos. Por
su lado, la inferencia estadística pretende identificar (aproximarse) el mecanismo que
genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un
modelo general.
La inferencia estadística parte de la base que existe un modelo probabilístico
={ f x; ,∈} al que se le añade un segundo modelo, llamado modelo muestral,
que es el que provee la conexión entre el modelo probabilístico y las observaciones. Para
ello definiremos primero algunos conceptos necesarios:
Def. 3.1 Una muestra es un conjunto de variables aleatorias x1 , x2 , cuyas
funciones de densidad coinciden con la función de densidad f x ,
postulada por el modelo probabilístico.
Note que este significado está lejos del uso cotidiano de la palabra muestra, en
particular porque no se refiere a datos observados. De la definición se deduce que una
muestra en el sentido coloquial –una colección de números– en realidad corresponde a
una de las muchas posibles realizaciones del conjunto de variables aleatorias que
componen la muestra. La muestra es, entonces, un segundo experimento, diseñado para
complementar el experimento descrito por el modelo probabilístico.
Así, dado que la muestra es un conjunto de variables aleatorias, ella deberá tener
una distribución:
3.3
Def. 3.2 La distribución de la muestra x=x1 , x2 , , xn se define como la
distribución conjunta de la variables aleatorias {x1 , x2 , , xn}
denominada por:
f {x1 , x2 , , xn};≡ f x ; (3.2)
Note que la distribución muestral incluye dos elementos: la información respecto
de la probabilidad y aquella sobre la muestra. Habrá, por tanto, dos fuentes de
incertidumbre. Así, la forma que tome f x ; depende crucialmente del muestreo. La
manera más intuititiva de pensar en el muestreo se deriva del mismo experimento
aleatorio, .ℰ
Resulta conveniente discutir la naturaleza de las muestras para identificar
algunas de sus características y, más importante aún, para saber el tipo de información
contenida en ellas.
Def. 3.3 Un conjunto de variables aleatorias {x1 , x2 , , xn} es llamado una
muestra aleatoria de tamaño n de f x ; si dichas variables aleatorias
provienen de una misma distribución (población) y son independientes,
i.i.d. En este caso, la muestra queda descrita por:
f x1 , x2 , , xn ;=∏
i=1
n
f xi ;=[ f xi ;]
n (3.3)
La primera igualdad proviene de la noción de independencia estadística
que ya vimos y la segunda de la condición que las variables están
distribuidas idénticamente.
Cuando las variables aleatorias no se distribuyen idénticamente, la muestra es
llamada muestra independiente y su distribución es f x 1 , x 2 , ... , x n ; =∏
i=1
n
f x i ; . Si las
variables aleatorias tampoco son independientes, la muestra es llamada muestra no
aleatoria y la única descripción posible de la función de probabilidad que dió origen a las
observaciones es la distribución condicional f x i | x 1 ,x 2 , ... , x n ;=∏
i=1
n
f x i | x 1 , x 2 , ... ; .
La combinación de los modelos probabilístico y muestral permite definir el
modelo estadístico, que será la base de todo el análisis econométrico que se desarrolla
posteriormente:
3.4
Def. 3.4 Un modelo estadístico se define como aquel que incluye:
● un modelo probabilístico, ={ f x ; ,∈}
● un modelo muestral, x=x1 , x2 , , xn
Obviamente, los dos modelos están interrelacionados, pues no resulta razonable
suponer un modelo del tipo ={ f x; ,∈} si la muestra no es aleatoria. En tal
caso, habría que proponer un modelo para la distribución conjunta
={ f x1 , x2 , , x n ; ,∈} .
El modelo estadístico y los datos observados nos permiten responder varios tipos
de preguntas:
1. ¿Es el modelo estadístico postulado congruente con los datos? Este tipo de
pregunta es también conocido como análisis de especificación del modelo2.
2. Suponiendo que el modelo estadístico es congruente con los datos, ¿qué
podemos inferir de los parámetros?
a) ¿Podemos reducir la incertidumbre sobre reduciendo el espacio de
parámetros a 0 donde 0 es un subconjunto de ? Llamada región de
confianza de la estimación.
b) ¿Podemos reducir la incertidumbre sobre escogiendo un valor particular
en –llamado – que sea el más representativo de ? Estimación punto.
c) ¿Podemos responder la pregunta si pertenecea algún subconjunto de ?
Esta es una amplia área de análisis colectivamente denominada prueba de
hipótesis.
3. Suponiendo que hemos escogido , ¿qué podemos inferir de las siguientes
observaciones del mecanismo generador de datos? Esta área –predicción— es una
de los principales objetivos del análisis econométrico.
2 “El hombre mejor dotado plantea mal el problema que no comprende”, Fulcanelli, Las Moradas
Filosofales, 1929.
3.5
3.02 Estadísticos muestrales
Sobre la base del modelo estadístico y de los datos observados podemos
construir estadísticos, definidos como:
Def. 3.5 Un estadístico es una función de Borel tal que q ⋅ : X →ℝ , donde X es
el espacio de las observaciones. Note que q ⋅ no depende de
parámetros desconocidos.
Existen bastantes estadísticos de uso común, entre ellos la media muestral
definida por x=
1
n∑i x i y la varianza muestral, Var [ x ]=
1
n−1∑i [
x i−x ]
2
. En términos
generales, una parte sustancial del análisis econométrico se realiza sobre la base de
estadísticos. Debido a que éstos son funciones de variables aleatorias, deberemos derivar
sus distribuciones, cosa que usualmente no es fácil.
Podemos generalizar la definición de estadístico para el caso multivariado
haciendo:
Def. 3.5' qm⋅ : X →ℝ m m≥1 donde qm⋅ es una función vector.
3.03 Distribución de la media muestral
Si {x1 , x2 , , xn} es una muestra aleatoria extraída de una población con media
y varianza 2 , entonces x es una variable aleatoria con media y varianza 2 /n .
La demostración es directa, la intuición también:
x=
1
n∑i x i (3.4)
entonces
E [x ]=
1
n∑i =
Var [x ]=
1
n2
Var [∑
i
x i]=
1
n2
∑
i
2=
2
n
(3.5)
3.6
Note que la varianza de la suma converge a cero cuando n→∞ . Este resultado
es intuitivo pues la media muestral tiene que converger a la media de la población
cuando la información muestral se aproxima a la población. Nóte, además, que estos
resultados no dependen de ningún supuesto de distribución de las variables aleatorias x.
3.04 Características deseables de los estimadores en muestra finita
Debido tanto a nuestro interés por aproximarnos al proceso generador de datos
con precisión y eficiencia, como al objetivo de responder al tipo de pregunta planteado
más arriba, tendremos que estudiar para cada estadístico algunas características
deseables. Aunque no son las únicas características, las dos más importantes son:
Estimador insesgado E [ ]=∫
−∞
∞
f d =
Estimador eficiente Menor V [ ] posible
Naturalmente, no puede esperarse que todos los estimadores sean insesgados y
de varianza mínima. Por ello es usual preguntarse si para un determinado problema es
preferible tener un estimador con sesgo pero eficiente o insesgado pero ineficiente. Un
criterio posible para evaluar este trade-off es estudiar la estructura del error cuadrático
medio ECM, que se define como:
ECM=E [−2]=Var []sesgo [ ]2 (3.6)
La existencia de un trade-off nos hace usualmente preguntarnos si existe algún
estimador que sea “óptimo” (es decir, insesgado y de varianza mínima). Bajo ciertas
condiciones, el estimador de máxima verosimilitud resulta ser óptimo.
Consideremos que tenemos una muestra de n observaciones de la variable
aleatoria x tal que sus componentes son independientes e idénticamente distribuidos.
Como señalamos, si cada dato viene de f x i , , la distribución conjunta de la muestra
es:
ℒ = f x1 , x2 , , xn ;=∏
i=1
n
f xi ;=[ f x ;]
n (3.7)
donde es llamada la función de verosimilitud. Esta función mide la probabilidad queℒ
los datos que disponemos vengan de un mismo modelo probabilístico.
3.7
El estimador de máxima verosimilitud será aquel * que hace máxima la
probabilidad que los datos provengan de f x , . Este estimador es formidable, en el
sentido que posee cuatro características importantes: es insesgado, es de varianza
mínima, es asintóticamente normal y es invariante para transformaciones afines. Más
adelante desarrollamos in extenso este estimador, estudiando sus propiedades y las
condiciones necesarias para su existencia.
Ejemplo:
Supongamos que los datos son tomados independientemente y
corresponden a “robos de billeteras por mes en el campus San Joaquín”. La
muestra X es: {2,0,3,4,1,3,0,2,3,4,3,5}. Si creemos que la distribución de
probabilidades que mejor representa los datos es alguna de la familia de la
Poisson. Entonces:
f x i ;=
e−i
x
xi !
En este caso particular, la función de verosimilitud es:
f x1 , x2 , , x12 ;=∏
i=1
12 e−i
x
x i!
=
e−12
∑
i=1
10
x i
∏
i=1
12
xi !
=
e−1230
358,318,080
Podemos optimizar la ecuación anterior pero resulta más fácil
optimizar el logaritmo de la función de verosimilitud, ya que éste es una
transformación monótona. Entonces,
log f x1 , x2 , , x12; =−1230 log−log 358,318,080
Buscamos aquel que hace más probable que los datos vengan de
una Poisson. Lo que se resuelve de manera elemental mediante cálculo para
obtener =2,5 . Se debe comprobar que la segunda derivada sea negativa,
para asegurar que es un máximo.
3.8
3.05 Límite de Cramer-Rao3
Suponiendo que la función de densidad satisface ciertas restricciones –que
estudiamos más adelante–, la varianza de un estimador lineal insesgado de un
parámetro es mayor o igual a:4
[ I n]
−1=−E [ ∂2 ln L∂ 2 ]
−1
=−E [∂ ln L∂ 2]
−1
(3.8)
Un estimador que alcanza este límite inferior es llamado completamente
eficiente. El inverso de la cota de Cramer-Rao es llamado número informacional de
Fisher y se le designa por I n . La ecuación anterior requiere que se cumpla el
teorema de Lindberg y Feller que ya vamos a estudiar y demostrar. En palabras
sencillas, las condiciones requeridas para que sea válido son:
● El conjunto de eventos que cubre la función de probabilidad no depende de .
● Para cualquier parámetro , las derivadas de la función de verosimilitud existen
y, en particular, las segundas derivadas son finitas.
Por ejemplo, el límite Crámer-Rao en el ejemplo de la Poisson sería:
∂2log L
∂2
=
−∑
i
x i
2
=
−n
2
(3.9)
La utilidad del límite de Crámer-Rao es que si algún estimador insesgado alcanza
dicho límite, entonces éste será óptimo y no será necesario buscar otro. Note que en el
caso multivariado, I es una matriz, con valores fuera de la diagonal, posiblemente
distintos de cero.
Un segundo concepto relacionado de gran utilidad es el de estadístico suficiente.
Intuitivamente, un estadístico suficiente condensa la información de n variables
3 Esta desigualdad fue obtenida independientemente por H. Cramér (1946 Mathematical Methods of
Statistics) y C. R. Rao (1945 Bull. Calcutta Math. Soc. 37, 81-91). L. J. Savage (Foundations of Statistics, 1954)
señala, no obstante, que M. Fréchet (1943) y G. Darmois (1945) habían propuesto tentativamente el
nombre "desigualdad informacional” para la misma ecuación. Predeciblemente, sólo los franceses usan
“desigualdad de Fréchet-Darmois-Cramér-Rao”.
4 Note las diferencias entre ambas expresiones. Más adelante mostramos por qué ambos paréntesis son
iguales.
3.9
aleatorias en una sola variable aleatoria. Si no hay pérdida de información en esa
reducción, el estadístico efectivamente describe los datos de la muestra. Un estadístico
. es suficiente si al hacer inferencias sobre estamos indiferentes entre usar la
colección de variables aleatorias X o x . Obviamente preferimos x por ser de
menor dimensión que X. Más formalmente, el teorema de factorización de Neyman-
Fisher es:
Def. 3.6 Un estadístico τ ⋅ : X →ℝ es llamado suficiente para si la
distribución condicionalde f x | τ x =τ es independiente de , es
decir no aparece en f x | τ x =τ y el dominio de f(.) no envuelve a
.
3.06 Elementos de teoría asintótica: convergencia
Usualmente la distribución de un estimador es desconocida. Para poder hacer
inferencias utilizamos elementos de la teoría asintótica, que nos permiten estudiar las
propiedades de los estimadores cuando la muestra es de tamaño infinito.
A lo largo de este capítulo vamos a usar dos herramientas: Leyes de los Grandes
Números (en términos generales describen qué tan lejos está de ) y Teoremas del
Límite Central (que permiten hacer inferencias sobre usando ).5 Un primer paso
será estudiar el concepto de convergencia, que en nuestro caso es análogo pero no
equivalente al concepto de convergencia usado en series y progresiones.
Def. 3.7: Una secuencia es una colección infinita de objetos ordenados y contables.
Podemos tener secuencias de números, vectores, matrices, etc.
La secuencia {a t} converge a a si ε>0 existe N tal que T>N, ∀ ∀ ∥aT - a < ε donde∥
. es la distancia Euclideana. Escribimos∥ ∥
limT →∞ aT=a ó aT→a (3.10)
5 El nombre de esta familia de teoremas fue acuñado por George Polya (1887-1985) en "Über den zentralen
Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem", (Mathematische Zeitschrift,
8 (1920), 171-181). Posiblemente, Polya usó el término "Zentral" para indicar que su importancia es
central en el análisis. No obstante, el trabajo de Polya es de tercera generación. La primera generación la
encabeza De Moivre en los años 1730 cuando deriva la distribución normal. La segunda generación
corresponde a los trabajos sobre la distribución normal del siglo 19 de Laplace, Poisson, Cauchy y otros.
La tercera generación es aquella que encabeza Chebyshev y sus estudiantes Markov y Lyapounov.
3.10
Este tipo de convergencia no es el que nos interesa en estadística; no es la
secuencia de valores o realizaciones de un experimento aleatorio sino la convergencia de
las probabilidades asociadas a la variable aleatoria. Así, hay varios modos de
convergencia de interés para la modelación econométrica. Ya nos hemos referido a dos
de ellos al revisar las distribuciones Bernoulli y Normal, que en sí son dos límites que
reflejan distintos modos de convergencia.
Bernouilli demostró que si Sn es el número de ocurrencias de un evento A en n
intentos de un experimento aleatorio y ℰ p=P A es la probabilidad de ocurrencia de
A en cada intento, entonces para 0 :
limn∞ Pr∣S nn − p∣=1 (3.11)
es decir, el límite de la probabilidad del evento ∣S n/n− p∣ se acerca a 1 cuando
n→∞ .
Prueba: Si las variables aleatorias siguen una Bernoulli, su suma sigue una Binomial:
P Sn=r =nr pr 1− pn−r
entonces se cumple:
P ∣S n−np∣≥ n= ∑
∣r−np∣≥ n nr pr 1− pn−r≤
1
n22
∑
∣r−np∣≥ n
r−np 2nr pr1− pn−r
= 1
n22
E Sn−np
2= 1
n22
V S n
= 1
n22
np1− p= p 1−p
n2
▄
Por otro lado, De Moivre y Laplace encontraron que cuando ∣S n/n− p∣ es
multiplicado por el inverso de la desviación estándar y n→∞ , el resultado se aproxima
a una distribución normal.
lim n→∞ Pr ∣Snn − p∣[ p1−pn ]½≤z=∫−∞z 12 e−½ u2du (3.12)
3.11
Estos dos teoremas proponen –como veremos más adelante– distintos modos de
convergencia. Además, tienen algunos supuestos que deben cumplirse y vale la pena
revisar antes de seguir avanzando:
1. Sn=∑ x i , es decir, Sn corresponde a una suma de variables aleatorias.
2. x i=1 si el evento A ocurre y x i=0 si no ocurre, es decir, x i es una variable
aleatoria que se distribuyen Bernoulli y, por lo tanto, Sn es una variable
aleatoria que se distribuye Binomial.
3. Las variables aleatorias x i son independientes.
4. f x1= f x2=⋯= f xn , es decir, las variables aleatorias x i están
idénticamente distribuidas con Pr xi=1=p y Pr xi=0=1− p para todo x i .
5. Debido a que E Sn /n=p , entonces el análisis se hace considerando las
diferencias entre una variable aleatoria Sn y su valor esperado. Es decir, se
refiere a la dispersión de x.
La diferencia más importante entre ambos teoremas, sin embargo, tiene que ver
con el tipo de convergencia implícita en cada una: mientras Bernoulli se concentra en
convergencia en probabilidad, De Moivre y Laplace usan el concepto de convergencia en
distribución. En lo que sigue revisamos varias formas de convergencia.
Def. 3.8 Una secuencia de variables aleatorias (reales o vectoriales), {xn} ,
converge en probabilidad si:
lim n→∞ Pr ∣xn−x∣=1 ∀ (3.13)
lo que escribimos plim xn= x . A veces se escribe xn
p x .
Def. 3.9 Una secuencia de variables aleatorias (reales o vectoriales), {xn} ,
converge en distribución a x si la función de distribución F nx
converge a la distribución de F x para todo punto de F (ver Figura
3.2).
limn →∞ Fn x=F x (3.14)
Escribimos xn
d x y llamamos a F la distribución límite de xn .
3.12
Figura 3.2
Convergencia en distribución
Def. 3.10 Una secuencia de variables aleatorias (reales o vectoriales), {xn} ,
converge en media cuadrática a x si:
limn →∞ E xn− x
2=0 (3.15)
lo que escribimos xn
m x .
Def. 3.11 Una secuencia de variables aleatorias (reales o vectoriales), {xn} ,
converge casi seguramente a x si:
Pr lim n→∞ xn= x=1 (3.16)
lo que escribimos xn
a.s. x .6
6 Suponga que el espacio muestral S está definido en el intervalo [0,1] con distribución uniforme. Suponga
la siguiente variable aleatoria X n s =s s
n y X s = s . Entonces, para todo S ∈ [ 0,1 ) , s n →0 cuando
n→∞ y Xn(s)→X(s). Sin embargo, X n 1=2 para todo n y no converge a X(1). Como la convergencia
ocurre en [0,1) y P([0,1))=1, entonces Xn→X almost surely.
N=100
N=250
N=500
N=50
P
3.13
La relación entre las distintas formas de convegencia puede sintetizarse en el
siguiente diagrama.
La demostración de estas relaciones es directa aunque algo tediosa.
Teorema 1: E xn
2→0⇒ x n
p 0
Demostración
E xn
2=∫
−∞
∞
x2dF nx
= ∫
x | x2≥ 2
x2dF nx ∫
x | x22
x2dF nx ≥
2∫
S
x2dF nx donde S= x | x
2≥ 2
Tomando la ultima integral
∫
S
x2dF nx =∫
−∞
dF nx ∫
∞
dF nx =F n−[1F n]
=P xn−P xn≥ ≥ P xn
2
Entonces:
P xn
2≤
E xn
2
2
Así, si E xn
2→0 , entonces xn converge en probabilidad a cero.
Teorema 2: xn
m x⇒ xn
p x
Demostración: reemplace xn por xn−x en el Teorema 1.
3.14
3.07 Elementos de teoría asintótica: leyes débiles de grandes números
A principios de 1800, S. Poisson7 se dió cuenta que el supuesto 4 de Bernoulli –
distribución idéntica– no resultaba fundamental para obtener los resultados de
convergencia.
Teorema de Poisson: Sea {xn} una secuencia de variables aleatorias independientes tipo
Bernoulli con Pr x i=1= p y Pr x i=0=1− p , para todo x i ,
entonces para cualquier ε>0
lim n→∞ Pr∣S nn −1n∑i=1
n
pi∣=1 (3.17)
Prueba: La manera más corta de probar este teorema es usar la función característica.
Sea X i t =E [ e
itx ] la función característica de xi, una variable aleatoria que
se distribuye con media μ y varianza finita. La expansión de la función
característica alrededor de t=0 es x i t =1 it 1
it 2
2 !
2
it 3
3 !
3⋯ ,
por lo que la función característica de
x i
n
es
x i/ n t =1
it
n
1−
t 2
2 ! n2
2o1 /n
2 . Entonces, la función característica de
la suma 1/n∑
i=1
n
xi es ∑ x i/ n t =1 it n 1− t
2
2 ! n2
2o 1 /n
2
n
. Aplicando
logaritmo se obtiene log∑x i /n t =n log 1 it n 1− t
2
2 ! n2
2o 1 /n
2 . Pero
si n∞ , se puede aproximar log 1z ≈z por lo tanto
log∑ x i/ n t = it 1−t 22 ! n 2o 1 /n . Finalmente, tomandolímite tenemos
limn∞ log∑x i /n t =it 1 . Esta es la función característica de una
distribución cuya densidad está concentrada en 1= . Es decir x i
p
.▄
7 “Recherches sur la Probabilité de Jugements, Principalment en Matiere Criminelle”, Comptes Rendus
Hebdomadaires des Sèances de lÁcadémie de Sciences, 1, 473-494, 1835.
3.15
P. Chebyshev (1887)8 se dió cuenta que, en realidad, no sólo el supuesto 4 era
innecesario sino que el supuesto 2 tampoco ayudaba a obtener el resultado. Lo
importante es que se está comparando una suma de variables aleatorias con su media
(valor esperado).
Teo. de Chebyshev: Sea {xn} una secuencia de variables aleatorias con media y varianza
σ²c∞ y sean c y ε constantes, entonces para todo ε>0
lim n→∞ Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
i∣=1 (3.18)
Para probar este teorema usamos la propiedad que las variables aleatorias x son
independientes. Por ello:
Var1n∑i=1
n
x i = 1n2∑i=1
n
i
2 ≤ c
n
(3.19)
Para probar el teorema (3.19), vamos a usar la desigualdad de Chebyshev:
Prob[∣xn−cn∣]≤ E [ xn−cn2]/2 , pero se le aplicará a 1/n∑x i .
Antes vamos a probar la desigualdad de Chebyshev, para lo cual usamos la
desigualdad de su discípulo A. Markov. Sea xn una variable aleatoria que toma valores
no negativos y δ una constante, entonces:
Prob[ xn≥ ]≤
E [ xn]
(3.20)
La prueba es directa. Recordemos que podemos separar la esperanza de x como:
E [ xn]=Prob[ xn]E [ xn | xn]Prob [ xn≥ ]E [ xn | xn≥] (3.21)
debido a que xn no es negativo, entonces ambos términos son no negativos. Por ello:
E [ xn]≥ Prob[ xn≥]E [ xn | xn≥] (3.22)
8 Existen numerosas formas de escribir este nombre, derivadas del uso de Tc en vez de C, i en vez de y, y ff
en vez de v.
3.16
pero la esperanza condicional debe ser mayor o igual que por definición, luego se
obtiene que E [ xn]≥ Pr [ xn≥ ] . Ello prueba la desigualdad de Markov. Para probar la
desigualdad de Chebyshev simplemente usamos en xn−cn en vez de xn y en vez de
.
Volviendo al teorema de Chebyshev,
Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
i∣≥ ≤ 12
∑
i=1
n
i
2
n2
≤ c
n2
(3.23)
pero tomando el límite cuando n→∞ de esta ecuación notamos que es cero.
lim n→∞
c
n2
=0 , entonces lim n→∞ Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
i∣≥ =0 (3.24)
debido a que la probabilidad no puede ser negativa. Ello prueba el teorema de
Chebyshev.
Markov9 se dió cuenta que en la prueba anterior, el supuesto que las variables
x1 , x2 , , xn fueran independientes cumple un rol menor. De hecho, sólo se usa para
computar la varianza de la suma Sn :Var S n =
1
n²∑i=1
n
i
2 . La prueba anterior sólo
requiere que Var Sn→0 cuando n→∞ . Pero la varianza de una suma es la suma de
las varianzas más las covarianzas:
Var∑i=1
n
x i=∑i=1
n
Var x i∑∑
i ≠ j
Cov x i , x j (3.25)
note que la doble suma de covarianzas es a lo más del mismo orden que la varianza. Por
ello la condición que se necesita cumplir es que Var ∑ x converja más lento que 1/n2
para que el teorema se sostenga. Por ello, el supuesto 3 no es crucial.
Teo. de Markov: Sea {xn} una secuencia de variables aleatorias tales que 1/nVar S n→0
,cuando n→∞, entonces
lim n→∞ Pr∣1n∑i=1
n
x i−
1
n∑i=1
n
E x i∣=1 (3.26)
9 “Über die freie Äquivalentz der geschlossenen Zöpfe.” Recueil Math. Moscu, 1935.
3.17
No obstante, un estudiante de Markov llamado A. Kinchine10 notó que en el caso
de variables aleatorias independientes e identicamente distribuidas, la condición de
Markov tampoco era necesaria. Si las variables aleatorias son i.i.d., no es necesario poner
restricción alguna sobre las varianzas.
Teo. de Kinchine: Sea {xn} una secuencia de variables aleatorias i.i.d., entonces la existencia
de E x i= es suficiente para garantizar que
Pr ∣1n∑i=1
n
x i−∣=1 (3.27)
Pero ambos teoremas tienen distintas condiciones y no son generales.
Finalmente, el teorema de Kolmogorov11 proveyó las condiciones necesarias y suficientes
para que se cumpla la Ley Débil de Grandes Números (LDGN).
Teo. de Kolmogorov 1: La secuencia de variables aleatorias {xn} obedece LDGN si y sólo si:
E [S n−∑i
n
E xi]
2
n2[ Sn−∑i
n
E x i]
2 →0 , cuando n→∞ (3.28)
El teorema anterior requiere que [S n−∑ E x i]
2 crezca más lento que n2 , de
otro modo el limite (3.28) no se desvanece cuando n crece.
10 “Recherches sur la structure des fonctions mesurables” en Fundamanta mathematica, 1927.
11 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
3.18
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números
A diferencia del caso anterior, ahora estamos interesados en convergencia casi
segura. El primero en probar una ley fuerte de grandes números (LFGN) fue E. Borel en
190912.
Teo. de Borel: Si {xn} es una secuencia de variables aleatorias i.i.d. distribuidas a la Bernoulli,
entonces:
Prlimn→∞ S nn = p=1 (3.29)
es decir, el evento {s : limn→∞ S n s/n=p s∈S } tiene probabilidad 1 cuando n→∞ .
Esta expresión puede ser re-escrita como:
limn →∞ Prmaxm≥ n[∣Smm − p∣≥ ]=0 (3.30)
de donde se puede ver la relación entre la LDGN y la LFGN. La primera se refería a
limn→∞ Pr∣S nn −p∣=1 , pero:
∣S nn − p∣≤ maxm≥ n∣S mm −p∣ (3.31)
por lo tanto si alguna función cumple (3.34) cumplira con LDGN, es decir,
xn
a.s. x⇒ xn
p x .
A. Kolmogorov reemplaza la condición de Markov sobre las varianzas
V S n =
1
n2
∑
i=1
n
i
2→0 cuando n→∞ con una condición más fuerte:
∑
k=1
∞ 1
k 2
V x k ∞ (3.32)
12 “Les probabilités dénombrables et leurs applications arithmétiques”, reprinted as Note V in E. Borel,
Leçons sur la Theorie de Fonctions, Gauthiers-Villars (1914), 182-216. En 1928, A.Y. Kintchine popularizó el
término Ley Fuerte de los Grandes Números para distinguirlos de los teoremas a la Bernouilli basados
en convergencia en probabilidad (“Sur la loi forte de grand nombres”, Comptes Rendus de lÁcadémie de
Sciences, 186, p286, 1929).
3.19
lo que le permite probar la LFGN para el caso en que las variables son simplemente
aleatorias.
Teo. de Kolmogorov 2. Sea {xn} una secuencia de variables aleatorias independientes tales
que existe E x i y V xi y se satisface la condición anterior,
entonces:
Prlimn→∞ 1n∑i=1
n
[ x i−E x i]=0=1 (3.33)
Este teorema se prueba igual que la LDGN, con la salvedad que en vez de usar la
desigualdad de Chebyshev se usa la desigualdad de Kolmogorov: Sean x1 , x2 , , xn
variables aleatorias independientes tales que V x i = i
2∞ ∀ i , entonces para
cualquier 0 :
Pr max l ≤ k≤ n∣Sk−E S k∣≥ =
1
2
∑
i=1
n
i
2 (3.34)
Más aún, si la secuencia x es i.i.d. tales que Ex i ∞ , entonces:
∑
k=1
∞ Var X k
k2
=∑
k=1
∞ 1
k 2
∫
−∞
∞
x 2 f x dx (3.35)
lo que señala que, para tal caso, la existencia de la esperanza es una condición necesaria
y suficiente para que se obtenga la LFGN.
Hemos visto algunas de las condiciones necesarias para la LDGN y LFGN. ¿Qué
es lo que realmente se necesita? Para la LDGN se necesita la condición de Markov y para
la LFGN se necesita la condición de Kolmogorov y ambas se refieren a que se debe
restringir la V Sn para que no crezca más rápido que n2.13
La nomenclatura típica es V Sn=O n , donde O(.) significa orden de
probabilidad. Orden de probabilidad es un concepto útil que viene en dos sabores: O(n)
y o(n). Suponga que existen dos secuencias de números reales, a y b. La notación
a n=O b n corresponde a “a es al menos del orden de bn”, en tanto que a n=o b n
corresponde a “a es de un orden menor a bn”. Formalmente,
13 Las series de tiempo integradas, que son la mayoría en macroeconomía, no cumplen esta restricción.
3.20
a n=O bn cuando n→∞ si lima →∞
∣a n∣
b n
K y K0
a n=o b n cuando n→∞ si lima →∞∣a n∣bn =0
(3.36)
por ejemplo, 12n²−4=O 1n² y 2n 2−4=On2 =on3 .
3.09 Propiedades de los distintos tipos de convergencia
Algunas propiedades interesantes y útiles de los distintos tipos de convergencias
son:
1. Teorema de Slutsky: plim g xn=g plim x n .
2. Teorema de mapeo continuo: Sea x i un vector de variables aleatorias y sea
g ⋅ una función real continua en el vector fijo . Entonces,
x i
p
⇒g x i
p g .
3. Si g xn es cóncava, se cumple la desigualdad de Jensen: g E [ xn]≥E [ g xn] .
Esta desigualdad es crucial cuando se desea hacer predicciones.
4. Si xn e yn son variables aleatorias con plim xn=a y plim yn=b entonces:
plim xn yn=ab
plim xn yn=ab
plim xn / yn=a/b si b≠0
5. Si xn
d x y plim yn=c , entonces xn yn
d cx
6. Si xn
d x y g xn es continua, entonces g xn
d g x
7. Si la distribución límite de xn existe y plim xn− yn=0 , entonces yn tiene la
misma distribución límite de xn .
3.21
3.10 Teoremas de límite central
Queremos describir las propiedades de un estimador de cuando la
distribución de es desconocida. Saber que es insesgado, consistente, o que
converge en probabilidad a es poco útil. Si plim = , entonces toda la densidad
colapsa a un punto y no es posible hacer inferencias. Tampoco sabemos qué pasa antes
que n→∞ .
Sin embargo, si plim = , entonces podría existir una función tal que:
Y n=n −
d
f y (3.37)
donde f y es una distribución con media y varianza finitas. Ello nos permitiría hacer
inferencias estadísticas sobre el estimador de . Esa es la lógica de los teoremas de
límite central.
Antes de llegar ahí, consideremos que, al igual que en el caso de las leyes de
grandes números, no resulta difícil demostrar que el supuesto 2 (distribución binomial)
no es necesario para el teorema de de Moivre y Laplace. Note que la contribución de
estos matemáticos fue descubrir la distribución límite para la distancia entre Sn y
ESn ajustando por la desviación estándar. Para ello usaron la distribución binomial,
pero vamos a ver que es innecesario limitarse a la binomial, bastando imponer
adecuadamente restricciones en algunos de los momentos de la distribución de
probabilidades.
Sea {x n : n ≥1} una secuencia de variables aleatorias con Sn=∑x i. Los teoremas
de límite central estudian la expresión en el límite de:
Y n=
Sn−ESn
V S n
(3.38)
es decir, una versión normalizada de Sn−E Sn que fue lo que estudiamos en LDGN y
LFGN.
3.22
Teorema de Límite Central de Lindeberg-Levy14
Sea {x n : n ≥1} una secuencia de variables aleatorias extraída de cualquier f.d.p.
con media finita y varianza finita 2 , y si x n=
1
n∑ x i , entonces
n x n−
d
N [0,2 ] (3.39)
alternativamente podemos escribir:
limn →∞ F n x =lim n→∞ P xn ≤x =∫
−∞
x 1
2
e
−1
2 u
2
du (3.41)
Es importante notar que el teorema se aplica a variables aleatorias de cualquier
función de distribución y que sólo se aplica a Sn cuando la media existe y si la varianza
es finita.
Prueba: Usamos la función característica. Sea x i t =E [e
itx ] la función característica
de xi, una variable aleatoria que se distribuye con media cero y varianza finita.
Entonces queremos encontrar la función característica de Sn /n que es
t =[ t n ]
n
. Use la expansión x i/n t =1
it
n
−
t 2
2 ! n
2o1 /n y
recuerde que =0 , para obtener [ t n ]=1−
2 t 2
2n o
1
n . Aplicando
logaritmo se obtiene log∑X i /n t =n log1− t 22 ! n 2o1 /n . Pero si
n∞ , se puede aproximar log 1z ≈z por lo tanto se deduce que
log∑X i /n t =−t 22 ! 2o 1 /n . Finalmente, tomando límite cuando
n∞ obtenemos limn∞ log∑X i /n t =
−t 2 2
2
. Por ello,
limn∞ n t =e
−2t 2
2 es decir, la distribución de la suma normalizada es
asintóticamente normal. Es decir x i
d
N 0,2 .▄
14 Lindeberg, J. W. "Eine neue Herleitung des Exponentialgesetzes in der Wahrschienlichkeitsrechnung."
Mathematische Zametki, 15:211-225 (1922) y W. Feller "Über den zentralen Genzwertsatz der
Wahrscheinlichkeitsrechnung." Mathematische Zametki, 40:521-559 (1935)
3.23
Note que cuando normalizamos Sn por n obtuvimos convergencia en
probabilidad, en cambio cuando normalizamos por n obtuvimos convergencia en
distribución. La razón es que la varianza de Sn crece a n , por lo que si normalizamos
por n ésta se va a cero cuando n∞ .
Teorema de Límite Central de Lindeberg-Feller con distintas varianzas15
Este teorema, menos restrictivo que el anterior y señala: Sea {x n : n ≥1} una
secuencia de variables aleatorias extraída de un conjunto de funciones de distribución
{F n , n≥ 1} cada una de ellas con media finita i y varianza finita i
2 . Las siguientes
relaciones son ciertas:
A. lim n→∞ max1≤ i≤ n i n =0 donde =∑i=1
n
i
2
B. limn→∞ Fn y=lim n→∞ P Y n≤ y=∫
−∞
y 1
2
e
−1
2 u
2
du
si y solo si:
lim n→∞ 1n2∑i=1
n
∫
∣x−i∣≥ i
x−i
2dF ix =0 (3.42)
Aunque parece difícil, la interpretación del teorema es intuitiva. La relación (B)
señala que la distribución límite es una normal. La relación (A) señala simplemente que
ningún i
2 domina a n
2 y se deriva de la ecuación (3.41).
Podemos escribir el paréntesis del límite en (3.42) como:
1
n
2∑
i=1
n
∫
∣x−i∣≥ i
x−i
2dF i x ≥
2∑
i=1
n
Pr ∣x−i∣≥ ci
≥2max1≤ i≤ nPr ∣x−i∣≥ i
(3.43)
15 A. Lyapounov (1901) sugirió el siguiente teorema que, por ser más restrictivo, fue superado por el
teorema de Lindeberg-Feller. Sea {X n : n ≥1} una secuencia de variables aleatorias independientes con
E X i = y V X i = i∞ ∀ i y E ∣X i2∣∞ , 0 . Se define c n = ∑i i
2
, entonces si
limn→∞
1
c n
2∑
i=1
n
E∣X i − ∣
2= 0 , se cumple que limn→∞ F n y =∫
−∞
∞ 1
2
e
−1
2 u
2
du . Note que se
requiere que los momentos de orden superior sean finitos.
3.24
es decir, que ninguna de las variables aleatorias domine la secuencia de sumas, o sea,
que cada
x i−i
i
es suficientemente pequeño en relación con la suma [S n−E S n]/ n
cuando n→∞ . Así, el TCL se refiere a los efectos sobre la distribución de una suma de
variables aleatorias que individualmente no tienen efecto alguno sobre el
comportamiento de la suma.
Una manera más simple de escribir el resultado anterior es:
n xn−n
d N [0, 2] (3.44)
Es decir, sumas de variables aleatorias tienden a distribuirse como normales,
independientemente de las funciones de probabilidades que las generaron. Casi todos
los estimadores están basados de una u otra forma en sumas de variables aleatorias.
Teorema de Límite Central de Lindeberg-Levy Multivariado
Si x1 , x2 , , xn es una muestra de vectores aleatorios extraída de una función de
distribución multivariada con medias finitas y matriz de varianzas y covarianzas
finita y positiva definida Q , entonces
n xn−
d N [0,Q ] (3.45)
Teorema de Límite Central de Lindeberg-Feller multivariado
Sea x1 , x2 , , xn una muestra aleatoria extraída de un conjunto de vectores
aleatorios, tales que E [ x i ]=i , V [ x i]=Q y los terceros momentos son finitos. Sea
n=1/ n∑ i y Qn=1/n∑Qi . Si limn →∞ Qn=Q y limn →∞ nQ n−1Qi=0 , entonces:
n xn−n
d N [0, Q ] (3.46)
Los teoremas anteriores –que se pueden extender para conjuntos de funciones
usando Jacobianos– pueden ser sintetizados como:
● La ley débil de grandes números LDGN se refiere a S n/n
p p .
● La ley fuerte de grandes números LFGN se refiere a S n/n
a.s. p .
● El teorema del límite central se refiere a S n/n
d N p ,Var Sn/n .
3.25
Resulta difícil intuir lo que señalan estos teoremas de convergenciaa una
distribución normal. En particular, por cuanto en el análisis se mezclan dos conceptos.
Por un lado, el tamaño de muestra. Por otro lado, el número de veces que se repite el
experimento. Una manera fácil de ver el rol de cada elemento se presenta en la Figura
3.3. El experimento consiste en generar una muestra de T datos de una distribución
uniforme definida en el intervalo [0,1] y luego computar la media muestral, z. El
experimento se repite en condiciones idénticas llamadas réplicas.
En los paneles superiores se presentan los resultados del experimento para 50
réplicas en tanto que en los paneles inferiores, se presentan los resultados para 1.000
réplicas. En los paneles de la izquierda se hace el experimento con un tamaño de
muestra 100, en tanto que en los de la derecha el tamaño de muestra es 1,000. Como
resulta evidente, la distribución de la media muestral se aproxima a una normal cuando
el experimento se replica un número grande de veces, independiente del tamaño de muestra.
Figura 3.3
Tamaño de Muestra 100, Réplicas = 50 Tamaño de Muestra 1000, Réplica = 50
Tamaño de Muestra 100, Réplicas = 1000 Tamaño de Muestra 1000, Réplicas = 1000
3.26
3.11 Distribución asintótica
Frecuentemente vamos a usar el concepto de distribución asintótica, es decir,
aquella distribución que se usa para aproximar la verdadera distribución muestral de
alguna variable aleatoria. Tomemos un estimador de , la distribución asintótica de
se obtiene de:
n −d N [0,V ] (3.47)
implica
d N [ ,V /n ] (3.51)
es decir, se distribuye asintóticamente normal, con media y matriz de covarianza
asintótica 1/nV (ver Figura 3.4).
Figura 3.4
Distribución asintótica
Distribución exacta
3.27
3.12 Estimación asintóticamente eficiente (máximo verosímil)16
Ya hemos visto el concepto de la función de verosimilitud. Ahora, la usaremos
para derivar un estimador crucial en econometría y, además, para entender lo que hace
cada tipo de test. En términos genéricos, la función de verosimilitud de una muestra x de
variables aleatorias i.i.d. se puede escribir como:
ℒ | x i=∏
i=1
n
f x i , (3.48)
Note que escribimos ℒ ∣ x para designar que la función se construye a partir
de las realizaciones de una muestra x y que es condicional a ésta.
Lo que hace el estimador es buscar aquel que hace máxima la función de
verosimilitud, es decir, la probabilidad que los datos vengan de la distribución f(.).
Existen varias formas de maximizar ℒ ∣ x , pero casi siempre se utiliza una
transformación que maximiza logℒ ∣ x ,
logℒ | x=∑
i=1
n
log f x i , (3.49)
ya que es más simple. El procedimiento es legítimo porque la función logaritmo es una
transformación monótona.
Analíticamente el estimador de máxima verosimilitud será aquel que cumpla:
∂L | x
∂
=0 (3.50)
Cuando la función de verosimilitud es analíticamente diferenciable, se puede
obtener una expresión cerrada para (3.50), pero ello no es siempre posible. Por ejemplo,
considere f ∣ x=1 / con 0≤ x≤ . Cuando la ecuación (3.50) no tiene forma
cerrada, es necesario resolver el problema usando cálculo numérico, como se describe en
el capítulo 6.
16 Aunque la noción de función de verosimilitud es muy antigua, el método de estimar parámetros
maximizando la función de verosimilitud fue desarrollada y popularizada en el artículo de J. Neyman y
E. S. Pearson, "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference.
Part I" (Biometrika, 20 A, 175-240, 1928).
3.28
No obstante, cuatro condiciones de regularidad resultan necesarias para que el
estimador sea válido:
● El conjunto A={x : f x ,≥ 0} no depende de .
● Para todo ∈ , las derivadas
∂i f x i ,
∂i
existen (i=1,2,3).
● 0≤ E[ ∂ logL x i ;∂ ]
2
≤∞ .
● ∣∂i log Lx i ;∂i ∣≤ hi x ∀ , donde ∫−∞
∞
hi xdx∞ i=1,2 y
∫
−∞
∞
hi x dxK i2 y K no es función de .
De estos supuestos se derivan algunos resultados de gran utilidad. Primero, note
que la función de verosimilitud es una densidad, por lo que se cumple:
∫
−∞
∞
∫
−∞
∞
∫
−∞
∞
L x1 , , xn ;dx1dx2=1 (3.51)
simplificando la notación pero sin pérdida de generalidad, denotamos la ecuación (3.47)
por ∫
−∞
∞
L xi ;dxi=1 . Derivando esta ecuación con respecto a , obtenemos:
∂
∂∫−∞
∞
L x i ;dx i=0 (3.52)
Las condiciones de regularidad aseguran que se cumple la condición de
diferenciación bajo el signo de la integral,17 es decir,
∫
−∞
∞ ∂L x i ;
∂
dx i=0 (3.53)
17 Este resultado se deriva del siguiente teorema de Leibniz, para el caso en que los límites de integración
no dependen de y, por lo tanto, los segundos dos términos son cero:
∂ ∫
L
U
F x ; dx
∂
=
∫
L
U
∂ F x ;
∂
F U
∂U
∂
−F L
∂ L
∂
3.29
multiplicando y dividiendo por L x i ; tenemos:
∫
−∞
∞ ∂L x i ;
∂
Lxi ;
Lxi ;
dx i=0 (3.54)
pero
∂ f x
∂ x
1
f x
=
∂ log f x
∂ x . Entonces:
∫
−∞
∞ ∂ log L x i ;
∂
L x i ;dx i=0 (3.55)
lo que implica E [ ∂ log L x1 , , xn ;∂ ]=0 .
Un segundo resultado útil se obtiene al derivar (3.55) con respecto a :
∂
∂∫−∞
∞ ∂ log Lx i ;
∂
L xi ;dxi=0 (3.56)
usando el teorema de Leibniz
∫
−∞
∞ ∂2log L x i ;
∂ ' ∂
L x i ;dx i∫
−∞
∞ ∂log L x i ;
∂
∂ Lx i ;
∂
dx i=0 (3.57)
es decir
∫
−∞
∞ ∂2log L x i ;
∂ ' ∂
L x i ;dx i∫
−∞
∞ ∂ log L xi ;
∂
∂ logL x i ;
∂
Lx i ;dx i=0 (3.58)
por lo que obtenemos:
E [ ∂2log L x t ;∂ ' ∂ ]Var [ ∂ log Lx i ;∂ ]=0 (3.59)
de donde se desprende
V [ ∂ logL x i ;∂ ]=−E [ ∂
2log L x t ;
∂ ' ∂ ] (3.60)
El término de la derecha de la ecuación (3.60) es llamado número informacional
de Fisher.
3.30
Un tercer resultado importante se deriva de suponer la existencia de un
estadístico x y ocupar la ecuación (3.51) tal que
∫
−∞
∞
x Lx t ;dx=E x (3.61)
Diferenciando la ecuación (3.61) con respecto a tenemos:
∫
−∞
∞
x
∂ L xt ;
∂
dx=∂E x
∂
(3.62)
multiplicando y dividiendo por L x , y recordando la derivada del logaritmo se
tiene
∫
−∞
∞
x ∂ log Lx ;
∂
Lx ;dx=E[x ∂ logL x ,∂ ]=∂ E x ∂ (3.63)
Note que por definición Cov x1, x2=E x1 x2−E x1E x2 . Considere,
además, que
∂L x i ;
∂
=0 . Entonces:
Cov∂ log L x ;∂ ,x =∂ E x ∂ (3.64)
Aplicamos ahora la desigualdad Cauchy-Schwartz:
∣Cov x1 , x2∣[V x1V x2 ]
½ y obtenemos:
∣∂E x ∂ ∣≤[V xV ∂ log L x ,∂ ]
½
(3.65)
pero V ∂ log L x ,∂ es el número informacional. Luego:
[ ∂E x ∂ ]
2
≤ V x I (3.66)
3.31
finalmente:
V x ≥ [∂ E x /∂ ]
2
I n
(3.67)
Es decir, cualquier estadístico de la muestra tendrá una varianza mayor o igual a
la expresión del lado derecho que es conocida como el límite de Cramer-Rao.
Corolario: Var x ≥
1
I n
.
En conclusión, asintóticamente este estimador tiene cuatro propiedades que lo
hacen formidable:
1. Consistencia:18 plim MV=
2. Normalidad asintótica: MV
d N [ ,[ I ]−1 ] donde I =−E [∂2 log L∂ ' ∂ ] .
3. Eficiencia Asintótica: MV es asintóticamente eficiente y alcanza Cramer-
Rao.
4. Invarianza: si =g entonces g MV es el estimador
máximo verosímil de γ.
Este estimador se puede extender al caso que las variables aleatorias no son
idénticamente distribuidas de manera directa, excepto que n I ≠ I n .
18 El concepto de consistencia fue desarrollado por R. A. Fisher en "On the Mathematical Foundations of
Theoretical Statistics", (Phil. Trans. R. Soc. 1922).
3.32
3.13 Test de hipótesis19
Supongamos que existe una variable aleatoria definida en el espacio de
probabilidades (S, , P(.) ) y consideremosel modelo estadístico asociado:ℱ
• ={ f x; ,∈}
• x={x1 , x 2 , , xn}
El test de hipótesis consiste en decidir si una conjetura sobre del tipo
∈0⊆ es congruente con la(s) realización(es) de la muestra x. Dicha conjetura –que
envuelve un pre/juicio– es llamada hipótesis nula20 y se denota usualmente por
H 0:∈0 .
Para refutar o no refutar la conjetura a partir de una realización de la muestra,
necesitamos un criterio C, tal que si x∈C , entonces no se rechaza la hipótesis nula y si
x∉C se rechaza. El test de hipótesis es de manera más precisa un estadístico τ(x): X
→ . Con algún grado de incertidumbre podremos rechazar o no la presunción queℝ
nuestro prejuicio sea correcto.
El procedimiento nos pide tener una hipótesis nula H 0 y una hipótesis
alternativa21 H 1 , las que en general deben ser mutuamente excluyentes. Como se
discute más adelante, es posible construir tests en que H 0 y H 1 no están “anidadas”,
es decir, no agotan el conjunto 0 . La hipótesis nula puede ser simple, si es
unidimensional, o compuesta, si no lo es.
19 El testeo de hipótesis es tan viejo como el estudio de probabilidades. Sin embargo el término “test de
hipótesis” es relativamente moderno y no es consensual. El libro de R. A. Fisher Statistical Methods for
Research Workers de 1925 parece ser el primero en usar un test de hipótesis, aunque bajo el nombre de
“test de significancia”. El término test de hipótesis fue acuñado por J. Neyman y E. S. Pearson en su
artículo "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part
I" (Biometrika, 20 A, 175-240, 1928).
20 Hipótesis nula aparece en el libro de 1935 de Fisher The Design of Experiments, donde señala: "[W]e may
speak of this hypothesis as the 'null hypothesis,' and it should be noted that the null hypothesis is never proved or
established, but is possibly disproved, in the course of experimentation." (p. 19). En el lenguaje de Neyman y
Pearson, la hipótesis nula corresponde a la “hipótesis probada”, que ellos denotaban por H 0 . Neyman
reclamó, con justicia, que el término hipótesis nula es vago y que "the original term 'hypothesis tested'
seems more descriptive" (First Course in Probability and Statistics, 1950, p. 259).
21 El término hipótesis alternativa se popularizó a raíz del trabajo de Neyman y Pearson’s "On the Problem
of the Most Efficient Tests of Statistical Hypotheses" (Philosophical Transactions of the Royal Society of
London. Series A, 231 (1933), pp. 289-337). En ese artículo también se definen términos tales como
hipótesis simple y compuesta, región crítica, error tipo I y tamaño del test.
3.33
Note que, puesto de esta forma, el test rechaza o no rechaza H 0 , pero no permite
“aceptar” la validez de una conjetura.22 Además, se rechaza o no se rechaza dado un
cierto nivel de probabilidad o confianza. Vale decir, cualquier conjetura puede ser
rechazada, basta con hacer el intervalo de confianza arbitrariamente grande o,
equivalentemente, haciendo C0 arbitrariamente pequeño.
Como la base del testeo es la realización particular de la muestra de variables
aleatorias, es posible cometer errores:
Tipo I: Pr x∉C0 ;∈= Rechazar H 0 cuando es verdadera
Tipo II: Pr x∈C0 ;∉= No rechazar H 0 cuando es falsa
En principio, nos gustaría hacer que =→0 , lo que no es posible con n finito.
Note que la distinta naturaleza de los errores lleva asociado dos distintos conceptos
útiles:
Tamaño del Test: es la probabilidad de cometer error tipo I, que usualmente
llamamos α. Tamaño es equivalente a nivel de significancia.
Poder del Test: es la probabilidad de que el test correctamente rechace H 0
cuando es falsa, es decir 1-β.
Algunas definiciones útiles asociadas a los tests son:
• Un test será más potente que otro si tiene más poder que otro para todo tamaño.
• Un test será insesgado si su poder es mayor o igual que su tamaño para todo .
• Un test será consistente si su poder tiende a 1 cuando n→∞ .
22 Neyman y Pearson (1928) hablan de aceptar y rechazar hipótesis. Fisher nunca usó el término “rechazo”
pero no tenía objeción a su uso, sin embargo se oponía vehementemente a “aceptar” una hipótesis.
3.34
3.14 Tres tests de hipótesis asintóticamente equivalentes
Hasta el momento hemos estudiado la función de verosimilitud y el estimador de
máxima verosimilitud. También hemos discutido la estructura de los tests de hipótesis.
A continuación describimos tres tests que son asintóticamente equivalentes –aunque
numéricamente pueden diferir– que son ampliamente usados en aplicaciones prácticas.
Test de Razones de Verosimilitud
Al maximizar la función de verosimilitud obtenemos MV y Lmax . Si el R
hipotético es estadísticamente igual a MV , entonces recalcular la función de
verosimilitud con R debiera producir un valor similar al computado usando MV . Por
ello el test estudia la distancia entre logℒ R | x y logℒ MV | x , para la cual se
conoce su distribución asintótica:
−2[ logℒ R | x−logℒ MV | x ]
d
2m (3.68)
donde m es el número de parámetros restringidos al imponer la hipótesis nula. Un
inconveniente de este test es que exige computar dos veces la función de verosimilitud,
cosa que es paulatinamente menos grave dada la creciente capacidad computacional.
Test de Wald23
A diferencia del caso anterior, el test de Wald se enfoca directamente en la
distancia entre el parámetro estimado y el prejuicio R , bajo la premisa que dicha
distancia no debiese ser estadísticamente significativa si el prejuicio es correcto. Note
que este es el test t al cuadrado. Entonces:
−R '∑
−1
−R↝
2m (3.69)
Multiplicador de Lagrange
Este test –llamado a veces efficient scores– parte de la base que cuando se obtiene
el estimador máximo verosímil de , la primera derivada es cero. Si la primera
23 “Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations Is
Large” Transactions of the American Mathematical Society, 54 (1943), 426-482.
3.35
derivada evaluada en R no difiere estadísticamente de cero, entonces la hipótesis nula
no es falsa.
LM=∣∂ LnL∂ ∣=R ' [ I R]−1∣∂ LnL∂ ∣ =R↝2m (3.70)
Un descripción gráfica de estos tres tipos de tests se presenta en la Figura 3.5
Figura 3.5
3.15 Tests de hipótesis no anidadas
En ocasiones sucede que el problema de interés no produce hipótesis anidadas.
Considere que existen dos modelos compitiendo por explicar el mismo conjunto de
observaciones del fenómeno (y):
Modelo 1: y=x Modelo 2: y=z (3.71)
Ln L
Ln LR
MVR
Ln L()
C()
Ln L()/
WaldLagrange
Razones
Verosimilitud
3.36
En este caso se requiere hacer un test de la forma:
H 0:Modelo 1 bien especificado
H 1:Modelo 2 bien especificado
(3.72)
Resulta evidente que las hipótesis nula y alternativa no están bien especificadas
(o anidadas) en el sentido que ellas no son mutuamente excluyentes. Se dice que el
modelo 1 y el modelo 2 son familias separadas dado que, para cualquier valor de β, el
primero no puede ser arbitrariamente aproximado por el segundo mediante un proceso
límite. Análogamente, para cualquier γ, el modelo 2 no puede ser aproximado
arbitrariamente por el modelo 1. La verificación de las hipótesis anteriores, por lo tanto,
no puede ser llevada a cabo mediante la teoría de Neyman-Pearson, debido a que ésta
requiere que los espacios paramétricos asociados de ambos modelos sean iguales
Davidson y McKinnon (1981) proponen el siguiente test.24 Sea el modelo:
y=x 1−z
=x 1−z donde =1− (3.73)
La idea del test es que si el Modelo 2 está bien especificado, =1 . En caso contrario, elModelo 1 está bien especificado y =0 . Davidson y McKinnon probaron que el
estadístico que permite verificar la restricción anterior se distribuye asintóticamente
normal si H 0 es cierta. El test puede ser extendido de manera análoga para modelos no
lineales.
Note, sin embargo, que si los modelos 1 y 2 comparten algunos regresores, el
modelo propuesto en la ecuaciones (3.73) no está identificado, es decir, el parámetro
no puede ser obtenido de manera independiente de los otros parámetros y, por lo tanto,
no se puede hacer el test.
Una manera de solucionar el problema anterior es realizar una regresión auxiliar
para obtener un estimador -por ejemplo, el de máxima verosimilitud o el de mínimos
cuadrados- y rehacer el test propuesto como:
y=x 1−z
=x y (3.74)
donde y=z z ' z −1z ' y .
24 El origen de la idea de hipótesis no anidadas se remonta al año 1962, con el trabajo desarrollado por D.
R. Cox “Further Results on the Test of Separate of Families of Hypotheses”, Journal of the Royal Statistical
Society B, 24:406-424 (1962), pero fue extendido por Davidson, R. y J. G. Mackinnon, “Several Test of
Model Specification in the Presence of Alternative Hypotheses”, Econometrica, 49:781-793 (1981).
3.37
Como se ve, el modelo de la ecuación (3.74) anida ambas hipótesis de una manera
un tanto artificial. El test es llamado J-test. En muestras pequeñas la estimación por
mínimos cuadrados ordinarios no es adecuada ya que E ≠0 , de forma que
obtendríamos estimaciones inconsistentes del estimador de . No obstante, en muestra
grandes, plim =0 .
Note que si el primer modelo es el correcto, tiende a cero y el test de la
hipótesis nula H 0:=0 se distribuye asintóticamente normal estándar. Por el
contrario, si el segundo modelo es el correcto, el estimador converge en probabilidad
a 1 y su desviación estándar tiende a cero, por lo que el test t tiende a infinito. Así, el test
siempre rechaza la hipótesis nula cuando ésta es falsa, porque el estadístico
eventualmente excederá cualquier crítico con probabilidad uno.
Evidentemente, se puede revertir el procedimiento y plantear el test inverso
haciendo:
y=x z 1−
= x z (3.75)
Típicamente se realizan los tests (3.74) y (3.75). Por ello existen cuatro resultados
posible.
● Se rechaza H 0 en (3.74)
● Se rechaza H 0 en (3.75)
● Se rechaza H 0 en (3.74) y en (3.75)
● No se rechaza H 0 en (3.74) y en (3.75)
El J-test se aplica cuando los modelos son lineales. Si los modelos son no lineales,
entonces se usa un test similar llamado P-test. Además, se ha supuesto que la variable
dependiente ha sido transformada de la misma manera en ambos modelos: McKinnon,
White y Davidson (1983) extienden el test para el caso en que las transformaciones
difieren entre modelos. La evidencia de Monte-Carlo señala que estos tests tienden a
sobre-rechazar un modelo correctamente especificado.
3.16 Criterios informacionales
Note que podemos re-interpretar el test de Davidson y McKinnon como un
problema de “selección de modelos”. Es decir, como un criterio que guíe la selección de
modelos. Existen, sin embargo, varios tipos de criterios. El criterio de mayor
popularidad es el R2 ajustado, es decir, una función del coeficiente de correlación
múltiple. El criterio es elegir aquel model con mayor R2 ajustado o, equivalentemente,
con la menor varianza residual. H. Theil (1957) prueba que en promedio se realiza la
3.38
selección correcta, siempre que (1) alguno de los modelos contendientes sea el
“verdadero modelo” y (2) las variables explicativas sean no estocásticas (i.e. fijas en
muestras repetidas). Ambas condiciones son difíciles de cumplir.25
Usualmente utilizamos criterios de información para seleccionar modelos,
escogiendo aquel modelo M 1 ,M 2 ,⋯, M k que tenga un menor valor numérico. Los
criterios de información tienen la forma
cnk =−2 ln Lnk /n k n/ n (3.76)
donde Lnk es la función de verosimilitud estimada usando k parámetros para una
muestra de tamaño n . Los diferentes criterios ocupan una distinta función de
penalización por el hecho que se use un mayor número de parámetros:
• El criterio de Akaike es n=2 26
• El criterio de Schwartz n=2 log n
• El criterio de Hannan-Quinn es n=2 log log n
Note que la penalización se vuelve progresivamente más estricta.
Una pregunta pertinente es cuáles son las propiedades de estos criterios cuando
los modelos están mal especificados. Obviamente, si se está comparando modelos, habrá
algunos de ellos que esten mal especificados. En tal caso, k≠k 0 donde k 0 es el número
correcto de parámetros. Hay, entonces, dos casos: modelos subparametrizados (es decir,
mal especificados) y sobreparametrizados (es decir, bien especificados pero con exceso
de regresores).
Caso en que el modelo está subparametrizado kk 0
Para estudiar la consistencia de los criterios, estudiamos su comportamiento
cuando la muestra se vuelve infinita, es decir plimn∞ cnk /n−cnk0/n . Resulta
evidente que si el modelo está subparametrizado:
plimn∞
1
n
log Lnk plimn∞
1
n
log Lnk 0 (3.77)
25 Theil, H. "Specification Errors and the Estimation of Economic Relations." Review of International
Statistical Institute, 25:41-51, (1957)
26 El criterio de Akaike se deriva como un estimador de la distancia en información Kullback-Leibler
K M =E log f y | x−log f y | x ,M entre la verdadera densidad y el modelo. Akaike, H. (1973):
“Information theory and an extension of the maximum likelihood principle.” In B. Petroc and F. Csake,
eds., Second International Symposium on Information Theory.
3.39
Además, es directo demostrar que limn∞ n/n=0 en cualquiera de los
criterios.27 Entonces:
limn∞ P[ cnk 0n ≥ cn k n ]=limn∞ P[−2 log Ln k 0k 0n n ≥−2 log Ln k knn ]
=limn∞ P [ log Ln k0 −log Lnk n 0.5 k 0−k nn ]
=0
(3.78)
lo que indica que los tres criterios son consistentes.
Caso en que que el modelo está sobreparametrizado kk 0
En este caso, la prueba anterior de consistencia no es válida porque ambos
modelos están bien especificados (las funciones de verosimilitud tienen el mismo
máximo). Considere, sin embargo, el siguiente test de razones de verosimilitud:
2 [ log Lnk − log Ln k 0]
d X k− k0k−k0
2 (3.79)
reemplazamos la definición del criterio de Akaike para obtener:
n [cnk0−cn k ]=2 [ log Lnk −log Lnk 0]−2 k−k0
d
k− k0
2 −2k−k 0
(3.80)
por lo tanto,
limn∞ P [cnk 0cnk ]=P [ X k−k02k−k 0]0 (3.81)
Así, el criterio de Akaike va a sobre-estimar asintóticamente el número correcto
de parámetros.
En los casos de Hannan-Quinn y Schwarz, limn∞ n=∞ , lo que indica que
para ambos
plimn∞
−2[ log Lnk 0−log Lnk ]
n
=0 (3.82)
27 De hecho cualquier funcion n que crezca mas lento que n sirve.
3.40
por lo que
plimn∞
n cnk 0−cnk
n
= plimn∞
−2 [log Lnk 0−log cn k ]
n
k 0−k≤−1
(3.83)
así,
lim n∞ P [cnk0≥cnk ]=0 (3.84)
esto, a su vez, implica que limn∞ P [kk 0]=0 o limn∞ P [k=k 0]=1 , por lo que
ambos criterios son consistentes.
3.41
Apéndice A: Ejercicios
1. Suponga que n − converge en distribución a una normal estándar. ¿A qué
distribución converge ? ¿ plim = ? Si la muestra crece hasta tener el tamaño de la
población ¿cual es la distribución de ?
2. Suponga que es multivariado y que n − converge en distribución a
N 0, Z . Suponga que Ud. está en realidad interesado en una transformación continua
del estimador f =log . ¿A qué distribuciónconverge f ?
3. Suponga que tiene dos parámetros estimados independientemente que son
insesgados 1 y2 con sus respectivas varianzas 1 y2 . ¿Qué combinación lineal
de ambos parámetros =F 1 ,2 es el estimador insesgado de varianza mínima de
?
4. Explique en qué consisten y cuáles son las diferencias entre el teorema de
Linberg-Levy y el de Lindberg-Feller para estimadores multivariados. Refiérase a los
supuestos y las restricciones impuestas sobre los momentos de la distribución.
5. Cuando un estimador “convergencia en probabilidad” necesariamente debe
“converger en distribución”. Comente.
6. Demuestre que si xn
m x⇒ xn
p x y que si xn
p x⇒ xn
d x .
7. Para el Teorema Central del Límite, una condición indispensable es que ninguna
variable aleatoria de la secuencia que se está considerando domine a toda la secuencia
de variables aleatorias. Comente.
8. ¿Qué es el poder de un test? ¿Qué es el tamaño de un test? ¿Cuándo un test es
más poderoso que otro? y ¿cuándo es consistente?
9. Explique porqué se habla que la función de verosimilitud es una densidad y
describa a qué corresponde el estimador de máxima verosimilitud. ¿Es el estimador de
máxima verosimilitud es mucho más preciso que cualquier otro estimador lineal?
10. Sea una muestra de n observaciones de yn ¿Para cuales de las siguientes
distribuciones es posible derivar analíticamente el estimador de máxima verosimilitud?
Encuentre el estimador de máxima verosimilitud, demuestre que éste es un máximo y
obtenga la varianza asintótica.
f y = e
−y
!
f y = y−1 e− y
y0 ,0
3.42
12. Usted tiene dos secuencias: {xn} e {yn} definidas en el soporte [−∞ ,∞ ] .
Considere las siguientes afirmaciones:
A Cuando n→∞ , xn converge en probabilidad a la variable aleatoria Z
que se distribuye F z . .
B Cuando n→∞ , xn− yn converge en probabilidad a cero.
C xn converge en distribución a F z . .
D yn converge en distribución a F z . .
Comente si las siguientes afirmaciones son verdaderas o falsas. Si son
verdaderas, demuestre. Si son falsas, de un contraejemplo.
1. (A) (B)⇒
2. (C) (A)⇒
3. (C) + (D) (B)⇒
4. (A) + (B) (D)⇒
13. Cuando se hace un muestreo usando una distribución normal N 0,2
frecuentemente se usa el siguiente estimador insesgado de la varianza
2=
∑
i=1
n
xi−E x
2
n−1
.
(a) Demuestre que la varianza de este estimador es Var [ 2]= 2
4
n−1
.
(b) Considere el siguiente estimador alternativo: 2=1
n∑i=1
n
x i
2 .
(c) Demuestre que el estimador 2 es sesgado pero tiene menor varianza que 2 .
(Ayuda: exprese 2 en función de 2 .
15. El estimador de máxima verosimilitud es usualmente derivado a partir de una
muestra de variables (vectores) aleatorias i.i.d. Bajo estas condiciones el estimador posee
cuatro características:
(a) Identifique esas cuatro características y explique su importancia.
(b) Suponga que las variables aleatorias de la muestra no se distribuyen
idénticamente pero sí independientemente. Plantee la función de verosimilitud y
3.43
obtenga un estimador máximo verosímil en este caso. ¿Cuáles de las cuatro
características se mantienen?
(c) Suponga ahora que la muestra no se distribuye independientemente ni
idénticamente. ¿Cuáles de las cuatro características se mantienen?
16. Se desea estudiar el poder del test t
−
Var para el siguiente caso. Suponga
que el proceso generador de los datos es y i=i donde iN 0, i .
(a) Obtenga un estimador insesgado de θ.
(b) Identifique el problema analítico del test t en este caso.
(c) Construya un programa de Gauss que le permita determinar el poder del test. El
programa debe ser flexible en (i) número de replicaciones, (ii) tamaño de
muestra, (iii) tamaño del test (nivel de significancia)
Capítulo 3
Elementos de Inferencia Estadística
3.01 Modelo probabilístico, modelo muestral y modelo estadístico
3.02 Estadísticos muestrales
3.03 Distribución de la media muestral
3.04 Características deseables de los estimadores en muestra finita
3.05 Límite de Cramer-Rao3
3.06 Elementos de teoría asintótica: convergencia
3.07 Elementos de teoría asintótica: leyes débiles de grandes números
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números
3.09 Propiedades de los distintos tipos de convergencia
3.10 Teoremas de límite central
3.11 Distribución asintótica
3.12 Estimación asintóticamente eficiente (máximo verosímil)16
3.13 Test de hipótesis19
3.14 Tres tests de hipótesis asintóticamente equivalentes
3.15 Tests de hipótesis no anidadas
3.16 Criterios informacionales
Apéndice A: Ejercicios