Logo Passei Direto

Herramientas de estudio

Material
¡Estudia con miles de materiales!

Vista previa del material en texto

Versión impresa ISSN: 0716-7334 
Versión electrónica ISSN: 0717-7593 
 
 
PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE 
INSTITUTO DE ECONOMÍA 
 
Oficina de Publicaciones 
Casilla 76, Correo 17, Santiago 
www.economia.puc.cl 
 
 
 
 
 
 
NOTAS DE CLASES 
TEORÍA ECONOMÉTRICA 
 
 Raimundo Soto* 
 
 
 Trabajo Docente Nº 78 
 
 
 
 
 
 
 
 
 
 
Santiago, Mayo 2010 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
* rsoto@faceapuc.cl 
 
Indice
1. Introducción.....................................................................................................................................1.1
2. Teoría de Probabilidades................................................................................................................2.1
2.01 Noción de Probabilidad.................................................................................................2.2
2.02 Axiomatización de las Probabilidades.........................................................................2.3
2.03 Variables Aleatorias........................................................................................................2.8
2.04 Momentos de una Distribución.................................................................................2.14
2.05 Distribuciones Discretas de Uso Común.................................................................2.17
2.06 Distribuciones Continuas de Uso Común...............................................................2.19
2.07 Distribuciones Conjuntas............................................................................................2.22
2.08 Distribuciones Marginales...........................................................................................2.22
2.09 Distribuciones Condicionales.....................................................................................2.24
Apéndice A: Ejercicios..........................................................................................................2.26
3. Elementos de Inferencia Estadística...........................................................................................3.1
3.01 Modelo probabilístico, modelo muestral y modelo estadístico ...............................3.1
3.02 Estadísticos muestrales...................................................................................................3.5
3.03 Distribución de la media muestral................................................................................3.5
3.04 Características deseables de los estimadores en muestra finita................................3.6
3.05 Límite de Cramer-Rao.....................................................................................................3.8
3.06 Elementos de teoría asintótica: convergencia.............................................................3.9
3.07 Elementos de teoría asintótica: leyes débiles de grandes números.......................3.14
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números........................3.18
3.09 Propiedades de los distintos tipos de convergencia.................................................3.20
3.10 Teoremas del límite central..........................................................................................3.21
3.11 Distribución asintótica..................................................................................................3.26
3.12 Estimación asintóticamente eficiente (máximo verosímil).....................................3.27
3.13 Tests de hipótesis...........................................................................................................3.32
3.14 Tres tests de hipótesis asintóticamente equivalentes...............................................3.34
3.15 Test de hipótesis no anidadas......................................................................................3.35
3.16 Criterios informacionales..............................................................................................3.37
Apéndice A: Ejercicios..........................................................................................................3.41
4. Modelo Clásico de Regresión Lineal...........................................................................................4.1
4.01 Lógica del modelo de regresión.....................................................................................4.2
4.02 Análisis de los supuestos del modelo de regresión lineal..........................................4.2
4.03 Representación gráfica de la regresión lineal...............................................................4.7
4.04 Derivación del estimador de mínimos cuadrados......................................................4.8
4.05 Propiedades del estimador de mínimos cuadrados en muestra finita...................4.12
4.06 Tests de hipótesis en el modelo multivariado...........................................................4.16
4.07 Tests de hipótesis y modelo restringido.....................................................................4.21
4.08 Propiedades del estimador de mínimos cuadrados en muestra grande................4.23
4.09 Transformaciones de estimadores: el método Delta...............................................4.30
4.10 Predicción........................................................................................................................4.30
4.11 Método generalizado de momentos...........................................................................4.32
Apéndice A: Ejercicios.........................................................................................................4.40
Capítulo 5 Violación de los Supuestos del Modelo de Regresión Lineal
5.01 Problemas de Especificación I: Regresores Inadecuados.........................................5.2
5.02 Problemas de Especificación II: Cambio de Régimen..............................................5.6
5.03 Problemas de Especificación III: Datos erróneos..................................................5.13
5.04 Problemas de Especificación IV: Colinealidad........................................................5.20
5.05 Modelos de Varianza No Constante..........................................................................5.27
5.06 Heterocedasticidad........................................................................................................5.28
5.07 Correlación de residuos................................................................................................5.39
5.08 Variables instrumentales..............................................................................................5.45
Apéndice A: Ejercicios.........................................................................................................5.54
Capítulo 6: Modelos no lineales
6.01 Elementos de cálculo numérico....................................................................................6.1
6.02 Optimización no lineal....................................................................................................6.5
6.03 Estimación de mínimos cuadrados no lineales...........................................................6.9
6.04 Estimación de variables instrumentales no lineales.................................................6.12
6.05 No linealidad de la variable dependiente...................................................................6.13
6.06 Interpretación de los parámetros de un modelo no lineal......................................6.14
6.07 Tests de hipótesis...........................................................................................................6.14
Capítulo 7: Modelos con Datos de Panel.......................................................................................7.1
7.1 Modelo canónico de datos de panel...............................................................................7.3
7.2 Modelación con datos de panel....................................................................................7.167.3 Modelos de panel dinámicos.........................................................................................7.18
7.4 Tests de raíces unitarias en panel..................................................................................7.22
Capítulo 1
Introducción
“Without data all you are is just another person with an opinion” (Anónimo)
“Facts are stupid things” (Ronald Reagan, 1978).
Con frecuencia en el estudio de la economía -y de la econometría en particular– 
se comete el error de empezar con el análisis de “modelos económicos” sin definir 
previamente lo que se entiende por modelo y sin explicar por qué es importante 
construir dichos modelos. Sims (1996)1 señala que los avances en ciencias naturales –y en 
gran medida en economía— se refieren usualmente a descubrimientos sobre nuevos 
modos de comprimir datos con respecto a algún fenómeno con una mínima pérdida de 
información. Considere el siguiente ejemplo de la astronomía: Tycho Brahe (1546-1601) 
acumuló durante muchos años datos confiables sobre los movimientos de los planetas. 
Su asistente, Johannes Kepler (1571-1630), sin embargo, observó que podían ser 
modelados como elipses con el sol en uno de sus focos, logrando una notable 
compresión de información.2
Los modelos en economía, y en econometría en particular, buscan el mismo 
objetivo: transmitir información sobre las regularidades que caracterizan a la economía 
de modo eficiente (máxima compresión) y seguro (menor pérdida). Dichas 
regularidades –al igual que en las ciencias naturales– tienen nombres más bien 
pintorescos (p.e., “ley de oferta y demanda”, “propensión marginal a consumir”) pero 
poseen el atributo de generalidad que les hace particularmente útiles: cuando se 
menciona que un fenómeno queda razonablemente descrito por una ecuación de recta 
(es decir un modelo), el auditor instruido inmediatamente deduce las propiedades de 
dicho modelo y, a la vez, sabe que para cada situación específica en la que dicho 
fenómeno se verifique habrá una recta particular que le describe. Uno de los primeros y 
más famosos econometristas Francis Galton señaló que “The object of statistical science 
is to discover methods of condensing information concerning large groups of allied facts 
into brief and compendious expressions suitable for discussion” (Inquiries into Human 
Faculty and its Development, Macmillan: London,1883, pp.55). Otra manera de ver el rol 
de un modelo o teoría es provisto por S. Hawking “A theory is a good theory if it 
satisfies two requirements: it must accurately describe a large class of observations on 
the basis of a model that contains only a few arbitrary elements, and it must make 
definite predictions about the results of future observations” (A Brief History of Time, 
New York, 1988). Debiera añadirse que los modelos deben cumplir una restricción 
adicional, derivada de la célebre sentencia de William de Occam (1285-1349) “Essentia 
1 C. Sims, “Macroeconomics and Methodology”, Journal of Economic Perspectives, 10 (Winter): 105-120, 1996.
2 Desilusionado con la incapacidad del modelo de Ptolomeo (85-165) para describir la trayectoria de los 
planetas, Copernico enunció su teoría heliocéntrica en 1543 pero sin proveer soporte empírico alguno. La 
contribución de Brahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posible 
a Kepler la modelación del fenómeno. La superioridad del modelo de Kepler produjo fuerte agitación 
social pues la Iglesia la consideró «contraria a las Sagradas Escrituras». El 26 de febrero de 1615, el 
cardenal jesuita Bellarmino inició el juicio contra Galileo e incluyó los libros de Copernico De 
revolutionibus, Kepler Mysterium cosmographicum, y Galileo Discorsi en el Indice de Libros Prohibidos 
donde permanecieron hasta 1835.
1.2
non sunt multiplicanda praeter necessitatem”, es decir, que los elementos de un modelo 
no deben ser aumentados más allá de lo necesario. La simplicidad es un objetivo de la 
modelación.
Objetivamente, los economistas aún no somos capaces de desarrollar teorías que 
sean capaces de describir la enorme heterogeneidad de los fenómenos económicos. 
Recientemente, se ha desarrollado una línea de investigación sobre la pregunta de cuáles 
son las formas, causas, y consecuencias de las complejidad de los sistemas económicos. 
Rosser (2004)3 clasifica la complejidad que enfrenta un agente económico en tres áreas 
fundamentales. Primero, complejidad en la estructura dinámica –y posiblemente no 
lineal– de los fenómenos económicos, es decir, el hecho frecuente que una pequeña 
perturbación en un sistema económico tenga repercusiones y ramificaciones dinámicas 
en la economía de gran impacto (p.e., un cambio en un precio clave de la economía como 
la tasa de interés). Segundo, la complejidad lógica y computacional que enfrenta un 
agente económico al tomar una decisión cuando existe un gran número de mercados, 
oferentes y demandantes. En particular la noción de equilibrio de los modelos 
económicos es muy compleja: por ejemplo, un equilibrio Walrasiano le exige al agente 
económico la computación de un número enorme de precios relativos, el equilibrio de 
Nash exige una gran capacidad de análisis lógico para anticipar las reacciones de los 
otros jugadores frente a diferentes alternativas de decisión. Tercero, la complejidad en la 
aprehensión del fenómeno económico, es decir, el problema adicional al que el proceso 
de aprehender la realidad económica es, en sí, también muy complejo y no puede ser 
llevado a cabo sin costos excesivamente altos.
Al problema de la complejidad se le suman las restricciones que enfrenta el 
análisis económico en términos de información sobre los fenómenos de interés y sus 
causas. Tradicionalmente las ciencias naturales le han otorgado poco valor al análisis 
probabilístico de los fenómenos. Ello se debe a que muchos de dichos fenómenos pueden 
ser replicados en laboratorios bajo condiciones experimentales controladas. En la 
mayoría de los problemas económicos no resulta factible realizar un análisis 
experimental en circunstancias absolutamente controladas. Por ejemplo, no es posible 
pedirle a un grupo de individuos que vuelva a estudiar una carrera profesional para 
estimar cómo habría sido su perfil de ingreso en estas nuevas circunstancias. En este 
sentido, los economistas usamos los datos disponibles para inferir probabilísticamente la 
capacidad de una teoría para comprimir información pertinente sobre un determinado 
más fenómeno o la congruencia con la que lo hace. Algunas de las ramas de la física o la 
química han adoptado recientemente el esquema metodológico de la economía: por 
ejemplo, la astronomía no cuenta –salvo honrosas excepciones– con “muestras” de 
fenómenos de gravitación universal, sino con un fenómeno único.4 La física subatómica 
3 J. Barkley Rosser, Jr. (2004) “Epistemological Implications Of Economic Complexity”, mimeo, 
Department of Economics, James Madison University.
4 S. G. Djorgovski reporta que el volumen de observaciones disponibles en astronomía se dobla en 
aproximadamente cada año y medio. En cada noche, se produce aproximadamente 1 Terabyte de datos 
adicionales (equivalente a la colección completa de la biblioteca PUC). Ello exige una modelación 
probabilística de los datos. “Virtual Astronomy, Information Technology, and the New Scientific 
1.3
no puede observar directamente un fenómeno sino sus efectos, de los cuales debe inferir 
la validez de una hipótesis teórica. En ambos casos el análisis es frecuentemente 
probabilístico.
Es por estas razones –complejidad del fenómeno y restricciones de información– 
que la economía se basa en el desarrolloy análisis de modelos de comportamiento 
validados empíricamente mediante métodos cuantitativos, en especial, los métodos 
econométricos que se discuten en lo siguientes capítulos.5 La modelación econométrica 
propiamente tal comienza de manera significativa a principios del siglo XX con los 
trabajos de los fundadores de la disciplina (Galton, Pearson, Neyman, Fischer, Frisch, 
etc.) que desarrollaron la base estadística de gran parte de los tests básicos que se usan 
en la actualidad. Pero no fue si no hasta los años 1950 que se masificó el uso de modelos 
econométricos como base del análisis de políticas económicas y para la verificación de 
diversos postulados teóricos. El gran empuje de mediados del siglo XX proviene 
principalmente del desarrollo de un fundamento teórico sólido para la econometría en 
general y para los modelos econométricos de gran escala en particular. Estos últimos se 
beneficiaron de la aparición de bases de datos adecuadas (p.e., cuentas nacionales) y de 
una creciente capacidad de computación. El éxito de la econometría como base del 
análisis empírico es indudable. Ciertamente los modelos empíricos cometerán errores en 
la descripción de los fenómenos que nos interesa modelar; sin embargo, en este contexto 
se aplica la célebre frase del padre de la computación Charles Babbage (1791-1871) 
“Errors using inadequate data are much less than those using no data at all”.
El diseño de modelos analíticos y sus contrapartidas empíricas son, en realidad, 
dos caras de una más moneda: el modo como avanza nuestro conocimiento es mediante 
la continua contrastación de teoría y evidencia. En términos pedagógicos, sin embargo, 
en este libro nos ocuparemos principalmente de los modelos econométricos, los cuales 
serán desarrollados sobre la base de una serie de supuestos que nos permitirán derivar 
estimadores que cumplen con requisitos de calidad y los tests estadísticos asociados a 
dichos estimadores. Luego invalidaremos de manera paulatina dichos supuestos para 
estudiar qué efectos tiene una violación de uno o más supuestos sobre las características 
de dichos estimadores.
El capítulo 2 realiza una revisión de distintos elementos de probabilidades y 
desarrolla con algún detalle el enfoque axiomático de Kolmogorov (1933)6 que es la base 
de la estadística moderna. Este enfoque ofrece una formalización axiomática de la noción 
de probabilidad, cuyas ventajas radican en proveer una teoría completa (todas las 
Methodology”, en Computer Architectures for Machine Perception, eds. V. Di Gesu & D. Tegolo, IEEE press 
(2005).
5 The sciences do not try to explain, they hardly even try to interpret, they mainly make models. By a model is meant 
a mathematical construct which, with the addition of certain verbal interpretations, describes observed phenomena. 
The justification of such a mathematical construct is solely and precisely that it is expected to work . John von 
Neumann.
6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer 
eds. 1933.
1.4
proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma 
puede ser derivado de otros), y congruente. El objetivo es que el alumno tenga una 
sólida base de análisis probabilístico y, más importante aún, que pueda conectar los 
distintos componentes de la teoría de probabilidades con los componentes básicos del 
análisis econométrico: entre ellos, el experimento aleatorio, las funciones de distribución 
conjunta, condicional y marginal, y la noción de la independencia entre variables 
aleatorias. En particular, esta sección busca que el estudiante entienda cómo los 
econometristas enfrentan el problema de la complejidad del fenómeno que se desea 
modelar.
El capítulo 3 usa la estructura anterior para enfrentar el segundo problema del 
análisis econométrico: la limitación de información. La principal adición al modelo de 
probabilidades desarrollado en el capítulo 2 es la restricción derivada del uso de 
muestras estadísticas y la inevitable necesidad de usar métodos de inferencia estadística 
para emitir juicios informados respecto de alguna hipótesis. El capítulo busca que el 
alumno entienda cómo se transforma la incertidumbre respecto de más los resultados de 
un experimento aleatorio en incertidumbre sobre los parámetros que caracterizan dicho 
experimento, y cuáles son las ventajas y limitaciones de dicha transformación. 
Adicionalmente, se presenta la maquinaria de teoría asintótica que será fundamental en 
el análisis del modelo de regresión lineal del siguiente capítulo.
El capítulo 4 desarrolla el modelo de regresión lineal, que ha sido una de las 
principales herramientas de análisis empírico de los economistas en los últimos 100 años. 
Este modelo, al que usualmente se le acopla el método de mínimos cuadrados como 
técnica de parametrización, permite enfrentar un número muy grande de preguntas en 
economía. A la vez, es suficientemente flexible como para permitir que, en caso que no se 
cumplan alguno de los supuestos que le sustentan, se desarrollen estimadores 
alternativos simples y poderosos. Las propiedades de los estimadores de la familia de 
mínimos cuadrados deben ser estudiadas tanto en muestra pequeña (finita) como grande 
(infinita) para entender a cabalidad el papel de los supuestos del modelo. Igualmente, se 
debe estudiar las propiedades de los tests que se construyen a partir de dichos 
estimadores de mínimos cuadrados, para determinar más su aplicabilidad en 
circunstancias prácticas. Finalmente, la técnica de mínimos cuadrados no es la única 
forma de parametrizar un modelo. En el capítulo se estudian dos alternativas adicionales 
de gran aplicación práctica: el estimador de máxima verosimilitud y el método 
generalizado de momentos.
En el capítulo 5 se estudian los problemas derivados de la violación de los seis 
supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo 
anterior. La lógica de operar es directa: en primer lugar se estudia el efecto de la 
violación sobre los estimadores de mínimos cuadrados y los diferentes tipos de tests. En 
segundo lugar, propondremos, si es posible, alguna solución, examinando el contexto en 
el que dicha solución es válida. En tercer lugar, se discuten los síntomas que delatan la 
violación de un supuesto y se desarrollan test formales de detección. Por razones 
1.5
pedagógicas, en este capítulo se estudian los problemas de manera aislada, es decir, 
afectando un supuesto a la vez. 
El capítulo 6 extiende la tecnología anterior al área de los modelos no lineales. 
Esta es una literatura muy extensa y, posiblemente, aquella que se ha desarrollado con 
mayor interés en los últimos años como resultado del veloz desarrollo de la 
computación. La gran mayoría de los modelos no lineales se resuelven por medio de 
métodos de cálculo numérico debido a que no existen formas cerradas que permitan 
derivar expresiones matriciales simples para obtener los estimadores. En la primera 
parte de este capítulo se desarrolla el instrumental necesario para entender los métodos 
de optimización no lineal que se usan para la estimación de modelos no lineales. En la 
segunda parte se aplica dicho instrumental para derivar el estimador de mínimos 
cuadrados no lineales y los tests asociados.
El capítulo 7 presenta una introducción a los modelos de datos de panel. Estos 
métodos combinan observaciones de corte transversal con observaciones de series de 
tiempo. Así, nos permiten responder preguntas que no pueden ser respondidas por 
modelos de corte transversal o series de tiempo por separado, porque usan información 
sobre una cohorte donde hay N individuos heterogéneos a los que seles observa 
repetidamente durante un periodo de tiempo T. 
La literatura de la econometría se expande de manera vertiginosa. Por ello, no 
tiene sentido intentar incluir un gran número de modelos, tests, estimadores y 
algoritmos de solución. Inevitablemente aparecerán mejores modelos, tests más precisos 
y estimadores más atractivos. El objetivo del libro es proveer al estudiante de una base 
sólida para entender las nuevas contribuciones que la econometría nos ofrece.
Capítulo 2
Teoría de Probabilidades1
¿Por qué necesitamos estudiar teoría de probabilidades para analizar 
observaciones o datos de la realidad? ¿Por qué no nos contentamos con hacer 
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra 
de datos de un fenómeno de interés. Podemos hacer un gráfico de frecuencias empíricas 
de los datos y derivar información útil.
Figura 2.1
Inflación mensual en Chile, 1960-2005
Aunque el gráfico anterior describe adecuadamente la distribución de una 
muestra para la inflación mensual en Chile en el periodo 1960-2005, los estadísticos 
descriptivos están confinados a dicha muestra. Cualquier pregunta respecto de la 
población de la cual se derivó la muestra no puede ser discutida. La esencia del trabajo 
econométrico es, en este sentido, proveer resultados generales a partir de muestras cuya 
información es limitada.
La teoría de probabilidades provee un modelo matemático para la inferencia 
estadística que, al realizarse sobre una muestra de observaciones, permite estudiar 
fenómenos generales. Por eso, este capítulo repasa la principal teoría de probabilidades, 
en tanto que el siguiente revisa los fundamentos de la inferencia estadística clásica.
1 Probabilidad –documentado por primera vez en francés en 1387– viene del latín probabilis y significa 
“que puede ser probado”.
2.2
2.01 Noción de Probabilidad
El desarrollo de la noción de probabilidad procedió de manera intuitiva y 
asistemática hasta mediados del siglo 16. La siguiente definición de probabilidad –que 
como veremos más adelante es insuficiente– fue utilizada primero por Abraham De 
Moivre en 1718
2
 y formalizada por Pierre-Simón de Laplace en 1812
3
:
Def. 2.1: Si un experimento puede resultar en N resultados mutuamente 
excluyentes y equiprobables y si NA es uno de dichos resultados, entonces 
la probabilidad de A es:
P A =
N A
N
(2.1)
Esta definición tiene dos problemas bastante obvios. Primero, se requiere que el 
número de posibles resultados sea finito. Segundo, y más importante, al usarse el 
concepto de “equiprobable” la definición de Laplace adolece de circularidad.
Por ello se necesita una definición formal del concepto de probabilidad. Richard 
von Mises (1919) sintetiza una primera solución a los problemas anteriores, señalando 
que la noción de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede 
hablar de frecuencia empírica de los datos.4 Para que ésta sea de aplicación general, se 
requeriría:
limN → ∞
N A
N
=P  A (2.2)
Así, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es ½ 
porque “de dos posibles eventos, cara es uno de ellos” sino porque al repetir el 
experimento un número grande de veces se observa que cara sucede un 50% de los 
casos.
Las limitaciones del enfoque frecuentista son también obvias. Entre ellas, ¿qué 
significa “límite cuando N tiende a infinito”? ¿Cómo generamos secuencias infinitas de 
eventos? ¿Qué hacemos cuando no es posible generar secuencias arbitrarias de datos de 
un experimento?
2 "The probability of an Event is greater or less, according to the number of chances by which it may 
happen, compared with the whole number of chances by which it may either happen or fail." The 
Doctrine of Chances. 
3 Théorie Analytique de Probabilités. Laplace expresa de forma sencilla el significado del cálculo de 
probabilidades: "En el fondo, la teoría de probabilidades es sólo sentido común expresado con números".
4 “Grundlagen der Wahrscheinlichkeitsrechnung”, Zeitschrift für Angewandte Mathematik und Mechanik, 
5:52-99.
2.3
Lo que se necesita es una teoría de probabilidades con una sólida base 
matemática. Ella no estuvo disponible sino hasta los años 1930.
2.02 Axiomatización de las Probabilidades
El enfoque axiomático de probabilidades procede, naturalmente, de un conjunto 
de axiomas (verdades a priori) y ofrece una formalización matemática de la noción de 
probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la 
teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de 
otros), y congruente.
5
 El trabajo fundacional para la econometría clásica en esta área es el 
de Andrei Kolmogorov (1933).
6
 Existen otros trabajos fundacionales para la econometría 
Bayesiana.
7
El punto de partida es definir el experimento aleatorio,8 que describe de manera 
idealizada y simplista el mecanismo que genera los datos (usualmente llamado proceso 
generador de los datos, PGD). En particular:
Def. 2.2: Un experimento aleatorio, llamado , es un experimento que satisface:ℰ
I. Todos los posibles eventos resultantes son conocidos a-priori.
II. En cada realización particular, el resultado no es conocido a-priori.
III. Se puede repetir en idénticas condiciones.
Un problema con la condición I es que es difícil de formalizar. Kolmogorov 
sugiere utilizar el conjunto S que contiene todos los posibles resultados de un 
experimento definidos antes de empezar el experimento. Así,
5 Con frecuencia se traduce erróneamente la palabra “consistency” por “consistencia”. El término correcto 
es congruencia (del Latín, coincidir), aunque el uso popular es inexacto como pasa con otras palabras 
(p.e., sofisticado).
6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer 
eds. 1933.
7 R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961).
8 El término “aleatorio” se popularizó a raíz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo 
Aleae, 1657) sobre el cálculo de probabilidades en juegos de dados (aleae en latín). Aunque se considera 
que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano 
(Liber de Ludo Aleae, 1564) que está a mitad de camino entre manual de cómo apostar y libro de 
probabilidades. Huygens fue además un famoso astrónomo: descubrió la luna más grande de Saturno –
Titán– y sus anillos (en 1655) y la nebulosa de Orión (en 1656). 
2.4
Def. 2.3: El espacio muestral, llamado S, es el conjunto de todos los posibles 
resultados del experimento . Los elementos de ℰ S se llaman “eventos 
elementales”.
Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces 
tiene como espacio muestral: {CC ,CS , SC , SS } . Los elementos CC, CS, SC, SS son los 
eventos elementales.
Por otro lado, al examinar la condición II notamos que el evento de interés no 
tiene por qué ser únicamente referido a eventos elementales y podría ser una función de 
ellos. Por ejemplo, el evento “al menos una cara” define el conjunto A1={CC ,CS ,SC } , 
que no es un evento elemental.
En esta lógica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta 
natural incorporar los dos elementos clásicos de los conjuntos: el elemento vacío es en 
este contexto el evento imposible (denotado por ∅ ), en tanto que el mismo conjunto S es 
llamado el evento seguro.
Un tercer problema es la noción de incertidumbre implícita en la definición de .ℰ 
Es directo asociar probabilidad con evento elemental y, si sólo existieran éstos, no sería 
problema usar dicha asociación. La existencia de eventos no elementales complica el 
problemaporque si A1 es un evento que ocurre con P A1 , entonces A1=S−A1 
también ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos 
eventos, A1 y A2 , se deduce que A1∪A2 y A1∩A2 también ocurren. Entonces, 
habrá que imponer alguna estructura sobre dichas probabilidades con el fin que el 
modelo matemático sea congruente. 
Una alternativa sería usar el conjunto de todos los posibles Ai y todas sus 
combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de 
lanzar la moneda dos veces éste incluiría, aparte de los eventos elementales, eventos 
tales como “que salga al menos una cara”, “que no salgan dos sellos”, etc. Así, el 
conjunto potencia de este experimento es:
ℱ ={S ,∅ ,CS ,CC ,SC ,SS ,
 SC ,CS  , SC , CC  ,SC , SS  ,
 CS ,CC  ,CS ,SS  ,CC ,SS  ,
 CS , SC , CC  ,CS ,SC , SS ,CC ,SS , SC  , CC ,SS ,CS }
(2.3)
De esta manera incluiríamos en el espacio de los eventos, , todas las posiblesℱ 
alternativas. De hecho, no importa cómo combinemos los elementos de siempreℱ 
obtenemos un elemento de .ℱ
2.5
No obstante, cuando S es infinito es posible observar incongruencias (p.e., suma 
de probabilidades mayor que 1).
9
 Así, debemos definir independientemente de ℱ S o, lo 
que es lo mismo, debemos dotarlo de estructura matemática.
Def. 2.4: Sea un conjunto de sub-conjuntos de ℱ S. es un σ-álgebraℱ 10 si
• dado A∈ℱ entonces A∈ℱ (cerrado para el complemento)
• dado Ai i=1, 2, entonces Ui Ai ∈ ℱ (cerrado para uniones contables o 
enumerables)
Ambas propiedades juntas implican que: 
• S∈ℱ (porque A∪A=S )
• ∈ℱ (porque S=∈ℱ )
• Ai∈ℱ entonces Ui Ai∈ℱ 
Dicho de manera más simple, cualquier operación (unión o intersección) de 
elementos de produce un elemento de . Obviamente el conjunto potencia de ℱ ℱ S es un 
σ-álgebra. Un resultado fundamental para nuestro análisis posterior de convergencia es 
que un σ-álgebra contiene todos los límites de secuencias de eventos, en tanto que un 
álgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el σ-
álgebra es cerrado para uniones contables, en tanto que un álgebra es cerrado para 
uniones finitas solamente.
Hasta aquí hemos resuelto el problema de incongruencias al postular la 
existencia de un σ-álgebra asociado con un espacio muestral ℱ S (este par constituye un 
espacio medible). El último paso en la estrategia de Kolmogorov consiste en definir el 
concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensión de 
Constantin Caratheodory y la noción de medida de Henri Lebesgue
11
. Empezamos 
primero con el caso más simple, en el cual S es finito.
9 Ejemplo, S={A1 , A2 ,} tal que A1∩ A2=∅ ∀ i ≠ j y P Ai=a0 , entonces 
P S =∑
i=1
∞
P  Ai =∑
i=1
∞
a1 .
10 Algebra viene del título de un libro árabe –Hisab al jabr w‘al muqâbalah– escrito en 825 por Abu Ja'far 
Muhammad ibn Musa Al-Khwarizmi (de donde se deriva “algoritmo”). De acuerdo a In Khoálsat al-
Hisáh (Esencia de la Aritmética) escrito por Behá Eddin en 1600. Al-Jabr significa posiblemente “reunión 
de partes quebradas” (es decir, completación), en tanto que al-Muqâbalah significa “reducción o 
balanceo”. El título se refiere a las operaciones de suma y resta necesarias para mantener balanceada una 
ecuación y resolverla.
11 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes #7, American Mathematical Society, 2001.
2.6
Def. 2.5: Probabilidad es una función conjunto en que satisface los siguientesℱ 
axiomas:
• Axioma 1: P A ≥ 0 para todo A∈ℱ .
• Axioma 2: P S =1 .
• Axioma 3: P U Ai = P Ai  si {Ai} es una secuencia de eventos 
mutuamente excluyentes en (excluyentes significa que ℱ Ai∩A j= ∀ i ≠ j ).
Es decir, probabilidad es una “función conjunto” con dominio en y rango en elℱ 
intervalo [0, 1]: 
P · : ℱ [0, 1 ] (2.4)
La probabilidad es una medida en el sentido de Lebesgue. Medida es una función 
definida para un σ-álgebra del conjunto X y que toma valores en el intervalo [0, ∞] tal 
que se cumplen dos propiedades: (1) la medida del vacío es cero y (2) se cumple la 
aditividad contable (σ-aditividad), es decir, si tenemos una secuencia de conjuntos 
disjuntos, la medida total es la suma de las medidas individuales.
Es conveniente notar que el axioma 2 opera simplemente como una 
normalización.
Los dos primeros axiomas calzan tanto con la definición clásica de Laplace como 
con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad 
de la unión de eventos no relacionados es la suma de las probabilidades individuales. 
Debido a su importancia, el trío S ,ℱ , P ·  tiene un nombre particular:
Def 2.6: Un espacio muestral S dotado de un espacio de eventos o σ-álgebra yℱ 
una función de probabilidades que satisface los axiomas 1 a 3 se llama 
espacio de probabilidades.
Algunas propiedades interesantes de esta teoría de probabilidades son:
• P  A=1−P A A∈ℱ
• P =0
• Si A1⊂A2 ⇒ P A1≤ P  A2 A1, A2∈ℱ
• P A1∪A2=P A1P  A2−P A1∩A2
2.7
• Si {An }n=1
∞
 es una secuencia de eventos monótona (ordenada) en , entoncesℱ 
P limn →∞ An= limn →∞ P An .12
Un problema evidente de la construcción de probabilidades hecha de esta 
manera es que no puede usarse para enfrentar fenómenos con “infinitos eventos”. Por 
ejemplo, ¿cómo le asignamos probabilidades al caso en que se tiran dos dados un 
número infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como 
en la ecuación (2.3). De hecho, una pregunta crucial es si es posible construir una función 
que cumpla con las características que se le exige a la función de probabilidades cuando 
hay infinitos eventos. Usaremos dos elementos para extender el análisis al caso en 
cuestión: el teorema de extensión de Carathéodory y los álgebras de Borel.
Un álgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la 
recta de los reales ℝ={x : −∞x∞} y que el conjunto de eventos de interés es 
J=Bx : x∈ℝ donde Bx={z : z ≤ x }=(−∞ ,x ] . Es decir, el conjunto J incluye todos los 
intervalos de reales menores o iguales a x. ¿Podemos construir un σ-álgebra en ?ℝ 
Usando la definición de σ-álgebra debiésemos partir de Bx , luego añadir su 
complemento Bx , e incluir todas las uniones enumerables de Bx y Bx . Con ello 
tendríamos el mínimo σ-álgebra generado por los eventos en Bx , llamado  J  . Este 
es un conjunto verdaderamente grande, pues incluye todos los x, todos los (−∞ , x ] , 
todos los (−∞ , x ) , todos los x ,∞ , y todos los (x,z) tal que están ordenados, x<z. Esta 
álgebra es llamada álgebra de Borel, B, y permite incluir cualquier tipo de eventos, sean 
o no elementales, en .ℝ 13
El teorema de extensión de Constantin Carathéodory prueba que para cualquier 
medida de probabilidad P(.) en el álgebra puede extenderse de manera única al σ-ℱ
álgebra generado por los reales. Note que esta medida extendida es única. La prueba de 
este teorema excede los objetivos del curso.
Si aplicamos el teorema de extensión de Carathéodory al álgebra de Borel, 
entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida 
es la medida de probabilidad definida más arriba, podemos dotar de estructura de 
probabilidades a cualquier conjunto de eventos, pero al costo de generar álgebras 
verdaderamente complejas. 
12 Usaremos esta propiedad frecuentemente más adelante.
13 Los conjuntos de Borel también se denominan conjuntos de Baire (1874-1932).
2.8
2.03 Variables Aleatorias
En la sección anterior hemos construido el enfoque axiomático de probabilidades 
sobre la base del trío S ,ℱ , P ·  . Ahorausaremos este enfoque para estudiar 
variables, probabilidades de eventos y, al final, modelación de incertidumbre. El espacio 
de probabilidades fue sugerido como una formalización –un tanto rígida– de un 
experimento . Intuitivamente la conexión entre los tres elementos queda descrita en laℰ 
Figura 2.2.
Evidentemente, es difícil pensar en funciones de probabilidades a partir de la 
Figura 2.2. Habría que tabular todos los elementos de y luego construir un sistemaℱ 
congruente de P ·  .
Figura 2.2
Si los resultados del experimento fuesen descritos directamente por medio de 
atributos cuantificables, entonces tendríamos un enfoque mucho más flexible que 
S ,ℱ , P ·  . Eso es, por lo demás, lo que sucede usualmente en economía. Ese es el 
papel que juegan las variables aleatorias.
La variable aleatoria es una función X que mapea el conjunto S directamente en 
los reales, , es decir:ℝ
X ·  : S ℝ + (2.5)
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
Ф
S
S F P(· )
0 1¼ ½ ¾
2.9
y asigna a cada elemento de S un valor en los reales positivos, xi . Gráficamente, el 
conjunto de eventos “obtener sellos al lanzar dos monedas” corresponde a:
Figura 2.3
La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz 
de mantener la congruencia del análisis de probabilidades al haber eliminado . Laℱ 
respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a 
eventos en , en tanto que X asigna valores a elementos de S.ℱ
Así el problema radica en cómo escoger X tal que al asignar valores de S en seℝ 
preserve el orden impuesto en , es decir, que preserve uniones, intersecciones yℱ 
complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un 
evento en . De esta manera, una variable aleatoria será cualquier función que preserveℱ 
el ordenamiento de los eventos para un σ-álgebra determinado, usualmente el álgebra 
de Borel, B
Def. 2.7: Una variable aleatoria X es una función que toma valores reales y que 
mapea de S a ℝ y que satisface la condición que para cada conjunto de 
Borel B∈ B en ℝ, el conjunto X
−1B={ s : X s ∈ B ,s ∈ S } es un evento 
en .ℱ
(CC)
(CS)
(SC)
(SS)
S
0 1 2
ℝX(· )
2.10
Algunas implicaciones importantes de la definición anterior son:
• Una variable aleatoria está siempre definida relativa a un espacio de eventos, .ℱ
• Al decidir si alguna función Y ·  : S →ℝ es una variable aleatoria procedemos 
siempre de los elementos del espacio de Borel B al espacio de eventos, y noℱ 
viceversa.
• Una variable aleatoria no es “variable” ni “aleatoria”.
Note que la pregunta “¿es Z ·  :S ℝ una variable aleatoria?” no tiene ningún 
sentido si no se especifica el espacio de eventos asociado. En algunos casos habrá ℱ Z 
que es una variable aleatoria para algunos y no para otros.ℱ
14
 Para estos últimos 
siempre se puede general el mínimo σ-álgebra, tomando uniones, intersecciones y 
complementos. Es directo demostrar que estos mínimos σ-álgebras no tienen por qué 
calzar con , pero que frecuentemente son subconjuntos de éste.ℱ
Adicionalmente, si X 1 y X 2 están definidos para un mismo espacio de 
probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces 
los mínimos σ-álgebras generados por estas variables aleatorias son subconjuntos 
ordenados de :ℱ
X 1⊂ Z ⊂ℱ
En términos prácticos, este último argumento sugiere que al estudiar una 
variable aleatoria nos estamos concentrando en una parte (el σ-álgebra asociado) del 
experimento completo .ℱ
Note que la variable aleatoria no es ‘aleatoria’ en el sentido que la noción de 
probabilidad no entra en su definición sino que se le asigna para completar el modelo 
del experimento aleatorio. Y tampoco es una variable, sino que es una función de valor 
real. 
Como vemos, la definición “popular” de variable aleatoria (p.e., Greene
15
 usa 
Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex-
post) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el 
concepto de función incluido en la definición y enfatiza el de variable.
Recapitulando, una variable aleatoria X relativa a mapea ℱ S en un subconjunto 
de la línea de los reales. El espacio de Borel B en ℝ juega el papel que antes ocupaba .ℱ 
14 Esto no es tan extraño: en un experimento en el que hay hombres y mujeres, el género es una variable 
aleatoria. Pero si sólo seleccionamos hombres o mujeres, el género ya no es una variable aleatoria.
15 Econometric Analysis, Prentice Hall, Tercera Edición, 1997, p. 62.
2.11
Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir 
una función: 
P x ·  :B[0,1]
tal que P x B =P X
−1B ≡ P s : X s ∈B , s∈S  para todo B en B.
Note que no es necesario definir todos los elementos de B, porque cada uno de 
sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-∞,x]. Así, 
eligiendo los intervalos de manera adecuada, podemos construir fácilmente la función 
de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito 
en el Cuadro 2.1.
Cuadro 2.1
S X 1 X 2 X
{C,C} 1 1 2
{C,S} 1 0 1
{S,C} 0 1 1
{S,S} 0 0 0
las probabilidades son simplemente: 
Px({0})=¼ Px({1})=½ Px({2})=¼
Px({0} {1})=¾∪ Px({0} {2})=½∪ Px({1} {2})=¾ ∪ Px({0} {1} {2})=1∪ ∪
Px({0}∩{1})=0 Px({0}∩{2})=0 Px({1}∩{2})=0 Px({0}∩{1}∩{2})=0
Note que no es necesario asignarle a cada elemento de la recta real una 
probabilidad sino que definimos el problema por intervalos:
P x  (−∞ , x ]=[
0 x0
¼ 0 ≤ x1
¾ 1≤ x2
1 2≤ x
] (2.6)
2.12
Recapitulando, empezamos con un experimento
16
 definido en el espacio deℰ 
probabilidades S ,ℱ ,P ·  y luego hemos definido la variable aleatoria X definida en 
un espacio de probabilidades equivalente ( , ℝ B , P x ·  ). La ventaja de este último es 
que es más fácil manejar “elementos en la recta real” que “elementos en conjuntos 
arbitrarios”. Gráficamente:
Figura 2.4
Lo último que falta es definir apropiadamente P x ·  . Hasta el momento esta 
función sigue siendo arbitraria en un subconjunto de los ℝ+, pero lo que se requiere es 
una “función punto” (es decir, que mapee punto a punto). Recordemos que todos los 
elementos del espacio de Borel pueden ser descritos como intervalos (−∞, x] lo que 
permite definir la función F :ℝ[0,1 ] de la siguiente manera:
P x (−∞ ,x ]=F x −F −∞=F x  (2.7)
16 Tal vez el énfasis en la noción de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una 
contundente visión de la importancia del diseño del experimento “To call in the statistician after the 
experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say 
what the experiment died of (Indian Statistical Congress, Sankhya, 1938).
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
Ф
S
S F P(· )
0 1¼ ½ ¾
0 1 2 0 1 2 0 1
P
x
(· )ℝ B
2.13
y como los intervalos son ordenados, debemos exigir que F ·  sea no decreciente, 
continua y con máximo igual a 1. Es decir, limx ∞ F x =1 . Esta función es la que 
llamamos función de distribución:
Def. 2.8: Sea X una variable aleatoria definida en S ,ℱ , P ·  . La función punto 
F: →[0,1] definida por:ℝ
F x =P x ( − ∞ , x ]=Pr X ≤ x  ∀ x ∈ X
se llama Función de Distribución de x y cumple:
• F ·  es no-decreciente
• F −∞= lim x−∞ F x =0 F ∞=limx ∞ F x =1
• F ·  es continua por la derecha
¿Por qué preferimos F ·  a P ·  o a P x ·  ? La principal ventaja de F ·  
es que ésta es una función punto que se puede representar de manera algebraica, que es 
el manejo habitual que le damos a las funciones de distribución.
Habrádos tipos de variables aleatorias:
• Variables aleatorias discretas (ej: robos): aquella cuyo rango ℝ+ es, por 
convención, algún subconjunto del conjunto de los enteros.
• Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su 
función de distribución F x  es continua para todo x y existe una función∈ ℝ 
no-negativa f ·  en la recta real tal que: 
F x =∫
−∞
x
f x dx
donde f ·  es llamada la Función de Densidad de x.
2.14
2.04 Momentos de una Distribución
El valor esperado de una variable aleatoria se define como el promedio de las 
realizaciones de X ponderado por su probabilidad de ocurrencia.
17
E[ x ]=∑ x f x =x para toda función X discreta (2.8)
E[ x ]=∫
x
x
x f x dx=x para toda función X continua 
Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria 
puede tomar cuando ésta es discreta. Por ejemplo considere el siguiente problema: usted 
recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si 
sale 2, etc). ¿cuánto es lo más que está dispuesto a pagar por jugar una vez? El valor 
esperado del juego es, naturalmente, $3.5.
Otros descriptores comunes del “valor central” de una distribución son la 
mediana que es el valor “del medio” del rango de valores de la distribución y se usa 
principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve 
tan influida por éstos. Cuando se trata de variables discretas ocasionalmente se usa la 
moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicación 
interesante en variables continuas pues su definición es arbitraria.
Más allá del valor esperado, se utiliza frecuentemente:
• Varianza de una distribución V x =E [x−E x ]2 es decir, es el valor 
esperado de la dispersión de la variable aleatoria.
• Skewness de una distribución S x =E [x−E x ]3 es decir, es el valor esperado 
de la asimetría de la variable aleatoria.
• Kurtosis18 de una distribución K x =E [x−E x ]4 es decir, es el valor 
esperado de las colas de la distribución de la variable aleatoria.
17 En estricto rigor debiésemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar 
un exceso de notación, usaremos sólo f(x) entendiendo la naturaleza de cada una dependiendo del 
contexto que se trate.
18 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en 
1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A 
Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acuñó además los términos leptokurtica (lepto 
significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica 
(platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales).
2.15
Para describir la distribución de una variable aleatoria resulta más efectivo usar 
los llamados momentos
19
 de la distribución (esperanza, mediana, moda, varianza, 
skewness, Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Un momento no 
centrado de la distribución de x tendrá la forma genérica E[ x m] en tanto que un 
momento centrado es de la forma E[∣x−x∣
m
] . Resulta natural preguntarse si existe 
alguna forma de generar estos momentos de la distribución. La función generatriz de 
momentos provee una manera elegante de obtener los momentos de una distribución:
Def. 2.9: La función generatriz de momentos de una variable aleatoria –
posiblemente vectorial– X se define como:
m t =E [ e t ' x ]=∫ e t ' x dF x  (2.9)
donde t es el conjunto de vectores no aleatorios para los cuales la función generatriz de 
momentos existe y es finita en la vecindad de t=0 (es decir, existe h0 tal que para 
−hth existe E[ e t ’ x ] .
La función generatriz de momentos provee, como su nombre indica, una manera 
simple de generar todos los momentos de una distribución. En el caso univariado, se 
puede expandir la ecuación (2.9) usando una expansión de McLaurin para obtener (el 
resultado es general):
m t =E [ e t ' x ]=E [1tx
tx
2
2 !

tx
3
3 !
... ]
 =1tE [x ]
t
2
2 !
E [x 2 ]
t
3
3 !
E [x 3 ]...
(2.10)
es decir, el término que acompaña a 
t
i
i !
 es un momento no-centrado de la distribución 
de x. Ahora, tomando derivadas con respecto a t de la expresión (2.10) evaluadas en 
t=0 tenemos:
19 Momento –que fue utilizado inicialmente por Newton para designar el “cambio infinitesimal de una 
variable” (De Quadraturaa Curvarum, 1704)– fue introducido en estadística por Pearson en 1893, en su 
tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje 
horizontal (“Asymmetrical Frequency Curves”, Nature, October 26th, 1893). 
2.16
∂m t=0
∂ t
= E [x ]
∂2 m t =0
∂ t 2
=E [x 2 ] etc.
(2.11)
De esta manera podemos generar los momentos de la distribución de una 
variable aleatoria si ésta existe. Algunas propiedades interesantes de esta función son
• m x−=E[ e
x−]=e− t m x t  si μ es constante.
• m x y=E [ e
x y ]=m x t m y t  si x y y son variables aleatorias independientes.
Si las variables son acotadas la función generatriz de momentos siempre existe y 
es finita. Sin embargo, para una distribución como la Cauchy esto no se cumple. Si x se 
distribuye:
f x =
1
1x 2 
(2.12)
la función generatriz de momentos es:
m t =∫
−∞
∞
e
tx
f x  dx =[∞ si t ≠ 01 si t=0 ] (2.13)
Una solución a este problema consiste en modificar la función generatriz de 
momentos para obtener la función característica, reemplazando t en la ecuación (2.9) por 
it donde i=−1 . Naturalmente, esta es la transformación de Fourier de la función 
generatriz de momentos. Así,
t =E [ e it ' x ] (2.14)
Se puede demostrar que dos variables aleatorias son idénticas si tienen igual 
t  . Para ilustrar el uso que se le da a este tipo de función, consideremos la 
distribución Normal:
2.17
f x =
1
2 2
e
−x−
2
22
(2.15)
Aplicando la transformación de la ecuación (2.14), tenemos
t =
1
 2 2
∫
−∞
∞
e
it ' x−
x−
2
22
dx =e it −1/2
2
t
2 1
2 2
∫
−∞
∞
e
−x−−i 
2
t 
22
dx (2.16)
Es posible, aunque tedioso
20
, demostrar que ∫
−∞
∞
e
−x−−i 2 t 
22 dx= 22 , por lo 
que se deduce que la función característica de la normal es simplemente:
t =e  it −1 /2
2
t
2

(2.17)
La función característica describe completamente la distribución que, en este 
caso, depende de la media  y la varianza 2 . La función es simétrica alrededor de  
y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular, 
si =0 , la función característica de la normal es t =e−1 /2
2
t
2
.
2.05 Distribuciones Discretas de Uso Común
Supongamos que el experimento tiene dos posibles resultados ℰ S={éxito, 
fracaso} y que tienen probabilidades p y 1-p, respectivamente:
Exito x=1 P(x=1) = p
Fracaso x=0 P(x=0) = (1-p)
En 1713 se publicó el libro Ars Conjenctandi que sintetiza los descubrimientos de 
Jacques Bernoulli (1654-1705) sobre matemáticas –en particular, probabilidades– entre 
20 Para demostrar este resultado recuerde que e itx=costx i sin tx  .
2.18
las cuales se encuentra la distribución (o descripción) de los datos del experimento 
anterior:
f x = px 1− p 1−x  ∀ x=0,1
 =0 en cualquier otro caso
(2.18)
Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n 
veces se obtiene la distribución “binomial”
21
f  y = ny p y 1− p n− y (2.19)
donde ny=
n !
n− y  ! y !
.
Hay muchas otras distribuciones discretas útiles. Entre ellas está la descubierta 
por Poisson en 1837 como el límite de la binomialcuando n → ∞ y p → 0 , tal que np es 
constante.
22
f x i ;=
e
−i
x
x i !
(2.20)
21 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton 
provee la descripción para exponente racional pero no la prueba, que fue provista tiempo después por 
Euler. El nombre “distribución binomial” fue acuñado por G.U. Yule en An Introduction to the Theory of 
Statistics (1911, p. 305).
22 S.D. Poisson (1781-1840) dijo: “La vida es buena para sólo dos cosas: descubrir matemáticas y enseñar 
matemáticas”.
2.19
2.06 Distribuciones Continuas de Uso Común
En muchos experimentos en economía no puede suponerse que las variables 
aleatorias de interés sean discretas, por lo que se utilizan funciones continuas.
La distribución normal. Si n →∞ , la expresión de la binomial es poco práctica. De 
Moivre
23
 encuentra la función de densidad que resulta en este caso:
f z =
1
 2
1

e
−z−Ez 2
2
2
(2.21)
es decir, la distribución normal
24
. Esta distribución es la base de muchos tests y 
procedimientos de estimación que usaremos en este curso.
La distribución normal estándar. La distribución normal se estandariza fácilmente:
si z↝N  ,2  ⇒ x=
z−

↝ N 0,1 (2.22)
La distribución Chi cuadrado. Esta distribución deriva de la distribución normal. 
si x ↝N 0,1⇒ y=x 2↝ χ² 1 (2.23)
Una propiedad de esta función es que sumas de variables que se distribuyen χ² 
también se distribuyen χ²:
si x 1↝ χ² 1 y x 2↝ χ² 1 entonces y=x 1x 2↝ χ² 2 (2.24)
23 De Moivre descubrió en 1733 esta distribución y la incluyó en su libro The Doctrine of Chance de 1755. 
Laplace extendió y generalizó este resultado en 1812 (Theorie Analytique de Probabilités), por lo que el 
resultado se conoce como Teorema de De Moivre y Laplace.
24 El nombre de la distribución normal parece haber sido acuñado en los años 1870 independientemente 
por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen 
in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton 
fue el más influyente y popularizó el nombre de curva normal a partir de su libro Natural Inheritence 
(1889).
2.20
La distribución F25
si y↝ χ² m  y w ↝ χ² n ⇒ x=
y /m
w /n
↝ F m , n (2.25)
La distribucion “t” de Student26
si z↝N 0,1 y w↝ χ² n ⇒ x=
z
w /n
↝ t n  (2.26)
La distribución de Cauchy estándar27
si X 1 y X 2↝ N 0,1 independientes , z=
X 1
X 2
↝ f z =
1

1
1z 2
(2.27)
La distribución logística28
F z =[1e
z−a
b ]
−1
(2.28)
La Figura 2.5 señala la relación que hay entre las distintas funciones de 
distribución. 
25 La distribución F fue tabulada en 1934 por G. W. Snedecor en “Calculation and Interpretation of 
Analysis of Variance and Covariance”. Aunque a veces se le llama distribución F de Snedecor, la letra F 
que la designa fue escogida en homenaje a Fischer que usó una distribución muy similar llamada z.
26 "Student" fue el seudónimo que usó William Sealy Gosset (1876-1937) en su trabajo de 1908 "The 
Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribió a R. A. Fisher, "I am sending you a copy 
of Student's Tables as you are the only man that's ever likely to use them!". 
27 La paternidad de la distribución de Cauchy es discutible. Algunos se la atribuyen sobre la base de una 
notas presentadas a la Académie de Sciences en 1853, pero no publicadas. S. M. Stigler señala que 
Poisson ya había estudiado la distribución en 1824.
28 Al parecer, el primero en usar el término “logística” fue Edward Wright (ca. 1558-1615), aunque es 
posible que se refiriese a una función logarítmica y no a la distribución logística propiamente tal. La 
derivación formal se debe a P.F. Verhulst (1845): “La Loi d' Accroissement de la Population”, Nouveaux 
Memoirs de lÁcadémie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59.
2.21
Figura 2.5
2.22
2.07 Distribuciones Conjuntas
Es posible que dos (o más) variables puedan ser descritas por una función de 
probabilidades conjunta
P a≤x≤b ; c≤ y≤d = ∑
a≤x≤b
∑
c≤ y≤d
f x , y 
=∫
a
b
∫
c
d
f x , y dxdy 
(2.29)
El objetivo principal de las ciencias sociales y la economía en particular es 
describir (i.e., modelar) distribuciones conjuntas. La distribución conjunta permite 
asignar probabilidades de ocurrencia a fenómenos económicos multidimensionales, es 
decir, nos permite modelar la relación entre variables que es lo que caracteriza el análisis 
económico. Es importante notar que de la existencia de una distribución conjunta no se 
deriva que exista una relación causal o de dependencia entre las variables. Simplemente 
verifica la existencia de eventos que suceden simultáneamente, lo que no implica que no 
pueda existir alguna relación entre ellos.
2.08 Distribuciones Marginales
Suponiendo que existe la densidad conjunta de dos o más variables, resulta 
natural preguntarse: ¿qué probabilidad tiene x (o y) de ocurrir, independientemente de 
los valores que tome la o las otras variables y (o x)?
Es decir, tomamos la distribución conjunta y sumamos sobre todos los posibles 
valores de “la o las otras variables”. En un caso de dos variables:
f x x =∑
y
f x , y  
 
=∫
y
f x , y dy
(2.30)
Asociadas a la distribución marginal habrá, naturalmente, una esperanza 
marginal, varianza marginal, etc.
2.23
De la existencia de las distribuciones marginales se deriva el concepto de 
independencia estadística: “Si la densidad conjunta es el producto de las marginales, las 
variables son independientes”. El siguiente ejemplo utiliza el concepto de independencia 
estadística de un modo interesante.
Usando variables independientes resulta directo demostrar la utilidad de la 
función generatriz de momentos. Suponga que x e y son variables aleatorias 
independientes normales, entonces el proceso z = x+y cumple la siguiente propiedad:
m x t =e
x t
x
2
t
2
2 m y t =e
 y t
 y
2
t
2
2
m x y t =e
x t
x
2
t
2
2 ⋅e
 y t
 y
2
t
2
2 =e
x y t
x
2
 y
2
 t
2
2
es decir, z se distribuye como una normal con media x y y varianza x
2 y
2  .
Paradoja del Chevalier de Mere
En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema 
propuesto por el Sr. de Méré, un noble francés que se apasionó por los juegos de azar. 
Empíricamente, de Méré observó que la probabilidad de sacar al menos un 6 en 4 
lanzamientos de un dado es más que ½, en tanto que la probabilidad de sacar dos 6 en 
24 lanzamientos es menor que ½. En su razonamiento, de Méré concluyó que ambas 
debian ser iguales: 6 es a 4 como 36 es a 24. 
Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es 
1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n 
lanzamientos es (1/6)
n
. Así, la probabilidad de no obtener 1 seis en 4 lanzamientos es 
(5/6)
n
, por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1-
(5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de 
obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por 
independencia estadística, la probabilidad de obtener un doble 6 en n lanzamientos de 
dos dados es (1/36)
n
, por lo que la probabilidad de no obtener 1 doble seis en n 
lanzamientos es (35/36)
n
. Finalmente, la probabilidad de obtener al menos 1 doble seis 
en 24 lanzamientos es 1-(35/36)
24
=0.4914. De Méré estaba en lo correcto desde el punto 
de vista empírico pero su razonamiento era erróneo.
2.24
2.09 Distribuciones Condicionales
Para ciencias sociales, la distribución más interesante es la condicional, es decir 
aquella que describe cuál es la probabilidad que ocurra y condicionalen que x tome 
algún cierto valor y que denotamos por f  y | x  .
Se puede demostrar que f  y | x =
f x , y 
f x x , y 
. Para ello, definiremos primero la 
noción de probabilidad condicional. Supongamos que en el experimento de tirar dos 
monedas, sabemos que el primer tiro fue cara. ¿Cambia esta información la estructura de 
probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={{CC}, 
{CS}}. Por lo tanto, el σ-álgebra asociado a SA es ahora ℱ A={∅ ,{S },{CC },{SS }} . 
Entonces, tienen que cambiar las probabilidades P ·  , siendo ahora:
PA({ ∅ })=0 PA({SA})=1 PA({CC})= ½ PA({CS})= ½
El conocimiento a-priori que “ya salió una cara” nos lleva del espacio de 
probabilidad S ,ℱ , P ·  al espacio de probabilidad condicional S A ,ℱ A ,P A ·  . 
Definiremos la probabilidad condicional como:
P A  A1=P  A1| A=
P A1∩A
P  A
(2.31)
si y sólo si P A 0 . Si ahora escogemos A1=X 1 S ≤ x 1 –de forma análoga a como 
definimos la función de densidad– obtenemos la Función de Densidad Condicional que 
describimos más arriba.
Resulta clave entender que la media condicional de y en x, E[ y |x ] , es 
exactamente el concepto de una regresión lineal en econometría. Suponga que el 
experimento puede ser descrito por la siguiente relación: y i=x ii con i una 
variable aleatoria llamada ruido blanco, cuyas características son E[]=0 y 
cov [i ,  j ]=
2
 para i=j y 0 en todo otro caso. Entonces E[ y | x ]=x .
Un segunda propiedad interesante se deriva al aplicar el operador varianza 
condicional al modelo anterior. Un poco de álgebra permite obtener:
V [ y |x ]=E [ y 2 | x ]−E [ y |x ]
2
(2.32)
Esta es la función cedástica.
2.25
De la ecuación (2.32) y usando la ley de las esperanzas iteradas 
E[ y ]=Ex [E [ y | x ]] , se puede obtener la siguiente expresión (denominada 
descomposición de varianza) V [ y ]=V x [E  y | x  ]Ex [V  y |x  ] . Esta expresión 
indica que la variación total de los datos puede ser entendida –o descompuesta— como 
la variación de la media condicional más la variación de las realizaciones alrededor de la 
media condicional. De esta descomposición se desprende que:
Ex [V  y |x  ]=V [ y ]−V x [E  y |x  ] (2.33)
es decir, la incertidumbre asociada a la predicción hecha sobre la base de una regresión 
es menor que aquella de los datos.
29
También se define la bondad de ajuste de una regresión como la relación entre la 
varianza de la media condicional (es decir, modelada) respecto de la varianza total del 
fenómeno:
R
2=
V x [E  y |x ]
V [ y ]
 (2.34)
Note que la bondad de ajuste depende de la media condicional, es decir, 
depende como se modele la media condicional. Ello pone límites al uso de la bondad de 
ajuste como instrumento de selección de modelos econométricos.
Más adelante volveremos a revisar conceptos tales como función cedástica, 
bondad de ajuste, media condicional, etc. en el contexto del modelo de regresión lineal. 
Es importante, a estas alturas, comprender que dichos conceptos no se restringen al 
método de mínimos cuadrados, sino que son de aplicación general.
29 Nuevamente, “Errors using inadequate data are much less than those using no data at all” (C. Babbage).
2.26
Apéndice A: Ejercicios
1. Dé un ejemplo de un experimento en economía que pueda ser descrito por una 
distribución normal, para las cuales usted estimó su media y varianza. Justifique 
cuidadosamente cada uno de sus pasos.
2. Usando la definición de σ-álgebra asociado a S, demuestre que el evento seguro y 
el evento imposible pertenecen al σ-álgebra asociado.
3. A la luz de la axiomatización de Kolmogorov de las probabilidades, critique la 
siguiente definición de variable aleatoria: Función cuyo rango de valores es conocido 
ex-ante pero el valor que toma es sólo conocido ex-post.
4. Identifique las principales limitaciones de las definiciones de probabilidad clásica 
(de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cómo el enfoque 
axiomático de probabilidades de Kolmogorov (1933) da cuenta de dichas 
limitaciones.
5. En el ejemplo 2.3 del texto, ¿es A={SC ,CS } un σ-álgebra?
6. Use la siguiente distribución conjunta f(x,y) para demostrar que aunque la 
correlación entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .⅓
7. Considere la distribución conjunta Z(M1, IPC), donde M1 es el dinero y IPC un 
índice de precios. La distribución marginal del dinero es normal con media x y 
varianza unitaria, en tanto que la distribución marginal del índice de precios es 
también normal con media y y varianza igual a  . Use la función característica 
para encontrar la distribución de Z, suponiendo que ambas variables son 
independientes.
8. Sea una muestra de n observaciones con distribución f  y =[1 y 2]
−1
. 
Demuestre que el valor esperado no existe. ¿Existe su varianza?
9. Demuestre que el coeficiente de correlación es invariante ante transformaciones 
lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de 
correlación de los datos { yn , x n} para las transformaciones abx i ; cdyi  , 
i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que 
r 1=r 2 .
10. Considere una variable aleatoria {x} con distribución normal de media μ y 
desviación estándar σ. Encuentre c –en función de la esperanza y la varianza– tal 
que P xc =2P x ≥c 
2.27
11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal 
con media y varianzas desconocidas (μ y σ²). Suponga que un cuarto de los datos 
es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresión 
para estimar μ y σ².
12. Si la función de densidad de y es  y21− y 3 para y definido entre 0 y 1: ¿qué 
número es α y cuál es la probabilidad de que y esté entre 0 y ½?
13. Considere el sorteo Kino
30
 (que excluye el super número) como un experimento 
aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escoger 7ℰ 
números, que se eligen ambos de entre 30 alternativas. Si acierta a los 7 números, 
ya ganó el pozo Kino. (Note que en cada sorteo se sacan 7 números de 1 a 30 sin 
reemplazo.)
• Describa el espacio muestral, S.
• Describa el σ-álgebra asociado a S.
• Compute la probabilidad de ganar si el experimento es sin reemplazo.
• ¿Es la probabilidad que Usted computó congruente con la información que 
entrega la Lotería en la misma página web? Información adicional: Sorteos 
realizados a la fecha: 922, Ganadores con 7 aciertos: 40.
14. Suponga que usted debe reorganizar el poder judicial creando un sistema de 
incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces 
(honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez sólo 
tiene dos de estos atributos. Se desea estimar cuántos jueces deben ser 
removidos. Considere que hay n jueces, pero usted sólo puede estudiar dos 
jueces cada día, los que permanecen incógnitos (muestra con reemplazo).
• Construya el modelo probabilístico que describe el fenómeno. Defina 
claramente el experimento aleatorio y el espacio de probabilidades.
• Construya el modelo muestral asociado.
• Determine un criterio de remoción razonable. ¿cómo podría estimar cuántos 
jueces hay que remover?
15. El psicólogo Tversky y sus colegas observan que cerca de 80% de las personas 
preferirán la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales. 
En el grande nacen unos 45 niños cada día; en el chico, 15. Aunque a nivel nacional la 
proporción de hombres es 50%, en cada hospital y en cualquier día dicha proporción 
puede ser más o menos que 50%. Al final del año, ¿cuál de los dos hospitales tendrá el 
mayor número de días enlos que dicha proporción es más que 60%? (a) el hospital 
grande, (b) el hospital chico,y (c) ninguno (el número de días será igual). ¿Puede usted 
decir por qué la gente se equivoca tanto al responder?
30 “I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought 
that's what the lottery was!” Gallagher
Capítulo 3
Elementos de Inferencia Estadística
Es muy cierto que cuando no está en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es más probable.
R. Descartes, Discurso del Método, 1637
En el capítulo anterior hemos discutido la estructura axiomática de las 
probabilidades que será la base del análisis de inferencia estadística. Resulta natural 
preguntarse por qué es necesario “inferir”.1 Después de todo, si tenemos un conjunto de 
observaciones podemos describirlas usando alguna función de probabilidad o, en el 
peor de los casos, usando un histograma.
3.01 Modelo probabilístico, modelo muestral y modelo estadístico
La lógica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque 
axiomático de probabilidades para formalizar el concepto de experimento aleatorio ( )ℰ 
definido en el espacio de probabilidades S ,ℱ , P ·  . La incertidumbre respecto del 
resultado particular del experimento se resume en P ·  . Para evitar la rigidez de esta 
formalización utilizamos un espacio equivalente ( , ℝ B , P x ·  ), en el que definimos 
variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma 
(−∞ , x ] podemos construir una función punto que describa congruentemente la 
probabilidad de ocurrencia de los eventos en x y que llamamos la función de 
distribución, F ⋅  :
P  s : X  s∈(−∞ , x ] , s∈S =Px (−∞ , x ]=F x (3.1)
Esta función puede ser simplificada y hecha aún más flexible con la ayuda de la 
función de densidad, la que cumple F x =∫
−∞
x
f u du . La ventaja de usar f u es que 
ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre 
asociada al experimento por incertidumbre respecto de los parámetros ℰ  que, dentro 
de una familia de formas funcionales, identifican una función de densidad específica a la 
que denominamos f x , . 
1 Inferir viende del latín “inferre” que significa “causar o llevar en sí”. El sentido popular de “extraer una 
conclusión” es probablemente del siglo 16.
3.2
Finalmente, definimos el modelo probabilístico ={ f  x; ,∈} a la familia de 
funciones paramétricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para 
describir las observaciones, x. Se presume que el vector de parámetros  pertenece al 
espacio de los parámetros  (típicamente un múltiplo de la recta real).
La intuición es directa: dado un conjunto de observaciones, x, cuando se postula 
un modelo probabilístico que las describa basado en una distribución f x , , se ha 
eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos 
(PGD), reemplazándola por incertidumbre respecto de la parametrización adecuada de 
la función f x , .
El objetivo de la inferencia estadística es precisamente identificar y hacer tests de 
hipótesis sobre aquel * que, con algún criterio, sea elegido para que f x ,* describa 
adecuadamente los datos. Para la inferencia se usarán datos de corte transversal, de 
series de tiempo, o una combinación de ambos tipos de datos que llamamos datos de 
panel.
Note la importante diferencia entre la descripción de datos y la inferencia 
estadística. La descripción de las observaciones puede ser hecha por medio de funciones 
de distribución escogidas a su vez mediante el análisis de la frecuencia de los datos. Por 
su lado, la inferencia estadística pretende identificar (aproximarse) el mecanismo que 
genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un 
modelo general.
La inferencia estadística parte de la base que existe un modelo probabilístico 
={ f  x; ,∈} al que se le añade un segundo modelo, llamado modelo muestral, 
que es el que provee la conexión entre el modelo probabilístico y las observaciones. Para 
ello definiremos primero algunos conceptos necesarios:
Def. 3.1 Una muestra es un conjunto de variables aleatorias x1 , x2 , cuyas 
funciones de densidad coinciden con la función de densidad f x , 
postulada por el modelo probabilístico.
Note que este significado está lejos del uso cotidiano de la palabra muestra, en 
particular porque no se refiere a datos observados. De la definición se deduce que una 
muestra en el sentido coloquial –una colección de números– en realidad corresponde a 
una de las muchas posibles realizaciones del conjunto de variables aleatorias que 
componen la muestra. La muestra es, entonces, un segundo experimento, diseñado para 
complementar el experimento descrito por el modelo probabilístico.
Así, dado que la muestra es un conjunto de variables aleatorias, ella deberá tener 
una distribución:
3.3
Def. 3.2 La distribución de la muestra x=x1 , x2 , , xn se define como la 
distribución conjunta de la variables aleatorias {x1 , x2 , , xn} 
denominada por: 
f {x1 , x2 , , xn};≡ f x ; (3.2)
Note que la distribución muestral incluye dos elementos: la información respecto 
de la probabilidad y aquella sobre la muestra. Habrá, por tanto, dos fuentes de 
incertidumbre. Así, la forma que tome f x ; depende crucialmente del muestreo. La 
manera más intuititiva de pensar en el muestreo se deriva del mismo experimento 
aleatorio, .ℰ
Resulta conveniente discutir la naturaleza de las muestras para identificar 
algunas de sus características y, más importante aún, para saber el tipo de información 
contenida en ellas.
Def. 3.3 Un conjunto de variables aleatorias {x1 , x2 , , xn} es llamado una 
muestra aleatoria de tamaño n de f x ; si dichas variables aleatorias 
provienen de una misma distribución (población) y son independientes, 
i.i.d. En este caso, la muestra queda descrita por:
f x1 , x2 , , xn ;=∏
i=1
n
f  xi ;=[ f xi ;]
n
(3.3)
La primera igualdad proviene de la noción de independencia estadística 
que ya vimos y la segunda de la condición que las variables están 
distribuidas idénticamente.
Cuando las variables aleatorias no se distribuyen idénticamente, la muestra es 
llamada muestra independiente y su distribución es f x 1 , x 2 , ... , x n ; =∏
i=1
n
f x i ; . Si las 
variables aleatorias tampoco son independientes, la muestra es llamada muestra no 
aleatoria y la única descripción posible de la función de probabilidad que dió origen a las 
observaciones es la distribución condicional f x i | x 1 ,x 2 , ... , x n ;=∏
i=1
n
f x i | x 1 , x 2 , ... ;  .
La combinación de los modelos probabilístico y muestral permite definir el 
modelo estadístico, que será la base de todo el análisis econométrico que se desarrolla 
posteriormente:
3.4
Def. 3.4 Un modelo estadístico se define como aquel que incluye:
● un modelo probabilístico, ={ f  x ; ,∈}
● un modelo muestral, x=x1 , x2 , , xn
Obviamente, los dos modelos están interrelacionados, pues no resulta razonable 
suponer un modelo del tipo ={ f  x; ,∈} si la muestra no es aleatoria. En tal 
caso, habría que proponer un modelo para la distribución conjunta 
={ f  x1 , x2 , , x n ; ,∈} .
El modelo estadístico y los datos observados nos permiten responder varios tipos 
de preguntas:
 1. ¿Es el modelo estadístico postulado congruente con los datos? Este tipo de 
pregunta es también conocido como análisis de especificación del modelo2.
 2. Suponiendo que el modelo estadístico es congruente con los datos, ¿qué 
podemos inferir de los parámetros?
 a) ¿Podemos reducir la incertidumbresobre  reduciendo el espacio de 
parámetros  a 0 donde 0 es un subconjunto de  ? Llamada región de 
confianza de la estimación. 
 b) ¿Podemos reducir la incertidumbre sobre  escogiendo un valor particular 
en  –llamado  – que sea el más representativo de  ? Estimación punto.
 c) ¿Podemos responder la pregunta si  pertenece a algún subconjunto de  ? 
Esta es una amplia área de análisis colectivamente denominada prueba de 
hipótesis.
 3. Suponiendo que hemos escogido  , ¿qué podemos inferir de las siguientes 
observaciones del mecanismo generador de datos? Esta área –predicción— es una 
de los principales objetivos del análisis econométrico.
2 “El hombre mejor dotado plantea mal el problema que no comprende”, Fulcanelli, Las Moradas 
Filosofales, 1929.
3.5
3.02 Estadísticos muestrales
Sobre la base del modelo estadístico y de los datos observados podemos 
construir estadísticos, definidos como:
Def. 3.5 Un estadístico es una función de Borel tal que q ⋅ : X →ℝ , donde X es 
el espacio de las observaciones. Note que q ⋅  no depende de 
parámetros desconocidos. 
Existen bastantes estadísticos de uso común, entre ellos la media muestral 
definida por x=
1
n
∑
i
xi y la varianza muestral, Var [ x ]=
1
n−1
∑
i
[ xi−x ]
2
. En términos 
generales, una parte sustancial del análisis econométrico se realiza sobre la base de 
estadísticos. Debido a que éstos son funciones de variables aleatorias, deberemos derivar 
sus distribuciones, cosa que usualmente no es fácil.
Podemos generalizar la definición de estadístico para el caso multivariado 
haciendo:
Def. 3.5' qm⋅  : X →ℝ m m≥1 donde qm⋅  es una función vector.
3.03 Distribución de la media muestral
Si {x1 , x2 , , xn} es una muestra aleatoria extraída de una población con media 
 y varianza 2 , entonces x es una variable aleatoria con media  y varianza 
2
/n . 
La demostración es directa, la intuición también:
x=
1
n
∑
i
xi (3.4)
entonces 
E [x ]=
1
n
∑
i
=
Var [x ]=
1
n
2
Var [∑
i
xi]=
1
n
2∑
i

2
=

2
n
(3.5)
3.6
Note que la varianza de la suma converge a cero cuando n→∞ . Este resultado 
es intuitivo pues la media muestral tiene que converger a la media de la población 
cuando la información muestral se aproxima a la población. Nóte, además, que estos 
resultados no dependen de ningún supuesto de distribución de las variables aleatorias x.
3.04 Características deseables de los estimadores en muestra finita
Debido tanto a nuestro interés por aproximarnos al proceso generador de datos 
con precisión y eficiencia, como al objetivo de responder al tipo de pregunta planteado 
más arriba, tendremos que estudiar para cada estadístico algunas características 
deseables. Aunque no son las únicas características, las dos más importantes son:
Estimador insesgado E [ ]=∫
−∞
∞
 f  d =
Estimador eficiente Menor V [ ] posible
Naturalmente, no puede esperarse que todos los estimadores sean insesgados y 
de varianza mínima. Por ello es usual preguntarse si para un determinado problema es 
preferible tener un estimador con sesgo pero eficiente o insesgado pero ineficiente. Un 
criterio posible para evaluar este trade-off es estudiar la estructura del error cuadrático 
medio ECM, que se define como:
ECM=E [−2]=Var []sesgo [ ]2 (3.6)
La existencia de un trade-off nos hace usualmente preguntarnos si existe algún 
estimador que sea “óptimo” (es decir, insesgado y de varianza mínima). Bajo ciertas 
condiciones, el estimador de máxima verosimilitud resulta ser óptimo. 
Consideremos que tenemos una muestra de n observaciones de la variable 
aleatoria x tal que sus componentes son independientes e idénticamente distribuidos. 
Como señalamos, si cada dato viene de f xi , , la distribución conjunta de la muestra 
es: 
ℒ = f x1 , x2 , , xn ;=∏
i=1
n
f  xi ;=[ f x ;]
n
 (3.7)
donde es llamada la función de verosimilitud. Esta función mide la probabilidad queℒ 
los datos que disponemos vengan de un mismo modelo probabilístico.
3.7
El estimador de máxima verosimilitud será aquel * que hace máxima la 
probabilidad que los datos provengan de f x , . Este estimador es formidable, en el 
sentido que posee cuatro características importantes: es insesgado, es de varianza 
mínima, es asintóticamente normal y es invariante para transformaciones afines. Más 
adelante desarrollamos in extenso este estimador, estudiando sus propiedades y las 
condiciones necesarias para su existencia.
Ejemplo: 
Supongamos que los datos son tomados independientemente y 
corresponden a “robos de billeteras por mes en el campus San Joaquín”. La 
muestra X es: {2,0,3,4,1,3,0,2,3,4,3,5}. Si creemos que la distribución de 
probabilidades que mejor representa los datos es alguna de la familia de la 
Poisson. Entonces:
f xi ;=
e
−
i
x
xi !
En este caso particular, la función de verosimilitud es:
f x1 , x2 , , x12 ;=∏
i=1
12 e
−
i
x
xi!
=
e
−12

∑
i=1
10
xi
∏
i=1
12
xi !
=
e
−12

30
358,318,080
Podemos optimizar la ecuación anterior pero resulta más fácil 
optimizar el logaritmo de la función de verosimilitud, ya que éste es una 
transformación monótona. Entonces,
log f x1 , x2 , , x12; =−1230 log−log 358,318,080
Buscamos aquel  que hace más probable que los datos vengan de 
una Poisson. Lo que se resuelve de manera elemental mediante cálculo para 
obtener =2,5 . Se debe comprobar que la segunda derivada sea negativa, 
para asegurar que  es un máximo.
3.8
3.05 Límite de Cramer-Rao3
Suponiendo que la función de densidad satisface ciertas restricciones –que 
estudiamos más adelante–, la varianza de un estimador lineal insesgado de un 
parámetro  es mayor o igual a:4
[ I n]
−1
=−E [ ∂
2
ln L
∂ 
2 ]
−1
=−E [∂ ln L∂  
2
]
−1
(3.8)
Un estimador que alcanza este límite inferior es llamado completamente 
eficiente. El inverso de la cota de Cramer-Rao es llamado número informacional de 
Fisher y se le designa por I n . La ecuación anterior requiere que se cumpla el 
teorema de Lindberg y Feller que ya vamos a estudiar y demostrar. En palabras 
sencillas, las condiciones requeridas para que sea válido son:
● El conjunto de eventos que cubre la función de probabilidad no depende de  .
● Para cualquier parámetro  , las derivadas de la función de verosimilitud existen 
y, en particular, las segundas derivadas son finitas.
Por ejemplo, el límite Crámer-Rao en el ejemplo de la Poisson sería:
∂
2log L 
∂
2
=
−∑
i
xi

2
=
−n

2
(3.9)
La utilidad del límite de Crámer-Rao es que si algún estimador insesgado alcanza 
dicho límite, entonces éste será óptimo y no será necesario buscar otro. Note que en el 
caso multivariado, I  es una matriz, con valores fuera de la diagonal, posiblemente 
distintos de cero.
Un segundo concepto relacionado de gran utilidad es el de estadístico suficiente. 
Intuitivamente, un estadístico suficiente condensa la información de n variables 
3 Esta desigualdad fue obtenida independientemente por H. Cramér (1946 Mathematical Methods of 
Statistics) y C. R. Rao (1945 Bull. Calcutta Math. Soc. 37, 81-91). L. J. Savage (Foundations of Statistics, 1954) 
señala, no obstante, que M. Fréchet (1943) y G. Darmois (1945) habían propuesto tentativamente el 
nombre "desigualdad informacional” para la misma ecuación. Predeciblemente, sólo los franceses usan 
“desigualdad de Fréchet-Darmois-Cramér-Rao”.
4 Note las diferencias entre ambas expresiones. Más adelante mostramos por qué ambos paréntesis son 
iguales.
3.9
aleatorias en una sola variable aleatoria. Si no hay pérdida de información en esa 
reducción, el estadístico efectivamente describe los datos de la muestra. Unestadístico 
. es suficiente si al hacer inferencias sobre  estamos indiferentes entre usar la 
colección de variables aleatorias X o  x . Obviamente preferimos  x por ser de 
menor dimensión que X. Más formalmente, el teorema de factorización de Neyman-
Fisher es:
Def. 3.6 Un estadístico τ ⋅ : X →ℝ es llamado suficiente para  si la 
distribución condicional de f x | τ x =τ es independiente de  , es 
decir  no aparece en f x | τ x =τ y el dominio de f(.) no envuelve a 
 .
3.06 Elementos de teoría asintótica: convergencia
Usualmente la distribución de un estimador  es desconocida. Para poder hacer 
inferencias utilizamos elementos de la teoría asintótica, que nos permiten estudiar las 
propiedades de los estimadores cuando la muestra es de tamaño infinito.
A lo largo de este capítulo vamos a usar dos herramientas: Leyes de los Grandes 
Números (en términos generales describen qué tan lejos está  de  ) y Teoremas del 
Límite Central (que permiten hacer inferencias sobre  usando  ).5 Un primer paso 
será estudiar el concepto de convergencia, que en nuestro caso es análogo pero no 
equivalente al concepto de convergencia usado en series y progresiones.
Def. 3.7: Una secuencia es una colección infinita de objetos ordenados y contables. 
Podemos tener secuencias de números, vectores, matrices, etc.
La secuencia {at} converge a a si ε>0 existe N tal que T>N, ∀ ∀ ∥aT - a < ε donde∥ 
. es la distancia Euclideana. Escribimos∥ ∥
limT →∞ aT=a ó aT→ a (3.10)
5 El nombre de esta familia de teoremas fue acuñado por George Polya (1887-1985) en "Über den zentralen 
Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem", (Mathematische Zeitschrift, 
8 (1920), 171-181). Posiblemente, Polya usó el término "Zentral" para indicar que su importancia es 
central en el análisis. No obstante, el trabajo de Polya es de tercera generación. La primera generación la 
encabeza De Moivre en los años 1730 cuando deriva la distribución normal. La segunda generación 
corresponde a los trabajos sobre la distribución normal del siglo 19 de Laplace, Poisson, Cauchy y otros. 
La tercera generación es aquella que encabeza Chebyshev y sus estudiantes Markov y Lyapounov.
3.10
Este tipo de convergencia no es el que nos interesa en estadística; no es la 
secuencia de valores o realizaciones de un experimento aleatorio sino la convergencia de 
las probabilidades asociadas a la variable aleatoria. Así, hay varios modos de 
convergencia de interés para la modelación econométrica. Ya nos hemos referido a dos 
de ellos al revisar las distribuciones Bernoulli y Normal, que en sí son dos límites que 
reflejan distintos modos de convergencia.
Bernouilli demostró que si Sn es el número de ocurrencias de un evento A en n 
intentos de un experimento aleatorio y ℰ p=P A es la probabilidad de ocurrencia de 
A en cada intento, entonces para 0 :
limn∞ Pr∣
S n
n
− p∣=1 (3.11)
es decir, el límite de la probabilidad del evento ∣S n/n− p∣ se acerca a 1 cuando 
n→∞ . 
Prueba: Si las variables aleatorias siguen una Bernoulli, su suma sigue una Binomial:
P Sn=r =nr p
r
1− p
n−r
entonces se cumple:
P ∣S n−np∣≥ n= ∑
∣r−np∣≥ n
nr p
r
1− p
n−r
≤
1
n
2

2 ∑
∣r−np∣≥ n
r−np 
2
nr p
r
1− p
n−r
=
1
n
2

2
E Sn−np
2
=
1
n
2

2
V S n 
=
1
n
2

2
np1− p=
p 1−p 
n
2
 
▄
Por otro lado, De Moivre y Laplace encontraron que cuando ∣S n/n− p∣ es 
multiplicado por el inverso de la desviación estándar y n→∞ , el resultado se aproxima 
a una distribución normal.
lim n→∞ Pr
∣
Sn
n
− p∣
[
p1−p
n ]
½
≤z=∫−∞
z
1
2
e
−½ u
2
du (3.12)
3.11
Estos dos teoremas proponen –como veremos más adelante– distintos modos de 
convergencia. Además, tienen algunos supuestos que deben cumplirse y vale la pena 
revisar antes de seguir avanzando:
1. Sn=∑ xi , es decir, Sn corresponde a una suma de variables aleatorias.
2. xi=1 si el evento A ocurre y xi=0 si no ocurre, es decir, xi es una variable 
aleatoria que se distribuyen Bernoulli y, por lo tanto, Sn es una variable 
aleatoria que se distribuye Binomial.
3. Las variables aleatorias xi son independientes. 
4. f x1= f x2=⋯= f  xn , es decir, las variables aleatorias xi están 
idénticamente distribuidas con Pr  xi=1=p y Pr  xi=0=1− p para todo xi .
5. Debido a que E Sn /n=p , entonces el análisis se hace considerando las 
diferencias entre una variable aleatoria Sn y su valor esperado. Es decir, se 
refiere a la dispersión de x.
La diferencia más importante entre ambos teoremas, sin embargo, tiene que ver 
con el tipo de convergencia implícita en cada una: mientras Bernoulli se concentra en 
convergencia en probabilidad, De Moivre y Laplace usan el concepto de convergencia en 
distribución. En lo que sigue revisamos varias formas de convergencia.
Def. 3.8 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge en probabilidad si:
lim n→∞ Pr ∣xn−x∣=1 ∀  (3.13)
lo que escribimos plim xn= x . A veces se escribe xn
p
x .
Def. 3.9 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge en distribución a x si la función de distribución F nx  
converge a la distribución de F x  para todo punto de F (ver Figura 
3.2). 
limn →∞ Fn x=F x  (3.14)
Escribimos xn
d
x y llamamos a F la distribución límite de xn .
3.12
Figura 3.2
Convergencia en distribución
Def. 3.10 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge en media cuadrática a x si:
limn →∞ E xn− x
2
=0 (3.15)
lo que escribimos xn
m
x .
Def. 3.11 Una secuencia de variables aleatorias (reales o vectoriales), {xn} , 
converge casi seguramente a x si:
Pr lim n→∞ xn= x=1 (3.16)
lo que escribimos xn
a.s.
x .6
6 Suponga que el espacio muestral S está definido en el intervalo [0,1] con distribución uniforme. Suponga 
la siguiente variable aleatoria Xn s =s s
n y X s = s . Entonces, para todo S ∈ [ 0,1 ) , sn →0 cuando 
n→∞ y Xn(s)→X(s). Sin embargo, Xn 1=2 para todo n y no converge a X(1). Como la convergencia 
ocurre en [0,1) y P([0,1))=1, entonces Xn→X almost surely.
N=100
N=250
N=500
N=50
P
3.13
La relación entre las distintas formas de convegencia puede sintetizarse en el 
siguiente diagrama. 
La demostración de estas relaciones es directa aunque algo tediosa.
Teorema 1: E xn
2
→0⇒ x n
p
0
Demostración
E xn
2
=∫
−∞
∞
x
2
dF nx 
 = ∫
x | x
2
≥ 
2
x
2
dF nx  ∫
x | x
2

2
x
2
dF nx ≥
2
∫
S
x
2
dF nx  donde S= x | x
2
≥ 
2
Tomando la ultima integral
∫
S
x
2
dF nx =∫
−∞

dF nx ∫

∞
dF nx =F n−[1F n]
=P xn−P xn≥ ≥ P  xn
2

Entonces:
P xn
2
≤
E xn
2


2
Así, si E xn
2
→0 , entonces xn converge en probabilidad a cero.
Teorema 2: xn
m
x⇒ xn
p
x
Demostración: reemplace xn por xn−x en el Teorema 1.
3.14
3.07 Elementos de teoría asintótica: leyes débiles de grandes números
A principios de 1800, S. Poisson7 se dió cuenta que el supuesto 4 de Bernoulli –
distribución idéntica– no resultaba fundamental para obtener los resultados de 
convergencia. 
Teorema de Poisson: Sea {xn} una secuencia de variables aleatorias independientes tipo 
Bernoulli con Pr xi=1= p y Pr xi=0=1− p , para todo xi , 
entonces para cualquier ε>0
lim n→∞ Pr∣
S n
n
−
1
n
∑
i=1
n
pi∣=1 (3.17)
Prueba: La manera más corta de probar este teorema es usar la función característica. 
Sea Xi t =E [ e
itx
] la función característica de xi, una variable aleatoria que 
se distribuye con media μ y varianza finita. La expansión de la función 
característica alrededor de t=0 es x i t =1 it 1
it 
2
2 !
2
it 
3
3 !
3⋯ , 
por lo quela función característica de 
xi
n
 es 
x i/ n t =1
it 
n
1−
t 
2
2 ! n
2
2o1 /n
2
 . Entonces, la función característica de 
la suma 1/n∑
i=1
n
xi es ∑ x i/ n t =1 it n 1−
t 
2
2 ! n
2
2o 1 /n
2

n
. Aplicando 
logaritmo se obtiene log
∑x i /n
t =n log 1 it n 1−
t 
2
2 ! n
2
2o 1 /n
2
 . Pero 
si n∞ , se puede aproximar log 1z ≈z por lo tanto 
log
∑ x i/ n
t = it 1−t 
2
2 ! n
2o 1 /n  . Finalmente, tomando límite tenemos 
limn∞ log ∑x i /n t =it 1 . Esta es la función característica de una 
distribución cuya densidad está concentrada en 1= . Es decir x i
p
 .▄
7 “Recherches sur la Probabilité de Jugements, Principalment en Matiere Criminelle”, Comptes Rendus 
Hebdomadaires des Sèances de lÁcadémie de Sciences, 1, 473-494, 1835.
3.15
P. Chebyshev (1887)8 se dió cuenta que, en realidad, no sólo el supuesto 4 era 
innecesario sino que el supuesto 2 tampoco ayudaba a obtener el resultado. Lo 
importante es que se está comparando una suma de variables aleatorias con su media 
(valor esperado). 
Teo. de Chebyshev: Sea {xn} una secuencia de variables aleatorias con media  y varianza 
σ²c∞ y sean c y ε constantes, entonces para todo ε>0 
lim n→∞ Pr∣1n∑i=1
n
xi−
1
n
∑
i=1
n
i∣=1 (3.18)
Para probar este teorema usamos la propiedad que las variables aleatorias x son 
independientes. Por ello:
Var1n∑i=1
n
xi = 1n2∑i=1
n
i
2
≤
c
n
(3.19)
Para probar el teorema (3.19), vamos a usar la desigualdad de Chebyshev:
Prob[∣xn−cn∣]≤ E [ xn−cn
2
]/
2 , pero se le aplicará a 1/n∑xi . 
Antes vamos a probar la desigualdad de Chebyshev, para lo cual usamos la 
desigualdad de su discípulo A. Markov. Sea xn una variable aleatoria que toma valores 
no negativos y δ una constante, entonces:
Prob[ xn ≥ ]≤
E [ xn]

(3.20)
La prueba es directa. Recordemos que podemos separar la esperanza de x como:
E [ xn]=Prob[ xn]E [ xn | xn]Prob [ xn≥ ]E [ xn | xn≥] (3.21)
debido a que xn no es negativo, entonces ambos términos son no negativos. Por ello:
E [ xn]≥ Prob[ xn≥]E [ xn | xn ≥] (3.22)
8 Existen numerosas formas de escribir este nombre, derivadas del uso de Tc en vez de C, i en vez de y, y ff 
en vez de v.
3.16
pero la esperanza condicional debe ser mayor o igual que  por definición, luego se 
obtiene que E [ xn]≥ Pr [ xn≥ ] . Ello prueba la desigualdad de Markov. Para probar la 
desigualdad de Chebyshev simplemente usamos en xn−cn en vez de xn y  en vez de 
 .
Volviendo al teorema de Chebyshev, 
Pr∣1n∑i=1
n
xi−
1
n
∑
i=1
n
i∣≥ ≤ 12
∑
i=1
n
i
2
n
2
≤
c
n
2
(3.23)
pero tomando el límite cuando n→∞ de esta ecuación notamos que es cero.
lim n→∞
c
n
2
=0 , entonces lim n→∞ Pr∣1n∑i=1
n
xi−
1
n
∑
i=1
n
i∣≥ =0 (3.24)
debido a que la probabilidad no puede ser negativa. Ello prueba el teorema de 
Chebyshev.
Markov9 se dió cuenta que en la prueba anterior, el supuesto que las variables 
x1 , x2 , , xn fueran independientes cumple un rol menor. De hecho, sólo se usa para 
computar la varianza de la suma Sn :Var S n =
1
n²
∑
i=1
n
 i
2 . La prueba anterior sólo 
requiere que Var Sn→0 cuando n→∞ . Pero la varianza de una suma es la suma de 
las varianzas más las covarianzas:
Var∑
i=1
n
xi=∑
i=1
n
Var xi∑∑
i ≠ j
Cov xi , x j (3.25)
note que la doble suma de covarianzas es a lo más del mismo orden que la varianza. Por 
ello la condición que se necesita cumplir es que Var ∑ x converja más lento que 1/n2 
para que el teorema se sostenga. Por ello, el supuesto 3 no es crucial.
Teo. de Markov: Sea {xn} una secuencia de variables aleatorias tales que 1/nVar S n→0
,cuando n→∞, entonces 
lim n→∞ Pr∣1n∑i=1
n
xi−
1
n
∑
i=1
n
E xi∣=1 (3.26)
9 “Über die freie Äquivalentz der geschlossenen Zöpfe.” Recueil Math. Moscu, 1935.
3.17
No obstante, un estudiante de Markov llamado A. Kinchine10 notó que en el caso 
de variables aleatorias independientes e identicamente distribuidas, la condición de 
Markov tampoco era necesaria. Si las variables aleatorias son i.i.d., no es necesario poner 
restricción alguna sobre las varianzas. 
Teo. de Kinchine: Sea {xn} una secuencia de variables aleatorias i.i.d., entonces la existencia 
de E xi= es suficiente para garantizar que
Pr∣1n∑i=1
n
xi−∣=1 (3.27)
Pero ambos teoremas tienen distintas condiciones y no son generales. 
Finalmente, el teorema de Kolmogorov11 proveyó las condiciones necesarias y suficientes 
para que se cumpla la Ley Débil de Grandes Números (LDGN). 
Teo. de Kolmogorov 1: La secuencia de variables aleatorias {xn} obedece LDGN si y sólo si:
E  [
S n−∑
i
n
E  xi]
2
n
2
[ Sn−∑
i
n
E xi]
2 →0 , cuando n→∞ (3.28)
El teorema anterior requiere que [S n−∑ E  xi]
2
 crezca más lento que n2 , de 
otro modo el limite (3.28) no se desvanece cuando n crece.
10 “Recherches sur la structure des fonctions mesurables” en Fundamanta mathematica, 1927.
11 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer 
eds. 1933.
3.18
3.08 Elementos de teoría asintótica: leyes fuertes de grandes números
A diferencia del caso anterior, ahora estamos interesados en convergencia casi 
segura. El primero en probar una ley fuerte de grandes números (LFGN) fue E. Borel en 
190912. 
Teo. de Borel: Si {xn} es una secuencia de variables aleatorias i.i.d. distribuidas a la Bernoulli, 
entonces:
Prlimn→∞
S n
n
= p=1 (3.29)
es decir, el evento {s : limn→∞ S n s/n=p s∈S } tiene probabilidad 1 cuando n→∞ . 
Esta expresión puede ser re-escrita como:
limn →∞ Prmaxm≥ n[∣
Sm
m
− p∣≥ ]=0 (3.30)
de donde se puede ver la relación entre la LDGN y la LFGN. La primera se refería a 
limn→∞ Pr∣
S n
n
−p∣=1 , pero:
∣
S n
n
− p∣≤ maxm≥n∣
Sm
m
−p∣ (3.31)
por lo tanto si alguna función cumple (3.34) cumplira con LDGN, es decir, 
xn
a.s.
x⇒ xn
p
x .
A. Kolmogorov reemplaza la condición de Markov sobre las varianzas 
V Sn =
1
n
2∑
i=1
n
i
2
→0 cuando n→∞ con una condición más fuerte:
∑
k=1
∞ 1
k
2
V x k ∞ (3.32)
12 “Les probabilités dénombrables et leurs applications arithmétiques”, reprinted as Note V in E. Borel, 
Leçons sur la Theorie de Fonctions, Gauthiers-Villars (1914), 182-216. En 1928, A.Y. Kintchine popularizó el 
término Ley Fuerte de los Grandes Números para distinguirlos de los teoremas a la Bernouilli basados 
en convergencia en probabilidad (“Sur la loi forte de grand nombres”, Comptes Rendus de lÁcadémie de 
Sciences, 186, p286, 1929). 
3.19
lo que le permite probar la LFGN para el caso en que las variables son simplemente 
aleatorias. 
Teo. de Kolmogorov 2. Sea {xn} una secuencia de variables aleatorias independientes tales 
que existe E xi y V  xi y se satisface la condición anterior, 
entonces:
Prlimn→∞ 1n∑i=1
n
[ xi−E xi]=0=1 (3.33)
Este teorema se prueba igual que la LDGN, con la salvedad que en vez de usar la 
desigualdad de Chebyshev se usa la desigualdad de Kolmogorov: Sean x1 , x2 , , xn 
variables aleatorias independientes tales que V x i = i
2
∞ ∀ i , entonces para 
cualquier 0 : 
Pr max l ≤ k≤ n∣Sk−E S k∣≥ =
1

2 ∑
i=1
n
 i
2
(3.34)
Más aún, si la secuencia x es i.i.d. tales que Ex i ∞ , entonces:
∑
k=1
∞ Var X k
k
2
=∑
k=1
∞
1
k
2∫
−∞
∞
x
2
f x dx (3.35)
lo que señala que, para tal caso, la existencia de la esperanza es una condición necesaria 
y suficiente para que se obtenga la LFGN.
Hemos visto algunas de las condiciones necesarias para la LDGN y LFGN. ¿Qué 
es lo que realmente se necesita? Para la LDGN se necesita la condición de Markov y para 
la LFGN se necesita la condición de Kolmogorov y ambas se refieren a que se debe 
restringir la V Sn para que no crezca más rápido que n2.13 
La nomenclatura típica es V Sn=O n  , donde O(.)significa orden de 
probabilidad. Orden de probabilidad es un concepto útil que viene en dos sabores: O(n) 
y o(n). Suponga que existen dos secuencias de números reales, a y b. La notación 
an=O bn corresponde a “a es al menos del orden de bn”, en tanto que an=o bn 
corresponde a “a es de un orden menor a bn”. Formalmente,
13 Las series de tiempo integradas, que son la mayoría en macroeconomía, no cumplen esta restricción.
3.20
an=O bn cuando n→∞ si lima →∞
∣an∣
bn
K y K0
an=o bn cuando n→∞ si lima →∞ 
∣an∣
bn =0
(3.36)
por ejemplo, 
1
2n²−4
=O
1
n²  y 2n
2
−4=On
2
=on
3
 .
3.09 Propiedades de los distintos tipos de convergencia
Algunas propiedades interesantes y útiles de los distintos tipos de convergencias 
son:
1. Teorema de Slutsky: plim g xn=g  plim xn .
2. Teorema de mapeo continuo: Sea xi un vector de variables aleatorias y sea 
g ⋅ una función real continua en el vector fijo  . Entonces, 
xi
p
⇒g xi
p
g  .
3. Si g  xn es cóncava, se cumple la desigualdad de Jensen: g E [ xn]≥E [ g xn] . 
Esta desigualdad es crucial cuando se desea hacer predicciones.
4. Si xn e yn son variables aleatorias con plim xn=a y plim yn=b entonces:
plim xn yn=ab
plim xn yn=ab
plim xn / yn=a/b si b≠0
5. Si xn
d
x y plim yn=c , entonces xn yn
d
cx
6. Si xn
d
x y g  xn es continua, entonces g  xn
d
g x 
7. Si la distribución límite de xn existe y plim xn− yn=0 , entonces yn tiene la 
misma distribución límite de xn .
3.21
3.10 Teoremas de límite central
Queremos describir las propiedades de un estimador de  cuando la 
distribución de  es desconocida. Saber que  es insesgado, consistente, o que 
converge en probabilidad a  es poco útil. Si plim = , entonces toda la densidad 
colapsa a un punto y no es posible hacer inferencias. Tampoco sabemos qué pasa antes 
que n→∞ .
Sin embargo, si plim = , entonces podría existir una función tal que:
Y n=n  −
d
f  y  (3.37)
donde f  y  es una distribución con media y varianza finitas. Ello nos permitiría hacer 
inferencias estadísticas sobre el estimador de  . Esa es la lógica de los teoremas de 
límite central.
Antes de llegar ahí, consideremos que, al igual que en el caso de las leyes de 
grandes números, no resulta difícil demostrar que el supuesto 2 (distribución binomial) 
no es necesario para el teorema de de Moivre y Laplace. Note que la contribución de 
estos matemáticos fue descubrir la distribución límite para la distancia entre Sn y 
ESn ajustando por la desviación estándar. Para ello usaron la distribución binomial, 
pero vamos a ver que es innecesario limitarse a la binomial, bastando imponer 
adecuadamente restricciones en algunos de los momentos de la distribución de 
probabilidades. 
Sea {x n : n ≥1} una secuencia de variables aleatorias con Sn=∑x i. Los teoremas 
de límite central estudian la expresión en el límite de:
Y n=
Sn−ESn
V S n
(3.38)
es decir, una versión normalizada de Sn−E Sn  que fue lo que estudiamos en LDGN y 
LFGN.
3.22
Teorema de Límite Central de Lindeberg-Levy14
Sea {x n : n ≥1} una secuencia de variables aleatorias extraída de cualquier f.d.p. 
con media finita  y varianza finita 2 , y si x n=
1
n
∑ xi , entonces
n  x n−
d
N [0,
2
] (3.39)
alternativamente podemos escribir:
limn→∞ F n x =lim n→∞ P xn ≤x =∫
−∞
x
1
2
e
−1
2
u
2
du (3.41)
Es importante notar que el teorema se aplica a variables aleatorias de cualquier 
función de distribución y que sólo se aplica a Sn cuando la media existe y si la varianza 
es finita.
Prueba: Usamos la función característica. Sea x i t =E [e
itx
] la función característica 
de xi, una variable aleatoria que se distribuye con media cero y varianza finita. 
Entonces queremos encontrar la función característica de Sn /n que es 
t =[
t
 n
]
n
. Use la expansión x
i
/ n
t =1
it 
n
−
t 
2
2 ! n

2
o1 /n y 
recuerde que =0 , para obtener [
t
 n
]=1−

2
t
2
2n
o
1
n
 . Aplicando 
logaritmo se obtiene log
∑X i /n
t =n log1− t
2
2 ! n

2
o1 /n . Pero si 
n∞ , se puede aproximar log 1z ≈z por lo tanto se deduce que 
log
∑X i /n
t =−t
2
2 !

2
o 1 /n . Finalmente, tomando límite cuando 
n∞ obtenemos limn∞ log ∑X i /n t =
−t
2

2
2
. Por ello, 
limn∞ n t =e
−
2
t
2
2 es decir, la distribución de la suma normalizada es 
asintóticamente normal. Es decir x i
d
N 0,
2
 .▄
14 Lindeberg, J. W. "Eine neue Herleitung des Exponentialgesetzes in der Wahrschienlichkeitsrechnung." 
Mathematische Zametki, 15:211-225 (1922) y W. Feller "Über den zentralen Genzwertsatz der 
Wahrscheinlichkeitsrechnung." Mathematische Zametki, 40:521-559 (1935)
3.23
Note que cuando normalizamos Sn por n obtuvimos convergencia en 
probabilidad, en cambio cuando normalizamos por n obtuvimos convergencia en 
distribución. La razón es que la varianza de Sn crece a n , por lo que si normalizamos 
por n ésta se va a cero cuando n∞ .
Teorema de Límite Central de Lindeberg-Feller con distintas varianzas15
Este teorema, menos restrictivo que el anterior y señala: Sea {x n : n ≥1} una 
secuencia de variables aleatorias extraída de un conjunto de funciones de distribución 
{Fn ,n≥ 1} cada una de ellas con media finita i y varianza finita i
2 . Las siguientes 
relaciones son ciertas:
A. lim n→∞ max1≤ i≤ n
 i
 n =0 donde =∑i=1
n
i
2
B. limn→∞ Fn  y=lim n→∞ P Yn≤ y=∫
−∞
y
1
2
e
−1
2
u
2
du
si y solo si:
lim n→∞  1n2∑i=1
n
∫
∣x−i∣≥  i
 x−i
2
dF ix =0 (3.42)
Aunque parece difícil, la interpretación del teorema es intuitiva. La relación (B) 
señala que la distribución límite es una normal. La relación (A) señala simplemente que 
ningún i
2 domina a n
2 y se deriva de la ecuación (3.41).
Podemos escribir el paréntesis del límite en (3.42) como:
1
 n
2∑
i=1
n
∫
∣x−i∣≥  i
x−i
2
dFi x ≥
2
∑
i=1
n
Pr ∣x−i∣≥ ci 
≥
2
max1≤ i≤ nPr ∣x−i∣≥  i
(3.43)
15 A. Lyapounov (1901) sugirió el siguiente teorema que, por ser más restrictivo, fue superado por el 
teorema de Lindeberg-Feller. Sea {X n : n ≥1} una secuencia de variables aleatorias independientes con 
E X i= y V X i = i∞ ∀ i y E ∣X i
2∣∞ , 0 . Se define c n =∑
i
i
2
, entonces si 
limn→∞
1
c n
2∑
i=1
n
E∣X i− ∣
2
= 0 , se cumple que limn→∞ Fn  y =∫
−∞
∞ 1
2
e
−1
2
u
2
du . Note que se 
requiere que los momentos de orden superior sean finitos.
3.24
es decir, que ninguna de las variables aleatorias domine la secuencia de sumas, o sea, 
que cada 
xi−i
i
 es suficientemente pequeño en relación con la suma [S n−E S n]/  n 
cuando n→∞ . Así, el TCL se refiere a los efectos sobre la distribución de una suma de 
variables aleatorias que individualmente no tienen efecto alguno sobre el 
comportamiento de la suma.
Una manera más simple de escribir el resultado anterior es:
n  xn−n
d
N [0, 
2
] (3.44)
Es decir, sumas de variables aleatorias tienden a distribuirse como normales, 
independientemente de las funciones de probabilidades que las generaron. Casi todos 
los estimadores están basados de una u otra forma en sumas de variables aleatorias.
Teorema de Límite Central de Lindeberg-Levy Multivariado
Si x1 , x2 , , xn es una muestra de vectores aleatorios extraída de una función de 
distribución multivariada con medias finitas  y matriz de varianzas y covarianzas 
finita y positiva definida Q , entonces
n  xn−
d
N [0,Q ] (3.45)
Teorema de Límite Central de Lindeberg-Feller multivariado
Sea x1 , x2 , , xn una muestra aleatoria extraída de un conjunto de vectores 
aleatorios, tales que E[ xi ]=i , V [ xi]=Q y los terceros momentos son finitos. Sea 
n=1/ n∑i y Qn=1/n∑Qi . Si limn →∞ Qn=Q y limn →∞ nQn
−1Qi=0 , entonces:
n xn−n
d
N [0, Q ] (3.46)
Los teoremas anteriores –que se pueden extender para conjuntos de funciones 
usando Jacobianos– pueden ser sintetizados como:
● La ley débil de grandes números LDGN se refiere a S n/n
p
p .
● La ley fuerte de grandes números LFGN se refiere a S n/n
a.s.
p .
● El teorema del límite central se refiere a S n/n
d
N  p ,Var Sn/n .
3.25
Resulta difícil intuir lo que señalan estos teoremas de convergencia a una 
distribución normal. En particular, por cuanto en el análisis se mezclan dos conceptos. 
Por un lado, el tamaño de muestra. Por otro lado, el número de veces que se repite el 
experimento. Una manera fácil de ver el rol de cada elemento se presenta en la Figura 
3.3. El experimento consiste en generar una muestra de T datos de una distribución 
uniforme definida en el intervalo [0,1] y luego computar la media muestral, z. El 
experimento se repite en condiciones idénticas llamadas réplicas.
En los paneles superiores se presentan los resultados del experimento para 50 
réplicas en tanto que en los paneles inferiores, se presentan los resultados para 1.000 
réplicas. En los paneles de la izquierda se hace el experimento con un tamaño de 
muestra 100, en tanto que en los de la derecha el tamaño de muestra es 1,000. Como 
resulta evidente, la distribución de la media muestral se aproxima a una normal cuando 
el experimento se replica un número grande de veces, independiente del tamaño de muestra. 
Figura 3.3
Tamaño de Muestra 100, Réplicas = 50 Tamaño de Muestra 1000, Réplica = 50
Tamaño de Muestra 100, Réplicas = 1000 Tamaño de Muestra 1000, Réplicas = 1000
3.26
3.11 Distribución asintótica
Frecuentemente vamos a usar el concepto de distribución asintótica, es decir, 
aquella distribución que se usa para aproximar la verdadera distribución muestral de 
alguna variable aleatoria. Tomemos un estimador  de  , la distribución asintótica de 
 se obtiene de:
n  −
d
N [0,V ] (3.47)
implica

d
N [ ,V /n ] (3.51)
es decir,  se distribuye asintóticamente normal, con media  y matriz de covarianza 
asintótica 1/nV (ver Figura 3.4).
Figura 3.4
Distribución asintótica
Distribución exacta
3.27
3.12 Estimación asintóticamente eficiente (máximo verosímil)16
Ya hemos visto el concepto de la función de verosimilitud. Ahora, la usaremos 
para derivar un estimador crucial en econometría y, además, para entender lo que hace 
cada tipo de test. En términos genéricos, la función de verosimilitud de una muestra x de 
variables aleatorias i.i.d. se puede escribir como:
ℒ  | xi=∏
i=1
n
f xi , (3.48)
Note que escribimos ℒ  ∣ x para designar que la función se construye a partir 
de las realizaciones de una muestra x y que es condicional a ésta.
Lo que hace el estimador es buscar aquel  que hace máxima la función de 
verosimilitud, es decir, la probabilidad que los datos vengan de la distribución f(.). 
Existen varias formas de maximizar ℒ  ∣ x , pero casi siempre se utiliza una 
transformación que maximiza logℒ  ∣ x ,
logℒ  | x=∑
i=1
n
log f xi , (3.49)
ya que es más simple. El procedimiento es legítimo porque la función logaritmo es una 
transformación monótona.
Analíticamente el estimador de máxima verosimilitud será aquel  que cumpla:
∂L  | x
∂
=0 (3.50)
Cuando la función de verosimilitud es analíticamente diferenciable, se puede 
obtener una expresión cerrada para (3.50), pero ello no es siempre posible. Por ejemplo, 
considere f  ∣ x=1 / con 0≤ x≤  . Cuando la ecuación (3.50) no tiene forma 
cerrada, es necesario resolver el problema usando cálculo numérico, como se describe en 
el capítulo 6. 
16 Aunque la noción de función de verosimilitud es muy antigua, el método de estimar parámetros 
maximizando la función de verosimilitud fue desarrollada y popularizada en el artículo de J. Neyman y 
E. S. Pearson, "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. 
Part I" (Biometrika, 20 A, 175-240, 1928). 
3.28
No obstante, cuatro condiciones de regularidad resultan necesarias para que el 
estimador sea válido:
● El conjunto A={x : f x ,≥ 0} no depende de  .
● Para todo ∈ , las derivadas 
∂
i f xi ,
∂
i
 existen (i=1,2,3).
● 0≤ E[
∂ logL xi ;
∂  ]
2
≤∞ .
● ∣
∂
i
log Lxi ;
∂
i ∣≤ hi x ∀  , donde ∫
−∞
∞
hi xdx∞ i=1,2 y 
∫
−∞
∞
hi x dxK i2 y K no es función de  .
De estos supuestos se derivan algunos resultados de gran utilidad. Primero, note 
que la función de verosimilitud es una densidad, por lo que se cumple:
∫
−∞
∞
∫
−∞
∞
∫
−∞
∞
L x1 , , xn ;dx1dx2=1 (3.51)
simplificando la notación pero sin pérdida de generalidad, denotamos la ecuación (3.47) 
por ∫
−∞
∞
L xi ;dxi=1 . Derivando esta ecuación con respecto a  , obtenemos:
∂
∂
∫
−∞
∞
L xi ;dxi=0 (3.52)
Las condiciones de regularidad aseguran que se cumple la condición de 
diferenciación bajo el signo de la integral,17 es decir,
∫
−∞
∞
∂L xi ;
∂
dxi=0 (3.53)
17 Este resultado se deriva del siguiente teorema de Leibniz, para el caso en que los límites de integración 
no dependen de  y, por lo tanto, los segundos dos términos son cero:
∂ ∫
L 
U 
F x ; dx
∂
=
∫
L 
U 
∂ F x ; 
∂
F U 
∂U 
∂ 
−F L 
∂ L 
∂
3.29
multiplicando y dividiendo por L xi ; tenemos:
∫
−∞
∞
∂L xi ;
∂
Lxi ;
Lxi ;
dxi=0 (3.54)
pero 
∂ f x 
∂ x
1
f  x
=
∂ log f x 
∂ x
. Entonces:
∫
−∞
∞
∂ log L xi ;
∂ 
L xi ;dxi=0 (3.55)
lo que implica E [
∂ log L x1 , , xn ;
∂  ]=0 .
Un segundo resultado útil se obtiene al derivar (3.55) con respecto a  : 
∂
∂
∫
−∞
∞
∂ log Lxi ;
∂
L xi ;dxi=0 (3.56)
usando el teorema de Leibniz
∫
−∞
∞
∂
2
log L xi ;
∂  ' ∂
L xi ;dxi∫
−∞
∞
∂log L xi ;
∂ 
∂ Lxi ;
∂ 
dxi=0 (3.57)
es decir
∫
−∞
∞
∂
2
log L xi ;
∂  ' ∂
L xi ;dxi∫
−∞
∞
∂ log L xi ;
∂
∂ logL xi ;
∂
Lxi ;dxi=0 (3.58)
por lo que obtenemos:
E [ ∂
2
log L xt ;
∂  ' ∂ ]Var [
∂ log Lxi ;
∂ ]=0 (3.59)
de donde se desprende
V [
∂ logL xi ;
∂ ]=−E [
∂
2
log L xt ;
∂ ' ∂ ] (3.60)
El término de la derecha de la ecuación (3.60) es llamado número informacional 
de Fisher. 
3.30
Un tercer resultado importante se deriva de suponer la existencia de un 
estadístico x  y ocupar la ecuación (3.51) tal que
∫
−∞
∞
 x Lxt ;dx=E x  (3.61)
Diferenciando la ecuación (3.61) con respecto a  tenemos:
∫
−∞
∞
 x
∂ L xt ;
∂
dx=
∂E x
∂
(3.62)
multiplicando y dividiendo por L x , y recordando la derivada del logaritmo se 
tiene
∫
−∞
∞
x 
∂ log Lx ;
∂ 
Lx ;dx=E[x 
∂ logL x ,
∂ ]=
∂ E x 
∂
(3.63)
Note que por definición Cov x1, x2=E x1 x2−E  x1E  x2 . Considere, 
además, que 
∂L xi ;
∂
=0 . Entonces:
Cov
∂ log L x ;
∂
,x =
∂ E x 
∂
(3.64)
Aplicamos ahora la desigualdad Cauchy-Schwartz: 
∣Cov x1 , x2∣[V x1V x2]
½ y obtenemos:
∣
∂E x 
∂  ∣≤[V  xV 
∂ log L x ,
∂ ]
½
(3.65)
pero V 
∂ log L x ,
∂   es el número informacional. Luego:
[
∂E  x 
∂  ]
2
≤ V x  I  (3.66)
3.31
finalmente:
V  x ≥
[∂ E x /∂ ]
2
I n
(3.67)
Es decir, cualquier estadístico de la muestra tendrá una varianza mayor o igual a 
la expresión del lado derecho que es conocida como el límite de Cramer-Rao.
Corolario: Var  x ≥
1
I n 
.
En conclusión, asintóticamente este estimador tiene cuatro propiedades que lo 
hacen formidable:
1. Consistencia:18 plim MV=
2. Normalidad asintótica: MV
d
N [ ,[ I ]−1 ] donde I =−E [∂
2
log L
∂ ' ∂] .
3. Eficiencia Asintótica: MV es asintóticamente eficiente y alcanza Cramer-
Rao.
4. Invarianza: si =g  entonces g  MV  es el estimador 
máximo verosímil de γ.
Este estimador se puede extender al caso que las variables aleatorias no son 
idénticamente distribuidas de manera directa, excepto que n I ≠ I n .
18 El concepto de consistencia fue desarrollado por R. A. Fisher en "On the Mathematical Foundations of 
Theoretical Statistics", (Phil. Trans. R. Soc. 1922).
3.32
3.13 Test de hipótesis19
Supongamos que existe una variable aleatoria definida en el espacio de 
probabilidades (S, , P(.) ) y consideremos el modelo estadístico asociado:ℱ
• ={ f  x; ,∈}
• x={x1 , x 2 , , xn}
El test de hipótesis consiste en decidir si una conjetura sobre  del tipo 
∈0⊆  es congruente con la(s) realización(es) de la muestra x. Dicha conjetura –que 
envuelve un pre/juicio– es llamada hipótesis nula20 y se denota usualmente por 
H 0:∈0 .
Para refutar o no refutar la conjetura a partir de una realización de la muestra, 
necesitamos un criterio C, tal que si x∈C , entonces no se rechaza la hipótesis nula y si 
x∉C se rechaza. El test de hipótesis es de manera más precisa un estadístico τ(x): X 
→ . Con algún grado de incertidumbre podremos rechazar o no la presunción queℝ 
nuestro prejuicio sea correcto.
El procedimiento nos pide tener una hipótesis nula H 0 y una hipótesis 
alternativa21 H 1  , las que en general deben ser mutuamente excluyentes. Como se 
discute más adelante, es posible construir tests en que H 0 y H 1 no están “anidadas”, 
es decir, no agotan el conjunto 0 . La hipótesis nula puede ser simple, si es 
unidimensional, o compuesta, si no lo es. 
19 El testeo de hipótesis es tan viejo como el estudio de probabilidades. Sin embargo el término “test de 
hipótesis” es relativamente moderno y no es consensual. El libro de R. A. Fisher Statistical Methods for 
Research Workers de 1925 parece ser el primero en usar un test de hipótesis, aunque bajo el nombre de 
“test de significancia”. El término test de hipótesis fue acuñado por J. Neyman y E. S. Pearson en su 
artículo "On the use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part 
I" (Biometrika, 20 A, 175-240, 1928).
20 Hipótesis nula aparece en el libro de 1935 de Fisher The Design of Experiments, donde señala: "[W]e may 
speak of this hypothesis as the 'null hypothesis,' and it should be noted that the null hypothesis is never proved or 
established, but is possibly disproved, in the course of experimentation." (p. 19). En el lenguaje de Neyman y 
Pearson, la hipótesis nula corresponde a la “hipótesis probada”, que ellos denotaban por H 0 . Neyman 
reclamó, con justicia, que el término hipótesis nula es vago y que "the original term 'hypothesis tested' 
seems more descriptive" (First Course in Probability and Statistics, 1950, p. 259).
21 El término hipótesis alternativa se popularizó a raíz del trabajo de Neyman y Pearson’s "On the Problem 
of the Most Efficient Tests of Statistical Hypotheses" (Philosophical Transactions of the Royal Society of 
London. Series A, 231 (1933), pp. 289-337). En ese artículo también se definen términos tales como 
hipótesis simple y compuesta, región crítica, error tipo I y tamaño del test.
3.33
Note que, puesto de esta forma, el test rechaza o no rechaza H 0 , pero no permite 
“aceptar” la validez de una conjetura.22 Además, se rechaza o no se rechaza dado un 
cierto nivel de probabilidad o confianza. Vale decir, cualquier conjetura puede ser 
rechazada, basta con hacer el intervalo de confianza arbitrariamente grande o, 
equivalentemente, haciendo C0 arbitrariamente pequeño.
Como la base del testeo es la realización particular de la muestra de variables 
aleatorias, es posible cometer errores:
Tipo I: Pr  x∉C0 ;∈= Rechazar H 0 cuando es verdadera
Tipo II: Pr  x∈C0 ;∉= No rechazar H 0 cuando es falsa
En principio, nos gustaría hacer que =→0 , lo que no es posible con n finito. 
Note que la distinta naturaleza de los errores lleva asociado dos distintos conceptos 
útiles:
Tamaño del Test: es la probabilidad de cometer error tipo I, que usualmente 
llamamos α. Tamaño es equivalente a nivel de significancia.
Poder del Test: es la probabilidad de que el test correctamente rechace H 0 
cuando es falsa, es decir 1-β.
Algunas definiciones útiles asociadas a los tests son:
• Un test será más potente que otro si tiene más poder que otro para todo tamaño.
• Un test será insesgado si su poder es mayor o igual que su tamaño para todo  .
• Un test será consistente si su poder tiende a 1 cuando n→∞ .
22 Neyman y Pearson (1928) hablan de aceptar y rechazar hipótesis. Fisher nunca usó el término “rechazo” 
pero no tenía objeción a su uso, sin embargo se oponía vehementemente a “aceptar” una hipótesis.
3.34
3.14 Tres tests de hipótesis asintóticamente equivalentes
Hasta el momento hemos estudiado la función de verosimilitud y el estimador de 
máxima verosimilitud. También hemos discutido la estructura de los tests de hipótesis. 
A continuación describimos tres tests que son asintóticamente equivalentes –aunque 
numéricamente pueden diferir– que son ampliamente usados en aplicaciones prácticas.
Test de Razones de Verosimilitud
Al maximizar la función de verosimilitud obtenemos MV y Lmax . Si el R 
hipotético es estadísticamente igual a MV , entonces recalcular la función de 
verosimilitud con R debiera producir un valor similar al computado usando MV . Por 
ello el test estudia la distancia entre logℒ R | x  y logℒ  MV | x , para la cual se 
conoce su distribución asintótica:
−2[ logℒ R | x−logℒ 
MV | x ]
d

2
m (3.68)
donde m es el número de parámetros restringidos al imponer la hipótesis nula. Un 
inconveniente de este test es que exige computar dos veces la función de verosimilitud, 
cosa que es paulatinamente menos grave dada la creciente capacidad computacional.
Test de Wald23
A diferencia del caso anterior, el test de Wald se enfoca directamente en la 
distancia entre el parámetro estimado  y el prejuicio R , bajo la premisa que dicha 
distancia no debiese ser estadísticamente significativa si el prejuicio es correcto. Note 
que este es el test t al cuadrado. Entonces:
 −R'∑
−1
 −R↝
2
m (3.69)
Multiplicador de Lagrange
Este test –llamado a veces efficient scores– parte de la base que cuando se obtiene 
el estimador máximo verosímil de  , la primera derivada es cero. Si la primera 
23 “Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations Is 
Large” Transactions of the American Mathematical Society, 54 (1943), 426-482.
3.35
derivada evaluada en R no difiere estadísticamente de cero, entonces la hipótesis nula 
no es falsa.
LM=∣
∂ LnL
∂ ∣=R ' [ I R]
−1
∣
∂ LnL
∂  ∣ =R↝
2
m (3.70)
Un descripción gráfica de estos tres tipos de tests se presenta en la Figura 3.5
Figura 3.5
3.15 Tests de hipótesis no anidadas
En ocasiones sucede que el problema de interés no produce hipótesis anidadas. 
Considere que existen dos modelos compitiendo por explicar el mismo conjunto de 
observaciones del fenómeno (y):
 
Modelo 1: y=x 
Modelo 2: y=z 
(3.71)
Ln L

Ln LR
MVR
Ln L()
C()
Ln L()/


WaldLagrange
Razones
Verosimilitud
3.36
En este caso se requiere hacer un test de la forma:
H 0:Modelo 1 bien especificado
H 1:Modelo 2 bien especificado
(3.72)
Resulta evidente que las hipótesis nula y alternativa no están bien especificadas 
(o anidadas) en el sentido que ellas no son mutuamente excluyentes. Se dice que el 
modelo 1 y el modelo 2 son familias separadas dado que, para cualquier valor de β, el 
primero no puede serarbitrariamente aproximado por el segundo mediante un proceso 
límite. Análogamente, para cualquier γ, el modelo 2 no puede ser aproximado 
arbitrariamente por el modelo 1. La verificación de las hipótesis anteriores, por lo tanto, 
no puede ser llevada a cabo mediante la teoría de Neyman-Pearson, debido a que ésta 
requiere que los espacios paramétricos asociados de ambos modelos sean iguales
Davidson y McKinnon (1981) proponen el siguiente test.24 Sea el modelo:
y=x 1−z  
=x 1−z  donde =1−
(3.73)
La idea del test es que si el Modelo 2 está bien especificado, =1 . En caso contrario, el 
Modelo 1 está bien especificado y =0 . Davidson y McKinnon probaron que el 
estadístico que permite verificar la restricción anterior se distribuye asintóticamente 
normal si H 0 es cierta. El test puede ser extendido de manera análoga para modelos no 
lineales.
Note, sin embargo, que si los modelos 1 y 2 comparten algunos regresores, el 
modelo propuesto en la ecuaciones (3.73) no está identificado, es decir, el parámetro  
no puede ser obtenido de manera independiente de los otros parámetros y, por lo tanto, 
no se puede hacer el test.
Una manera de solucionar el problema anterior es realizar una regresión auxiliar 
para obtener un estimador  -por ejemplo, el de máxima verosimilitud o el de mínimos 
cuadrados- y rehacer el test propuesto como:
y=x 1−z 
=x  y 
(3.74)
donde y=z z ' z 
−1
z ' y . 
24 El origen de la idea de hipótesis no anidadas se remonta al año 1962, con el trabajo desarrollado por D. 
R. Cox “Further Results on the Test of Separate of Families of Hypotheses”, Journal of the Royal Statistical 
Society B, 24:406-424 (1962), pero fue extendido por Davidson, R. y J. G. Mackinnon, “Several Test of 
Model Specification in the Presence of Alternative Hypotheses”, Econometrica, 49:781-793 (1981).
3.37
Como se ve, el modelo de la ecuación (3.74) anida ambas hipótesis de una manera 
un tanto artificial. El test es llamado J-test. En muestras pequeñas la estimación por 
mínimos cuadrados ordinarios no es adecuada ya que E   ≠0 , de forma que 
obtendríamos estimaciones inconsistentes del estimador de  . No obstante, en muestra 
grandes, plim  =0 .
Note que si el primer modelo es el correcto,  tiende a cero y el test de la 
hipótesis nula H 0:=0 se distribuye asintóticamente normal estándar. Por el 
contrario, si el segundo modelo es el correcto, el estimador  converge en probabilidad 
a 1 y su desviación estándar tiende a cero, por lo que el test t tiende a infinito. Así, el test 
siempre rechaza la hipótesis nula cuando ésta es falsa, porque el estadístico 
eventualmente excederá cualquier crítico con probabilidad uno.
Evidentemente, se puede revertir el procedimiento y plantear el test inverso 
haciendo:
y=x z 1−
= x z  
(3.75)
Típicamente se realizan los tests (3.74) y (3.75). Por ello existen cuatro resultados 
posible.
● Se rechaza H 0 en (3.74)
● Se rechaza H 0 en (3.75)
● Se rechaza H 0 en (3.74) y en (3.75)
● No se rechaza H 0 en (3.74) y en (3.75)
El J-test se aplica cuando los modelos son lineales. Si los modelos son no lineales, 
entonces se usa un test similar llamado P-test. Además, se ha supuesto que la variable 
dependiente ha sido transformada de la misma manera en ambos modelos: McKinnon, 
White y Davidson (1983) extienden el test para el caso en que las transformaciones 
difieren entre modelos. La evidencia de Monte-Carlo señala que estos tests tienden a 
sobre-rechazar un modelo correctamente especificado. 
3.16 Criterios informacionales
Note que podemos re-interpretar el test de Davidson y McKinnon como un 
problema de “selección de modelos”. Es decir, como un criterio que guíe la selección de 
modelos. Existen, sin embargo, varios tipos de criterios. El criterio de mayor 
popularidad es el R2 ajustado, es decir, una función del coeficiente de correlación 
múltiple. El criterio es elegir aquel model con mayor R2 ajustado o, equivalentemente, 
con la menor varianza residual. H. Theil (1957) prueba que en promedio se realiza la 
3.38
selección correcta, siempre que (1) alguno de los modelos contendientes sea el 
“verdadero modelo” y (2) las variables explicativas sean no estocásticas (i.e. fijas en 
muestras repetidas). Ambas condiciones son difíciles de cumplir.25
Usualmente utilizamos criterios de información para seleccionar modelos, 
escogiendo aquel modelo M 1 ,M 2 ,⋯, M k  que tenga un menor valor numérico. Los 
criterios de información tienen la forma
cnk =−2 ln Lnk /n k n/ n (3.76)
donde Lnk  es la función de verosimilitud estimada usando k parámetros para una 
muestra de tamaño n . Los diferentes criterios ocupan una distinta función de 
penalización por el hecho que se use un mayor número de parámetros: 
• El criterio de Akaike es n=2 26
• El criterio de Schwartz n=2 log n
• El criterio de Hannan-Quinn es n=2 log log n 
Note que la penalización se vuelve progresivamente más estricta.
Una pregunta pertinente es cuáles son las propiedades de estos criterios cuando 
los modelos están mal especificados. Obviamente, si se está comparando modelos, habrá 
algunos de ellos que esten mal especificados. En tal caso, k≠k 0 donde k 0 es el número 
correcto de parámetros. Hay, entonces, dos casos: modelos subparametrizados (es decir, 
mal especificados) y sobreparametrizados (es decir, bien especificados pero con exceso 
de regresores).
Caso en que el modelo está subparametrizado kk 0
Para estudiar la consistencia de los criterios, estudiamos su comportamiento 
cuando la muestra se vuelve infinita, es decir plimn∞cnk /n−cnk0/n . Resulta 
evidente que si el modelo está subparametrizado:
plimn∞
1
n
log Lnk plimn∞
1
n
log Lnk 0 (3.77)
25 Theil, H. "Specification Errors and the Estimation of Economic Relations." Review of International 
Statistical Institute, 25:41-51, (1957)
26 El criterio de Akaike se deriva como un estimador de la distancia en información Kullback-Leibler 
K M =E log f  y | x−log f  y | x ,M  entre la verdadera densidad y el modelo. Akaike, H. (1973): 
“Information theory and an extension of the maximum likelihood principle.” In B. Petroc and F. Csake, 
eds., Second International Symposium on Information Theory.
3.39
Además, es directo demostrar que limn∞ n/n=0 en cualquiera de los 
criterios.27 Entonces:
limn∞ P[
cnk 0
n
≥
cn k 
n ]=limn∞ P[
−2 log  Ln k 0k 0n 
n
≥
−2 log Ln k   kn
n ]
 =limn∞ P [
log Ln k0 −log  Lnk 
n

0.5 k 0−k n
n ]
=0 
(3.78)
lo que indica que los tres criterios son consistentes.
Caso en que que el modelo está sobreparametrizado kk 0
En este caso, la prueba anterior de consistencia no es válida porque ambos 
modelos están bien especificados (las funciones de verosimilitud tienen el mismo 
máximo). Considere, sin embargo, el siguiente test de razones de verosimilitud:
2 [ log Lnk − log Ln k 0]
d
X k− k0k−k0
2 (3.79)
reemplazamos la definición del criterio de Akaike para obtener:
n [cnk0−cn k ]=2 [ log Lnk −log Lnk 0]−2 k−k0
d
k− k0
2
−2k−k 0
(3.80)
por lo tanto, 
limn∞ P [cnk 0cnk ]=P [ X k−k02k−k 0]0 (3.81)
Así, el criterio de Akaike va a sobre-estimar asintóticamente el número correcto 
de parámetros.
En los casos de Hannan-Quinn y Schwarz, limn∞ n=∞ , lo que indica que 
para ambos
plimn∞
−2[ log Lnk 0−log  Lnk ]
n
=0 (3.82)
27 De hecho cualquier funcion n que crezca mas lento que n sirve.
3.40
por lo que
plimn∞
n cnk0−cnk 
n
= plimn∞
−2 [log Lnk 0−log cn k ]
n
k 0−k≤−1
(3.83)
así,
lim n∞ P [cnk0≥cnk ]=0 (3.84)
esto, a su vez, implica que limn∞ P [kk 0]=0 o limn∞ P [k=k 0]=1 , por lo que 
ambos criterios son consistentes.
3.41
Apéndice A: Ejercicios
1. Suponga que n − converge en distribución a una normal estándar. ¿A qué 
distribución converge  ? ¿ plim = ? Si la muestra crece hasta tener el tamaño de la 
población ¿cual es la distribución de  ?
2. Suponga que  es multivariado y que n − converge en distribución a 
N 0, Z  . Suponga que Ud. está en realidad interesado en una transformación continua 
del estimador f =log  . ¿A qué distribución converge f  ?
3. Suponga que tiene dos parámetros estimados independientemente que son 
insesgados 1 y2 con sus respectivas varianzas 1 y2 . ¿Qué combinación lineal 
de ambos parámetros =F 1 ,2 es el estimador insesgado de varianza mínima de 
 ?
4. Explique en qué consisten y cuáles son las diferencias entre el teorema de 
Linberg-Levy y el de Lindberg-Feller para estimadores multivariados. Refiérase a los 
supuestos y las restricciones impuestas sobre los momentos de la distribución.
5. Cuando un estimador “convergencia en probabilidad” necesariamente debe 
“converger en distribución”. Comente.
6. Demuestre que si xn
m
x⇒ xn
p
x y que si xn
p
x⇒ xn
d
x .
7. Para el Teorema Central del Límite, una condición indispensable es que ninguna 
variable aleatoria de la secuencia que se está considerando domine a toda la secuencia 
de variables aleatorias. Comente. 
8. ¿Qué es el poder de un test? ¿Qué es el tamaño de un test? ¿Cuándo un test es 
más poderoso que otro? y ¿cuándo es consistente?
9. Explique porqué se habla que la función de verosimilitud es una densidad y 
describa a qué corresponde el estimador de máxima verosimilitud. ¿Es el estimador de 
máxima verosimilitud es mucho más preciso que cualquier otro estimador lineal?
10. Sea una muestra de n observaciones de yn ¿Para cuales de las siguientes 
distribuciones es posible derivar analíticamente el estimador de máxima verosimilitud? 
Encuentre el estimador de máxima verosimilitud, demuestre que éste es un máximo y 
obtenga la varianza asintótica.
f  y =
e
−

y
 !
f  y = y
−1
e
− y

y0  ,0
3.42
12. Usted tiene dos secuencias: {xn} e {yn} definidas en el soporte [−∞ ,∞ ] . 
Considere las siguientes afirmaciones:
A Cuando n→∞ , xn converge en probabilidad a la variable aleatoria Z 
que se distribuye F z . .
B Cuando n→∞ , xn− yn converge en probabilidad a cero.
C xn converge en distribución a F z . .
D yn converge en distribución a F z . .
Comente si las siguientes afirmaciones son verdaderas o falsas. Si son 
verdaderas, demuestre. Si son falsas, de un contraejemplo.
1. (A) (B)⇒
2. (C) (A)⇒
3. (C) + (D) (B)⇒
4. (A) + (B) (D)⇒
13. Cuando se hace un muestreo usando una distribución normal N 0,2 
frecuentemente se usa el siguiente estimador insesgado de la varianza 

2
=
∑
i=1
n
xi−E  x 
2
n−1
.
(a) Demuestre que la varianza de este estimador es Var [ 2]=
2 4
n−1
.
(b) Considere el siguiente estimador alternativo: 2=
1
n
∑
i=1
n
xi
2 .
(c) Demuestre que el estimador 2 es sesgado pero tiene menor varianza que 2 . 
(Ayuda: exprese 2 en función de 2 .
15. El estimador de máxima verosimilitud es usualmente derivado a partir de una 
muestra de variables (vectores) aleatorias i.i.d. Bajo estas condiciones el estimador posee 
cuatro características:
(a) Identifique esas cuatro características y explique su importancia.
(b) Suponga que las variables aleatorias de la muestra no se distribuyen 
idénticamente pero sí independientemente. Plantee la función de verosimilitud y 
3.43
obtenga un estimador máximo verosímil en este caso. ¿Cuáles de las cuatro 
características se mantienen?
(c) Suponga ahora que la muestra no se distribuye independientemente ni 
idénticamente. ¿Cuáles de las cuatro características se mantienen?
16. Se desea estudiar el poder del test t 
−
Var  
 para el siguiente caso. Suponga 
que el proceso generador de los datos es yi=i donde iN 0, i  .
(a) Obtenga un estimador insesgado de θ.
(b) Identifique el problema analítico del test t en este caso.
(c) Construya un programa de Gauss que le permita determinar el poder del test. El 
programa debe ser flexible en (i) número de replicaciones, (ii) tamaño de 
muestra, (iii) tamaño del test (nivel de significancia)
Capítulo 4
Modelo Clásico de Regresión Lineal
En las secciones anteriores hemos definido el modelo estadístico como aquel que 
incluye:
● un modelo probabilístico, ={ f  x; ,∈}
● un modelo muestral, x= X 1, X 2, ...X n
de modo tal que al caracterizar el mecanismo generador de los datos (MGD), el 
problema consiste en sustituir la ignorancia sobre la función de probabilidad por la 
ignorancia respecto de los parámetros  de la función de densidad f · que se escoge 
para describir el fenómeno de interés.
En general, los datos recolectables no corresponden de manera precisa con la 
noción de la muestra observada de variables aleatorias independientes que está implícita 
en el uso del modelo muestral por varias razones. Primero, porque no necesariamente 
las muestras tienen las características que se requieren para hacer la inferencia. Por 
ejemplo, datos agrupados –que son muy comunes– corresponden típicamente al 
resultados de un muestreo estratificado. En series de tiempo no puede pensarse en que 
los datos correspondan a una muestra aleatoria simple porque hay dependencia 
temporal. Segundo, porque en muchos casos existen parámetros incidentales que 
complican la inferencia. Por ejemplo, cuando hay heterogeneidad en el tiempo o espacio 
y se debe incluir parámetros adicionales para capturar esa dimensión (p.e., datos 
nominales en presencia de inflación)
Formalmente, se postula la existencia de un modelo adicional que da origen a los 
datos estadísticos (MGE) que aproxima, a veces de manera gruesa, el MGD que dió 
origen a los datos. La existencia de este modelo suplementario permite incluir no sólo la 
información de la muestra, sino otra que sea a-priori sobre el fenómeno.
Exigiremos que para una variable aleatoria de interés y definida en 
S ,ℱ , P . el modelo MGE quede definido por
y i=ii (4.1)
donde i=E  yi |℘  y es cualquier σ-álgebra que cumpla . Definido de esta℘ ℘ ⊆ ℱ 
manera, llamaremos parte sistemática a i y parte asistemática a i , donde se cumple que 
ambas partes son ortogonales entre sí, i⊥i . Analíticamente es importante que ambas 
partes sean ortogonales, porque de otro modo invalidaría la elección de . Note que al℘ 
definir el problema de este modo, el concepto de “error” es mucho más amplio que el 
que se le da en la interpretación clásica como el resultado de error de medición o en 
variables.
4.2
4.01 Lógica del modelo de regresión1
El modelo de regresión lineal será nuestra principal herramienta en este curso, 
aunque no la única. Una definición apropiada de regresión econométrica es: Regresión es 
una relación funcional entre dos o más variables correlacionadas que se obtiene de los datos y se 
usa para predecir una dada la(s) otra(s).2
yi= f x1
i , x2
i , ... , xk
i ;i (4.2)
Lo que estudiaremos es una técnica que nos permite seleccionar los parámetros 
 que relacionan los condicionantes o “regresores” x  con la variable de interés 
 y . Existen otras herramientas para parametrizar la ecuación (4.2), algunas de amplia 
utilización en economía, que nosostros no vamos a estudiar en este curso por razones de 
tiempo. Por ejemplo, los métodos Bayesianos, no paramétricos, o semi no-paramétricos.
Estudiaremos variasdimensiones del modelo de regresión lineal, incluyendo 
problemas de especificación, problemas de estimación de parámetros, testeo de hipótesis 
sobre los parámetros, y uso del modelo estimado para hacer predicciones condicionales.
El modelo clásico de regresión lineal se basa en seis supuestos que vamos a 
revisar a fondo antes de derivar estimadores y distribuciones.
1. Forma funcional lineal
2. Rango completo de los regresores
3. Media condicional de los residuos cero
4. Residuos esféricos
5. Regresores no estocásticos
6. Residuos normales.
Como veremos a lo largo de este capítulo, los primeros tres supuestos nos 
permiten obtener los estimadores de los parámetros, en tanto que los segundos tres 
supuestos nos permiten hacer inferencias, tests y proyecciones.
4.02 Análisis de los supuestos del modelo de regresión lineal
1 El primo de Charles Darwin, Francis Galton fue el primero en desarrollar y utilizar regresiones en el 
sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el 
que descubrió que las distintas generaciones tienden a parecerse más a sus ancestros lejanos que a sus 
padres (“Typical Laws of Heredity”, Nature, 15 (1877)). Galton llamó a la regresión reversión, lo que 
sugiere de mejor forma sus resultados. Su modelo fue extendido y mejorado por Karl Pearson y G. Udny 
Yule, sobre la base de la distribución normal multivariada. R.A. Fischer reformuló el modelo de 
regresión sobre la base del trabajo de Gauss que se refiere al método de método de mínimos cuadrados.
2 Websters Ninth New Collegiate Dictionary, Merriam-Webster Publishers, Spriengfield, MA. Pag 922.
4.3
Modelo lineal
Un modelo es lineal si podemos escribir la relación entre x e y como:
yi= xii (4.3)
donde α y β son parámetros constantes. Si el modelo analítico no es lineal, hay que 
linealizarlo (si es posible). Por ejemplo: 
 Y i=AKi

Li

logY i=logA log K i log Li
(4.4)
Note, sin embargo, que el modelo debe ser lineal en los parámetros, no en las 
variables. Por ejemplo, los siguientes modelos no lineales en las variables son lineales en 
los parámetros y pueden ser estimados mediante transformaciones simples de las 
variables.
yi=
1
xi
i
yi= log xii
(4.5)
De esta manera, podemos escribir el modelo general como:
yi=xii (4.6)
donde y es un vector con la variable de interés, x es una matriz con las variables que 
describen el fenómeno y  es un vector de perturbaciones aleatorias que denota la 
distancia entre MGD y MGE. Escribimos la ecuación (4.6) de manera explícita:
[
y1
y2
⋮
yn
]=[
x1
1
x1
2
⋯ x1
j
x2
1
x2
2
⋯ x2
j
⋮ ⋮ ⋱ ⋮
xn
1
xn
2
⋯ xn
j][
1
2
⋮
 j
][
1
2
⋮
n
] (4.7)
Para considerar la posibilidad que las variables aleatorias tengan media distinta 
de cero, incluimos un vector de 1 en la primera columna.
Cristobal Ojeda Yany
4.4
[
y1
y2
⋮
yn
]=[
1 x1
1
x1
2
⋯ x1
j
1 x2
1
x2
2
⋯ x2
j
⋮ ⋮ ⋮ ⋱ ⋮
1 xn
1
xn
2
⋯ xn
j][
0
1
⋮
 j
][
1
2
⋮
n
] (4.8)
Regresores de rango completo
El supuesto necesario es que el rango de x sea completo, x =k . Este 
supuesto es también llamado condición de identificación, ya que:
yi=1 xi
1
2xi
2
3 xi
3
i
xi
3
= xi
2
i
⇒
yi=1 xi
1
2xi
2
3[ xi
2
i]i
yi=31 xi
1
[23] xi
2
3ii
(4.9)
es decir, aunque es posible obtener un estimador de 23 no es posible identificar 
por separado los parámetros 2 y 3 . Evidentemente las variables económicas suelen 
tener bastante correlación entre sí, por lo que este problema se presenta con frecuencia 
en el trabajo empírico. Más adelante, cuando se discutan problemas de 
multicolinealidad, se abordará formalmente este tipo de fenómeno, su detección y su 
eventual corrección.
Resulta evidente que rango completo requiere que  xʹ =nx =k . No 
obstante, puede haber correlación imperfecta entre los regresores, lo que dificulta pero 
no impide la estimación de un modelo de regresión lineal y su uso para hacer 
proyecciones (este problema lo volveremos a estudiar en el Capítulo 5).
Media condicional de los errores cero
El supuesto de media cero de los errores es condicional en x . Es decir, 
E [i | x ]=0 . La intuición se relaciona directamente con la descripción del MGE 
discutido más arriba. Del supuesto anterior se derivan varios elementos que son 
importantes para entender qué hace y no hace el modelo de regresión lineal.
• El supuesto no es E [i | xi]=0 . 
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.5
• Si E [i | x ]=0 entonces E []=0 . Para probarlo, use la definición de densidad 
marginal.
• La presencia de la constante entre los regresores asegura que E [ | x ]=0 . 
• Si E [ | x ]=0 , entonces el modelo de regresión es una media condicional. Si, por 
el contrario, E [i | x ]≠ 0 , la regresión no es una media condicional, como se ve 
en la siguiente derivación.
E [ y | x ]=E [ x | x ]
 = E [ x | x ]E [ | x ]
 = x
(4.10)
• Se cumple que cov [ xi ,i]=0 .
Errores esféricos3
Para estudiar este supuesto es conveniente descomponerlo en dos partes. 
(a) Var [i | x ]=
2 es constante y, en particular, no depende de x . A esto se le llama 
homocedasticidad.4 La función cedástica es la que describe la incertidumbre asociada a los 
shocks o perturbaciones,  . Homocedasticidad señala que dicha incertidumbre no 
depende de haber observado una realización particular de x .
(b) Cov i , j | x =0 . A esto se le llama ausencia de correlación entre errores. Señala 
que observar una determinada perturbación o error no contiene información respecto 
del posible tamaño de otra perturbación.
La matriz de covarianzas condicional de los errores es:
E [ ' | x ]=[
E [11| x ] E [12 | x ] ⋯ E [1n | x ]
E [21| x] E [22| x ] ⋯ E [2n | x ]
⋮ ⋮ ⋱ ⋯
E [n1 | x ] E [n2| x ] ... E [nn | x ]
]=[

2
0 ⋯ 0
0 
2
⋯ 0
⋮ ⋮ ⋱ ⋮
0 0 ⋯ 
2] (4.11)
3 "Like other occult techniques of divination, the statistical method has a private jargon deliberately 
contrived to obscure its methods from non-practitioners." - G. O. Ashley
4 Los términos hetero y homocedástico fueron acuñados por Karl Pearson en 1905 ("On the general theory 
of skew correlation and non-linear regression," Drapers' Company Res. Mem. Biometric Series). El término 
se deriva del griego skedastos , que significa “capaz de ser repartido de manera irregular”.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.6
De manera sintética podemos escribir E [ ' | x ]= 2 I . Aplicando la 
descomposición de varianza se puede derivar la siguiente identidad:
V []=E x [V [ | x ] ]V x [E [ | x ]] (4.12)
es decir, la incertidumbre de la predicción hecha sobre la base de un modelo 
econométrico V x [E [ | x ]] es menor que la incertidumbre de los datos V [ ] .
Regresores no estocásticos
Este supuesto señala que la única fuente de incertidumbre en el modelo 
estadístico está en la variable que se modela, y . Más precisamente, en los parámetros 
que describen la distribución f  y , condicional en x .
Otra manera intuitiva de entender este supuesto es observar que no se está 
haciendo un modelo de los regresores. En ese sentido, los regresores son variables 
“controlables” por el científico. Por ello, usualmente se dice que “los regresores son fijos 
en muestras repetidas”, queriendo decir que si el científico quisiera repetir el 
experimento –sacar otra muestra, en nuestro caso– la única fuente de incertidumbre 
sería el resultado del experimento, pero no la variación de los condicionantes. Si los 
regresores son controlables, entonces los supuestos anteriores son incondicionales.
Este supuesto no es demasiadocostoso, como se deducirá al estudiar las 
distribuciones asintóticas de los estimadores más adelante.
Errores “normales”
Esto quiere decir que los errores, condicionales en x, se distribuyen con 
distribución normal. En particular,
i | x↝ N [0,
2 I ] (4.13)
¿Por qué “normales”? La manera de entender esto es que el modelo no pretende 
ser una descripción 100% fiel del fenómeno, sino sólo una aproximación conveniente. 
Por ello, hay un “error”. Si las causas de este error no son sistemáticas, una normal es 
una buena descripción. Si son sistemáticas, el modelo está mal especificado, pues 
debería incluir dichas sistematicidades.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.7
4.03 Representación gráfica de la regresión lineal
Una manera simple de entender la relación entre la muestra, los supuestos y la 
regresión lineal se encuentra en las siguientes tres figuras. Para que resulte fácil de 
entender se ha reducido el problema a un modelo univariado y una muestra de dos 
observaciones, pero el principio es general y el mismo para cualquier tipo de modelo. En 
la Figura 4.1 se presenta una muestra de dos observaciones (los pares {y1, x1} y {y2, x2}).
Figura 4.1
Las observaciones
Pero recordemos que, respecto de y , el problema de observar determinados 
valores es esencialmente estocástico y, más específicamente, que hemos supuesto que las 
perturbaciones aleatorias siguen una distribución normal (supuesto 6). Por otro lado, 
estamos suponiendo que los condicionantes x son determinísticos (supuesto 5). La 
Figura 4.2 describe el rol que juegan ambos supuestos.
Figura 4.2
La estocasticidad
P(u)
x1 x2
y1
y2
P(u)
x1 x2
y1
y2
4.8
Nóte varios elementos importantes. Primero, la “forma” de la distribución en 
términos de dispersión es idéntica para cualquier observación de la variable aleatoria x 
(supuesto 4). Segundo, las observaciones de y no tienen por qué coincidir con el valor 
esperado de y condicional en x, basta con que estén en el rango de la distribución. 
Tercero, no hay incertidumbre respecto de cada observación de x.
Finalmente, la regresión lineal describe la media condicional de y dado x , lo 
que gráficamente se ve como una recta (supuesto 1) que pasa por cada E [ yi | x ] , como 
se ver en la Figura 4.3.
Figura 4.3
La regresión
4.04 Derivación del estimador de mínimos cuadrados5
En términos generales la idea subyacente en el método de mínimos cuadrados es 
extremadamente simple y consiste en tratar de aproximar la curva de regresión 
E [ yi ∣ x ] usando las observaciones contenidas en la muestra cometiendo el menor error 
posible. Es usual referirse a:
• Modelo verdadero (poblacional) yi= xii
• Modelo muestral yi=
 xii
La idea del método de mínimos cuadrados es buscar el  que minimiza el error 
cometido. Si el procedimiento está bien,  convergerá a  . No tiene sentido minimizar 
5 El término Método de Cuadrados Mínimos fue acuñado por Adrien Marie Legendre (1752-1833), 
presentado en el apéndice de su libro Nouvelles méthods pour la determination des orbite des cométes (1803). 
Un tratamiento más completo del método apareció posteriormente en el libro de Gauss Theoria Motus 
Corporum Coelestium in Sectionibus Conicis Solem Ambientium de 1809. La disputa por la paternidad del 
método surgió porque Gauss afirmó que venía usándolo desde 1795.
P(u)
X1 X2
y1
y2
yi=xi
E y1|x1
E y2|x2
Cristobal Ojeda Yany
4.9
un error particular, por lo que es conveniente usar la suma de errores. Como hay puntos 
por arriba y abajo de la recta poblacional, entonces es necesario minimizar la suma de 
errores al cuadrado.
Estimador de mínimos cuadrados
Definimos la suma de residuos al cuadrado de un modelo lineal –para algún 0 – 
como:
∑
i=1
n
i |0
2
=∑
i=1
n
 yi−0 ' xi
2
=|0 ' |0 (4.14)
note que hemos usado el supuesto 1. En adelante omitimos el subíndice i salvo que sea 
confuso. El objetivo es minimizar la ecuación (4.14) escogiendo adecuadamente  , es 
decir:
min
0
S  0=0 ' 0= y−0 ' x '  y−0 ' x
 = y ' y−0 ' x ' y− y ' x 00 ' x ' x 0
(4.15)
Note que se ha usado el supuesto (3). Como sabemos de cálculo, minimizar la 
ecuación (4.15) requiere hacer que su derivada sea igual a cero:
∂ S 0
∂ 0
=−2 x ' y2 x ' x 0=0 (4.16)
La ecuación (4.16) –que en realidad es un sistema de ecuaciones– es llamada 
ecuación normal. Tomando la segunda derivada:
∂
2
S 0
∂0∂0 '
=2 x ' x (4.17)
por lo tanto cualquiera sea el valor de  , si x ' x es positiva definida el problema es 
una minimización.
Si x es de rango completo (supuesto 2), su inversa existe y se puede obtener el 
estimador de mínimos cuadrados (ordinarios).
=x ' x
−1
x ' y (4.18)
Cristobal Ojeda Yany
4.10
Note que sólo hemos usado los primeros tres supuestos, pero no los segundos 
tres. Es decir, es posible obtener un estimador del parámetro aún si no se cumplen estos 
últimos, porque ellos se refieren a la distribución del estimador.
Propiedades interesantes de la solución
De la ecuación (4.16) obtenemos 0=x ' x − x ' y=x ' x − y =−x '  . Si la 
matriz de regresores contiene una columna de unos se deduce 
1. cada columna de x es ortogonal a los residuos.
2. la suma de los residuos es cero.
3. la regresión pasa por la media.
4. la predicción de y hecha sobre la base de fijar xP es insesgada, y=x
p 
Vamos a usar repetidamente la siguiente matriz idempotente y simétrica:
M= I− x x ' x −1 x '  (4.19)
la que aplicada a y produce “los residuos de una regresión de y en x”, es decir:
My= I−x x ' x
−1
x '  y= y− x x ' x 
−1
x ' y= y−x = (4.20)
Regresión particionada
Supongamos que la regresión tiene dos grupos de variables, x1 y x2 . Entonces, 
las ecuaciones normales son:
[
x1 ' x1 x1 ' x2
x2 ' x1 x2 ' x2] [
1
2]=[
x1 ' y
x2 ' y] (4.21)
de lo cual obtenemos:
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.11
1=x1 ' x1
−1 x1 ' y−x1 ' x1
−1 x1 ' x22 (4.22)
De la ecuación (4.22) se desprenden varios resultados importantes:
(1) Si x1 ' x2=0 , es decir si x1 y x2 son ortogonales, los estimadores pueden ser 
obtenidos de regresiones independientes.
(2) Si x1 y x2 no son ortogonales, la omisión de x1 y x2 llevará a obtener 
estimadores sesgados.
Usando las ecuaciones (4.21) y (4.22) y definiendo M1 como los residuos de la 
regresión hecha sólo con x1 obtenemos:
x2 ' x1 x1 ' x1
−1 x1 ' y− x2 ' x1x1 ' x1
−1 x1 ' x22 x2 ' x22= x2 ' y
x2 ' [ I−x1x1 ' x1
−1
x1 ' ] x22=x2 ' [I−x1x1 ' x1
−1
x1 ' ] y
x2 ' M 1 x22=x2 ' M 1 y
(4.23)
Este es otro resultado importante, llamado el Teorema de Frisch-Waugh6: el 
estimador 2 describe la contribución marginal de x2 para explicar las variaciones de 
y , es decir neta de la contribución de x1 .
Bondad de ajuste7
El objetivo del análisis de regresión es dar cuenta (explicar) de las variaciones de 
y . Es decir, la variación total de y : ∑
i
 yi−y 
2
.
Sea M 0=[ I−
1
n
ii ' ] . Aplicada a y computa desviaciones con respecto a y . 
Entonces, la suma de cuadrados totales se puede escribir como y ʹ M 0 y . Así:
y ' M 0 y=
 ' x ' M 0 x
 ' M 0 ' M 0 =
 ' x ' M 0 x
 '  (4.24)
el lado izquierdo de la ecuación (4.24) corresponde a la suma total de cuadrados (SCT) 
en tanto que el primer término de lado derecho es la suma de cuadrados “explicados” 
6 Frisch, R. and Waugh, F., 1933, “Partial time regressions as compared with individual trends”, 
Econometrica, 45, 939-53.
7 El término bondad de ajuste proviene de un artículo de Karl Pearson donde ya se expresan dudas respecto 
de su utilidad: "The 'percentage error' in ordinate is, of course, only a rough test of the goodness of fit, 
but I have used it in default of a better." “Contributions to theMathematical Theory of Evolution. II. 
Skew Variation in Homogeneous Material”, Philosophical Transactions of the Royal Society of London (1895) 
Series A, 186, 343-414
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.12
por la regresión (SCE). El último término corresponde a la suma de residuos al cuadrado 
(SCR). Por ello, se define la bondad de ajuste como:
R
2
=
SCE
SCT
=1−
SCR
SCT
=1−
 ' 
y ' M 0 y
(4.25)
El problema de R 2 es que si se añaden variables a la regresión, éste no puede 
reducirse. Por ello, se necesita una medida de ajuste que penalice el exceso de 
regresores. El R 2 ajustado es dicha medida:
R
2
=1−
 ' /n−k 
 y ' M 0 y/ n−1
(4.26)
4.05 Propiedades del estimador de mínimos cuadrados en muestra 
finita
Las propiedades del estimador de mínimos cuadrados deben ser estudiadas 
tanto en muestra pequeña (finita) como grande (infinita) para entender a cabalidad el 
papel de los supuestos del modelo y su aplicabilidad en circunstancias prácticas. 
Adicionalmente, estudiaremos tanto el caso en que los regresores son estocásticos como 
determinísticos. Esto nos da cuatro casos de interés.
En esta parte estudiaremos las propiedades del estimador de mínimos cuadrados 
en muestra finita, dejando el caso de muestra grande para la sección 4.08. El estimador 
de mínimos cuadrados de  puede ser escrito como:
=x ' x 
−1
x ' y
 =x ' x 
−1
x ' [ x ]
 = x ' x 
−1
x ' x  x ' x 
−1
x ' 
 = x ' x 
−1
x ' 
 (4.27)
Si los regresores son no estocásticos, entonces x ʹ x −1 x ʹ es una constante. Así, 
E [ ]= . El estimador es insesgado, independientemente de la distribución de los 
residuos.
La matriz de varianzas y covarianzas de  se puede obtener usando la ecuación 
(4.27) directamente:
Cristobal Ojeda Yany
4.13
V [ ]=E [ −E [ ] −E [ ] ' ]
 =E [ x ' x 
−1
x '   ' x x ' x 
−1
]
 =x ' x 
−1
x ' E [  ' ] x x ' x
−1
 =
2
x ' x 
−1
(4.28)
La ecuación (4.28) señala que la varianza (incertidumbre con respecto) del 
estimador proviene tanto de la estocasticidad del problema –medido por la varianza de 
los errores– como de la variabilidad de los regresores. A mayor varianza de los residuos 
–es decir la parte no explicada— mayor es la imprecisión del estimador. A menor 
varianza de los regresores, mayor es la imprecisión del estimador.
Una vez obtenida la varianza del estimador resulta directo demostrar que ésta es, 
además, mínima. La demostración es llamada teorema de Gauss-Markov. El 
procedimiento consiste en comparar la varianza del estimador de mínimos cuadrados 
con la de un estimador rival. 
Supongamos que existe otro estimador insesgado que es cualquier combinación 
lineal de las observaciones de la variable de interés: =cy . Como este estimador rival 
es insesgado, se debe cumplir E [ ]=E [cy ]= . Entonces:
E [cy ]=⇒ E [cx c]=⇒ cx=I (4.29)
es decir, cualquier combinación lineal es válida (lo que le da generalidad al teorema). 
Obtenemos ahora la varianza del rival:
V [ ]=
2
cc ' (4.30)
Definimos la “distancia” entre ambos estimadores como Dy=− . 
Naturalmente se cumple que D=c− x ʹ x−1 x ʹ . Despejamos c y lo introducimos en la 
ecuación (4.30) para obtener:
V [ ]=
2
cc '
 =
2
[Dx ' x 
−1
x ' ][Dx ' x
−1
x ' ] '
 =
2
x ' x 
−1

2
DD'
(4.31)
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.14
ya que Dx=0 y cx= I . Entonces, V [ ]=V [ ]DD' . Si D≠ 0 , la varianza del rival 
es mayor y, por lo tanto, el estimador de mínimos cuadrados es de mínima varianza. 
Así, cada estimador k es insesgado y de varianza mínima.
Veamos ahora el caso en que los regresores son estocásticos, es decir, x no es fijo 
entre muestras. El truco para obtener las propiedades del estimador es primero obtener 
las propiedades condicionales en x y luego las propiedades no condicionales.
Obtengamos el estimador de mínimos cuadrados condicional en x usando la 
ecuación (4.27):
E [  | x]=x ' x−1 x ' E [ | x ]= (4.32)
esta es la esperanza condicional. Usamos la ley de expectativas iteradas para obtener la 
esperanza incondicional del estimador:
E [ ]=Ex [E [  | x] ]=E x[ x ' x 
−1 x ' E [ | x ]]= (4.33)
este resultado no depende de supuestos sobre la distribución de x sino sólo del 
supuesto 3 (no correlación entre regresores y errores).
Computamos, también, la varianza incondicional. Sabemos que la varianza 
condicional es V [  | x ]=
2
x ʹ x 
−1 . Por lo tanto,
V [ ]=E x [V [  | x ]]V x [E [  | x ]]
 =E x [V [  | x ]]
 =E x [
2
x ' x
−1
]
(4.34)
Como resulta evidente, la varianza del estimador depende de la realización de la 
muestra. Pero, para una realización particular de la muestra, el estimador de mínimos 
cuadrados es el mejor estimador lineal insesgado (MELI). Luego la conclusión principal 
de Gauss-Markov no se altera.
Caractericemos ahora la distribución del estimador de mínimos cuadrados. 
Debido a que hemos supuesto que los errores se distribuyen normales, entonces:
 | xN [ ,
2
 x ' x
−1
] (4.35)
esta es una distribución normal multivariada. Es decir, cada k se distribuye normal. 
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.15
Este resultado proviene del supuesto 6. Sin éste, no podríamos hacer inferencia 
alguna en este contexto. Cuando los regresores no son estocásticos, ésa es exactamente la 
distribución del estimador. Cuando los regresores son estocásticos, esa es la distribución 
condicional del estimador.
Como se ha supuesto que la distribución de los residuos es normal, la densidad 
conjunta queda descrita por la siguiente función de verosimilitud:
∏
i
f xi ;=∏
i
[2
2
]
−1 /2
e
− i
2
/2
2
=2 2 
−n
2
e
[−' /2
2]
⇒
log L  ,
2
; xi=
−n
2
log 2
2
−
1
2
2
 yi−xi '  yi−xi
(4.36)
Es evidente que maximizar la función de verosimilitud en este caso es 
equivalente a minimizar el segundo término que, a su vez, es una función de la suma de 
residuos al cuadrado. Entonces, el estimador de mínimos cuadrados es el de máxima 
verosimilitud y, por consiguiente, es MELI.
Estimador de la varianza de los errores, 
2
Para calcular la varianza del estimador de mínimos cuadrados de los parámetros 
de la ecuación (4.28) requiere conocer 
2
. Ello no es usual. Un estimador natural usaría 
los residuos muestrales:

2
=
1
n
∑
i=1
n
i
2
(4.37)
Este no es el estimador adecuado, sin embargo. Consideremos:
=My=M  x =M  (4.38)
Así, la suma de residuos al cuadrado es  ' = ' M  , cuyo valor esperado es 
E [  '  | x ]=E [ ' M  | x ] . Debido a que  '  y  ' M  son matrices cuadradas, obtener 
el valor esperado anterior es equivalente a la esperanza de su traza. Pero,
E [ tr   '  | x]=E [ tr  ' M  | x ]=E [tr M  '  | x ] (4.39)
4.16
como M es una función de x para un x dado, entonces
E [ tr M  '  | x ]= tr ME [ '  | x]
 =tr M 
2
I 
 =
2
tr M 
 =
2
tr  I n− x x ' x 
−1
x ' 
 =
2
[ tr  I n−tr x  x ' x 
−1
x ' ]
 =
2
[n−k ]
(4.40)
Por ello, el estimador insesgado de la varianza de los errores es: 

2
=
1
n−k
∑
i=1
n
i
2
(4.41)
En el Apéndice B se presenta un procedimiento en Gauss que hace estimaciones 
por mínimos cuadrados ordinarios, computando los estimadores y los estadígrafos 
asociados que hemos descrito en estas secciones.
4.06 Tests de hipótesis en el modelo multivariado
Sea yi=xi
 i el modelo estimado. Buscamos un método de hacer cualquier 
tipo de hipótesis e inferencia sobre el conjunto de parámetros estimados.Una manera 
general de hacer tests para hipótesis lineales es expresar dichas hipótesis de la siguiente 
manera:
R =q (4.42)
donde R es una matriz de orden jxk y q es un vector de orden jx1 (prejuicios). El 
truco consiste en escoger de manera inteligente las matrices R y q.
En términos generales, escribiremos:
4.17
r 1,1
1r1,2
2⋯r1,k
k=q1
r 2,1 1r 2,2 2⋯r 2,k k=q2
⋮
r j ,1
1r j ,2
2⋯r j , k
k=q j
(4.43)
donde los r son los elementos de R. Note que hay k parámetros y j ecuaciones (j<k). 
Usaremos la estructura de la ecuación (4.43) para derivar los distintos tipos de tests y, 
posteriormente, sus distribuciones.
Test de una hipótesis simple
Supongamos que queremos testear  j=2 . Usamos:
R=[0,0,⋯ ,1, 0,⋯ ,0 ]
q=2
(4.44)
de esa forma, R escoge el parámetro j-ésimo.
Test de una hipótesis de igualdad de parámetros
 Supongamos que queremos testear  j=
k . Es decir, 
 j−
k=0 . Escogemos:
R=[0,0 ,⋯,1 ,−1,⋯,0]
q=0
(4.45)
Test de varias hipótesis sobre parámetros
Supongamos que queremos testear si las siguientes hipótesis se cumplen  j=1 
y k=−4 . Escogemos:
R=[
0,0,⋯,1,0,⋯0
0,0,⋯,0,1,⋯0]
q =[1−4]
(4.46)
Note que ahora hay dos filas en q (j=2).
Test de varias hipótesis sobre varios parámetros
4.18
Supongamos que queremos testear si las siguientes hipótesis se cumplen 
 j=1−
i y
k= . Escogemos:
R=[
0,0,⋯,1,1,0,⋯0
0,0,⋯, 0,0,1,⋯0]
q =[1]
(4.47)
Note que también hay dos filas en q (j=2).
Ya sabemos cómo escribir cualquier grupo de hipótesis lineales en términos de 
R =q . ¿Cómo hacemos un test estadístico?
● La intuición es que si n→∞ , entonces sería fácil comparar directamente R =q
● Pero, n es finito. Por ello, aún si R ≠q en términos numéricos, estadísticamente 
podrían ser iguales.
Hagamos el clásico test para la hipótesis nula H 0 : R −q=0 :
R −q
Var R −q 
(4.48)
La intuición del test es directa. Si la distancia R −q es “grande” entonces 
R ≠q y se rechaza Ho. En la ecuación (4.48) hay dos cosas que no conocemos: (1) 
Var R −q y (2) la distribución del test. 
Estudiamos primero la varianza. Aplicando las propiedades de este operador al 
test:
Var R −q=Var R 
 =RVar  R '
 =R 2 x ' x −1R '
 =
2R x ' x −1R '
(4.49)
4.19
Estudiemos ahora la distribución del test en la ecuación (4.48). Note que R y q 
son constantes. Por ello, el numerador es una función de los errores normales (  es una 
combinación lineal de errores) y por lo tanto es N 0,2R x ' x −1R '  . Pero, estamos 
dividiendo por 
2R x ' x −1R ' , es decir, la distribución es N(0,1).
Como usualmente la varianza de los errores es desconocida, usamos el estimador 
de ésta y, por lo tanto, estamos dividiendo por algo que es estocástico. Pareciera que 
obtener la distribución es algo directo. El problema es que queremos la distribución de la 
razón y no la distribución del numerador y del denominador por separado. Excepto que 
éstos sean “independientes”. 
● Note que  es una combinación lineal de  del tipo L  . Ello, porque 
−

=x ' x −1 x '


.
● Note que 
2
 es una combinación lineal de  del tipo xAx . Ello, porque 
i ' i=i ' M i .
Para que ambos términos sean independientes, la combinación lineal de ellos 
debe ser ortogonal. Es decir, LA=0 . Es decir, x ' x −1 x ' M=0 , que obviamente se 
cumple.
Así, debido a que k se distribuye normal, el test de la hipótesis nula de un 
único parámetro es directamente:
z k=
k−k

2 Skk
↝N 0,1  (4.50)
Cuando la varianza de los residuos es desconocida demostraremos que tenemos 
una normal estándar dividida por una χ² ajustada por grados de libertad. Usamos el 
estimador de la varianza de la ecuación (4.41). Entonces, dividimos la ecuación (4.50) por 
la raíz del estimador para obtener:
t k=
 k−k/
2 Skk
n−k   2/ 2 /n−k 
=
 k−k
Skk 
2
↝ t n−k (4.51)
Así, el reemplazo de la verdadera varianza por su estimador produce una 
distribución t. La demostración es la siguiente. Conocemos la distribución de 
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.20
 k−k/
2 Skk pero queremos  k−k/ 
2 Skk . Luego tenemos que multiplicar y 
dividir por 
2 . Reacomodando los términos queda:
 k−k/
2
S kk
  2 / 2
(4.52)
De acuerdo a la ecuación (4.50), el numerador es normal estándar. El 
denominador es “algo”. 

2
=
 ' 
n−k 
 ⇒ n−k   2= ' = ' M  (4.53)
Ahora, dividimos por 
2
 convenientemente 
n−k 

2

2
=
 ' M 

2
 ⇒ [

 ]' M [

 ] (4.54)
Note que  se distribuye normal con media cero, por lo que / es N(0,1) y la 
ecuación (4.54) es el “cuadrado” de una normal estándar, por lo que se distribuye χ². Los 
grados de libertad son el rango de M que es (n-k). Así es que tenemos una N(0,1) 
dividido por una χ². Si queremos el test t debemos ajustar el denominador por los 
grados de libertad.
Cuando se trata de una hipótesis compleja, usamos directamente el test de Wald 
de la siguiente forma:
[R −q ]' 
2R x ' x −1R ' 
−1
[R −q ]↝
 J 
2 (4.55)
la distribución es más bien obvia. Obtener los grados de libertad del test (J) se deja de 
ejercicio.
Nuevamente, tenemos el problema que 
2
 es desconocida. Se usa el estimador 
de la ecuación (4.41) por lo que se obtiene el siguiente test que tiene la distribución de 
Fischer. 
[R −q ] ' R x ' x −1R ' 
−1
[R −q ] / J
 ' /n−k 
↝ F  J ,n−k  (4.56)
Cristobal Ojeda Yany
4.21
La intuición es de nuevo directa. Si R −q es “grande” entonces R ≠q y se 
rechaza Ho.
4.07 Tests de hipótesis y modelo restringido
Otra manera de pensar un test de hipótesis es en términos de “restricciones 
impuestas”. Supongamos que en vez de hacer el test, imponemos directamente la 
hipótesis nula y hacemos la regresión. Habrán dos resultados posibles: (1) la restricción 
que hemos impuesto si afecta la estimación, cambiando los parámetros estimados y (2) 
la restricción que hemos impuesto no afecta la estimación.
¿Dónde se reflejaría más fácilmente el efecto? Obviamente en los parámetros que 
no hemos restringido, pero sería dificil de evaluar. Más fácil de evaluar es el efecto sobre 
la suma de residuos al cuadrado,  '  . Si ponemos una restricción y afectamos la 
estimación, tendremos que estar cometiendo “más errores” que sin dicha restricción, 
porque la estimación sin restricción es la óptima min  '  . Por otro lado, si ponemos 
una restricción y no afectamos la estimación, entonces la restricción ya se cumplía y no 
estaremos cometiendo “más errores” que sin dicha restricción. 
Si llamamos 
* ' * a los errores de la regresión con la restricción impuesta, 
entonces:
•  ' =* ' * señala que la estimación con y sin restricciones son iguales.
•  ' * ' * señala que la estimación con y sin restricciones son distintas. 
¿Qué son  '  y 
*
' 
* ?
= y−x 

*
= y−x *
 (4.57)
Por lo tanto:

*
=x −x *=−x  *− (4.58)
de lo que se desprende

* ' *= ' − ' x  *−− *− ' x '  *− ' x ' x  *−
 = '  *−' x ' x  *−
(4.59)
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.22
Si queremos entender la ecuación anterior tenemos que estudiar  − 
*
 . Para 
ello, vamos a pensar de nuevo en el problema de optimización. Vamos a buscar 
*
 tal 
que sea óptimo bajo H 0 . Es decir,
min  y−x '  y−x  sujeto a H 0 :R =q (4.60)
formamos el Lagrangeano,
ℒ = y−x '  y−x −2R −q (4.61)
derivando, obtenemos
∂ℒ
∂ 
=−2x ' y2x ' x −2R ' =0
∂ℒ
∂
=−2R −q =0
(4.62)
de la primera ecuación normal obtenemos 
*
. Premultiplicamospor R x ' x −1 y 
obtenemos:
−2R x ' x −1x ' y2Rx ' x −1x ' x *−2R x ' x −1R ' =0 (4.63)
Note que el primer término es −2R  y el segundo es −2R 
*
. Entonces, 
=[R x ' x −1R ' ]
−1
R 
*
−q  (4.64)
De vuelta en la ecuación (4.62) despejamos:

*
=x ' x −1R ' [R x ' x −1R ' ]
−1
R −q  (4.65)
pero 
*
=Rβ−q . Usando la ecuación (4.62) en la ecuación (4.58), obtenemos

* ' *= '  *− ' x ' x  *−
 = ' R −q ' x ' x R −q
(4.66)
4.23
pero esto ya lo conocemos. Así,

* ' *− ' =R −q ' x ' x R −q  (4.67)
Por ello, el test F que usamos para evaluar hipótesis complejas puede ser escrito 
como:
[ 
* ' *− ' ]/ J
 ' /n−k
↝ F [ Jn−k] (4.68)
La ecuación (4.68) tiene una interpretación de gran importancia para la manera 
como entendemos el análisis cuantitativo en economía. Hemos demostrado que hacer un 
test respecto de uno o más parámetros es exactamente equivalente a hacer una 
comparación de dos modelos, uno restringido y uno sin restringir. Si las restricciones 
son válidas, el modelo restringido es una mejor descripción del fenómeno, en el sentido 
que es más eficiente en la descripción de éste.
Note que dividiendo el denominador y numerador por ∑
i=1
n
 yi−y 
2 obtenemos:
[R
2
−R
2*
] / J
1−R
2
/ n−k 
↝ F [
J
n−k ] (4.69)
lo que no es de extrañar por cuanto existe una relación directa entre estimadores de 
parámetros y bondad de ajuste. Recuerde que el estimador minimiza la SRC y la bondad 
de ajuste se define como R
2
=1−
SRC
SCT
.
4.08 Propiedades del estimador de mínimos cuadrados en muestra 
grande
Ahora vamos a obtener las propiedades asintóticas de los estimadores mínimos 
cuadrados. Hay dos razones para ello: primero, saber cuándo las propiedades de 
muestra finita no se aplican y, segundo, poder obtener las propiedades de estimadores 
no convencionales.
Cristobal Ojeda Yany
4.24
Vamos a suponer que limn→∞
1
n
x ' x=Q pos.def.
● Cuando x es no estocástico el supuesto es obvio.
● Cuando x es estocástico, el supuesto se va a referir al tipo de muestra 
(volveremos a esto más adelante).
El estimador de mínimos cuadrados puede ser escrito como:
=[
1
n
x ' x]
−1
[
1
n
x ' ] (4.70)
Tomando plim y suponiendo que Q−1 existe:
plim =Q−1 plim[
1
n
x ' ] (4.71)
Para encontrar plim del segundo término, definimos una variable auxiliar w:
1
n
x ' =
1
n∑i
x i i=
1
n∑i
w i=w (4.72)
Tomemos E[ w ]=
1
n∑i
E [w i ]=
1
n∑i
x i E[i ]=0 .
Tomemos V [w ]=E [w w ' ]=
1
n
x ' E [ ' ] x
1
n
=

2
n
x ' x
n
.
Así, limn→∞ V [ w ]=0⋅Q=0
Por lo tanto, w converge medio cuadráticamente a cero, plim w=0 , 
plim1/n x ' =0 , y plim = . Es decir, el estimador de mínimos cuadrados es 
consistente.
El supuesto plim 1 /n x ʹ x=Q es, en realidad, demasiado restrictivo. Las 
siguientes condiciones –llamadas condiciones de Grenander– son menos restrictivas 
pero suficientes.
4.25
1. Para cada columna de x , limn→∞ x k ' x k=∞ (no degenera a una secuencia de 
ceros o cada observación añade información útil para la estimación de los 
parámetros)
2. limn→∞
x ik
2
x k ' x k
=0 (ninguna observación domina la varianza promedio y, por lo 
tanto, no hay dominancia de un valor extremo).
3. La matriz x es de rango completo.
Distribución del estimador cuando los regresores son no estocásticos
Hemos visto que  existe si se cumplen las condiciones de Grenander pero 
¿cómo se distribuye el estimador? Tomemos de nuevo la ecuación (4.70), la que 
podemos re-escribir como:
n  −=[
1
n
x ' x ]
−1
[
1
 n
x ' ] (4.73)
Recordemos nuestros rudimentos de teoría asintótica de las clases anteriores: el 
lado izquierdo es conocido (Teorema de Límite Central). Estudiamos el lado derecho.
• Como la inversa es una función continua de Q, limn →∞ [
x ' x
n ]
−1
=Q
−1
.
• Estudiar la distribución límite de la ecuación (4.73) es equivalente a estudiar la 
distribución límite de ( 1 / n x ʹ  ), es decir:
1
n
x ' =n  w−E  w  (4.74)
pero ya sabemos que E [ w ]=0 , sólo interesa la distribución límite de n w .
Pero de la ecuación (4.72) sabemos que w es el promedio de n vectores 
aleatorios del tipo x i i con media cero y varianza:
V [ xi i]=
2
xi ' xi=
2
Qi (4.75)
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.26
por lo que 
V [n w ]=
2 Q=2
1
n
[ Q1Qn ]
 =
2 1
n∑i
x i ' x i=
2
x ' x
n 
 (4.76)
en el límite de muestra grande se obtiene limn→∞ 
2
Qn=
2 Q (de nuevo, no hay 
dominancia).
Finalmente, podemos usar el Teorema de Lindeberg-Feller para obtener:
1
n
x '  
d
N [0, 2 Q ] (4.77)
naturalmente, 
Q−1
1
n
x ' 
d
N [0, Q−12 Q Q−1] (4.78)
Entonces, 
n −
d
N [0, Q−1 2 Q Q−1 ] (4.79)
Finalmente, 

d
N [ ,

2
n
Q−1] (4.80)
El resultado es más importante de lo que se ve a simple vista. Note que no se ha 
supuesto ninguna distribución para los residuos y aún así el estimador es asintóticamente 
normal. Esto es consecuencia del teorema central del límite y del supuesto que se 
cumplen las condiciones de Grenander.
Cristobal Ojeda Yany
4.27
El estimador de la varianza de los errores
La ecuación (4.79) depende de 
2
 que es típicamente desconocido. Necesitamos 
el estimador asintótico de la varianza de los residuos (EVA). La contrapartida asintótica 
del estimador de 
2
 se obtiene de:

2
=
1
n−k
 ' M 
=
1
n−k
[ ' − ' x x ' x 
−1x ' ] 
 =
n
n−k [
 ' 
n
−
 ' x
n 
x ' x −1
n 
x ' 
n ]
(4.81)
Obviamente, 
• cuando n→∞ el primer término tiende a 1.
• El segundo término del paréntesis converge a cero.
• El primer término es el promedio de 
2.
 Si la varianza de este promedio es finita 
(es decir, el cuarto momento de  es finito), entonces la ecuación (4.81) converge 
a 
2
.
Por ello, plim  2
x ' x
n 
−1
=
2 Q−1 .
Distribución de los tests de hipótesis.
Cuando los errores no se distribuyen normal, los tests t, F y χ² no se pueden 
aplicar directamente.
Test t. Asintóticamente se tiene que distribuir normal (obvio). 
Test F. El test para la hipótesis R −q=0 es 
F=

* ' *− ' / J
 ' /n−k
=
R −q ' [R  2x ' x −1R ' ]−1R −q 
J
(4.82)
Cristobal Ojeda Yany
4.28
Pero, =x ' x −1 x '  . Por lo tanto,
F=
 ' x x ' x −1R ' [R x ' x −1R ' ]−1R x ' x −1 x ' / J
 ' M /n−k 
(4.83)
Sea L=x x ' x −1R ' [R x ' x −1R ' ]−1R x ' x −1x ' , entonces la ecuación (4.83) 
es:
F=
 ' L / J
 ' M /n−k 
=
/ ' L // J
[ ' M /n−k ]/2
 (4.84)
La ecuación (4.84) no tiene distribución conocida. Pero JF si la tiene:
JF=
/  ' L / 
[ ' M /n−k ] / 2

d

2
tr L = J  (4.85)
La razón es que el denominador converge a 1, en tanto que el numerador es –otra 
vez– una forma cuadrática. La traza de L –que se obtiene fácilmente– depende de Rx 
que es de rango J.
Distribución límite del test de Wald
Si n  − 
d
N [0,2 Q−1 ] y H 0 : R −q=0 es cierta, entonces:
W=R −q ' [R  2 x ' x −1R ' ]−1 R −q = JF 
d

 J 
2 (4.86)
Distribución del estimador de mínimos cuadrados cuando los regresores son 
estocásticos
Reemplazamos el supuesto que x es no-estocástico por [x i ,i ] secuencias de 
variables aleatorias i.i.d., con cov xi ,i =0 y donde x tiene matriz de covarianzas 
positiva definida y cuartos momentos finitos de  . Gráficamente, el modelo de 
regresión corresponde a la Figura 4.5.
4.29
Figura 4.5
Regresión con regresores estocásticos
El supuesto clave para obtener la distribución asintótica de los estimadores es
plim
1
n
x ' x= Q (4.87)
y la no covarianza entre x y  . Nuevamente, la distribuciónasintótica será Normal 
(ecuación 4.80) y si los cuartos momentos de  son finitos, 
2
 es un estimador 
consistente de 
2
 y la varianza asintótica estimada de los parámetros queda dada por la 
ecuación (4.81).
Cuando hay correlación entre x y  los resultados anteriores no son válidos y 
se debe usar variables instrumentales (lo veremos en la sección 5).
Distribución del test “t” con regresores estocásticos
¿Qué sucede cuando los regresores son estocásticos? Acabamos de obtener la 
distribución condicional del test t en x t |x  . Deberíamos integrar por x para obtener 
la distribución marginal del test t (es decir, la distribución no condicional en x ).
t k|x=
 k−k
 x ' x kk
−1

2
(4.88)
El estimador  es normal condicional en x . Su distribución marginal no tiene 
por qué ser normal porque depende de x . Cuando x es estocástico, el denominador no 
tiene por qué ser la raíz de una χ² ajustada por (n-k) grados de libertad. No obstante, el 
test sigue siendo “t” a pesar de que x contenga variables estocásticas y determinísticas. 
Ello, porque f t | x  –la integración para obtener la marginal– no es función de x .
P(u)
X1 X2
y1
y2
yi=xi
E y1|x1
E y2|x2
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.30
4.09 Transformaciones de estimadores: el método Delta
Frecuentemente, tenemos interés en usar funciones de los estimadores, f   . 
Calcular las distribuciones asintóticas podría ser una pesadilla, excepto que:
C=
∂ f  
∂  '
(4.89)
es decir, C es una matriz de tamaño jxk . Usando el teorema de Slutzky 
plim f  = f   obtenemos:
plim C=
∂ f 
∂
= (4.90)
y podemos obtener la transformación del estimador:
f  →N [ f  , 
2
n
Q−1 ' ] (4.91)
con EVA f  =C 2x ' x −1C ' .
4.10 Predicción8
Una vez parametrizado un modelo resulta natural preguntarse por las 
propiedades de las proyecciones hechas con éste. Hay dos alternativas de proyecciones: 
dentro y fuera de la muestra. A las segundas se les llama usualmente, predicciones. El 
valor efectivo para la observación “o” del modelo es y 0=x 00 , en tanto que el valor 
proyectado es y=x
p . Note que la proyección es lineal, insesgada, y de mínima 
varianza. Por ello el error de predicción es simplemente:
e f= y 0−y=x
0
− 
0 (4.92)
lo que pone de manifiesto las tres fuentes de error de una proyección.
8 "Those who have knowledge, don't predict. Those who predict, don't have knowledge." Lao Tzu.
Cristobal Ojeda Yany
4.31
● La estocasticidad de los regresores.
● La distancia que hay entre el parámetro y su estimador, aún si E[ ]= .
● La presencia del error aleatorio.
Resulta conveniente computar la varianza del error de pronóstico y deducir la 
expresión:
Var [ f ]=Var [x 0 −0 ]
 =

2
Var [ x0 −]
 =

2
[1
1
n
∑
j=2
k
∑
b=2
k
x j
0
−x j xb
0
−x bx ' M 0 x 
jb
]
(4.93)
de donde se desprende que la incertidumbre de la proyección depende de (1) la 
presencia de shocks aleatorios, 
2
, (2) el tamaño muestral, n, y (3) la distancia entre la 
proyección de los regresores y su media, x−x .
Medidas de calidad de la predicción
La principal medida de calidad de una regresión debiese ser con respecto del 
experimento que se está haciendo. No obstante, se usan frecuentemente medidas 
resumidas basadas en los errores de predicción dentro de la muestra. El más popular es 
el error cuadrático medio (ECM) que se define como:
ECM=
1
n0
∑ y i− y i 
2
(4.94)
el que es una variación es el error absoluto medio (EAM) 
EAM=
1
n0
∑∣ y i− yi∣ (4.95)
El problema del ECM y EAM es que dependen de la unidad de medida de las 
variables. Por ello, Theil propone el siguiente estadístico normalizado:
U=
1
n0
∑ yi− y i 
2
/
1
n0
∑ y i
2
(4.96)
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.32
El error cuadrático medio puede ser descompuesto en tres componentes que 
resultan interesantes:
1
n0
∑ y i− y i 
2
=∑
y i
n0
−y 
2
 s
y−s y 
2
21−r  s y s y (4.97)
donde s y , s y y r son las desviaciones estándares de cada variable aleatoria y la 
correlación entre predicción y valor verdadero. De esta descomposición se pueden 
obtener tres proporciones:
∑
yi
n0
−y
2
1
n0
∑ yi− y i 
2
Esta es una medida de sesgo, porque nos dice que tan lejos está la 
media de la predicción de la verdadera media de la variable
s
y−s y
2
1
n0
∑ yi− y i 
2
Esta es una medida de variación, porque indica qué tan lejos está 
la variación de la predicción respecto de la verdadera variabilidad 
de la variable.
2 1−r s y s y
1
n0
∑ yi− y i 
2
Esta es una medida de covariación residual que refleja los 
componentes no sistemáticos que separan la predicción del 
verdadero valor de la variable.
Una mejor predicción es aquella donde el sesgo sistemático y la impresición de 
las predicciónes son menores.9
4.11 Método generalizado de momentos
La estimación por mínimos cuadrados no es la única forma de parametrizar un 
modelo. Una alternativa interesante es el llamado método general de momentos (MGM), 
el que explota dos elementos: las propiedades de convergencia de los estadígrafos que se 
pueden construir a partir de una muestra y el hecho que los valores límites de dichos 
9 “Prediction is very difficult, especially about the future”. Mark Twain.
4.33
estadígrafos dependen de los parámetros que caracterizan la distribución de 
probabilidades del fenómeno. Por ejemplo, si tenemos una muestra de una distribución 
 , sabemos que la esperanza y varianza están relacionadas a los parámetros de la 
distribución  p ,q de la siguiente manera:
E [x t ]=
p
q
 E [x t−E [x t ]
2
]=
p
q2
(4.98)
entonces las condiciones sobre los momentos serían una función de tipo E [ f x ,]=0 , 
es decir,
E [x t ]−
p
q
=0
E [x t−E[ xt ]
2
]−
p
q2
=0
(4.99)
así, buscaríamos p* y q* tal que se cumplan las condiciones de la ecuación (4.99) 
usando la información de la muestra.
Para el modelo clásico de regresión lineal podemos derivar condiciones similares. 
Dado el modelo básico (ecuación 4.6) e imponiendo la condición de ortogonalidad entre 
regresor y residuo E[ x ,]=0 tenemos:
E[ y i |x ]=E [x i i |x ]=x i E [i |x ]=x i  (4.100)
Usando la ley de expectativas iteradas10 tenemos:
E [x i i ]=Ex [E [x i i |x i ]]=Ex [x i E [i |x i ]]=0 (4.101)
entonces, las condiciones son:
E[x i  y i−x i 
* 
]=0 (4.102)
Naturalmente, cuando el modelo es multivariado, habrá l ecuaciones en la 
ecuación (4.102) que deben ser optimizadas para recuperar los parámetros. Si el número 
de ecuaciones linealmente independientes en la ecuación (4.102) es igual o mayor a los 
10 Esta ley no parece ser de fácil comprensión para algunos políticos. Dan Quayle, vicepresidente de 
Estados Unidos, señaló: The future will be better tomorrow.
4.34
parámetros que se quiere estimar el problema tiene solución (el último caso se llama 
sobreidentificado). 
Una manera alternativa de entender este tema de la sobreidentificación es 
considerar el modelo de regresión:
y i=x i
1
1x i
2
2i
E[ x i , i ]=0
(4.103)
donde x 1=k , x 2=r y l=kr . Suponga ahora que se le informa que 2=0 . 
¿Cómo estimaría 1 ? Una alternativa es usar el estimador mínimos cuadrados en el 
modelo restringido y i=x i
1
1i . Pero ello sería ineficiente, pues no hace uso de toda la 
información. Note que hay l restricciones en la ecuación (4.103) y solo habría k 
restricciones en el modelo restringido. Si se usa toda la información habría l−k=r 
restricciones sobre los momentos adicionales que son de utilidad; estas se llaman 
restricciones de sobreidentificación (overidentifying restrictions). 
Generalicemos laestructura y notación del ejemplo anterior. Sea g  y ,z ,x , 
una función de dimensión l ×1 de un vector de parámetros  de dimensión k×1 con 
l ≥k tal que:
E [ g  y ,z , x ,0]=0 (4.104)
La restricción l ≥k señala que z corresponde a un conjunto de variables más 
amplio que el conjunto x , pudiendo incluir componentes o funciones de este último. En 
econometría a la ecuación (4.104) se le llama modelo de condiciones de momentos, en 
tanto que en estadística se le llama ecuación de estimación.
Note que se ha impuesto muy poca estructura sobre las innovaciones i , al 
menos en comparación con el método de mínimos cuadrados o el de máxima 
verosimilitud. No obstante, no hemos discutido dos elementos: (1) cómo se obtienen los 
parámetros y (2) cuáles son las propiedades asintóticas de este estimador.
Estimación de parámetros por método de momentos
Suponga que el modelo está exactamente identificado, es decir hay tantos 
parámetros desconocidos (l) en la ecuación (4.104) como ecuaciones disponibles, k. El 
problema radica en que desconocemos E[.]. Pero contamos con una muestra de la cual 
podemos derivar el estimador muestral de la condición de ortogonalidad, 
E [ f x ,]=0 :
4.35
f n =
1
n
∑
i=1
n
f x i , (4.105)
En el caso de la regresión lineal obtenemos:
1
N
∑
i=1
N
[x i  y i−x i 
*
]=0 (4.106)
de donde se desprende:

*
=∑
i=1
N
x i ' x i
−1
∑
i=1
N
x i ' y i  (4.107)
es decir, el estimador de mínimos cuadrados es un estimador de momentos.
El estimador del método de momentos se aplica cuando hay más condiciones 
para los momentos que parámetros por estimar, es decir, cuando el sistema está 
sobreidentificado. En tal caso, en general no habrá un 
*
 que haga f n  =0 , pero se 
puede buscar aquel  que haga que f n  esté arbitrariamente cerca de 0, es decir 
aquel que minimiza la ecuación (4.104). Consideremos la contraparte muestral de la 
ecuación (4.107):
g n =
1
n∑i=1
n
z i  y i−x i =
1
n∑i=1
n
z ' y−z ' x  (4.108)
Para una matriz arbitraria W n0 definimos:
J n =n g n  'W n gn  (4.109)
esta es una medida de “distancia” del vector g n  . Lo que hace el estimador MGM es 
minimizar la ecuación (4.109). Definimos:
GMM=argmin J n  (4.110)
Considere la derivada de la ecuación (4.110) tal que:
4.36
0=
∂ J n 
∂ 
 =2
∂ g n  'W n g n 
∂ 
 =2
1
n
z ' xW n
1
n
x '  y−z 
(4.111)
de donde se desprende:
2z ' x W n x ' y=2 z ' xW n x ' z  (4.112)
 y por lo tanto:
GMM=z ' xW n x ' z 
−1z ' x W nx ' y (4.113)
Note que el estimador MGM depende de W n pero sólo como factor de escala, es 
decir, si usamos cW n para c0 , el estimador no cambia.
Teoría asintótica para el estimador de método de momentos11
Para desarrollar la teoría asintótica aplicable en este contexto, tenemos que hacer 
los siguientes supuestos:
1. Los momentos poblacionales g n =E[ f x i ,] existen
12 y son finitos para 
todo  y para todo i. Además, existe un único 
* que hace g n 
*
=0 . 
2. f x i , obedece la ley débil de los grandes números. Es decir, 
f n x i ,− g n 
p
0 ∀  ∈ 
3. Existe una secuencia de matrices no-estocásticas W n tales que W n− W n
p
0.
Estos supuestos permiten demostrar que el estimador MGM es (débilmente) 
consistente. En términos esquemáticos, la prueba de consistencia del estimador consiste 
en usar los supuestos 2 y 3 para deducir que existe una secuencia no aleatoria 
Qn = g n ' Wn g n  tal que 
11 Una demostración formal de estos supuestos está desarrollada en L. Mátyás, Generalized Methods of 
Moments, Cambridge University Press, 1999.
12 La existencia de los momentos poblacionales requiere de supuestos más primitivos sobre la naturaleza 
del proceso estocástico de x . Este tema se discute in extenso en el curso de Teoría Econométrica III.
4.37
Qn − Qn 
p
0 (4.114)
converge uniformemente para todo ∈ . Además, se usa el supuesto 1 para demostrar 
que Qn=0 si y sólo si =
*
. Entonces, se deduce que si =argminQn  , si 

*
=argmin Qn  , y Qn − Qn 
p
0 entonces necesariamente 
p
 .
La derivación de la normalidad asintótica del estimador MGM requiere algunos 
supuestos adicionales:
1. f x i , debe ser continuamente diferenciable con respecto a ∈ .
2. Para toda secuencia donde se cumple que 
p
 , se cumple que Fn  − F n
p
0
3. f x i , satisface el teorema del límite central, es decir, 
V n
−½
n f n 0
d
N 0, I  donde Vn=n Var  f n 0 .
Con estos seis supuestos es posible demostrar que el estimador MGM tiene 
distribución asintótica normal:
[Fn  n' W n V nW n Fn  n ]
−½
[Fn  n ' W n Fn  n] n  n−
*

d
N 0, I  (4.115)
La matriz de ponderación W n óptima es aquella que minimiza la varianza del 
estimador MGM. Lamentablemente, ésta no es usualmente conocida. Por ello, dada 
cualquier matriz de ponderación, el estimador MGM es consistente, pero no 
necesariamente eficiente. Una alternativa en el modelo lineal sería fijar W n=I . Una 
alternativa mejor –recuerde MCG– es usar W n=x ’ x 
−1
. Dada dicha matriz como 
estimador de primer paso es posible computar los residuos del modelo como: 
i= yi−z i  y las ecuaciones de momentos: g i=x i i= g wi ,z i  . Computemos 
g n= g n  =
1
n∑i=1
n
g i y g n
*
= g i− g n (4.116)
Entonces se define:
W n=1n∑i=1
n
g i
*
g i
*
−1
= 1n∑i=1
n
g i g i '− gn g n ' 
−1
(4.117)
4.38
en probabilidad esta matriz W n converge a W n=E [ g i g i ʹ ]
−1
 que es la matriz 
eficiente. Por ello, el estimador MGM será asintóticamente eficiente.13
Hay una alternativa al estimador MGM de dos etapas que hemos desarrollado 
que posiblemente tiene mejores propiedades estadísticas. Considere que la matriz de 
ponderadores sea una función de  tal que el estimador MGM sea aquel que minimiza 
el criterio:
J n =n g n ' 1n∑i=1
n
g i
*
 g i
*
'Wn g n  (4.118)
donde g i
*
= g i − g n  . El  que minimiza la ecuación (4.118) es llamado 
estimador MGM de actualización contínua14.
Test de restricciones de sobreidentificación
Los modelos que están sobreidentificados tiene la facilidad de proveer espacio 
para testear las restricciones impuestas sobre la estructura del modelo. Note que 
g n
p
E[ g i ] y que, por lo tanto, g n puede ser usado para hacer un test sobre si 
E[ g i ]=0 . 
Note que J n =n g n  'W n gn  es una forma cuadrática en g n por lo que es 
un test natural de H 0 : E [ g i ]=0 . Si el modelo está correctamente especificado y si la 
matriz W n es asintóticamente eficiente:
J   d
→
 l−k
2
 (4.119)
este es llamado el test de Sargan-Hansen. Los grados de libertad del test corresponden al 
número de restricciones impuestas en la sobreidentificación.
Tests de hipótesis
13 En ocasiones se usa el estimador alternativo Wn= 1n∑i=1
n
g i g i ' 
−1
. El problema es que este estimador de 
momentos no centrados no garantiza que E [x ’ ε ]=0 , lo que produce un estimador sesgado y reduce el 
poder de los tests. Verifique que tipo de estimador usa su programa econométrico. 
14 Ver Hansen, L.P., Heaton, J. and Yaron, A. (1996), “Finite Sample Properties of Some Alternative GMM 
Estimators,” Journal of Business and Economic Statistics, 14:262-280.
4.39
Como se puede ver el test anterior testea la estructura completa del modelo. Para 
hacer tests de hipótesis ocupamos directamente la lógica de testear un modelo 
restringido versus uno que no lo está. El procedimiento es directo:
● Supongamos que hay un conjunto de hipótesis sobre los parámetros 
H 0 : h  =0
● Supongamos que W n está dada, el criterio delestimador MGM no restringido es 
es J n  =n g n  ʹ W n g n  . Por otro lado, el criterio del estimador MGM 
restringido es es J n  | h=0=n g n ʹ W n g n  .
● Entonces el test de distancia es D= J  − J   . Si se usa la misma matriz W n 
para ambos J   entonces el test se distribuye asintóticamente χ² r  .
Un punto importante de hacer notar que h  no tiene por qué ser lineal, lo que 
es una ventaja desde el punto de vista de la flexibilidad del análisis. Por otro lado, si las 
hipótesis fuesen lineales, el test de restricciones de identificación corresponde al test de 
Wald.
4.40
Apéndice A: Ejercicios
1. En una regresión lineal las variables del lado derecho son independientes, las columnas 
de la matriz x son independientes y los errores se distribuyen independientementes." En 
la frase anterior se usó la palabra "independiente" en tres distintos sentidos. 
Explique cada uno de los usos de ella y discuta que papel juegan dichos 
conceptos en la teoria clásica de estimación de modelos lineales.
2. En el modelo lineal y=x  , un elemento central del análisis econométrico 
clásico es que el estimador de  es independiente de los residuos,  . 
Demuestre.
3. ¿Cómo se entiende el supuesto de rango completo si x contiene sólo una 
variable?
4. ¿Qué restricción debe cumplir la matriz de momentos de los regresores para que 
sea posible obtener estimadores mínimos cuadrados con propiedades estándares 
si x es determinístico? ¿Qué pasa cuando se levanta el supuesto que los 
regresores son no-estocásticos?
5. Suponga que tiene una muestra de n datos de { y n , xn }. Derive el estimador de 
mínimos cuadrados de la regresión de y n en x n. Suponga ahora que a la 
muestra se le añade un dato. Demuestre que el nuevo estimador del parámetro 
es:
n1=
n
1
1x s ' x n ' x n
−1 x s
xn ' x n
−1x s ' [ y s−x n ' s ]
Note que el último término es es , es decir el residuo de la predicción de ys 
usando los coeficientes obtenidos con la muestra x n . 
6. Si nos fijamos en la fórmula de la varianza estimada del estimador de mínimos 
cuadrados, resulta obvio que mientras más observaciones tengamos ésta se 
reduce y más preciso es el estimador (demuestre). Por ello, es conveniente tener 
más datos. Si eso es así, ¿para qué buscar más datos? ¿No bastaría con poner los 
mismos datos dos veces? Con ello tendríamos 2n datos, en vez de n. (considere 
x no estocástico).
7. Considere el caso de la regresión y=x  y el de la regresión “inversa”, 
x= y* ¿bajo qué condiciones es posible recuperar el estimador de  a 
partir del estimador de γ? No olvide referirse a la desviación estándar del 
estimador.
8. Demuestre que el estimador de mínimos cuadrados ordinarios es de varianza 
mínima. 
Cristobal Ojeda Yany
Cristobal Ojeda Yany
4.41
9. ¿En qué caso los coeficientes de una regresión de Y en x 1 y x 2 son idénticos a 
los de dos regresiones independientes, una de Y en x 1 y otra de Y en x 2 ? ¿Por 
qué? ¿es necesario poner una constante en cada una de estas últimas dos 
regresiones o basta ponerla en una sola?
10. Su jefe juntó datos de precios y ventas de vino de los últimos 25 años en Chile y 
concluyó: “cada vez que subo el precio 10% las ventas caen 5%, por lo que la 
elasticidad es -0.5". Explíquele –con delicadeza pero con absoluto detalle– por 
qué su estimación es inconsistente.
11. Considere la función de producción con elasticidad de sustitucion constante 
(CES):
Y i ,t=[K i , t
−
1−Li , t
−
]
−
 e i , t

Donde los subindices i y t, son firmas y tiempo respectivamente, Y es el 
producto, K es el capital, y L es el trabajo, y donde los parámetros γ, δ, ν, y  se 
denominan parámetros de eficiencia, distribución, rendimientos de escala, y 
sustitución, respectivamente. Como la función CES no es lineal en los parámetros 
no pueden estimarse por mínimos cuadrados ordinarios. Demuestre que la 
función puede linealizarse utilizando la técnica de Taylor de la siguiente manera:
LnY i , t=i1LnK i , t2LnL i , t3[ ln
K i , t
L i , t ]
2
i , t
y encuentre las expresiones de equivalencia entre los estimadores  y los 
parámetros de la ecuación.
12. Demuestre que en una muestra finita, el estimador de la varianza de los residuos 

2
=n−k −1∑i
2
 se distribuye χ². 
13. Demuestre que en una muestra infinita se requiere que los cuartos momentos de 
la distribución de los residuos sean finitos para que el estimador asintótico exista.
14. Demuestre que testear un conjunto de restricciones lineales es equivalente a 
hacer un test tipo F entre una ecuación restringida y una que no lo está.
15. Suponga que el verdadero modelo es y=xu (no tiene constante) pero que 
Ud. usó uno de esos softwares de econometría de segunda clase y tuvo que 
estimar su modelo con la constante. ¿La omisión de esta variable causa sesgo? 
Compare la varianza del estimador de  del modelo verdadero con la del 
estimado.
16. Considere el siguiente modelo y i=x ii f i =1/e
−i / i0 . 
Note que los errores tienen la característica que siempre son positivos. 
4.42
(a) calcule la E[] . 
(b) demuestre que el estimador de mínimos cuadrados de la pendiente es 
consistente pero el del intercepto es inconsistente.
17. Demuestre que R 2 puede ser negativo.
18. Demuestre que el R 2 ajustado ( R 2 ) se puede escribir en función de R 2 como:
R 2=1−
n−1
n−k
1−R 2
19. Pruebe que R 2 no puede reducirse si se añade una variable en la regresión. Dé 
la intuición.
20. Suponga que una regresión lineal es adecuada y el modelo está bien especificado. 
¿Tiene el R 2 computado alguna distribución?
21. Considere la regresión de y en K variables (incluida la constante) representadas 
por X . Considere un conjunto de regresores alternativos Z=XP , donde P es 
una matriz no singular. Así, cada columna es una mezcla de algunas columnas 
de X . Pruebe que los vectores de residuos de la regresión de y en X y de y en Z 
son idénticos. ¿Qué importancia tiene esto respecto de la posibilidad de cambiar 
el ajuste de una regresión mediante la transformación de los datos?
22. El problema de un productor es cómo predecir la demanda de su producto de 
exportación (yuca). Ud hace un modelo econométrico tipo x t=α 0α 1Y t
*
−α 2 Pxt 
(log demanda yuca, log ingreso externo y log precio yuca, respectivamente). Ud 
estima los parámetros por mínimos cuadrados. Su jefe no cree en la econometría 
y tiene sus propias elasticidades,  , calculadas al ojo. Pruebe que la diferencia 
entre su R 2 y el R 2 de su jefe, es proporcional a: − ́ZZ − donde Z = 
{Y,Px} y {  , } los vectores de parámetros.
23. Considere el siguiente modelo yt= ' xtt , con x=[ c ,z ] y donde c es una 
constante y z un conjunto de variables. Suponga que la varianza de  es 
constante, 
2
. Encuentre la varianza de la predicción fuera de muestra de y. 
Demuestre que ésta se reduce cuando aumenta el tamaño de muestra y mientras 
más cerca estamos de E[ x ] .
24. ¿Cuáles son las fuentes de incertidumbre en una predicción ( y ) hecha con un 
modelo lineal del tipo y=x u ? Calcule analíticamente la V  y  .
25. Demuestre que testear un conjunto de restricciones lineales del tipo R =q es 
equivalente a hacer un test tipo F entre una ecuación restringida y una que no lo 
está.
4.43
26. Suponga que Ud es un monopolista con costo marginal = 10. Encuentre un 
intervalo de confianza al 95% para el producto que hace que su beneficio 
esperado máximo. Ud tiene la siguiente información. (use una demanda lineal).
Q 3 3 7 6 10 15 16 13 9 15 9 15 12 18 21
P 18 16 17 12 15 15 4 13 11 6 8 10 7 7 7
27. Suponga que tiene una muestra de n datos de { y n , xn }. Suponga ahora que a la 
muestra se le añade un dato. Demuestre que el estimador de mínimos cuadrados 
de la regresión usando n+1 datos es proporcional al residuo de la predicción de y 
basada en los coeficientes obtenidos con la muestra de n datos. 
28. Para una muestra de datos del periodo [1, t ] , considere el siguiente modelo 
yt= xtt donde t=t−1t y t es ruido blanco Gaussiano.
1. Compute el error de predicción de y tn y su intervalo de confianza del 90%.
2. Demuestre que el intervalo de confianza converge en distribución.
29. Demuestre que si  es el estimador MICO, E[  ' ]= ' 
2
∑
k=1
K
1
k
, donde λ 
es uno de los valores propios de x ' x .
30. Considere el modelo y i=1x ii , que no incluye la constante, y donde el error 
cumple las condiciones Gauss-Markov. 
 I. Derive el estimador de mínimos cuadrados ordinarios de 1 y llámelo 1 . 
¿Es este estimador insesgado? Demuestre que es de varianza mínima. 
 II. Considere el modelo y i=01 x ii , donde el error cumple las 
condiciones Gauss-Markov. Demuestre que, para este modelo, el estimador 
1 es sesgado. ¿es posible determinar la dirección del sesgo?. Naturalmente, 
si β0=0 no hay sesgo, pero ¿es la varianza del estimador 1 mayor o menor 
que la varianza del estimador mínimos cuadrados de 1 ? Demuestre que si 
E[ x i ]=0 , el estimador 1 es insesgado.
4.44
Apéndice A: Algebra de Matrices y Gauss
Operaciones elementales (ver programa de Gauss asociado)
1. Suma de matrices. Sean A=[aij] y B=[bij] dos matrices de orden m×n. La suma de 
matrices corresponde a la matriz C=[cij] cuyos elementos genericos son cij=aij +bij. 
Ejemplo:
A=[
1 2 3
4 5 6
7 8 9] y B=[
0 1 1
1 0 1
0 1 0] entonces AB=C=[
1 3 4
5 5 7
7 9 9] .
Note que A y B son conformables para la suma.
Note que la suma es conmutativa (A+B=B+A) y asociativa (A+(B+C)=(A+B)+C).
2. Multiplicación por escalar. Sea λ un escalar, entonces λA =[λaij]. Ejemplo, si λ es 2.
A=[
2 4 6
8 10 12
14 16 18]
3. Multiplicación de matrices. El producto de las matrices A y B debe ser conformable 
respecto de la multiplicación, es decir, el numero de filas de B debe ser igual al 
número de columnas de A. Los elementos de C=A*B corresponden a:
cij=∑
j
aij∗b jk
C=[
102130 11203 1 112 13 0
4 05160 41506 1 4 15 16 0
708 19 0 71809 1 7 18190 ]=[
2 4 3
5 10 9
8 16 15]
La multiplicación de matrices en general no es conmutativa.
4.45
B∗A=[
9 9 12
3 0 3
−4 −11 −9]
4. Transposición. La transpuesta de la matriz A=[aij] de orden m×n es una matriz 
A'=[aji] que tiene por filas las columnas de A y por columnas las filas de A.
A '=[
1 4 7
2 5 8
3 6 9]
Las reglas básicas de la transposición son:
1. La transpuesta de A' es A.
2. Si C=A+B entonces C' = A' + B' 
3. Si C = AB then C'=B'A'.
5. Inversión. Si A=[aij] de orden n×n, entonces su inversa, si existe, es una matriz 
definida de manera única A-1 de orden n×n que satisface la condicion AA-1=I, 
donde I es la matriz identidad (tiene 1 en la diagonal y 0 fuera de la diagional). 
B
−1
=[
−1 1 1
0 0 1
1 0 −1]
La inversa existe sólo si el determinante de la matrix no es cero.
Las reglas básicas de la inversion son:
1. La inversa de A-1 es A.
2. La inversa de la transpuesta es la transpuesta de la inversa, (A')-1=(A-1)'. 
3. If C=AB, then C-1=B-1A-1.
6. Operaciones elementales. Las siguientes operaciones elementales se usan para, 
entre otros fines, para obtener inversas:
4.46
1. Multiplicación de una fila por un escalar, λ.
[
 0 0
0 1 0
0 0 1][
1 2 3
4 5 6
7 8 9]=[
1 2 3
4 5 6
7 8 9 ]
2. Resta de una fila por otra.
[
1 0 0
−1 1 0
0 0 1 ][
1 2 3
4 5 6
7 8 9]=[
1 2 3
3 3 3
7 8 9]
3. Intercambio de filas
[
0 1 0
1 0 0
0 0 1][
1 2 3
4 5 6
7 8 9]=[
4 5 6
1 2 3
7 8 9]
Para obtener una inversa se usa una secuencia de estas operaciones elementales. 
Consideremos el caso de una matriz de 2x2:
U=[
2 5
4 3]
computamos [
1/2 0
0 1][
2 5
4 3]=[
1 2.5
4 3 ]
computamos [
1 0
−4 1][
1 2.5
4 3 ]=[
1 2.5
0 3 ]
computamos [
1 0
0 1/3][
1 2.5
0 3 ]=[
1 2.5
0 1 ]
computamos [
1 −2.5
0 1 ][
1 2.5
0 1 ]=[
1 0
0 1 ]
Capítulo 5
Violación de los Supuestos del Modelo de Regresión Lineal
En esta sección estudiamos problemas derivados de la violación de los seis 
supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo 
anterior. La lógica1 de operar es la siguiente: en primer lugar estudiamos el efecto de la 
violación sobre los estimadores mínimos cuadrados y los diferentes tipos de tests. En 
segundo lugar, propondremos, si es posible, alguna una solución, examinando el 
contexto en el que dicha solución es válida.
La pregunta más natural que aparece es ¿cómo sabemos que se ha violado un 
supuesto? La respuesta no es simple porque hay muchas consecuencias de violar un 
supuesto y, además, porque muchas veces se pueden violar varios supuestos 
simultáneamente. Aunque no hay reglas al respecto, algunos fenómenos que delatan la 
violación de algún supuesto son:
• Los errores que no tienen la característica de ser ruido blanco que se les exige 
para representar la parte asistemática del fenómeno en cuestión. Este es el 
indicador más importante de la violación de algún supuesto aunque, debe 
reconocerse, es difícil de evaluar aún con los mejores tests estadísticos.2
• Los parámetros estimados tienen características que no son congruentes con los 
pre/juicios que se tenían antes de hacer el experimento, en términos que 
presentan signos opuestos a los esperados, baja significancia estadística, o son 
poco robustos ante pequeños cambios en las condiciones de estimación.
• Existen problemas con los estadísticos asociados a la regresión, como son R², tests 
de correlación residual, o la comparación entre el error estándar de la variable de 
interés –  y – el de la regresión,  y .
• Baja capacidad predictiva del modelo estimado o sesgo sistemático en la 
predicción.
1 “Lógica es el arte de pensar y razonar en estricta concordancia con las limitaciones e 
incapacidades de la incomprensión humana” Ambrose Bierce, Diccionario del Diablo.
2 Usualmente en estadística es más fácil demostrar que algo no es lo que se suponía que afirmar 
que sí lo es.
5.2
5.01 Problemas de Especificación I: Regresores Inadecuados
Es frecuente que al modelar el econometrista tenga varias alternativas de 
variables que puede incluir o excluir del modelo. En principio, la teoría debiera sugerir 
una especificación completa y las hipótesis que se va a estudiar. Pero a veces las teorías 
no son muy “finas” y hay espacio para probar distintas especificaciones.
En ese contexto, hay dos tipos de variables (pertinentes e irrelevantes) y dos 
situaciones (incluidas y excluidas). Dos combinaciones son obvias;3 pertinente incluida e 
irrelevante excluida. Las otras dos son más interesantes de estudiar.
Omisión de variable pertinente
Un problema econométrico común en los modelos económicos es la omisión de 
variables que pueden ser potencialmente importantes (típicamente por mala 
especificación analítica o por limitaciones de los datos). Supongamos que el modelo 
y=x  es particionado en dos grupos de variables:
y=x 11x 22 (5.1)
Supongamos ahora que la estimación excluye x 2 . Entonces:
1=x 1 ' x 1
−1
x 1 ' y
=x1 ' x1 
−1
x 1 ' [x 11x 22]
=1x1 ' x1 
−1
x 1 ' x 22x 1 ' x 1
−1
x 1 ' 
(5.2)
esta expresión ya la hemos visto con anterioridad, de donde derivamos este importante 
resultado:
E[ 1 ]=E [1x 1 ' x 1
−1
x 1 ' x 22x 1 ' x 1
−1
x 1 ' ]
=1E[ x 1 ' x 1
−1
x1 ' x22 ]
(5.3)
Entonces, 
3 "Obvious" is the most dangerous word in mathematics (Eric Temple Bell, Mathematical Circles 
Squared, Boston, 1972).
5.3
E[ 1 ]=1 si x 1 ' x 2=0
≠1 si x 1 ' x 2≠ 0
(5.4)
Por lo tanto,la omisión de variables pertinentes no correlacionadas con aquellas 
que quedan en el modelo no sesga el estimador de los coeficientes. Pero la omisión de 
variables pertinentes correlacionadas con aquellas que quedan en el modelo sesga los 
estimadores. El sesgo es de dirección y tamaño desconocidos, porque no conocemos 2 . 
Pero hay un segundo efecto. Estudiemos la varianza del estimador usando la 
inversa de matrices particionadas. La varianza del verdadero estimador, es decir 
incluyendo x 2 , es
V [ 1 ]=
2 [x 1 ' x1−x 1 ' x 2x 2 ' x 2
−1
x 2 ' x 1]
−1 (5.5)
en tanto que la varianza del estimador en el modelo que excluye x 2 es
V [ 1 ]=
2 x 1 ' x 1
−1 (5.6)
Por lo tanto, en el segundo caso el estimador de 1 es sesgado pero de menor 
varianza. Sin embargo, consideremos el caso más común en el que resulta necesario usar 
el estimador de 2 , 
2= ' /n−k1  , donde  son los residuos del modelo 
estimado excluyendo x 2 (no los del modelo completo,  ). Pero podemos expresar  
en función de  usando la matriz M 1 :
 
=M 1 y
=M 1x 11x 22
=M 1 x 22M1
(5.7)
donde nuevamente M 1=I−x 1 ʹ x1
−1
x 1 ʹ , es decir, produce “los residuos de una 
regresión de lo-que-haya-a-la derecha de x 1 ”. Por lo tanto, en los residuos muestrales 
están los verdaderos residuos más el efecto de la correlación de x 1 y x 2 ponderado 
por 2 .
¿Cómo afecta esto al estimador de la varianza de los residuos? Tomando la 
ecuación (5.7), multiplicando por su traspuesta y tomando el valor esperado se obtiene 
la siguiente expresión:
E[ ' ]=2 ' x 2 ' M 1 x 22E [ ' M1] (5.8)
5.4
Entonces,
E[ ' ]=2 ' x 2 ' M 1 x 22
2
tr M 1
=2 ' x 2 ' M 1x 22
2n−k1
(5.9)
El primer término del lado derecho de (5.9) es no-negativo, ya que es una forma 
cuadrática. El segundo es el estimador de la varianza de los residuos para el modelo que 
excluye x 2 . Por ello, la varianza estimada de los residuos –obtenida como la suma de 
los residuos al cuadrado ajustada por grados de libertad– estará sesgada. Es interesante 
notar que aún si x 1 ʹ x 2=0 y los estimadores de los parámetros no están sesgados, el 
estimador de la varianza de los residuos –y por consiguiente los tests t– si lo está.
Adición de variable irrelevante
Nuevamente, debemos contestar las clásicas preguntas: ¿Es el estimador de  
insesgado? ¿Se ha afectado la varianza del estimador de  ? ¿Se ha afectado 2 ? ¿Cuál 
es el impacto sobre los tests? Se deja de tarea encontrar las respuestas, que son bastante 
obvias.
Una conclusión errónea, popular y peligrosa
Como hemos visto, en términos de la calidad de los estimadores resulta 
preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugeriría que 
la mejor estrategia de modelación econométrica es poner “de todo” al lado derecho de la 
regresión, mientras alcancen los grados de libertad. Así, si bien los estimadores tendrían 
problemas de eficiencia, no habría problemas de sesgo. Estos últimos son, naturalmente, 
más graves.
Existen problemas graves con esta estrategia. El modelo de regresión ha sido 
derivado bajo la premisa que éste describe un experimento aleatorio en un espacio de 
probabilidad asociado a un conjunto de posibles eventos de interés. En tal caso, el diseño 
del experimento debe ser hecho ex-ante y debe producir tanto el conjunto de hipótesis 
que se desea estudiar como la especificación funcional particular que se debe usar.
Cuando se incluyen variables aleatorias con el fin de maximizar algún criterio 
(usualmente bondad de ajuste) el primer problema que se presenta es que, en rigor, no 
puede compararse el parámetro de interés entre modelos. Considere los dos modelos 
planteados en la ecuación (5.10):
5.5
a  yi=01 x i
b  y i=01 x i2w i
(5.10)
evidentemente, el parámetro 1 de la ecuación (a) se refiere a un experimento cuyo 
espacio de eventos es distinto del que se considera implícitamente en la ecuación (b), lo 
que impide la comparación entre modelos. Otra manera de ver este mismo problema es 
considerar que la modelación econométrica equivale a estudiar la distribución 
condicional F  y |x  , la que puede ser muy distinta de F  y |x ,w  .
En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir 
una especificación no puede usarse esa misma muestra para (in)validar dicha 
especificación.4 En el primer caso, se está usando la información para descubrir 
regularidades de interés (usualmente mal llamadas, hechos estilizados) y motivar la 
modelación y el análisis económico de algún fenómeno. En el segundo caso, se está 
usando un conjunto de variables aleatorias para discutir la validez de una proposición 
económica hecha con independencia de la realización (muestra) de dichas variables 
aleatorias. Si bien ambos casos son válidos por separado, en conjunto ellos no 
constituyen una base adecuada de modelación econométrica.
Frecuentemente los investigadores olvidan este hecho elemental y se engarzan en 
una verdadera carrera de caballos con distintos modelos econométricos, ponderando sus 
virtudes y defectos por medio de una batería de tests. 
¿Cómo sabemos, entonces, si un modelo está bien especificado? Sólo la teoría 
económica nos puede sugerir una especificación. Una vez obtenida una muestra acorde 
al testeo que se desea hacer, hay dos alternativas: si la teoría es congruente con los datos, 
nos quedamos con ésta como una representación adecuada de datos caracterizados por 
algunas regularidades empíricas. Si la teoría no es congruente con los datos, cambie de 
teoría.
Existe la tentación a poner cosas del lado derecho, sólo para encontrarse después 
que no hay como justificar en serio la inclusión de dichas variables. Hay, sin embargo, 
dos objeciones comunes a la idea que un investigador debe limitarse a la disciplina que 
le impone su teoría económica:
1. Si el test t de estas variables adicionales es mayor que 2 ¿por qué no incluirlas? 
El resultado es el peor. La (o las) variable(s) parece(n) ser importante(s) desde un 
punto de vista estadístico para describir la media condicional de y, pero no tenemos idea 
por qué o qué papel desempeñan desde el punto de vista analítico. Lo mismo se aplica a 
justificar por bondad de ajuste: no olvide que el R² es una función del test t. Si se añade 
una variable cuyo test t es mayor que 2, el R² de la regresión sube.
4 Esta es una discusión bastante profunda e, inevitablemente, impopular. Ver D.G. Mayo, Error 
and the Growth of Experimental Knowledge, The University of Chicago Press, Chicago, Il. 1996.
5.6
2. ¿Por qué no usar las k variables disponibles y hacemos una competencia “todos-contra-
todos” seleccionando aquellas que maximizan R² con tests t significativos al, digamos, 95%? 
Esta técnica, llamada stepwise regression, busca aquella combinación lineal de los 
componentes de x que maximiza la bondad de ajuste, R². Esto tiene bastantes problemas. 
En primer lugar, la selección es mecánica con independencia de las restricciones que 
impone la teoría. En segundo lugar, es difícil comparar entre modelos (¿cómo se 
distribuye el test de distancia entre dos o más R²?). En tercer lugar, esto es data mining.
El problema de data mining5, en realidad, excede el de la búsqueda interesada de 
las variables que se debe incluir en el modelo. También debe incluirse la reespecificación 
de los modelos (porque también equivale a cambiar los supuestos sobre los cuales se 
derivó el modelo originalmente), la búsqueda de muestras convenientes (por ejemplo, el 
periodo de tiempo “preciso”) e, incluso, el uso de tests estadísticos favorables (que 
usualmente son aquellos que no tienen poder para probar la hipótesis nula de interés).6
Recientemente el tema de data mining ha recibido un soporte analítico más 
sólido y su uso se ha popularizado enáreas distintas a la economía donde el interés por 
relacionar evidencia empírica con modelos de comportamiento no es importante. Por 
ejemplo, en el uso de datos gráficos para el reconocimiento de patrones sistemáticos 
(caras a partir de fotos). Hirsh (2008) hace un recuento de los avances y desafíos en este 
tipo de modelación.7
5.02 Problemas de Especificación II: Cambio de Régimen
Una forma interesante de violar el supuesto que el modelo sea lineal es el caso en 
el que hay cambio de régimen (un caso frecuente en series de tiempo).8 Cambio de 
régimen es una expresión un tanto vaga que se utiliza para denotar que el fenómeno de 
interés tiene un comportamiento característicamente diferente en diversos periodos de 
tiempo. En dichos segmentos, la media condicional y sus determinantes pueden diferir 
de manera apreciable.
5 “The art of fishing over alternative models has been partially automated with stepwise 
regression programs. While such advances have made it easier to find high R²s and 
“significant” t coefficients, it is by no means obvious that reductions in the costs of data 
mining have been matched by a proportional increase in our knowledge of how the economy 
actually works.” Lovell, M. C. (1983), “Data Mining,” The Review of Economics and Statistics, 65, 
1-12.
6 Ver A. Spanos (1999) “Revisiting data mining: ‘hunting’ with or without a license”, mimeo, 
Department of Economics, Virginia Polytechnic Institute and State University.
7 H. Hirsh “Data mining research: current status and future opportunities”, Statistical Analysis 
and Data Mining, 1:104-108.
8 A este tipo de modelo se le denomina incorrectamente “cambio estructural”. El nombre más 
adecuado es cambio de régimen, por cuanto nada garantiza que sea produzca un cambio en el 
mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su 
naturaleza dual.
5.7
Un ejemplo común queda descrito en la siguiente figura. En una serie que crece 
con tendencia positiva de 2.5% se han incorporado distintos tipos de quiebres para ver el 
efecto. En el panel A se presenta una muestra de 75 datos de la serie original. En el panel 
B se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y 
cuarto cuartos de los datos. El quiebre es de tamaño 40% del nivel. En el panel C se 
presenta la serie con un quiebre que lleva la tendencia a -2.5% en los mismos intervalos. 
En tanto que en el panel D se presenta la serie sujeta a ambos quiebres.
Figura 5.1
Cambio de régimen
Método de Chow
En el caso de cambio de régimen, un modelo del tipo y=x  es inadecuado. 
Supongamos que el cambio de régimen sólo afecta el intercepto de la regresión, Chow9 
sugiere usar es una especificación del tipo:
yi=xi i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ]
(5.11)
9 G. C. Chow (1960) "Tests of Equality Between Sets of Coefficients in Two Linear Regressions". 
Econometrica 28(3):591–605.
5.8
Sin embargo, es preferible anidar ambos modelos en una sola especificación 
usando variables ficticias (mudas o dummies10), que toman valores 0 y 1 dependiendo del 
régimen. El modelo anidado es:
y i=x i Dii (5.12)
donde 
Di=1 ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
Di=0 en el resto
.
Así, cuando la variable muda D es 1, el intercepto es = , en tanto que si es 
0 éste es  .11 Es decir, interpretamos  como la diferencia de interceptos.
Supongamos ahora que el cambio de régimen es tanto en el intercepto como en 
los otros coeficientes de la regresión. Se debería usar es una especificación del tipo:
y i=x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ]
(5.13)
Conviene, nuevamente, anidar ambos modelos en una sola especificación usando 
variables ficticias. El modelo anidado es:
y i=x i [ Di ]Dii (5.14)
Así, cuando D toma valor 1, el intercepto es = y la pendiente es 
= . Cuando D=0, obtenemos los parámetros  y  .
¿Cómo descubrimos si hay cambio de régimen?
Existen dos técnicas de amplia difusión para descubrir la existencia de regímenes 
distintos en una muestra: las técnicas recursivas y el test RESET. Como vamos a 
descubrir, estas técnicas no señalan sólo la presencia de cambio de régimen sino además 
de otros problemas de especificación.
10 El término variable muda (del inglés dummy) fue introducido aparentemente en 1952 por H. S. 
Houthakker en "The Econometrics of Family Budgets" Journal of the Royal Statistical Society A, 
115:1-28.
11 Otro uso frecuente de variables mudas es para controlar problemas de estacionalidad, es 
decir, la tendencia a observar cambios en la variable de interés debido a fenómenos que no 
interesa modelar (clima, efemérides, etc.). En tal caso, el modelo es del tipo 
y i=x i 1∗D 12∗D23∗D 3i , donde las variables D1 , D2 y D3 toman valor 1 para 
primer, segundo y tercer trimestre, respectivamente, y 0 en cualquier otro caso. 
5.9
El test RESET (Regression specification error test) fue propuesto por Ramsey (1969)12 
y consiste en realizar una regresión auxiliar al modelo de interés. Sea el modelo 
y t=x tt , supongamos que  se distribuye N 0, I  , y consideremos la siguiente 
regresión auxiliar:
y t=01x t2 ztt (5.15)
donde zt={ y t
2
, y t
3
,} y y t son los valores predichos del modelo original.13 Si el 
modelo original estaba bien especificado, entonces los coeficientes de las variables 
auxiliares no debiesen ser estadísticamente significativos. En caso contrario, el estimador 
de  es inconsistente. Por ello la hipótesis nula del test es H 0 :2=0 y H 1 :2≠0 .
Para hacer el test en la práctica, se puede hacer un test F o de razones de 
verosimilitud. Note que se puede extender el test de Ramsey en dos direcciones. 
Primero, para incluir otras variables en la matriz de variables auxiliares. En este caso, el 
test no sólo señalaría la presencia de error de especificación sino, además, de variables 
omitidas. Segundo, en modelos de series de tiempo es posible incluir rezagos de la 
variable del lado izquierdo, y t−k , de modo que el test ahora señalaría la presencia de 
error de especificación sino, además, de correlación residual.
La técnicas recursivas se aplican de modo natural a problemas de series de 
tiempo y consisten en estimar el modelo incrementando de modo paulatino (recursivo) 
el tamaño de muestra. Consideremos el modelo y t=x tt y la siguiente regresión 
auxiliar:
y t=t−1 x tt (5.16)
donde t es el estimador del parámetro obtenido mediante una regresión hecha con una 
muestra de datos { yi , x i}i=k1
i=t−1 . La técnica consiste en hacer un conjunto de regresiones 
auxiliares incrementando el tamaño de muestra desde i=k1 hasta T , donde k es el 
rango de x. Note que k1 es la primera regresión que es posible hacer.
12 J. Ramsey, J. B. (1969). "Tests for Specification Errors in Classical Linear Least Squares 
Regression Analysis," Journal of the Royal Statistical Society, Series B, 31:350-371. Un trabajo 
posterior demuestra que el test RESET es lo suficientemente poderoso para descubrir 
problemas de especificación aún cuando los criterios tradicionales (R², correlación residual, y 
tests de significancia) sean cumplidos satisfactoriamente (Ramsey, J. B. and A. Alexander 
(1984). "The Econometric Approach to Business-Cycle Analysis Reconsidered," Journal of 
Macroeconomics, 6:347-356.)
13 La lógica de incluir potencias es directa. Suponga que el modelo es logarítmico (p.e., y=x z 
). Una expansión de Taylor para linealizarlo exigiría términos de segundo orden al menos. Su 
omisión –como sucede en el modelo original– implica que el residuo tiene precisamente esa 
estructura.
5.10
Existen dos posibles variables aleatorias de interés que se obtienen del conjunto 
de regresionesauxiliares: los estimadores recursivos y los residuos recursivos. Para 
ambos hay distintos tests.
Tests de residuos recursivos. Hay dos tests clásicos de residuos recursivos: CUSUM y 
CUSUM-Q. Consideremos primero la varianza predicha del error de predicción de 
(5.16):
t
2= 2 1xt ' x t−1 ' xt−1−1 x t (5.17)
y ahora computamos recursivamente la variable aleatoria wt tal que
wr=
r
1xr ' x r−1 ' xr−1−1 x r
(5.18)
El test CUSUM computa W r=
1

∑
r=k1
r=t
w r donde  es la varianza estimada de 
wr . Bajo la hipótesis nula W r tiene media cero y su varianza es aproximadamente igual 
a la suma de los residuos normalizados (es decir, una variable aleatoria i.i.d. 
estandarizada). Por ello el intervalo de confianza se obtiene de las rectas 
[k ,a ±T−k ½ ] y [k ,3 a±T−k ½ ] y se fija a para niveles de significancia de 95% o 
99%. Un ejemplo se ve en la Figura 5.2.
Figura 5.2
Test CUSUM
El test CUSUM-Q, por otro lado, utiliza una variación del test anterior pues 
estudia el estadígrafo:
-30
-20
-10
0
10
20
30
80 82 84 86 88 90 92 94 96 98
CUSUM 5% Signif icance
5.11
Sr=
∑
r=k1
r=t
w r
2
∑
r=k1
r=T
w r
2
(5.19)
donde la diferencia entre el numerador y denominador está en la extensión de las sumas 
(t vs.T). Bajo la hipótesis nula, la esperanza del estimador es (aproximadamente) 
E[S r ]=t−k/ T−k y su varianza es una función compleja de (t-k) para la cual 
existen tablas (ver Figura 5.3).
Un problema de los tests CUSUM es que su poder –es decir, la habilidad para 
rechazar la alternativa cuando ésta es falsa— no es monótono. En particular, éste puede 
depender del tamaño del quiebre, haciendo que su poder se vaya a cero si el quiebre es 
suficientemente grande. La razón es que la varianza de los errores se computa sin 
considerar que hay un quiebre. Además, es posible que el poder tampoco sea monótono 
cuando hay más de un quiebre en los datos.14
Figura 5.3
Test CUSUM-Q
Finalmente, la estimación recursiva del modelo produce para cada iteración un 
valor del estimador de los parámetros –con su respectiva desviación estándar– que se 
puede utilizar como medida visual de la inestabilidad de una regresión y de la presencia 
de cambios de régimen. Como se ve en la Figura 5.4.
14 Ver P. Perron (2007) “Dealing with Structural Breaks”, Palgrave Handbook of Econometrics, Vol. 
1: Econometric Theory, T.C. Mills and K. Patterson (eds) 
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
80 82 84 86 88 90 92 94 96 98
CUSUM of Squares 5% Significance
5.12
Figura 5.4
Estimación recursiva de los estimadores de los parámetros
Test de Predicción (One Step Ahead Forecast Error Test)
Si uno considera la ecuación (5.16) notará que los residuos recursivos 
corresponden al error de predicción un periodo fuera de muestra. Es posible, entonces, 
testear si la distancia entre la predicción y el valor verdadero está dentro de un intervalo 
de confianza definido (p.e., 95%). Una descripción gráfica de este test es presentada en la 
siguiente figura. Se observan en azul los residuos recursivos, con su desviación estándar 
(escala derecha). En la escala izquierda se identifican aquellos errores que están entre 
5%, 10% y 15% fuera de rango
Figura 5.5
Predicción un paso adelante
.00
.05
.10
.15
-.4
-.2
.0
.2
.4
80 82 84 86 88 90 92 94 96 98
Probabilidad Un-Paso Adelante Residuos Recursivos
5.13
Tests para quiebres múltiple
Hemos visto qué hacer cuando se desconoce la ubicación del quiebre y cómo 
puede ayudarnos los tests recursivos. Otra preocupación legítima es determinar si existe 
uno o más quiebres y su ubicación. La literatura sobre quiebres sucesivos es 
relativamente reciente y tiene relación con modelos de parámetros cambiantes (en el 
sentido que los parámetros van cambiando en el tiempo y t=t xtt ) y/o con 
problemas de no estacionariedad (es decir, cuando la media u otros momentos de la 
distribución conjunta de los datos cambian con cada nueva observación).
Recientemente, Andrews, Lee and Ploberger (1996) estudian una clase de test 
óptimos para el caso en que haya un quiebre pero que en el caso de múltiples quiebres 
son poco prácticos pues exigen computar todas las posibles particiones de una muestra 
de tamaño T en l segmentos o quiebres.15 Bai Perron (2003)16 sugieren usar un proceso 
secuencial. En primer lugar, se computa el valor del máximo test de Wald para un 
cambio estructural, suponiendo que sólo existe un quiebre. Luego se toma la sub-
partición más grande de los datos y se vuelve a realizar el test de Wald para un único 
cambio estructural. El procedimiento se repite mientras sea necesario, sujeto al tamaño 
mínimo que puede tener un segmento (usualmente k+1). Naturalmente, la distribución 
de este test secuencial no es estándar pues las hipótesis está anidadas (es decir, el 
segundo test de Wald depende de haber hecho bien la inferencia del primer test de 
cambio estructural, el tercero de los dos primeros, etc.), por lo que Bai y Perron proveen 
tablas de valores críticos ad-hoc.
5.03 Problemas de Especificación III: Datos erróneos
El análisis empírico frecuentemente se enfrenta a problemas con los datos en dos 
dimensiones: datos perdidos y variables cercanas. Naturalmente, es posible que estos 
problemas sucedan simultáneamente, pero para efectos pedagógicos los vamos a 
estudiar por separado.
Datos Perdidos
Supongamos que el modelo es del tipo y i=x ii . Obviamente, pueden 
haber datos perdidos en la variable de interés, y, o en los regresores, x. Ello puede 
suceder por varias razones. En primer lugar, porque no existen los datos para algún 
determinado período de tiempo o segmento de la muestra. Lo más común es que esto 
suceda porque los encargados de estadísticas no levantan los datos de base o porque las 
muestras se han perdido. Segundo, porque los datos existen pero están en distinta 
15 Ver Andrews, D.W.K., Lee, I., Ploberger, W. “Optimal change point tests for normal linear 
regression”. Journal of Econometrics 70: 9-38, 1996.
16 Bai, J. and P. Perron “Critical values for multiple structural change tests”. Econometrics Journal, 
6:72-78, 2003.
Cristobal Ojeda Yany
5.14
frecuencia a la necesaria para hacer el análisis empírico (p.e., datos mensuales versus 
trimestrales).
La literatura sobre datos perdidos es extensa pero puede sintetizarse en las 
siguientes conclusiones. Primero, si los datos se han perdido de manera aleatoria, los 
estimadores de mínimos cuadrados serán consistentes pero más ineficientes que en el 
caso que la muestra estuviese completa. La razón es, obviamente, que la muestra con 
datos perdidos contiene menos información. Segundo, si los datos no se han perdido de 
forma aleatoria pero sólo afectan a las variables de lado izquierdo, entonces no hay 
sesgo y sólo hay problemas de eficiencia. Este caso es llamado sesgo de selección exógeno. 
Tercero, si los datos no se han perdido de forma aleatoria pero sólo afectan a las 
variables de lado derecho, entonces hay sesgo de selección endógeno. En este caso, hay 
correlación entre regresor y residuo –por cuanto las observaciones disponibles están 
limitadas de forma no aleatoria— e, inevitablemente, hay sesgo en el estimador de 
mínimos cuadrados.17
La existencia de datos perdidos suele llevar a los econometristas despistados a 
intentar “soluciones” que, como se discute a continuación, no son efectivas. Para discutir 
estos métodos podemos particionar la matriz de datos de acuerdo al Cuadro 5.1:
Cuadro 5.1
Problemas de disponibilidad de datos
Datos existen yA xA
Datos 
perdidos
- xB
Datos 
perdidos 
yC -
Note que siempre podemos estimar el estimador  en el subconjunto A. El 
punto es ver cómo usar los datos restantes. Estudiaremos primero el casoA+B, es decir 
cuando faltan algunas observaciones de la variable condicionada (o de lado izquierdo). 
Posteriormente, veremos el caso A+C, es decir cuando faltan algunas observaciones de 
los regresores. 
17 La solución a este tipo de sesgo de selección más popular es el estimador en dos etapas de 
Heckman. Éste consiste en hacer una regresión inicial tipo probit para dar cuenta de los 
determinantes de la selección de la muestra y, en una segunda etapa, se estima el modelo 
original tomando en cuenta los resultados del modelo probit. Ver J. Heckman, "Sample 
Selection Bias as a Specification Error," Econometrica, 47(1): 153-6, 1979.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.15
Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar algún 
método para hacer una predicción de y B y usar posteriormente el modelo econométrico 
completo para estimar  , es decir usando [ yA yB , x AxB ] . El quid del asunto radica 
en cómo predecir y B . Hay dos alternativas populares:
• Alternativa popular 1. Rellene los datos faltantes con la media de y A . Es 
fácil demostrar que como resultado se produce sesgo en los parámetros. 
• Alternativa popular 2. Estime  en el subgrupo A, prediga y B usando 
dicho estimador, y luego estime el modelo completo. Es directo demostrar que el 
procedimiento es inútil.
Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer una 
predicción de y C y usar el modelo completo para estimar  , es decir usando 
[ yA yC ,x AxC ] . ¿Cómo predecir xC ?
• Alternativa popular 1. Rellene los datos faltantes con la media de x A . 
Demuestre que este procedimiento es equivalente a eliminar los datos del 
segmento C.
• Alternativa popular 2. Haga una regresión de x en y en el subgrupo A, 
estime un parámetro γ y prediga xC usando dicho estimador. Luego estime el 
modelo completo. Demuestre que este procedimiento viola el espíritu del análisis 
econométrico.18
Medina y Galván (2007)19 revisan nuevos procedimientos –desarrollados durante 
las últimas décadas— que tienen mejores propiedades estadísticas que las opciones 
tradicionales, tales como la eliminación de datos, el pareo de observaciones, el método 
de medias y el hot-deck. Ellos concluyen que los algoritmos de imputación de datos se 
pueden aplicar, pero que imputar información no debe entenderse como un fin en sí 
mismo. Sus implicaciones en el análisis secundario de datos deben evaluarse con 
cautela, y este trabajo concluye que no existe el método de imputación ideal. 
18 Si usted encuentra deprimente las conclusiones de esta sección considere la célebre opinión de 
Charles Babbage (1869) Errors using inadequate data are much less than those using no data at all.
19 Fernando Medina y Marco Galván, “Imputación de datos: teoría y práctica”, Serie Estudios 
Estadísticos y Prospectivos No 54, CEPAL.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.16
Variables cercanas (proxies)
Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera 
variable que no es observable o no está disponible. Usualmente el uso de variables 
cercanas puede ser entendido como la presencia de “variables medidas con error”. 
Puede haber proxies de la variable de interés o de los regresores, pero el efecto sobre el 
estimador de mínimos cuadrados ordinarios de los parámetros no es igual. Recordemos 
que el estimador mínimos cuadrados se derivan de:
=x ' x −1 x '  (5.20)
 y del supuesto cov [x ,]=0 . Podemos reescribir la ecuación anterior como: 
−=[ x ' xn ]
−1
[ x ' n ] (5.21)
Hasta el momento se ha cumplido que plim [ −]=Qxx x , pero la matriz de 
covarianzas se desvanece cuando n→∞. Veamos ahora qué sucede cuando se usan 
variables cercanas.
Proxy para la variable de interés: Sea el modelo que nos gustaría estimar y *=x  . Pero 
sólo disponemos de y *= y , donde  es un shock aleatorio, con media cero y 
varianza 
2 . Entonces el modelo estimable es y=x ε−μ=x ν , donde =− .
Nóte que ν es una variable aleatoria con media cero y cuya covarianza con x 
también es cero. Luego se satisfacen todos los supuestos del modelo clásico y no hay 
problemas de sesgo en los estimadores de mínimos cuadrados. Obviamente, la varianza 
del estimador de los residuos está sesgada --siendo más grande— porque incluye tanto 
la varianza de  como la de  . Sin embargo, ese sesgo no es posible corregirlo sin 
conocer 
2
.
Proxy de los regresores: Sea el modelo que nos gustaría estimar y=x∗ . Pero sólo 
disponemos de x=x∗ , donde  es un shock aleatorio con media cero y varianza 

2
. Ahora el modelo es y=x −=x  donde =− . El problema 
radica en que hay correlación entre regresor y residuo porque 
cov [x ,]=cov [x∗ ,−]=−
2
. El estimador de mínimos cuadrados es:
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.17
=
1 /n∑
i=1
n
xi yi
1 /n∑
i=1
n
x i
2
(5.22)
veamos el plim:
plim =
plim 1 /n∑
i=1
n
x i
*xi
*
plim 1/n∑
i=1
n
x i
*2
(5.23)
y como x*,  , y  son independientes entre sí, se obtiene:
plim =
Q*
Q
*
2 (5.24)
con Q *= plim 1/n x * ' x * . 
Podemos reescribir (5.24) como:
plim =

1

2
Q
*
(5.25)
por lo tanto, si hay incertidumbre ( 
2≠0 ), el estimador de mínimos cuadrados 
ordinarios del parámetro  es inconsistente y sesgado hacia cero. A mayor error de 
medida, más fuerte este efecto de atenuación.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.18
Datos influyentes y extremos (outliers)
En el análisis empírico es usual encontrar valores tanto para la variable de interés 
como sus determinantes que “no parecen formar parte del experimento en cuestión” 
(también llamados outliers).20
Se entiende por “datos influyentes” aquellos que de ser incluidos o excluidos de 
la muestra producen grandes variaciones en la estimación, sea en los estimadores de los 
parámetros o en los estadísticos asociados (p.e., bondad de ajuste). La influencia de 
estas observaciones se debe tanto a la naturaleza del estimador de mínimos cuadrados 
como al tamaño de la muestra usada para obtener el estimador. En primer lugar, el 
estimador de mínimos cuadrados se obtiene al minimizar la suma de residuos al 
cuadrado, por lo que las observaciones más alejadas del promedio de los datos reciben 
más valoración. Eso puede hacer que el estimador sea sensible a valores extremos. En 
segundo lugar, el tamaño de muestra determina el impacto de valores extremos, pues 
este problema será más agudo mientras más pequeña sea la muestra. Obviamente, en 
una muestra grande el efecto de un valor extremo es contrapesado por más 
observaciones y, por lo tanto, tiene menos efectos sobre el estimador.
En la literatura se distingue entre valores extremos (outliers) y valores 
influyentes. Valores extremos se refieren usualmente a valores de y que se desvían 
mucho de la media condicional en x. Valores influyentes se refieren a valores de x que se 
desvían de la media muestral y que, por lo tanto influyen mucho en la estimación. En la 
figura 5.6 se presentan ambos tipos de valores para el caso del modelo más simple, 
y i=x ii .
Figura 5.6
Valores influyentes y extremos
20 Esta es la definición clásica de outlier de Hawkins, D. (1980). Identification of Outliers. Chapman 
and Hall, London.
y
x
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.19
Frecuentemente los valores extremos e influyentes se producen por errores al 
ingresar los datos de la muestra: porejemplo, es común que sucedan porque se 
invirtieron dígitos (601 en vez de 106) o porque una coma está mal puesta (12,5 en vez 
de 1,25). Es por ello que lo primero que se debe hacer es revisar los datos 
cuidadosamente.
Existe un centenar de algoritmos de detección de valores influyentes que se 
basan en seleccionar distribuciones conocidas para los datos (normal, exponencial, etc.) 
y en definir un intervalo de confianza para determinar si un dato es un valor extremo o 
no lo es (p.e., 90% o 95%).21 
Una manera de detectar valores extremos es estudiar los residuos: si el valor 
predicho se desvía del efectivo de manera notoria se puede tratar de un valor extremo. 
No obstante, esta no es una manera que garantice la detección. La razón es que el 
residuo se mide con respecto a la recta de regresión la que podría variar si se incluye o 
excluye el valor extremo. Usualmente se estudian los residuos estandarizados –es decir, 
los residuos divididos por su desviación estándar— de modo de normalizar su tamaño.
Otra forma es estudiar la “incidencia” de cada dato en el estimador. Recordemos 
que en el estimador de mínimos cuadrados cada observación de y es ponderada por 
H=x x ' x −1x ' . Si se estudia la diagonal de H, es decir los valores de hii, es 
relativamente directo ver la influencia de cada observación en la estimación. Valores con 
mucha incidencia suelen señalar la presencia de valores influyentes o extremos. Además 
esto pone de manifiesto el hecho que valores más alejados de la media de los regresores 
tiende a darles más influencia.
Cuando la muestra es pequeña, tanto la media como la desviación estándar 
muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es 
por ello que en ese caso se usan tests de detección de datos influyentes basados en la 
mediana y su desviación estadística, porque éstas no son sensibles a los valores 
extremos. El más conocido de estos tests para muestra pequeña es el de Dixon (1950)22 
que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar 
los datos de menor a mayor y computar el siguiente estadígrafo para cada observación 
x n  :
TN7=
xn−xn−1
x n− x1
(5.26)
El valor de TN7 computado se compara con los valores críticos particulares para 
tamaños de muestras que van desde 3 observaciones en adelante.23 Si el valor obtenido 
21 Un tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, V. Barnett 
and T. Lewis, 1994, 3rd edition, John Wiley & Sons, Chichester.
22 Dixon, W.J. (1950): “Analysis of extreme values”, Annals of Mathematical Statistics, 21(4):488–
506.
23 S. Verma y A. Quiroz-Ruiz, “Critical values for six Dixon tests for outliers in normal samples 
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.20
es mayor que el valor de tablas se rechaza la hipótesis nula que la observación n-ésima 
no es un valor extremo. El estadígrafo TN7 reconoce que en una muestra pequeña 
resulta mucho más difícil determinar si una observación es un valor extremo porque no 
hay suficiente información.
5.04 Problemas de Especificación IV: Colinealidad
El problema de colinealidad (también llamado multicolinealidad) consiste en que 
los regresores no son independientes entre sí. Cuando se impuso el supuesto de 
identificación, es decir que x ’ x −1 fuese positiva definida, no se eliminó el problema 
que los regresores estén correlacionados imperfectamente.24 Consideremos el siguiente 
modelo:
y i=1 x i
12 xi
23 x i
3i (5.27)
pero supongamos que los regresores están correlacionados de acuerdo a la siguiente 
relación:
x i
3=1 xi
12 x i
2i (5.28)
Introduciendo (5.28) en (5.27) resulta obvio que:
y i=113xi
1223x i
2t3 i (5.29)
Hay dos interpretaciones interesantes de la ecuación anterior. Primero, se puede 
estimar  j j  pero no podemos “identificar”  j . Segundo, el efecto “marginal” de 
xk sobre y tiene dos componentes: uno directo (  j ) y otro que se filtra indirectamente a 
través de xj ( k j ). Note, además, que la varianza del error ( 3 ) tiene una 
estructura particular.
El efecto que tiene la colinealidad sobre el estimador mínimos cuadrados es algo 
sorprendente. Tomando el estimador 
up to sizes 100, and applications in science and engineering” Revista Mexicana de Ciencias 
Geológicas, 23(2):133-161, 2006.
24 Otra razón para que x ’ x −1 no exista es que el rango de x sea mayor que el rango de x’.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.21
E [ ]=E [x ' x −1 x ' y ]
=E[x ' x −1 x i ' x ]
=E [x ' x −1 x ' ]
(5.30)
Por lo tanto, en tanto la matriz de momentos de los regresores exista, el 
estimador sigue siendo insesgado. Ello porque independientemente de si los regresores 
son estocásticos o no, la correlación entre regresor y error en valor esperado es cero lo 
que implica que E[ ]= .
Si los parámetros no son sesgados, ¿dónde está el efecto de la colinealidad? 
Debido a que el problema es que cov x1, x 2≠ 0 , entonces tiene que afectar la matriz de 
momentos de los regresores, x ' x . Veamos cómo la afecta con algunos ejemplos 
prácticos. Recordemos que la inversa de x ' x es su adjunta dividida por el 
determinante, es decir:
=[a 11 a 12a 21 a 22] entonces −1=
1
a11 a 22−a 12a 21 [ a 22 −a 12−a 21 a11 ] (5.31)
Supongamos 
=[1 00 1]⇒−1=
1
1 [1 00 1] (5.32)
y ahora consideremos casos donde la covarianza entre las variables no es cero:
=[ 1 0.60.6 1 ]⇒−1= 10.64 [ 1 −0.6−0.6 1 ] (5.33)
=[ 1 0.90.9 1 ]⇒−1= 10.19 [ 1 −0.9−0.9 1 ] (5.34)
Resulta evidente cómo se va reduciendo el determinante de la inversa. Entonces, 
dado que V  =2 xi ' xi 
−1 , la presencia de colinealidad se traduce en varianzas de 
los estimadores de los parámetros cada vez más grandes. En el límite la varianza tiende 
a infinito.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.22
Esto es congruente con lo que obtuvimos en (5.29). Cuando la colinealidad es 
perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos 
precisar el valor de los parámetros (varianza infinita).
En la realidad, la colinealidad perfecta no existe (salvo por error). Pero tampoco 
existe, usualmente, la ausencia de colinealidad (piense en el papel de las expectativas y 
cómo éstas correlacionan muchas variables económicas). Por ello, siempre habrá algún 
grado de colinealidad. 
Otro síntoma de la colinealidad es que los estimadores de los parámetros se 
vuelven inestables (poco robustos). La inestabilidad se produce porque la estimación 
punto de los parámetros bajo alta colinealidad depende de la conformación de la 
muestra. Si sacamos un(os) dato(s) de la muestra, la estimación de los parámetros suele 
cambiar fuertemente.
¿Como detectamos la presencia de colinealidad? 
Podríamos estudiar la correlación de los regresores antes de estimar el modelo. 
Esta práctica es esencial en cualquier modelación econométrica, pues aparte de detectar 
posibles problemas de colinealidad nos ayuda a descubrir errores en los datos. Un 
problema práctico, no obstante, es que no es muy claro cuándo hay alta colinealidad 
entre dos o más variables. Naturalmente una correlación de 99% es alta y una de 5% es 
baja, pero para una correlación de 57% no es clara la conclusión.
Otra alternativa es investigar si los estimadores de los parámetros son inestables. 
Si bien esto es correcto, existen otros problemas –que veremos más adelante– que 
también producen inestabilidad. Por ello, este test no es conclusivo.
Una tercera alternativa frecuente es que, si bien los parámetros no son 
significativos por la alta varianza, como un todo la regresión es satisfactoria. Ello se 
traduciría en el caso “ R 2 alto pero no significativos”. Hay que reconocer, sin 
embargo, que no es una regla muy firme, porque una variable irrelevante en un modelo 
satisfactorio tendría el mismo síntoma.
¿Qué solución tiene la colinealidad?
En estricto rigor, no existe ninguna solución. La colinealidad no es un problema. 
Es una característica de las variables aleatorias utilizadas en el modelo. Es decir, una 
característica del problema económico.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.23
En ocasiones, la teoría económica permite imponer restricciones que evitan el 
problema de colinealidad. Por ejemplo, considere el siguiente modelo translog para el 
PIB, que denominamos Y:
logY=1 logKF 2 log KH 3
log KF 1/ 2
2
4
 logKH 1/2
2
5 log KF  logKH 
donde KF es el capital físico y KH es el capital humano. Usted sospecha que hay 
colinealidad entre ambos tipos de capital. Si es válido imponer la restricción de retornos 
constantes de escala ( 1=1−2 y 3=4=5=−1 ) entonces es posible reducir el 
problema de colinealidad. Esto, sin embargo, no es lo usual.
No obstante, algunos textos tradicionales suelen presentar pseudo soluciones 
empíricas al problema de colinealidad que vale la pena estudiar para (a) descubrir su 
inaplicabilidad y (b) porque existen otros usos para estas técnicas que se utilizan a 
menudo.
1. Elimine alguna variable para la que haya evidencia de colinealidad con otras. En 
el modelo y i=1 x i
12 x i
23 x i
3i entonces se podría eliminar, digamos, 
x 3 . El resultado es:
y i=1 x i
12 x i
23 x i
3i
=1x i
12 x i
2i
(5.35)
Obviamente, el problema de colinealidad se reduce.25 Sin embargo, tenemos un 
problema grave. Ahora cov x1 , y cov x 2 , no son cero. Por ello, los 
estimadores están sesgados, no se conoce el tamaño o la dirección del sesgo, y las 
varianzas de los estimadores pueden estar sobre-estimadas.
2. El método de “ridge”. Esta técnica se basa en la observación que los parámetros 
son difíciles de identificar porque las varianzas de los parámetros son 
relativamente pequeñas en comparación con las covarianzas. Las varianzas están 
en la diagonal de 2x ’ x −1 . Por ello, este estimador sugiere sumarle “algo” a 
dicha diagonal, de modo que los parámetros sean identificables. El estimador de 
“ridge” es:
RD=[x i ' x irD ]
−1
x i ' y i (5.36)
donde r es un escalar pequeño (p.e., 0.01) y D una matriz diagonal. 
Obviamente, ahora las varianzas de los parámetros estimados van a ser menores.
25 ¿por qué sólo se reduce y no se elimina?
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.24
Var  RD=
2
[x i ' x irD ]
−1
(5.37)
Pero este “beneficio” se obtiene a costa de:
E[ RD ]=E  [x i ' x irD ]−1x i ' y i 
=E [ xi ' xirD ]−1 x i ' x i 
≠
(5.38)
Hemos vuelto a obtener dos resultados importantes: (a) modelos con variables 
pertinentes omitidas producen parámetros sesgados, y (b) es posible tener 
estimadores sesgados más eficientes que un estimador insesgado.
3. Método de componentes principales. Otra propuesta de solución de 
colinealidad consiste en extraer de la matriz x ' x  los componentes principales 
de ésta. Si el problema de las x es que no hay independencia lineal, ¿por qué no 
seleccionamos aquellos x que son “más independientes”? Así, mejoraría la 
estimación del modelo, pues el subconjunto de x seleccionado representaría bien 
a todas las variables del modelo. La pregunta es equivalente a ¿cuál combinación 
lineal de las x es la que tiene el mejor ajuste a todas las x? Esa será la mejor 
“representante”. 
Sea la combinación lineal z 1=x a 1 . Entonces, z 1 ' z 1=a1 ' x ' x a1 . Buscamos a 1 
tal que maximicemos z 1 ' z 1 (piénselo como matriz de información). Obviamente, si no 
restringimos a 1 es posible que [z 1 ʹ z 1 ]→∞ . Por ello, optimizamos restringiendo a que 
a 1 ʹ a 1=1 (a esto se le llama normalizar). Usando la técnica de Lagrange:
max a1=a1 ' x ' x a1−1a 1 ' a1−1 (5.39)
derivando obtenemos la siguiente condición de primer orden:
∂
∂a 1
=2x ' xa 1−21a 1=0 (5.40)
es decir:
x ' x a1−1a 1=0 (5.41)
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.25
por lo tanto, a 1 es un vector característico. Recuerde, a 1 es el vector característico 
asociado a λ1 la raíz característica. ¿Cuál vector característico? Aquel asociado a la raíz 
característica más grande de x ' x .
Así, hemos escogido el primer componente principal. Ahora, escogemos el 
segundo, a 2 . Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 sea ortogonal 
a a 2 ( a 1 ' a 2=0 )
max a2=a 2 ' x ' x a 2−2a 2 ' a 2−1−a 1 ' a 2 (5.42)
Así, obtenemos la siguiente condición de primer orden del problema restringido
∂
∂a 2
=2x ' xa 2−22 a 2−a 1=0 (5.43)
entonces, premultiplicamos por a 1 '
2 a 1 ' x ' x a 2−22 a1 ' a 2− a1 ' a 1=0 (5.44)
pero a 1 ' a 2=0 y a 1 ' a1=1 . Por ello, =0 . Se deduce entonces que x ' x a2=2a 2 , es 
decir a 2 es el segundo vector característico (correspondiente a la segunda raíz 
característica, 2 ).
Podemos hacer esto k veces, obteniendo ak soluciones. Si lo hiciéramos k veces, 
obtendríamos una representación exactamente equivalente a la matriz original x ' x . 
Juntamos los resultados en la matriz A=[a 1 ,a 2 , ... , a k] que describe los ponderadores 
de los “componentes principales” de x ' x , tal que Z=xA son los Z componentes 
principales. Note que:
 Z ' Z=A ' x ' xA==[
1 0 ⋯ 0
0 2 ⋯ 0
⋮ ⋮ ⋱ ⋮
⋯ 0 ⋯ k
] (5.45)
Además, si el rango de x es rk habrá k−r valores propios iguales a cero.26
26 Se puede usar los valores propios como test del grado de colinealidad. Si el estadígrafo toma 
un valor grande, ello indica la presencia de un nivel grave de colinealidad. (D.A. Belsley, 
“Demeaning conditioning diagnostics through centering (with discussion)”, The American 
Statistician, 38:73-93.
5.26
Finalmente, el estimador de componentes principales será:
cp=[Z ' Z ]
−1
Z ' y (5.46)
pero Z ' y=A' x ' y=A' x ' [x]=A ' x ' x=A' x ' x  . Entonces, se desprende 
que cp=A
−1 de donde se deduce que:
• el estimador de componentes principales es una combinación lineal de los 
verdaderos parámetros.
• que el estimador de componentes principales es sesgado.
• la varianza del estimador cp es menor que la de mco .
Habitualmente, se calculan los componentes sobre variables originales 
estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar los 
componentes principales, no de la matriz de covarianzas sino de la matriz de 
correlaciones (en las variables estandarizadas coinciden las covarianzas y las 
correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y son 
distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a 
todas las variables originales. En la matriz de correlaciones todos los elementos de la 
diagonal son iguales a 1. Si las variables originales están tipificadas, esto implica que su 
matriz de covarianzas es igual a la de correlaciones, con lo que la variabilidad total (la 
traza) es igual al número total de variables que hay en la muestra. La suma total de 
todos los autovalores es p y la proporción de varianza recogida por el autovector j 
-ésimo (componente) es λj/p.
El uso del estimador tiene serios problemas. Primero, los estimadores son 
sensibles a la escala de los datos. Por ello se recomienda estandarizar las variables (1/σ²), 
pero esto afecta los resultados (cambia A). En realidad, todos los tests para detectar la 
colinealidad sufren la debilidad de ser sensibles a transformaciones lineales de los datos 
(origen y escala).27 Segundo, la selección de los componentesprincipales se hace en 
función de x y no de y, lo que sería preferible. Tercero, la interpretación de los 
parámetros es muy difícil, pues no serán los coeficientes asociados a las variables sino 
aquéllos asociados a una combinación lineal de las variables.
Note que nuevamente encontramos que (1) modelos con variables pertinentes 
omitidas producen parámetros sesgados, y (2) es posible tener estimadores sesgados 
más eficientes que un estimador insesgado.
27 Maddala (1977) propone otras “soluciones” para colinealidad. Entre ellas (a) usar información 
a-priori, (b) transformar las variables (logs o razones) y (c) usar más datos. Estudiar y evaluar 
si éstas son útiles o no. G.S. Maddala (1977) Econometrics McGraw-Hill editors.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.27
5.05 Modelos de Varianza No Constante
Esta es una familia con dos ramas principales de modelos: heterocedasticidad y 
correlación de residuos. Estudiaremos en primer lugar el tema de heterocedasticidad y 
luego el de correlación de residuos (el contexto más usual es series de tiempo, pero 
existe una incipiente literatura en correlación espacial).
Es común, sobre todo en muestras de corte transversal, que los datos tengan 
heterocedasticidad, es decir, que los residuos (innovaciones) provengan de 
distribuciones con distintas varianzas. Por otro lado, en modelos de series de tiempo es 
común observar correlación residual, es decir que la observación de un residuo en un 
determinado instante de tiempo contenga información útil para predecir el error en otro 
instante de tiempo. Naturalmente, en algún caso particular se puede enfrentar 
simultáneamente la presencia de heterocedasticidad y correlación residual. Desde un 
punto de vista pedagógico conviene tratar ambos problemas por separado.
En el caso en que la varianza de los errores no sea residual, el modelo general se 
escribe de la siguiente manera:
y i=x i i
E[i ]=0
E[i i ' ]=
2
(5.47)
donde Ω es una matriz definida positiva. 
Obviamente, cuando Ω=I, volvemos al caso de mínimos cuadrados ordinarios. 
Por ello, el modelo descrito en (5.47) es llamado modelo de regresión generalizado. 
Gráficamente, el problema de heterocedasticidad se ve de la siguiente manera:
Figura 5.7
Cuando estudiamos heterocedasticidad suponemos que la matriz de covarianzas 
de los errores es del tipo:
5.28
2=[
 1
2
0 0 ⋯ 0
0  2
2
0 ⋯ 0
⋮ ⋮ ⋱ ⋮ ⋮
0 0 ⋯ 0  n
2] (5.48)
en cambio cuando hablamos sólo de correlación residual nos referimos a:
2=[
1 1 2 ⋯ n−1
1 1 1 ⋯ n−2
⋮ ⋮ ⋱ ⋮ ⋮
n−1 n−2 ⋯ 1 1
] (5.49)
donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Note que 
en (5.48) las covarianzas son cero, en tanto que en (5.49) las varianzas son constantes. 
Nuevamente, estas separación es sólo para efectos pedagógicos, pues en la práctica no es 
infrecuente encontrar ambos problemas.
5.06 Heterocedasticidad
¿Cual es el efecto de la heterocedasticidad sobre un estimador mínimos 
cuadrados? Recordemos que el estimador mínimos cuadrados se puede escribir como
=x ' x −1 x ' y=x ' x −1 x '  (5.50)
y es el mejor estimador lineal insesgado, distribuyéndose asintóticamente normal. Más 
aún, si el residuo es normal, el estimador es eficiente.
Propiedades de muestra pequeña
Tomando esperanza en (5.50) obtenemos E[ ]=Ex [E [ | x ]]= , es decir el 
estimador sigue siendo insesgado. Esto es razonable porque el problema de 
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.29
heterocedasticidad se refiere al segundo momento (varianzas) y no a la media de los 
errores.
Tomemos la varianza del estimador para el caso que x es no estocástico:
Var [ |x ]=E [ − −' |x ]
 =E [x ' x −1 x '  ' x x ' x −1 |x ]
 =x ' x −1 x ' E [ ' ] x x ' x −1
 =x ' x −1 x ' [2] x x ' x −1
(5.51)
lo que podemos escribir como:
Var [ |x ]=
 2
n 1n x ' x 
−1
 1n x 'x1n x ' x
−1
(5.52)
• Si x es estocástico, la varianza no condicional es Ex [Var  |x ] .
• Si  se distribuye Normal, entonces ↝N [ ,2x ' x −1x 'x x ' x −1] .
Entonces, lo único que cambia es la varianza del estimador que ahora no es 
2 x ' x −1 , por lo que las inferencias basadas en esta última están sesgadas. Por otro 
lado, el estimador de σ² no tiene por qué haber retenido sus propiedades. Usualmente, 
no podemos saber si 2x ' x −1 es mayor o menor que (5.52), por lo que los test t o F 
resultan inadecuados.
Propiedades de muestra grande
Retomemos la ecuación (5.52). Resulta evidente que:
• si los regresores se comportan bien, los términos 1 /n x ' x convergerán a Q.
• el término σ²/n converge a 0.
• el término 1 /n x 'x no tiene por qué converger.
Se puede demostrar que si los regresores cumplen las condiciones de Grenander, 
1 /n x 'x converge. Ello sucede en casos de heterocedasticidad pero no 
necesariamente cuando hay correlación de residuos. En este último caso, el estimador es 
inconsistente.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.30
Finalmente, el estimador es asintóticamente normal porque las mismas 
condiciones de Grenander que impusimos para que
n  −=[ 1n x ' x]
−1
[ 1n x ' ] (5.53)
se distribuya asintóticamente normal, se cumplen aún si hay heterocedasticidad. 
También, se aplica el teorema de límite central.
La varianza asintótica del estimador será:
V.A. =
 2
n
Q
−1
plim 1n x 'x Q−1 (5.54)
En resumen, la heterocedasticidad no afecta la estimación punto de los 
parámetros porque éstos no dependen de la varianza de la distribución. Pero, 
obviamente afecta la varianza del estimador.
Recordemos que:
Var [ |x ]=x ' x −1 x ' [ 2]x x ' x −1 (5.55)
Cuando hay homocedasticidad, E[i i ' ]=
2
I , por lo que el problema se 
reduce a tener un estimador de 2 . Por el contrario, el problema que presenta la 
existencia de heterocedasticidad en un experimento es exactamente nuestra ignorancia 
respecto de la estructura de ésta, es decir, respecto de E[i i ' ] . Vamos a realizar un 
truco que es estándar en la literatura econométrica: derivamos el estimador óptimo y sus 
propiedades bajo el supuesto que conocemos E[i i ' ] y luego estudiamos qué sucede 
si esta última suposición no es correcta. El primer estimador es llamado el estimador 
eficiente, en tanto que el segundo es llamado estimador posible.
Estimación eficiente
Si tuviésemos E[i i ' ] podríamos resolver el problema. Pensemos que, en ese 
caso, podríamos usar directamente el estimador de la varianza:
Var  OLS =x ' x 
−1
x ' E [ ' ]x x ' x −1 (5.56)
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.31
Basados en la idea que una matriz positiva y definida puede ser factorizada, 
vamos a hacer una factorización conveniente. Tomemos una matriz T(n×n) y 
premultipliquemos el modelo, tal que
Tyi=Tx i T i (5.57)
Se sigue cumpliendo que E[T ]=0 , por lo que podemos obtener:
E[T   ' T ' ]= 2T 'T (5.58)
Ahora, si T 'T=I habríamos solucionado el problema de heterocedasticidad, 
pues podemos estimar el modelo (5.57) por mínimos cuadrados ordinarios ya que los 
errores serían homocedásticos y recuperar los estimadores de los parámetros del modelo 
original. Queremos, entonces, encontrar T tal que −1=T ' T para ponderar el modelo. 
El estimador de mínimos cuadrados ponderados –también llamado estimador de 
Aitken28– sería:
GLS=x i ' T ' T x i 
−1
x i ' T ' T y i pero T ' T=
−1
 =x i '
−1
x i 
−1
x i '
−1
yi
(5.59)
Nóte que este estimador es más general de lo que parece. Ciertamente, cualquier 
forma de heterocedasticidad puede ser acomodada en el estimador, provistoque la 
matriz de covarianza de los errores sea diagonal del tipo 2 . Nuevamente, note que 
el estimador de mínimos cuadrados ordinarios es un caso particular de mínimos 
cuadrados generalizados, aquel donde T=I.
Estimación Posible
¿Qué sucede cuando  es desconocida? En algunas ocasiones, un reducido 
número de parámetros, θ, es capaz de describir el patrón de heterocedasticidad. Por 
ejemplo, i
2= 2 f zi ;  entonces, podríamos usar = , es decir, el estimador de 
 basado en el estimador de θ.
Esto parece lógico: si plim = entonces → . En realidad, no es siempre 
así. Sea FGLS=x i ' 
−1
x i 
−1
x i '
−1 y i el estimador de mínimos cuadrados 
28 A. Aitken (1935), “On least squares and linear combinations of observations”, Proceedings of 
the Royal Statistical Society, 55:42-48.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.32
generalizados posible. ¿Cuándo son asintóticamente equivalentes FGLS y GLS ? Las 
condiciones son:
plim[1n x ' −1x−1n x '−1 x ]=0
plim[ 1 n x ' −1−
1
n
x '−1]=0
(5.60)
La primera condición dice que si la matriz de momentos ponderados converge a 
una matriz positiva definida, la matriz de momentos ponderados posibles debe 
converger a la misma matriz. Esto, en realidad, es un supuesto.
La segunda condición dice que si los regresores transformados están bien 
comportados, la suma (y por consiguiente el estimador) se distribuirá asintóticamente 
igual a la verdadera suma y estimador (no necesariamente, pero típicamente, normal).
Lo interesante es que no se necesita que el estimador de θ sea eficiente, basta con 
que sea consistente para que el estimador de mínimos cuadrados generalizados posible 
sea eficiente. Para demostrar esto basta con plantear el estimador máximo-verosímil de 
los parámetros del modelo generalizado y demostrar que es equivalente al de mínimos 
cuadrados generalizados posible, por lo que no hay ganancia de eficiencia al usar  o 
 .
Tests de Heterocedasticidad
Una buena razón para estudiar tests de heterocedasticidad es, naturalmente, la 
detección del problema y su eventual corrección. Una razón más sutil, sin embargo, es 
que cada tipo de test nos enseña de manera simple y valiosa una forma particular que 
puede tomar la heterocedasticidad y, por lo tanto, nos prepara para anticipar en cuáles 
contextos una u otra forma de heterocedasticidad puede estar presente.
1. Tests en muestras repetidas
Este es el test más simple de heterocedasticidad y se aplica cuando se tienen 
varias muestras repetidas de un mismo experimento. Un ejemplo en el cual este test es 
aplicable es cuando se tienen datos agrupados (p.e., ciudades): en cada cada ubicación 
habrá ni observaciones de distribuciones con varianzas potencialmente diferentes. 
La lógica de operación es la siguiente:
• Estime el modelo y i=x i i y compute i
2 para cada muestra i=1, ..., m.
• Estime el modelo y i=x i i y compute *
2 con todos los datos.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.33
El test es directo sobre la hipótesis nula que la varianza de los grupos no difiere 
de aquella de la muestra completa, ajustando por tamaños relativos
Homocedasticidad ≡H 0 :n−m  ln *
2−∑
j=1
m
n j−1 ln  i
2=0
Heterocedasticidad ≡H 1 : n−m  ln *
2−∑
j=1
m
n j−1 ln  i
2
≠ 0
(5.61)
El test es, directamente, un test de razones de verosimilitud
−2[n−m  ln *2−∑
j=1
m
n j−1 ln  i
2]↝ 2 m−1 (5.62)
Debido a que los estimadores de las varianzas por muestra y totales son formas 
cuadráticas de errores normalizados, el test se distribuye χ²(m-1). Los grados de libertad 
se derivan del número de varianzas libres (m) menos la restricción de una única varianza 
común.
2. Test de Breusch y Pagan29
Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible 
disponer de varias realizaciones de la variable aleatoria 2 . Una vez estimado el 
modelo y i=x i i , lo que se hace es:
• Computar g i=i
2 /  2
• Hacer una regresión entre gi y las variables que quiera, incluyendo x, y computar 
la suma de cuadrados explicados, SCE.
El test consiste en estudiar la suma de cuadrados explicados, SCE. Si una 
regresión puede “explicar” la proxy de heterocedasticidad, entonces hay 
heterocedasticidad. Alternativamente, si hay homocedasticidad, solo la constante 
debiese ser estadísticamente significativa. Por ello,
H 0 : Homocedasticidad ≡SCE=0
H 1 : Heterocedasticidad ≡SCE≠ 0
(5.64)
29 Breusch, T and A. Pagan (1979), “A simple test of heteroskedasticity and random coefficient 
variation”, Econometrica 47:1287–1294.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.34
Debido a que los estimadores de las varianzas por muestra y totales son formas 
cuadráticas de errores normalizados, ½SCE se distribuye χ²(p-1) bajo la hipótesis nula. 
Los grados de libertad se derivan del rango de regresores, p, en la segunda regresión.
3. Test de Goldfeld y Quandt30
Este test aprovecha información extra-muestral para estudiar problemas de 
heterocedasticidad. Si creemos que la variable xk es la causante de heterocedasticidad, el 
procedimiento es:
• Ordene la muestra de mayor a menor segun xk.
• Remueva c datos del centro de la muestra.
• Haga la regresión del modelo y i=x i i en cada grupo y compute la suma 
de cuadrados residuales, SRC.
El test consiste en estudiar la diferencia entre las SRC. Si éstas son iguales, 
significa que no hay heterocedasticidad. Por ello,
H 0 : Homocedasticidad ≡SRC 1=SRC 2
H 1 : Heterocedasticidad ≡SRC 1≠SRC 2
(5.65)
Como estamos comparando dos sumas de residuos normales al cuadrado y hay 
el mismo número de regresores y datos en cada sub-grupo, entonces el test es 
SCR 1
SCR 2
↝ F [n−c /2−kn−c /2−k] .
4. Test de White31
El test de White utiliza una lógica similar a la del test de Breusch y Pagan en el 
sentido de hacer una regresión entre la proxy de la varianza de los errores y el grupo de 
regresores de la regresión original, x, pero lo extiende para incluir sus cuadrados y 
productos cruzados. Es decir,
• Computar i= yi−−xi
• Hacer una regresión entre i
2 y las variables x i , x i
2 y los productos cruzados 
x i x j . 
Es decir, 
30 S. M. Goldfeld and R. E. Quandt (1965), “Some tests for homoskedasticity”, Journal of the 
American Statistical Association, 60:539–547.
31 White, H. (1980), “A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct 
Test for Heteroscedasticity”. Econometrica, 48:817-838.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.35
i
2=x i xi
2x i x j 'i (5.66)
La hipótesis nula es que en un caso de homocedasticidad ninguno de los 
coeficientes, mas allá de la constante, debe ser significativo. El test preferido de White es 
un multiplicador de Lagrange hecho sobre la hipótesis nula que ninguna variable 
debiese ser significativa si el modelo es homocedástico. Aunque la distribución de 
muestra finita es desconocida, es posible demostrar que nR2 se distribuye 
asintóticamente χ2(p), donde p es el número de estimadores excepto la constante. Otra 
alternativa es hacer un test F estándar de variables omitidas.
Note que este test es bastante general pues no se necesita hacer supuesto alguno 
sobre la forma de la heterocedasticidad que afecta potencialmente a los datos. Sin 
embargo, el test es potente solo asintóticamente lo que significa que tiene poca potencia 
en muestras pequeñas. Adicionalmente, el uso de muchos términos cruzados hace difícil 
el rechazo de la hipótesis nula y exacerba el problema de pocos grados de libertad.
Matrices de Covarianzas Robustas
Hay muchísimos tests de heterocedasticidad. Pero ¿realmente necesitamos estos 
tests? ¿necesitamos entenderqué es lo que causa la heterocedasticidad?
• Verdaderamente, no. Lo que queremos es 2 para poder hacer mínimos 
cuadrados generalizados.
• En realidad, no. Lo que queremos es 2  , un estimador de 
2 .
• Tampoco, lo que queremos es un estimador de =
 2 x 'x
n
• En realidad, lo que queremos no es todo  sino sólo su diagonal.
White (1980) demuestra que un buen estimador de =
 2 x 'x
n
 es 
S0=
1
n
∑ i2x i ' x i . Por ello, la “matriz de corrección de la varianza de los parámetros 
para el caso de heterocedasticidad” –también llamada “matriz de errores robustos”– es:
Var  =n x i ' x i 
−1
S0 x i ' x i 
−1 (5.67)
Note que no es necesario conocer la forma de la heterocedasticidad, pues el estimador es 
general.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.36
Extensión de Newey y West
Newey y West (1987) han extendido el estimador de White para el caso en que la 
matriz Ω no es diagonal. El estimador es:
Q=S0
1
n
∑
j=1
J
∑
i= j1
n
j
J1
t t− j x t ' x t− jx t− j ' x t  (5.68)
donde j/(J+1) es una corrección no paramétrica por tamaño de muestra.
Modelos de heterocedasticidad condicional 
Generalmente estamos interesados en modelar la media condicional de una 
variable serie. No obstante, recientemente se ha hecho común modelar la varianza de la 
serie, pues ella puede reflejar comportamientos que son característicos de algunos 
problemas económicos tales como los precios de activos, variables financieras, riesgo, 
etc.
Los modelos de heterocedasticidad condicional son modelos donde la varianza 
de la serie no es constante, aunque sigue un proceso estacionario. Un modelo típico de 
esta familia es el modelo ARCH32:
 
y t=x tt
t=t 01 t−1
2 1/2
(5.69)
con  normal estándar. Como resulta obvio, E[t |t−1 ]=0 y E[t ]=0 . Así es que el 
modelo sigue describiendo la media condicional de y t .
Ahora, la varianza condicional, V [t |t−1 ] , es
V [t |t−1 ]=E [t
2
|t−1]
 =E [t
2 ][01t−1
2 ]
 =[01t−1
2 ]
(5.70)
Pero la varianza no condicional, V [t ] , es
32 Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the 
Variance of U.K. Inflation," Econometrica, 50:987-1008.
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.37
V [t ]=E [V t |t−1]
=01E [t−1
2 ]
=01V [t−1
2 ]
(5.71)
Pero si la varianza es estacionaria, en el sentido que no cambia en el tiempo, 
entonces V [t ]=V [t−1 ] , por lo que la ecuación (5.71) implica
V [t ]=
0
1−1
(5.72)
¿Cómo se ve un proceso de este tipo? Gráficamente:
Figura 5.8
Proceso ARCH y su varianza
Es decir, la serie presenta segmentos de comportamiento disímil. El proceso 
alterna entre periodos de gran inestabilidad, donde shocks grandes son seguidos de 
shocks grandes, y otros de relativa estabilidad, donde shocks pequeños siguen a shocks 
pequeños.
Resulta natural preguntarse qué modelo económico puede producir este tipo de 
comportamiento. Un ejemplo típico son las guerras de precios en mercados donde hay 
colusión. Mientras la disciplina del cartel se mantiene hay sólo pequeñas desviaciones 
Cristobal Ojeda Yany
5.38
del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en 
la medida que todos los productores compiten por una mayor participación del 
mercado.
El modelo ARCH puede ser extendido para incorporar términos tipo media 
móvil en la varianza predicha. En ese caso se llama GARCH (por generalizado)33 y se 
modela:
y t=x tt
t
2=01t−1
2 2t−1
2 (5.73)
También se puede extender para incluir regresores, zt en la varianza, de modo 
que el modelo queda:
 
y t=x tt
t
2=01t−1
2 2t−1
2 3zt
(5.74)
Finalmente, algunos modelos incluyen la varianza condicional en el modelo de la 
media condicional. Esto da origen a un modelo ARCH-M que es ampliamente usado en 
finanzas.34
y t=x tt
2t
t
2=01t−1
2 2t−1
2 (5.75)
¿Cómo sabemos que el modelo es del tipo GARCH? Una manera simple es 
estimar el modelo de la media condicional, luego obtener los residuos, computar los 
residuos al cuadrado (estimador de la varianza) y computar la función de 
autocorrelación. Si ésta no muere súbito en t=1, hay heterocedasticidad condicional.
Es posible, además, hacer tests de especificación para saber si el modelo correcto 
es GARCH(p,q) o GARCH(0,q). El problema está en que ese tipo de test no permite 
discernir entre esa hipótesis y esta hipótesis: GARCH(0,q) vs GARCH (0,p+q).
¿Cómo estimamos un modelo GARCH? El proceso de estimación es bastante no 
lineal. Lo que se hace es iterar en la función de verosimilitud hasta que ésta alcance un 
máximo. Ello supone que los errores son normales.
33 Bollerslev, Tim (1986). "Generalized Autoregressive Conditional Heteroskedasticity," Journal 
of Econometrics, 31:307-327.
34 Engle, Robert F., David M. Lilien, and Russell P. Robins (1987). "Estimating Time Varying Risk 
Premia in the Term Structure: The ARCH-M Model," Econometrica, 55:391-407.
5.39
log L=
−1
2
log 2−
1
2
log t
2−
1
2
 y t−x t 
2
t
2
(5.76)
Donde 
t
2=c y t−1−xt−1
2t−1
2 (5.77)
5.07 Correlación de residuos
Supongamos ahora que que E[i , j ]≠ 0 . En tal caso, la matriz de covarianza de 
residuos es:
[
11  12 ⋯ 1n
 21  22 ⋯ 2n
⋮ ⋮ ⋱ ⋮
n1  n2 ⋯  nn
] (5.78)
Aún si consideramos el problema de residuos son homocedásticos
[
2  12 ... 1n
 21 
2 ⋯ 2n
⋮ ⋮ ⋱ ⋮
n1  n2 ⋯ 
2 ] (5.79)
y simétrica, es decir, ij= ji resulta imposible de estimar (5.79) con una muestra finita. 
Hay más incógnitas que grados de libertad. Usualmente:
• Si la forma de ij no es parametrizable, es decir no tiene una estructura, no es 
estimable.
• Si la forma de ij es parametrizable, es decir tiene una estructura (simple), es 
estimable.
• Si es estimable, los parámetros estimados por mínimos cuadrados del modelo 
y t=x tt siguen siendo insesgados, excepto si las variables de lado derecho 
5.40
contienen un rezago de la variable endógena. La demostración del primer caso 
es:
=xt ' x t 
−1
x t ' y t pero yt=x tt
=xt ' x t 
−1
x t ' [xtt ]=x t ' x t 
−1
x t ' t
(5.80)
y por lo tanto, E[ ]= .
Supongamos que y t=x tt y t=t−1t donde t es ruido blanco. 
Entonces,
V [ ]=
2
∑ x t2

22
∑ x t2 [∑
x t xt−1
∑ xt2
2
∑ x t x t−2
∑ x t2
...N−1
∑ x1 xN
∑ x t2 ] (5.81)
por lo tanto, V [ ]=V [ OLS ] sólo si ρ=0 , es decir cuando no hay correlación.
La varianza del estimador bajo autocorrelación podrá ser mayor o menor que la 
de mínimos cuadrados dependiendo del valor de  . Si  es positivo, se sobreestima la 
varianza. Si  es negativo, no es claro el sesgo.
La solución al problema es, naturalmente, usar mínimos cuadrados 
generalizados, pero esto sólo es posible si conocemos Ω. Lo que se hace, usualmente, es 
hacer tests estadísticos para determinar el tipo de correlación de los residuos, dentro de 
modelos relativamente simples en términos del número de parámetros.
¿Cómo sabemos si hay correlación residual?
Un test bastante común es el de Durbin y Watson35, para el caso de errores con 
correlación de orden 1. Es decir, t= t−1t (correlación de orden 2 es 
t=1t−12t−2t ). El test es:
d=
∑
i=2
T
t−t−1 
2
∑
i=1
T
t
2
(5.82)
35 Durbin, J. and Watson, G.S., "Testing for Serial Correlation in Least Squares Regression I", 
Biometrika, Vol. 37, 1950, pp. 409-428.
Cristobal Ojeda Yany
5.41
La lógica es que:
• si hay correlación positiva, t será “cercano” a t−1 y, por lo tanto, d será 
cercano a cero.
• si hay correlación negativa t será “lejano” a t−1 y, por lo tanto, d será distinto 
de cero.
Desarrollemos el cuadrado del numerador de la ecuación (5.82).
∑
i=2
T
t−t−1
2=∑
i=2
T
[t
2t−1
2 −2t t−1] (5.83)
Sumandoy restando convenientemente:
∑
i=2
T
t−t−1
2=∑
i=1
T
t
2−1
2∑
i=1
T
t−1
2 −T
2−∑
i=2
T
2t t−1 (5.84)
de vuelta en (5.82)
d=
∑
i=1
T
t
2−1
2∑
i=1
T
t−1
2 −T
2−∑
i=2
T
2t t−1
∑
i=1
T
t
2
(5.85)
es decir, 
d=1−
1
2
∑
i=1
T
t
2

∑
i=1
T
t−1
2
∑
i=1
T
t
2
−
T
2
∑
i=1
T
t
2
−
∑
i=2
T
2 t t−1
∑
i=1
T
t
2
(5.86)
Notemos que:
• Si T es razonablemente grande, el segundo y cuarto términos serán cercanos a 
cero.
• Igualmente, el tercer término será cercano a 1.
• El último término es interesante, porque es 
5.42
cov t ,t−1
var t−1
(5.87)
es decir, es el estimador natural de mínimos cuadrados de  . En resumen, podemos 
escribir d ≈ 2 1− .
Volvamos al test de Durbin y Watson. Si d ≈ 2 1− , entonces tenemos los 
siguientes casos:
• Si no hay correlación d = 2.
• Si hay correlación positiva, 0 , d es menor que 2. En el límite, d es 0 cuando 
 es 1.
• Si hay correlación negativa, 0 , d es mayor que 2. En el límite, d es 4 cuando 
 es -1.
por lo tanto, d estará entre 0 y 4.
La aplicación del test no es tan simple, porque hay tres casos que estudiar. En 
este caso habrá dos “tests” son:
H 0 :No hay autocorrelación
H 1 :Hay autocorrelación positiva
H 0 :No hay autocorrelación
H 1 :Hay autocorrelación negativa
Como se ve, la hipótesis nula es siempre la misma pero la hipótesis alternativa es 
compleja. Otro problema es que usamos los residuos del mínimos cuadrados como 
estimadores de los residuos verdaderos, es decir, éstos dependen de x. Por ello, la 
distribución del test no es estándar y tiene distintos límites superiores e inferiores.
Si hacemos un test de correlación positiva al 95%, entonces (1) si d está por 
encima del limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si 
d está por debajo del límite inferior tengo correlación positiva.
Cristobal Ojeda Yany
5.43
Figura 5.9
Si hacemos un test de correlación negativa al 95%, entonces (1) si d está por 
debajo de 4-limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si 
d está por debajo del límite inferior tengo correlación positiva.
Figura 5.10
El test completo de Durbin y Watson para autocorrelación es:
Figura 5.11
2LI LS
Inconcluso
Positiva
No hay o negativa
2 4-LI4-LS
InconclusoPositiva o no hay
Negativa
2 4-LI4-LS
Inconcluso
Negativa
LSLI
Positiva
No hay correlación
Inconcluso
5.44
El test de Durbin y Watson no se puede aplicar cuando hay variables del lado 
izquierdo rezagada al lado derecho. En ese caso se usa el test h de Durbin (1970).36 Este 
estimador consiste en computar
h=r  n1−n 2 (5.88)
donde r es el coeficiente de correlación del primer rezago, n es el tamaño de muestra y 

2
 es la varianza del estimador del rezago de la variable endógena. El estadígrafo h se 
distribuye normal estándar.
Soluciones al problema de correlación de primer orden.
Volvamos al modelo original.
y t=x tt
t=t−1t
(5.89)
Podemos multiplicar el modelo original por  , rezagarlo un periodo y restarlo 
del original para obtener:
y t− yt−1=x t−x t−1t−t−1 (5.90)
es decir:
y t= yt−1[x t− xt−1 ]t (5.91)
• Note que ahora no hay problema con los errores.
• Si conociéramos  , podríamos transformar los datos y estimar con mínimos 
cuadrados. En realidad esto equivale a hacer mínimos cuadrados generalizados.
¿Lo conocemos? No. Pero tenemos una aproximación, d. Obtenemos d haciendo 
una regresión en los residuos originales de mínimos cuadrados y luego usamos 
=1−d /2 .
36 Durbin, J. “Testing for serial correlation in least squares when some of the regressors are 
lagged dependent variables” Econometrica, 38: 410-421.
5.45
Hay una estrategia estadísticamente mejor (Cochrane-Orcutt).37
1. Estimar el modelo original por mínimos cuadrados y obtener los residuos.
2. Hacer una regresión entre residuos y su rezago, obteniendo 1
3. Transformar el modelo usando 1 (es decir, y t− 1 y t−1 , etc).
4. Ir a 1 y volver a hacer el ejercicio hasta que el  converja.
Un problema del método de Cochrane-Orcutt es que nada garantiza que la 
distribución del estimador  converja a un óptimo global y, de hecho, podría ser el caso 
en que haya más de una moda en dicha distribución. Es por ello que se sugiere usar una 
estrategia de búsqueda sobre la base de una “grilla” que verifique todos los valores de 
 y satisfaga algún criterio de óptimo (p.e., mejor ajuste). En tal caso, un método 
sencillo es el de Hildreth y Lu38 que consiste en estimar el modelo transformado con 
=1, 0.99, 0.98, ... 0 ,... -0.99, -1 y se escoge el estimador minimizando la suma de residuos 
al cuadrado.
5.08 Variables instrumentales
El último supuesto que no hemos levantado es la ausencia de correlación entre 
los regresores y el error, es decir, E[ x ,]=0 . En numerosas ocasiones no es posible 
estar seguros que ello se cumple, en particular cuando se usan datos macroeconómicos.
El problema ocurre, en primer lugar, cuando hay variables omitidas que están 
correlacionadas con aquellas que se usan para modelar. Por ejemplo, cuando se estudia 
el rendimiento escolar y se omite la educación de los padres como determinante, 
entonces la estimación entrega resultados sesgados porque algunas variables 
independientes (p.e., ingresos familiares) están típicamente relacionadas con la variable 
omitida. Un segundo caso se produce cuando hay problemas de endogeneidad en 
alguna variable del lado derecho: este “sesgo de simultaneidad” lo estudiaremos más 
adelante. Una tercera causa de violación de este supuesto es cuando las variables 
independientes están medidas con error. En tal caso, como vimos en la sección 2, cada 
vez que se observa x no se observa la verdadera variable sino una medición con ruido el 
cual estando correlacionado con x queda incluido en el error. Una cuarta causa de 
correlación entre regresor y residuo se da cuando hay sesgo de selección, es decir 
cuando la conformación de la muestra no es independiente del diseño del experimento. 
Es decir, cuando aquellos que más se benefician del tratamiento son aquellos que más 
participan del mismo.
37 Cochrane, D. and G.H. Orcutt, 1949, Application of least squares regression to relationships 
containing autocorrelated error terms, Journal of the American Statistical Association, 44: 32-61.
38 Hildreth, C. and J.Y. Lu, 1960, Demand relations with autocorrelated disturbances, Technical 
bulletin 276, Dept. of agricultural economics (Michigan State University, East Lansing, MI).
5.46
¿Qué sucede con el estimador de mínimos cuadrados si E[ x ,]≠0 ? Ninguno 
de los resultados que obtuvimos sobre las propiedades del estimador de mínimos 
cuadrados se mantienen. En particular, sabemos que va a haber sesgo, usualmente de 
tamaño y dirección desconocidas. Además, las varianzas de los estimadores están 
distorsionadas (típicamente, subestimadas).
Una solución sería usar una o más variables que, estando correlacionadas con los 
regresores, no esté relacionadas con el error. En ese caso, vamos a usar dicho conjunto de 
variables auxiliares como un instrumento de x. En términos sencillos, buscamos un 
conjunto z tal que la correlación entre z y x sea alta pero que la correlación entre z y  
sea baja. Usualmente esto resulta más fácil de decir que de hacer.39
En primer lugar vamos a demostrar que el estimador mínimos cuadrados bajo la 
hipótesis que los residuos están correlacionados con x en el modelo de interés es 
inconsistente. Como existe correlación entre regresor y residuo:
E[| x ]=i (5.92)
Supongamos que E[]=0 . Este supuesto es irrelevante si la ecuación incluye 
una constante. La correlación entre regresor y residuo puede ser escrita como:
Cov [x i ,i ]=Cov [ x i , i | x ]=Cov [x i ,i ]= (5.93)Aplicamos el Teorema de Kinchine y obtenemos plim
1
n
x ' = . Si esto es cierto, 
entonces
E[ ]= x ' x 
−1
x '≠ (5.94)
y por ello el Teorema de Gauss-Markov no se sostiene. De hecho, el estimador es, 
además, inconsistente porque
plim = plim x ' x 
−1
plim x '=Q−1≠ (5.94)
39 Aunque la mayor parte de los textos señalan que el estimador de variables instrumentales fue 
desarrollado en el contexto de modelos de ecuaciones simultáneas, el primer trabajo que 
desarrolla este método es el de Sewall Wright (1928) en un apéndice del libro de su padre P.G. 
Wright The Tariff on Animal and Vegetable Oil. El término “variable instrumental” fue acuñado 
por Olav Reiersol (1941, “Confidence Analysis by Means of Lag Moments and Other Methods 
of Confluence Analysis”, Econometrica, 9:1-24). Reiersol colaboró también con el desarrollo del 
esperanto (O. Reiersol and R. C. Marble: A comparison between word formation in Esperanto 
and English, Esperantologio, Volumo I, Numero 1, pp. 1-80, Aûgusto 1949)
5.47
Derivemos ahora el estimador de variables instrumentales, IV . En particular 
notemos que la varianza no condicional de  es
Var [i ]=Var [|x iE[i |x i ]]=
2∞ (5.95)
Los supuestos necesarios para derivar el estimador IV son:
• [x i ,z i ,i ] son secuencias i.i.d. de variables aleatorias
• E[x ij
2 ]=Qxx∞ y constante
• E [ z ij2 ]= Qzz∞ y constante
• E [x ij ,z ij ]=Qxz∞ y constante
• E [ij |z ij ]=0
Así lo que se obtiene es:
plim
1
n
Z ' Z=Qzz plim
1
n
Z ' X=Qzx plim
1
n
Z ' =0 (5.96)
Las condiciones (5.96) definen el conjunto de instrumentos admisibles. Sea 
entonces el modelo y i=x i i y supongamos que tenemos un conjunto de variables z. 
Entonces pre-multipliquemos el modelo por zʹ :
z i ' y i=z i ' x i zi ' i (5.97)
Aplicando el plim tenemos
plim 1n z i ' y i= plim 1n zi ' x i plim 1n z i ' i (5.98)
pero el último término es cero. Entonces
5.48
plim 1n z i ' x i
−1
plim 1n z i ' y i= (5.99)
Note que para que (5.99) tenga sentido, z ’ x tiene que ser una matriz 
conformable. Por ello, debe haber k variables en la matriz z. En este caso, estimador de 
variables instrumentales es
 IV=z i ' x i 
−1
z i ' yi (5.100)
Note que este estimador es consistente. Es decir, sus propiedades son asintóticas. 
Por ello, el tamaño de muestra es una consideración importante al momento de usar 
variables instrumentales. Note que en el caso especial que i=0 , entonces γ=0 y 
obtenemos el estimador de cuadrados mínimos. Es decir, el estimador de variables 
instrumentales es más general que el de cuadrados mínimos. Otra manera de pensarlo es 
que en el caso que no haya correlación entre regresor y residuo, el mejor instrumento de 
x será el mismo x y el estimador de variables instrumentales es el estimador clásico 
mínimos cuadrados.
La distribución del estimador de variables instrumentales se obtiene de manera 
análoga al caso de mínimos cuadrados ordinarios. Es decir, 
 n  IV−=[ 1n z ' x ]
−1
[ 1 n z ' ] (5.101)
Basado en el análisis que hicimos para el caso de ausencia de correlación entre 
regresores y residuos, el último término cumple
1
n
z ' 
d
→
N [0,2 Qzz ] (5.102)
por lo que:
 1n z ' x 1 n x '  d→N [0, Qxz−1 2 Qzz Qzx−1] (5.103)
El estimador de la varianza de los residuos es, naturalmente, 
5.49
2=
1
n
∑
i=1
n
 yi−x i ' iv 
2
(5.104)
¿Qué sucede si la matriz tiene un rango mayor a k? Naturalmente, z ' x no es 
cuadrada y no tiene inversa. Sin embargo, consideremos el siguiente algoritmo:
a) Hacer una regresión de x en z (para todo x).
b) Hacer una predicción de x basada en z llamada x .
c) Hacer una regresión de y en x .
Note que el estimador derivado en la etapa a) no tiene problemas de consistencia 
y que la proyección derivada en b) es una representación óptima de x y que, además, por 
el hecho de ser una predicción es ortogonal a  .
Entonces, el estimador del modelo estimado usando la predicción sería:
 IV= x ' x 
−1
x ' y (5.105)
Este es un procedimiento de mínimos cuadrados en dos etapas (2SLS).40 Es muy 
común en la literatura empírica. Pero es posible estimar todo el modelo en un sólo paso. 
Debido a que x=z z ' z 
−1
z ' x , entonces
 IV=x ' z z ' z 
−1
z ' x −1 x ' z z ' z −1z ' y (5.106)
Quedan los detalles –que se los dejo a ustedes– de obtener la varianza del 
estimador de variables instrumentales y, lo que es más difícil, el estimador de la 
varianza de los residuos. Un punto que no es menor es el de la dimensionalidad de las 
matrices en (5.106). Para que la estimación sea posible es necesario que el número de 
instrumentos sea al menos igual al número de variables que se está instrumentando.
Hay algunos econometristas que señalan que el estimador natural de la 
econometría clásica es el de variables instrumentales. Mínimos cuadrados sería una caso 
particular en el que el mejor instrumento de x es la misma variable. Como mínimos 
cuadrados es también un caso particular de mínimos cuadrados generalizados, entonces 
el estimador mínimos cuadrados generalizados con variables instrumentales (GLS-IV) 
debiera ser el más general de todos los estimadores lineales.41
40 El método de mínimos cuadrados en dos etapas fue desarrollado en 1957 por R.L. Basmann 
(“A generalized classical method of linear estimation of coefficients in a structural system of 
stochastic equations”. Annals of Mathematical Statistics 20:46-63) y popularizado por H. Theil en 
su clásico libro Economic Forecasts and Policy, North Holland, Amsterdam, 1958.
41 Un tratamiento completo de este estimador se encuentra en el libro de R. Bowden y D. 
Turkington, Instrumental Variables, Cambridge University Press, 1984.
5.50
Condiciones de validez de los instrumentos
Una pregunta muy importante en la aplicación de métodos de variables 
instrumentales es ¿cómo saber si los instrumentos son adecuados? En principio, le 
hemos exigido dos características a las variables para que sean instrumentos adecuados: 
(1) que estén correlacionados con la(s) variable(s) que tiene el problema de correlación 
con el error, y (2) que no estén correlacionados con el residuo. La primera condición es 
que el instrumento sea pertinente, en tanto que la segunda exige que sea exógeno. 
Cuando el número de instrumentos es igual al número de variables que se quiere 
instrumentar, las condiciones antes expuestas son directas y el estimador de variables 
instrumentales está exento de complicaciones. Cuando hay un mayor número de 
instrumentos, la primera condición se vuelve menos clara. Si uno considera el estimador 
de variables instrumentales como un estimador de dos etapas, entonces contar con un 
número muy grande de posibles instrumentos en una muestra finita puede ser costoso 
en términos de grados de libertad. Si el modelo es, además, multivariado el problema 
del número y tipo de instrumentos es parte fundamental del análisis de modelos de 
ecuaciones simultáneas.
¿Qué sucede si algunos de los instrumentos, en realidad, están correlacionados 
con el error? Entonces, el estimador es inconsistente. Pero si hay al menos tantos 
instrumentos válidos como variables que necesitan ser instrumentadas, el estimador 
sigue siendo consistente. Entonces ¿cómo podemos hacer un test de validez del supuesto 
que hay suficientes instrumentos válidos? En principio, se podrían obtener los residuos 
de la estimación de variables instrumentales y luego hacer una regresión de éstos en los 
instrumentos. Si el R² de esta segunda regresión es cero, entonces los instrumentos no 
están correlacionados con el residuo. El problema es que si el R² es significativo, 
entonces algunos o todos los instrumentos son inválidos, pero no sabemos cuáles.
El siguiente procedimiento, llamado test de Wu-Hausman42, es frecuentementeusado para estudiar la ortogonalidad entre instrumento y residuo. El modelo es de la 
forma y=x z 2 , donde z 2 es una matriz de regresores fijos entre muestras (por 
esta razón z 2 es ortogonal al residuo  ). Suponga que existe un conjunto de variables 
z 1 y que podemos definir z=z 1∪z 2 como la matriz de instrumentos de x. Entonces el 
estimador de variables instrumentales en dos etapas se puede escribir como:
2SLS=Y ' Pz Y 
−1
Y ' Pz y donde Pz=z z ' z 
−1
z ' (5.107)
42 Este test fue propuesto por M. D. Wu (“Alternative Tests of Independence Between Stochastic 
Regressors and Disturbances”, Econometrica, 40:733-750, 1973) y corresponde al caso particular 
del test de J. Hausman (“Specification Tests in Econometrics”, Econometrica, 46:1251-1271, 
1978). A. Nakamura y M. Nakamura prueban la equivalencia de ambos tests (“On the 
relationships among several specification tests presented by Durbin, Wu and Hausman”, 
Econometrica, 49:1583-1588, 1981).
Cristobal Ojeda Yany
5.51
De esta manera, los estimadores de mínimos cuadrados y variables 
instrumentales son:
OLS=[x ' I−Pz 2x ]
−1
[x ' I−Pz 2 y ]
 IV=[ x ' Pz−Pz 2x ]
−1
[ x ' Pz−Pz 2 y ]
(5.108)
donde Pz=z z ' z 
−1
z ' y Pz 2=z 2z2 ' z 2
−1
z 2 ' .
Wu (1973) demuestra que la diferencia de los dos estimadores se distribuye:
OLS−IV↝ N 0,
2
D (5.109)
donde D=[ x ' Pz−Pz 2]
−1
−[ x ' I−Pz 2]
−1
pos.def. , por lo que el siguiente test 
adecuado es:
T 3=
 OLS−IV ' D
−1 OLS− IV 
2
↝G 
2 (5.110)
donde 2=
 y−x IV  ' I−Pz  y−x IV 
n−G−K 2
, G=rango(x) y K2=rango de z 2 .
Si no se rechaza la hipótesis nula significa que ambos estimadores son iguales: 
sabiendo que el estimador de mínimos cuadrados ordinarios es sesgado, se concluye que 
los instrumentos no pueden ser ortogonales al error.
¿Qué sucede si los instrumentos no están fuertemente relacionados con las 
variables que se quiere instrumentar? Este problema es llamado instrumentos débiles. 
Existe una creciente literatura al respecto con diferentes enfoques. Hall, Rudebusch y 
Wilcox (1996)43 estudian la mínima correlación canónica entre instrumentos y regresores. 
Shea (1997) desarrolla un test de R² basado en el uso de regresores adicionales.44 El 
trabajo de Stock y Yogo (2002)45 es superior a éstos en el sentido que proponen una 
definición formal y un test de la debilidad de los instrumentos que , además, nos ayuda 
a entender el problema. Si el modelo es de la forma y=Y  y su forma reducida es 
43 Hall, A., G.D. Rudebusch and D. Wilcox (1996): “Judging Instrument Relevance in 
Instrumental Variables Estimation,” International Economic Review 37:283-298.
44 Shea, J. (1997): “Instrument Relevance in Multivariate Linear Models: A Simple Measure,” 
Review of Economics and Statistics 79:348–352.
45 J. Stock y M. Yogo “Testing for weak instruments in linear IV regressions”, NBER Technical 
Papers 284, 2002.
5.52
del tipo Y=z  , donde z es la matriz de instrumentos, entonces el estimador de 
variables instrumentales en dos etapas se puede escribir como:
2SLS=Y ' Pz Y 
−1
Y ' Pz (5.111)
Rothenberg (1984)46 demuestra que este estimador puede ser escrito como:
 2SLS−=
½
uS /
12/S/
2
(5.112)
donde u= ' z / ' z ' z
½
, = ' z / ' z ' z
½ , S= ' P z / , 
y S=V ' Pz /
½
.
El parámetro 
2= ' z ' z / es el “coeficiente de atenuación” y es otra 
versión del que estudiamos en la ecuación (5.25). Note que si los instrumentos son fijos y 
los residuos normales, entonces  y  se distribuyen como normales estándares y 
S y S son elementos de una matriz con distribución de Wishart. Así, las 
distribuciones de estos cuatro elementos no dependen del tamaño de muestra. De hecho, 
en la ecuación (5.112) el tamaño de muestra solo entra a través de μ. Más aún, μ cumple 
exactamente el rol que T cumple en la derivación del estimador de mínimos 
cuadrados.
La importancia de esta descomposición radica en que si los instrumentos son 
débiles, 2 será muy pequeño y la inferencia basada en (5.112) estará sesgada (el 
estimador puede estar sesgado y los errores estándares estarán potencialmente mal 
computados). Habrá, entonces, dos preguntas prácticas que se derivan de esta 
observación: ¿cuán pequeño tiene que ser 2 para que los instrumentos sean débiles? y, 
si  (y por tanto  ) son desconocidos, ¿como se hace en la práctica para saber si 2 es 
suficientemente pequeño como para señalar que los instrumentos son débiles?
Respecto de la definición de instrumento débil, Stock y Yogo presentan dos 
alternativas: (1) un grupo de instrumentos es débil si el sesgo del estimador de variables 
instrumentales, relativo a aquel del estimador de mínimos cuadrados, es mayor que un 
cierto punto de referencia, b (b=10%, 15%, etc.) y (2) un grupo de instrumentos es débil si 
el test de Wald convencional tiene un tamaño que excede algún punto de referencia r (r 
=10%, 15%, etc.)
46 T.J. Rothemberg (1984): “Approximating the Distributions of Econometric Estimators and Test 
Statistics” Ch. 15 in Handbook of Econometrics, Vol. II, ed. by Z. Griliches and M.D. Intriligator. 
Amsterdam: North Holland, 881–935.
5.53
Dada estas definiciones de debilidad, el test propuesto es una variación del test 
de Cragg y Donald (1993).47 Retomemos la matriz MX=I−X X ' X 
−1
X ' para escribir 
el estimador de mínimos cuadrados como OLS=M 0Y ' M 0Y 
−1
M 0Y ' M 0 y  , 
en tanto que el estimador de clase k es:
k =[MXY '  I−kMZ ' MXY ]
−1
[ MXY ' I−kMZ ' MX y ]
−1
(5.113)
El test de Wald asociado a la hipótesis nula H 0 : =0 es:
W k =
[ k −0 ] ' [MXY  ' I−kMZ ' MXY ] [ k −0 ]
n k
(5.114)
donde uu=
MX u  k ' MX u  k
T−K 1−n
y u  k = y−Y k  .
El test de Stock y Yogo se hace sobre el mínimo valor propio de la matriz GT (
g min=mineval GT  ), que es una matriz análoga al test F de la primera etapa de 2SLS: 
GT= VV
½
' MXY ' PZ ' MXY  VV
½ /K 2 donde VV=MXY ' MZY / T−K 1−K 2 . 
La distribución del test no es estándar, pero los autores proveen las tablas con los 
valores críticos.
47 Cragg, J.G. and S.G. Donald (1993): “Testing Identifiability and Specification in Instrumental 
Variable Models,” Econometric Theory, 9: 222–240.
5.54
Apéndice A: Ejercicios
1. Considere la función de producción con elasticidad de sustitución constante 
(CES):
Y i ,t=[1−K i , t−Hi ,t−]
−

e i , t

Donde los subíndices i y t, son firmas y tiempo respectivamente, Y es el 
producto, K es el capital, y H es el empleo calificado y donde los parámetros 
 , , y  se denominan parámetros de eficiencia, distribución, rendimientos de 
escala, y sustitución, respectivamente. Como la función CES no es lineal en los 
parámetros no pueden estimarse por MCO. Demuestre que la función puede linealizarse 
utilizando la técnica de Taylor de la siguiente manera:
lnY i ,t=i1LnK i ,t2LnH i ,t3[ LnK i , tH i ,t ]
2
i , t
y encuentre las expresiones de equivalencia entre los estimadores  y los parámetros de 
la segunda ecuación.
2. Usted trabaja en la Viña Don Timoteo. Su jefe (el conocido don Timoteo) le pidió 
computar la elasticidad acidez-temperatura del vino syrah. Usted tomó datos por hora 
de ambas variables durante varias semanas y estimó usando un modelo de mínimos 
cuadrados ordinarios que ésta era -0.82 y el R² era 0.84. Al presentar los resultados, don 
Timoteo notó que la medición de temperatura estaba en escala Farenheit y la acidez en 
la escala de Gousset, pero el quería la temperatura en grados celsius y la acidez en la 
escala PH. ¿Cuál es la nueva elasticidad? ¿Cuál es el nuevo ajuste de laregresión? La 
regla de conversión de Farenheit a Celsius es ̊C=5 /9 F−32 y la regla de conversión 
de Gousset a PH es ̊G=−1.8 PH .
3. Después de crecer sostenidamente entre 1985 y 1999, la economía entró en un 
ciclo recesivo entre 2000 y 2003. El ministro de Hacienda desea saber si ha habido un 
quiebre estructural en la siguiente ecuación que describe el crecimiento de la economía:
PIBt=01
Inv t−1
PIBt−1
2PCu t−13CHt−1t
donde Δ es la primera diferencia, Inv es la formación bruta de capital fijo, PC es el precio 
del principal bien de exportación, y CH es el stock de capital humano. ¿Cómo hace usted 
un test de Chow de cambio de régimen? 
5.55
4. Suponga que Ud. sospecha que hay cambio estructural en su muestra de n 
observaciones a partir del instante T. ¿Qué haría Ud. si desea testear esta hipótesis 
usando un test de Chow y su modelo tiene kn−T variables?
5. Suponga que Ud. cree que hay cambio estructural en su modelo, pero no sabe 
dónde se produce. Describa con precisión el test de CUSUM. Plantee el modelo como si 
el quiebre fuese en la tendencia y capturable con una dummy. Obtenga el estimador de 
los parámetros del modelo con quiebre y compárelo con el del modelo que excluye un 
quiebre.
6. En un trabajo reciente se analizan los determinantes de la migración en función 
de costos de transporte y atractivo relativo entre las regiones de origen y destino. El 
trabajo postula que en el periodo 1987-92, la fuerza con que migraron las personas no 
habría decrecido de manera significativa con respecto al periodo 1977-82. Para ello, se 
comparan los resultados de dos regresiones de mínimos cuadrados del siguiente tipo 
usando tests de Chow. Haga dos críticas fundamentales al procedimiento.
ln
M ij
M i
=01Pi2P j3D4D
25W i−W j 6W i−W j 6U i7U j
Donde M es migración, P es población, D es distancia, W son los salarios, Δ es la 
primera diferencia y U desempleo. Los subíndices i y j se refieren a cada región y si 
estan juntos se refiere “de i a j”.
7. Suponga que el parámetro arbitrario en el estimador tipo “ridge” es r. Demuestre 
que el sesgo del estimador bajo colinealidad crece mientras menor es r. 
8. Demuestre que el R² de una estimación usando el estimador de ridge podría ser 
mayor a 1.
9. La presencia de multicolinealidad hace que el estimador de mínimos cuadrados 
no sea MELI (BLUE).
10. Suponga que dos variables, y , x , son observadas con error de medición, es 
decir, para t=1,T
y t= ytt
y
x t= x tt
x
donde las innovaciones se distribuyen i.i.d. Suponga que el modelo de regresión lineal 
es el adecuado para las variables no observables:
 y t=01 x tt
Cristobal Ojeda Yany
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.56
¿Bajo qué condiciones el estimador de  de la regresión basada en {x,y} es 
inconsistente?
11. Al revisar los datos de un estudio de demanda qi
d= f  p i , y i ;  Ud. 
descubre el siguiente fraude: el autor rellenó las observaciones faltantes. Pruebe que el 
estimador de la elasticidad precio está sesgado. Pruebe que el estimador de la elasticidad 
ingreso (donde no faltan datos) también lo está.
12. Demuestre que el estimador de mínimos cuadrados generalizados es consistente.
13. Comente: Resulta innecesario preocuparse por los problemas de 
heterocedasticidad si existe la matriz de White (1990). Describa en líneas generales la 
extensión de Newey y West (1987).
14. Aún si se violan los supuestos de homocedasticidad en el modelo clásico de 
regresión lineal, los estimadores convergen en probabilidad a normal estándares porque 
los residuos se distribuyen asintóticamente normal debido a la ley de los grandes 
números no-estocásticos de Markov-Rao.
15. Al estimar los determinantes de la distribución del ingreso en Guyana (Si) se 
encontró que ésta depende de la educación de los padres (Ei), el stock de riqueza de la 
familia (Wi), el consumo de drogas de los padres(Xi), el tamaño de la familia (Li) y una 
dummy para los padres o madres solteras. Pero además se descubrió que los errores 
estaban “ordenados”, de modo tal que para las familias más numerosas los residuos 
parecían ser más grandes ( σ i
2=σ 2 h [Li
2
,Zi ] ), donde Z es una variable desconocida 
ortogonal a L. Plantee formalmente una estrategia de estimación del modelo usando el 
estimador de mínimos cuadrados generalizados (ojo, Z no es observable así es que 
plantee primero el estimador GLS suponiendo que Z es conocido y luego intente 
resolver el problema de que no conoce Z. No use la matriz de White.
16. Suponga que en un modelo tipo y=x  se sabe que hay heterocedasticidad 
provocada por el uso de variables nominales. Demuestre que en el modelo de mínimos 
cuadrados ponderados que utiliza datos reales, el R² está mal definido y la “constante” 
es variable ¿Cómo se recuperan los parámetros de interés (  ) del modelo estimado?
17. Es preferible, en ocasiones, usar mínimos cuadrados en vez de variables 
instrumentales aunque el estimador de mínimos cuadrados no sea consistente y el de 
variables instrumentales sí lo sea.
18. Considere el siguiente modelo y t= ' xtt , donde algún componente de x es 
no observable. Plantee un estimador de variables instrumentales válido. ¿Bajo qué 
condiciones este estimador es asintóticamente consistente? Pruebe las condiciones.
19. El siguiente problema demuestra la necesidad de usar variables instrumentales. 
Considere el siguiente modelo:
Cristobal Ojeda Yany
Cristobal Ojeda Yany
5.57
c t= ytt
t→N 0,
2 
y t=c ti t
donde i es exógena,  es ruido blanco (con media cero y varianza σ²) y 
limt →∞
1
T
∑
t
i t−i=i
2
. Pruebe que el estimador de mínimos cuadrados de  es 
=
 21 /
 2 i
2/1−2
y que, por lo tanto, hay que usar un instrumento para yt.
20. El test de Durbin-Watson de autocorrelación no se puede aplicar si los errores 
son heterocedásticos.
21. Suponga que su modelo es el siguiente, donde los residuos están 
correlacionados:
Y t=Y t−1ut
u t=tt−1
→N 0,
2
I 
Demuestre que el estimador mínimos cuadrados de δ, es inconsistente.
22. Demuestre que el siguiente estadígrafo es aproximadamente equivalente a la 
correlación de primer orden de los residuos del siguiente modelo: y t=x tt
=1−
1
2
∑
i=2
T
 yt−1−x t−1− yt− xt 
2
∑
i=1
T
 yt−1−x t−1 
2
23. Suponga que su modelo es:
Y t=Y t−1t ||0
ut=tt−1
→N 0,
2
I 
Demuestre que si se estima =∑Y t Y t−1 /∑ Y t−12 , entonces 
plim =
1−
12
 con =

12
Cristobal Ojeda Yany
5.58
24. En un trabajo reciente (Spatial Inequality, Growth, and Migration in Chile, R. 
Soto y A. Torche, 2004) se analizan los determinantes de la migración de población entre 
regiones en función de costos de transporte y atractivo relativo entre el origen y el 
destino. Los datos de migración provienen de los censos de 1982 y 1992 donde se 
pregunta ¿dónde vivía usted hace 5 años? El modelo planteado es:
ln
M ij
M i
=01Pi2P j3D4D
25W i−W j 6Ui7U j
donde M es migración, P es población, D es distancia, W son los salarios reales, y U el 
desempleo. Los subíndices i y j se refieren a cada región y si están juntos se refiere “de i 
a j”. Este modelo no es panel. 
Compute el sesgo de los estimadores de α1 y α2 si las poblaciones están medidas 
con un error que se distribuye con media cero y varianza μ².
¿Son inconsistentes los coeficientes α3 a α7? Pruébelo usando matrices 
particionadas.
25. Cuando Alvaro estudió el consumo de marihuana en una población de 
Concepción, obtuvo el siguiente modelo estimado usando mínimos cuadrados:
C t=0.92C t−1ut
0.19
donde C es el consumo y el valor entre paréntesis es la desviación estándar del 
estimador. Karol observó, sin embargo, quelos residuos seguían el siguiente modelo:
ut=t0.16t−1
0.02
Compute el sesgo del estimador.
26. Demuestre que cuando se computa el estimador de mínimos cuadrados 
generalizados posibles de los parámetros del siguiente modelo, no se necesita que el 
estimador de θ sea eficiente y basta con que sea consistente.
(a)
c i=10.580.88∗ y ii
3.48 0.27 
 i
2=z i

27. Suponga que su modelo es y=x , donde y es el salario por hora y x son 
características del individuo. Suponga ahora que por ley no se puede pagar menos que 
el salario mínimo, y . ¿Cómo afecta esta restricción al estimador de β? Analice 
consistencia y eficiencia.
5.59
28. Suponga un modelo econométrico lineal dado por y=x para el cual la 
estructura del error tiene las siguientes propiedades: t=ht t donde ht es una variable 
no correlacionada e independiente de xt. Considere además que t=t−1t , con 
∣∣1 y μ ruido blanco.
(a) Calcule la varianza y función de autocovarianza de t .
(b) Suponga que usted dispone de datos sobre ht. ¿Cuál es el estimador más eficiente 
de β? Describa detalladamente los pasos necesarios para calcularlo.
(c) Suponga ahora que no dispone de datos sobre ht. ¿Cómo podría estimar 
eficientemente el parámetro? Explique detalladamente los pasos necesarios para 
calcularlo.
29. Considere el siguiente modelo lineal y=x  . Sea  el estimador de mínimos 
cuadrados ordinarios y sea = y− x  el residuo del modelo. Sea  el estimador de 
variables instrumentales para algún instrumento Z y sea el residuo de variables 
instrumentales = y−z  . Si el instrumento es verdaderamente exógeno, ¿tendrá el 
modelo estimado con variables instrumentales un mejor ajuste que el de mínimos 
cuadrados ordinarios (menor SRC), al menos en muestra grande?
30. Considere el modelo y=x  . Suponga que hay heterocedasticidad derivada 
del uso de variables nominales (tanto x como y). Suponga que el modelo estimado 
usando datos reales o deflactados no tiene heterocedasticidad. Demuestre que el valor 
esperado del estimador de mínimos cuadrados de β es el mismo en ambos modelos. 
Demuestre que, a pesar de lo anterior, el R2 no es el mismo en ambas ecuaciones.
31. Sea el modelo lineal de la forma yi= zii con E [ | z ]=0 . Suponga que 
2=E [2 | z ] es conocido. Demuestre que el estimador de mínimos cuadrados 
generalizados de β es un estimador de variables instrumentales para algún xi (es decir, 
encuentre la expresión para que dicho xi cumpla lo deseado).
Capítulo 6
Modelos no lineales
El área de los modelos no lineales es muy extensa y, posiblemente, es aquella que 
se ha desarrollado con mayor interés en los últimos años, como resultado del veloz 
desarrollo de la computación. La gran mayoría de los modelos no lineales se resuelven 
por medio de métodos de cálculo numérico –es decir, usando algoritmos de 
aproximación a la solución— debido a que no existen formas cerradas que permitan 
derivar expresiones matriciales simples para obtener los estimadores. En la primera 
parte de este capítulo desarrollamos el instrumental necesario para entender los 
métodos de optimización no lineal que se usan para la estimación de modelos no 
lineales. En la segunda parte se discute los métodos y estimadores no lineales.
6.01 Elementos de cálculo numérico
Existe un gran número de técnicas de optimización no lineal que resultan de gran 
utilidad para solucionar modelos no lineales, agrupadas bajo el nombre de cálculo 
numérico. Naturalmente, las técnicas no lineales no son de interés per-se en este curso1, 
sino en la medida que nos sirven para entender cómo operan y cómo se hace la 
estimación no lineal.
Generación de números aleatorios
Una parte importante de los métodos de optimización se basan en el uso de 
números aleatorios. Naturalmente, es imposible generar números verdaderamente 
aleatorios; cualquier algoritmo que se use para producir numeros puramente aleatorios 
es replicable y, por tanto, sus resultados no son estrictamente aleatorios.2
No obstante, hay algoritmos útiles para nuestros propósitos. En general éstos son 
del tipo:
1. Dé un número de partida (del reloj), llamado semilla, S .
2. Actualize la semilla: S j=S j−1∗A , A = cte.
3. Transforme semilla: x j=S j∗B , B = cte.
4. Guarde xj y vaya a (2)
1 Un tratamiento exhaustivo se encuentra en Numerical Methods in Economics, K. Judd (2000) MIT Press.
2 Anyone who considers arithmetic methods of producing random digits is, of course, in a state of sin . John von 
Neuman
6.2
El típico algoritmo de los programas de computación se basa en:
• Dados P, Q, R y la semilla S j .
• Compute S j1=Mod R∗S j , P
x j1=S j1/Q
donde la función Mod produce el entero de R*S/P.
La rutina anterior produce valores entre 0 y 1 para números R,Q,P relativamente 
grandes (ej, 2,147,483,647). Obviamente, esta no es exactamente una muestra aleatoria. 
Dada las constantes y la semilla inicial, es replicable. Pero el algoritmo puede ser 
suficientemente complejo como para que el problema de replicabilidad sea mínimo y, 
por lo tanto, que se justifique su uso. Sin embargo, es inevitable que el generador en 
algún punto producirá un ciclo y comenzará a repetir los “números aleatorios”.3
Muestreo estadístico
A pesar de que la rutina anterior produce numeros no exactamente aleatorios, es 
una alternativa útil para hacer muestras de variables aleatorias derivadas de una 
distribución uniforme [0,1]. Pero se expande para cualquier uniforme, multiplicando los 
límites de manera adecuada.
La ventaja de tener una secuencia {Z } de números de una uniforme [0,1] es que 
ésta se puede reinterpretar como una secuencia de valores de la acumulada de otra 
distribución. Conociendo la función de la acumulada F . , tenemos una secuencia de 
valores aleatorios derivados de la distribución:
x=F−1Z  (6.1)
Por ejemplo, hay aproximaciones conocidas para el caso de la normal estándar 
(Abramovitz y Stegun, 1971):
F
−1
≈
c 0  c 1T  c 2T
2
1  d 1T  d 2T
2  d 3T
3
(6.2)
Una vez que se tiene una normal estándar, es trivial construir una χ², una F u 
otras distribuciones de uso común.
3 John von Neumann sugirió el siguiente algoritmo. Suponga que desea una secuencia de números 
aleatorios de 4 dígitos. (1) Elija cualquier número de 4 dígitos –por ejemplo, 6235. (2) Tome su cuadrado 
(38,875,225). (3) Extraiga los cuatro dígitos interiores de ese cuadrado (i.e., 8752). (4) Use ahora este 
segundo número para iterar (ir a 1).
6.3
Muestreo de Gibbs
Supongamos que existe una densidad conjunta que queremos modelar 
f x , y1 , y2 , ... , y k . Si estamos interesados por algún momento del problema, 
debiesemos calcular expresiones como:
f x =∫
y1
∫
y2
...∫
yk
f x , y 1 , y 2 , ... , ykdy1 dy2 ...dyk (6.3)
El problema puede ser demasiado complejo de resolver directamente. La 
alternativa es construir una aproximación indirecta de la densidad marginal f x  .
La idea es aprovechar las densidades condicionales para construir la marginal. 
Supongamos que la densidad es bivariada, f x , y  y que se conoce f x | y  y 
f  y |x  (a partir de la muestra). El algoritmo de Gibbs consiste en:
• Dado un y 0 , genere un x 1 a partir de f x | y  .
• Dado x 1 , genere y 1 a partir de f  y |x  .
• Dado un y 1 , genere un x 2 a partir de f x | y  , etc.
Estudios de Montecarlo4
Una técnica frecuentemente usada en econometría para obtener la distribución 
empírica de los parámetros o de un test es la simulación de Montecarlo. Usualmente lo 
que se hace es estudiar cómo cambia un resultado si se alteran las condiciones del 
problema, típicamente cuando se puede controlar bien dichas condiciones. Por ejemplo, 
si tenemos dudas de la calidadde un estimador debido a que la muestra no es muy 
grande y conocemos cómo se genera éste, podemos hacer el experimento artificial de ver 
cómo cambian los resultados al variar el tamaño de muestra.
Bootstrapping5
Frecuentemente no es posible tener una buena idea de las propiedades de un 
estimador y, en particular, sobre su comportamiento en la muestra. Una solución es 
4 Este método fue sugerido por John von Neuman y Stanislaw M. Ulam en un trabajo no publicado (“The 
Origin of the Montecarlo Method”). Ulam señaló que el método se le ocurrió jugando solitario mientras 
estaba enfermo en 1946. El nombre Monte Carlo se le puso porque éste era el método usado para hacer 
simulaciones de fisión nuclear en el proyecto de la bomba atómica cuyo nombre clave era Proyecto 
Montecarlo.
5 El término bootstrap fue acuñado por Bradley Efron (“Bootstrap methods: another look at the jackknife”, 
Annals of Statistics, 7:1-26, 1979). El término se deriva de una historia del libro del siglo 18 “Las 
Aventuras del Baron Munchausen”, de Rudolph Erich Raspe, en las que el protagonista había caído al 
fondo de un profundo pozo, del cual no había escapatoria, de no ser por la proverbial idea del Barón de 
salir “tirando fuertemente de los cordones de sus botas (bootstraps)”.
6.4
hacer bootstrapping. Supongamos que de un experimiento (modelo) obtuvimos el 
estimador n con una muestra de tamaño n. 
Es posible hacer una muestra con m observaciones y luego estimar de nuevo 
1m . De hecho, es posible generar una secuencia de largo T de estos estimadores 
{Bm }T
1
 sobre la cual obtener la media, varianza, etc.
La media de n sería 
1
T
∑
B=1
T
B m .
Cálculo de derivadas
En muchos casos es necesario calcular derivadas de alguna función. Típicamente, 
como ya hemos visto, cuando se computan estimadores utulizando la función de 
verosimilitud. En pocos casos se conoce la derivada analítica de la función de 
verosimilitud (ej, Poisson) y se puede computar directamente. Cuando no se conoce 
analíticamente, hay que buscar una aproximación. La más natural es:
∂F x 
∂ x
≈
F x−F x−
2
(6.4)
o, más generalmente,
∂F x 
∂ x i
≈
F x1, x 2 , ... ,x i , ...−F x 1, x 2 , ... , x i− , ...
2
(6.5)
Obviamente, el cálculo de las derivadas (por ejemplo, para obtener x tal que la 
derivada sea cero) puede ser tedioso y largo. Además, la elección de ε no es trivial. Si se 
escoge un valor muy grande, el algoritmo puede hacer muchas iteraciones antes de 
converger al resultado. Si, por el contrario, el valor elegido es muy chico, la estimación 
estará sujeta a mayor imprecisión. Finalmente, si se usa esta aproximación, habrá error 
por definición. Si se hacen muchos cálculos sobre ella, el error acumulado puede ser 
sustancial.
6.5
6.02 Optimización no lineal
Cuando la función es lineal o las derivadas tienen forma cerrada, la optimización 
se hace analíticamente (Lagrange). Si la función no es lineal y sus derivadas no tienen 
solución analítica, tendremos que aproximar la condición de óptimo (es decir, que las 
primeras derivadas sean iguales a cero) con algún método numérico.
Grid search (búsqueda tipo cuadrícula)
La alternativa más simple es hacer un barrido por los posibles valores de los 
parámetros de modo de obtener el óptimo. Esto se puede hacer cuando el número de 
parámetros es pequeño (1 o 2), pues de otro modo es demasiado costoso. Además, se 
necesita saber el rango de valores que puede tomar el parámetro y qué tan fina es la 
estimación (¿cuánto hay que incrementar el parámetro?).
Algoritmos iterativos
Los algoritmos iterativos se basan en la siguiente lógica:
• Dar un parámetro inicial arbitrario, 0 .
• Si 0 no es el óptimo, actualizar el parámetro según:
 j= j−1 j−1 j−1 (6.6)
donde λ es un “paso” (¿cuánto?) y Δ un vector de dirección (¿para dónde?).
El problema es que λ y Δ cambian en cada iteración, por lo que se necesita una 
manera de determinarlos. Determinar la dirección es fácil. La matriz de derivadas 
parciales (g) de la función (F) que se quiere optimizar da una respuesta inmediata. 
Determinar el paso es más complejo. En principio se debiera buscar λ tal que:
∂F  j j j 
∂ j
= g  j j j  ' j=0 (6.7)
pero esto raramente se hace porque es ineficiente y costoso en tiempo. Optimizar el paso 
implica que en cada iteración hay que hacer dos movimientos. Por lo general se usa λ fijo 
en los métodos que estudiamos a continuación.
6.6
Figura 6.1
Métodos de gradiente
Los métodos de gradiente descomponen el vector de dirección en dos 
componentes:
 j=W j g j (6.8)
donde W es una matriz definida positiva, g es el gradiente (matriz de primeras 
derivadas) de la función que se optimiza, y j se refiere a la iteración j-ésima. 
Naturalmente, W opera como una matriz de ponderadores de las gradientes.
¿De dónde viene la descomposición de la ecuación (6.8)? Considere la expansión 
de Taylor de la función F:
F  j j j =F  j  j g  j  j (6.9)
es decir:
F  j j j −F  j = jg  j  j (6.10)
por lo tanto
F  j j j −F  j ≃ j g  j 'W j g  j  (6.11)
el lado derecho es positivo si λ es pequeño y g no es cero. Entonces, una iteración 
adicional siempre aumenta la función F.
1
2
j
j+1
F1
F2
6.7
Método Steepest Ascent
Este método es poco sutil pero efectivo. Básicamente consiste en escoger W=I y 
=g . Es decir, pondere por 1 la información de las gradientes y ajuste los coeficientes 
equivalentemente.
Es un método muy rápido y tiene vector de dirección óptimo conocido:
 j=
−g ' g
g ' Hg
 donde H=
∂2F 
∂ ∂ '
(6.12)
El método no está exento de problemas. Primero, hay que computar segundas 
derivadas, lo que sabemos puede ser complejo y tedioso. Segundo, si H no es negativa 
definida, el método diverge. Tercero, el método converge muy lento, pues tiende a 
“pasarse de largo”, como en la Figura 6.1.
Método de Newton
Como todo óptimo de Newton, éste se basa en la idea es que en dicho óptimo, las 
derivadas de F son cero. Se puede hacer una expansión de Taylor alrededor de cero:
∂F 
∂
= g 0H 0 −0=0 (6.13)
resolviendo para θ y generalizando:
 j1= jH j
−1
g j (6.14)
entonces la recomendación es 
W=−H−1
=−H−1 g
=1
(6.15)
El método converge rápido cerca del óptimo. Si la función es cuadrática converge 
en 1 paso, porque la derivada es lineal. Es probablemente el mejor algoritmo si el 
problema es cóncavo. Pero tiene dos problemas: (1) lejos del máximo con funciones no 
muy “bien comportadas” puede diverger, y (2) también puede diverger si la matriz H no 
es negativa definida.
6.8
Quadratic Hill Climbing6
Este método enfrenta el segundo problema del método de Newton. Si H no es 
negativa definida, entonces se recomienda usar H ’=H− I , con  grande e I la 
matriz identidad. Esta transformación asegura que H sea negativa en la siguiente 
iteración.
Metodos tipo Cuasi Newton
La idea de este tipo de métodos es evitar el cálculo de la segunda derivada. La 
base de análisis consiste en reconocer que al actualizar la matriz de ponderaciones en 
cada iteración W j1=W jE es siempre positiva si E es positiva. Más aún si partimos 
de W 0=I .
Davidon, Fletcher y Powell (1958)7 sugieren utilizar el siguiente algoritmo de 
métrica variable:
W j1=W j
 j j '
 j '  j

W j  j  j ' W j '
 j 'W j  j
(6.16)
donde  j= j j y  j= g  j − g  j−1 . Entonces lo que se propone es aproximar la 
inversa de la segunda derivada H
−1 por el cambio ponderado en la primera derivada, 
 j= g  j − g  j−1 . Por ello, el método va acumulando los errores cometidos en la 
aproximación de la inversa de las segundas derivadas:
W j1=W jaa 'bb '=W j[a b ][a b ]' (6.17)
debido a que la matriz [a b] es de rango 2 se le llama actualización de segundo rango.Broyden et al. (1970)8 sugieren usar una actualización de tercer rango, que es más 
eficiente, pues le añade un término del tipo dd ' , donde:
d j=
1
' j  j
 j−
1
 ' j W j  j
W j  j (6.18)
6 Goldfeld, S.M.; Quandt, R.E.; and Trotter, H.F. (1966), "Maximisation by Quadratic Hill-Climbing", 
Econometrica, 34, 541-551.
7 W. C. Davidon, AEC Research and Development Rept. ANL 5900 (Rev.) 1959. Fletcher, R. and Powell, 
M.J.D. (1963), "A Rapidly Convergent Descent Method for Minimization", Comput.J., 6, 163-168.
8 C. G. Broyden, J. Inst. Mat. Appl. 6:222-231, 1970. R. Fletcher, Comp. J., 13:317-322, 1970. D. Goldfarb Mat. 
Comp. 24: 23-26, 1970. D. F. Shanno, Mat. Comp. 24:647-656, 1970.
6.9
6.03 Estimación de mínimos cuadrados no lineales
La definición de un modelo no lineal se hará por la técnica de estimación y no 
por la naturaleza del modelo. Supongamos la existencia de un modelo genérico del 
siguiente tipo:
y i=h x i ; i (6.19)
Si se mantiene la noción de minimización de la suma de residuos al cuadrado y 
se aplica al modelo anterior, la estrategia sería buscar un estimador  tal que minimice 
la suma, S:
S=∑
i
i
2=∑
i
 y i−hx i ; 
2
(6.20)
Note que si el error se distribuye normal, entonces  corresponde al estimador 
de máxima verosimilitud. Así, el estimador de máxima verosimilitud es un estimador 
adecuado para parametrizar modelos no lineales, reteniendo las propiedades y 
limitaciones que ya estudiamos en los capítulos anteriores. No obstante, es posible 
derivar un estimador de mínimos cuadrados –en este caso mínimos cuadrados no 
lineales– que opera de manera análoga al estimador de mínimos cuadrados ordinarios. 
De la ecuación (6.20) es posible obtener:
∂S
∂
=−2∑
i
[ y i−h x i ; ]
∂h x i ; 
∂ 
(6.21)
Como es evidente, si la función h(.) es lineal, entonces la ecuación (6.21) no 
difiere de las ecuaciones normales derivadas en el capítulo 4. Cuando el modelo es no 
lineal, la ecuación (6.21) no es de forma cerrada y debiese ser resuelta por los métodos 
numéricos que ya estudiamos. No obstante, considere una expansión de Taylor 
alrededor de 0 de tal modo que el modelo quede aproximado por:
h x i ; ≈h xi ; 0
∑
k=1
K
∂ h x i ;0
∂ k0
k−k0
(6.22)
Este conjunto de ecuaciones es llamado modelo de regresión generalizado y 
puede ser convenientemente reescrito como:
h x i ; ≈h x i ; 0−∑k=1
K
∂ h x i ; 0
∂ k 0
k 0∑k=1
K
∂h x i ; 0
∂k 0
k
(6.23)
6.10
Llamando x 0 a la derivada de la función h, tenemos
h x i ; ≈ hx i ;0−x 0k0x
0k (6.24)
lo que en términos matriciales se puede sintetizar como:
h x i ; ≈h0−x
0�k0x
0k (6.25)
Note que una vez escogido 0 los dos términos al interior del paréntesis son 
constantes, por lo que pueden pasar al lado izquierdo pues son expresiones conocidas.
y
0=h x i ; −h
0x0k0≈x
0k (6.26)
Añadiéndole el término de error, se obtiene finalmente
y
0=x 0k (6.27)
Así, dado un valor de 0 es posible estimar k directamente por mínimos 
cuadrados. A diferencia de su contraparte lineal, el estimador de mínimos cuadrados no 
lineales no ocupa directamente las variables sino una transformación de ellas y de la 
función original, estimándose el modelo sobre las derivadas de la misma. Por ello, en 
este caso se trabaja con pseudo-estimadores.
Propiedades del Estimador Mínimos Cuadrados no Lineales 
El estimador de mínimos cuadrados lineales aplicado a las primeras derivadas de 
la función no lineal puede proveer una estimación de los parámetros del modelo. Por 
razones de eficiencia, la estimación se hace, en realidad, de manera iterativa, de modo de 
minimizar el error que se comete en la aproximación. Lo que nos preocupa es si este 
estimador es consistente y/o eficiente. Al igual que en el caso del estimador de mínimos 
cuadrados del modelo lineal, sólo si los residuos son normales podemos estar seguros 
que es eficiente. En otros casos, tenemos que hacer algunos supuestos.
En el caso lineal, supusimos que los regresores cumplían 
1
n
x ' x → Q. Ahora 
haremos el mismo supuesto para los pseudo-regresores construidos según (6.26):
plim
1
n
x0 ' x 0= plim
1
n
∑
i=1
n
[ ∂ h x i ; 0∂ k0 ][
∂h xi ; 0
∂ k 0 ]
'
= Q0 (6.28)
6.11
Para que el estimador NLS sea consistente tiene que cumplirse que 
plim
1
n
x0�=0 . Finalmente, el estimador será asintóticamente normal cuando:
1
n
∑
i=1
n
x i i →N 0,
2
Q0 (6.29)
El estimador de la varianza de los residuos puede ser encontrado usando:9
2=
1
n
∑
i=1
n
[ yi−h x i ; ]
2
(6.30)
Cómputo del estimador de mínimos cuadrados no lineales
La estimación de NLS se hace de manera iterativa, lo que exige determinar el 
algoritmo de actualización y el criterio de fin de búsqueda. 
Note que para estimar (6.27) se requiere haber fijado la derivada de la función -
x 0 - para lo cual se tuvo que haber usado algún 0 . Una vez computado NLS por 
primera vez, se puede usar éste para construir [ y0 x 0] y volver a estimar NLS 
repitiéndose el ciclo hasta que se cumpla el criterio de fin de búsqueda.
No existe una regla para escoger los parámetros iniciales, pero su elección puede 
afectar bastante el resultado. El problema de escoger mal los parámetros iniciales es que 
los algoritmos suelen diverger o pueden tomar un número muy grande de iteraciones 
antes de converger. Algunos autores prefieren usar parámetros derivados 
aleatoriamente de alguna distribución. Otros autores usan los parámetros obtenidos de 
una regresión lineal del mismo problema que se está estudiando. Finalmente, es posible 
usar los parámetros de otros estudios.
Respecto del criterio de fin de búsqueda hay varias alternativas. Es posible usar 
el cambio en la función de verosimilitud de la estimación: si ésta no cambia en algún 
monto fijo en la iteración (p.e., 10-5), no siga buscando. Muchas veces, los cambios en la 
función de verosimilitud continúan, cuando los parámetros sólo cambian en el quinto o 
sexto decimal. Desde un punto de vista económico, la precisión en el quinto decimal de 
una elasticidad es irrelevante, por lo que un criterio de fin de búsqueda usado es detener 
las iteraciones cuando los parámetros cambian en el tercer o cuarto decimal.
9 Note que el estadígrafo R² no está acotado entre 0 y 1.
6.12
6.04 Estimación de variables instrumentales no lineales
El estimador de variables instrumentales descrito en los capítulos anteriores 
también puede ser aplicado al caso no lineal si existen sospechas que pudiese existir 
correlación entre regresores y residuos. El problema en el caso no lineal es que la 
correlación regresor-residuo se traspasa a los pseudo-regresores x 0 . Entonces, 
supongamos que tenemos un conjunto de variables z tal que:
plim
1
n
z ' x 0=Qzx
0
 plim
1
n
z ' =0 (6.31)
Aplicando la misma lógica del estimador de mínimos cuadrados no-lineales 
tenemos que el modelo linealizado es:
y
0
≈x
0 (6.32)
premultiplicamos por z ’ y tomamos plim:
plim 1n z ' y0≈ plim 1n z ' x0 (6.33)
Supongamos, aunque esto no es crucial, que el rango de z es el mismo de x, 
entonces el estimador de variables instrumentales en este caso parecería ser 
directamente
NIV=z ' x
0−1z ' y0 (6.34)
El problema con el estimador (6.34) es que el vector de parámetros β aparece a 
ambos lados de la ecuación. Una alternativa es buscar un punto fijo, es decir, un vector β 
que satisfaga dicha ecuación. Un algoritmo posible –pero no eficiente– sería darle 0 , 
computar los pseudo-regresores, estimar 1 , computar los pseudo-regresores, etc.
Una solución general al problema –que además elimina la restricción de rango de 
z– es: 
minS =½ [ y−h x i ;]' z z ' z 
−1[ y−h x i ; ] ' z 
 =½' z z ' z −1' z
(6.35)
cuyas derivadas son:
∂
∂=−x 0 ' z z ' z −1z ' =0 (6.35)
6.13
Este es un problema de optimización no-lineal que ya hemos estudiado. Si los 
pseudo-regresores se comportan razonablemente, el algoritmo debiese producir una 
estimación del parámetro eficientemente (Davidson y McKinnon, 1993).10
6.05 No linealidad de la variable dependiente
Supongamos ahora que la no linealidad también envuelve a la variable 
dependiente, es decir:
g  y i ;=h x i ;i (6.36)
La estimación de los parámetros puede hacerse por dos métodos: mínimos 
cuadrados y máxima verosimilitud. Este último es más eficiente. Si los residuos se 
distribuyen normales, entonces la densidad de cada observación es:
f  yi =∣∂i∂ y i∣[2
2 ]1 /2⋅e
−[ g  y i ,−h x i ; ]
2
22 (6.37)
donde ∣∂ i∂ yi∣ es el Jacobiano de la transformación, es decir:
∣∂ i∂ yi∣=
∂ g  y i ;
∂ yi
= J i (6.38)
Por ello, la función de verosimilitud de la muestra es (en logs):
logL=
−n
2
log 2−
n
2
log 2∑
i=1
n
J i  y i ;−
1
2
∑
i=1
n
[ g  yi ;−h x i ; ]
2
(6.39)
Debe notarse que la presencia del término J i yi ; hace que el estimador de 
mínimos cuadrados no lineales no sea equivalente al estimador de máxima 
verosimilitud. Por lo tanto, es necesario usar este último estimador. No obstante, es 
posible usar una aproximación por iteración cuando la dimensión de θ es pequeña (1 o 
2). El algoritmo sería el siguiente:
1. Fijar 0 , computar g  yi ;0 y estimar los parámetros usando el estimador de 
mínimos cuadrados no lineales y computar el valor de la función de 
verosimilitud.
10 Davidson, Russell and James G. MacKinnon (1993). Estimation and Inference in Econometrics, Oxford: 
Oxford University Press.
6.14
2. Actualizar 1=0i , computar g  yi ;1 y re-estimar los parámetros usando 
el estimador de mínimos cuadrados no lineales y computar el valor de la función 
de verosimilitud.
3. Usar las funciones de verosimilitud computadas en (1) y (2) para determinar la 
dirección de ajuste de los parámetros e iterar hasta que converja.
6.06 Interpretación de los parámetros de un modelo no lineal
La intepretación de los parámetros no es fácil en el caso de los modelos no 
lineales. Consideremos que en el modelo lineal los parámetros miden:
∂E [ yi | xi]
∂ xi
=i (6.40)
por lo que, si las variables están medidas en logarítmos, se obtienen directamente las 
elasticidades. En el modelo no lineal, sin embargo, los parámetros son:
∂E [ yi | xi]
∂ xi
≈
∂h xi ;
∂ xi
1
g '  yi
(6.41)
por lo que los parámetros no son las elasticidades. Estas últimas se computan, 
usualmente, en la media muestral. Es decir, 
i≈
∂h xi ;
∂ xi
1
g '  yi
xi
yi
(6.42)
6.07 Tests de hipótesis
A diferencia de los modelos lineales, el testeo de hipótesis en el caso de los 
modelos no-lineales requiere que las restricciones impuestas sean de sobreidentificación.
Sea S  =∑ i2 la suma de residuos al cuadrado del modelo sin restringir y sea 
S  *=∑*i2 su contraparte en el modelo restringido.
Los siguientes tests son válidos asintóticamente:
6.15
● Test F asintótico 
[S  *−S  ]/ J
[S  /n−k ]
F [ J ,n−k ]
● Test Razones de Verosimilitud −2 log L  *− logL  2 [ J ,n−k ]
● Test de Wald [R  −q ]VAE R  −q -1 [R  −q ] '2 [ J , n−k ]
Capítulo 7
Modelos con Datos de Panel
Los métodos de panel data combinan observaciones de corte transversal con 
observaciones de series de tiempo. Por el momento no vamos a imponer restricciones 
para que la mezcla sea válida, pero más adelante vamos a discutir exactamente qué tipo 
de observaciones de corte transversal se pueden mezclar con cuál tipo de observaciones 
de series de tiempo.
Cuando hablamos de observaciones de corte transversal nos referimos a 
observaciones para una determinada cohorte y por lo tanto el tipo de pregunta que se 
puede responder se refiere a hipótesis respecto de la heterogeneidad de los individuos 
que componen dichas cohorte. Por ejemplo, ¿por qué, en algún instante del tiempo, 
algunas personas con determinadas características trabajan y otras no lo hacen?
Cuando nos referimos a observaciones de series de tiempo nos referimos a que es 
posible observar el comportamiento de un individuo repetidamente en el tiempo. Por 
ello, el tipo de hipótesis que se puede enfrentar se refiere a la evolución del 
comportamiento de un individuo y sus determinantes. En particular, y manteniendo la 
simetría con el ejemplo anterior, ¿qué hace que un individuo trabaje en algunos periodos 
y no lo haga en otros?
Como vemos, mientras las observaciones de corte trasversal son útiles para 
responder preguntas relacionadas con heterogeneidad, los de series de tiempo sirven 
para estudiar la evolución temporal. Las técnicas de panel nos permiten responder 
ambos tipos de preguntas –y otras que no pueden ser respondidas por corte transversal 
o series de tiempo– porque usan información sobre una cohorte donde hay individuos 
heterogéneos a los que se les observa repetidamente en el tiempo. Es decir observaremos 
N individuos durante T periodos de tiempo.
Esto presenta varias ventajas con respecto a los modelos de corte transversal o 
series de tiempo por separado. Entre ellas:
● Aumento en grados de libertad: Esta es una razón bastante obvia: si observamos 
una cohorte dos veces en el tiempo, las observaciones disponibles aumentan a 2N 
para el mismo número de potenciales parámetros a estimar, k. Esto permite 
mejorar la precisión con la cuál se estiman dichos parámetros y mejorar la 
calidad de las predicciones hechas con el modelo.
● Control de efectos fijos individuales: Un problema complejo de los métodos de 
corte transversal es que no pueden identificar la presencia de efectos fijos 
individuales. Estos efectos cambian entre individuos pero no para cada 
individuo y, como no se observan, son absorbidos por el residuo. Cuando dichos 
7.2
efectos individuales están correlacionados con los regresores hay sesgo en el 
estimador del parámetro. 
Por ejemplo, suponga que se desea estudiar el rendimiento de alumnos de 
educación primaria (Rend) de una cohorte como una función de calidad establecimiento 
(Cal), las horas de estudio (Horas) y la educación de los padres (EP). El modelo estimado 
es Rend i=01Cal i2Horas i3EPii . El verdadero modelo debe incluir la 
inteligencia o habilidad natural del individuo (Hab), pero ésta no es observable. Por ello, 
el residuo no es ruido blanco ya que incluye el efecto de la habilidad y tiene la forma 
i= 4Habii .
Recuerde que si el modelo es y i=x ii , el estimador de mínimos cuadrados 
es =x ' x −1 x ' y , reemplazando y i obtenemos:
=x ' x −1 x ' [ x ]
=x ' x −1x ' x x ' x −1x ' 
=x ' x −1 x ' 
(7.1)
Entonces, el estimador de los parámetros del ejemplo es:
i=i4 x i ' Habi (7.2)
Así, si la habilidad está relacionada, por ejemplo, con las horas de estudio, 
entonces habrá sesgo en el estimador del parámetro. Lo mismo sucede si los colegios 
seleccionan a los alumnos por habilidad.
● Modelación de efectos temporales sin sesgo de agregación: Los modelos de series 
de tiempo tienen frecuentemente el problema que se agrupan individuos 
heterogéneos como si ellos fuesen idénticos entre sí. Sin embargo, no siempre el 
comportamiento del individuo promedio es representativo de un individuo 
particular. Por ejemplo, cuando se estudia el consumo en un país en las últimas 
dos décadas se agrupa a individuos que, por diferentes razones, tienen 
comportamientos potencialmente muy diferentes. Los consumidores reaccionan 
diferentes a cambios en ingresos corrientes en distintos periodos del ciclo de 
vida; los consumidores que están “restringidos de liquidez”reaccionan distinto 
de aquellos que pueden usar el mercado de capitales para suavizar variaciones 
de ingreso y mantener el consumo estable.
Hay pocas desventajas en el caso de los modelos de panel. En primer lugar, aún 
hay pocas bases de datos –sobre todo en América Latina– y éstas frecuentemente deben 
ser “limpiadas” de numerosos errores. En segundo lugar, los programas 
computacionales para econometría de panel son aún limitados y frecuentemente del tipo 
caja negra (es decir, se desconoce exactamente qué procedimientos usa). Un tercer 
problema, que es propio de los modelos de panel, es llamado desgaste de la muestra 
(sample attrition) que proviene del hecho que algunos miembros de la cohorte van 
desapareciendo a medida que pasa el tiempo. Por ejemplo, porque migran o 
7.3
desaparecen (las personas mueren o las firmas salen del mercado) o porque cambian las 
condiciones que les hacía participar de la cohorte (solteros). Si el desgaste es aleatorio el 
único problema es que se pierde eficiencia en la estimación. Si el desgaste no es aleatorio 
(p.e. cuando el desgaste es por muerte de los mayores de la muestra), hay problemas de 
sesgo de selección.
7.1 Modelo canónico de datos de panel
El modelo canónico o genérico de datos de panel tiene la siguiente forma:
y t
i=t
ix t
it
i
(7.3)
donde i=1, ... , N y t=1,... , T . La variable xt
i contiene todos los regresores del modelo, 
es decir, incluye x1t
i
, x2t
i
, , xk t
i . La existencia de efectos individuales está recogida en 
la constante que ahora está subindizada t para recoger efectos temporales y 
supraindizada i para recoger efectos individuales.
Modelo con todos las observaciones juntas (pooled)
Una alternativa posible –pero no óptima– es simplemente asumir que todos las 
observaciones corresponden a un mismo individuo. En ese caso, suponemos que no hay 
efectos individuales, por lo que 
y t
i=x t
it
i
(7.4)
y el estimador de mínimos cuadrados es aplicable, es decir,  p=x i ' x i 
−1
x i ' yi . La 
principal ventaja de este modelo respecto de usar datos de corte transversal es que ahora 
se dispone de NT observaciones en vez de N y eso mejora la precisión del estimador 
porque:
Var  =

2
x i ' xi
=

2
∑
i=1
NT
x i−x ' x i−x 
(7.5)
7.4
Modelo de efectos fijos individuales
Una alternativa para modelar los efectos individuales es suponer que éstos son 
fijos en el tiempo y sólo se refieren a características del individuo. Es decir, el modelo 
queda como:
y t
i=ix t
it
i
(7.6)
Como los efectos son fijos podemos modelarlos con variables mudas y usar 
mínimos cuadrados ordinarios, es decir, pondremos una variable muda (dummy) por 
cada intercepto. 
[
y1
y2
⋮
yn
]=[
i 0 ⋯ 0
0 i ⋯ 0
⋮ ⋮ ⋱ ⋮
0 0 ⋯ i
][
x 1
x 2
⋮
x n
][
1
2
⋮
n
] (7.7)
donde  y  son vectores, es decir, contienen n y k parámetros respectivamente. Si 
llamamos D a la matriz de dummies, entonces el modelo se reduce a:
y t
i=Dx t
it
i
(7.8)
Todos los resultados clásicos sobre técnicas de estimación de mínimos 
cuadrados, optimalidad del estimador, bondad de ajuste, y distribuciones de los 
estimadores y los tests se mantienen. Este estimador es llamado LSDV por least squares 
dummy variables.
Note, además, que es posible hacer un test formal de igualdad de efectos fijos 
usando simplemente el test de Wald para H 0 : i= j .
¿Cuál es la importancia de estimar usando efectos fijos? Como se muestra en la 
Figura 1, el estimador pooled es sesgado cuando hay efectos individuales. Las 
observaciones en este ejemplo están ordenadas en dos grupos.1 El estimador pooled 
intenta minimizar el error cuadrático de ambos grupos simultáneamente. No obstante si 
se modela cada grupo de la siguiente forma:
yt
i=1x t
it
i
 si el individuo es tipo 1
y t
i=2x t
it
i
 si el individuo es tipo 2
(7.9)
el estimador es insesgado.
1 Naturalmente, en la realidad es posible tener un gran número de grupos.
7.5
Figura 7.1
La situación podría ser mucho más dramática. Considere el siguiente fenómeno 
estudiado por Vial y Soto (2002).2 Algunos estudios señalan que el puntaje en las 
pruebas de selección universitaria (PAA o PSU) no es una buena prueba de selección 
porque no hay una correlación positiva entre puntaje de entrada y rendimiento posterior 
en la universidad. La evidencia es que la correlación en datos pooled es estadísticamente 
cero (si no es negativa). Pero, la selección de alumnos por puntaje de entrada segmenta 
las carreras (las carreras cierran las vacantes en puntos de corte que están ordenados): 
cuando se hace un modelo de panel permitiendo que cada carrera tenga su propio 
intercepto se obtiene una correlación positiva invalidando la conclusión anterior.
2 Bernardita Vial y Raimundo Soto. “¿Predice la PAA el rendimiento o éxito en la universidad?”, 
Administración y Economía, 24-27, 2002.
Modelo
Pooled
Modelo 
Efecto Fijo
α
1
α
2
y
x
7.6
Figura 7.2
El estimador intragrupos
Existe un problema evidente cuando la muestra es grande en la dimensión de 
corte transversal (N), porque es poco práctico poner un número elevado de variables 
mudas. Si usted usa la CASEN podría enfrentarse con el problema de tener que poner 
5.000 dummies. Una alternativa interesante consiste en tomar el promedio en el tiempo 
para un individuo de la ecuación (7.6):
y
i= ix
i
i
(7.10)
y restarlo de la ecuación (7.6) para obtener:
y t
i−y
i=ix t
it
i−i− x
i−
i
= xti−x i ti−i
(7.11)
Si definimos las desviaciones con respecto a la media del individuo en el tiempo 
como y* y x*, entonces:
=xt
*
' x t
*−1 x t
*
' yt
* (7.12)
Debido a que este estimador usa desviaciones con respecto a la media de cada 
grupo, las variables han sido normalizadas para estudiar sólo las desviaciones con 
respecto a la media grupal, es decir, permite ver lo que sucede al interior del grupo. Por 
ello le llamamos estimador intragrupal (within groups estimator).
Modelo
Pooled
Modelo 
Efecto Fijo
Rendimiento
Puntaje
α
1
α
2
7.7
Figura 7.3
Es decir, al tomar diferencias con respecto a la media en el tiempo de las 
observaciones se elimina la constante y los efectos fijos. Nótese que la transformación 
retira la media de cada variable por grupo i-ésimo, no con respecto a la media global de 
las variables.
Para recuperar el efecto fijo, se usa la ecuación (7.10) porque el promedio de los 
grupos cumple i=y
i−x
i 
Vamos a definir unas sumas de cuadrados que serán de gran utilidad. En el caso 
del estimador pooled o total (p) usamos todas las observaciones:
S xx
p =∑
i=1
N
∑
j=1
T
x t
i−x ' x t
i−x 
Sxy
p=∑
i=1
N
∑
j=1
T
x t
i−x  '  y t
i−y 
(7.13)
donde x es la media de x en todos los grupos y todos las observaciones. Computamos 
el estimador como:
 p=
Sxy
p
Sxx
p
(7.14)
En el caso del estimador intragrupos w  usamos los datos en desviaciones con 
respecto a la media en el tiempo de cada individuo, x
i :
Estimación Intragrupal
y
x
7.8
S xx
w =∑
i=1
N
∑
j=1
T
x t
i−x
i ' xt
i−x
i 
Sxy
w =∑
i=1
N
∑
j=1
T
x t
i−x
i  '  yt
i−y
i 
(7.15)
y computamos el estimador como: w=
S xy
w
S xx
w
Pero notemos que S xx
p
 puede ser escrito como:
S xx
p =∑
i=1
N
∑
j=1
T
x t
i−x ' x t
i−x 
=∑
i=1
N
∑
j=1
T
x t
i−x
ix
i−x ' xt
i−x
ix
i−x 
=∑
i=1
N
∑
j=1
T
xti−x i x i−x  ' x ti−xi x i−x 
=∑
i=1
N
∑
j=1
T
x t
i−x
i ' xt
i−x
i ∑
i=1
N
∑
j=1
T
x
i−x  ' x
i−x 
=Sxx
w ∑
i=1
N
∑
j=1
T
x
i−x '  x
i−x 
(7.16)
por lo tanto S xx
w =S xx
p −∑
i=1
N
∑
j=1
T
x
i−x '  x
i−x  . Más adelante estudiaremos la doble 
suma. Por el momento apliquemos la ecuación (7.5) al modelo en (7.11) para obtener lavarianza del estimador intragrupos:
Var  w =


¿
2
∑
i=1
N
∑
i=1
T
x i−x
i  ' x i−x
i 
=


¿
2
S xx
p −∑
i=1
N
∑
i=1
T
 x
i−x  '  x
i−x 
(7.17)
entonces la varianza del estimador intragrupos es mayor que la del modelo pooled. Por 
eso, el estimador intragrupos es insesgado pero más ineficiente que el pooled.
Un problema de remover efectos fijos del modelo usando diferencias con 
respecto a la media grupal es que también se remueven todas aquellas variables que son 
fijas pero observables y que podrían ser de interés. En el ejemplo de la educación 
primaria, la educación de los padres está fija en el tiempo (suponga que no se capacitan 
en el periodo de estimación). El modelo podría ser escrito de manera genérica como:
y t
i=ix t
iz it
i
(7.18)
7.9
y, al usar el estimador intragrupos, se perderían todos las variables z. Típicamente con 
este método se pierden variables tales como género, religión, raza, ubicación geográfica, 
atributos fijos, etc.
El modelo con efectos temporales fijos
Podemos extender el modelo anterior para incluir efectos fijos que no se 
relacionan con unidades sino con el tiempo. Es frecuente que estemos interesados en 
algún fenómeno determinístico que afecta todas las unidades en un determinado 
instante de tiempo. Por ejemplo, cambios en el salario mínimo –una variable 
determinística– afectan la participación en el mercado laboral a través de cambios en la 
tasa de desempleo y, por lo tanto, los incentivos para entrar o salir del mercado laboral.
y t
i=itx t
it
i
(7.19)
Para modelar este tipo de fenómeno se puede usar una dummy temporal, es deir, 
que tome valor uno para el t=1 y 0 en todo otro instante, otra dummy con valor uno en 
t=2 y 0 en todo otro instante, etc.
El modelo de la ecuación (7.19) con efectos fijos individuales y temporales es 
conocido como two-way fixed effects model. Se debe tener cuidado con poner T 
dummies temporales y N dummies individuales porque produce colinealidad perfecta.
El estimador intergrupos
Retomemos el modelo original
y t
i=ix t
it
i
(7.20)
como sabemos de econometría básica, el modelo econométrico es una descripción de la 
medias condicionales y por lo tanto la ecuación (7.19) se cumple en las medias de cada 
grupo, i . La figura 4 muestra, esquemáticamente, el hecho que la regresión pasa por las 
medias de cada grupo:
7.10
Figura 7.4
Entonces si en el modelo tomamos media con respecto al grupo tenemos: 
Ei [ yt
i ]=Ei [
ix t
it
i ]
y i=i xi
i
(7.21)
y podemos computar el estimador de  usando las siguientes sumas:
S xx
b =∑
i=1
N
∑
j=1
T
 x
i−x  x
i−x '
Sxy
b =∑
i=1
N
∑
j=1
T
x
i−x y
i−y  '
(7.22)
Consecuentemente el estimador es b=
Sxy
b
Sxx
b
. 
Este estimador es llamado intergrupos (between groups) precisamente porque al 
usar la media grupal elimina toda la variación intragrupal. Note que la suma de 
cuadrados Sxx en (7.22) es exactamente el término que habíamos dejado sin identificar en 
(7.16). Es decir, se cumple:
S xx
p =S xx
w Sxx
b
(7.23)
y
x
E[y1]
E[y2]
E[x2] E[x1]
7.11
Relación entre los estimadores totales, intra e intergrupos 
Es importante entender qué tipo de estimación es la que realiza cada uno de los 
estimadores que hemos derivado. Hemos escrito el modelo de efectos fijos en tres 
distintas formas:
a  y t
i=ix t
it
i
b  y t
i−y
i=[x t
i−x
i ]t
i−
i
c  y
i=i x
i
i
(7.24)
Obviamente (a) es el modelo pooled ; (b) es el modelo en desviaciones con 
respecto a la media grupal (within), y (c) es el modelo en las medias grupales (between). 
Recordemos que las sumas de cuadrados de cada especificación son las que se muestran 
en el Cuadro 7.1:
Cuadro 7.1
Comparación de estimadores de datos de panel
Estimador Sxx Sxy
Pooled ∑
i=1
N
∑
j=1
T
xt
i−x x t
i−x ' ∑
i=1
N
∑
j=1
T
xt
i−x  yt
i−y  '
Within ∑
i=1
N
∑
j=1
T
xt
i−x
i xt
i−x
i ' ∑
i=1
N
∑
j=1
T
xt
i−x
i  yt
i−y
i  '
Between ∑
i=1
N
∑
j=1
T
x t
i−x  x t
i−x ' ∑
i=1
N
∑
j=1
T
xt
i−x  yt
i−y  '
Los tres estimadores son:
 p=[S xx
p ]−1S xy
p
w=[S xx
w ]−1S xy
w
b=[S xx
b ]−1S xy
b
(7.25)
Nóte que como S xx
p =S xx
w Sxx
b
y S xy
p =Sxy
w Sxy
b
, podemos escribir el estimador 
pooled como una combinación de los otros dos estimadores:
7.12
 p=F w w[I−F w ] b
F
w=
Sxx
w
Sxx
w Sxx
b
(7.26)
Este es un resultado muy importante: el estimador pooled es un promedio de 
ponderado de los estimadores intra e intergrupos, cuya ponderación depende de la 
variación de cada grupo. Ello implica:
● Si no hay variación intragrupal F w=0 , sólo hay variación intergrupos
● Si no hay variación intergrupal F b=0 , sólo hay variación intragrupos
Estimador de la varianza de los errores
Un elemento práctico que no hemos resuelto es de dónde se obtiene el estimador 
de la varianza de los errores. En general, el estimador tradicional de econometría clásica 
basado en los residuos es válido, pero debe considerarse correctamente los grados de 
libertad en este caso:
2=
∑
i=1
N
∑
j=1
T
 y t
i−i−x t
i 2
NT−N – K
(7.27)
Modelo de efectos aleatorios
En muchos casos existe una buena razón a priori para suponer que los efectos 
son fijos, es decir, sin hacer un test que nos permita diludicar si es que el supuesto es 
aceptado por los datos. Cuando se observan a todos los componentes de un grupo o una 
muestra exahustiva de los mismos, entonces el efecto individual estará exactamente 
identificado o se le aproximará bastante bien. Por ejemplo, en un experimento con un 
grupo de control es fácil saber si un individuo recibió o no recibió el tratamiento. En tal 
caso, es razonable suponer que las diferencias entre individuos son cambios 
paramétricos.
Sin embargo, cuando sólo se cuenta con una muestra de individuos de un grupo, 
la identificación del efecto individual de ese grupo será dependiente de la conformación 
de dicha muestra. En tal caso es más razonable considerar que el efecto individual es 
sólo una realización de una variable aleatoria, i.e., la conformación de la muestra. Esto es 
natural porque estamos tratando tanto con series de tiempo como porque la constante 
refleja el promedio de shocks aleatorios que dan vida al error. Vamos a permitir que la 
constante tenga un componente aleatorio: i=i . De ahi el nombre random effects.
7.13
y t
i=ix t
it
i
(7.28)
donde μ es una variable aleatoria. Supondremos que la estructura de la parte estocástica 
es:
E[t
i ]=E [i ]=0
E[t
i ]2=
2
E[i ]2=
2
E[t
ii ]=E[t
i t
j ]=E [i j ]=0
(7.29)
La estructura en la ecuación (7.29) es inocua excepto por el supuesto que 
E[ε , μ ]=0 , como veremos más adelante. 
Obviamente, ambos “errores” (ε y μ) se tratan como una entidad. Entonces, para 
un grupo –la i-ésima unidad– su matriz de covarianzas de los errores es:
=[

2
2 
2
... 
2

2 
2
2
... 
2
⋮ ⋮ ⋱ ⋮

2 
2
... 
2
2] (7.30)
Como los errores entre las unidades no están correlacionados entre sí, la matriz 
de covarianza de residuos de la muestra completa es:
V=[
 0 ... 0
0  ... 0
⋮ ⋮ ⋱ ⋮
0 0 ... 
] (7.31)
Entonces, resulta natural tratar el problema como si fuese uno de 
heterocedasticidad. Necesitamos construir el estimador de mínimos cuadrados 
generalizados con esta estructura de estocasticidad. Recordemos que la técnica de 
mínimos cuadrados generalizados consiste en encontrar una transformación del modelo 
original tal que el modelo transformado sea homocedástico. Es decir, buscamos una 
matriz de transformación T tal que al aplicársela al modelo haga que sea homocedástico:
Tyi=Tx i T i (7.32)
donde E[T ]=0 y E[T   ' T ' ]= 2T 'T . Imponiendo larestricción que 
T ' ΩT=I , encontramos T y soluciomos el problema de heteocedasticidad. En nuestro 
caso, se puede demostrar analíticamente que basta con usar 1/2=I−

T
ii ' donde  es:
7.14
=1−

T 22
(7.33)
y hacer la transformación de las variables de acuerdo a
y t
i−y
i
x t
i−x
i (7.34)
El resto del procedimiento es sencillo, encontrándose una expresión análoga a 
(25) para el estimador pooled:
 p=F * w w[I−F * w ] b
F
* w=
Sxx
w
Sxx
w 

2

2T 
2
Sxx
b
(7.35)
Notemos propiedades importantes del estimador de efectos aleatorios:
● Si 
2=0 –es decir si no hay efectos aleatorios– se obtiene el modelo pooled como 
esperabamos por congruencia 
● Si T→∞ se obtiene el modelo de efectos fijos. Esto es muy razonable: si la muestra 
es enorme, entonces será representativa de la población.
Algoritmo de estimación del modelo de efectos aleatorios
El problema de la solución anterior es que Ω no es conocida. El siguiente 
algoritmo permite obtener un estimador de Ω sobre la base del estimador de las 
varianzas de los shocks y del estimador de los parámetros de efectos fijos.
1. Compute 
2
usando los residuos del estimador intragrupos usando LSDV.
2. Compute 

2
2
T
 usando el residuo del estimador intragrupos. De aquí se 
obtiene el estimador  despejando convenientemente. Nótese que esto sólo se 
puede hacer porque se ha supuesto que ambos shocks están no correlacionados.
3. Calcule =

 2T 2
4. Obtenga y t
i−y
i
 y x t
i− x
i
 y haga la regresión
7.15
5. Compute los estimadores de efectos aleatorios  p , w , b
Hay, sin embargo, un segundo supuesto implícito que es necesario tomar en 
cuenta. Cuando modelamos el efecto aleatorio como:
y t
i=ix t
it
i
(7.36)
es indispensable que no exista correlación entre el efecto aleatorio, μi, y los regresores, 
xt
i , pues de otro modo el estimador de efectos aleatorios es inconsistente. 
Si este supuesto se cumple, el estimador es consistente y, como usa el estimador 
de Ω, es eficiente asintóticamente (es decir, en muestra grande).
Paneles desbalanceados
Es común que en la práctica falten observaciones de alguna variable para 
unidades u observaciones. Estos se llaman paneles desbalanceados o incompletos. Este 
no es un problema serio. Nótese que en tanto hayan suficientes observaciones para 
computar la media grupal o la media temporal, la pérdida de observaciones no afecta a 
los estimadores de panel por la simple razón que éstos usan siempre la información 
disponible.
La incompletitud de una base de datos de panel sí afecta los estimadores de las 
varianzas de los errores y, en particular, los tests de hipótesis porque, al contar los 
grados de libertad, no se puede suponer que haya NT observaciones sino que un 
número menor. En este sentido, el estimador de la varianza de los residuos de la 
ecuación (26) debe ser corregido.
7.2 Modelación con datos de panel
Resulta natural preguntarse qué tipo de modelo se debe usar. Primero, si es 
imprescindible usar un modelo con efectos (ya sea fijos o aleatorios) o si es posible usar 
un modelo pooled. Una vez descartada la segunda alternativa, uno puede preguntarse si 
es necesario usar un modelo de efectos fijos o éste debe ser de efectos aleatorios. Una 
manera de enfocar el problema es notar que cada tipo de modelo exige una distinta 
relación entre los regresores y el efecto fijo y derivar del modelo analítico la disciplina 
necesaria para el modelo empírico. Es decir, si el modelo económico es capaz de 
identificar ex-ante el tipo de efecto individual, entonces ya tenemos la especificación 
necesaria y se puede testear si ésta describe adecuadamente los datos o no. 
La mayor parte de las veces, sin embargo, los modelos teóricos no son capaces de 
identificar el tipo de efecto individual que se debe usar en el trabajo empírico. Para ello, 
7.16
se han diseñado tests estadísticos que ayudan en la especificación. En esta sección 
estudiamos los principales tests que nos permiten evaluar la aplicabilidad de los 
distintos estimadores en modelos de panel. 
¿Efectos fijos o aleatorios?
Resulta natural preguntarse cuándo es preferible usar un modelo de efectos fijos 
o de efectos aleatorios. Es posible usar el test de Hausman para inferir cuál modelo usar. 
La base del test es precisamente la restricción del modelo de efectos aleatorios de que no 
haya correlación entre dichos efectos y los regresores.
Recordemos que si no hay correlaciónentre efectos individuales y regresores el 
estimador GLS es consistente y eficiente. Por otro lado, el estimador LSDV es consistente 
–pero ineficiente– tanto si hay correlación como si no la hay. Así, las hipótesis del test 
son:
● Ho (si no hay correlación): OLS y GLS son consistentes, pero OLS es ineficiente.
● H1 (si hay correlación): OLS es consistente, pero GLS es inconsistente.
El test entonces estudia la diferencia entre los estimadores de efectos fijos y 
aleatorios usando [ RE−FE] un sencillo test de Wald. Recuerde que el test de Wald en 
forma genérica es:
 −2

2 (7.38)
aplicado a la diferencia entre estimadores, el problema es encontrar la varianza de 
[ RE−FE] .
Var [ RE−FE ]=Var [ RE ]Var [ FE ]−2Cov [ FE , RE ] (7.39)
La contribución de Hausman es notar que un estimador eficiente es ortogonal a 
“su diferencia con respecto a un estimador ineficiente”. Recuerde que dos variables 
correlacionadas comparten información y, por lo tanto, se puede usar una para predecir 
–con menor incertidumbre– la otra. Así, si el estimador LSDV es eficiente no puede estar 
correlacionado con su diferencia con otro estimador [ RE−FE] pues, de otro modo, 
podríamos usar esa información para construir un estimador aún más eficiente. Por ello, 
0=Cov [ RE−FE , FE]=Cov [ FE , RE]−Var [ FE] (7.40)
Así, Cov [ FE , RE]=Var [ FE]
7.17
y por lo tanto Var [ RE− FE ]=Var [ RE ]−Var [ FE]=  . Entonces el test de Hausman 
es directamente:
[ FE− ℜ] ' 
−1 [ FE− ℜ]↝
2K  (7.41)
donde k es el número de regresores en x t
i
.
Tests de Poolability
Después de haber estudiado si un modelo de efectos fijos es preferible a un 
modelo de efectos aleatorios, resulta natural preguntarse si un modelo pooled es 
preferible a un modelo de efectos aleatorios. El siguiente test –llamado de Breusch y 
Pagan– se emplea comúnmente (es un simple test de heterocedasticidad aplicado a datos 
de panel).
Recordemos que el efecto aleatorio lo modelamos como i=i con E[]=0
. Entonces, si no hay efectos aleatorios, es obvio que α será constante. Así, las hipótesis 
del tests son:
H 0 : 
2=0
H 1 : 
2
≠0
El test se aplica sobre los residuos del modelo pooled que denotamos por t
i
:
NT
2 N−1 [∑i=1
N
∑
i=1
T
t
i
2
∑
i=1
N
∑
i=1
T
{t
i }2
−1]↝ 12 (7.42)
Tests de igualdad de efectos fijos
Después de haber estudiado si un modelo de efectos fijos es preferible a un 
modelo de efectos aleatorios y si un modelo pooled es preferible a un modelo de efectos 
aleatorios, resulta natural preguntarse si el modelo de efectos fijos es preferible a un 
modelo pooled. El test es bastante sencillo:
H 0 : 1=2=...=n
H 1 : 1≠2≠ ...≠n
Este es un simple test de Chow, en el sentido que la H 0 señala un modelo 
restringido y la alternativa un modelo sin restringir. Computamos la suma de residuos 
7.18
al cuadrado de cada uno y formamos el test F:
SRCR−SRCU /N−1
SRCU /T N−1−K
↝ F  N−1T N−1−K  (7.43)
donde SRCR es la suma de residuos al cuadrado del modelo restringido y SRCU es la 
suma de residuos al cuadrado del modelo no restringido.
7.3 Modelos de panel dinámicos
El modelo canónico o genérico de datos de panel dinámico tiene la siguiente 
forma
y t
i=ix t
i yt−1
it
i
(7.44)
donde i=1, ... , N y t=1, ... ,T . La variable x t
i
contiene todos los regresores estáticos del 
modelo, es decir, incluye x1t
i
, x 2t
i
, ... , x kt
i
 e incorporamos y t−1
i
 para capturar la dinámica 
del fenómeno. Seguimos suponiendo que el error εit es homocedástico y no 
correlacionado.
Consideremos que el error de (7.44) puede ser escrito como t
i=it
i
:
y t
i=x t
i yt−1
i t
i
(7.45)
La existencia de efectos dinámicos complica el análisis porque produce 
correlación entre regresor y residuo: si y t
i
depende de i entonces y t−1
i
 también está 
correlacionado con i . En este caso, el estimador pooled es inconsistente.
Consideremos el estimador de efectos fijos. La técnica de tomar primeras 
diferencias va a eliminar αi pero no va a ser una solución viable en este caso porque:
y t
i−y
i=[xti−x i ][ yt−1i −yt−1i ]ti−i
=[xti−x i ][ yt−1i −yt−1i ]ti−i
(7.46)
pero 
y t−1
i =
∑
t=2
T
y t−1
i
T−1
 está relacionado con t
i−
i
 porque, por construcción, y t−1
i
 está 
correlacionado con 
i
 porque en este último se incluye t−1
i
.
El estimador de efectos fijos será inconsistente. El sesgo del estimador dependerá 
del tamaño de muestra. Cuando T tiende a ∞, el sesgo desaparecerá. Sin embargo en este 
7.19
contexto T moderadamente alto aún producirá un estimador sesgado. Estudios con 
datos artificiales señala que con muestras de tamaño T=30, el estimador puede estar 
sesgado en un 20% o más.
El estimador de efectos aleatorios también será sesgado. Recordemos que para 
construir el estimador hay que cuasi-diferenciar de la forma y t
i−y
i
. Así, nuevamente 
y t−1
i =
1
T−1∑t=2
T
yt−1
i
 estará relacionado con t
i−
i
 por construcción.
Una alternativa de solución sería usar primeras diferencias y t
i− yt−1
i.
 El modelo 
sería:
y t
i− yt−1
i =ix t
i y t−1
i t
i−i−x t−1
i  yt−2
i t−1
i
=[x ti−x t−1i ][ yt−1i − y t−2i ]ti−t−1i
(7.47)
lo que elimina el efecto fijo. Pero va a haber correlación entre regresor  yt−1 y el 
residuo. Para controlar esta problema la solución sería usar variables instrumentales.
Estimador de Anderson y Hsiao (1981)
Usar  yt−2 como un instrumento de  yt−1 . Nótese que como y t−2 e y t−3 
suceden antes que t y t−1 entonces no hay correlación entre instrumento y residuo. 
Además, hay covariación obvia entre  yt−2 y  yt−1 . En este caso, el estimador de 
variables instrumentales (Anderson y Hsiao, 1981) es consistente pero no 
necesariamente eficiente. Este último fenómeno se debe a que el estimador no hace uso 
de la estructura característica de los residuos, t
i−t−1
i
. 
Estimador de Arellano (1989)
El problema de eficiencia se reduce notablemente si se usa y t−2 como un 
instrumento de  yt−1 , en vez de  yt−2 . Nótese que como y t−2 sucede antes que t 
y t−1 entonces no hay correlación entre instrumento y residuo y, por otro lado, hay 
covariación entre y t−2 y  yt−1 . 
Estimador de Arellano y Bond (1991)
Arellano y Bond (1991) desarrollan el estimador de momentos en el contexto de 
panel data. Consideremos el modelo dinámico más simple y t
i= yt−1
i t
i
. Tomamos 
primera diferencia:
7.20
 yt
i= y t−1
i t
i
(7.48)
y nos concentramos en definir la matriz de instrumentos Z adecuados para estimar el 
modelo:
● Para t=3, que es el primer período que podemos estimar, los instrumentos 
disponibles y adecuados son: y 1 .
● Para t=4, los instrumentos disponibles y adecuados son: y 1 e y 2 .
● Para t=5, los instrumentos disponibles y adecuados son: y 1 , y 2 e y 3. 
● etc.
Por lo tanto la matriz de instrumentos Z va creciendo con la muestra. 
Premultipliquemos el modelo por Z ’ :
Z ' y t
i=Z ' yt−1
i Z 't
i
(7.50)
Todo está OK, excepto que el residuo es ahora heterocedástico. De hecho, la 
matriz de covarianza de t
i
 es de la forma 
2
G . Por lo tanto, usamos mínimos 
cuadrados generalizados y obtenemos el estimador de Arellano y Bond consistente de 
una etapa:
=[ yt−1i ' Z W ' GW 
−1
Z ' y t−1 ]
−1
[ y t−1i ' Z W 'GW 
−1
Z ' yt ] (7.51)
El estimador eficiente, sin embargo, que corresponde al caso en que N→∞ con T 
fijo en cuyo caso el estimador de W'GW es Vn=∑
i=1
N
Z 'ii ' Z . Entonces:
=[ yt−1i ' Z V n−1Z ' yt−1 ]
−1
[ yt−1i ' ZV n−1Z ' y t ] (7.52)
7.4 Tests de raíces unitarias en panel
Esta es un área reciente de tests y aún son algo primitivos. Un primer test es el 
de Bhargava, Franzini y Narendrathan (1982) que desarrollan una variación del test de 
Durbin-Watson para panel y que puede ser usada para testear si el AR(1) tiene una raíz 
unitaria.
7.21
El primer test de raíces unitarias propiemente es el de Levin y Lin (1992). 
Consideremos el modelo canónico:
y t
i=z t
i i yt−1
i t
i
(7.53)
El test asume que t
i
 es i.i.d. y que ρi=ρ, es decir que el coeficiente de la variable 
endógena rezagada es igual en todos los grupos. Esto es equivalente a suponer que la 
dinámica es la misma en todos los grupos. La hipótesis nula es que existe una raíz 
unitaria:
H0 :=1
H1: 1
Definimos h t , s =z t ʹ ∑
i=1
T
z t z t ʹ z s , ti=ti−∑
i=1
T
h t , s s
i
, y 
y t
i= yt
i−∑
i=1
T
h t , s y s
i
 entonces Levin y Lin (1992) encuentran la distribución de:
N T  −1 =
1
N
∑
i=1
N
1
T
∑
i=1
T
yt−1
i
t
i
1
N
∑
i=1
N
1
T
2∑
i=1
T
y t−1
i
yt−1
i
(7.54)
y del estadístico
t =
 −1∑
i=1
N
∑
i=1
T
yt−1
i
y t−1
i
 1NT∑i=1
N
∑
i=1
T
t−1
i
t−1
i
(7.55)
Al igual que en el caso de las series de tiempo univariadas (p.e., test de Dickey-
Fuller), las distribuciones de (72) y (73) dependen de lo que contenga z (nada, constante, 
un shock individual, o un shock individual y una tendencia lineal). Así:
7.22
Cuadro 7.2
z t
i  tρ
0
N T  −1 ⇒N 0,2  t ⇒ N 0,1
1
N T  −1 ⇒N 0,2  t ⇒ N 0,1
μi
N T  −1 3N ⇒ N 
0,51
5
 1.25 t 1.875N⇒ N 0,1
(μi, t)
N [T  −17.5 ]⇒ N 0,2895
112
 488277 t 3.75N⇒N 0,1 
Nota: significa “convergencia débil a”.⇒
Las distribuciones son obtenidas siguiendo un proceso de convergencia 
secuencial, es decir, primero se hace T→∞ y luego N→∞ . Esto es una debilidad si la 
muestra no es grande en alguna dimensión.
Harris y Tzavalis (1999) derivan la distribución cuando T es fijo y N→∞ para los 
siguientes casos:
Cuadro 7.3
zt
i 
0
N T  −1 ⇒N  0,2T T−1 
μi
N T  −1 3T1 ⇒ N 0, 317T
2−20T17
5T−1T13 
(μi, t)
N T  −1 152 T2⇒N 0, 15193T
2−728T1147
112 T23T−2  
Nota: significa “convergencia débil a”.⇒
O' Connell (1998) demuestra que estos tests sufren pérdida de poder y distorsión 
de tamaño cuando hay correlación contemporánea entre los νi. El problema aquí es 
complejo porque envuelve entender qué es y cómo opera la correlación espacial.
7.23
Im, Pesaran y Shin (1997) proponen un test que (1) evita suponer que ρi=ρ, y (2) 
es menos complejo de estudiar. El test se basa en usar un promedio de los tests ADF 
hechos para cada cross-section de modo independiente:
t
i=∑
j=1
p i
ij t− j
i t
i (7.56)
sustituyendo en la ecuación (71)
y t
i=z t
i i yt−1
i ∑
j=1
p i
ij yt− j
i t
i (7.57)
La hipótesis nula es que cada ρi es una raíz unitaria:
H0 : ρi = 1 para todos los i
H1 : ρi < 1 para al menos un i
El estadístico de Im, Pesaran, y Shin, llamado t bar, es el promedio de los N t-
tests de la ecuación (75):
t=
1
N
∑
i=1
N
t  i (7.58)
La distribución del estadístico t bar no es fácil de computar porque depende del 
valor promedio y la varianza det bar que son desconocidas. Im, Pesaran, y Shin 
encuentran los valores por simulación con datos artificiales. En tal caso:
N t −1N ∑i=1
N
E [ t i |i=1 ]
 1N∑i=1
N
V [ t i |i=1]
⇒ N 0,1 (7.59)
La distribuciónde este test se obtiene, nuevamente, siguiendo el proceso de 
convergencia secuencial, es decir, primero se hace T→∞ y luego N→∞, pero tiene la 
restricción adicional que N/T→0 . Esto es una debilidad si la muestra no es grande en 
alguna dimensión o si N no es relativamente pequeño.
Maddala y Wu (1999) y Choi (2001) proponen hacer tests de raíces unitarias en 
cada cross-section y computar el valor p en cada caso. El siguiente estadístico:
7.24
P=−2∑
i=1
N
ln p i⇒ χ² 2N (7.60)
Las ventajas de este estimador son (1) no requiere un panel balanceado, (2) los 
largos de rezagos pueden diferir entre cross-section, (3) no requiere ρi=ρ. Las 
desventajas es que los valores p tienen que ser obtenidos por simulación de Montecarlo 
en cada caso.
	Indice
	Capitulo 1 Final.pdf
	Capítulo 1
	Introducción
	Capitulo 2 Final.pdf
	Capítulo 2
	Teoría de Probabilidades1
	2.01 	Noción de Probabilidad
	2.02 	Axiomatización de las Probabilidades
	2.03 	Variables Aleatorias
	2.04 	Momentos de una Distribución
	2.05 	Distribuciones Discretas de Uso Común
	2.06 	Distribuciones Continuas de Uso Común
	2.07 	Distribuciones Conjuntas
	2.08 	Distribuciones Marginales
	2.09 	Distribuciones Condicionales
	Apéndice A: Ejercicios
	Capitulo 3 Final.pdf
	Capítulo 3
	Elementos de Inferencia Estadística
	3.01 Modelo probabilístico, modelo muestral y modelo estadístico
	3.02	Estadísticos muestrales
	3.03	Distribución de la media muestral
	3.04	Características deseables de los estimadores en muestra finita
	3.05	Límite de Cramer-Rao3
	3.06	Elementos de teoría asintótica: convergencia
	3.07	Elementos de teoría asintótica: leyes débiles de grandes números
	3.08	Elementos de teoría asintótica: leyes fuertes de grandes números
	3.09	Propiedades de los distintos tipos de convergencia
	3.10	Teoremas de límite central
	3.11	Distribución asintótica
	3.12	Estimación asintóticamente eficiente (máximo verosímil)16
	3.13	Test de hipótesis19
	3.14	Tres tests de hipótesis asintóticamente equivalentes
	3.15	Tests de hipótesis no anidadas
	3.16	Criterios informacionales
	Apéndice A:	Ejercicios
	Capitulo 4 Final.pdf
	Capítulo 4
	Modelo Clásico de Regresión Lineal
	4.01	Lógica del modelo de regresión1
	4.02	Análisis de los supuestos del modelo de regresión lineal
	4.03	Representación gráfica de la regresión lineal
	4.04	Derivación del estimador de mínimos cuadrados5
	4.05	Propiedades del estimador de mínimos cuadrados en muestra finita
	4.06	Tests de hipótesis en el modelo multivariado
	4.07	Tests de hipótesis y modelo restringido
	4.08	Propiedades del estimador de mínimos cuadrados en muestra grande
	4.09	Transformaciones de estimadores: el método Delta
	4.10	Predicción8
	4.11	Método generalizado de momentos
	Apéndice A: 	Ejercicios
	Apéndice A:	Algebra de Matrices y Gauss
	Capitulo 5 Final.pdf
	Capítulo 5
	Violación de los Supuestos del Modelo de Regresión Lineal
	5.01	Problemas de Especificación I: Regresores Inadecuados
	5.02	Problemas de Especificación II: Cambio de Régimen
	5.03 	Problemas de Especificación III: Datos erróneos
	5.04 	Problemas de Especificación IV: Colinealidad
	5.05 Modelos de Varianza No Constante
	5.06 Heterocedasticidad
	5.07	Correlación de residuos
	5.08 	Variables instrumentales
	Apéndice A: 	Ejercicios
	Capitulo 6 Final.pdf
	Capítulo 6
	Modelos no lineales
	6.01	Elementos de cálculo numérico
	6.02	Optimización no lineal
	6.03	Estimación de mínimos cuadrados no lineales
	6.04	Estimación de variables instrumentales no lineales
	6.05	No linealidad de la variable dependiente
	6.06	Interpretación de los parámetros de un modelo no lineal
	6.07	Tests de hipótesis
	Capitulo 7 Final.pdf
	Capítulo 7
	Modelos con Datos de Panel
	7.1 	Modelo canónico de datos de panel
	7.2 	Modelación con datos de panel
	7.3 	Modelos de panel dinámicos
	7.4 	Tests de raíces unitarias en panel