Apêndices - Jeffrey M Wooldridge ( Introdução à Econometria)

•
UFPE

EDUARDA DA SILVA NASCIMENTO
14/03/2022
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 141 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 141 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 141 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Econometria

6.323 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Ferramentas matemáticas 
básicas
A P Ê N D I C E A
1
Este apêndice cobre a matemática básica que é usada na análise econométrica. Resumimos várias propriedades do operador de soma, estudamos proprieda-des de equações lineares e determinadas equações não lineares e revisamos 
proporções e porcentagens. Também apresentamos algumas funções especiais que 
geralmente surgem na econometria aplicada, incluindo funções quadráticas e o lo-
garitmo natural. As primeiras quatro seções exigem apenas habilidades de álgebra 
básicas. A Seção A.5 contém uma breve revisão do cálculo diferencial; embora não 
seja necessário um conhecimento de cálculo para entender a maior parte do texto, 
ele é usado em alguns apêndices do fi m dos capítulos e em vários dos capítulos 
mais avançados da Parte 3.
A.1 Operador de soma e estatísticas descritivas
O operador de soma é uma abreviatura útil para manipular expressões que en-
volvem as somas de muitos números e tem papel fundamental nas análises esta-
tísticas e econométricas. Se {xi: i 5 1, ..., n} denota uma sequência de n números, 
então, escrevemos a soma destes números como
 a
n
i51
xi ; x1 1 x2 1 p 1 xn. (A.1)
Com esta definição, pode ser facilmente mostrado que o operador de soma tem as 
seguintes propriedades:
Propriedade de soma 1: Para qualquer c constante,
 a
n
i51
c 5 nc. (A.2)
Propriedade de soma 2: Para qualquer c constante,
 a
n
i51
cxi 5 ca
n
i51
xi. (A.3)
Wood_Apendices_book.indb 1 22/02/2017 15:00:32
Introdução à econometria2
Propriedade de soma 3: Se {(xi, yi): i 5 1, 2, ..., n} é um conjunto de n pares de núme-
ros, e a e b são constantes, então
 a
n
i51
1axi 1 byi 2 5 aa
n
i51
xi 1 ba
n
i51
yi. (A.4)
Também é importante estar ciente de algumas coisas que não podem ser feitas 
com o operador de soma. Defina {(xi, yi): i 5 1, 2, ..., n} novamente como um con-
junto de n pares de números, com yi 2 0 para cada i. Então, 
 a
n
i51
1xi /yi 2 2 aa
n
i51
xib^aa
n
i51
yib . 
Em outras palavras, a soma das relações não é a relação das somas. No caso de 
n 5 2, a aplicação de álgebra básica conhecida também revela essa ausência de igual-
dade: x1/y1 1 x2/y2 2 (x1 1 x2)/(y1 1 y2). De forma similar, a soma dos quadrados não 
é o quadrado da soma: g ni51x21 2 (g
n
i51xi)
2 exceto em casos especiais. Perceber que es-
sas duas quantidades geralmente não são iguais é mais fácil quando n 5 2: x21 1 x
2
2 2 
(x1 1 x2)
2 5 x21 1 2x1x2 1 x
2
2. 
Dados n números {xi: i 5 1, ..., n}, calculamos sua média somando-os e dividindo 
por n:
 x 5 11/n 2a
n
i51
xi. (A.5)
Quando os xi são uma amostra de dados sobre determinada variável (como anos de 
escolaridade), geralmente a chamamos de média amostral para enfatizar que foi cal-
culada a partir de determinado conjunto de dados. A média amostral é um exemplo de 
estatística descritiva; neste caso, a estatística descreve a tendência central do con-
junto de pontos xi.
Existem algumas propriedades básicas relativas às médias que são importantes 
para se entender. Primeiro, suponha que selecionemos cada observação de x e sub-
traiamos a média: di ; xi 2 x– (o “d” significa desvio em relação à média). Assim, a 
soma desses desvios é sempre zero:
 a
n
i51
di 5 a
n
i51
1xi 2 x 2 5 a
n
i51
xi 2 a
n
i51
x 5 a
n
i51
xi 2 nx 5 nx 2 nx 5 0. 
Resumimos como
 a
n
i51
1xi 2 x 2 5 0. (A.6)
Um simples exemplo numérico mostra como isto funciona. Suponha que n 5 5 e x1 5 
6, x2 5 1, x3 5 22, x4 5 0 e x5 5 5. Então, x
– 5 2 e a amostra sem a média é {4, 21, 
24, 22, 3}. A soma dos valores dá zero, o que é exatamente o que a equação (A.6) 
mostra.
Em nossa abordagem sobre análises de regressão, no Capítulo 2, precisamos co-
nhecer alguns fatos algébricos adicionais que envolvem desvios das médias amostrais. 
Wood_Apendices_book.indb 2 22/02/2017 15:00:33
 APÊNDICE A Ferramentas matemáticas básicas 3
Um aspecto importante é que a soma dos quadrados dos desvios é a soma de xi ao 
quadrado diminuindo de n vezes o quadrado de x–:
 a
n
i51
1xi 2 x 2
2 5 a
n
i51
x2i 2 n 1x 2
2. (A.7)
Isso pode ser demonstrado usando propriedades básicas do operador de soma:
 
 a
n
i51
1xi 2 x 2
2 5 a
n
i51
1x2i 2 2xix 1 x
2 2
 5 a
n
i51
x2i 2 2xa
n
i51
xi 1 n 1x 2
2
 5 a
n
i51
x2i 2 2n 1x 2
2 1 n 1x 2 2 5 a
n
i51
x2i 2 n 1x 2
2.
 
Dado um conjunto de dados sobre duas variáveis, {(xi, yi): i 5 1, 2, ..., n}, também 
se pode mostrar que
 
 a
n
i51
1xi 2 x 2 1yi 2 y 2 5 a
n
i51
xi 1yi 2 y 2
 5 a
n
i51
1xi 2 x 2yi 5 a
n
i51
xiyi 2 n 1x # y 2 ; 
 (A.8)
esta é uma generalização da equação (A.7). (Lá, yi 5 xi para todo i.)
A média é a medida da tendência central em que nos focaremos na maior parte do 
texto. No entanto, às vezes é informativo usar a mediana (ou mediana amostral) para 
descrever o valor central. Para obter a mediana dos n números {x1, ..., xn}, primeiro 
ordenamos os valores de xi do menor para o maior. Assim, se n for ímpar, a mediana 
amostral é o número do meio das observações ordenadas. Por exemplo, dados os nú-
meros {24, 8, 2, 0, 21, 210, 18}, o valor mediano é 2 (porque a sequência ordenada 
é {210, 24, 0, 2, 8, 18, 21}). Se mudarmos o número maior desta lista, 21, para 
o dobro de seu valor, 42, a mediana ainda é 2. Em contrapartida, a média amostral 
aumentaria de 5 para 8, uma mudança considerável. Geralmente a mediana é menos 
sensível do que a média a alterações nos valores extremos (grandes ou pequenas) em 
uma lista de números. É por isso que “mediana de rendas” ou “valores medianos de 
residências” são reportados com frequência, em vez das médias, quando resumimos 
valores de renda ou residências em uma cidade ou estado.
Se n for par, não há uma forma única de definir a mediana porque existem dois 
números no centro. Geralmente a mediana é definida como a média dos dois valores 
centrais (novamente, depois de ordenar os números do menor para o maior). Usando 
esta regra, a mediana para o conjunto de números {4, 12, 2, 6} seria (4 1 6)/2 5 5.
A.2 Propriedades das funções lineares
Funções lineares desempenham papel importante na econometria porque são simples 
de interpretar e manipular. Se x e y são duas variáveis relacionadas por
 y 5 b0 1 b1x, (A.9)
Wood_Apendices_book.indb 3 22/02/2017 15:00:34
Introdução à econometria4
então, podemos dizer que y é uma função linear de x, e b0 e b1 são dois parâmetros 
(números) que descrevem essa relação. O intercepto é b0 e a inclinação é b1.
A característica definidora de uma função linear é que a variação de y é sempre b1 
vezes a variação em x:
 Dy 5 b1Dx, (A.10)
onde D significa “variação”. Em outras palavras, o efeito marginal de x sobre y é 
constante e igual a b1.
ExEmplo A.1 Função linear de gastos com habitação
Suponha que a relação entre os gastos mensais com habitação e a renda mensal seja
 habitação 5 164 1 0,27 renda. (A.11)
Assim, para cada dólar adicional de renda, 27 centavos são gastos com habitação. Se 
a renda familiar aumentar US$ 200, os gastos com habitação aumentam (0,27)200 5 
US$ 54. Essa função é representada graficamente na Figura A.1.
De acordo com a equação (A.11), uma família sem renda gasta US$ 164 com ha-
bitação, o que, é claro, não pode ser literalmente verdade. Para níveis baixos de renda, 
essa função linear não descreveria muito bem a relação entre habitação e renda, e esse 
é o motivo para que tenhamos de usar outros tipos de funções para descrever essas 
relações.
Na equação (A.11), a propensão marginal a consumir (PMgC) de habitação pela 
renda é 0,27. Isso difere da propensão média a consumir (PmeC), que é
 habitação
renda
5 164/renda 1 0,27. 
FIgurA A.1 Gráfico de habitação 5 164 1 0,27 renda.
164
1,514
Habitação
5.000 Renda
habitação
renda
= 0,27D
D
Wood_Apendices_book.indb 4 22/02/2017 15:00:35
 APÊNDICE A Ferramentas matemáticas básicas 5
A PmeC não é constante; ela é sempre maior do que a PMgC e fica mais próxima dela 
à medida que a renda aumenta.
Funções lineares são facilmente definidas para mais de duas variáveis.Suponha 
que y esteja relacionado com duas variáveis, x1 e x2, na forma geral
 y 5 b0 1 b1x1 1 b2x2. (A.12)
É bem difícil visualizar essa função porque seu gráfico é tridimensional. No entanto, 
b0 ainda é o intercepto (o valor de y quando x1 5 0 e x25 0), e b1 e b2 medem incli-
nações particulares. A partir da equação (A.12), a variação em y, para determinadas 
alterações em x1 e x2, é 
 Dy 5 b1Dx1 1 b2Dx2. (A.13)
Se x2 não variar, isto é, Dx2 5 0, então temos
 Dy 5 b1Dx1 se Dx2 5 0, 
assim, b1 é a inclinação da relação na direção de x1:
 b1 5
Dy
Dx1
 se Dx2 5 0. 
Visto que ele mede como y muda com x1, mantendo x2 fixo, b1 é geralmente chamado 
de efeito parcial de x1 sobre y. Como o efeito parcial envolve manter outros fatores 
fixos, ele é fortemente ligado à noção de ceteris paribus. O parâmetro b2 tem uma 
interpretação similar: b2 5 Dy/Dx2 se Dx1 5 0, assim, b2 é o efeito parcial de x2 so-
bre y. 
ExEmplo A.2 Demanda por CDs
Para estudantes universitários, suponha que a quantia mensal demandada de CDs está 
relacionada ao preço dos CDs e à renda discricionária mensal por
 quantidade 5 120 2 9,8 preço 1 0,03 renda, 
em que preço é o valor por disco e renda é medida em dólares. A curva de demanda 
é a relação entre quantidade e preço, mantendo renda (e outros fatores) fixa. Isso 
foi representado graficamente em duas dimensões na Figura A.2, com um nível de 
renda de US$ 900. A inclinação da curva de demanda, 29,8, é o efeito parcial do 
preço sobre a quantidade: mantendo a renda fixa, se o preço dos CDs aumentar um 
dólar, a quantia demandada cai 9,8. (Não levamos em conta o fato de que CDs só 
podem ser comprados em unidades separadas.) Um aumento na renda simplesmente 
desloca a curva de demanda para cima (muda o intercepto), mas a inclinação conti-
nua a mesma.
Wood_Apendices_book.indb 5 22/02/2017 15:00:36
Introdução à econometria6
A.3 Proporções e porcentagens
Proporções e porcentagens têm papel tão importante na economia aplicada de tal 
forma, que é preciso estar muito seguro para trabalhar com elas. Muitas quantidades 
relatadas na imprensa popular estão na forma de porcentagem; alguns exemplos são 
taxas de juros, taxas de desemprego e índices graduados no ensino médio.
Uma habilidade importante é ser capaz de converter proporções em porcentagens 
e vice-versa. Uma porcentagem é facilmente obtida multiplicando-se uma proporção 
por 100. Por exemplo, se a proporção de adultos com ensino médio completo em um 
condado é de 0,82, podemos dizer que 82% (82 por cento) dos adultos têm diploma do 
ensino médio. Outra forma de pensar em porcentagens e proporções é que uma pro-
porção é a forma decimal de uma porcentagem. Por exemplo, se a alíquota de imposto 
marginal de uma família que ganha US$ 30.000 por ano é registrada como 28%, então 
a proporção para o próximo dólar de renda que é pago na forma de imposto sobre ren-
dimentos é de 0,28 (ou 28¢).
Quando usamos porcentagens, geralmente precisamos convertê-las para a forma 
decimal. Por exemplo, se o imposto sobre vendas de um estado é 6% e forem gastos 
US$ 200 em um item tributável, então o imposto pago sobre a venda é de 200(0,06) 
5 US$ 12. Se o retorno anual sobre um certificado de depósito (CD) é de 7,6% e 
investimos US$ 3.000 em um CD no início do ano, nosso rendimento de juros será 
3.000(0,076) 5 US$ 228. Ainda que quiséssemos, o rendimento de juros não é obtido 
multiplicando 3.000 por 7,6.
Precisamos tomar cuidado com proporções que às vezes são reportadas incorreta-
mente como porcentagens na mídia popular. Se lermos: “A porcentagem de estudantes 
do ensino médio que consome bebidas alcoólicas é 0,57”, sabemos que isso quer dizer 
FIgurA A.2 Gráfico de quantidade 5 120 2 9,8 preço 1 0,03 renda, com renda fixa 
em US$ 900.
147
Quantidade
15 Preço
= –9,8 
D preço
D quantidade
Wood_Apendices_book.indb 6 22/02/2017 15:00:36
 APÊNDICE A Ferramentas matemáticas básicas 7
57% (e não pouco mais de meio por cento, como a afirmação indica literalmente). Fãs 
de voleibol universitário estão provavelmente familiarizados com clipes da imprensa 
que contêm afirmações como “Sua porcentagem de acertos foi 0,372”. Isso quer dizer, 
na verdade, que a porcentagem de acertos foi 37,2%.
Em econometria, frequentemente estamos interessados em medir as variações em 
diversas grandezas. Seja x uma variável que indique algo, como a renda de um in-
divíduo, o número de crimes cometidos em uma comunidade ou os lucros de uma 
empresa. Seja x0 e x1 dois valores designados para x: x0 é o valor inicial e x1 é o valor 
subsequente. Por exemplo, x0 pode ser a renda anual de um indivíduo em 1994 e x1 a 
renda do mesmo indivíduo em 1995. A variação proporcional de x ao se mover de x0 
a x1, às vezes chamada de variação relativa, é simplesmente
 1x1 2 x0 2 /x0 5 Dx/x0, (A.14)
supondo, é claro, que x0 2 0. Em outras palavras, para obter a variação proporcional, 
simplesmente dividimos a variação em x por seu valor inicial. Essa é uma forma de 
padronizar a mudança para que fique livre de unidades de medida. Por exemplo, se a 
renda de um indivíduo vai de US$ 30.000 para US$ 36.000 por ano, a variação pro-
porcional é 6.000/30.000 5 0,20.
É mais comum declarar alterações em termos de porcentagens. A variação per-
centual de x ao ir de x0 para x1 é simplesmente 100 vezes a variação proporcional:
 %Dx 5 100 1Dx/x0 2 ; (A.15)
a notação “%Dx” é lida como “a variação percentual de x”. Por exemplo, quando a 
renda vai de US$ 30.000 a US$ 33.750, ela aumentou 12,5%; para obter este valor, 
simplesmente multiplicamos a variação proporcional, 0,125, por 100.
Novamente, precisamos ficar atentos a variações proporcionais que são relatadas 
como variações percentuais. No exemplo anterior, relatar a variação percentual da 
renda como 0,125 é incorreto e pode levar a confusões.
Quando analisamos mudanças em coisas como montantes de dólar ou população, 
por exemplo, não há ambiguidade sobre o que significa alteração percentual. Em con-
trapartida, interpretar cálculos de variação percentual pode ser difícil quando a variá-
vel de interesse já é uma porcentagem, algo que ocorre frequentemente na economia 
e em outras ciências sociais. Para ilustrar, digamos que x denote a porcentagem de 
adultos que tenham educação superior em determinada cidade. Suponha que o valor 
inicial seja x05 24 (24% tem curso superior), e o novo valor seja x1 5 30. Podemos 
calcular duas medidas para descrever como a porcentagem de pessoas com curso su-
perior mudou. A primeira é a mudança em x, Dx. Neste caso, Dx 5 x1 – x0 5 6: a 
porcentagem de pessoas com educação superior aumentou seis pontos percentuais. 
Por outro lado, podemos calcular a variação percentual de x usando a equação (A.15): 
%Dx 5 100[(30 – 24)/24] 5 25.
Neste exemplo, a variação de pontos percentuais e a variação percentual são 
muito diferentes. A variação de ponto percentual é apenas a diferença entre as 
porcentagens. A variação percentual é a mudança em relação ao valor inicial. Nor-
malmente devemos prestar muita atenção em qual número está sendo calculado. O 
pesquisador cuidadoso torna essa distinção perfeitamente clara; infelizmente, na im-
prensa popular, bem como em pesquisas acadêmicas, o tipo de variação registrada 
frequentemente é incerto. 
Wood_Apendices_book.indb 7 22/02/2017 15:00:37
Introdução à econometria8
ExEmplo A.3 Aumento do imposto sobre vendas em michigan
Em março de 1994, os eleitores de Michigan aprovaram um aumento de 4% para 6% 
do imposto sobre vendas. Nas propagandas políticas, os apoiadores da medida se re-
feriam a isso como um aumento de dois pontos percentuais, ou um aumento de dois 
centavos sobre um dólar. Os que se opunham ao aumento do imposto alegavam que 
era um aumento de 50% do imposto sobre vendas. Ambas as afirmações estão corre-
tas; elas são simplesmente formas diferentes de medir o aumento do imposto sobre 
vendas. Naturalmente, cada grupo divulgou a medida que tornava sua posição mais 
favorável.
Para uma variável como salário,não faz sentido falar em “variação de ponto per-
centual” porque o salário não é medido como porcentagem. Podemos descrever uma 
mudança salarial em termos financeiros ou de porcentagem.
A.4 Algumas funções especiais e suas propriedades
Na Seção A.2, revisamos as propriedades básicas das funções lineares. Já indicamos 
uma característica importante de funções como y 5 b0 1 b1x: uma mudança de uma 
unidade em x resulta na mesma variação em y, independentemente do valor inicial de 
x. Conforme notamos anteriormente, isso é o mesmo que dizer que o efeito marginal 
de x sobre y é constante, o que não é realista para muitas relações econômicas. Por 
exemplo, a importante noção econômica de rendimentos marginais decrescentes não 
condiz com uma relação linear.
Para modelar uma variedade de fenômenos econômicos, precisamos estudar di-
versas funções não lineares. Uma função não linear é caracterizada pelo fato de que 
a variação em y para determinada mudança em x depende do valor inicial de x. Certas 
funções não lineares surgem com frequência na economia empírica, por isso é impor-
tante saber como interpretá-las. Um entendimento completo das funções não lineares 
nos leva ao reino do cálculo. Aqui, vamos somente resumir os aspectos mais significa-
tivos das funções, deixando os detalhes de algumas derivações para a Seção A.5.
A.4a Funções quadráticas
Uma forma simples de capturar retornos decrescentes é adicionar um termo quadrá-
tico a uma relação linear. Considere a equação
 y 5 b0 1 b1x 1 b2x
2, (A.16)
em que b0, b1 e b2 são parâmetros. Quando b1 . 0 e b2 , 0, a relação entre y e x tem a 
forma parabólica dada na Figura A.3, onde b0 5 6, b 15 8 e b2 5 22.
Quando b1 . 0 e b2 , 0, pode-se mostrar (usando os cálculos da seção seguinte) 
que o máximo da função ocorre no ponto
 xp 5 b1/ 122b2 2 . (A.17)
Por exemplo, se y 5 6 1 8x – 2x² (assim, b1 5 8 e b2 5 22), o maior valor de y ocorre 
em xp 5 8/4 5 2, e este valor é 6 1 8(2) – 2(2)2 5 14 (ver Figura A.3).
Wood_Apendices_book.indb 8 22/02/2017 15:00:37
 APÊNDICE A Ferramentas matemáticas básicas 9
O fato de a equação (A.16) indicar um efeito marginal decrescente de x sobre y 
é facilmente visto neste gráfico. Suponha que comecemos com um valor baixo de x e 
o aumentemos em certa quantidade, digamos, c. Isso terá um efeito maior sobre y do 
que se começássemos com um valor alto de x e impuséssemos um aumento da mesma 
quantia c. De fato, uma vez que x . xp, um aumento em x na verdade diminuirá y.
A afirmação de que x tem um efeito marginal decrescente sobre y é o mesmo que 
dizer que a inclinação da função na Figura A.3 diminui à medida que x aumenta. Em-
bora isso fique claro ao olhar para o gráfico, geralmente queremos quantificar quão ra-
pidamente a inclinação está mudando. Uma aplicação de cálculo mostra a inclinação 
aproximada da função quadrática como
 inclinação 5
Dy
Dx
< b1 1 2b2x, (A.18)
para alterações “pequenas” em x. [O lado direito da equação (A.18) é a derivada da 
função na equação (A.16) em relação a x.] Outra forma de escrever isso é
 Dy < 1b1 1 2b2x 2Dx para “pequena” Dx. (A.19)
Para ver como essa aproximação funciona bem, considere novamente a função y 5 6 
1 8x – 2x². Assim, de acordo com a equação (A.19), Dy < (8 – 4x)Dx. Agora, supo-
nha que comecemos com x 5 1 e alteremos x por Dx 5 0,1. Usando a equação (A.19), 
Dy < (8 – 4) (0,1) 5 0,4. É claro, podemos calcular a variação exata descobrindo os 
valores de y quando x 5 1 e x 5 1,1: y0 5 6 1 8(1) – 2 (1)
2 5 12 e y1 5 6 1 8(1,1) – 
2(1,1)2 5 12,38, portanto, a variação exata de y é 0,38. A aproximação é bem próxima 
neste caso.
FIgurA A.3 Gráfico de y 5 6 1 8x 2 2x².
0 1 2 3
0
x
2
4
6
8
10
12
14
4
y
x*
Wood_Apendices_book.indb 9 22/02/2017 15:00:38
Introdução à econometria10
Agora, suponha que comecemos com x 5 1, mas alteremos x em uma quantia 
maior: Dx 5 0,5. Assim, a aproximação dá Dy < 4(0,5) 5 2. A variação exata é deter-
minada encontrando a diferença em y quando x 5 1 e x 5 1,5. O valor anterior de y 
era 12, e o valor atual é 6 1 8(1,5) – 2(1,5)2 5 13,5, assim, a variação real é 1,5 (não 
2). A aproximação é pior neste caso porque a variação em x é maior.
Em muitas aplicações, a equação (A.19) pode ser usada para calcular o efeito mar-
ginal aproximado de x sobre y para qualquer valor inicial de x e pequenas alterações. 
E podemos sempre calcular a variação exata, se for necessário.
ExEmplo A.4 Função salarial quadrática
Suponha que a relação entre o salário por hora e os anos na força de trabalho (exper) 
seja dada por
 salário 5 5,25 1 0,48 exper 2 0,008 exper2. (A.20)
Esta função tem a mesma forma geral que a da Figura A.3. Usando a equação (A.17), 
exper tem um efeito positivo sobre salário até o ponto de inflexão, experp 5 0,48/
[2(0,008)] 5 30. O primeiro ano de experiência vale aproximadamente 0,48, ou 48 
centavos [ver equação (A.19) com x 5 0, Dx 5 1]. Cada ano de experiência adicional 
aumenta o salário menos do que o ano anterior – refletindo um retorno marginal 
decrescente em relação à experiência. Com 30 anos, um ano adicional de experiência, 
na verdade, diminuirá o salário. Isso não é muito realista, mas é uma das consequên-
cias de usar uma função quadrática para capturar um efeito marginal decrescente: em 
algum ponto a função precisa atingir um máximo e se curvar para baixo. Para propó-
sitos práticos, o ponto no qual isso acontece geralmente é grande o bastante para ser 
irrelevante, mas nem sempre.
O gráfico da função quadrática da equação (A.16) tem um formato de “U” se b1 , 
0 e b2 . 0, caso em que há um retorno marginal crescente. O mínimo da função está 
no ponto 2b1/(2b2).
A.4b Logaritmo natural
A função não linear que desempenha o papel mais importante na análise econométrica 
é o logaritmo natural. Neste texto, vamos representar o logaritmo natural, ao qual 
nos referiremos com frequência como função log, como
 y 5 log 1x 2 . (A.21)
Você deve se lembrar de ter aprendido diferentes símbolos para o log natural; ln(x) 
ou loge(x) são os mais comuns. Essas notações distintas são úteis quando logaritmos 
com várias bases diferentes estão sendo usados. Para nossos propósitos, apenas o lo-
garitmo natural é importante, assim, log(x) indica o logaritmo natural ao longo do 
texto. Isso corresponde às sinalizações de muitos pacotes estatísticos, embora alguns 
usem ln(x) [e a maioria das calculadoras use ln(x)]. Economistas usam tanto log(x) 
quanto ln(x), o que é útil para quando se trata de trabalhos de economia aplicada.
A função y 5 log(x) é definida apenas para x . 0, e isso está esboçado na Figura 
A.4. Não é muito importante saber como os valores de log(x) são obtidos. Para nossos 
Wood_Apendices_book.indb 10 22/02/2017 15:00:38
 APÊNDICE A Ferramentas matemáticas básicas 11
propósitos, a função pode ser pensada como uma caixa preta: podemos pegar qualquer 
x . 0 e obter log(x) em uma calculadora ou computador.
Várias coisas são aparentes na Figura A.4. Primeiro, quando y 5 log(x), a relação entre 
y e x apresenta retornos marginais decrescentes. Uma diferença importante entre o log e a 
função quadrática da Figura A.3 é que, quando y 5 log(x), o efeito de x sobre y nunca se 
torna negativo: a inclinação da função fica cada vez mais próxima de zero à medida que x 
aumenta, mas a inclinação nunca atinge zero e certamente não se torna negativa.
Os itens a seguir também surgem pela Figura A.4:
 log(x) , 0 para 0 , x , 1 
 log(1) 5 0 
 log(x) . 0 para x . 1. 
Em particular, log(x) pode ser positivo ou negativo. Alguns fatos algébricos úteis a 
respeito da função log são
 log(x1∙x2) 5 log(x1) 1 log(x2), x1, x2 . 0 
 log(x1/x2) 5 log(x1) 2 log(x2), x1, x2 . 0 
 log(xc) 5 c log(x), x . 0, qualquer número c. 
Às vezes precisaremos contar com essas propriedades.
O logaritmo pode ser usado para várias aproximações que surgem em aplicações 
econométricas. Primeiro, log(1 1 x) < x para x < 0. Você pode testar isso com x 5 
0,02, 0,1 e 0,5 para ver como a qualidade da aproximaçãose deteriora à medida que 
x aumenta. Ainda mais útil é o fato de que a diferença nos logs pode ser usada para 
aproximar variações proporcionais. Defina x0 e x1como valores positivos. Então, pode 
ser mostrado (usando cálculos) que
 log 1x1 2 2 log 1x0 2 < 1x1 2 x0 2 /x0 5 Dx/x0 (A.22)
FIgurA A.4 Gráfico de y 5 log (x).
0
y
1 x
y = log(x)
Wood_Apendices_book.indb 11 22/02/2017 15:00:38
Introdução à econometria12
Para pequenas alterações em x. Se multiplicarmos a equação (A.22) por 100 e escre-
vermos Dlog(x) 5 log(x1) 2 log(x0), então 
 100 # Dlog 1x 2 < %Dx (A.23)
para pequenas alterações em x. O significado de “pequenas” depende do contexto, e 
vamos encontrar vários exemplos ao longo deste texto.
Por que aproximamos a alteração percentual usando (A.23) quando a variação 
percentual exata é tão fácil de calcular? Em um momento vamos ver por que a apro-
ximação da equação (A.23) é útil em econometria. Primeiro, vejamos quão boa é a 
aproximação em dois exemplos.
Suponha que x0 5 40 e x1 5 41. Então, a variação percentual de x ao mudar de 
x0 para x1 é 2,5%, usando 100(x1 2 x0)/x0. Agora, log(41) 2 log(40) 5 0,0247 (para 
quatro casas decimais), que, quando multiplicado por 100, fica bem próximo de 2,5. 
A aproximação funciona muito bem. Agora, considere uma variação muito maior: x0 
5 40 e x1 5 60. A variação percentual exata é 50%. No entanto, log(60) 2 log(40) < 
0,4055, então a aproximação dá 40,55%, que é bem distante.
Por que a aproximação da equação (A.23) será útil somente se for satisfatória 
para pequenas alterações? Para construir a resposta, primeiro definimos a elastici-
dade de y em relação a x como
 
Dy
Dx
 ?
x
y
5
%Dy
%Dx
. (A.24)
Em outras palavras, a elasticidade de y em relação a x é a variação percentual de y 
quando x aumenta 1%. Essa noção deve ser familiar da economia introdutória.
Se y é uma função linear de x, y 5 b0 1 b1x, então, a elasticidade é
 
Dy
Dx
?
x
y
5 b1 ?
x
y
5 b1 ?
x
b0 1 b1x
, (A.25)
que claramente depende do valor de x. (Essa é uma generalização do famoso resultado 
da teoria básica da demanda: a elasticidade não é constante ao longo de uma curva de 
demanda linear.)
Elasticidades têm uma importância crítica em muitas áreas da economia aplicada, não 
só na teoria da demanda. É conveniente em muitas situações ter modelos de elasticidade 
constante, e a função log nos permite especificar esses modelos. Se usarmos aproxima-
ção na equação (A.23) para x e y, a elasticidade será aproximadamente igual a Dlog(y)/
Dlog(x). Portanto, um modelo de elasticidade constante é aproximado pela equação
 log 1y 2 5 b0 1 b1log 1x 2 , (A.26)
e b1 é a elasticidade de y em relação a x (supondo que x, y . 0).
ExEmplo A.5 Função de demanda com elasticidade constante
Se q é a quantia demandada e p é preço e essas variáveis se relacionam por
 log 1q 2 5 4,7 2 1,25 log 1p 2 , 
então, a elasticidade-preço da demanda é 21,25. Aproximadamente um aumento de 
1% no preço leva a uma queda de 1,25% da quantidade demandada.
Wood_Apendices_book.indb 12 22/02/2017 15:00:39
 APÊNDICE A Ferramentas matemáticas básicas 13
Para nossos propósitos, o fato de b1 na equação (A.26) ser apenas próximo da 
elasticidade não é importante. De fato, quando a elasticidade é definida usando cál-
culo – como na Seção A.5 –, a definição é exata. Para propósitos de análises econo-
métricas, a equação (A.26) define um modelo de elasticidade constante. Este tipo de 
modelo tem um grande papel na economia empírica. 
Outras possibilidades para usar a função log surgem com frequência no trabalho 
empírico. Suponha que y . 0 e
 log 1y 2 5 b0 1 b1x. (A.27)
Então, Dlog(y) 5 b1Dx, assim, 100 ∙ Dlog(y) 5 (100 ∙ b1)Dx. Verifica-se que, quando y 
e x são relacionados pela equação (A.27),
 %Dy < 1100 ? b1 2Dx. (A.28)
ExEmplo A.6 Equação logarítmica de salário
Suponha que o salário por hora e os anos de educação estejam relacionados por
 log 1salário2 5 2,78 1 0,094 educ. 
Então, usando a equação (A.28),
 %Dsalário < 100 10,0942Deduc 5 9,4 Deduc. 
Verifica-se que um ano a mais de educação aumenta o salário por hora em cerca de 
9,4%.
Geralmente, a quantidade %Dy/Dx é chamada de semielasticidade de y em re-
lação a x. A semielasticidade é a variação percentual em y quando x aumenta uma 
unidade. O que acabamos de mostrar é que, no modelo (A.27), a semielasticidade é 
constante e igual a 100 ∙ b1. No Exemplo A.6, podemos resumir convenientemente a 
relação entre salário e educação dizendo que um ano a mais de escolaridade – par-
tindo de qualquer quantidade de educação – aumenta o salário em cerca de 9,4%. É 
por isso que esses modelos têm papel importante na economia.
Outra relação interessante para a economia aplicada é
 y 5 b0 1 b1log 1x 2 , (A.29)
onde x . 0. Como podemos interpretar esta equação? Se usarmos a variação em y, 
obtemos Dy 5 b1Dlog(x), que pode ser reescrito como Dy 5 (b1/100)[100 ∙ Dlog(x)]. 
Assim, usando a aproximação de (A.23), temos
 Dy < 1b1/100 2 1%Dx 2 . (A.30)
Em outras palavras, b1/100 é a variação unitária em y quando x aumenta 1%.
Wood_Apendices_book.indb 13 22/02/2017 15:00:41
Introdução à econometria14
ExEmplo A.7 Função de oferta de mão de obra
Suponha que a oferta de mão de obra de um trabalhador possa ser descrita como
 horas 5 33 1 45,1 log 1salário 2 , 
em que salário é a remuneração por hora e horas são as horas trabalhadas por semana. 
Então, a partir da equação (A.30),
 Dhoras < 145,1/100 2 1%Dsalário2 5 0,451 %Dsalário. 
Em outras palavras, um aumento de 1% no salário aumenta as horas trabalhadas por 
semana em cerca de 0,45, ou pouco menos do que meia hora. Se o salário aumen-
tasse 10%, então Dhoras 5 0,451(10) 5 4,51, ou cerca de quatro horas e meia. Não 
gostaríamos de usar essa aproximação para variações percentuais muito grandes nos 
salários.
A.4c Função exponencial
Antes de finalizar esta seção, precisamos discutir uma função especial relacionada ao 
log. Como motivação, considere a equação (A.27). Lá, log(y) é uma função linear de 
x. Mas como encontramos y como uma função de x? A resposta é dada pela função 
exponencial. 
Escreveremos a função exponencial como y 5 exp(x), que foi colocada no gráfico 
da Figura A.5. A partir da Figura A.5, vemos que exp(x) é definida para qualquer valor 
de x e é sempre maior do que zero. Às vezes, a função exponencial é escrita como y 5 
ex, mas não usaremos essa notação. Dois valores importantes da função exponencial 
são exp(0) 5 1 e exp(1) 5 2,7183 (para quatro casas decimais).
FIgurA A.5 Gráfico de y 5 exp(x).
0
y
x
y = exp(x)
Wood_Apendices_book.indb 14 22/02/2017 15:00:41
 APÊNDICE A Ferramentas matemáticas básicas 15
A função exponencial é o inverso da função log no seguinte sentido: log[exp(x)] 
5 x para todo x, e exp[log(x)] 5 x para x . 0. Em outras palavras, log “cancela” a 
exponencial, e vice-versa. (É por isso que a função exponencial às vezes é chamada de 
função antilog.) Em especial, note que log(y) 5 b0 1 b1x é equivalente a 
 y 5 exp 1b0 1 b1x 2 . 
Se b1 . 0, a relação entre x e y tem a mesma forma que a Figura A.5. Assim, se log(y) 
5 b0 1 b1x com b1 . 0, então x tem um efeito marginal crescente sobre y. No Exem-
plo A.6, isso quer dizer que um ano a mais de educação leva a uma mudança maior no 
salário do que a do número de anos de escolaridade anterior. 
Dois fatos úteis sobre a função exponencial são exp(x1 1 x2) 5 exp(x1)exp(x2) e 
exp[c∙log(x)] 5 xc.
A.5 Cálculos diferenciais
Na seção anterior, expressamos uma série de aproximações fundamentadas em cál-
culo. Seja y 5 f(x) para alguma função f. Assim, para pequenas alterações em x,
 Dy <
df
dx
 
#
 Dx, (A.31)
em que df/dx é a derivada da função f, avaliada no ponto inicial x0. Também escreve-
mos a derivada como dy/dx.
Por exemplo, se y 5 log(x), então dy/dx 5 1/x. Usando a equação (A.31), com 
dy/dx avaliado em x0, temos Dy < (1/x0)Dx ou Dlog(x) < Dx/x0, que é a aproximação 
dada em (A.22).
Ao aplicar a econometria, ajuda se você se lembrar da derivada de uma porçãode funções, porque usamos a derivada para definir a inclinação de uma função em 
um dado ponto. Podemos usar (A.31) para encontrar a variação aproximada de y para 
pequenas alterações em x. No caso linear, a derivada é simplesmente a inclinação da 
reta, como poderíamos esperar: se y 5 b0 1 b1x, então dy/dx 5 b1.
Se y 5 xc, então dy/dx 5 cxc21. A derivada de uma soma de duas funções é a soma 
das derivadas: d[f(x) 1 g(x)]/dx 5 df(x)/dx 1 dg(x)/dx. A derivada de uma constante 
vezes qualquer função é aquela mesma constante vezes a derivada da função: d[cf(x)]/
dx 5 c[df(x)/dx]. Essas simples regras nos permitem encontrar derivadas de funções 
mais complicadas. Outras regras, como as de produto, quociente e cadeia, serão fami-
liares para aqueles que já estudaram cálculo, mas não as revisaremos aqui.
Algumas funções que são usadas com frequência em economia, ao lado de suas 
derivadas, são
 
 y 5 b0 1 b1x 1 b2x
2; dy/dx 5 b1 1 2b2x
 y 5 b0 1 b1/x; dy/dx 5 2b1/ 1x2 2
 y 5 b0 1 b1!x; dy/dx 5 1b1/2 2x21/2
 y 5 b0 1 b1log 1x 2 ; dy/dx 5 b1/x
 y 5 exp 1b0 1 b1x 2 ; dy/dx 5 b1exp 1b0 1 b1x 2 . 
 
Wood_Apendices_book.indb 15 22/02/2017 15:00:42
Introdução à econometria16
Se b0 5 0 e b1 5 1 nesta última expressão, obtemos dy/dx 5 exp(x), quando y 5 
exp(x).
Na Seção A.4, notamos que a equação (A.26) define um modelo de elasticidade 
constante quando é usado cálculo. A definição da elasticidade em cálculo é (dy/
dx)∙(x/y). Pode ser demonstrado usando propriedades de logs e exponenciais que, 
quando (A.26) se mantém, (dy/dx)∙(x/y) 5 b1.
Quando y é uma função de variáveis múltiplas, a noção de derivada parcial se 
torna importante. Suponha que
 y 5 f 1x1, x2 2 . (A.32)
Assim, existem duas derivadas parciais, uma em relação a x1 e outra em relação a x2. 
A derivada parcial de y em relação a x1, chamada aqui de 'y/'x1, é apenas a derivada 
usual de (A.32) em relação a x1, em que x2 é tratada como uma constante. De forma 
similar, 'y/'x2 é apenas a derivada de (A.32) em relação a x2, mantendo x1 fixo.
Derivadas parciais são úteis por quase as mesmas razões que derivadas comuns. 
Podemos aproximar a alteração em y como 
 Dy <
'y
'x1
 
#
 Dx1, mantendo x2 �xo. (A.33)
Assim, o cálculo nos permite definir efeitos parciais em modelos não lineares da 
mesma forma que em modelos lineares.
Na verdade, se
 y 5 b0 1 b1x1 1 b2x2, 
então,
 'y
'x1
5 b1, 
'y
'x2
5 b2. 
Isso pode ser reconhecido como os efeitos parciais definidos na Seção A.2.
Um exemplo mais complicado é
 y 5 5 1 4x1 1 x
2
1 2 3x2 1 7x1 # x2. (A.34)
Agora, a derivada de (A.34), em relação a x1 (tratando x2 como uma constante), é 
simplesmente 
 
'y
'x1
5 4 1 2x1 1 7x2; 
note como ela depende de x1 e x2. A derivada de (A.34), em relação a x2, é 'y/'x25 23 
1 7x1, assim, ela depende somente de x1. 
ExEmplo A.8 Função salarial com interação 
Uma função que relaciona salário aos anos de educação e de experiência é
 
 salário 5 3,10 1 0,41 educ 1 0,19 exper 2 0,004 exper2
 1 0,007 educ # exper.
 (A.35)
Wood_Apendices_book.indb 16 22/02/2017 15:00:43
 APÊNDICE A Ferramentas matemáticas básicas 17
O efeito parcial de exper sobre salário é a derivada parcial de (A.35):
 
'salário
'exper
5 0,19 2 0,008 exper 1 0,007 educ. 
Essa é a variação aproximada do salário devido ao aumento de um ano da experiência. 
Note que este efeito parcial depende do nível inicial de exper e de educ. Por exemplo, 
para um trabalhador que está começando com educ 5 12 e exper 5 5, o ano seguinte 
de experiência aumentará o salário em cerca de 0,19 – 0,008(5) 1 0,007(12) 5 0,234 
ou 23,4 centavos por hora. A variação exata pode ser calculada pela equação (A.35) 
com exper 5 5, educ 5 12 e exper 5 6 e educ 5 12, e então obtendo a diferença. O 
resultado é 0,23, muito perto da aproximação.
O cálculo diferencial desempenha o papel importante de minimizar e maximizar 
funções de uma ou mais variáveis. Se f(x1, x2, ..., xk) é uma função diferenciável com k 
variáveis, então uma condição necessária para xp1, x
p
2, ..., x
p
k para minimizar ou maximi-
zar f sobre todos os valores possíveis de xj é
 
'f
'x
1xp1, xp2, p , xpk 2 5 0, j 5 1, 2, p , k. (A.36)
Em outras palavras, todas as derivadas parciais de f devem ser zero quando forem ava-
liadas em xph. Elas são chamadas de condições de primeira ordem para minimizar ou 
maximizar uma função. De forma prática, esperamos resolver a equação (A.36) para 
xph. Assim, podemos usar outros critérios para determinar se minimizamos ou maxi-
mizamos a função. Não precisaremos deles aqui. [Ver Sydsaeter e Hammond (1995) 
para uma discussão sobre cálculo multivariado e sua utilização para otimizar funções.]
Resumo
As ferramentas matemáticas revisadas aqui são cruciais para entender a análise de re-
gressão e as probabilidades e estatísticas cobertas nos Apêndices B e C. O material sobre 
funções não lineares – especialmente funções quadráticas, logarítmicas e exponenciais – é 
crítico para entender a pesquisa econômica aplicada moderna. O nível de compreensão 
exigido dessas funções não inclui um conhecimento profundo de cálculo, embora ele seja 
necessário para algumas derivações.
Termos-chave
Ceteris paribus
Derivada
Derivada parcial
Efeito marginal
Efeito marginal decrescente
Elasticidade
Estatística descritiva
Função exponencial
Função linear
Função log
Função não linear
Inclinação
Intercepto
Logaritmo natural
Média
Mediana 
Modelo de elasticidade 
 constante
Operador de soma
Semielasticidade
Variação de ponto percentual
Variação percentual
Variação proporcional
Variação relativa
Wood_Apendices_book.indb 17 22/02/2017 15:00:44
Introdução à econometria18
Problemas
1. A tabela a seguir contém gastos mensais com habitação de 10 famílias.
Família Gastos mensais com habitação (dólares)
1 300
2 440
3 350
4 1.100
5 640
6 480
7 450
8 700
9 670
10 530
 (i) Encontre o gasto médio mensal com habitação.
 (ii) Encontre o gasto mediano mensal com habitação.
 (iii) Se os gastos mensais com habitação fossem medidos em centenas de dólares, em 
vez de em dólares, qual seriam os gastos médio e mediano?
 (iv) Suponha que a família número 8 aumente seu gasto mensal com habitação para 
US$ 900, mas os gastos de todas as outras famílias permaneçam os mesmos. Cal-
cule os gastos médio e mediano com habitação.
2. Suponha que a seguinte equação descreva a relação entre o número médio de aulas perdi-
das durante um semestre (faltas) e a distância até a escola (distância, medida em milhas):
 faltas 5 3 1 0,2 distância.
 (i) Trace essa linha, certificando-se de indicar os eixos. Como você interpreta o coe-
ficiente desta equação?
 (ii) Qual é o número médio de aulas perdidas para alguém que mora a cinco milhas de 
distância?
 (iii) Qual é a diferença entre o número médio de aulas perdidas por alguém que mora a 
10 milhas e alguém que mora a 20 milhas de distância?
3. No Exemplo A.2, a quantidade de CDs foi relacionada ao preço e à renda por quan-
tidade 5 120 2 9,8 preço 1 0,03 renda. Qual é a demanda por CDs se preço 5 15 e 
renda 5 200? O que isso sugere a respeito do uso de funções lineares para descrever 
curvas de demanda?
4. Suponha que a taxa de desemprego nos Estados Unidos tenha alterado de 6,4% em um 
ano para 5,6% no ano seguinte.
 (i) Qual foi a queda em pontos percentuais na taxa de desemprego?
 (ii) Em que porcentagem a taxa de desemprego caiu?
5. Suponha que o retorno por manter ações de determinada empresa vá de 15% em um 
ano para 18% no ano seguinte. O sócio majoritário alega que o “retorno das ações só 
cresceu 3%”, enquanto o CEO diz que o “retorno sobre as ações da empresa aumentou 
20%”. Concilie essa divergência.
6. Suponha que a Pessoa A ganhe US$ 35.000 por ano e a Pessoa B ganhe US$ 42.000.
 (i) Encontre a porcentagem exata pela qual o salário da Pessoa B excede o da Pessoa A.
Wood_Apendices_book.indb 18 22/02/2017 15:00:44
 APÊNDICE A Ferramentas matemáticas básicas 19
 (ii) Agora, use a diferença em logs naturais para encontrar a diferença percentualaproximada.
7. Suponha que o modelo a seguir descreva a relação entre o salário anual (salário) e o 
número de anos anteriores de experiência no mercado de trabalho (exper):
 log 1salário2 5 10,6 1 0,027 exper. 
 (i) Qual é o salário quando exper 5 0? E quando exper 5 5? (Dica: Você precisará 
transformar em exponencial.)
 (ii) Use a equação (A.28) para aproximar o aumento percentual de salário quando 
exper aumenta cinco anos.
 (iii) Use os resultados do item (i) para calcular a diferença percentual exata do salário 
quando exper 5 5 e exper 5 0. Comente sobre como isso se compara com a apro-
ximação do item (ii).
8. Seja crescemp o crescimento proporcional dos empregos, no âmbito do condado, de 
1990 a 1995, e impvendas indica o imposto sobre vendas do condado, apresentado 
como uma proporção. Interprete o intercepto e a inclinação da equação
 crescemp 5 0,043 2 0,78 impvendas. 
9. Suponha que a produção de determinada colheita (em bushels por acre) esteja relacio-
nada à quantidade de fertilizante (em libras por acre) como
 produção 5 120 1 0,19!fertilizante. 
 (i) Desenhe o gráfico desta relação adicionando diversos valores para fertilizante.
 (ii) Descreva como a forma dessa relação se compara com uma relação linear entre 
produção e fertilizante.
10. Suponha que, em determinado estado, um teste padrão seja aplicado a todos os for-
mandos. Defina nota como a nota de um estudante no teste. Alguém descobriu que o 
desempenho no teste está relacionado com o tamanho da classe em que o estudante se 
formou no ensino médio. A relação é quadrática:
 nota 5 45,6 1 0,082 classe 2 0,000147 classe2, 
 onde classe é o número de alunos na turma do formando.
 (i) Como você interpreta literalmente o valor 45,6 da equação? Por si só, ele atrai 
muito interesse? Explique.
 (ii) A partir da equação, qual é o tamanho ideal da turma de formandos (o tamanho 
que maximiza a nota do teste)? (Arredonde sua resposta para o número inteiro 
mais próximo.) Qual é a maior nota possível para o teste?
 (iii) Esboce um gráfico que ilustre sua solução para o item (ii).
 (iv) Parece provável que nota e classe tenham uma relação determinística? Isto é, é 
realista pensar que, uma vez que saiba o tamanho da classe em que o aluno se 
formou, você saberá, com certeza, sua nota no teste? Explique. 
11. Considere a linha 
 y 5 b0 1 b1x. 
 (i) Faça com que (x1, y1) e (x2, y2) sejam dois pontos na linha. Mostre que (x
–, y–) tam-
bém está na linha, onde x– 5 (x2 1 x2)/2 é a média dos dois valores e y
– 5 (y1 1 
y2)/2.
 (ii) Amplie o resultado do item (i) para n pontos na linha, {(xi, yi): i 5 1, ..., n}.
Wood_Apendices_book.indb 19 22/02/2017 15:00:45
Fundamentos da 
probabilidade
A P Ê N D I C EB
20
Este apêndice engloba os conceitos-chave da probabilidade básica. Os Apêndices B e C são principalmente para revisão; eles não pretendem substituir um curso de probabilidade e estatística. No entanto, todos os 
conceitos de probabilidade e estatística que usamos no livro são abordados 
nestes apêndices.
A probabilidade por si só é interessante para estudantes de negócios, 
economia e outras ciências sociais. Por exemplo, considere o problema de 
uma companhia aérea que tenta decidir quantas reservas deve aceitar para 
um voo com 100 poltronas disponíveis. Se menos de 100 pessoas quiserem 
reservas, então todas devem ser aceitas. Mas e se mais de 100 pessoas so-
licitarem reservas? Uma solução segura é aceitar no máximo 100 reservas. 
Entretanto, como algumas pessoas fazem reserva e não comparecem para o 
voo, existem chances de o voo não estar cheio mesmo que as 100 reservas 
sejam vendidas. Isso resulta em perda de receita para a companhia. Uma 
estratégia diferente é agendar mais de 100 reservas e esperar que algumas 
pessoas não compareçam, assim, o número final de passageiros ficará o 
mais próximo possível de 100. Essa política traz o risco de a companhia ter 
de compensar as pessoas que forem necessariamente excluídas de um voo 
com overbooking.
Uma questão natural neste contexto é: Podemos decidir o número ideal 
(ou melhor) de reservas que a companhia aérea deve fazer? Este não é um 
problema trivial. No entanto, com determinadas informações (sobre cus-
tos da companhia e a frequência de comparecimento às reservas), podemos 
usar probabilidade básica para chegar a uma solução.
B.1 Variáveis aleatórias e suas distribuições de 
probabilidade
Suponha que joguemos uma moeda para o alto 10 vezes e contemos o 
número de vezes em que ela cai com o lado “cara” para cima. Este é um 
Wood_Apendices_book.indb 20 22/02/2017 15:00:45
 APÊNDICE B Fundamentos da probabilidade 21
exemplo de experimento. Geralmente, um experimento é qualquer procedimento que 
pode, pelo menos em teoria, ser infinitamente repetido e tem um conjunto de resul-
tados bem definido. Podemos, a princípio, fazer o procedimento de jogada da moeda 
repetidas vezes. Antes de jogá-la, sabemos que o número de “caras” que vai surgir é 
um inteiro de 0 a 10, portanto, os resultados do experimento são bem definidos. 
Uma variável aleatória é aquela que assume valores numéricos e tem um resul-
tado determinado por um experimento. No exemplo do “cara ou coroa”, o número 
de “caras” em 10 jogadas de uma moeda é um exemplo de variável aleatória. Antes 
de jogar a moeda 10 vezes, não sabemos quantas vezes ela ficará com a “cara” para 
cima. Uma vez que tenhamos jogado a moeda 10 vezes e contado o número de caras, 
obtemos o resultado da variável aleatória para este determinado teste do experimento. 
Outro teste pode produzir um resultado diferente.
No exemplo das reservas da companhia aérea mencionado anteriormente, o nú-
mero de pessoas que comparecem para embarcar no voo é uma variável aleatória: 
antes de qualquer voo em particular, não sabemos quantas pessoas vão comparecer.
Para analisar dados coletados em negócios e ciências sociais, é importante ter um 
entendimento básico das variáveis aleatórias e suas propriedades. Seguindo as con-
venções usuais de probabilidade e estatística ao longo dos Apêndices B e C, estipu-
lamos variáveis aleatórias como letras maiúsculas, geralmente W, X, y e Z; resultados 
especiais de variáveis aleatórias são indicados pelas letras minúsculas corresponden-
tes, w, x, y e z. Por exemplo, no experimento de “cara ou coroa”, faça X representar o 
número de “caras” em 10 jogadas da moeda. Dessa forma, X não está associada com 
algum valor em particular, mas sabemos que X vai assumir um valor no conjunto {0, 
1, 2, ..., 10}. Um resultado especial é, digamos, x 5 6.
Indicamos grandes coleções de variáveis aleatórias usando subscrições. Por exem-
plo, se registramos a renda do último ano de 20 domicílios escolhidos aleatoriamente 
nos Estados Unidos, podemos indicar essas variáveis aleatórias como X1, X2, ..., X20; 
os resultados em particular serão marcados como x1, x2, ..., x20.
Como mostrado em sua definição, as variáveis aleatórias são sempre definidas 
para assumir valores numéricos, mesmo quando descrevem eventos qualitativos. Por 
exemplo, considere o arremesso de uma única moeda, em que os dois resultados são 
cara e coroa. Podemos definir uma variável aleatória como: X 5 1 se a moeda cair 
com a “cara” para cima, e X 5 0 se o resultado for “coroa”.
Uma variável aleatória que só pode assumir os valores zero e um é chamada de 
variável aleatória de Bernoulli (ou binária). Em probabilidade básica, é tradicional 
chamar o evento X 5 1 de “sucesso” e o evento X 5 0 de “fracasso”. Para aplicações 
em particular, a nomenclatura sucesso-fracasso pode não corresponder à nossa noção 
de sucesso ou fracasso, mas é uma terminologia útil que vamos adotar.
B.1a Variáveis aleatórias discretas
Uma variável aleatória discreta é aquela que assume apenas um número finito ou 
infinito contável de valores. A noção de “infinito contável” significa que, mesmo que 
um número infinito de valores possa ser assumido por uma variável aleatória, esses 
valores podem ser colocados em uma correspondência personalizada comos inteiros 
positivos. Como a distinção entre “infinito contável” e “infinito incontável” é algo su-
til, vamos nos concentrar em variáveis aleatórias discretas que assumem somente um 
Wood_Apendices_book.indb 21 22/02/2017 15:00:45
Introdução à econometria22
número finito de valores. Larsen e Marx (1986, Capítulo 3) apresentam um tratamento 
detalhado.
Uma variável aleatória de Bernoulli é o exemplo mais simples de variável aleató-
ria discreta. A única coisa que precisamos para descrever completamente o comporta-
mento de uma variável aleatória de Bernoulli é a probabilidade que ela tem de assumir 
o valor um. No exemplo do “cara ou coroa”, se a moeda for “imparcial”, então P(X 5 
1) 5 1/2 (leia como “a probabilidade de que X seja igual a um é meio”). Uma vez que 
as probabilidades precisam somar um, P(X 5 0) também é igual a 1/2.
Cientistas sociais estão interessados em mais do que jogar moedas, por isso, preci-
samos levar em conta situações mais gerais. Novamente, considere o exemplo em que 
a companhia aérea deve decidir quantas pessoas agendar para um voo com 100 pol-
tronas disponíveis. Este problema pode ser analisado no contexto de diversas variáveis 
aleatórias de Bernoulli da seguinte forma: para um consumidor selecionado aleatoria-
mente, defina uma variável aleatória de Bernoulli como X 5 1 se a pessoa comparecer 
para a reserva, e X 5 0 se não.
Não há motivo para pensar que a probabilidade de determinado consumidor apa-
recer é 1/2; a princípio, a probabilidade pode ser qualquer número entre 0 e 1. Chame 
esse número de u, de modo que
 P 1X 5 1 2 5 u
P 1X 5 0 2 5 1 2 u.
 (B.1)
 (B.2)
Por exemplo, se u 5 0,75, há uma chance de 75% de que o consumidor compareça 
depois de fazer a reserva e uma chance de 25% de ele não comparecer. De forma in-
tuitiva, o valor de u é crucial para determinar a estratégia da companhia aérea em re-
lação às reservas. Métodos para estimar u, com base em dados históricos das reservas 
da companhia, constituem um tema da estatística matemática, algo ao qual vamos nos 
voltar no Apêndice C.
De modo mais geral, qualquer variável aleatória discreta é completamente descrita 
ao listar seus possíveis valores e a probabilidade associada de que ela assuma cada um 
deles. Se X assume os k possíveis valores {x1, ..., x2}, então as probabilidades p1, p2, 
..., pk são definidas por
 pj 5 P 1X 5 xj 2 , j 5 1, 2, p , k, (B.3)
em que cada pj está entre 0 e 1 e
 p1 1 p2 1 p 1 pk 5 1. (B.4)
A equação (B.3) é lida como: “A probabilidade de X assumir o valor xj é igual a pj”.
As equações (B.1) e (B.2) mostram que as probabilidades de sucesso e fracasso 
de uma variável aleatória de Bernoulli são determinadas totalmente pelo valor de u. 
Como as variáveis aleatórias de Bernoulli são tão prevalentes, temos uma notação es-
pecial para elas: X , Bernoulli (u) é lida como “X tem uma distribuição de Bernoulli 
com probabilidade de sucesso igual a u”.
A função de densidade de probabilidade (fdp) de X resume a informação em 
relação aos possíveis resultados de X e as probabilidades correspondentes:
 f 1xj 2 5 pj, j 5 1, 2, p , k, (B.5)
Wood_Apendices_book.indb 22 22/02/2017 15:00:46
 APÊNDICE B Fundamentos da probabilidade 23
com f(x) 5 0 para qualquer x que não for igual a xj para algum j. Em outras palavras, 
para qualquer número real de x, f(x) é a probabilidade de que a variável aleatória X as-
suma o valor determinado de x. Ao lidar com mais de uma variável aleatória, às vezes 
é útil subscrever a fdp em questão: fX é a fdp de X, fy é a fdp de y, e assim por diante.
Dada a fdp de qualquer variável aleatória discreta, é simples calcular a probabili-
dade de qualquer evento que envolva aquela variável aleatória. Por exemplo, suponha 
que X seja o número de lances livres feitos por um jogador de basquete em duas ten-
tativas, de forma que X possa assumir os três valores {0, 1, 2}. Suponha que a fdp de 
X seja dada por 
 f 10 2 5 0,20, f 11 2 5 0,44, e f 12 2 5 0,36. 
As três probabilidades somam um, como deve ser. Usando essa fdp, podemos cal-
cular a probabilidade de que o jogador converta pelo menos um lance livre: P(X $ 1) 
5 P(X 5 1) 1 P(X 5 2) 5 0,44 1 0,36 5 0,80. A fdp de X é mostrada na Figura B.1.
FIgurA B.1 A fdp do número de lances livres feitos em duas tentativas.
f (x)
0 1 2 x
0,20
0,44
0,36
B.1b Variáveis aleatórias contínuas 
Uma variável X é uma variável aleatória contínua se assumir qualquer valor real 
com zero probabilidade. Essa definição é, de certa forma, contraintuitiva, porque em 
qualquer aplicação acabamos observando algum resultado para uma variável aleatória. 
A ideia é que uma variável aleatória contínua X possa assumir tantos valores possíveis 
que não somos capazes de contar ou conectá-los com os inteiros positivos, assim, a 
coerência lógica sentencia que X pode assumir cada valor com probabilidade zero. 
Enquanto medidas são sempre discretas na prática, variáveis aleatórias que assumem 
inúmeros valores são mais bem tratadas como contínuas. Por exemplo, a medida mais 
refinada do preço de um bem é em termos de centavos. Podemos imaginar uma lista 
de todos os possíveis valores de preço em ordem (embora a lista possa continuar in-
definidamente), o que tecnicamente torna o preço uma variável aleatória discreta. No 
Wood_Apendices_book.indb 23 22/02/2017 15:00:46
Introdução à econometria24
entanto, existem tantos valores possíveis de preço que usar a mecânica de variáveis 
aleatórias discretas não é viável.
Podemos definir uma função de densidade de probabilidade para variáveis aleató-
rias contínuas e, assim como com as variáveis aleatórias discretas, a fdp proporciona 
informações sobre os possíveis resultados da variável aleatória. Entretanto, como não 
faz sentido discutir a probabilidade de uma variável aleatória contínua assumir deter-
minado valor, usamos a fdp de uma variável aleatória contínua somente para calcular 
eventos que envolvam uma série de valores. Por exemplo, se a e b são constantes, 
onde a , b, a probabilidade de X estar entre os números a e b, P(a # X # b), é a área 
abaixo da fdp entre os pontos a e b, como mostra a Figura B.2. Se estiver familiari-
zado com cálculo, você reconhecerá isso como a integral da função f entre os pontos a 
e b. Toda a área abaixo da fdp deve sempre ser igual a um.
Quando calculamos probabilidades para variáveis aleatórias contínuas, é mais fá-
cil trabalhar com a função de distribuição cumulativa (fdc). Se X for qualquer variá-
vel aleatória, então, sua fdc é definida para qualquer número real x por
 F 1x 2 ; P 1X # x 2 . (B.6)
Para variáveis aleatórias discretas, (B.6) é obtida somando a fdp de todos os valores 
xj de forma que xj # x. Para uma variável aleatória contínua, F(x) é a área abaixo da 
fdp, f, à esquerda do ponto x. Como F(x) é apenas uma probabilidade, está sempre 
entre 0 e 1. Além disso, se x1 , x2, então P(X # x1) # P(X # x2), isto é, F(x1) # 
F(x2). Isso quer dizer que uma fdc é uma função crescente (ou pelo menos não de-
crescente) de x.
FIgurA B.2 Probabilidade de X estar entre os pontos a e b.
a
f(x)
b x
Wood_Apendices_book.indb 24 22/02/2017 15:00:47
 APÊNDICE B Fundamentos da probabilidade 25
Duas importantes propriedades das fdcs que são úteis para calcular probabilidades 
são as seguintes:
 Para qualquer número c, P(X . c) 5 1 2 F(c). (B.7)
 Para quaisquer números a , b, P(a , X # b) 5 F(b) 2 F(a). (B.8)
Em nossos estudos de econometria, usaremos fdcs para calcular probabilidade ape-
nas de variáveis aleatórias contínuas, caso em que não importa se as diferenças nas 
afirmações de probabilidade são exatas ou não. Isto é, para uma variável aleatória 
contínua X,
 P 1X $ c 2 5 P 1X . c 2 , (B.9)
e
 P 1a , X , b 2 5 P 1a # X # b 2 5 P 1a # X , b 2 5 P 1a , X # b 2 . (B.10)
Combinadas com (B.7) e (B.8), as equações (B.9) e (B.10) expandem muito os cálcu-
los de probabilidade que podem ser realizados usando fdcs contínuas.
Funções de distribuição cumulativas para todas as distribuições contínuas impor-tantes da probabilidade e estatística têm sido apuradas. A mais conhecida delas é a 
distribuição normal, que abordaremos ao lado de algumas distribuições relacionadas 
na Seção B.5.
B.2 Distribuições conjuntas, distribuições condicionais e 
independência
Na economia, geralmente estamos interessados na ocorrência de eventos que envol-
vem mais de uma variável aleatória. Por exemplo, no caso das reservas da companhia 
aérea citado anteriormente, a companhia pode estar interessada na probabilidade de 
que uma pessoa que faz uma reserva compareça e seja um viajante a negócios; este 
é um exemplo de probabilidade conjunta. Ou a companhia pode estar interessada na 
seguinte probabilidade condicional: com a condição de que a pessoa seja um viajante 
a negócios, qual é a probabilidade de ela comparecer? Nas próximas duas subseções, 
formalizaremos as noções de distribuições conjunta e condicional e a importante no-
ção de independência de variáveis aleatórias.
B.2a Distribuições conjuntas e independência 
Suponha que X e y sejam variáveis aleatórias discretas. Então, (X, y) tem uma distri-
buição conjunta, que é totalmente descrita pela função de densidade de probabili-
dade conjunta de (X, y):
 fX, Y 1x, y 2 5 P 1X 5 x, Y 5 y 2 , (B.11)
onde o lado direito é a probabilidade de X 5 x e y 5 y. Quando X e y são contínuas, 
uma fdp conjunta também pode ser definida, mas não abordaremos estes detalhes 
porque fdps conjuntas para variáveis aleatórias contínuas não são explicitamente 
usadas neste livro.
Wood_Apendices_book.indb 25 22/02/2017 15:00:47
Introdução à econometria26
Em alguns casos, é fácil obter a fdp conjunta se tivermos as fdps de X e y. Em es-
pecial, variáveis aleatórias X e y são classificadas como independentes se, e somente 
se,
 fX, Y 1x, y 2 5 fX 1x 2 fY 1y 2 (B.12)
para todo x e y, onde fX é a fdp de X e fy é a fdp de y. No contexto de mais de uma 
variável aleatória, as fdps fX e fy normalmente são chamadas de funções de densidade 
de probabilidade marginal para diferenciá-las da fdp conjunta fX, y. Essa definição de 
independência é válida para variáveis aleatórias discretas e contínuas.
Para entender o significado de (B.12), é mais fácil lidar com o caso discreto. Se X 
e y são discretas, então (B.12) é o mesmo que
 P 1X 5 x, Y 5 y 2 5 P 1X 5 x 2P 1Y 5 y 2 ; (B.13)
em outras palavras, a probabilidade de que X 5 x e y 5 y é o produto das duas pro-
babilidades P(X 5 x) e P(y 5 y). Uma implicação de (B.13) é que as probabilidades 
conjuntas são bem fáceis de calcular, já que elas exigem apenas o conhecimento de 
P(X 5 x) e P(y 5 y).
Se as variáveis aleatórias não forem independentes, então são chamadas de 
dependentes.
ExEmplo B.1 Arremesso de lances livres
Considere um jogador de basquete arremessando dois lances livres. Defina X como 
uma variável aleatória de Bernoulli igual a um se ele converter o primeiro lance livre, 
e zero no caso contrário. Defina y como uma variável aleatória de Bernoulli igual a 
um se ele converter o segundo lance livre. Suponha que o atleta seja um arremessador 
de lances livres de 80%, de forma que P(X 5 1) 5 P(y 5 1) 5 0,8. Qual é a probabi-
lidade de o jogador converter os dois lances livres?
Se X e y forem independentes, conseguimos responder a essa questão facilmente: 
P(X 5 1, y 5 1) 5 P(X 5 1)P(y 5 1) 5 (0,8)(0,8) 5 0,64. Assim, há 64% de chance 
de converter os dois lances livres. Se a chance de converter o segundo lance livre 
depender de como o primeiro foi feito – isto é, X e y não forem independentes – este 
cálculo simples não é válido.
A independência de variáveis aleatórias é um conceito muito importante. Na pró-
xima subseção, mostraremos que, se X e y forem independentes, conhecer o resultado 
de X não muda as probabilidades dos possíveis resultados de y, e vice-versa. Um fato 
útil sobre a independência é que se X e y fossem independentes e definíssemos novas 
variáveis aleatórias g(X) e h(y) para quaisquer funções g e h, essas novas variáveis 
também seriam independentes.
Não há necessidade de parar em duas variáveis aleatórias. Se X1, X2, ..., Xn são va-
riáveis aleatórias discretas, sua fdp conjunta é f(x1, x2, ..., xn) 5 P(X1 5 x1, X2 5 x2, ..., 
Xn 5 xn). As variáveis aleatórias X1, X2, ..., Xn são variáveis aleatórias independentes 
se, e somente se, sua fdp conjunta for o produto das fdps individuais para qualquer (x1, 
x2, ..., xn). Essa definição de independência também se mantém para variáveis aleató-
rias contínuas.
Wood_Apendices_book.indb 26 22/02/2017 15:00:48
 APÊNDICE B Fundamentos da probabilidade 27
A noção de independência desempenha importante papel na obtenção de algumas 
das distribuições clássicas da probabilidade e da estatística. Anteriormente, definimos 
uma variável aleatória de Bernoulli como uma variável aleatória zero-um, que indica 
se algum evento ocorreu ou não. Com frequência estamos interessados no número 
de sucessos em uma sequência de testes de Bernoulli independentes. Um exemplo 
padrão de teste de Bernoulli independente é jogar uma moeda repetidas vezes. Como 
o resultado de uma jogada não tem nada a ver com os resultados das outras jogadas, a 
independência é uma hipótese apropriada.
A independência geralmente é uma aproximação razoável em situações mais com-
plicadas. No exemplo das reservas da companhia aérea, suponha que a empresa aceite 
n reservas para determinado voo. Para cada i 5 1, 2, ..., n, defina yi como a variável 
aleatória de Bernoulli que indica se o consumidor i vai comparecer: yi 5 1 se ele 
comparecer, e yi 5 0 no caso contrário. Deixando que u represente a probabilidade 
de sucesso (usando reservas), cada yi tem uma distribuição de Bernoulli (u). Como 
aproximação, podemos presumir que as yi sejam independentes umas das outras, em-
bora isso não seja exatamente verdade: algumas pessoas viajam em grupos, o que quer 
dizer que o fato de uma pessoa comparecer (ou não) não é verdadeiramente indepen-
dente do fato de todos os outros comparecerem. No entanto, criar modelos para esse 
tipo de dependência é complexo, por isso preferimos usar a independência como uma 
aproximação.
A variável de principal interesse é o número total de consumidores que vai com-
parecer entre as n reservas; chame essa variável de X. Como cada yi é unitária quando 
uma pessoa comparece, podemos escrever X 5 y1 1 y2 1 ... 1 yn. Agora, supondo 
que cada yi tenha probabilidade u de sucesso e que as yi sejam independentes, pode-
-se mostrar que X tem uma distribuição binomial. Ou seja, a função de densidade de 
probabilidade de X é
 f 1x 2 5 QnxRu
x 11 2 u 2 n2x, x 5 0, 1, 2, p , n, (B.14)
onde QnxR 5
n!
x! 1n 2 x 2 !, e para qualquer inteiro n, n! (ler “n fatorial”) é definido como 
n! 5 n ? (n – 1) ? (n – 2) ∙∙∙ 1. Por convenção, 0! 5 1. Quando uma variável aleatória X 
tem a fdp dada em (B.14), escrevemos X , Binomial(n, u). A equação (B.14) pode ser 
usada para calcular P(X 5 x) para qualquer valor de x de 0 a n.
Se o voo tem 100 poltronas disponíveis, a companhia aérea está interessada em 
P(X . 100). Suponha, inicialmente, que n 5 120, portanto, a companhia aceitou 120 
reservas, e a probabilidade de cada pessoa comparecer é u 5 0,85. Assim, P(X . 100) 
5 P(X 5 101) 1 P(X 5 102) 1 ... 1 P(X 5 120), e cada uma das probabilidades 
da soma pode ser encontrada pela equação (B.14) com n 5 120, u 5 0,85 e o valor 
adequado de x (101 a 120). Este é um cálculo manual difícil, mas muitos pacotes 
estatísticos têm comandos para calcular esse tipo de probabilidade. Neste caso, a pro-
babilidade de que mais de 100 pessoas compareçam é de cerca de 0,659, que prova-
velmente é um risco de overbooking maior do que a empresa deseja tolerar. Se, em 
vez disso, o número de reservas for 110, a probabilidade de mais de 100 passageiros 
comparecer é de apenas 0,024.
Wood_Apendices_book.indb 27 22/02/2017 15:00:48
Introdução à econometria28
B.2b Distribuições condicionais
Em econometria, normalmente estamos interessados na forma como uma variável 
aleatória, chamemos de y, estárelacionada com uma ou mais outras variáveis. Por 
agora, suponha que haja apenas uma variável em cujos efeitos estamos interessados, 
chamada X. O máximo que conseguimos saber sobre a forma como X afeta y está 
contido na distribuição condicional de y, dado X. Essa informação é resumida pela 
função de densidade de probabilidade condicional, definida por
 fY 0 X 1y 0 x 2 5 fX, Y 1x, y 2 /fX 1x 2 (B.15)
para todos os valores de x, de modo que fX(x) . 0. A interpretação de (B.15) é vista 
mais facilmente quando X e y são discretas. Assim, 
 fY 0 X 1y 0 x 2 5 P 1Y 5 y 0 X 5 x 2 , (B.16)
onde o lado direito é lido como “a probabilidade de y 5 y, visto que X 5 x”. Quando 
y é contínua, fy|X(y|x) não pode ser interpretado diretamente como uma probabilidade, 
pelas razões discutidas anteriormente, mas as probabilidades condicionais são encon-
tradas calculando as áreas abaixo da fdp condicional.
Uma característica importante das distribuições condicionais é que, se X e y forem 
variáveis aleatórias independentes, saber o valor assumido por X não nos diz nada a 
respeito da probabilidade que y tem de assumir vários valores (e vice-versa). Ou seja, 
fy 0 X(y 0 x) 5 fy(y)e fX 0 Y(x 0 y) 5 fX(x).
ExEmplo B.2 Arremesso de lances livres
Considere novamente o exemplo dos arremessos de basquete, em que são tentados 
dois lances livres. Suponha que a densidade condicional seja
 
 fY 0 X 11 0 1 2 5 0,85, fY 0 X 10 0 1 2 5 0,15
 fY 0X 11 0 0 2 5 0,70, fY 0X 10 0 0 2 5 0,30. 
 
Isso significa que a probabilidade de o jogador converter o segundo lance livre depende 
de como o primeiro lance foi feito: se o primeiro lance livre for convertido, a chance de 
fazer o segundo é 0,85; se o primeiro lance livre for perdido, a chance de converter o 
segundo é 0,70. Isso indica que X e y não são independentes; mas sim dependentes.
Ainda podemos calcular P(X 5 1, y 5 1) já que conhecemos P(X 5 1). Suponha 
que a probabilidade de converter o primeiro lance livre seja 0,8, ou seja, P(X 5 1) 5 
0,8. Assim, usando (B.15), temos
 P 1X 5 1, Y 5 1 2 5 P 1Y 5 1 0 X 5 1 2 ? P 1X 5 1 2 5 10,852 10,82 5 0,68. 
B.3 Características das distribuições de probabilidade
Para muitos propósitos, estaremos interessados em apenas alguns aspectos das distri-
buições de variáveis aleatórias. As características de interesse podem ser colocadas 
em três categorias: medidas de tendência central, medidas de variabilidade de dis-
persão e medidas de associação entre duas variáveis aleatórias. Trataremos da última 
delas na Seção B.4.
Wood_Apendices_book.indb 28 22/02/2017 15:00:49
 APÊNDICE B Fundamentos da probabilidade 29
B.3a Uma medida de tendência central: o valor esperado
O valor esperado é um dos conceitos probabilísticos mais importantes que encontrare-
mos em nosso estudo de econometria. Se X é uma variável aleatória, o valor esperado 
(ou expectativa) de X, designado por E(X) e às vezes mX ou simplesmente m, é uma 
média ponderada de todos os valores possíveis de X. Os pesos são determinados pela 
função de densidade de probabilidade. Às vezes, o valor esperado é chamado de mé-
dia populacional, especialmente quando queremos enfatizar que X representa alguma 
variável em uma população.
A definição precisa de um valor esperado é a mais simples no caso de X ser uma 
variável aleatória discreta que assume um número finito de valores, digamos, {x1, ..., 
xk}. Seja f(x) a indicação da função de densidade de probabilidade de X. O valor espe-
rado de X é a média ponderada
 E 1X 2 5 x1 f 1x1 2 1 x2 f 1x2 2 1 p 1 xk f 1xk 2 ; a
k
j51
xj f 1xj 2 . (B.17)
Isso é facilmente calculado dados os valores da fdp em cada possível resultado de X.
ExEmplo B.3 Calculando um valor esperado
Suponha que X assuma os valores 21, 0 e 2 com probabilidades 1/8, 1/2 e 3/8, respec-
tivamente. Assim, 
 E 1X 2 5 121 2 # 11/8 2 1 0 # 11/2 2 1 2 # 13/8 2 5 5/8. 
Este exemplo ilustra algo curioso sobre valores esperados: o valor esperado de X pode 
ser um número que não é sequer um possível resultado de X. Sabemos que X assume 
os valores 21, 0 ou 2, apesar disso, seu valor esperado é 5/8. Isso torna o valor espe-
rado deficiente para resumir a tendência central de certas variáveis aleatórias discre-
tas, mas cálculos como aqueles mencionados anteriormente podem ser úteis, como 
veremos mais adiante.
Se X é uma variável aleatória contínua, então E(X) é definida como uma integral:
 E 1X 2 5 e
`
2`
x f 1x 2dx, (B.18)
que supomos ser bem definida. Isso ainda pode ser interpretado como uma média 
ponderada. Para as distribuições contínuas mais comuns, E(X) é um número que é um 
possível resultado de X. Neste texto, não precisaremos calcular os valores esperados 
usando integração, embora recorramos a alguns resultados conhecidos da probabili-
dade para valores esperados de variáveis aleatórias especiais.
Dada uma variável aleatória X e uma função g(∙), podemos criar uma nova variá-
vel aleatória g(X). Por exemplo, se X é uma variável aleatória, então X2 e log(X) (se 
X . 0) também são. O valor esperado de g(X) é, de novo, simplesmente uma média 
ponderada:
 E 3g 1X 2 4 5 a
k
j51
g 1xj 2 fX 1xj 2 (B.19)
Wood_Apendices_book.indb 29 22/02/2017 15:00:50
Introdução à econometria30
ou, para uma variável aleatória contínua,
 E 3g 1X 2 4 5 e
`
2`
g 1x 2 fX 1x 2dx. (B.20)
ExEmplo B.4 Valor esperado de x²
Para a variável aleatória do Exemplo B.3, defina g(X) 5 X2. Então,
 E 1X2 2 5 121 2 2 11/8 2 1 10 2 2 11/2 2 1 12 2 2 13/8 2 5 13/8. 
No Exemplo B.3, calculamos E(X) 5 5/8, de forma que [E(X)]2 5 25/64. Isso 
mostra que E(X)2 não é o mesmo que [E(X)]2. Na verdade, para uma função não linear 
g(X), E[g(X)] 2 g[E(X)] (exceto em casos muito especiais).
Se X e y são variáveis aleatórias, então g(X, y) é uma variável aleatória para qual-
quer função g, e, portanto, podemos definir sua expectativa. Quando X e y são dis-
cretas, assumindo valores {x1, x2, ..., xk} e {y1, y2, ..., ym}, respectivamente, o valor 
esperado é
 E 3g 1X, Y 2 4 5 a
k
h51
a
m
j51
g 1xh, yj 2 fX, Y 1xh, yj 2 , 
onde fX, y é a fdp conjunta de (X, y). A definição é mais complicada para variáveis alea-
tórias contínuas, já que envolve integração; não precisamos dela aqui. A extensão para 
mais de duas variáveis é direta.
B.3b Propriedades de valores esperados
Em econometria, não estamos tão preocupados com o cálculo de valores esperados 
de várias distribuições; os principais cálculos já foram feitos muitas vezes, e vamos 
confiar neles cegamente. Precisaremos manipular alguns valores esperados usando al-
gumas regras simples. Elas são tão importantes que vamos dar-lhes rótulos:
Propriedade E.1: Para qualquer constante c, E(c) 5 c.
Propriedade E.2: Para quaisquer constantes a e b, E(aX 1 b) 5 aE(X) 1 b.
Uma implicação útil de E.2 é que, se m 5 E(X), e definirmos uma nova variável alea-
tória como y 5 X 2 m, então E(y) 5 0; em E.2, use a 5 1 e b 5 2m.
Como um exemplo da Propriedade E.2, defina X como a temperatura medida em 
Celsius ao meio-dia em determinado dia, em um dado local; suponha que a tempe-
ratura esperada seja E(X) 5 25. Se y é a temperatura medida em Fahrenheit, então y 
5 32 1 (9/5)X. Segundo a Propriedade E.2, a temperatura esperada em Fahrenheit é 
E(y) 5 32 1 (9/5)∙E(X) 5 32 1 (9/5)∙25 5 77.
Geralmente, é fácil calcular o valor esperado de uma função linear com muitas 
variáveis aleatórias. 
Propriedade E.3: Se {a1, a2, ..., an} são constantes e {X1, X2, ... Xn} são variáveis aleató-
rias, então
 E 1a1X1 1 a2X2 1 p 1 anXn 2 5 a1E 1X1 2 1 a2E 1X2 2 1 p 1 anE 1Xn 2 . 
Wood_Apendices_book.indb 30 22/02/2017 15:00:51
 APÊNDICE B Fundamentos da probabilidade 31
Ou, usando a notação de soma,
 Eaa
n
i51
aiXib 5 a
n
i51
aiE 1Xi 2 . (B.21)
Como um caso especial dela, temos (com cada ai 5 1)
 Eaa
n
i51
Xib 5 a
n
i51
E 1Xi 2 , (B.22)
de forma que o valor esperado da soma é a soma dos valores esperados. Essa proprie-
dade é usada com frequência para derivações em estatísticas matemáticas. 
ExEmplo B.5 Descobrindo a receitaesperada
Defina X1, X2 e X3 o número de pizzas pequenas, médias e grandes, respectivamente, 
vendidas durante o dia em uma pizzaria. Elas são variáveis aleatórias com valores es-
perados E(X1) 5 25, E(X2) 5 57 e E(X3) 5 40. Os preços das pizzas pequenas, médias 
e grandes são US$ 5,50, US$ 7,60 e US$ 9,15. Assim, a receita esperada pela venda 
de pizzas em certo dia é
 
 E15,50 X1 1 7,60 X2 1 9,15 X3 2 5 5,50 E 1X1 2 1 7,60 E 1X2 2 1 9,15 E 1X3 2
 5 5,50 125 2 1 7,60 157 2 1 9,15 140 2 5 936,70, 
isto é, US$ 936,70. A receita real de determinado dia geralmente vai diferir deste va-
lor, mas esta é a receita esperada.
Também podemos usar a Propriedade E.3 para mostrar que, se X , Binomial(n, 
u), então E(X) 5 nu. Ou seja, o número esperado de sucessos em n testes de Bernoulli 
é simplesmente o número de testes vezes a probabilidade de sucesso em qualquer 
teste em particular. Isso é visto com facilidade ao escrever X como X 5 y1 1 y2 1 ... 
yn, onde cada yi , Bernoulli(u). Assim, 
 E 1X 2 5 a
n
i51
E 1Yi 2 5 a
n
i51
u 5 nu. 
Podemos aplicar isso ao exemplo das reservas aéreas, onde a companhia aérea 
faz n 5 120 reservas e a probabilidade de comparecimento é u 5 0,85. O número 
esperado de pessoas que vão comparecer é 120(0,85) 5 102. Portanto, se existem 
100 poltronas disponíveis, o número esperado de pessoas que vão comparecer é muito 
grande; isso influencia a decisão de ser uma boa ideia para a companhia aérea fazer 
120 reservas.
Na verdade, o que a companhia deve fazer é definir uma função de lucro que 
leve em conta a receita líquida obtida por assento vendido e o custo por passageiro 
excluído do voo. Essa função de lucro é aleatória porque o número real de pessoas 
que comparecerão é aleatório. Seja r a receita líquida para cada passageiro. (Você 
pode pensar nisso como o preço da passagem para simplificar.) Defina c como a com-
pensação devida a qualquer passageiro excluído do voo. Nem r nem c são aleatórias; 
Wood_Apendices_book.indb 31 22/02/2017 15:00:52
Introdução à econometria32
supõe-se que elas sejam conhecidas pela empresa. Faça com que y indique os lucros 
para voo. Então, com 100 poltronas disponíveis, 
 Y 5 rX se X # 100
 5 100r 2 c 1X 2 100 2 se X . 100. 
 
A primeira equação dá lucro se nenhuma pessoa a mais do que 100 comparecer para 
o voo; a segunda equação é lucrativa se mais de 100 pessoas comparecerem. (No se-
gundo caso, a receita líquida pela venda de passagens é 100r, já que todos os 100 
assentos foram vendidos, assim, c(X – 100) é o custo de fazer mais de 100 reservas.) 
Usando o fato de que X tem uma distribuição Binomial(n,0,85), em que n é o número 
de reservas realizadas, os lucros esperados, E(y), podem ser encontrados como uma 
função de n (e de r, e de c). Calcular E(y) de forma direta seria bem difícil, mas isso 
pode ser encontrado rapidamente usando um computador. Uma vez que os valores de 
r e c sejam dados, o valor de n que maximiza os lucros esperados pode ser encontrado 
ao examinar diferentes valores de n.
B.3c Outra medida de tendência central: a mediana
O valor esperado é apenas uma possibilidade para definir a tendência central de uma 
variável aleatória. Outra medida de tendência central é a mediana. Uma definição 
geral de mediana é muito complicada para nossos propósitos. Se X é contínuo, então 
a mediana de X, digamos, m, é o valor que faz com que uma metade da área abaixo da 
fdp esteja à esquerda de m e a outra à direita de m.
Quando X é discreta e assume um número finito ímpar de valores, a mediana é 
obtida ordenando os possíveis valores de X e selecionando o valor do meio. Por exem-
plo, se X pode assumir os valores {24, 0, 2, 8, 10, 13, 17}, então o valor mediano 
de X é 8. Se X assumir um número par de valores, existem, na verdade, dois valores 
medianos; às vezes tira-se a média desses valores para obter um único valor mediano. 
Assim, se X tiver os valores {25, 3, 9, 17}, os valores medianos são 3 e 9; se calcular-
mos a média, temos uma mediana igual a 6.
Em geral, a mediana, às vezes indicada como Med(X), e o valor esperado, E(X), 
são diferentes. Nenhum deles é “melhor” do que o outro como medida da tendência 
central; ambos são formas válidas para medir o centro de distribuição de X. Em um 
caso especial, a mediana e o valor esperado (ou média) têm o mesmo valor. Se X tiver 
uma distribuição simétrica próxima do valor de m, então m será tanto o valor espe-
rado quanto a mediana. Matematicamente, a condição é f(m 1 x) 5 f(m 2 x) para todo 
x. Este caso é ilustrado na Figura B.3.
B.3d Medidas de variabilidade: variância e desvio padrão
Embora a tendência central de uma variável aleatória seja valiosa, ela não nos diz 
tudo que queremos saber a respeito da distribuição de uma variável aleatória. A 
Figura B.4 mostra as fdps de duas variáveis aleatórias com a mesma média. Clara-
mente, a distribuição de X é mais centrada sobre sua média do que a distribuição de 
y. Gostaríamos de ter uma maneira simples de resumir as diferenças nas dispersões 
das distribuições.
Wood_Apendices_book.indb 32 22/02/2017 15:00:52
 APÊNDICE B Fundamentos da probabilidade 33
FIgurA B.3 Uma distribuição de probabilidade simétrica.
FIgurA B.4 Variáveis aleatórias com a mesma média, mas distribuições diferentes.
x
f(x)
m
x,y
fdp
m
fX 
fY 
B.3e Variância
Para uma variável aleatória X, defina m 5 E(X). Existem várias formas de medir quão 
distante está X de seu valor esperado, mas a mais simples para trabalhar algebrica-
mente é diferença ao quadrado, (X 2 m)2. (Elevar ao quadrado elimina o sinal da 
Wood_Apendices_book.indb 33 22/02/2017 15:00:52
Introdução à econometria34
medida de distância; o valor positivo resultante corresponde à nossa noção intuitiva 
da distância e trata valores acima e abaixo de m simetricamente.) Essa distância é uma 
variável aleatória, já que pode mudar com todo resultado de X. Assim como precisa-
mos de um número para resumir a tendência central de X, precisamos de um número 
que nos diga quão distante X está de m, em média. Um destes números é a variância, 
que nos diz a distância esperada de X até sua média:
 Var 1X 2 ; E 3 1X 2 m 2 2 4. (B.23)
Às vezes a variância é indicada como s2X, ou simplesmente s
2, quando o contexto for 
claro. A partir de (B.23), concluímos que a variância é sempre não negativa.
Como dispositivo computacional, é útil observar que
 s2 5 E 1X2 2 2Xm 1 m2 2 5 E 1X2 2 2 2m2 1 m2 5 E 1X2 2 2 m2. (B.24)
Ao usar (B.23) ou (B.24), não precisamos distinguir variáveis aleatórias discretas e 
contínuas: a definição de variância é a mesma em ambos os casos. Mais frequente-
mente, calculamos primeiro E(X), depois E(X²), e então usamos a fórmula da equação 
(B.24). Por exemplo, se X , Bernoulli(u), então E(X) 5 u e, já que X² 5 X, E(X²) 5 u. 
Como resultado da equação (B.24), Var(X) 5 E(X²) 2 m2 5 u – u2 5 u(1 – u).
Duas propriedades importantes da variância são mostradas abaixo.
Propriedade VAR.1: Var(X) 5 0 se, e somente se, houver uma constante c de forma que 
P(X 5 c) 5 1, no caso em que E(X) 5 c.
Essa primeira propriedade diz que a variância de qualquer constante é zero e, se 
uma variável aleatória tem variância zero, ela é necessariamente constante.
Propriedade VAR.2: Para quaisquer constantes a e b, Var(aX 1 b) 5 a²Var(X).
Isso significa que somar uma constante a uma variável aleatória não muda a variân-
cia, mas multiplicar uma variável aleatória por uma constante aumenta a variância 
em um fator igual ao quadrado daquela constante. Por exemplo, se X simbolizar a 
temperatura em Celsius e y 5 32 1 (9/5)X é a temperatura em Fahrenheit, Var(y) 5 
(9/5)2Var(X) 5 (81/25)Var(X).
B.3f Desvio padrão
O desvio padrão de uma variável aleatória, chamado de dp(X), é simplesmente a raiz 
quadrada positiva da variância: dp(X) ; 1 !Var 1X 2 . O desvio padrão às vezes é indi-
cado como sX, ou simplesmente s, quando a variável aleatória é conhecida. Duas pro-
priedades do desvio padrão derivam imediatamente das Propriedades VAR.1 e VAR.2.
Propriedade DP.1: