A maior rede de estudos do Brasil

Grátis
14 pág.
aula_02

Pré-visualização | Página 1 de 1

ANA´LISE ESTATI´STICA MULTIVARIADA
Ralph S. Silva
http://www.im.ufrj.br/ralph/multivariada.html
Departamento de Me´todos Estatı´sticos
Instituto de Matema´tica
Universidade Federal do Rio de Janeiro
Out/2012-Marc¸o/2013
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Distribuic¸a˜o Normal Multivariada
Primeiro, temos a distribuic¸a˜o normal (univariada ou unidimensional) dada
por
f (x |µ, σ2) = 1√
2piσ2
exp
{
− 1
2σ2
(x − µ)2
}
,
sendo x ∈ R, µ ∈ R e σ2 ∈ R+.
Temos que
Pr(|X − µ| 6 σ) ' 0, 683.
Pr(|X − µ| 6 2σ) ' 0, 954.
Pr(|X − µ| 6 3σ) ' 0, 997.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Sabemos que a distaˆncia euclidiana entre dois pontos, x e y , no Rd e´ dado
por
D(x , y) =
√
(x1 − y1)2 + (x2 − y2)2 + · · ·+ (xd − yd)2 =
√
(x − y)′(x − y).
Se d = 1, enta˜o D(x , y) =
√
(x − y)2.
Uma generalizac¸a˜o da distaˆncia euclidiana e´ dada por
D(x , y) =
√
(x − y)′Ψ(x − y).
Neste caso, temos pesos diferentes para cada valor do vetor e tambe´m
levamos em conta as possı´veis interac¸o˜es (correlac¸o˜es).
No nu´cleo da func¸a˜o de densidade da normal univariada, temos(x − µ
σ
)2
=
(x − µ)2
σ2
= (x − µ)(σ−2)(x − µ),
e isto lembra o quadrado da distaˆncia euclidiana modificada para d = 1.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Assim, o nu´cleo de uma normal multivariada e´ dado pelo quadrado da
distaˆncia euclidiana modificada, isto e´, por
(x − µ)′Σ−1(x − µ),
sendo x um vetor d × 1, µ o vetor d × 1 de me´dias e Σ uma matriz de
covariaˆncia d × d (sime´trica e positiva definida).
As distaˆncias sa˜o medidas de cada ponto x ate´ a me´dia µ. A ponderac¸a˜o e´
feita pelo inverso da matriz de covariaˆncia, Σ−1. Isto implica que quanto
maior a variaˆncia de determinada varia´vel (componente do vetor x), menor
sera´ seu peso no ca´lculo da distaˆncia em questa˜o.
Para determinar a func¸a˜o de densidade de probabilidade da normal
multivariada precisamos somente da constante de normalizac¸a˜o. Prova-se
que a constante e´ dada por
(2pi)−d/2|Σ|−1/2.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Func¸a˜o de Densidade de Probabilidade da Normal Multivariada
Definic¸a˜o: A func¸ de densidade de probabilidade da normal multivariada e´
dada por
f (x |µ,Σ) = 1
(2pi)d/2|Σ|1/2 exp
{
−1
2
(x − µ)′Σ−1(x − µ)
}
= (2pi)−d/2|Σ|−1/2 exp
{
−1
2
(x − µ)′Σ−1(x − µ)
}
,
sendo x ∈ Rd , µ ∈ Rd o vetor de me´dias e Σ uma matriz de covariaˆncia
(sime´trica e positiva definida).
Notac¸a˜o:
I |A| representa o determinante da matriz A.
I X ∼ Nd(µ,Σ).
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Exemplo: Normal Bivariada
µ =
(
µ1
µ2
)
=
(
E(X1)
E(X2)
)
e
Σ =
[
σ11 σ12
σ21 σ22
]
=
[
Var(X1) Cov(X1,X2)
Cov(X2,X1) Var(X2)
]
,
sendo Cov(X1,X2) = Cov(X2,X1)⇒ σ12 = σ21. Logo,
Σ−1 =
1
σ11σ22 − σ212
[
σ22 −σ12
−σ12 σ11
]
=
1
σ11σ22(1− ρ212)
[
σ22 −ρ12√σ11σ22
−ρ12√σ11σ22 σ11
]
,
pois σ12 = ρ12
√
σ11σ22.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Segue-se que
(x − µ)′Σ−1(x − µ)
= (x1 − µ1 x2 − µ2) 1
σ11σ22(1− ρ212)
[
σ22 −ρ12√σ11σ22
−ρ12√σ11σ22 σ11
](
x1 − µ1
x2 − µ2
)
=
σ22(x1 − µ1)2 + σ11(x2 − µ2)2 − 2ρ12√σ11σ22(x1 − µ1)(x2 − µ2)
σ11σ22(1− ρ212)
=
1
1− ρ212
[(
x1 − µ1√
σ11
)2
+
(
x2 − µ2√
σ22
)2
− 2ρ12
(
x1 − µ1√
σ11
)(
x2 − µ2√
σ22
)]
.
Logo,
f (x1, x2) =
1
2pi
√
σ11σ22(1− ρ212)
× exp
{
− 1
1− ρ212
[(
x1 − µ1√
σ11
)2
+
(
x2 − µ2√
σ22
)2
− 2ρ12
(
x1 − µ1√
σ11
)(
x2 − µ2√
σ22
)]}
.
Note que se as varia´veis X1 e X2 sa˜o na˜o correlacionadas, tal que ρ12 = 0,
enta˜o a densidade conjunta pode ser reescrita como o produto de duas
densidades normais. Neste caso, f (x1, x2) = f (x1)f (x2), e X1 e X2 sa˜o
independentes.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
library(mvtnorm)
nx <- 100; ny <- 100
x <- seq(-4,4,length=nx); y <- seq(-3,3,length=ny);
z <- matrix(NA,nx,ny)
mu <- c(0,0); S <- matrix(c(1, .7, .7, 1),2,2)
for(i in 1:nx)
for(j in 1:ny)
z[i,j] <- dmvnorm(c(x[i],y[j]), mean=mu,sigma=S)
# Grafico 1
x11(); persp(x,y,z, phi = 45, theta = 30,col=3)
# Grafico 2
x11(); contour(x,y,z,col=2,lwd=2)
#-----------------------------------
w <- rmvnorm(100000,mean=mu,sigma=S)
#Grafico 3
par(mfrow=c(2,2))
plot(w,pch=".",main="",xlab="x",ylab="y")
hist(w[,2],prob=T,nclass=50,main="",xlab="y")
lines(y,dnorm(y),lwd=2,col=2)
hist(w[,1],prob=T,nclass=50,main="",xlab="x")
lines(x,dnorm(x),lwd=2,col=2)
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Propriedades da Normal Multivariada
Seja X ∼ Nd(µ,Σ). Enta˜o,
I E(X ) = E(X1, . . . ,Xd)′ = (E(X1), . . . ,E(Xd))′ = (µ1, . . . , µd)′ = µ.
E(Xi) =
∫
xi f (xi)dxi , e
f (xi) =
∫
· · ·
∫
f (x1, . . . , xi−1, xi , xi+1, . . . , xd)dx1 . . . dxi−1dxi+1 . . . dxd
I Var(X ) = E[(x − µ)(x − µ)′] = E(XX ′)− µµ′, sendo E(X ) = µ. Note
que Var(X )i,j = Cov(Xi ,Xj). A matriz de covariaˆncia e´ sime´trica e
positiva definida.
I Seja A uma matriz geral regular m × d , a um vetor m × 1 e
X ∼ Nd(µx ,Σx). Enta˜o, Y = AX + a tambe´m tem distribuic¸a˜o normal.
Isto e´, Y ∼ Nm(µy ,Σy ) sendo µy = Aµx + a e Σy = AΣA′.
Combinac¸a˜o linear de varia´veis aleato´rias normais (correlacionadas ou
na˜o) ainda e´ uma normal.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
I Podemos sempre apresentar a distribuic¸a˜o normal multivariada como
uma transformac¸a˜o linear de varia´veis aleato´rias normais univariadas?
I Podemos fazer isto com uma distribuic¸a˜o normal padra˜o para cada
varia´vel?
I Podemos sempre ver a distribuic¸a˜o normal multivariada como uma
elipse d-dimensional?
A resposta e´ sim para todas as perguntas.
Podemos empregar a decomposic¸a˜o em valores singulares (SVD) a matriz
de covariaˆncia para obter
Σ = VDV ′,
sendo V uma matriz d × d ortonormal e D uma matriz d × d diagonal com
elementos positivos.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Isto significa que qualquer vetor normalmente distribuı´do Y ∼ N (µy ,Σy )
pode ser escrito como Y = VX sendo X ∼ N (V primeµy ,D) e as
coordenadas de X , X i sa˜o independentes e normalmente distribuı´das com
variaˆncia di .
Agora, suponha que X ∼ Nd(0, Id) e que Σ = VDV ′ = VD1/2D1/2V ′ = TT ′,
sendo D1/2 a matriz formada pela raiz quadrada dos elementos da diagonal
de D e T = VD1/2. Enta˜o, para Y = TX + µ temos
E(Y ) = E(TX + µ) = TE(X ) + µ = T0 + µ = µ e
Var(Y ) = Var(TX ) = TVar(X )T ′ = T IT ′ = VD1/2D1/2V ′ = VDV ′ = Σ.
Portanto, Y ∼ Nd(µ,Σ).
Tambe´m podemos utilizar a decomposic¸a˜o de Cholesky para obter Σ = TT ′,
mas neste caso T e´ uma matriz triangular inferior (os elementos acima da
diagonal principal sa˜o todos zeros.)
Gere valores da normal multivariada utilizando o SVD no programa R.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
n <- 100000
SIGMA <- matrix(c(1,0.9,0.8,0.9,1,0.7,0.8,0.7,1),3,3,T)
# normais independentes
z <- matrix(rnorm(3*n),n,3)
#-----------------------------------------------
# Usando o SVD
S <- svd(SIGMA)
T <- S$u%*%diag(sqrt(S$d))
x <- z%*%t(T)
cor(x); SIGMA
#-----------------------------------------------
# Usando Cholesky
T <- chol(SIGMA)
x <- z%*%T
cor(x); SIGMA
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Distribuic¸o˜es Condicionais
Seja X ∼ Nd(µ,Σ) tal que X =
(
X 1
X 2
)
, µ =
(
µ1
µ2
)
e
Σ =
[
Σ11 Σ12
Σ21 Σ22
]
com dimenso˜es
[
m ×m m × (d −m)
(d −m)×m (d −m)× (d −m)
]
.
Enta˜o, a distribuic¸a˜o de X 1 condicional a X 2 = x2 e´ uma normal multivariada
dada por
(X 1|X 2 = x2) ∼ Nm(ξ,Ψ),
sendo
ξ = µ1 + Σ12Σ
−1
22 (x2 − µ2), e
Ψ = Σ11 − Σ12Σ−122 Σ21.
Ana´lise Estatı´stica Multivariada
Distribuic¸a˜o Normal Multivariada
Distribuic¸o˜es Marginais
As distribuic¸o˜es marginais, do vetor aleato´rio X , de qualquer dimensa˜o
menor que ou igual a d sa˜o tambe´m normais. Como provar isto dado os
resultados anteriores?
	Distribuição Normal Multivariada

Crie agora seu perfil grátis para visualizar sem restrições.