Buscar

aula_05_06

Prévia do material em texto

ACH3553 - Estatística I
Aulas 5 e 6: Análise Bidimensional
Associação entre variáveis quantitativas
Alexandre Ribeiro Leichsenring
alexandre.leichsenring@usp.br
Alexandre Leichsenring ACH3553 - Estatística I 1 / 22
Organização
1 Associação entre Variáveis Quantitativas
2 Associação entre Variáveis Qualitativas e Quantitativas
Alexandre Leichsenring ACH3553 - Estatística I 2 / 22
Organização
1 Associação entre Variáveis Quantitativas
2 Associação entre Variáveis Qualitativas e Quantitativas
Alexandre Leichsenring ACH3553 - Estatística I 3 / 22
Associação entre Variáveis Quantitativas
A distribuição conjunta de variáveis quantitativas pode ser resumida em tabelas
de dupla entrada.
Variáveis quantitativas são passíveis de procedimentos analíticos e gráficos
mais refinados
▶ Por exemplo: Gráfico de dispersão
Agente Anos serviço (X ) Núm. clientes (Y )
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
H 8 58
I 8 64
J 10 72
Alexandre Leichsenring ACH3553 - Estatística I 4 / 22
Exemplo
Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários
mínimos, mediram-se:
X : renda bruta mensal (em salários mínimos)
Y : porcentagem da renda bruta gasta com assistência médica
Família X Y
A 12 7,2
B 16 7,4
C 18 7,0
D 20 6,5
E 28 6,6
F 30 6,7
G 40 6,0
H 48 5,6
I 50 6,0
J 54 5,5
Vamos construir o gráfico de dispersão a analisar.
Alexandre Leichsenring ACH3553 - Estatística I 5 / 22
Gráfico de dispersão: renda bruta x % de gasto com saúde
▶ Parece haver uma relação inversa entre as variáveis, isto é, quanto
maior a renda, menor a porcentagem da renda gasta com saúde.
Alexandre Leichsenring ACH3553 - Estatística I 6 / 22
Exemplo
Oito indivíduos foram submetidos a um teste sobre conhecimentos de língua
estrangeira e, em seguida, mediu-se o tempo gasto para cada um aprender a operar
uma determinada máquina. As variáveis medidas foram:
X : resultado obtido no teste (0 a 100 pontos)
Y : tempo, em minutos, necessário para operar a máquina
satisfatoriamente
▶ Parece não haver associação entre as duas variáveis – conhecer o resultado do
teste não ajuda a prever o tempo gasto para aprender a operar a máquina
Alexandre Leichsenring ACH3553 - Estatística I 7 / 22
A representação gráfica das variáveis quantitativas ajuda a
compreender o comportamento conjunto das variáveis quanto à
existência de associação entre elas
É útil quantificar esta associação
Existem muitos tipos possíveis de associação
Iremos estudar apenas a relação linear
Vamos definir uma medida que avalia o quanto a nuvem de
pontos do gráfico aproxima-se de uma reta
Alexandre Leichsenring ACH3553 - Estatística I 8 / 22
Tipos de associações entre variáveis
(a) Apresenta associação linear direta (positiva)
(b) Apresenta associação linear inversa (negativa)
(c) Não apresenta associação linear
Alexandre Leichsenring ACH3553 - Estatística I 9 / 22
Covariância
Definição
Dados n pares de valores (x1, y1), (x2, y2), . . . , (xn, yn),
observações de duas variáveis X e Y , chamaremos de
covariância entre X e Y a:
cov(X ,Y ) =
∑n
i=1(xi − x̄)(yi − ȳ)
n
,
onde x̄ e ȳ são as médias de X e Y , respectivamente, ou seja,
x̄ =
∑n
i=1 xi
n
ȳ =
∑n
i=1 yi
n
.
Alexandre Leichsenring ACH3553 - Estatística I 10 / 22
Exemplo
Voltemos aos dados sobre número de clientes por anos de serviço. Vamos
calcular a covariância entre X e Y .
Agente Anos serviço (X ) Núm. clientes (Y )
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
H 8 58
I 8 64
J 10 72
Obs: Considere as seguintes medidas resumo: x̄ = 5, 7 e ȳ = 56, 5.
Solução
cov(X ,Y ) = 17, 15
Alexandre Leichsenring ACH3553 - Estatística I 11 / 22
Coeficiente de Correlação
Definição
Dados n pares de valores (x1, y1), (x2, y2), . . . , (xn, yn),
observações de duas variáveis X e Y , chamaremos de
coeficiente de correlação entre X e Y a
corr(X ,Y ) =
cov(X ,Y )
dp(X ) · dp(Y )
,
onde:
dp(X ) = desvio padrão de X , e
dp(Y ) = desvio padrão de Y .
Alexandre Leichsenring ACH3553 - Estatística I 12 / 22
Propriedade:
−1 ≤ corr(X ,Y ) ≤ 1
Alexandre Leichsenring ACH3553 - Estatística I 13 / 22
Exemplo
Vamos calcular o coeficiente de correlação para os dados de anos de
serviço e número de clientes.
Obs: considere as seguintes medidas resumo.
dp(x) = 2,41; dp(y) = 8,11; cov(X ,Y ) = 17,15.
Solução
corr(X ,Y ) =
cov(X ,Y )
dp(X ) · dp(Y )
=
17,15
2,41 · 8,11
= 0,877
Alexandre Leichsenring ACH3553 - Estatística I 14 / 22
Exercício
Abaixo estão dados referentes à porcentagem da população
economicamente ativa empregada no setor primário e o respectivo índice de
analfabetismo para algumas regiões metropolitanas brasileiras.
Região metropolitana Setor primário (X ) Índice de analfabetismo (Y )
São Paulo 2,0 17,5
Rio de Janeiro 2,5 18,5
Belém 2,9 19,5
Belo Horizonte 3,3 22,2
Salvador 4,1 26,5
Porto Alegre 4,3 16,6
Recife 7,0 36,6
Fortaleza 13,0 38,4
São dados: x̄ = 4, 9; ȳ = 24, 5; dp(x) = 3, 4; dp(y) = 8, 1.
a) Faça o diagrama de dispersão.
b) Você acha que existe dependência linear entre as duas variáveis?
c) Calcule o coeficiente de correlação.
d) Existe alguma região com comportamento diferente das demais?
Alexandre Leichsenring ACH3553 - Estatística I 15 / 22
Organização
1 Associação entre Variáveis Quantitativas
2 Associação entre Variáveis Qualitativas e Quantitativas
Alexandre Leichsenring ACH3553 - Estatística I 16 / 22
Associação entre Variáveis Qualitativas e Quantitativas
É comum analisar o que acontece com a variável quantitativa dentro de
cada categoria da variável qualitativa
Análise pode ser conduzida por meio de medidas resumo, histogramas,
box plots
Box plots de salários segundo grau de instrução numa determinada companhia.
▶ Figura sugere dependência dos salários em relação ao grau de
instrução
Alexandre Leichsenring ACH3553 - Estatística I 17 / 22
Box plots de salários segundo região de procedência numa determinada companhia.
▶ Não existe uma relação bem definida entre as duas variáveis.
▶ Salários parecem mais relacionados com o grau de instrução do
que com região de procedência.
Alexandre Leichsenring ACH3553 - Estatística I 18 / 22
É conveniente contar com uma medida para quantificar o
grau de associação entre as variáveis
Neste caso, as variâncias podem ser usadas
▶ Se a variância dentro de cada categoria for pequena (e
menor do que a global), significa que a variável qualitativa
melhora a capacidade de previsão da quantitativa
▶ Portanto, existe relação entre as duas
Estatísticas descritivas da variável salário segundo grau de instrução
Grau de instrução n s̄ dp(S) var(S)
Fundamental 12 7,84 2,79 7,77
Médio 18 11,54 3,62 13,10
Superior 6 16,48 4,11 16,89
Todos 36 11,12 4,52 20,46
Alexandre Leichsenring ACH3553 - Estatística I 19 / 22
Precisamos de uma medida da variância entre as categorias da
variável qualitativa.
Vamos usar a média das variâncias, ponderada pelo número de
observações em cada categoria, ou seja,
var(S) =
∑k
i=1 ni vari(S)∑k
i=1 ni
onde:
k é o número de categorias (k = 3 nos exemplos acima),
ni é o número de observações na categoria i , e
vari(S) denota a variância dentro da categoria i .
A nossa medida de associação entre a variável qualitativa e a quantitativa
será dada por:
R2 =
var(S)− var(S)
var(S)
= 1 − var(S)
var(S)
Pode-se mostrar que 0 ≤ R2 ≤ 1.
Quanto mais próximo de 1, maior o grau de associação entre as
variáveis.
Alexandre Leichsenring ACH3553 - Estatística I 20 / 22
Exemplo
Vamos calcular R2 para os dados de salário e grau de instrução.
Grau de instrução n s̄ dp(S) var(S)
Fundamental 12 7,84 2,79 7,77
Médio 18 11,54 3,62 13,10
Superior 6 16,48 4,11 16,89
Todos 36 11,12 4,52 20,46
Solução
R2 = 1 −
var(S)
var(S)
var(S) =
(12 × 7, 77) + (18 × 13, 10) + (6 × 16, 89)
12 + 18 + 6
= 11, 96
var(S) = 20, 46
R2 = 1 −
11, 96
20, 46
= 0, 415
Alexandre Leichsenring ACH3553 - Estatística I 21 / 22
Exercício
Calcule R2 para salário e região de procedência.
Região de procedência n s̄ dp(S) var(S)
Capital 11 11,46 5,2227,27
Interior 12 11,55 5,07 25,71
Outra 13 10,45 3,02 9,13
Todos 36 11,12 4,52 20,46
Alexandre Leichsenring ACH3553 - Estatística I 22 / 22
	Associação entre Variáveis Quantitativas
	Associação entre Variáveis Qualitativas e Quantitativas

Continue navegando