Baixe o app para aproveitar ainda mais
Prévia do material em texto
ACH3553 - Estatística I Aulas 5 e 6: Análise Bidimensional Associação entre variáveis quantitativas Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3553 - Estatística I 1 / 22 Organização 1 Associação entre Variáveis Quantitativas 2 Associação entre Variáveis Qualitativas e Quantitativas Alexandre Leichsenring ACH3553 - Estatística I 2 / 22 Organização 1 Associação entre Variáveis Quantitativas 2 Associação entre Variáveis Qualitativas e Quantitativas Alexandre Leichsenring ACH3553 - Estatística I 3 / 22 Associação entre Variáveis Quantitativas A distribuição conjunta de variáveis quantitativas pode ser resumida em tabelas de dupla entrada. Variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados ▶ Por exemplo: Gráfico de dispersão Agente Anos serviço (X ) Núm. clientes (Y ) A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 Alexandre Leichsenring ACH3553 - Estatística I 4 / 22 Exemplo Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários mínimos, mediram-se: X : renda bruta mensal (em salários mínimos) Y : porcentagem da renda bruta gasta com assistência médica Família X Y A 12 7,2 B 16 7,4 C 18 7,0 D 20 6,5 E 28 6,6 F 30 6,7 G 40 6,0 H 48 5,6 I 50 6,0 J 54 5,5 Vamos construir o gráfico de dispersão a analisar. Alexandre Leichsenring ACH3553 - Estatística I 5 / 22 Gráfico de dispersão: renda bruta x % de gasto com saúde ▶ Parece haver uma relação inversa entre as variáveis, isto é, quanto maior a renda, menor a porcentagem da renda gasta com saúde. Alexandre Leichsenring ACH3553 - Estatística I 6 / 22 Exemplo Oito indivíduos foram submetidos a um teste sobre conhecimentos de língua estrangeira e, em seguida, mediu-se o tempo gasto para cada um aprender a operar uma determinada máquina. As variáveis medidas foram: X : resultado obtido no teste (0 a 100 pontos) Y : tempo, em minutos, necessário para operar a máquina satisfatoriamente ▶ Parece não haver associação entre as duas variáveis – conhecer o resultado do teste não ajuda a prever o tempo gasto para aprender a operar a máquina Alexandre Leichsenring ACH3553 - Estatística I 7 / 22 A representação gráfica das variáveis quantitativas ajuda a compreender o comportamento conjunto das variáveis quanto à existência de associação entre elas É útil quantificar esta associação Existem muitos tipos possíveis de associação Iremos estudar apenas a relação linear Vamos definir uma medida que avalia o quanto a nuvem de pontos do gráfico aproxima-se de uma reta Alexandre Leichsenring ACH3553 - Estatística I 8 / 22 Tipos de associações entre variáveis (a) Apresenta associação linear direta (positiva) (b) Apresenta associação linear inversa (negativa) (c) Não apresenta associação linear Alexandre Leichsenring ACH3553 - Estatística I 9 / 22 Covariância Definição Dados n pares de valores (x1, y1), (x2, y2), . . . , (xn, yn), observações de duas variáveis X e Y , chamaremos de covariância entre X e Y a: cov(X ,Y ) = ∑n i=1(xi − x̄)(yi − ȳ) n , onde x̄ e ȳ são as médias de X e Y , respectivamente, ou seja, x̄ = ∑n i=1 xi n ȳ = ∑n i=1 yi n . Alexandre Leichsenring ACH3553 - Estatística I 10 / 22 Exemplo Voltemos aos dados sobre número de clientes por anos de serviço. Vamos calcular a covariância entre X e Y . Agente Anos serviço (X ) Núm. clientes (Y ) A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 Obs: Considere as seguintes medidas resumo: x̄ = 5, 7 e ȳ = 56, 5. Solução cov(X ,Y ) = 17, 15 Alexandre Leichsenring ACH3553 - Estatística I 11 / 22 Coeficiente de Correlação Definição Dados n pares de valores (x1, y1), (x2, y2), . . . , (xn, yn), observações de duas variáveis X e Y , chamaremos de coeficiente de correlação entre X e Y a corr(X ,Y ) = cov(X ,Y ) dp(X ) · dp(Y ) , onde: dp(X ) = desvio padrão de X , e dp(Y ) = desvio padrão de Y . Alexandre Leichsenring ACH3553 - Estatística I 12 / 22 Propriedade: −1 ≤ corr(X ,Y ) ≤ 1 Alexandre Leichsenring ACH3553 - Estatística I 13 / 22 Exemplo Vamos calcular o coeficiente de correlação para os dados de anos de serviço e número de clientes. Obs: considere as seguintes medidas resumo. dp(x) = 2,41; dp(y) = 8,11; cov(X ,Y ) = 17,15. Solução corr(X ,Y ) = cov(X ,Y ) dp(X ) · dp(Y ) = 17,15 2,41 · 8,11 = 0,877 Alexandre Leichsenring ACH3553 - Estatística I 14 / 22 Exercício Abaixo estão dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras. Região metropolitana Setor primário (X ) Índice de analfabetismo (Y ) São Paulo 2,0 17,5 Rio de Janeiro 2,5 18,5 Belém 2,9 19,5 Belo Horizonte 3,3 22,2 Salvador 4,1 26,5 Porto Alegre 4,3 16,6 Recife 7,0 36,6 Fortaleza 13,0 38,4 São dados: x̄ = 4, 9; ȳ = 24, 5; dp(x) = 3, 4; dp(y) = 8, 1. a) Faça o diagrama de dispersão. b) Você acha que existe dependência linear entre as duas variáveis? c) Calcule o coeficiente de correlação. d) Existe alguma região com comportamento diferente das demais? Alexandre Leichsenring ACH3553 - Estatística I 15 / 22 Organização 1 Associação entre Variáveis Quantitativas 2 Associação entre Variáveis Qualitativas e Quantitativas Alexandre Leichsenring ACH3553 - Estatística I 16 / 22 Associação entre Variáveis Qualitativas e Quantitativas É comum analisar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa Análise pode ser conduzida por meio de medidas resumo, histogramas, box plots Box plots de salários segundo grau de instrução numa determinada companhia. ▶ Figura sugere dependência dos salários em relação ao grau de instrução Alexandre Leichsenring ACH3553 - Estatística I 17 / 22 Box plots de salários segundo região de procedência numa determinada companhia. ▶ Não existe uma relação bem definida entre as duas variáveis. ▶ Salários parecem mais relacionados com o grau de instrução do que com região de procedência. Alexandre Leichsenring ACH3553 - Estatística I 18 / 22 É conveniente contar com uma medida para quantificar o grau de associação entre as variáveis Neste caso, as variâncias podem ser usadas ▶ Se a variância dentro de cada categoria for pequena (e menor do que a global), significa que a variável qualitativa melhora a capacidade de previsão da quantitativa ▶ Portanto, existe relação entre as duas Estatísticas descritivas da variável salário segundo grau de instrução Grau de instrução n s̄ dp(S) var(S) Fundamental 12 7,84 2,79 7,77 Médio 18 11,54 3,62 13,10 Superior 6 16,48 4,11 16,89 Todos 36 11,12 4,52 20,46 Alexandre Leichsenring ACH3553 - Estatística I 19 / 22 Precisamos de uma medida da variância entre as categorias da variável qualitativa. Vamos usar a média das variâncias, ponderada pelo número de observações em cada categoria, ou seja, var(S) = ∑k i=1 ni vari(S)∑k i=1 ni onde: k é o número de categorias (k = 3 nos exemplos acima), ni é o número de observações na categoria i , e vari(S) denota a variância dentro da categoria i . A nossa medida de associação entre a variável qualitativa e a quantitativa será dada por: R2 = var(S)− var(S) var(S) = 1 − var(S) var(S) Pode-se mostrar que 0 ≤ R2 ≤ 1. Quanto mais próximo de 1, maior o grau de associação entre as variáveis. Alexandre Leichsenring ACH3553 - Estatística I 20 / 22 Exemplo Vamos calcular R2 para os dados de salário e grau de instrução. Grau de instrução n s̄ dp(S) var(S) Fundamental 12 7,84 2,79 7,77 Médio 18 11,54 3,62 13,10 Superior 6 16,48 4,11 16,89 Todos 36 11,12 4,52 20,46 Solução R2 = 1 − var(S) var(S) var(S) = (12 × 7, 77) + (18 × 13, 10) + (6 × 16, 89) 12 + 18 + 6 = 11, 96 var(S) = 20, 46 R2 = 1 − 11, 96 20, 46 = 0, 415 Alexandre Leichsenring ACH3553 - Estatística I 21 / 22 Exercício Calcule R2 para salário e região de procedência. Região de procedência n s̄ dp(S) var(S) Capital 11 11,46 5,2227,27 Interior 12 11,55 5,07 25,71 Outra 13 10,45 3,02 9,13 Todos 36 11,12 4,52 20,46 Alexandre Leichsenring ACH3553 - Estatística I 22 / 22 Associação entre Variáveis Quantitativas Associação entre Variáveis Qualitativas e Quantitativas
Compartilhar