Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística – Aula 04 Prof. Msc. Marcus Vinícius Revisão - Aula 03 •Medidas de dispersão • Desvio médio • Variância •Outras medidas resumo • Quantis Aula 04 •Análise bidimensional •Associação entre variáveis Análise Bidimensional • Analisar o comportamento conjunto de duas ou mais variáveis associação = grau de dependência • Ex: Qual a frequência esperada de uma pessoa nessa sala ter mais de 170cm de altura? Qual a frequência esperada de uma mulher nessa sala ter mais de 170cm de altura? Análise Bidimensional • Três situações • Duas variáveis qualitativas • Duas variáveis quantitativas • Uma variável quantitativa e uma variável qualitativa Análise bidimensional • Exemplo da Tabela (Aula 01) Quais análises conjuntas podem ser realizadas para as variáveis Grau de Instrução e Região de Procedência? • Uso das frequências relativas (proporções) • Em relação ao total geral • Em relação ao total de cada linha • Em relação ao total de cada coluna Análise bidimensional Medidas de associação - Variáveis qualitativas • Existe correlação entre o sexo e a carreira escolhida no grupo de 200 alunos de Gestão e Logística da FATEC? Duas variáveis qualitativas • Existe correlação entre o sexo e a carreira escolhida no grupo de 200 alunos de Gestão e Logística da FATEC? Curso Masculino Feminino Total Gestão 85 (61%) 35 (58%) 120 (60%) Logística 55 (39%) 25 (42%) 80 (40%) Total 140 (100%) 60 (100%) 200 (100%) Sexo Duas variáveis qualitativas • Existe correlação entre o sexo e a carreira escolhida no grupo de 200 alunos de Aeronáutica e Logística da FATEC? Curso Masculino Feminino Total Gestão 100 (71%) 20 (33%) 120 (60%) Logística 40 (29%) 40 (67%) 80 (40%) Total 140 (100%) 60 (100%) 200 (100%) Sexo Notação das tabelas – Estrutura Matricial Medidas de associação Variáveis qualitativas • Coeficientes de associação ou correlação • Por meio de um único número a dependência entre duas variáveis • 0 é igual a falta de associação • Coeficiente de contingência* (Karl Pearson) Existe associação entre as variáveis? Estado Tipo de cooperativa Compras Vendas Escola Outras Total São Paulo 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%) Paraná 51 (17%) 102 (34%) 126 (42%) 22 (7%) 301 (100%) RS 111 (18%) 304 (51%) 139 (23%) 48 (8%) 602 (100%) Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%) Se não houvesse relação Estado Tipo de cooperativa Compras Vendas Escola Outras Total São Paulo 156 (24%) 272 (42%) 142 (22%) 78 (12%) 648 (100%) Paraná 72 (24%) 127 (42%) 66 (22%) 36 (12%) 301 (100%) RS 144 (24%) 254 (42%) 132 (22%) 72 (12%) 602 (100%) Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%) Medidas de associação Variáveis qualitativas • É possível calcular as discrepâncias existentes entre os valores observados e esperados. Estado Tipo de cooperativa Compras Vendas Escola Outras São Paulo 58 -35 -64 41 Paraná -21 -25 60 -14 RS -33 50 7 -24 Medidas de associação Variáveis qualitativas • É possível calcular as discrepâncias existentes entre os valores observados e esperados. • Característica importante: • A soma total dos resíduos é nula Medidas de associação Variáveis qualitativas • Desvios relativos Medidas de associação Variáveis qualitativas • Desvios relativos • Baseado no qui-quadrado, Pearson define o coeficiente de contingência que é dado por: Medidas de associação Variáveis qualitativas Exercício 1) • Existe correlação entre o estado civil e o tipo de usuário do transporte público? • Qual o valor do qui-quadrado? Indivíduo Estado Civil Tipo de usuário do sistema 1 casado Usuário frequente 2 solteiro Usuário frequente 3 casado Usuário eventual 4 solteiro Usuário frequente 5 solteiro Usuário frequente 6 casado Usuário eventual 7 casado Usuário eventual 8 solteiro Usuário frequente 9 solteiro Usuário eventual 10 solteiro Usuário eventual Agente Anos de Serviço (X) Número de clientes (Y) A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 Total 31 371 • Uso de gráficos de dispersão • Associação linear -> o quanto a nuvem de pontos no gráfico de dispersão se aproxima de uma reta • Definiremos um coeficiente chamado coeficiente de correlação linear • Mede a associação entre as variáveis e a proximidade dos dados a uma reta Medidas de associação Variáveis quantitativas • Como quantificar essa associação? • 1) mudar a origem do sistema para o centro da nuvem de dispersão. Para isso adotaremos o ponto médio. Medidas de associação Variáveis quantitativas Agente Anos de Serviço (X) Número de clientes (Y) x - média y - média A 2 48 -2,43 -5 B 3 50 -1,43 -3 C 4 56 -0,43 3 D 5 52 0,57 -1 E 4 43 -0,43 -10 F 6 60 1,57 7 G 7 62 2,57 9 Total 31 371 0 0 Média 4,43 53 • A variável Clientes (Y) possui uma variabilidade muito maior do que a variável Anos de Serviço (X). O resultado seria mais afetado pelos resultados de Y do que pelos de X. • Z-score ou escore padrão • Em problemas com escalas diferentes, uma solução é dividir os desvios pelo dp(x). Medidas de associação Variáveis quantitativas Agente Anos de Serviço (X) Número de clientes (Y) zx zy zx * zy A 2 48 -1,52665 -0,79918 1,220062 B 3 50 -0,89803 -0,47951 0,43061 C 4 56 -0,26941 0,479507 -0,12918 D 5 52 0,359211 -0,15984 -0,05741 E 4 43 -0,26941 -1,59836 0,43061 F 6 60 0,987829 1,11885 1,105232 G 7 62 1,616448 1,438521 2,325294 Total 31 371 5,325211 Média 4,43 53 • Com o z-score de x e y calculamos x * y Agente Anos de Serviço (X) Número de clientes (Y) zx zy zx * zy A 2 48 -1,52665 -0,79918 1,220062 B 3 50 -0,89803 -0,47951 0,43061 C 4 56 -0,26941 0,479507 -0,12918 D 5 52 0,359211 -0,15984 -0,05741 E 4 43 -0,26941 -1,59836 0,43061 F 6 60 0,987829 1,11885 1,105232 G 7 62 1,616448 1,438521 2,325294 Total 31 371 5,325211 Média 4,43 53 • Para finalizar, basta dividir o valor das coordenadas reduzidas pelo número de pesquisados, no caso 7 (agentes A a G). Corr(X,Y) = 5,325211 7 = 0,76 Ou seja, existe correlação entre as variáveis anos de serviço e números de clientes no grau de 0,76. Medidas de associação Variáveis quantitativas Ex. 1) Existe associação entre as variáveis? Se sim, quanto? Aluno Nota em Cálculo I Nota em estatística A 8 10 B 4 9 C 7 6 D 3 7 E 4 2 F 10 8 • Analisar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa. • Uso de medidas-resumo, histograma, box-plots, entre outros Medidas de associação Variáveis qualitativas e quantitativas • Como calcular o grau de dependência entre as variáveis? Assim como fizemos para as variáveis quantitativas, a variância será o nosso ponto de partida. • Para a variável quantitativa a variância representa a dispersão dos dados Medidas de associação Variáveis qualitativas e quantitativas Grau de Instrução Xi do grau de instrução Média salarial var(s) Médio 12 7,84 7,77 Técnico 18 11,54 13,1 Superior 6 16,48 16,89 Total 36 11,12 20,46 Região de procedência xi da região de procedência Média salarial var(s) Capital 11 11,46 27,27 Interior 12 11,55 25,71 Outra 13 10,45 9,13 Total 36 11,12 20,46 Grau de Instrução Xi do grau de instrução Média salarial var(s) Médio 12 7,84 7,77 Técnico 18 11,54 13,1 Superior 6 16,48 16,89 Total 36 11,12 20,46 Região de procedência xi da região de procedência Média salarial var(s) Capital 11 11,46 27,27 Interior 12 11,55 25,71 Outra 13 10,45 9,13 Total 36 11,12 20,46 • Se a variância dentro de cada categoriafor menor do que a global, significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e, então, existe relação entre as duas variáveis Medidas de associação Variáveis qualitativas e quantitativas • Uma medida resumo para a variância entre as categorias da variável qualitativa -> Variância Média • R2 Medidas de associação Variáveis qualitativas e quantitativas • Calcule a associação entre o salário e a região de procedência Medidas de associação Variáveis qualitativas e quantitativas
Compartilhar