Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIDADE 3 – ASSOCIAÇÃO E CORRELAÇÃO 1. Medidas de Associação para Variáveis Categorizadas: Chi-quadrado e coeficiente de contingência. 3.1 ANÁLISE BIDIMENSIONAL As técnicas de análise de dados são diferentes para cada tipo de variável envolvida: 2 variáveis qualitativas: os dados são resumidos em tabelas de contingência ou de dupla entrada (estatística qui-quadrado); 2 variáveis quantitativas: os dados são resumidos em gráficos de dispersão (coeficiente de correlação linear de Pearson). 3.1 ANÁLISE BIDIMENSIONAL O objetivo é encontrar associação ou relação entre as variáveis. Essas relações podem ser identificadas através de gráficos ou medidas numéricas. Associação: mudança de opinião sobre o comportamento de uma variável na presença ou não de informação sobre a segunda variável. ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS 3.2 TABELA DE CONTINGÊNCIA Representação de 2 variáveis categóricas ou qualitativas. Exemplo: Suponha que queiramos analisar o comportamento conjunto das variáveis Y: carreira e X: sexo, usando uma amostra de 200 alunos de Economia e Administração. Curso Sexo Masculino Feminino Total Economia 85 35 120 Administração 55 25 80 Total 140 60 200 3.2 TABELA DE CONTINGÊNCIA Existe relação (associação, dependência) entre Sexo e Curso? Tabela. Distribuição conjunta das frequências relativas ao total geral, segundo curso e sexo, dos alunos de determinada universidade. Curso Sexo Masculino Feminino Total Economia 42,5% 17,5% 60,0% Administração 27,5% 12,5% 40,0% Total 70,0% 30,0% 100,0% Distribuição Marginal por Sexo Distribuição Marginal por Curso 3.2 TABELA DE CONTINGÊNCIA Olhando a tabela das proporções pelo total, ainda não conseguimos enxergar relações, pois o total de homens e mulheres é bem diferente. Para retirar o efeito dos totais marginais, calcula-se as proporções por linha ou por coluna. Tabela. Distribuição conjunta das frequências relativas ao total da coluna (sexo), segundo curso e sexo, dos alunos de determinada universidade. Curso Sexo Masculino Feminino Total Economia 61% 58% 60% Administração 39% 42% 40% Total 100% 100% 100% 3.2 TABELA DE CONTINGÊNCIA Tabela. Distribuição conjunta das frequências relativas ao total da linha (curso), segundo curso e sexo, dos alunos de determinada universidade. Conclusões: Dentro de cada curso, temos aproximadamente a mesma proporção de estudantes do sexo masculino e feminino. Observe que o perfil de cada linha é parecido com o perfil marginal de sexo, indicando que a relação entre as variáveis é pequena. Curso Sexo Masculino Feminino Total Economia 71% 29% 100% Administração 69% 31% 100% Total 70% 30% 100% 3.3 TABELA DE CONTINGÊNCIA - EXEMPLO Conduziu-se uma pesquisa para avaliar se a percepção que os consumidores tinham de um produto dependia do gênero. Consumidor Gênero Avaliação 1 Masculino Positiva 2 Feminino Positiva 3 Feminino Indiferente 4 Feminino Positiva 5 Masculino Negativa ... 285 Masculino Indiferente 3.4 DISTRIBUIÇÃO DE FREQÛENCIAS Sexo Positiva Indiferente Negativa Total Masculino 54 36 22 112 Feminino 115 41 17 173 TOTAL 169 77 39 285 Tabela. Distribuição conjunta das frequências absolutas, segundo avaliação e sexo. Sexo Positiva Indiferente Negativa Total Masculino 48,2% 32,1% 19,6% 100% Feminino 66,5% 23,7% 9,8% 100% TOTAL 59,3% 27,0% 13,7% 100% Tabela. Distribuição conjunta das frequências relativas ao total da linha, segundo avaliação e sexo. A associação entre sexo e avaliação é forte? Fraca? 3.5 MEDIDA DE ASSOCIAÇÃO Uma forma de medir a força da associação entre duas variáveis qualitativas baseia-se na comparação da tabela de valores observados com a tabela de valores esperados. A partir desses valores, podemos testar se há uma associação, ou não. Mas, como calcular esses valores esperados? 3.6 CÁLCULO DOS VALORES ESPERADOS Intuição: Queremos que os valores de cada casa forneçam valores que tenham a mesma proporção dos valores marginais da coluna (ou da linha). Sexo Positiva Indiferente Negativa Total Masculino ? (0,593) ? (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS Intuição: Então, qual deve ser o valor X abaixo que quando dividido por 112 (total da linha Masculino) dá 0,593 (frequência relativa da coluna Positiva)? Sexo Positiva Indiferente Negativa Total Masculino X (0,593) ? (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑋 112 = 0,593 Sexo Positiva Indiferente Negativa Total Masculino X (0,593) ? (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑋 112 = 0,593 𝑋 = 112 ∗ 0,593 Sexo Positiva Indiferente Negativa Total Masculino X (0,593) ? (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑋 112 = 0,593 𝑋 = 112 ∗ 0,593 𝑋 = 66,416 Sexo Positiva Indiferente Negativa Total Masculino X (0,593) ? (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑋 112 = 0,593 𝑋 = 112 ∗ 0,593 𝑋 = 66,416 Logo, o valor esperado para a casa Masculino e Positiva é 66,416. Sexo Positiva Indiferente Negativa Total Masculino X (0,593) ? (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS Para a casa Masculino e Indiferente, queremos saber o valor de Y que quando dividido por 112 (total da linha Masculino) dá 0,270 (frequência relativa da coluna Indiferente). Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) Y (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑌 112 = 0,270 Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) Y (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ?(0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑌 112 = 0,270 𝑌 = 112 ∗ 0,270 Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) Y (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑌 112 = 0,270 𝑌 = 112 ∗ 0,270 𝑌 = 30,24 Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) Y (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑌 112 = 0,270 𝑌 = 112 ∗ 0,270 𝑌 = 30,24 Logo, o valor esperado para a casa Masculino e Indiferente é 30,24. Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) Y (0,270) ? (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS Para a casa Masculino e Negativa, queremos saber o valor de Z que quando dividido por 112 (total da linha Masculino) dá 0,137 (frequência relativa da coluna Negativa). Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) 30,24 (0,270) Z (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑍 112 = 0,137 Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) 30,24 (0,270) Z (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑍 112 = 0,137 𝑍 = 112 ∗ 0,137 Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) 30,24 (0,270) Z (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑍 112 = 0,137 𝑍 = 112 ∗ 0,137 𝑍 = 15,344 Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) 30,24 (0,270) Z (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS 𝑍 112 = 0,137 𝑍 = 112 ∗ 0,137 𝑍 = 15,344 Assim, o valor esperado para a casa Masculino e Negativa é 15,344. Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) 30,24 (0,270) 15,344 (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS Note que quando somamos todos os valores esperados da linha Masculino, temos que obtemos o valor indicado na coluna Total: 66,416 + 30,24 + 15,344 = 122 Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) 30,24 (0,270) 15,344 (0,137) 112 Feminino ? (0,593) ? (0,270) ? (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS Quando calculamos os valores esperados de todas as casas, obtemos a tabela abaixo: Sexo Positiva Indiferente Negativa Total Masculino 66,416 (0,593) 30,24 (0,270) 15,344 (0,137) 112 Feminino 102,586 (0,593) 46,740 (0,270) 23,674 (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,00) 3.6 CÁLCULO DOS VALORES ESPERADOS Sexo Positiva Indiferente Negativa Total Masculino 54 36 22 112 Feminino 115 41 17 173 TOTAL 169 77 39 285 Tabela OBSERVADA: Tabela ESPERADA: Sexo Positiva Indiferente Negativa Total Masculino 66,414 (0,593) 30,260 (0,270) 15,326 (0,137) 112 Feminino 102,586 (0,593) 46,740 (0,270) 23,674 (0,137) 173 TOTAL 169 (0,593) 77 (0,270) 39 (0,137) 285 (1,000) 3.7 CHI-QUADRADO (OU QUI-QUADRADO): 𝜒2 O testa a significância da associação entre duas variáveis categorizadas (qualitativas). O princípio básico é comparar proporções, i.e, as possíveis diferenças entre as frequências observadas e as esperadas em cada categoria. É um teste não paramétrico (não depende de parâmetros populacionais, tais como a média ou o desvio-padrão). 𝜒2 3.7 CHI-QUADRADO (OU QUI-QUADRADO): 𝜒2 O teste é utilizado para: Verificar se a frequência com que um determinado acontecimento observado é estatisticamente diferente da frequência com que ele é esperado. Comparar a distribuição de diversos acontecimentos em diferentes amostras, com o objetivo de avaliar se as proporções observadas mostram, ou não, diferenças significativas ou se as amostras diferem significativamente quanto às proporções desses acontecimentos. 3.7 CHI-QUADRADO (OU QUI-QUADRADO): 𝜒2 Condições necessárias: Os grupos são independentes; As observações devem ser frequências ou contagens; Cada observação pertence a uma, e somente uma, categoria; e A amostra deve ser relativamente grande: Pelo menos 5 observações em cada casa; No caso de poucos grupos (tabelas 2x2), o número mínimo de observações em cada casa deve ser 10. 3.7 CHI-QUADRADO (OU QUI-QUADRADO): 𝜒2 𝜒2 = (𝑜𝑖𝑗 − 𝑒𝑖𝑗) 2 𝑒𝑖𝑗 𝑐 𝑗=1 𝑙 𝑖=1 Onde: l é o número de linhas; c é o número de colunas; oij é a frequência observada da linha i e coluna j; eij é a frequência esperada da linha i e coluna j. 3.7 CHI-QUADRADO (OU QUI-QUADRADO): 𝜒2 𝜒2 = (𝑜𝑖𝑗 − 𝑒𝑖𝑗) 2 𝑒𝑖𝑗 𝑐 𝑗=1 𝑙 𝑖=1 Note que é não-negativa, sem limite superior. Quando as diferenças (oij - eij) são grandes, o valor de é grande e maior será a associação entre as variáveis. Do mesmo modo, quando as frequências observadas são próximas da frequências esperadas (ou seja, as diferenças oij – eij são pequenas), o valor de é pequeno e a associação é fraca. Porém, apenas um valor alto de não é suficiente para dizermos se é a associação é estatisticamente significante. Mas, os testes serão vistos apenas na Unidade 5. 𝜒2 𝜒2 𝜒2 3.7 VALORES OBSERVADOS / ESPERADOS Sexo Positiva Indiferente Negativa Masculino 54 36 22 Feminino 115 41 17 Tabela OBSERVADA: Tabela ESPERADA: Sexo Positiva Indiferente Negativa Masculino 66,414 30,260 15,326 Feminino 102,586 46,740 23,674 3.7 VALORESOBSERVADOS / ESPERADOS Sexo Positiva Indiferente Negativa Masculino 54 36 22 Feminino 115 41 17 Tabela OBSERVADA: Tabela ESPERADA: Sexo Positiva Indiferente Negativa Masculino 66,414 30,260 15,326 Feminino 102,586 46,740 23,674 Sexo Positiva Indiferente Negativa Masculino (54-66,414)2 (36-30,260)2 (22-15,326)2 Feminino (115-102,586)2 (41-46,740)2 (17-23,674)2 Tabela da diferença ao quadrado entre observados e esperados: 3.7 VALORES OBSERVADOS / ESPERADOS Sexo Positiva Indiferente Negativa Masculino 54 36 22 Feminino 115 41 17 Tabela OBSERVADA: Tabela ESPERADA: Sexo Positiva Indiferente Negativa Masculino 66,414 30,260 15,326 Feminino 102,586 46,740 23,674 Sexo Positiva Indiferente Negativa Masculino 154,1074 32,9476 44,54228 Feminino 154,1074 32,9476 44,54228 Tabela da diferença ao quadrado entre observados e esperados: 3.7 VALORES OBSERVADOS / ESPERADOS Sexo Positiva Indiferente Negativa Masculino 54 36 22 Feminino 115 41 17 Tabela OBSERVADA: Tabela ESPERADA: Sexo Positiva Indiferente Negativa Masculino 66,414 30,260 15,326 Feminino 102,586 46,740 23,674 Sexo Positiva Indiferente Negativa Masculino 154,1074/66,414 32,9476/30,260 44,54228/15,326 Feminino 154,1074/102,586 32,9476/46,740 44,54228/23,674 Tabela da diferença ao quadrado, dividida pelo valor esperado: 3.7 VALORES OBSERVADOS / ESPERADOS Sexo Positiva Indiferente Negativa Masculino 54 36 22 Feminino 115 41 17 Tabela OBSERVADA: Tabela ESPERADA: Sexo Positiva Indiferente Negativa Masculino 66,414 30,260 15,326 Feminino 102,586 46,740 23,674 Sexo Positiva Indiferente Negativa Masculino 2,320405 1,088817 2,906321 Feminino 1,502226 0,704912 1,881485 Tabela da diferença ao quadrado, dividida pelo valor esperado: 3.7 VALORES OBSERVADOS / ESPERADOS Sexo Positiva Indiferente Negativa Masculino 2,320405 1,088817 2,906321 Feminino 1,502226 0,704912 1,881485 Tabela da diferença ao quadrado, dividida pelo valor esperado: Agora que temos os valores finais, basta somá-los para encontrarmos o Assim, Mas, o que significa esse valor? É alto o suficiente para dizermos que as variáveis são associadas? Ou é um valor pequeno que indica que não há associação? Só vamos conseguir saber isso na unidade 5. Por enquanto, vamos usar uma medida auxiliar, que irá nos dar uma ideia da associação. Essa medida é o coeficiente de contingência ajustado. 𝜒2 𝜒2 = 10,40416689 ≅ 10,404 3.9 COEFICIENTE DE CONTINGÊNCIA Este coeficiente, calculado a partir do chi-quadrado, é usado para medir o grau de associação de duas variáveis qualitativas de forma mais simplificada. Onde: t é o menor valor de linhas ou colunas. Essa medida é mais fácil de analisar, pois 0≤C* ≤1. Quando C*=0, diz-se que as variáveis são independentes. Quando C*=1, diz-se que as variáveis são perfeitamente associadas. 𝐶∗ = 𝑡 × 𝜒2 (𝜒2 + 𝑛 ) × (𝑡 − 1) 3.10 COEFICIENTE DE CONTINGÊNCIA - EXEMPLO Para o nosso exemplo, lembre-se que temos: = 10,404; 2 linhas e 3 colunas, logo o mínimo entre essas duas é t=2; n = 285 Então, usando a fórmula: 𝐶∗ = 𝑡 × 𝜒2 (𝜒2 + 𝑛 ) × (𝑡 − 1) 𝜒2 𝐶∗ = 2×10,404 (10,404+285)×(2−1) = 20,808 (295,404)×(1) = 20,808 (295,404)×(1) = 0,07044 = 0,2654
Compartilhar