Baixe o app para aproveitar ainda mais
Prévia do material em texto
Manual de Métodos Quantitativos para iniciantes eM ciência política voluMe 2 EMERSON URIZZI CERVI Manual de Métodos Quantitativos para iniciantes eM ciência política voluMe 2 curitiba 2019 Cervi, Emerson U. Manual de métodos quantitativos para iniciantes em Ciência Política – Vol. 2 / Emerson Urizzi Cervi - Curitiba: CPOP, 2019. (1ª edição). 314 p. ISBN 978-85-915195-5-2 1. Pesquisa – Métodos Quantitativos. 2. Ciência Política. I. Título. CDD-320 CDU: 001.8:303 Dados Internacionais de Catalogação da Publicação Fundação Biblioteca Nacional Copyright @ 2019 do autor editorado pelo Grupo de pesQuisa eM coMunicação política e opinião pública - cpop edição do autor Emerson Urizzi Cervi capa, planejaMento Gráfico e diaGraMação Fernanda Cavassana de Carvalho Grupo de Pesquisa em Comunicação Política e Opinião Pública – CPOP Programa de Pós-graduação em Ciência Política – PPGCP-UFPR Universidade Federal do Paraná – Campus Reitoria Rua General Carneiro, nº 460 – Ed. Dom Pedro I, 5º andar. CEP: 80.060-000. Curitiba – Paraná – Brasil www.cpop.ufpr.br | www.facebook.com/cpopufpr | nucleocpopufpr@gmail.com C419m 9 11 12 15 19 21 24 27 32 33 34 35 36 39 44 45 46 49 59 64 65 Sumário APRESENTAÇÃO CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA 1.1 Coeficiente Cramer’s V para força de associação do χ² 1.2 Coeficiente Delta (Δ) para diferenças de FO e FE 1.3 Testes de associação entre categorias de variáveis nominais em tabelas de contingência (Resíduos Brutos e Resíduos Padronizados) 1.3.1 Cálculo dos Resíduos Brutos (RB) 1.3.2 Cálculo dos Resíduos Padronizados (RP) 1.3.3 Resíduos Padronizados para análises temporais 1.4 Referências bibliográficas do Capítulo I 1.5 Exercícios propostos do Capítulo I Anexo do Capítulo I CAPÍTULO II – TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS 2.1 Teste Q de Yule (QXY) 2.1.1 Teste de Independência Q de Yule (QXY) 2.1.2 Cálculos Adicionais: proporções de pares consistentes e pares inconsistentes 2.1.3 Cálculos Adicionais: validade para inferências 2.1.4 Intervalo de Confiança para o Teste de Correlação QXY 2.1.5 Coeficiente QXY para três variáveis (QXY:T) 2.2 Teste com variáveis ordinais - Coeficiente Gama (G) 2.3 Referências bibliográficas do Capítulo II 2.4 Exercícios propostos do Capítulo II CAPÍTULO III – ANÁLISE DE DADOS CATEGÓRICOS 3.1 Análise de dados Categóricos 3.2 Teste de confiabilidade para indicadores estatísticos 3.3 Testes estatísticos para associações bi e multivariados 3.3.1 Análise de Correspondência Canônica (ACC) 3.3.2 Teste de Múltipla Correspondência 3.3.3 Análise de Componentes Principais (PCA) 3.3.4 Análises de agrupamentos (Cluster) 3.4 Referências bibliográficas do Capítulo III 3.5 Exercícios propostos do Capítulo III Anexos do Capítulo III CAPÍTULO IV – ANÁLISE DE CONTEÚDO APLICADA A REDES SOCIAIS ONLINE 4.1 Histórico da Análise de Conteúdo 4.2 Etapas da Análise de Conteúdo aplicada a textos políticos 4.3 Descrição da proposta de análise em duas etapas com método Reinert 4.4 O método Reinert na análise de conteúdo de redes sociais online 4.5 Uma comparação com o método tradicional de classificar textos políticos 4.6 Análises das classificações a partir da tematização automatizada 4.7 Referências bibliográficas do Capítulo IV 4.8 Exercícios propostos do Capítulo IV CAPÍTULO V – ANÁLISE DE REDES SOCIAIS 5.1 Conceituando Análise de Redes Sociais (ARS) 5.2 Componentes da ARS 5.3 Etapas para análise de redes sociais 5.4 Redes de financiamento de empresas a partidos políticos no Brasil 5.5 Referências bibliográficas do Capítulo V 5.6 Exercícios propostos do Capítulo V CAPÍTULO VI – TESTES DE CORRELAÇÃO 6.1 Correlação Linear Simples 6.2 Aplicação dos testes de correlação para amostras 6.3 Coeficiente Linear de Determinação e de Alienação 6.4 Pressupostos a serem respeitados em análises de correlação 6.4.1 Transformações de dados para normalização de distribuições 6.5 Aplicação da correlação de Pearson e outros coeficientes no RCommander 6.6 Referências bibliográficas do Capítulo VI 6.7 Exercícios propostos do Capítulo VI 67 68 70 75 77 82 86 90 95 96 98 101 102 106 108 110 115 119 126 128 129 130 132 136 139 145 146 147 147 157 159 161 164 165 169 170 CAPÍTULO VII – PRINCÍPIOS DOS TESTES DE REGRESSÃO 7.1 Começando pelo início: regressão linear simples 7.2 Fórmula da Regressão Linear 7.3 Erro da reta de regressão (rms) – análise de resíduos 7.4 A estatística “t” e os testes complementares de ajustamento do modelo 7.5 Regressão Binária Logística 7.6 Referências bibliográficas do Capítulo VII 7.7 Exercícios propostos do Capítulo VII CAPÍTULO VIII – ANÁLISE DE TRAJETÓRIA (path analysis) 8.1 Princípios da análise de trajetória 8.2 Componentes do modelo de análise de trajetória 8.3 Aplicação do modelo de análise de trajetória 8.4 Referências bibliográficas do Capítulo VIII 8.5 Exercícios propostos do Capítulo VIII Anexos do Capítulo VIII CAPÍTULO IX – ANÁLISE GEOGRÁFICA 9.1 Princípios e objetivos da Análise Geográfica 9.2 Bases de dados e softwares para Análise Geográfica 9.3 Mapas coropléticos no Geoda 9.3.1 Mapa Quantil 9.3.2 Mapa Percentil 9.3.3 Box Map 9.3.4 Mapa de desvio padrão 9.3.5 Mapa de valores únicos 9.3.6 Mapa de quebras naturais 9.3.7 Mapa com intervalos iguais 9.3.8 Mapa de razão de chance (Excess Risk) 9.4 Estatísticas básicas em análises geográficas descritivas 9.4.1 Autocorrelação espacial global com coeficiente I de Moran 9.4.2 Coeficiente LISA para clusters geográficos 9.4.3 Testes de regressão linear para unidades espaciais no Geoda 9.5 Referências bibliográficas do Capítulo IX 9.6 Exercícios propostos do Capítulo IX 171 173 176 184 187 192 198 199 201 202 205 208 217 219 220 221 222 226 228 229 230 230 231 232 233 234 235 237 238 240 242 248 250 CAPÍTULO X – ANÁLISE DE ANÁLISE DE SÉRIES TEMPORAIS 10.1 Fundamentos 10.2 Médias móveis 10.3 Funções de Autocorrelação (FAC) e Autocorrelação Parcial (FACP) 10.4 Teste Autoregressivo com médias móveis integradas (ARIMA) 10.5 Teste para Raízes Unitária 10.6 Análise multivariada no tempo (efeitos de intervenção e de transferência) 10.7 Referências bibliográficas do Capítulo X 10.8 Exercícios propostos do Capítulo X Anexos do Capítulo X ADENDO I - GABARITO DE RESPOSTAS AOS EXERCÍCIOS PROPOSTOS Respostas às questões do Capítulo I Respostas às questões do Capítulo II Respostas às questões do Capítulo III Respostas às questões do Capítulo IV Respostas às questões do Capítulo V Respostas às questões do Capítulo VI Respostas às questões do Capítulo VII Respostas às questões do Capítulo VIII Respostas às questões do Capítulo IX Respostas às questões do Capítulo X 251 252 255 260 262 267 269 276 277 278 281 282 285 290 299 300 302 305 306 309 ApreSentAção Como o próprio nome indica, este Manual de Métodos Quantitativos para Iniciantes é uma continuidade do volume 1. Assim, é altamente recomendável que o aluno conheça os conceitos discutidos no volume anterior, que pode ser acessado em http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1. Como todo manual, trata-se de um material para estudos. Aqui, em cada capítulo é apresen- tada uma técnica para análise quantitativa de dados em função dos objetivos do pes- quisador. Portanto, não se espera que alguém faça a leitura linear, do início ao fim do livro. Deve-se identificar qual capítulo trata da técnica de interesse para o seu trabalho e ir diretamente a ele. É importante repetir nesta apresentação o que já foi destacado no volume anterior: trata-se de um manual introdutório para iniciantes, pensado para o nível de graduação. Para quem já é iniciado nas técnicas ou procura aprofundar conceitos e teorias sobre testes e estatísticas, esta obra não é recomendada. O livro começa com as técnicas de análise descritiva básica a partir de tabelas de contingência, análise de dados categóricos e testes de diferençasde médias. Depois passa para os testes de correlação e apresenta uma introdução aos conceitos de regressão linear. Os últimos três capítulos do livro apresentam adaptações da técnica básica de regressão linear para finalidades específicas: análise de trajetória, análises espaciais e análise de séries temporais. Seguindo o modelo do volume 1, aqui também são utilizados exclusivamente Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 9 http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1 APRESENTAÇÃO softwares de código aberto, não sendo necessária a utilização de nenhum programa proprietário. A maior parte dos programas usados aqui é vinculada ao pacote estatístico R ou são plug-ins dele. Por se tratar de um manual introdutório a alunos de graduação, evita-se ao máximo o uso do pacote R diretamente. Sempre que possível, a opção é por uma interface mais “amigável” que a original para facilitar a vida dos não iniciados em programação computacional. Assim como no primeiro volume, ao final de cada capítulo são apresentadas as referências bibliográficas usadas para discussão de cada técnica e são propostos alguns exercícios para aprofundamento de aprendizagem. Todos os bancos de dados usados no livro e nos exercícios estão disponíveis “na nuvem” para download. O objetivo é permitir ao leitor que avance por conta própria em suas análises. Este livro não existiria sem a contribuição dos alunos que integram o grupo de pesquisas em Comunicação Política e Opinião Pública (www.cpop.ufpr.br) da Universidade Federal do Paraná (UFPR). São eles que me estimulam a pensar formas didáticas de apresentar ferramentas e discutir técnicas de análise empírica para alunos de graduação. Eles também participaram diretamente da coleta e formação de alguns bancos de dados utilizados aqui. O manual é resultado de cursos de metodologia ministrados por mim ao longo dos últimos anos. Dentre os alunos do grupo de pesquisa, um agradecimento especial a Fernanda Cavassana, que além de ser a responsável direta pelo projeto gráfico e editoração dos dois volumes, também estabeleceu prazos e me cobrou o cumprimento dos mesmos. Enfim, feita a apresentação do volume II do manual, sinta-se à vontade para explorá-lo e para informar possíveis inconsistências ou erros ao longo do texto. Bons estudos! Curitiba, janeiro de 2019. Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 10 http://www.cpop.ufpr.br coeficiente de associação e análise de resíduos eM tabelas de continGência Identificar associações entre duas ocorrências é um desafio muito grande, mas que, infelizmente, costuma ter sua importância minimizada. O atual capítulo é uma continuidade do capítulo VII do volume I do manual. Então, em vários momentos são feitas referências diretas a conteúdos que já foram apresentados naquele livro, que tem por objetivo servir como fundamento para os testes que serão apresentados a partir daqui. Para acessá-lo, basta clicar no link que se encontra no rodapé desta página1. Aqui, começo apresentando o teste ade- quado para medir o grau de associação entre duas variáveis após a realização do teste de independência de médias qui-quadrado (χ²). É o coeficiente Cramer’s V. Em seguida, são apresentadas formas estatísticas de medir a relação entre pares de categorias das variáveis. São o coeficiente Delta (Δ) e os Resíduos Padroniza- dos. Ao final do capítulo, são apresentados exercícios e as referências bibliográfi- cas citadas. 1 Volume I do Manual de Métodos Quantitativos para Iniciantes em Ciência Política disponível em: http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1 Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 11 CApítulo i http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1 1.1 coeficiente craMer’s v para força de associação do χ2 Uma vez identificado o valor do coeficiente de χ², como apresentado no capí- tulo VII do volume I, um erro muito comum é tirar conclusões sobre a magnitude da relação entre as duas variáveis apenas a partir desse coeficiente ou do seu nível de significância. Quando o coeficiente é alto, podemos dizer que as variações analisadas não são independentes, elas variam com algum grau de dependência uma da outra. Se considerarmos ainda os graus de liberdade do teste, podemos identificar o limite crítico do Intervalo de Confiança e se o coeficiente ficar abaixo desse limite pode-se dizer que a dependência das variações é forte o suficiente para ser extrapolada a toda a população - caso estejamos trabalhando com uma amostra. Isso porque a signifi- cância do teste depende no número de casos (graus de liberdade). Quanto maior a amostra ou população testada, maiores as chances do resultado ser estatisticamente significativo (Pereira, 2004). No entanto, nenhum dos coeficientes tratados até aqui é indicativo da relação entre duas variáveis categóricas para a magnitude ou força da associação entre elas. Para tanto, existem coeficientes específicos que medem a força do efeito da variação de uma variável sobre a variação de outra. Quando estamos usando o teste de χ², para independência de médias, os testes de associação indicados são o coe- ficiente Phi e o coeficiente Cramer’s V. Para identificar a magnitude do efeito (effect size) em testes de χ² em que se rejeita a hipótese nula, usa-se o coeficiente Phi para os casos de tabelas quádruplas (2x2), mesma indicação do Q de Yule, ou o coeficiente Cramer’s V para tabelas maiores (Ln x Cn). Por agora, não trataremos do coeficiente Phi, pois dedicamos mais adiante um capítulo específico para o Q-yule, teste indicado para o mesmo tipo de variável a que se aplica o Phi. A seguir, apresentamos como calcular o coeficiente de magnitude do efeito Cramer´s V para testes de χ². A indicação é calcular o Cramer’s V apenas quando o coeficiente χ² for estatisticamente significativo, caso contrário, a magnitude do efeito será muito baixa ou nula. A leitura dos resultados do coeficiente V é equivalente à de um coeficiente de correlação de Pearson. Ele indica qual a força da associação direta entre o conjunto CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 12 das categorias das duas variáveis testadas. A fórmula é a seguinte: 𝑣𝑣 = � 𝜒𝜒2 𝑁𝑁. (𝑘𝑘 − 1) Onde: χ² = coeficiente qui-quadrado. N = número de casos K = número de categorias de uma das variáveis testadas. Utiliza-se sempre o menor número de categorias, independente de estar nas linhas ou nas colunas. A leitura do resultado do Cramer’s V é similar à de um coeficiente de cor- relação de Pearson. Sendo assim, o quadrado do seu valor (V2) nos indica qual a proporção da variância da relação que é explicada pelo χ². Por exemplo, um V = 0,12, se elevado ao quadrado e multiplicado por 100 nos indicará qual o percentual de va- riância explicada. No caso, apenas 1,44% de variância explicada pelo χ², o que é um percentual bastante baixo em termos gerais. Quando a tabela testada é quádrupla (2x2) a fórmula do teste Cramer’s V iguala-se à do Phi, pois nesse caso o número de categorias menos um sempre será um. Assim, a fórmula é reduzida a raiz quadrada de χ² dividido pelo número de casos. Para exemplificar o uso do coeficiente Cramer’s V, vamos fazer o teste de χ² para a associação entre sexo de vereadores eleitos em 2016 nas eleições municii- pais brasileiras (homem ou mulher) e região do País (norte, nordeste, centro-oeste, sudeste e sul). A hipótese nula defende que não há diferença nas variações entre as duas variáveis e que, portanto, homens e mulheres distribuem-se igualmente entre os eleitosnas cinco regiões do País. Nunca é demais lembrar que estamos testando a associação entre duas variáveis categóricas nominais. Aqui, estão considerados apenas os vereadores eleitos que indicaram sexo Homem ou Mulher no registro de candidatura no TSE em 2016. CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 13 Tabela 1.1.1. Distribuição dos vereadores eleitos por sexo e região do País em 2016 REGIÃO HOMEM MULHER TOTAL NE 16.091 2.866 18.957 SD 15.404 1.961 17.365 CO 4.116 615 4.731 NO 4.136 667 4.803 SU 9.935 1.657 11.592 TOTAL 49.682 7.766 57.448 Fonte: autor a partir de TSE Em 2016, segundo dados oficiais do Tribunal Superior Eleitoral (TSE), do total de eleitos, 49.682 se registraram como homens e 7.766 como mulheres no TSE, re- sultando em 57.448 eleitos com a variável “sexo” válida. O teste χ² indica se podemos ou não rejeitar a hipótese nula de independência entre as variáveis. O resultado é de χ² = 122,703 e α = 0,000, portanto, um resultado altamente significativo, permitindo a rejeição da hipótese nula de independência entre as variáveis. Ou seja, as variações de sexo dos vereadores eleitos não são independentes das regiões. Agora, para identificar a magnitude do efeito, calcularemos o Cramer’s V. Como a variável com menor número de categorias é sexo, com duas categorias, não haverá efeito do fator (k-1) na fórmula, pois multiplicaríamos o número de casos por um. 𝑣𝑣 = � 𝜒𝜒2 𝑁𝑁. (𝑘𝑘 − 1) = � 122,703 57.448 𝑥𝑥 (2 − 1) = 0,046 Assim, temos que a associação entre as duas variações é de 0,046 ou 4,6% apenas. Ou seja, relação entre região sobre a número de homens ou mulheres elei- tos é de apenas 4,6%. Embora o χ² seja alto e significativo, percebe-se que o efeito não é tão forte como se poderia pensar inicialmente. Se elevarmos o Cramer’s V ao quadrado, teremos a proporção de variação que é explicada pela associação, ou seja, teremos a magnitude da determinação de uma variável sobre a outra. No caso, V² = 0,0021. Se multiplicarmos o valor por 100, teremos que apenas 0,21% da variação de proporção de sexo é explicada pela região, ou seja, uma explicação nula. IMPORTANTE: A prova de χ² só permite aceitar ou rejeitar a hipótese nula, CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 14 mas no caso de rejeitá-la, não é possível saber em que medida as duas variáveis es- tão relacionadas. O coeficiente de contingência ou coeficiente de correlação, obtido através de tabelas de contingência, é a prova adequada a ser aplicada depois de rejei- tada a hipótese nula pelo χ². O anexo ao capítulo apresenta os valores padronizados para identificar o limite crítico a partir do Intervalo de confiança e dos graus de liberda- de nos testes de χ² para comparação de uma distribuição real com uma teórica e para os testes entre duas variáveis independentes. No anexo a este capítulo encontra-se uma tabela de valores padronizados de χ² para rejeição da hipótese nula em função dos graus de liberdade e do intervalo de confiança, e posterior realização dos testes de associação. Os testes de diferença de médias como o χ² e testes de associação como Cramer’s V produzem coeficientes capazes de indicar as relações entre todas as ca- tegorias de duas variáveis. Mas, muitas vezes o pesquisador necessita identificar rela- ções entre pares de categorias de duas variáveis distintas, o que não é possível com os testes apresentados até aqui. Para um nível acima de detalhamento das associa- ções em que se identifiquem relações entre pares de variáveis são indicados, entre outros, os testes que serão apresentados a seguir. 1.2 coeficiente delta (Δ) para diferenças de fo e fe Um coeficiente Δ é uma medida que mostra a existência ou não de valores “sobrando” em determinados pares de categorias. Portanto, ele só deve ser aplicado em comparações entre duas variáveis, chamadas aqui de X e Y, mas poderiam ser quaisquer outras letras. Para deduzir se existe ou não alguma relação entre os pares de categorias das variáveis X e Y, comparam-se as frequências observadas a uma tabela com uma distribuição teórica na qual as distribuições são independentes – chamada de tabela de frequências esperadas. A hipótese estatística inicial é de que não há depen- dência de variações entre X e Y. Para tanto, é preciso que a frequência esperada seja a mesma ou esteja muito próxima da frequência observada, o que não nos permitirá rejeitar a hipótese nula. Por outro lado, a existência de diferenças significativas entre as CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 15 frequências observadas e as esperadas nos permite rejeitar a hipótese nula e passamos a considerar que as variações de X e Y apresentam alguma dependência. O passo se- guinte é medir a força da relação ou dependência entre as duas variáveis. O termo técnico para descrever a inexistência de relação entre duas variáveis é “independência estatística”. Portanto, temos independência estatística quando X e Y são estatisticamente independentes, o que ocorre quando as probabilidades das células esperadas igualam os produtos das probabilidades marginais relevantes. Nesse caso, também é indicado que as probabilidades de ocorrência de uma categoria em uma va- riável são as mesmas que as demais, independente da categoria da outra variável com a qual está ligada. Em outras palavras, a frequência de casos na categoria da segunda variável não faz diferença para a primeira para que a relação não tenha efeito estatísti- co. O que é diferente de dizer que não tem efeito algum. O coeficiente Δ serve para indicar a existência de diferenças entre pares de fre- quências de uma tabela de contingência. Normalmente, é utilizado em tabelas quádru- plas, para variáveis dicotômicas. No entanto, nada impede que também seja aplicado a cruzamentos entre variáveis com mais de duas categorias. O objetivo aqui é identificar se determinada característica conjunta de X e Y ocorre mais ou menos vezes do que seria esperado. Se isso acontecer, não podemos considerar as variáveis independentes para esse par de categorias. Aqui, são usadas as probabilidades observada e esperada nas comparações. Então, Δ pode ser representado pela seguinte fórmula: Δ = Prob. Observada− Prob. Esperada Onde: Prob. Observada = o valor da frequência de casos para determinado par de categorias; Prob. Esperada = a multiplicação das marginais da tabela, dividido pelo número total de casos. Digamos que o pesquisador queira encontrar o Δ para a probabilidade de ho- mens que foram eleitos vereador com escolaridade superior em 2016. A hipótese é que os homens com escolaridade superior sejam em maior proporção que mulheres com CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 16 escolaridade superior, entre os eleitos. O primeiro passo é montar uma tabela de contin- gência entre sexo dos vereadores eleitos e escolaridade declarada no registro ao TSE em 2016, como a que segue (para facilitar o exercício, foram agregadas as categorias “analfabeto” e “lê e escreve” e todas as categorias “incompleto” e “completo” em catego- ria única do nível de escolaridade. Assim, “ensino fundamental completo” e “ensino fun- damental incompleto” se transformaram em “ensino fundamental”, e sucessivamente): Tabela 1.2.1. Distribuição das proporções de vereadores eleitos por escolaridade e sexo em 2016 ESCOLARIDADE MULHER HOMEM TOTAL ANALFAB./LÊE ESCREVE 62 (0,001) 960 (0,017) 1.022 (0,018) ENSINO FUNDAMENTAL 905 (0,016) 14.617 (0,254) 15.522 (0,270) ENSINO MÉDIO 2.757 (0,048) 20.775 (0,362) 23.532 (0,410) SUPERIOR 4.042 (0,070) 13.330 (0,232) 17.372 (0,302) TOTAL 7.766 (0,135) 49.682 (0,865) 57.448 (1,000) Fonte: autor a partir de TSE Olhando as marginais da tabela, é possível perceber que de maneira geral os homens representam quase nove em cada dez eleitos em 2016 (0,865), enquanto as mulheres ficam em uma proporção de apenas 0,135. Já as marginais das linhas mos- tram que a escolaridade dos eleitos também apresenta grande desproporção. A catego- ria “sem escolaridade” representa apenas 0,018 dos eleitos, passa a 0,270 a proporção de eleitos com ensino fundamental, sobe para 0,410 em ensino médio e cai para 0,302 para ensino superior. Se olharmos para o corpo da tabela, encontramos os valores das participações proporcionais de cada par de categorias. No caso, o que interessa aqui são os homens com escolaridade superior, que apresentam proporção de 0,232 (13.330 / 57.448 = 0,232). A questão é saber se essa proporção equivale a uma distribuição independente para o par de categorias ou se, ao contrário, ela indica a existência de algum grau de associação. O primeiro passo é encontrar a probabilidade esperada para eleitos com escolaridade superior. Como a tabela 1.2 já nos dá as proporções basta multiplicar a marginal da linha “escolaridade superior” pela marginal da coluna “homem”: 0,302 x 0,865 = 0,261. Então, a proporção esperada de homens eleitos por partido de direita é de 0,261. Para conhecer o Δ, aplica-se a fórmula: CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 17 Δpd = Prob. Observada− Prob. Esperada = 0,232− 0,261 = −0,029 O resultado do Δpd (delta para prefeitos de direita) é de -0,029, portanto, muito próximo de zero, ficando praticamente idêntico ao que seria uma distribuição indepen- dente. Não podemos dizer que foram eleitos mais homens com escolaridade superior do que mulheres com a mesma escolaridade, pois o valor observado não se distanciou do esperado, o que indica variações independentes entre as duas variáveis para essas categorias. A tabela 1.2.2 a seguir mostra os valores Δ para todas as categorias do exemplo. Tabela 1.2.2. Valores de Δ para todos os pares de categorias da tabela 1.2 ESCOLARIDADE MULHER HOMEM ANALFAB./LÊ E ESCREVE -0,001 0,001 ENSINO FUNDAMENTAL -0,021 0,021 ENSINO MÉDIO -0,007 0,007 SUPERIOR 0,029 -0,029 Fonte: autor A tabela acima mostra que as variações das proporções de homens e mulheres eleitos por escolaridade são muito pequenas, girando em torno do valor teórico. Todas ficam abaixo de 3% de diferença. Portanto, ainda não podemos dizer que existam dife- renças significativas na eleição de homens ou mulheres entre os níveis de escolaridade, embora as categorias ensino superior e ensino fundamental apresentem as maiores diferença de Δ para homens e mulheres – com sinal invertido. Para ensino fundamental, o coeficiente é positivo para homens e negativo para mulheres, indicando que houve maior ocorrência de homens nessa categoria do que mulheres, enquanto que para es- colaridade superior o sinal negativo é para homens. Como a variável sexo possui apenas duas categorias (homem ou mulher), os coeficientes por grau de escolaridade serão os mesmos, havendo diferenças apenas entre os sinais positivo ou negativo. O sinal do Δ indica a direção. Se as diferenças proporcionais fossem maiores, poderíamos dizer que foram eleitas mais mulheres com escolaridade superior do que homens, proporcionalmente. No próximo tópico discutire- CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 18 mos como identificar os pontos críticos a partir dos quais podemos afirmar que não há independência de variações entre pares de categorias. Por enquanto, olhando para a tabela 1.2.2 acima, é possível concluir que entre escolaridade e sexo dos vereadores eleitos em 2016, os níveis “sem escolaridade” (analfabeto e lê e escreve) e “escolarida- de média” apresentam Δ muito próximos a zero, indicando que proporcionalmente para esses dois níveis foram eleitos tantos homens quanto mulheres. Já para escolaridade média o Δ indica uma diferença em favor dos homens e na escolaridade superior a di- ferença é favorável às mulheres, em função da inversão dos sinais positivo e negativo entre os sexos dos eleitos. O fato de não encontrarmos dependência de variação entre as categorias não é um problema tão grande, pois um Δ diferente de zero também não significaria muita coisa. Isso porque esse é um coeficiente muito rústico. Seu forte não é a precisão. Ele apresenta dois sérios limitadores para a interpretação estatística: i) é sensível ao tamanho da amostra. Se dobrássemos o N no exemplo anterior o valor de cada Δ também seria o dobro. Isso impossibilita a comparação de coeficientes Δ em amostras com N diferentes, e; ii) O coeficiente Δ não possui um limite superior. No limite inferior o valor é zero, mas não é possível saber até quanto se pode chegar ao outro limite, tanto positivo, quanto negativo. Isso impossibilita estabelecer magnitudes comparativas (Pestana & Gageiro, 2014). Por outro lado, a vantagem do coeficiente Δ é a simplicidade do seu cálculo para tabelas de contingência. No próximo tópico, serão apresentados testes mais so- fisticados que permitem maior detalhamento nas análises de relações entre pares de categorias de duas variáveis distintas. 1.3 testes de associação entre cateGorias de variáveis noMinais eM tabelas de continGência (resíduos brutos e resíduos padronizados) O coeficiente Δ é o primeiro obtido a partir da diferença entre o valor esperado e o que foi realmente observado na distribuição. Essa é a base para uma série de des- CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 19 crições e inferência estatísticas comumente usadas na Ciência Política. Alguns testes ganham em detalhamento. Como veremos mais adiante, o coeficiente Gama considera as direções das categorias ordinais para o estabelecimento das somas de valores de pares consistentes e de pares inconsistentes para identificação da existência ou não de associação entre as variáveis. Porém, antes do Gama, quando estamos analisando as relações entre as cate- gorias das variáveis nominais, não existe uma organização ordinal e transitiva entre as categorias. Logo, levar em conta a posição da categoria nas linhas ou nas colunas em relação a seus “vizinhos” não faz sentido nesse caso. Quando usamos o teste χ², temos apenas um coeficiente que indica a existência de relação entre pelo menos duas das categorias das variáveis testadas. Mas, pode ser que queiramos uma indicação mais precisa sobre quais das categorias das duas variáveis apresentam relações mais fortes, ou seja, quais contribuem de fato para a rejeição da hipótese de independência entre as variáveis. Para conhecer o peso das relações entre cada par de categorias, recomenda- se, entre outras, a análise de resíduos em tabelas de contingência. Uma tabela de contingência é uma tabela que sumariza as frequências de ocorrências para cada par de categorias de duas variáveis X e Y quaisquer. O concei- to de independência entre variáveis tem como princípio que a distribuição observada das frequências nas casas da tabela de contingência é muito próxima da distribuição esperada das frequências, ou seja, que a diferença entre as frequências observada e esperada deve estar próxima de zero no caso de distribuições independentes. Se hou-ver diferenças entre a distribuição esperada e observada, podemos pensar em rejeitar a hipótese nula e considerar a existência de alguma associação entre pelo menos um par de categorias das duas variáveis testadas. Um exemplo de tabela de contingência para duas variáveis nominais é a que segue (tab. 1.3.1), entre ideologia do partido do eleito a vereador em 2016 por região do país. Como se trata apenas de um exemplo, não en- trarei na discussão sobre que partidos são de direita, de centro e de esquerda no Brasil, pois isso com certeza daria uma série de outros livros. Apenas informo que os critérios utilizados são os mais aceitos pela literatura da Ciência Política brasileira, agrupando os partidos por ideologia a partir dos eixos participação do Estado na economia e defesa de valores morais. CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 20 Tabela 1.3.1. Distribuição do nº de vereadores eleitos por ideologia partidária e região do País IDEOLOGIA NE SD CO NO SU TOTAL ESQUERDA 4.518 2.622 730 865 2.488 11.223 CENTRO 3.983 5.247 1.529 1.187 4.172 16.118 DIREITA 10.546 9.595 2.485 2.767 4.983 30.376 TOTAL 19.047 17.464 4.744 4.819 11.643 57.717 Fonte: autor a partir do TSE Aplicando a fórmula do χ², teríamos um coeficiente de χ² = 1.377,501 para as distribuições de frequências das duas variáveis. Considerando que temos 8 graus de liberdade [(3-1) x (5-1) = 8], se olharmos na tabela padronizada do χ² no anexo 1 deste capítulo, perceberemos que o limite crítico para o graus de liberdade e intervalo de con- fiança de 95% é de 15,50. Portanto o valor χ² = 1.377,501 fica muito acima desse limite. Isso nos permite rejeitar a hipótese nula e aceitar a possibilidade de que as variações das categorias das duas variáveis não são totalmente independentes. Nesse caso, po- demos considerar que as variações de eleitos por ideologia e região do país apresen- tam alguma dependência, não sendo aleatórias as distribuições, pois o χ² aponta para uma possibilidade muito abaixo do limite crítico para a aceitação da aleatoriedade. No entanto, usando o χ² pararíamos as análises aqui. Este coeficiente não nos permite especular sobre porque essa dependência ocorre, por exemplo. Outra questão que fica sem resposta é se existe dependência entre todos os pares de categorias das variáveis ou em apenas parte deles. Por exemplo, é possível pensar que eleitos por partidos de esquerda concentrem-se mais em algumas regiões do País, enquanto eleitos por parti- dos de centro estão mais distribuídos em todas as regiões. O coeficiente χ² não permite verificar a validade dessas afirmações. É preciso complementar as análises a partir dos testes de resíduos em tabelas contingenciadas, também chamados de resíduos brutos. 1.3.1 cálculo dos resíduos brutos (rb) Você já deve ter notado que os resíduos brutos nada mais são do que a dife- rença entre a Frequência Observada (Fo) e a Frequência Esperada (Fe). Eles ajudam CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 21 a evitar erros comuns na interpretação dos valores observados, pois quando as margi- nais não têm os mesmos valores, as frequências totais podem ser enganosas (Pereira, 2004). Por exemplo, na tabela anterior podemos olhar para a linha dos partidos de direi- ta e comparar com a coluna da região sul concluindo que a direita elegeu mais que os partidos de centro nessa região (4.983 da direita no sul contra 4.172 do centro no sul). No entanto, se considerarmos as diferenças das marginais das linhas, perceberemos que proporcionalmente ao total de vereadores de direita e de centro, a participação dos partidos de centro no sul em relação ao total dos vereadores de centro foi maior do que a participação dos partidos de direita. São 4.172 de centro no sul de um total de 16.118, contra 4.983 de direita no sul de um total de 30.376. Por definição, o resíduo bruto de uma casa é a diferença entre a Fo e Fe. Na linguagem matemática seria: 𝑅𝑅𝑏𝑏 = 𝐹𝐹𝑜𝑜 − 𝐹𝐹𝑒𝑒 Já a Frequência esperada é calculada da seguinte forma: 𝐹𝐹𝑒𝑒 = 𝑀𝑀. 𝐿𝐿𝐿𝐿𝐿𝐿ℎ𝑎𝑎 𝑥𝑥 𝑀𝑀.𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐿𝐿𝑎𝑎 𝑁𝑁 Onde: M. linha = marginal da linha; M. coluna = marginal da coluna; N = total de casos na tabela. Para o exemplo anterior, a Fe do par eleito por “partido de esquerda” e estar na “região norte” seria: 𝐹𝐹𝑒𝑒 = 𝑀𝑀. 𝐿𝐿𝐿𝐿𝐿𝐿ℎ𝑎𝑎 𝑥𝑥 𝑀𝑀.𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐿𝐿𝑎𝑎 𝑁𝑁 = 11.223 𝑥𝑥 4.819 57.717 = 937,04 E o resíduo bruto para esse par de casos seria: 𝑅𝑅𝑏𝑏 = 𝐹𝐹𝑜𝑜 − 𝐹𝐹𝑒𝑒 = 865 − 937,04 = −72,04 A interpretação desse resultado é que na distribuição observada os partidos de esquerda tiveram cerca de 72 vereadores eleitos a menos na região norte do que deveria existir caso as distribuições fossem independentes. CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 22 Tabela 1.3.2. Valores de Freq. Esperada e Resíduos Brutos para ideologia do partido do vereador eleito e região do país em 2016 NE SD CO NO SU NE SD CO NO SU ESQ. 3.703,67 3.395,85 922,46 937,05 2.263,97 814,33 -773,85 -192,46 -72,05 224,03 CEN. 5.319,05 4.876,98 1.324,81 1.345,75 3.251,41 -1.336,05 370,02 204,19 -158,75 920,59 DIR. 10.024,29 9.191,16 2.496,73 2.536,20 6.127,62 521,71 403,84 -11,73 230,8 -1.144,62 IDEOL Frequência Esperada Resíduo Bruto Fonte: autor Agora, tendo gerado os resíduos brutos, já podemos identificar as principais di- ferenças nas concentrações dos valores. Olhando para a tabela como um todo, percebe- mos que os maiores resíduos brutos estão na região nordeste, onde partidos de esquerda elegeram 814,33 vereadores a mais do que o esperado e os partidos de direita elegeram 521,71 a mais. Já os partidos de centro elegeram menos 1.336,05 vereadores do que o esperado para o Nordeste, sendo este o maior valor negativo da tabela. A leitura também pode ser feita nas linhas. Por exemplo, os partidos de centro elegeram mais que o espe- rado no Sudeste, Centro-oeste e Sul, nesta última região é a maior diferença positiva da tabela (920,59 vereadores eleitos por partidos de centro a mais do esperado para a região sul). Seguindo a leitura por linhas, o melhor desempenho dos partidos de esquerda foi na região nordeste, com 814,33 eleitos a mais do que o esperado, assim como partidos de di- reita no nordeste também tiveram seu melhor desempenho, com 521,71 eleitos a mais que o esperado. Partidos de esquerda tiveram resultados positivos apenas no nordeste e no sul, enquanto partidos de direita tiveram bons desempenhos no nordeste, sudeste e norte. A vantagem da análise dos resíduos brutos é que os valores estão na unidade de análise, no caso, em número de vereadores eleitos. Por outro lado, isso pode ser uma desvantagem, pois não permite comparações diretas com resíduos de outras dimensões ou até mesmo magnitudes. O problema dos resíduos brutos é serem pouco informativos, pois não apresentam variância constante. Em outras palavras, são não-padronizados. Também não permitem a verificação de pontos extremos (outliers) por não poderem ser comparados diretamente. Para resolver esse problema é preciso padronizar os resíduos. Com isso, torna-se possível verificar quem são as relações de casos mais extremos, quais são as maiores concentrações de casos e como se trata de valores adimensionais é pos- sível comparar resíduos padronizados de variáveis de distintas dimensões ou magnitudes. CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política- Volume 2 | Emerson Urizzi Cervi 23 Até padronizarmos os resíduos não é possível saber quais são os resíduos com tamanho suficiente para serem considerados estatisticamente significativos e quais estão abaixo do limite crítico. O χ² da tabela de contingência mostrou que as variáveis apresentam dependência de variações. Os resíduos brutos indicaram diferenças que em alguns pares chegam a ser dez vezes maiores que em outros. Se por um lado os partidos de centro apre- sentaram o maior resíduo bruto (+920,59) na região sul, eles também ficaram com o maior resíduo negativo (-1.336,05) na região nordeste. Será que os dois podem ser considerados válidos no teste de associação entre as variáveis? Já o menor resíduo de toda a tabela, aquele que mais se aproximou de zero, foi para partidos de direita na região centro-oeste (-11,73). Até que ponto os resíduos podem ser usados como indicadores de diferenças sig- nificativas? Para responder a essas perguntas é preciso padronizar os valores dos resíduos e, a partir de um limite pré-estabelecido, indicar se os resíduos são significativos ou não. Os Resíduos Padronizados (Rp) usam os valores equivalentes a z-score para permitir a identificação dos pares que estão acima do limite crítico e, portanto, apresen- tam “acúmulos” de frequências acima ou abaixo do que seria estatisticamente esperado significativo se a distribuição dos casos entre as variáveis fosse independente. Porém, antes de entrarmos nas explicações específicas do Resíduo Padronizado é preciso um lembrete: só faz sentido calcular o resíduo padronizado quando o resultado do χ² de uma tabela de contingência é significativo. Se o resultado não for estatisticamente significati- vo, todos os valores de Resíduos Padronizados ficarão abaixo do limite crítico, ou seja, não serão significativos. Por outro lado, se tivermos um χ² significativo em uma tabela de contingência, devemos calcular os resíduos padronizados para identificar quantos e quais pares de casos estão acima do limite crítico, quer dizer, concentram ou não mais casos do que o esperado se as variáveis fossem independentes. 1.3.2 cálculo dos resíduos padronizados (rp) A análise de resíduos padronizados nada mais é do que a verificação dos valores que representam a relação biunívoca (nas duas direções) com probabilidade de chances de ocorrências. Ou seja, são os valores que sobram (para mais ou para menos) quando a CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 24 distribuição entre o valor observado e o esperado fica distante de zero, ou seja, a variação não é aleatória. Ao se estabelecer 95% de intervalo de confiança, essas chances de ocor- rência são de ± 1,96, valor que serve de ponto de corte para o nível de significância de falta ou excesso de ocorrência entre as variáveis, o que permite distinguir os valores de pares casuais dos não casuais. Como o valor na tabela z-score para o intervalo de confiança de 95% é de 1,96, pode-se considerar que valores de resíduos padronizados acima de +1,96 ou abaixo de –1,96 apresentam excessos ou ausência de casos significativos, sendo, por- tanto, responsáveis pelas relações não aleatórias apontadas pelo coeficiente χ². Todo resíduo, seja ele bruto ou padronizado, serve para indicar as diferenças entre o valor observado e o valor esperado em uma distribuição de frequências. O cálculo dos resíduos padronizados é bastante simples e quase intuitivo. Os valores são padroni- zações, ou seja, transformações adimensionais dos resíduos brutos. Um resíduo padroni- zado (Rp) é calculado a partir da padronização dos resíduos brutos para que passem a ter variância igual e apresentem-se de maneira adimensional, transformando-se em um coe- ficiente. Por ser padronizado, o Rp apresenta variância constante, o que permite a com- paração direta entre valores de diferentes magnitudes. Se a análise é feita a partir de uma grande amostra (n > 120) e intervalo de confiança de 95% (z = 1,96), qualquer resíduo acima de 1,96 deve ser considerado estatisticamente significativo, ou seja, o resíduo en- contrado naquela relação biunívoca é maior do que supunha a hipótese de independência entre as variações das duas variáveis. Podemos calcular os resíduos padronizados em tabelas de contingência de variáveis categóricas a partir da seguinte fórmula: 𝑅𝑅𝑝𝑝 = 𝑅𝑅𝑏𝑏 �𝐹𝐹𝑒𝑒 Onde: Rp = resíduo padronizado Rb = resíduo bruto Fe = frequência esperada Usando o mesmo exemplo das distribuições de vereadores eleitos por ideologia partidária e região do País, temos que para a primeira célula da tabela de contingência – CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 25 L1, partido de esquerda, C1, região nordeste – o seguinte cálculo de Resíduo Padronizado: 𝑅𝑅𝑝𝑝(𝑙𝑙1,𝑐𝑐1) = 𝑅𝑅𝑏𝑏 �𝐹𝐹𝑒𝑒 = 814,33 √13.703,67 = 6,95 Considerando o limite crítico de 1,96, podemos afirmar que os resíduos de par- tidos de esquerda na região nordeste são estatisticamente significativos. Ou seja, a es- querda elegeu mais (sinal positivo) vereadores no nordeste do que esperado se a distri- buição dos eleitos de esquerda fosse aleatória por região do país. A tabela a seguir mostra todos os resultados de Resíduos padronizados para as duas variáveis. Nela podemos perceber que um dos valores não é estatisticamente signifi- cativo. Ou seja, esse par de categorias não deve ser considerado com variações in- dependentes, ainda que apresente resíduos brutos. É o caso dos vereadores eleitos por partidos de direita no Centro-Oeste (-0,235), bastante abaixo do limite de -1,96. Dos outros 14 pares de categorias que ficaram acima do limite crítico, oito apresen- taram resíduos positivos e seis com resíduos negativos (indicados pelas cores azul e vermelha na tabela 1.3.3). Os resíduos padronizados mais intensos, como espe- rado, são os mesmos que os resíduos brutos, porém, agora com valores adimensio- nais. É o caso da eleição de vereadores de centro no Nordeste (-18,319) e partidos de centro no Sul (+16,145). Partidos de esquerda no Nordeste apresenta o segundo maior resíduo positivo (+13,381) e a direita na região Sul apresenta o segundo maior resíduo negativo (-14,622). Excetuando este último, os resíduos por região para partidos de direita são os que ficam mais próximos de zero, indicando que esta po- sição ideológica foi a que mais se aproximou de uma distribuição independente de região para todo País. Já os partidos de esquerda tenderam a concentrar eleitos no Nordeste, enquanto partidos de centro elegeram mais na região Sul. Tabela 1.3.3. Resíduos Padronizados para ideologia do partido do eleito por região IDEOLOGIA NE SD CO NO SU ESQUERDA 13,381 -13,28 -6,337 -2,354 4,708 CENTRO -18,319 5,298 5,61 -4,327 16,145 DIREITA 5,211 4,212 -0,235 4,583 -14,622 Fonte: autor CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 26 Não vem ao caso, aqui, discutir quão contra intuitivo para o senso comum é a tabela 1.3.3, pois, de acordo com o senso comum, o eleitor nordestino tenderia a ser o mais refratário em relação à ideologia de esquerda em função das relações históricas com lideranças políticas ligadas a partidos que representam o centro ou a direita regional. A literatura especializada em eleições no Brasil tem demonstrando como nas últimas déca- das o perfil de voto regional foi se transformando no Brasil, em especial após a chegada do principal partido de esquerda do País, o PT, ao governo federal (Cervi, 2016). Como os resíduos são padronizados, também é possível fazer a leitura compa-rando os valores na mesma coluna, ou seja, entre as regiões. Nesse caso, teríamos que no Nordeste há um predomínio de vereadores de partidos de esquerda, no Sudeste há uma presença quase equilibrada entre partidos de centro e de direita, no Centro-Oeste predominam vereadores de partidos de centro, no Norte estão os vereadores de partidos de direta e no Sul voltam a eleger mais os partidos de centro. Em resumo, os resíduos padronizados foram necessários para a identificação individualizada da concentração de valores em pares de casos – acima ou abaixo – do esperado e dentro ou fora do limite crí- tico da significância estatística. Até então, o que tínhamos encontrado era um coeficiente que representasse o conjunto das relações entre todos os pares de casos. 1.3.3 cálculo dos resíduos padronizados para análises teMporais Uma das principais limitações das técnicas quantitativas de análises tempo- rais (as chamadas séries temporais) é a necessidade de um número mínimo de ob- servações no tempo muito alto. Normalmente, é aceitável do ponto de vista estatístico pelo menos 120 pontos observados ao longo do tempo para uma análise consistente. Na maioria das vezes, os objetos de análise da ciência política não possuem todos esses pontos de observação no tempo. Isso é muito difícil em análises eleitorais, pois a distância entre as medições é grande, bianual, quadrienal ou até mais. Portanto, precisaríamos de dois séculos ou mais com dados disponíveis para podermos usar as técnicas tradicionais nesse caso. Mas, se a tabela de contingência for organizada em ordem temporal, os Resíduos Padronizados podem substituir as técnicas de séries CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 27 temporais com a vantagem de ser possível trabalhar com poucos pontos no tempo. Quando comparados entre si, resíduos padronizados em uma tabela de con- tingência mostram as diferenças relativas entre cada par de categorias. Se uma das variáveis for temporal, a transição de uma categoria para outra indica uma mudança no tempo. Assim, diferenças de resíduos apontam para maior ou menor concentração de casos em determinado momento do tempo. Mas, atenção, os resíduos não são capa- zes de indicar quanto da mudança no tempo seguinte (t1) é consequência ou “memória” da quantidade da característica no tempo anterior (t0). Conhecer a proporção da ca- racterística que influencia o tempo seguinte apenas é possível usando as técnicas de análise de séries temporais que decompõem os valores – nesse caso, volta o problema da dependência do número mínimo de observações no tempo. Usaremos para exemplificar o cálculo dos resíduos padronizados a distribui- ção dos deputados estaduais eleitos no Brasil entre 1998 e 2014. Como nesse perío- do foram criados mais partidos dentro da posição de ideologia de centro e de direita, para não enviesar os resultados, vamos comparar os desempenhos apenas dos três maiores partidos que disputaram todas as eleições entre 1998 e 2014 (PT, PMDB e PSDB). Então, o objetivo da análise passa a ser verificar as mudanças nos resíduos padronizados de deputados estaduais eleitos entre as eleições. Nosso objetivo é sa- ber se houve ou não variação estatisticamente significativa do desempenho de cada partido entre as eleições do período, usando a análise de resíduos. Para identificar os resíduos seguem-se os mesmos três passos do caso anterior, para cada um dos pares de resultados (Partido na linha x Ano na coluna). Para a primeira casa da tabela 1.3.4, número de deputados estaduais do PT eleitos por ano, teríamos o seguinte: 1º Passo (encontrar a Frequência Esperada) F𝑒𝑒 = 𝑀𝑀𝑀𝑀 𝑥𝑥 𝑀𝑀𝑀𝑀 𝑁𝑁 = 581 𝑥𝑥 332 1.924 = 100,25 2º Passo (encontrar o Resíduo bruto) 𝑅𝑅𝑏𝑏 = 𝐹𝐹𝑜𝑜 – 𝐹𝐹𝑒𝑒 = 67 – 100,25 = −33,25 3º Passo (encontrar o Resíduo Padronizado) 𝑅𝑅𝑝𝑝 = 𝑅𝑅𝑅𝑅 √𝐹𝐹𝐹𝐹 = −33,25 �100,25 = −3,321 CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 28 Este mesmo procedimento deve ser repetido para todas as demais relações en- tre as categorias das variáveis analisada aqui. A princípio, olhando os valores brutos (N) na tabela 1.3.4 podemos perceber que os deputados estaduais eleitos pelo PT foram os que mais cresceram em número no período. Os do PMDB ficaram praticamente estáveis e os do PSDB apresentaram queda no período. Como as diferenças entre os totais por ano são relevantes – os três partidos elegem 332 deputados estaduais em 1998, esse número sobe para 433 em 2006, para depois cair a 341 em 2014 – seria equivocado comparar os valores de eleitos entre partidos ao longo do tempo. Os resíduos padronizados resolvem o problema das diferenças de totais. Na tabela 1.3.4, a linha Rp indica o resíduo para cada partido e ano de deputados estaduais eleitos, considerando apenas os três partidos. Ou seja, estamos interessados em saber se algum deles cresceu ou diminuiu em relação aos outros dois e não ao total geral. Tabela 1.3.4. Número de deputados estaduais eleitos e resíduos padronizados para PT, PMDB e PSDB entre 1998 e 2014 PARTIDO EST. 1998 2002 2006 2010 2014 TOTAL N 67 142 122 144 106 581 Rp -3,321 1,664 -0,766 1,844 0,298 N 133 130 161 147 139 710 Rp 0,947 -1,704 0,096 -0,32 1,173 N 132 137 150 118 96 633 Rp 2,179 0,21 0,632 -1,428 -1,528 332 409 433 409 341 1924TOTAL PT PMDB PSDB Fonte: autor a partir do TSE Como já sabemos, resultados acima de ± 1,96 para Resíduos Padronizados de- vem ser considerados estatisticamente significativos. Se positivo, significa que aquele par de categorias apresenta mais casos do que deveria caso as variáveis fossem indepen- dentes. Se negativo, ele concentra menos casos do que seria esperado. Na tabela acima, apenas dois resíduos mostram-se significativos, apesar das grandes variações de (N) dos partidos entre os anos. Em 1998, o resíduo padronizado do PT é -3,321, indicando que entre os três partidos ele foi o que elegeu menos parlamentares. O outro, em 1998, foi o resíduo para PSDB (+2,179), único resíduo positivo acima do limite crítico de toda a CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 29 série. Perceba que em termos de (N), em 1998 o PSDB elegeu um deputado estadual a menos que o PMDB. Ainda assim, o Rp do PSDB é maior que o do PMDB, isso porque os valores estão padronizados levando em conta as cinco eleições. De qualquer maneira, em geral os desempenhos dos três partidos, quando comparados entre si nas eleições para deputado estadual entre 1998 e 2014, não sofreram grandes diferenças, em especial nas disputas do final do período. No entanto, é importante lembrar que os dados da tabela 1.3.4 estão agregados para todo o País. Se quisers, podemos desagregar por região para tornar as informações ainda mais detalhadas e sermos capazes de identificar se, quando comparados entre si, um dos três partidos ganhou ou perdeu mais deputados estaduais por região e ano elei- toral. A tabela 1.3.5 é resultado dos mesmos procedimentos já demonstrados acima, por isso estão apenas os resultados de N e Rp por região e ano. Como se pode perceber a partir das indicações e cores para os resíduos esta- tisticamente significativos, na maior parte das eleições não houve diferenças estatistica- mente significativas entre os números de deputados estaduais eleitos pelos três partidos. O PMDB oscilou, abaixo do limite crítico, sem uma tendência clara, em todas as regiões nas cinco disputas. O PT apresentou tendência de crescimento na região Norte e uma tendência constante de queda nos resíduosda região Sul durante o período, porém, todos os coeficientes ficaram abaixo do limite crítico nessas duas regiões. No Centro-Oeste, ele oscilou sem tendência clara. No Nordeste, ele passou de coeficiente negativo e estatisti- camente significativo em 1998 (-2,466) para resíduo positivo, porém, abaixo do limite críti- co, em 2014 (+0,795). E no Sudeste apresentou redução de resíduo negativo e estatistica- mente significativo em 1998 (-2,327) para -0,217 em 2014. O PSDB, quando comparado aos outros dois partidos, oscilou sem tendência clara no Norte e Centro-Oeste entre 1998 e 2014. No Nordeste, ele apresentou queda comparativa, passando do resíduo positivo e não significativo de +1,161 em 1998, para -2,128 em 2014. No Sudeste, ele também apresenta queda comparativa no número de deputados estaduais eleitos, passando de resíduo positivo e significativo (+2,229) em 1998 para negativo e não significativo em 2014 (-0,656). Na região Sul, o PSDB apresenta oscilação abaixo do limite crítico, porém, com tendência de crescimento, passando de um resíduo negativo -0,298 no início da série temporal, para +0,421 no final do período de análise. CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 30 Tabela 1.3.5. Dep. estaduais eleitos e resíduos padronizados para PT, PMDB e PSDB por região do País entre 1998 e 2014 1998 2002 2006 2010 2014 N 12 19 20 20 16 87 Rp -0,437 -0,054 0,039 0,386 0,005 N 21 25 26 26 24 122 Rp 0,438 -0,38 -0,342 0,054 0,336 N 13 21 21 16 14 85 Rp -0,082 0,509 0,37 -0,455 -0,408 46 65 67 62 54 294 1998 2002 2006 2010 2014 N 16 33 34 43 28 154 Rp -2,466 -0,041 -0,244 1,975 0,795 N 47 40 44 41 41 213 Rp 1,003 -0,881 -0,719 -0,46 1,329 N 43 47 50 31 18 189 Rp 1,161 0,972 0,984 -1,294 -2,128 106 120 128 115 87 556 1998 2002 2006 2010 2014 N 3 9 9 9 9 39 Rp -1,532 0,069 0,203 0,489 0,724 N 17 14 21 19 14 85 Rp 0,403 -1,18 0,623 0,572 -0,361 N 17 23 14 12 14 80 Rp 0,654 1,168 -0,784 -0,931 -0,134 37 46 44 40 37 204 1998 2002 2006 2010 2014 N 19 50 37 45 34 185 Rp -2,327 1,877 -0,487 0,951 -0,217 N 26 27 33 30 34 150 Rp -0,022 -0,737 0,088 -0,296 1,007 N 49 35 47 39 35 205 Rp 2,229 -1,153 0,388 -0,65 -0,656 94 112 117 114 103 540 1998 2002 2006 2010 2014 N 17 31 22 27 19 116 Rp -0,054 1,619 -0,974 -0,08 -0,455 N 22 24 37 31 26 140 Rp 0,266 -0,756 0,758 -0,363 0,108 N 10 11 18 20 15 74 Rp -0,298 -0,988 0,176 0,6 0,421 49 66 77 78 60 330 TOTAL PARTIDO EST. NORTE TOTAL PT PMDB PSDB TOTAL PARTIDO EST. NORDESTE TOTAL PT PMDB PSDB TOTAL PARTIDO EST. CENTRO-OESTE TOTAL PT PMDB PSDB SUL TOTAL PARTIDO EST. SUDESTE TOTAL PT PMDB PT PMDB PSDB TOTAL PSDB TOTAL PARTIDO EST. Fonte: autor a partir do TSE Como é possível perceber nos dados da tabela acima, quando separamos os desempenhos por regiões ganhamos em detalhamento de informações, porém, torna-se mais complexa a explicação das relações e, portanto, mais fácil de tornar os resultados CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 31 incompreensíveis. Em resumo, se no final do período o desempenho comparativo dos três partidos para deputado estadual apresentou resíduos muito próximos entre si, em 1998 o PSDB apresentava melhor desempenho do que o PT e o que explica essa diferença é que no final da década de 1990 o PT elegia menos deputados no nordeste e no Sudeste, enquanto o PSDB elegia mais no Sudeste. Em 2014, o PSDB elegeu menos no Nordeste, equiparando as diferenças iniciais com o PT. O objetivo deste capítulo foi apresentar algumas técnicas simples para cálculo de coeficientes específicos aplicados a variáveis categóricas e para dados secundários, a partir de tabelas de contingência. Essas ferramentas são úteis para o pesquisador que pretende trabalhar com informações extraídas de relatórios ou publicações sobre os quais não é possível acessar o banco de dados primário. A recomendação geral é que o pesqui- sador use diferentes técnicas para complementar as informações obtidas isoladamente. Dependendo do tipo de variável, faça um teste de χ² de início e, se os coeficientes forem estatisticamente significativos, agregue uma análise de Resíduos Padronizados. Com isso, você poderá tirar conclusões não apenas sobre as variações das variáveis, mas também para os pares de relações entre as categorias. No próximo capítulo, discutiremos um teste estatístico específico para verificar a associação entre duas variáveis binárias, ou seja, para testar a força da relação entre as categorias em uma tabela quádrupla (2x2), que é simples, rápido e fornece coeficientes bastante explicativos. Quando aplicados a tabelas quádruplas, os testes dispensam a análise de resíduos individuais. Por fim, vale (re)lembrar que o conjunto de testes apresentado aqui abrange uma pequena parte das ferramentas estatísticas disponíveis para análise de dados categóricos. 1.4 referências biblioGráficas do capítulo i Cervi, E. U. (2016). PSDB & PT em eleições nacionais. Salamanca/Curitiba: Flacso-es/ CPOP. Pereira, J. C. R. (2004). Análise de Dados Qualitativos. São Paulo: EdUSP. Pestana, M. H., & Gageiro, J. N. (2014). Análise de Dados Para Ciências Sociais. Lisboa: Ed. Sílabo. CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 32 1.5 exercícios propostos do capítulo i Considere a tabela de contingência a seguir para o cruzamento entre as variáveis “Sexo do eleito” e “Partido” para o número de deputados estaduais eleitos em 2014. Atenção, trata-se de um exercício, portanto, faça os três cálculos indicados abaixo, independente do nível de significância da independência das variações: 1.5.1 O Coeficiente V de Cramer; 1.5.2 Os valores de Delta para todos os pares; 1.5.3 Os resíduos padronizados para todos os pares. Interprete os resultados considerando a pergunta: É possível dizer que existiram dife- renças estatisticamente significativas entre as proporções de mulheres eleitas por PT, PMDB e PSDB para deputadas estaduais em 2014? CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 33 PT PMDB PSDB HOMEM 79 686 581 1.346 MULHER 21 238 244 503 TOTAL 100 924 825 1.849 SEXO PARTIDO TOTAL = 5,263 (0,072) χ2 anexo 1.1 – valores padronizados da distribuição do χ2 anexo do capítulo i GL 0,995 0,975 0,9 0,5 0,1 0,05 0,025 0,01 0,005 0,001 1 0,000 0,001 0,016 0,455 2,706 3,841 5,024 6,635 7,879 10,827 2 0,010 0,051 0,211 1,386 4,605 5,991 7,378 9,210 10,597 13,815 3 0,072 0,216 0,584 2,366 6,251 7,815 9,348 11,345 12,838 16,266 4 0,207 0,484 1,064 3,357 7,779 9,488 11,143 13,277 14,860 18,466 5 0,412 0,831 1,610 4,351 9,236 11,070 12,832 15,086 16,750 20,515 6 0,676 1,237 2,204 5,348 10,645 12,592 14,449 16,812 18,548 22,457 7 0,989 1,690 2,833 6,346 12,017 14,067 16,013 18,475 20,278 24,321 8 1,344 2,180 3,490 7,344 13,362 15,507 17,535 20,090 21,955 26,124 9 1,735 2,700 4,168 8,343 14,684 16,919 19,023 21,666 23,589 27,877 10 2,156 3,247 4,865 9,342 15,987 18,307 20,483 23,209 25,188 29,588 11 2,603 3,816 5,578 10,341 17,275 19,675 21,920 24,725 26,757 31,264 12 3,074 4,404 6,304 11,340 18,549 21,026 23,337 26,217 28,300 32,909 13 3,565 5,009 7,041 12,340 19,812 22,362 24,736 27,688 29,819 34,527 14 4,075 5,629 7,790 13,339 21,064 23,685 26,119 29,141 31,319 36,124 15 4,601 6,262 8,547 14,339 22,307 24,996 27,488 30,578 32,801 37,698 16 5,142 6,908 9,312 15,338 23,542 26,296 28,845 32,000 34,267 39,252 17 5,697 7,564 10,085 16,338 24,769 27,587 30,191 33,409 35,718 40,791 18 6,265 8,23110,865 17,338 25,989 28,869 31,526 34,805 37,156 42,312 19 6,844 8,907 11,651 18,338 27,204 30,144 32,852 36,191 38,582 43,819 20 7,434 9,591 12,443 19,337 28,412 31,410 34,170 37,566 39,997 45,314 21 8,034 10,283 13,240 20,337 29,615 32,671 35,479 38,932 41,401 46,796 22 8,643 10,982 14,041 21,337 30,813 33,924 36,781 40,289 42,796 48,268 23 9,260 11,689 14,848 22,337 32,007 35,172 38,076 41,638 44,181 49,728 24 9,886 12,401 15,659 23,337 33,196 36,415 39,364 42,980 45,558 51,179 25 10,520 13,120 16,473 24,337 34,382 37,652 40,646 44,314 46,928 52,619 26 11,160 13,844 17,292 25,336 35,563 38,885 41,923 45,642 48,290 54,051 27 11,808 14,573 18,114 26,336 36,741 40,113 43,195 46,963 49,645 55,475 28 12,461 15,308 18,939 27,336 37,916 41,337 44,461 48,278 50,994 56,892 29 13,121 16,047 19,768 28,336 39,087 42,557 45,722 49,588 52,335 58,301 30 13,787 16,791 20,599 29,336 40,256 43,773 46,979 50,892 53,672 59,702 31 14,458 17,539 21,434 30,336 41,422 44,985 48,232 52,191 55,002 61,098 32 15,134 18,291 22,271 31,336 42,585 46,194 49,480 53,486 56,328 62,487 33 15,815 19,047 23,110 32,336 43,745 47,400 50,725 54,775 57,648 63,869 34 16,501 19,806 23,952 33,336 44,903 48,602 51,966 56,061 58,964 65,247 35 17,192 20,569 24,797 34,336 46,059 49,802 53,203 57,342 60,275 66,619 36 17,887 21,336 25,643 35,336 47,212 50,998 54,437 58,619 61,581 67,985 37 18,586 22,106 26,492 36,336 48,363 52,192 55,668 59,893 62,883 69,348 38 19,289 22,878 27,343 37,335 49,513 53,384 56,895 61,162 64,181 70,704 39 19,996 23,654 28,196 38,335 50,660 54,572 58,120 62,428 65,475 72,055 40 20,707 24,433 29,051 39,335 51,805 55,758 59,342 63,691 66,766 73,403 41 21,421 25,215 29,907 40,335 52,949 56,942 60,561 64,950 68,053 74,744 42 22,138 25,999 30,765 41,335 54,090 58,124 61,777 66,206 69,336 76,084 43 22,860 26,785 31,625 42,335 55,230 59,304 62,990 67,459 70,616 77,418 44 23,584 27,575 32,487 43,335 56,369 60,481 64,201 68,710 71,892 78,749 45 24,311 28,366 33,350 44,335 57,505 61,656 65,410 69,957 73,166 80,078 46 25,041 29,160 34,215 45,335 58,641 62,830 66,616 71,201 74,437 81,400 47 25,775 29,956 35,081 46,335 59,774 64,001 67,821 72,443 75,704 82,720 48 26,511 30,754 35,949 47,335 60,907 65,171 69,023 73,683 76,969 84,037 49 27,249 31,555 36,818 48,335 62,038 66,339 70,222 74,919 78,231 85,350 50 27,991 32,357 37,689 49,335 63,167 67,505 71,420 76,154 79,490 86,660 51 28,735 33,162 38,560 50,335 64,295 68,669 72,616 77,386 80,746 87,967 52 29,481 33,968 39,433 51,335 65,422 69,832 73,810 78,616 82,001 89,272 53 30,230 34,776 40,308 52,335 66,548 70,993 75,002 79,843 83,253 90,573 54 30,981 35,586 41,183 53,335 67,673 72,153 76,192 81,069 84,502 91,871 55 31,735 36,398 42,060 54,335 68,796 73,311 77,380 82,292 85,749 93,167 56 32,491 37,212 42,937 55,335 69,919 74,468 78,567 83,514 86,994 94,462 57 33,248 38,027 43,816 56,335 71,040 75,624 79,752 84,733 88,237 95,750 58 34,008 38,844 44,696 57,335 72,160 76,778 80,936 85,950 89,477 97,038 59 34,770 39,662 45,577 58,335 73,279 77,930 82,117 87,166 90,715 98,324 60 35,534 40,482 46,459 59,335 74,397 79,082 83,298 88,379 91,952 99,608 CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 34 Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 35 teste de associação para tabelas Quádruplas e para variáveis ordinais A forma de organização inicial dos dados é determinante para o processo de análise e para os resultados que virão a seguir. A análise de relações entre variáveis a partir de tabelas quádruplas (2x2) é uma excelente forma de realizar uma primeira aproximação das associações que o pesquisador espera encontrar no mundo empírico. Tabelas 2x2 sumarizam informa- ções de um mundo bastante complexo. A principal contribuição para análises desse tipo de variáveis foi feita pelo estatístico inglês George Udny Yule quando, em 1911, publicou a primeira edição de “An introduction to the theory of Statistics”. Nesse livro, foi demonstrado pela primeira vez um teste de associação entre variáveis binárias que ficou conhecido como Q de Yule (Qxy). Devido à importância do teste, o texto foi repu- blicado dezenas de vezes em diferentes línguas nas décadas posteriores à publicação da primeira edição. Neste capítulo, aprenderemos a calcular o Qxy para cruzamentos entre duas e três variáveis binárias. Ao final, é apresentada a forma de calcular o coe- ficiente Gama, indicado para cruzamentos entre variáveis ordinais, com três ou mais categorias cada uma. CApítulo ii 2.1 teste Q de Yule (QxY) Como já apresentado no volume I do manual, uma variável binária ou dicotô- mica é aquela que possui apenas duas categorias, que representam a presença ou a ausência de determinada característica. Normalmente, a representação numérica das categorias é feita por 0 = ausência e 1 = presença. Pode ser aplicado, por exemplo, à variável Sexo, quando se quer testar determinada característica das mulheres, então: 1 = mulher e 0 = homem. Ou quando se quer dividir o total de eleitores em dois grupos, sendo: 1 = eleitores que votaram no candidato K na última eleição ou 0 = eleitores que não votaram no candidato K na última eleição. Até aqui identificamos duas variáveis dicotômicas: sexo e voto em determinado candidato. Digamos que nosso objetivo seja saber se o candidato K teve mais votos entre as mulheres quando comparado aos demais concorrentes. Nesse caso, precisaríamos cruzar as duas informações para ter quatro condições possíveis: a) é mulher e não votou em K; b) é mulher e votou em K; c) não é mulher e não votou em K e d) não é mulher e votou em K. Como existem quatro possibilidades em um cruzamento de duas variáveis dicotômicas, elas são organizadas em tabelas quádruplas (2x2). O passo seguinte é tentar identificar se a presença de terminada característica está associada à presença de característica em outra variável. No nosso exemplo, poderíamos nos perguntar se o fato de ser mulher está associado ou não a votar no candidato K. Um teste estatístico para medir a existência ou não de re- lação entre duas variáveis dicotômicas e, no caso de existir relação, a força e a direção da mesma foi proposto pelo estatístico inglês George Unde Yule em 1911. Conhecido por Q de Yule, é representado pela letra Qxy, como veremos a seguir. O teste de independência Qxy serve para identificar se: i) duas variáveis dicotômicas estão relacionadas entre si; ii) de quanto é a intensidade da relação; e, iii) se os resultados podem ser usados em generalizações para toda a popula- ção quando se está testando a associação em amostras. Como é aplicado em tabelas quádruplas (com duas variáveis dicotômicas) e qualquer variável pode ser dicotomizada, trata-se de um coeficiente bastante útil e que pode ser obtido com a aplicação de fórmulas simples, dispensando o uso de programas Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 36 CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 37 de computador. Uma variável pode ser dicotomizada quando se decide separar em dois grupos as categorias internas dela. Por exemplo, pode-se ter uma variável categórica na forma de Escala de Likert para avaliação de governo: Muito Boa, Boa, Regular, Ruim e Péssima. A dicotomização se dá quando o pesquisador divide os resultados entre Avaliação Positiva e as demais. Então, teríamos: 1 = (Muito Boa + Boa) e 0 = (Regular + Ruim + Péssimo), por exemplo. A dicotomização também pode ser a partir de uma variável escalar discreta, como idade em anos completos. Nesse caso, a opção pode ser usar o valor da mediana para dividir em dois grupos de igual tamanho. Então, se quiséssemos testar oefeito entre os mais velhos, teríamos: 0 = grupo dos mais novos, até a mediana e 1 = grupo dos mais velhos, a partir da mediana. Também é possível dicotomizar distribuições de frequências a partir de dados secundários, como, por exemplo, usando informações de uma tabela de distribuição das intenções de voto a seis candidatos em uma eleição qualquer. Nesse caso, separa-se a frequência de respondentes que dizem votar em um candidato (representado pela letra K) e essa será a característica analisada (1). A soma de todas as demais receberá código zero. Ao final teremos apenas dois resultados possíveis: vota no candidato K ou não vota no candidato K. O importante aqui é entender que qualquer variável pode ser dicotomizada desde que o processo seja defensável estatisticamente. Quando se tem duas variáveis dicotômicas, tais como votar ou não no candidato A e idade dos respondentes (jovem e não jovem) é possível aplicar os cálculos do coeficiente de Qxy para identificar se as duas variáveis apresentam independência de variações ou se as variações delas estão associadas entre si. Se não forem independentes, significa que há alguma associação entre as características medidas. Então, o coeficiente também nos fornece a informação sobre o grau de associação entre elas, ou seja, a força. Uma terceira característica é a direção da associação. Quando as variações estão no mesmo sentido, ambas as varia- ções passando de zero para um, por exemplo, o sinal é positivo. Quando existe asso- ciação, mas ela é cruzada, então o sinal será negativo. Por fim, o teste também mostra se os resultados obtidos em uma amostra são consistentes o suficiente para permitir a extrapolação para toda a população. O mais comum quando se agregam variáveis escalares, proporcionais, ordinais CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 38 ou de intervalo é considerar X e Y o conjunto de valores Altos ou a presença da caracte- rística a ser medida e não-X e não-Y os valores Baixos ou a ausência da característica a ser medida. Essa convenção é importante em função do sinal do coeficiente de asso- ciação no resultado do teste. Uma inversão das posições significaria inverter um sinal de relação na mesma direção (positivo) por relação em direções opostas (negativo). As ta- belas quádruplas são compostas por quatro células de frequências, quatro células com frequências marginais e uma célula de total, chamada de N. Cada uma das células de frequências recebe uma letra como nome, sendo A, B, C e D, como no quadro a seguir: Quadro 2.1. Distribuição Quádrupla para cálculo do Qxy Não-Y Y Total X A B Marginal X Não-X C D Marginal Não-X Total Marginal Não-Y Marginal Y Total de Casos (N) Devem fazer parte das células de frequências apenas os casos válidos, o que sempre precisa ser explicitado aos leitores. As variáveis analisadas são chamadas de X e Y. As categorias de grupamento dicotômico das variáveis são chamadas, por conse- quência, de X e não-X; Y e não-Y. Em um exemplo de pesquisa sobre intenção de voto relacionada a sexo dos eleitores para saber se determinado candidato (K) recebe votos de mulheres, os respondentes que dizem votar no candidato K compõem as casas da linha X e aqueles que dizem votar em qualquer outro candidato fazem parte da linha Não-X. Já as eleitoras são Y e os eleitores são não-Y. As somas dos casos nas linhas (horizontais) e nas colunas (verticais) formam o que se chama de marginais. A somató- ria das marginais leva ao número total de casos analisados, representado pela letra N. Assim, teremos ao final uma tabela quádrupla que relaciona eleitores e não eleitores do candidato K com o fato de ser ou não ser mulher. O resultado apresentará se o candida- to K tem uma concentração maior de votos entre as mulheres ou não. Como todos os demais testes estatísticos probabilísticos, o Qxy parte da hi- pótese inicial (H0) de independência entre as variáveis. O que queremos identificar é se existe uma chance estatística forte suficiente para garantir baixas possibilidades de erro caso a hipótese nula (H0) seja rejeitada e passemos a defender que existe alguma Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 39 CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS relação entre as duas variáveis. No caso do exemplo, afirmar que o candidato K tem mais votos entre mulheres do que entre homens seria uma hipótese inicial de trabalho. Partiríamos do princípio de que não há diferença de sexo entre os eleitores do candidato K, ou seja, as duas variáveis são independentes, como prediz a H0. Nosso objetivo é realizar os testes para verificar se temos condições suficientes de afirmar que há uma associação entre as duas variáveis – ser mulher e votar em K. Nesse caso, rejeitaría- mos H0 e assumiríamos que há uma probabilidade de que as duas variáveis estejam associadas, quer dizer, assumimos H1. No próximo tópico, veremos como fazer isso para duas variáveis dicotômicas. 2.1.1 teste de independência Q de Yule (QxY) Os testes de independência visam identificar se as variações entre categorias de duas variáveis se dão de forma independente ou se elas aguardam alguma depen- dência entre si. A partir disso, se for identificada alguma dependência entre variações é possível pensar na existência de associação estatística. Se não, diz-se que a associa- ção é nula, ou seja, as variáveis são independentes. Se sim, a associação pode ter di- ferentes intensidades: fraca, média, forte. Aqui, o teste de independência visa identificar a inexistência de relação das variações entre duas variáveis. Portanto, relembrando, a hipótese inicial é de independência. Se houver alguma relação entre as variações, en- tão, nega-se a hipótese de independência e mede-se o grau de relação entre elas. Nas tabelas quádruplas cada casa representa a frequência encontrada para um par de características (par Não-Y, X; par Não-Y, Não-X; par Y, X; par Y, Não-X). Se as variáveis forem independentes, a proporção de casos em cada par em relação ao total será a mesma ou muito próxima entre si, portanto, impedindo qualquer afirmação de associação entre as variáveis. Já se houver uma distorção razoável entre a frequên- cia relativa de casos em um ou alguns pares em relação aos demais, podemos negar a independência e medir o grau de associação entre as categorias das variáveis. Então, o coeficiente Qxy nos fornece duas informações importantes: i) sobre a magnitude da relação, medida pelo tamanho do coeficiente. Quanto CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi 40 mais próximo de ±1 mais forte será a associação; e ii) a respeito da direção da relação. Se o sinal do coeficiente for positivo, então as duas categorias estão associadas e variam na mesma direção. Se o sinal for negati- vo, existe associação, mas as variações são em direções opostas. O quadro a seguir representa os sinais predominantes nas associações Positi- vas e Negativas entre duas variáveis dicotômicas. Quadro 2.2. Relação dos sinais nas tabelas quádruplas Não-Y Y Não-Y Y X - + X + - Não-X + - Não-X - + Positiva Negativa No quadro acima, a associação positiva indica uma concentração de casos com a característica da variável X e com a característica da variável Y, mostrando que as presenças das características em X e Y “caminham na mesma direção”. Já na as- sociação negativa, a presença da característica na variável Y apresenta maior concen- tração de frequências na casa da ausência da característica na variável X, nesse caso,
Compartilhar