MANUAL DE MÉTODOS QUANTITATIVOS PARA INICIANTES EM CIÊNCIA POLÍTICA 2

•

UFMA

carlito pinto carvalho

12/08/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 314 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 314 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 314 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Metodologia Científica

174.539 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Manual de Métodos Quantitativos
para iniciantes eM ciência política
voluMe 2

EMERSON URIZZI CERVI
Manual de Métodos Quantitativos
para iniciantes eM ciência política
voluMe 2
curitiba
2019
Cervi, Emerson U.
Manual de métodos quantitativos para iniciantes em Ciência Política –
Vol. 2 / Emerson Urizzi Cervi - Curitiba: CPOP, 2019. (1ª edição).
314 p.
ISBN 978-85-915195-5-2
1. Pesquisa – Métodos Quantitativos. 2. Ciência Política. I. Título.
CDD-320
CDU: 001.8:303
Dados Internacionais de Catalogação da Publicação
Fundação Biblioteca Nacional
Copyright @ 2019 do autor
editorado pelo Grupo de pesQuisa eM coMunicação política e opinião pública - cpop
edição do autor
Emerson Urizzi Cervi
capa, planejaMento Gráfico e diaGraMação
Fernanda Cavassana de Carvalho
Grupo de Pesquisa em Comunicação Política e Opinião Pública – CPOP
Programa de Pós-graduação em Ciência Política – PPGCP-UFPR
Universidade Federal do Paraná – Campus Reitoria
Rua General Carneiro, nº 460 – Ed. Dom Pedro I, 5º andar.
CEP: 80.060-000. Curitiba – Paraná – Brasil
www.cpop.ufpr.br | www.facebook.com/cpopufpr | nucleocpopufpr@gmail.com
C419m
9
11
12
15

19
21
24
27
32
33
34
35
36
39
44
45
46
49
59
64
65
Sumário
APRESENTAÇÃO
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE
RESÍDUOS EM TABELAS DE CONTINGÊNCIA
1.1 Coeficiente Cramer’s V para força de associação do χ²
1.2 Coeficiente Delta (Δ) para diferenças de FO e FE
1.3 Testes de associação entre categorias de variáveis nominais em
tabelas de contingência (Resíduos Brutos e Resíduos Padronizados)
1.3.1 Cálculo dos Resíduos Brutos (RB)
1.3.2 Cálculo dos Resíduos Padronizados (RP)
1.3.3 Resíduos Padronizados para análises temporais
1.4 Referências bibliográficas do Capítulo I
1.5 Exercícios propostos do Capítulo I
Anexo do Capítulo I
CAPÍTULO II – TESTE DE ASSOCIAÇÃO PARA TABELAS
QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS
2.1 Teste Q de Yule (QXY)
2.1.1 Teste de Independência Q de Yule (QXY)
2.1.2 Cálculos Adicionais: proporções de pares consistentes
e pares inconsistentes
2.1.3 Cálculos Adicionais: validade para inferências
2.1.4 Intervalo de Confiança para o Teste de Correlação QXY
2.1.5 Coeficiente QXY para três variáveis (QXY:T)
2.2 Teste com variáveis ordinais - Coeficiente Gama (G)
2.3 Referências bibliográficas do Capítulo II
2.4 Exercícios propostos do Capítulo II
CAPÍTULO III – ANÁLISE DE DADOS CATEGÓRICOS
3.1 Análise de dados Categóricos
3.2 Teste de confiabilidade para indicadores estatísticos
3.3 Testes estatísticos para associações bi e multivariados
3.3.1 Análise de Correspondência Canônica (ACC)
3.3.2 Teste de Múltipla Correspondência
3.3.3 Análise de Componentes Principais (PCA)
3.3.4 Análises de agrupamentos (Cluster)
3.4 Referências bibliográficas do Capítulo III
3.5 Exercícios propostos do Capítulo III
Anexos do Capítulo III
CAPÍTULO IV – ANÁLISE DE CONTEÚDO APLICADA A REDES
SOCIAIS ONLINE
4.1 Histórico da Análise de Conteúdo
4.2 Etapas da Análise de Conteúdo aplicada a textos políticos
4.3 Descrição da proposta de análise em duas etapas com método Reinert
4.4 O método Reinert na análise de conteúdo de redes sociais online
4.5 Uma comparação com o método tradicional de classificar textos
políticos
4.6 Análises das classificações a partir da tematização automatizada
4.7 Referências bibliográficas do Capítulo IV
4.8 Exercícios propostos do Capítulo IV
CAPÍTULO V – ANÁLISE DE REDES SOCIAIS
5.1 Conceituando Análise de Redes Sociais (ARS)
5.2 Componentes da ARS
5.3 Etapas para análise de redes sociais
5.4 Redes de financiamento de empresas a partidos políticos no Brasil
5.5 Referências bibliográficas do Capítulo V
5.6 Exercícios propostos do Capítulo V
CAPÍTULO VI – TESTES DE CORRELAÇÃO
6.1 Correlação Linear Simples
6.2 Aplicação dos testes de correlação para amostras
6.3 Coeficiente Linear de Determinação e de Alienação
6.4 Pressupostos a serem respeitados em análises de correlação
6.4.1 Transformações de dados para normalização de
distribuições
6.5 Aplicação da correlação de Pearson e outros coeficientes no
RCommander
6.6 Referências bibliográficas do Capítulo VI
6.7 Exercícios propostos do Capítulo VI
67
68
70
75
77
82
86
90
95
96
98
101
102
106
108
110
115
119
126
128
129
130
132
136
139
145
146
147
147
157
159
161
164
165
169
170
CAPÍTULO VII – PRINCÍPIOS DOS TESTES DE REGRESSÃO
7.1 Começando pelo início: regressão linear simples
7.2 Fórmula da Regressão Linear
7.3 Erro da reta de regressão (rms) – análise de resíduos
7.4 A estatística “t” e os testes complementares de ajustamento do
modelo
7.5 Regressão Binária Logística
7.6 Referências bibliográficas do Capítulo VII
7.7 Exercícios propostos do Capítulo VII
CAPÍTULO VIII – ANÁLISE DE TRAJETÓRIA (path analysis)
8.1 Princípios da análise de trajetória
8.2 Componentes do modelo de análise de trajetória
8.3 Aplicação do modelo de análise de trajetória
8.4 Referências bibliográficas do Capítulo VIII
8.5 Exercícios propostos do Capítulo VIII
Anexos do Capítulo VIII
CAPÍTULO IX – ANÁLISE GEOGRÁFICA
9.1 Princípios e objetivos da Análise Geográfica
9.2 Bases de dados e softwares para Análise Geográfica
9.3 Mapas coropléticos no Geoda
9.3.1 Mapa Quantil
9.3.2 Mapa Percentil
9.3.3 Box Map
9.3.4 Mapa de desvio padrão
9.3.5 Mapa de valores únicos
9.3.6 Mapa de quebras naturais
9.3.7 Mapa com intervalos iguais
9.3.8 Mapa de razão de chance (Excess Risk)
9.4 Estatísticas básicas em análises geográficas descritivas
9.4.1 Autocorrelação espacial global com coeficiente I de Moran
9.4.2 Coeficiente LISA para clusters geográficos
9.4.3 Testes de regressão linear para unidades espaciais no
Geoda
9.5 Referências bibliográficas do Capítulo IX
9.6 Exercícios propostos do Capítulo IX
171
173
176
184
187
192
198
199
201
202
205
208
217
219
220
221
222
226
228
229
230
230
231
232
233
234
235
237
238
240
242
248
250
CAPÍTULO X – ANÁLISE DE ANÁLISE DE SÉRIES TEMPORAIS
10.1 Fundamentos
10.2 Médias móveis
10.3 Funções de Autocorrelação (FAC) e Autocorrelação Parcial
(FACP)
10.4 Teste Autoregressivo com médias móveis integradas (ARIMA)
10.5 Teste para Raízes Unitária
10.6 Análise multivariada no tempo (efeitos de intervenção e de
transferência)
10.7 Referências bibliográficas do Capítulo X
10.8 Exercícios propostos do Capítulo X
Anexos do Capítulo X
ADENDO I - GABARITO DE RESPOSTAS AOS EXERCÍCIOS PROPOSTOS
Respostas às questões do Capítulo I
Respostas às questões do Capítulo II
Respostas às questões do Capítulo III
Respostas às questões do Capítulo IV
Respostas às questões do Capítulo V
Respostas às questões do Capítulo VI
Respostas às questões do Capítulo VII
Respostas às questões do Capítulo VIII
Respostas às questões do Capítulo IX
Respostas às questões do Capítulo X
251
252
255

260
262
267
269
276
277
278
281
282
285
290
299
300
302
305
306
309
ApreSentAção
Como o próprio nome indica, este Manual de Métodos Quantitativos para
Iniciantes é uma continuidade do volume 1. Assim, é altamente recomendável que o
aluno conheça os conceitos discutidos no volume anterior, que pode ser acessado em
http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1. Como
todo manual, trata-se de um material para estudos. Aqui, em cada capítulo é apresen-
tada uma técnica para análise quantitativa de dados em função dos objetivos do pes-
quisador. Portanto, não se espera que alguém faça a leitura linear, do início ao fim do
livro. Deve-se identificar qual capítulo trata da técnica de interesse para o seu trabalho
e ir diretamente a ele.
É importante repetir nesta apresentação o que já foi destacado no volume
anterior: trata-se de um manual introdutório para iniciantes, pensado para o nível de
graduação. Para quem já é iniciado nas técnicas ou procura aprofundar conceitos e
teorias sobre testes e estatísticas, esta obra não é recomendada.
O livro começa com as técnicas de análise descritiva básica a partir de tabelas
de contingência, análise de dados categóricos e testes de diferençasde médias. Depois
passa para os testes de correlação e apresenta uma introdução aos conceitos de
regressão linear. Os últimos três capítulos do livro apresentam adaptações da técnica
básica de regressão linear para finalidades específicas: análise de trajetória, análises
espaciais e análise de séries temporais.
Seguindo o modelo do volume 1, aqui também são utilizados exclusivamente
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
9
http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1
APRESENTAÇÃO
softwares de código aberto, não sendo necessária a utilização de nenhum programa
proprietário. A maior parte dos programas usados aqui é vinculada ao pacote estatístico
R ou são plug-ins dele. Por se tratar de um manual introdutório a alunos de graduação,
evita-se ao máximo o uso do pacote R diretamente. Sempre que possível, a opção é por
uma interface mais “amigável” que a original para facilitar a vida dos não iniciados em
programação computacional. Assim como no primeiro volume, ao final de cada capítulo
são apresentadas as referências bibliográficas usadas para discussão de cada técnica
e são propostos alguns exercícios para aprofundamento de aprendizagem. Todos os
bancos de dados usados no livro e nos exercícios estão disponíveis “na nuvem” para
download. O objetivo é permitir ao leitor que avance por conta própria em suas análises.
Este livro não existiria sem a contribuição dos alunos que integram o grupo
de pesquisas em Comunicação Política e Opinião Pública (www.cpop.ufpr.br) da
Universidade Federal do Paraná (UFPR). São eles que me estimulam a pensar formas
didáticas de apresentar ferramentas e discutir técnicas de análise empírica para alunos
de graduação. Eles também participaram diretamente da coleta e formação de alguns
bancos de dados utilizados aqui. O manual é resultado de cursos de metodologia
ministrados por mim ao longo dos últimos anos. Dentre os alunos do grupo de pesquisa,
um agradecimento especial a Fernanda Cavassana, que além de ser a responsável
direta pelo projeto gráfico e editoração dos dois volumes, também estabeleceu prazos
e me cobrou o cumprimento dos mesmos. Enfim, feita a apresentação do volume II do
manual, sinta-se à vontade para explorá-lo e para informar possíveis inconsistências ou
erros ao longo do texto.
Bons estudos!
Curitiba, janeiro de 2019.
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
10
http://www.cpop.ufpr.br
coeficiente de associação e análise de resíduos eM
tabelas de continGência
Identificar associações entre duas ocorrências é
um desafio muito grande, mas que, infelizmente,
costuma ter sua importância minimizada.
O atual capítulo é uma continuidade do capítulo VII do volume I do manual.
Então, em vários momentos são feitas referências diretas a conteúdos que já foram
apresentados naquele livro, que tem por objetivo servir como fundamento para os
testes que serão apresentados a partir daqui. Para acessá-lo, basta clicar no link
que se encontra no rodapé desta página1. Aqui, começo apresentando o teste ade-
quado para medir o grau de associação entre duas variáveis após a realização do
teste de independência de médias qui-quadrado (χ²). É o coeficiente Cramer’s V.
Em seguida, são apresentadas formas estatísticas de medir a relação entre pares
de categorias das variáveis. São o coeficiente Delta (Δ) e os Resíduos Padroniza-
dos. Ao final do capítulo, são apresentados exercícios e as referências bibliográfi-
cas citadas.
1 Volume I do Manual de Métodos Quantitativos para Iniciantes em Ciência Política disponível em:
http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
11
CApítulo i
http://www.cpop.ufpr.br/publicacoes/metodos-quantitativos-para-iniciantes-v1
1.1 coeficiente craMer’s v para força de associação do χ2
Uma vez identificado o valor do coeficiente de χ², como apresentado no capí-
tulo VII do volume I, um erro muito comum é tirar conclusões sobre a magnitude da
relação entre as duas variáveis apenas a partir desse coeficiente ou do seu nível de
significância. Quando o coeficiente é alto, podemos dizer que as variações analisadas
não são independentes, elas variam com algum grau de dependência uma da outra.
Se considerarmos ainda os graus de liberdade do teste, podemos identificar o limite
crítico do Intervalo de Confiança e se o coeficiente ficar abaixo desse limite pode-se
dizer que a dependência das variações é forte o suficiente para ser extrapolada a toda
a população - caso estejamos trabalhando com uma amostra. Isso porque a signifi-
cância do teste depende no número de casos (graus de liberdade). Quanto maior a
amostra ou população testada, maiores as chances do resultado ser estatisticamente
significativo (Pereira, 2004). No entanto, nenhum dos coeficientes tratados até aqui é
indicativo da relação entre duas variáveis categóricas para a magnitude ou força da
associação entre elas.
Para tanto, existem coeficientes específicos que medem a força do efeito da
variação de uma variável sobre a variação de outra. Quando estamos usando o teste
de χ², para independência de médias, os testes de associação indicados são o coe-
ficiente Phi e o coeficiente Cramer’s V. Para identificar a magnitude do efeito (effect
size) em testes de χ² em que se rejeita a hipótese nula, usa-se o coeficiente Phi para
os casos de tabelas quádruplas (2x2), mesma indicação do Q de Yule, ou o coeficiente
Cramer’s V para tabelas maiores (Ln x Cn). Por agora, não trataremos do coeficiente
Phi, pois dedicamos mais adiante um capítulo específico para o Q-yule, teste indicado
para o mesmo tipo de variável a que se aplica o Phi.
A seguir, apresentamos como calcular o coeficiente de magnitude do efeito
Cramer´s V para testes de χ². A indicação é calcular o Cramer’s V apenas quando o
coeficiente χ² for estatisticamente significativo, caso contrário, a magnitude do efeito
será muito baixa ou nula.
A leitura dos resultados do coeficiente V é equivalente à de um coeficiente de
correlação de Pearson. Ele indica qual a força da associação direta entre o conjunto
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
12
das categorias das duas variáveis testadas. A fórmula é a seguinte:
𝑣𝑣 = �
𝜒𝜒2
𝑁𝑁. (𝑘𝑘 − 1)

Onde:
χ² = coeficiente qui-quadrado.
N = número de casos
K = número de categorias de uma das variáveis testadas. Utiliza-se sempre o
menor número de categorias, independente de estar nas linhas ou nas colunas.
A leitura do resultado do Cramer’s V é similar à de um coeficiente de cor-
relação de Pearson. Sendo assim, o quadrado do seu valor (V2) nos indica qual a
proporção da variância da relação que é explicada pelo χ². Por exemplo, um V = 0,12,
se elevado ao quadrado e multiplicado por 100 nos indicará qual o percentual de va-
riância explicada. No caso, apenas 1,44% de variância explicada pelo χ², o que é um
percentual bastante baixo em termos gerais. Quando a tabela testada é quádrupla
(2x2) a fórmula do teste Cramer’s V iguala-se à do Phi, pois nesse caso o número de
categorias menos um sempre será um. Assim, a fórmula é reduzida a raiz quadrada
de χ² dividido pelo número de casos.
Para exemplificar o uso do coeficiente Cramer’s V, vamos fazer o teste de
χ² para a associação entre sexo de vereadores eleitos em 2016 nas eleições municii-
pais brasileiras (homem ou mulher) e região do País (norte, nordeste, centro-oeste,
sudeste e sul). A hipótese nula defende que não há diferença nas variações entre as
duas variáveis e que, portanto, homens e mulheres distribuem-se igualmente entre
os eleitosnas cinco regiões do País. Nunca é demais lembrar que estamos testando
a associação entre duas variáveis categóricas nominais. Aqui, estão considerados
apenas os vereadores eleitos que indicaram sexo Homem ou Mulher no registro de
candidatura no TSE em 2016.
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
13
Tabela 1.1.1. Distribuição dos vereadores eleitos por sexo e região do País em 2016
REGIÃO HOMEM MULHER TOTAL
NE 16.091 2.866 18.957
SD 15.404 1.961 17.365
CO 4.116 615 4.731
NO 4.136 667 4.803
SU 9.935 1.657 11.592
TOTAL 49.682 7.766 57.448
Fonte: autor a partir de TSE
Em 2016, segundo dados oficiais do Tribunal Superior Eleitoral (TSE), do total
de eleitos, 49.682 se registraram como homens e 7.766 como mulheres no TSE, re-
sultando em 57.448 eleitos com a variável “sexo” válida. O teste χ² indica se podemos
ou não rejeitar a hipótese nula de independência entre as variáveis. O resultado é de
χ² = 122,703 e α = 0,000, portanto, um resultado altamente significativo, permitindo a
rejeição da hipótese nula de independência entre as variáveis. Ou seja, as variações de
sexo dos vereadores eleitos não são independentes das regiões. Agora, para identificar
a magnitude do efeito, calcularemos o Cramer’s V. Como a variável com menor número
de categorias é sexo, com duas categorias, não haverá efeito do fator (k-1) na fórmula,
pois multiplicaríamos o número de casos por um.
𝑣𝑣 = �
𝜒𝜒2
𝑁𝑁. (𝑘𝑘 − 1)
= �
122,703
57.448 𝑥𝑥 (2 − 1)
= 0,046
Assim, temos que a associação entre as duas variações é de 0,046 ou 4,6%
apenas. Ou seja, relação entre região sobre a número de homens ou mulheres elei-
tos é de apenas 4,6%. Embora o χ² seja alto e significativo, percebe-se que o efeito
não é tão forte como se poderia pensar inicialmente. Se elevarmos o Cramer’s V ao
quadrado, teremos a proporção de variação que é explicada pela associação, ou seja,
teremos a magnitude da determinação de uma variável sobre a outra. No caso, V² =
0,0021. Se multiplicarmos o valor por 100, teremos que apenas 0,21% da variação de
proporção de sexo é explicada pela região, ou seja, uma explicação nula.
IMPORTANTE: A prova de χ² só permite aceitar ou rejeitar a hipótese nula,
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
14
mas no caso de rejeitá-la, não é possível saber em que medida as duas variáveis es-
tão relacionadas. O coeficiente de contingência ou coeficiente de correlação, obtido
através de tabelas de contingência, é a prova adequada a ser aplicada depois de rejei-
tada a hipótese nula pelo χ². O anexo ao capítulo apresenta os valores padronizados
para identificar o limite crítico a partir do Intervalo de confiança e dos graus de liberda-
de nos testes de χ² para comparação de uma distribuição real com uma teórica e para
os testes entre duas variáveis independentes. No anexo a este capítulo encontra-se
uma tabela de valores padronizados de χ² para rejeição da hipótese nula em função
dos graus de liberdade e do intervalo de confiança, e posterior realização dos testes
de associação.
Os testes de diferença de médias como o χ² e testes de associação como
Cramer’s V produzem coeficientes capazes de indicar as relações entre todas as ca-
tegorias de duas variáveis. Mas, muitas vezes o pesquisador necessita identificar rela-
ções entre pares de categorias de duas variáveis distintas, o que não é possível com
os testes apresentados até aqui. Para um nível acima de detalhamento das associa-
ções em que se identifiquem relações entre pares de variáveis são indicados, entre
outros, os testes que serão apresentados a seguir.
1.2 coeficiente delta (Δ) para diferenças de fo e fe
Um coeficiente Δ é uma medida que mostra a existência ou não de valores
“sobrando” em determinados pares de categorias. Portanto, ele só deve ser aplicado
em comparações entre duas variáveis, chamadas aqui de X e Y, mas poderiam ser
quaisquer outras letras. Para deduzir se existe ou não alguma relação entre os pares de
categorias das variáveis X e Y, comparam-se as frequências observadas a uma tabela
com uma distribuição teórica na qual as distribuições são independentes – chamada de
tabela de frequências esperadas. A hipótese estatística inicial é de que não há depen-
dência de variações entre X e Y. Para tanto, é preciso que a frequência esperada seja
a mesma ou esteja muito próxima da frequência observada, o que não nos permitirá
rejeitar a hipótese nula. Por outro lado, a existência de diferenças significativas entre as
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
15
frequências observadas e as esperadas nos permite rejeitar a hipótese nula e passamos
a considerar que as variações de X e Y apresentam alguma dependência. O passo se-
guinte é medir a força da relação ou dependência entre as duas variáveis.
O termo técnico para descrever a inexistência de relação entre duas variáveis
é “independência estatística”. Portanto, temos independência estatística quando X e Y
são estatisticamente independentes, o que ocorre quando as probabilidades das células
esperadas igualam os produtos das probabilidades marginais relevantes. Nesse caso,
também é indicado que as probabilidades de ocorrência de uma categoria em uma va-
riável são as mesmas que as demais, independente da categoria da outra variável com
a qual está ligada. Em outras palavras, a frequência de casos na categoria da segunda
variável não faz diferença para a primeira para que a relação não tenha efeito estatísti-
co. O que é diferente de dizer que não tem efeito algum.
O coeficiente Δ serve para indicar a existência de diferenças entre pares de fre-
quências de uma tabela de contingência. Normalmente, é utilizado em tabelas quádru-
plas, para variáveis dicotômicas. No entanto, nada impede que também seja aplicado a
cruzamentos entre variáveis com mais de duas categorias. O objetivo aqui é identificar
se determinada característica conjunta de X e Y ocorre mais ou menos vezes do que
seria esperado. Se isso acontecer, não podemos considerar as variáveis independentes
para esse par de categorias. Aqui, são usadas as probabilidades observada e esperada
nas comparações. Então, Δ pode ser representado pela seguinte fórmula:

Δ = Prob. Observada− Prob. Esperada
Onde:
Prob. Observada = o valor da frequência de casos para determinado par de
categorias;
Prob. Esperada = a multiplicação das marginais da tabela, dividido pelo número
total de casos.
Digamos que o pesquisador queira encontrar o Δ para a probabilidade de ho-
mens que foram eleitos vereador com escolaridade superior em 2016. A hipótese é que
os homens com escolaridade superior sejam em maior proporção que mulheres com
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
16
escolaridade superior, entre os eleitos. O primeiro passo é montar uma tabela de contin-
gência entre sexo dos vereadores eleitos e escolaridade declarada no registro ao TSE
em 2016, como a que segue (para facilitar o exercício, foram agregadas as categorias
“analfabeto” e “lê e escreve” e todas as categorias “incompleto” e “completo” em catego-
ria única do nível de escolaridade. Assim, “ensino fundamental completo” e “ensino fun-
damental incompleto” se transformaram em “ensino fundamental”, e sucessivamente):
Tabela 1.2.1. Distribuição das proporções de vereadores eleitos por escolaridade e
sexo em 2016
ESCOLARIDADE MULHER HOMEM TOTAL
ANALFAB./LÊE ESCREVE 62 (0,001) 960 (0,017) 1.022 (0,018)
ENSINO FUNDAMENTAL 905 (0,016) 14.617 (0,254) 15.522 (0,270)
ENSINO MÉDIO 2.757 (0,048) 20.775 (0,362) 23.532 (0,410)
SUPERIOR 4.042 (0,070) 13.330 (0,232) 17.372 (0,302)
TOTAL 7.766 (0,135) 49.682 (0,865) 57.448 (1,000)
Fonte: autor a partir de TSE
Olhando as marginais da tabela, é possível perceber que de maneira geral os
homens representam quase nove em cada dez eleitos em 2016 (0,865), enquanto as
mulheres ficam em uma proporção de apenas 0,135. Já as marginais das linhas mos-
tram que a escolaridade dos eleitos também apresenta grande desproporção. A catego-
ria “sem escolaridade” representa apenas 0,018 dos eleitos, passa a 0,270 a proporção
de eleitos com ensino fundamental, sobe para 0,410 em ensino médio e cai para 0,302
para ensino superior. Se olharmos para o corpo da tabela, encontramos os valores das
participações proporcionais de cada par de categorias. No caso, o que interessa aqui
são os homens com escolaridade superior, que apresentam proporção de 0,232 (13.330
/ 57.448 = 0,232). A questão é saber se essa proporção equivale a uma distribuição
independente para o par de categorias ou se, ao contrário, ela indica a existência de
algum grau de associação. O primeiro passo é encontrar a probabilidade esperada para
eleitos com escolaridade superior. Como a tabela 1.2 já nos dá as proporções basta
multiplicar a marginal da linha “escolaridade superior” pela marginal da coluna “homem”:
0,302 x 0,865 = 0,261. Então, a proporção esperada de homens eleitos por partido de
direita é de 0,261. Para conhecer o Δ, aplica-se a fórmula:
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
17
Δpd = Prob. Observada− Prob. Esperada = 0,232− 0,261 = −0,029
O resultado do Δpd (delta para prefeitos de direita) é de -0,029, portanto, muito
próximo de zero, ficando praticamente idêntico ao que seria uma distribuição indepen-
dente. Não podemos dizer que foram eleitos mais homens com escolaridade superior
do que mulheres com a mesma escolaridade, pois o valor observado não se distanciou
do esperado, o que indica variações independentes entre as duas variáveis para essas
categorias. A tabela 1.2.2 a seguir mostra os valores Δ para todas as categorias do
exemplo.
Tabela 1.2.2. Valores de Δ para todos os pares de categorias da tabela 1.2
ESCOLARIDADE MULHER HOMEM
ANALFAB./LÊ E ESCREVE -0,001 0,001
ENSINO FUNDAMENTAL -0,021 0,021
ENSINO MÉDIO -0,007 0,007
SUPERIOR 0,029 -0,029
Fonte: autor
A tabela acima mostra que as variações das proporções de homens e mulheres
eleitos por escolaridade são muito pequenas, girando em torno do valor teórico. Todas
ficam abaixo de 3% de diferença. Portanto, ainda não podemos dizer que existam dife-
renças significativas na eleição de homens ou mulheres entre os níveis de escolaridade,
embora as categorias ensino superior e ensino fundamental apresentem as maiores
diferença de Δ para homens e mulheres – com sinal invertido. Para ensino fundamental,
o coeficiente é positivo para homens e negativo para mulheres, indicando que houve
maior ocorrência de homens nessa categoria do que mulheres, enquanto que para es-
colaridade superior o sinal negativo é para homens.
Como a variável sexo possui apenas duas categorias (homem ou mulher), os
coeficientes por grau de escolaridade serão os mesmos, havendo diferenças apenas
entre os sinais positivo ou negativo. O sinal do Δ indica a direção. Se as diferenças
proporcionais fossem maiores, poderíamos dizer que foram eleitas mais mulheres com
escolaridade superior do que homens, proporcionalmente. No próximo tópico discutire-
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
18
mos como identificar os pontos críticos a partir dos quais podemos afirmar que não há
independência de variações entre pares de categorias. Por enquanto, olhando para a
tabela 1.2.2 acima, é possível concluir que entre escolaridade e sexo dos vereadores
eleitos em 2016, os níveis “sem escolaridade” (analfabeto e lê e escreve) e “escolarida-
de média” apresentam Δ muito próximos a zero, indicando que proporcionalmente para
esses dois níveis foram eleitos tantos homens quanto mulheres. Já para escolaridade
média o Δ indica uma diferença em favor dos homens e na escolaridade superior a di-
ferença é favorável às mulheres, em função da inversão dos sinais positivo e negativo
entre os sexos dos eleitos.
O fato de não encontrarmos dependência de variação entre as categorias não
é um problema tão grande, pois um Δ diferente de zero também não significaria muita
coisa. Isso porque esse é um coeficiente muito rústico. Seu forte não é a precisão. Ele
apresenta dois sérios limitadores para a interpretação estatística:
i) é sensível ao tamanho da amostra. Se dobrássemos o N no exemplo anterior
o valor de cada Δ também seria o dobro. Isso impossibilita a comparação de coeficientes
Δ em amostras com N diferentes, e;
ii) O coeficiente Δ não possui um limite superior. No limite inferior o valor é zero,
mas não é possível saber até quanto se pode chegar ao outro limite, tanto positivo,
quanto negativo. Isso impossibilita estabelecer magnitudes comparativas (Pestana &
Gageiro, 2014).
Por outro lado, a vantagem do coeficiente Δ é a simplicidade do seu cálculo
para tabelas de contingência. No próximo tópico, serão apresentados testes mais so-
fisticados que permitem maior detalhamento nas análises de relações entre pares de
categorias de duas variáveis distintas.
1.3 testes de associação entre cateGorias de variáveis noMinais eM
tabelas de continGência (resíduos brutos e resíduos padronizados)
O coeficiente Δ é o primeiro obtido a partir da diferença entre o valor esperado
e o que foi realmente observado na distribuição. Essa é a base para uma série de des-
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
19
crições e inferência estatísticas comumente usadas na Ciência Política. Alguns testes
ganham em detalhamento. Como veremos mais adiante, o coeficiente Gama considera
as direções das categorias ordinais para o estabelecimento das somas de valores de
pares consistentes e de pares inconsistentes para identificação da existência ou não de
associação entre as variáveis.
Porém, antes do Gama, quando estamos analisando as relações entre as cate-
gorias das variáveis nominais, não existe uma organização ordinal e transitiva entre as
categorias. Logo, levar em conta a posição da categoria nas linhas ou nas colunas em
relação a seus “vizinhos” não faz sentido nesse caso. Quando usamos o teste χ², temos
apenas um coeficiente que indica a existência de relação entre pelo menos duas das
categorias das variáveis testadas. Mas, pode ser que queiramos uma indicação mais
precisa sobre quais das categorias das duas variáveis apresentam relações mais fortes,
ou seja, quais contribuem de fato para a rejeição da hipótese de independência entre as
variáveis. Para conhecer o peso das relações entre cada par de categorias, recomenda-
se, entre outras, a análise de resíduos em tabelas de contingência.
Uma tabela de contingência é uma tabela que sumariza as frequências de
ocorrências para cada par de categorias de duas variáveis X e Y quaisquer. O concei-
to de independência entre variáveis tem como princípio que a distribuição observada
das frequências nas casas da tabela de contingência é muito próxima da distribuição
esperada das frequências, ou seja, que a diferença entre as frequências observada e
esperada deve estar próxima de zero no caso de distribuições independentes. Se hou-ver diferenças entre a distribuição esperada e observada, podemos pensar em rejeitar a
hipótese nula e considerar a existência de alguma associação entre pelo menos um par
de categorias das duas variáveis testadas. Um exemplo de tabela de contingência para
duas variáveis nominais é a que segue (tab. 1.3.1), entre ideologia do partido do eleito
a vereador em 2016 por região do país. Como se trata apenas de um exemplo, não en-
trarei na discussão sobre que partidos são de direita, de centro e de esquerda no Brasil,
pois isso com certeza daria uma série de outros livros. Apenas informo que os critérios
utilizados são os mais aceitos pela literatura da Ciência Política brasileira, agrupando os
partidos por ideologia a partir dos eixos participação do Estado na economia e defesa
de valores morais.
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
20
Tabela 1.3.1. Distribuição do nº de vereadores eleitos por ideologia partidária e região do País
IDEOLOGIA NE SD CO NO SU TOTAL
ESQUERDA 4.518 2.622 730 865 2.488 11.223
CENTRO 3.983 5.247 1.529 1.187 4.172 16.118
DIREITA 10.546 9.595 2.485 2.767 4.983 30.376
TOTAL 19.047 17.464 4.744 4.819 11.643 57.717
Fonte: autor a partir do TSE
Aplicando a fórmula do χ², teríamos um coeficiente de χ² = 1.377,501 para as
distribuições de frequências das duas variáveis. Considerando que temos 8 graus de
liberdade [(3-1) x (5-1) = 8], se olharmos na tabela padronizada do χ² no anexo 1 deste
capítulo, perceberemos que o limite crítico para o graus de liberdade e intervalo de con-
fiança de 95% é de 15,50. Portanto o valor χ² = 1.377,501 fica muito acima desse limite.
Isso nos permite rejeitar a hipótese nula e aceitar a possibilidade de que as variações
das categorias das duas variáveis não são totalmente independentes. Nesse caso, po-
demos considerar que as variações de eleitos por ideologia e região do país apresen-
tam alguma dependência, não sendo aleatórias as distribuições, pois o χ² aponta para
uma possibilidade muito abaixo do limite crítico para a aceitação da aleatoriedade. No
entanto, usando o χ² pararíamos as análises aqui. Este coeficiente não nos permite
especular sobre porque essa dependência ocorre, por exemplo. Outra questão que fica
sem resposta é se existe dependência entre todos os pares de categorias das variáveis
ou em apenas parte deles. Por exemplo, é possível pensar que eleitos por partidos de
esquerda concentrem-se mais em algumas regiões do País, enquanto eleitos por parti-
dos de centro estão mais distribuídos em todas as regiões. O coeficiente χ² não permite
verificar a validade dessas afirmações. É preciso complementar as análises a partir dos
testes de resíduos em tabelas contingenciadas, também chamados de resíduos brutos.
1.3.1 cálculo dos resíduos brutos (rb)
Você já deve ter notado que os resíduos brutos nada mais são do que a dife-
rença entre a Frequência Observada (Fo) e a Frequência Esperada (Fe). Eles ajudam
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
21
a evitar erros comuns na interpretação dos valores observados, pois quando as margi-
nais não têm os mesmos valores, as frequências totais podem ser enganosas (Pereira,
2004). Por exemplo, na tabela anterior podemos olhar para a linha dos partidos de direi-
ta e comparar com a coluna da região sul concluindo que a direita elegeu mais que os
partidos de centro nessa região (4.983 da direita no sul contra 4.172 do centro no sul).
No entanto, se considerarmos as diferenças das marginais das linhas, perceberemos
que proporcionalmente ao total de vereadores de direita e de centro, a participação dos
partidos de centro no sul em relação ao total dos vereadores de centro foi maior do que
a participação dos partidos de direita. São 4.172 de centro no sul de um total de 16.118,
contra 4.983 de direita no sul de um total de 30.376. Por definição, o resíduo bruto de
uma casa é a diferença entre a Fo e Fe. Na linguagem matemática seria:
𝑅𝑅𝑏𝑏 = 𝐹𝐹𝑜𝑜 − 𝐹𝐹𝑒𝑒
Já a Frequência esperada é calculada da seguinte forma:
𝐹𝐹𝑒𝑒 =
𝑀𝑀. 𝐿𝐿𝐿𝐿𝐿𝐿ℎ𝑎𝑎 𝑥𝑥 𝑀𝑀.𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐿𝐿𝑎𝑎
𝑁𝑁

Onde:
M. linha = marginal da linha;
M. coluna = marginal da coluna;
N = total de casos na tabela.
Para o exemplo anterior, a Fe do par eleito por “partido de esquerda” e estar na
“região norte” seria:
𝐹𝐹𝑒𝑒 =
𝑀𝑀. 𝐿𝐿𝐿𝐿𝐿𝐿ℎ𝑎𝑎 𝑥𝑥 𝑀𝑀.𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐿𝐿𝑎𝑎
𝑁𝑁
=
11.223 𝑥𝑥 4.819
57.717
= 937,04
E o resíduo bruto para esse par de casos seria:
𝑅𝑅𝑏𝑏 = 𝐹𝐹𝑜𝑜 − 𝐹𝐹𝑒𝑒 = 865 − 937,04 = −72,04
A interpretação desse resultado é que na distribuição observada os partidos
de esquerda tiveram cerca de 72 vereadores eleitos a menos na região norte do que
deveria existir caso as distribuições fossem independentes.
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
22
Tabela 1.3.2. Valores de Freq. Esperada e Resíduos Brutos para ideologia do partido do
vereador eleito e região do país em 2016
NE SD CO NO SU NE SD CO NO SU
ESQ. 3.703,67 3.395,85 922,46 937,05 2.263,97 814,33 -773,85 -192,46 -72,05 224,03
CEN. 5.319,05 4.876,98 1.324,81 1.345,75 3.251,41 -1.336,05 370,02 204,19 -158,75 920,59
DIR. 10.024,29 9.191,16 2.496,73 2.536,20 6.127,62 521,71 403,84 -11,73 230,8 -1.144,62
IDEOL
Frequência Esperada Resíduo Bruto
Fonte: autor
Agora, tendo gerado os resíduos brutos, já podemos identificar as principais di-
ferenças nas concentrações dos valores. Olhando para a tabela como um todo, percebe-
mos que os maiores resíduos brutos estão na região nordeste, onde partidos de esquerda
elegeram 814,33 vereadores a mais do que o esperado e os partidos de direita elegeram
521,71 a mais. Já os partidos de centro elegeram menos 1.336,05 vereadores do que o
esperado para o Nordeste, sendo este o maior valor negativo da tabela. A leitura também
pode ser feita nas linhas. Por exemplo, os partidos de centro elegeram mais que o espe-
rado no Sudeste, Centro-oeste e Sul, nesta última região é a maior diferença positiva da
tabela (920,59 vereadores eleitos por partidos de centro a mais do esperado para a região
sul). Seguindo a leitura por linhas, o melhor desempenho dos partidos de esquerda foi na
região nordeste, com 814,33 eleitos a mais do que o esperado, assim como partidos de di-
reita no nordeste também tiveram seu melhor desempenho, com 521,71 eleitos a mais que
o esperado. Partidos de esquerda tiveram resultados positivos apenas no nordeste e no
sul, enquanto partidos de direita tiveram bons desempenhos no nordeste, sudeste e norte.
A vantagem da análise dos resíduos brutos é que os valores estão na unidade
de análise, no caso, em número de vereadores eleitos. Por outro lado, isso pode ser uma
desvantagem, pois não permite comparações diretas com resíduos de outras dimensões
ou até mesmo magnitudes. O problema dos resíduos brutos é serem pouco informativos,
pois não apresentam variância constante. Em outras palavras, são não-padronizados.
Também não permitem a verificação de pontos extremos (outliers) por não poderem ser
comparados diretamente. Para resolver esse problema é preciso padronizar os resíduos.
Com isso, torna-se possível verificar quem são as relações de casos mais extremos, quais
são as maiores concentrações de casos e como se trata de valores adimensionais é pos-
sível comparar resíduos padronizados de variáveis de distintas dimensões ou magnitudes.
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política- Volume 2 | Emerson Urizzi Cervi
23
Até padronizarmos os resíduos não é possível saber quais são os resíduos com
tamanho suficiente para serem considerados estatisticamente significativos e quais estão
abaixo do limite crítico. O χ² da tabela de contingência mostrou que as variáveis apresentam
dependência de variações. Os resíduos brutos indicaram diferenças que em alguns pares
chegam a ser dez vezes maiores que em outros. Se por um lado os partidos de centro apre-
sentaram o maior resíduo bruto (+920,59) na região sul, eles também ficaram com o maior
resíduo negativo (-1.336,05) na região nordeste. Será que os dois podem ser considerados
válidos no teste de associação entre as variáveis? Já o menor resíduo de toda a tabela,
aquele que mais se aproximou de zero, foi para partidos de direita na região centro-oeste
(-11,73). Até que ponto os resíduos podem ser usados como indicadores de diferenças sig-
nificativas? Para responder a essas perguntas é preciso padronizar os valores dos resíduos
e, a partir de um limite pré-estabelecido, indicar se os resíduos são significativos ou não.
Os Resíduos Padronizados (Rp) usam os valores equivalentes a z-score para
permitir a identificação dos pares que estão acima do limite crítico e, portanto, apresen-
tam “acúmulos” de frequências acima ou abaixo do que seria estatisticamente esperado
significativo se a distribuição dos casos entre as variáveis fosse independente. Porém,
antes de entrarmos nas explicações específicas do Resíduo Padronizado é preciso um
lembrete: só faz sentido calcular o resíduo padronizado quando o resultado do χ² de uma
tabela de contingência é significativo. Se o resultado não for estatisticamente significati-
vo, todos os valores de Resíduos Padronizados ficarão abaixo do limite crítico, ou seja,
não serão significativos. Por outro lado, se tivermos um χ² significativo em uma tabela de
contingência, devemos calcular os resíduos padronizados para identificar quantos e quais
pares de casos estão acima do limite crítico, quer dizer, concentram ou não mais casos do
que o esperado se as variáveis fossem independentes.
1.3.2 cálculo dos resíduos padronizados (rp)
A análise de resíduos padronizados nada mais é do que a verificação dos valores
que representam a relação biunívoca (nas duas direções) com probabilidade de chances
de ocorrências. Ou seja, são os valores que sobram (para mais ou para menos) quando a
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
24
distribuição entre o valor observado e o esperado fica distante de zero, ou seja, a variação
não é aleatória. Ao se estabelecer 95% de intervalo de confiança, essas chances de ocor-
rência são de ± 1,96, valor que serve de ponto de corte para o nível de significância de falta
ou excesso de ocorrência entre as variáveis, o que permite distinguir os valores de pares
casuais dos não casuais. Como o valor na tabela z-score para o intervalo de confiança de
95% é de 1,96, pode-se considerar que valores de resíduos padronizados acima de +1,96
ou abaixo de –1,96 apresentam excessos ou ausência de casos significativos, sendo, por-
tanto, responsáveis pelas relações não aleatórias apontadas pelo coeficiente χ².
Todo resíduo, seja ele bruto ou padronizado, serve para indicar as diferenças
entre o valor observado e o valor esperado em uma distribuição de frequências. O cálculo
dos resíduos padronizados é bastante simples e quase intuitivo. Os valores são padroni-
zações, ou seja, transformações adimensionais dos resíduos brutos. Um resíduo padroni-
zado (Rp) é calculado a partir da padronização dos resíduos brutos para que passem a ter
variância igual e apresentem-se de maneira adimensional, transformando-se em um coe-
ficiente. Por ser padronizado, o Rp apresenta variância constante, o que permite a com-
paração direta entre valores de diferentes magnitudes. Se a análise é feita a partir de uma
grande amostra (n > 120) e intervalo de confiança de 95% (z = 1,96), qualquer resíduo
acima de 1,96 deve ser considerado estatisticamente significativo, ou seja, o resíduo en-
contrado naquela relação biunívoca é maior do que supunha a hipótese de independência
entre as variações das duas variáveis. Podemos calcular os resíduos padronizados em
tabelas de contingência de variáveis categóricas a partir da seguinte fórmula:
𝑅𝑅𝑝𝑝 =
𝑅𝑅𝑏𝑏
�𝐹𝐹𝑒𝑒

Onde:
Rp = resíduo padronizado
Rb = resíduo bruto
Fe = frequência esperada
Usando o mesmo exemplo das distribuições de vereadores eleitos por ideologia
partidária e região do País, temos que para a primeira célula da tabela de contingência –
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
25
L1, partido de esquerda, C1, região nordeste – o seguinte cálculo de Resíduo Padronizado:
𝑅𝑅𝑝𝑝(𝑙𝑙1,𝑐𝑐1) =
𝑅𝑅𝑏𝑏
�𝐹𝐹𝑒𝑒
=
814,33
√13.703,67
= 6,95
Considerando o limite crítico de 1,96, podemos afirmar que os resíduos de par-
tidos de esquerda na região nordeste são estatisticamente significativos. Ou seja, a es-
querda elegeu mais (sinal positivo) vereadores no nordeste do que esperado se a distri-
buição dos eleitos de esquerda fosse aleatória por região do país. A tabela a seguir mostra
todos os resultados de Resíduos padronizados para as duas variáveis.
Nela podemos perceber que um dos valores não é estatisticamente signifi-
cativo. Ou seja, esse par de categorias não deve ser considerado com variações in-
dependentes, ainda que apresente resíduos brutos. É o caso dos vereadores eleitos
por partidos de direita no Centro-Oeste (-0,235), bastante abaixo do limite de -1,96.
Dos outros 14 pares de categorias que ficaram acima do limite crítico, oito apresen-
taram resíduos positivos e seis com resíduos negativos (indicados pelas cores azul
e vermelha na tabela 1.3.3). Os resíduos padronizados mais intensos, como espe-
rado, são os mesmos que os resíduos brutos, porém, agora com valores adimensio-
nais. É o caso da eleição de vereadores de centro no Nordeste (-18,319) e partidos
de centro no Sul (+16,145). Partidos de esquerda no Nordeste apresenta o segundo
maior resíduo positivo (+13,381) e a direita na região Sul apresenta o segundo maior
resíduo negativo (-14,622). Excetuando este último, os resíduos por região para
partidos de direita são os que ficam mais próximos de zero, indicando que esta po-
sição ideológica foi a que mais se aproximou de uma distribuição independente de
região para todo País. Já os partidos de esquerda tenderam a concentrar eleitos no
Nordeste, enquanto partidos de centro elegeram mais na região Sul.
Tabela 1.3.3. Resíduos Padronizados para ideologia do partido do eleito por região
IDEOLOGIA NE SD CO NO SU
ESQUERDA 13,381 -13,28 -6,337 -2,354 4,708
CENTRO -18,319 5,298 5,61 -4,327 16,145
DIREITA 5,211 4,212 -0,235 4,583 -14,622
Fonte: autor
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
26
Não vem ao caso, aqui, discutir quão contra intuitivo para o senso comum é a
tabela 1.3.3, pois, de acordo com o senso comum, o eleitor nordestino tenderia a ser o
mais refratário em relação à ideologia de esquerda em função das relações históricas com
lideranças políticas ligadas a partidos que representam o centro ou a direita regional. A
literatura especializada em eleições no Brasil tem demonstrando como nas últimas déca-
das o perfil de voto regional foi se transformando no Brasil, em especial após a chegada
do principal partido de esquerda do País, o PT, ao governo federal (Cervi, 2016).
Como os resíduos são padronizados, também é possível fazer a leitura compa-rando os valores na mesma coluna, ou seja, entre as regiões. Nesse caso, teríamos que
no Nordeste há um predomínio de vereadores de partidos de esquerda, no Sudeste há
uma presença quase equilibrada entre partidos de centro e de direita, no Centro-Oeste
predominam vereadores de partidos de centro, no Norte estão os vereadores de partidos
de direta e no Sul voltam a eleger mais os partidos de centro. Em resumo, os resíduos
padronizados foram necessários para a identificação individualizada da concentração de
valores em pares de casos – acima ou abaixo – do esperado e dentro ou fora do limite crí-
tico da significância estatística. Até então, o que tínhamos encontrado era um coeficiente
que representasse o conjunto das relações entre todos os pares de casos.
1.3.3 cálculo dos resíduos padronizados para análises teMporais
Uma das principais limitações das técnicas quantitativas de análises tempo-
rais (as chamadas séries temporais) é a necessidade de um número mínimo de ob-
servações no tempo muito alto. Normalmente, é aceitável do ponto de vista estatístico
pelo menos 120 pontos observados ao longo do tempo para uma análise consistente.
Na maioria das vezes, os objetos de análise da ciência política não possuem todos
esses pontos de observação no tempo. Isso é muito difícil em análises eleitorais, pois
a distância entre as medições é grande, bianual, quadrienal ou até mais. Portanto,
precisaríamos de dois séculos ou mais com dados disponíveis para podermos usar
as técnicas tradicionais nesse caso. Mas, se a tabela de contingência for organizada
em ordem temporal, os Resíduos Padronizados podem substituir as técnicas de séries
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
27
temporais com a vantagem de ser possível trabalhar com poucos pontos no tempo.
Quando comparados entre si, resíduos padronizados em uma tabela de con-
tingência mostram as diferenças relativas entre cada par de categorias. Se uma das
variáveis for temporal, a transição de uma categoria para outra indica uma mudança no
tempo. Assim, diferenças de resíduos apontam para maior ou menor concentração de
casos em determinado momento do tempo. Mas, atenção, os resíduos não são capa-
zes de indicar quanto da mudança no tempo seguinte (t1) é consequência ou “memória”
da quantidade da característica no tempo anterior (t0). Conhecer a proporção da ca-
racterística que influencia o tempo seguinte apenas é possível usando as técnicas de
análise de séries temporais que decompõem os valores – nesse caso, volta o problema
da dependência do número mínimo de observações no tempo.
Usaremos para exemplificar o cálculo dos resíduos padronizados a distribui-
ção dos deputados estaduais eleitos no Brasil entre 1998 e 2014. Como nesse perío-
do foram criados mais partidos dentro da posição de ideologia de centro e de direita,
para não enviesar os resultados, vamos comparar os desempenhos apenas dos três
maiores partidos que disputaram todas as eleições entre 1998 e 2014 (PT, PMDB e
PSDB). Então, o objetivo da análise passa a ser verificar as mudanças nos resíduos
padronizados de deputados estaduais eleitos entre as eleições. Nosso objetivo é sa-
ber se houve ou não variação estatisticamente significativa do desempenho de cada
partido entre as eleições do período, usando a análise de resíduos. Para identificar os
resíduos seguem-se os mesmos três passos do caso anterior, para cada um dos pares
de resultados (Partido na linha x Ano na coluna). Para a primeira casa da tabela 1.3.4,
número de deputados estaduais do PT eleitos por ano, teríamos o seguinte:
1º Passo (encontrar a Frequência Esperada)
F𝑒𝑒 =
𝑀𝑀𝑀𝑀 𝑥𝑥 𝑀𝑀𝑀𝑀
𝑁𝑁
=
581 𝑥𝑥 332
1.924
= 100,25
2º Passo (encontrar o Resíduo bruto)
𝑅𝑅𝑏𝑏 = 𝐹𝐹𝑜𝑜 – 𝐹𝐹𝑒𝑒 = 67 – 100,25 = −33,25
3º Passo (encontrar o Resíduo Padronizado)
𝑅𝑅𝑝𝑝 =
𝑅𝑅𝑅𝑅
√𝐹𝐹𝐹𝐹
=
−33,25
�100,25
= −3,321
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
28
Este mesmo procedimento deve ser repetido para todas as demais relações en-
tre as categorias das variáveis analisada aqui. A princípio, olhando os valores brutos (N)
na tabela 1.3.4 podemos perceber que os deputados estaduais eleitos pelo PT foram os
que mais cresceram em número no período. Os do PMDB ficaram praticamente estáveis e
os do PSDB apresentaram queda no período. Como as diferenças entre os totais por ano
são relevantes – os três partidos elegem 332 deputados estaduais em 1998, esse número
sobe para 433 em 2006, para depois cair a 341 em 2014 – seria equivocado comparar os
valores de eleitos entre partidos ao longo do tempo. Os resíduos padronizados resolvem o
problema das diferenças de totais. Na tabela 1.3.4, a linha Rp indica o resíduo para cada
partido e ano de deputados estaduais eleitos, considerando apenas os três partidos. Ou
seja, estamos interessados em saber se algum deles cresceu ou diminuiu em relação aos
outros dois e não ao total geral.
Tabela 1.3.4. Número de deputados estaduais eleitos e resíduos padronizados para
PT, PMDB e PSDB entre 1998 e 2014
PARTIDO EST. 1998 2002 2006 2010 2014 TOTAL
N 67 142 122 144 106 581
Rp -3,321 1,664 -0,766 1,844 0,298
N 133 130 161 147 139 710
Rp 0,947 -1,704 0,096 -0,32 1,173
N 132 137 150 118 96 633
Rp 2,179 0,21 0,632 -1,428 -1,528
332 409 433 409 341 1924TOTAL
PT
PMDB
PSDB
Fonte: autor a partir do TSE
Como já sabemos, resultados acima de ± 1,96 para Resíduos Padronizados de-
vem ser considerados estatisticamente significativos. Se positivo, significa que aquele par
de categorias apresenta mais casos do que deveria caso as variáveis fossem indepen-
dentes. Se negativo, ele concentra menos casos do que seria esperado. Na tabela acima,
apenas dois resíduos mostram-se significativos, apesar das grandes variações de (N)
dos partidos entre os anos. Em 1998, o resíduo padronizado do PT é -3,321, indicando
que entre os três partidos ele foi o que elegeu menos parlamentares. O outro, em 1998,
foi o resíduo para PSDB (+2,179), único resíduo positivo acima do limite crítico de toda a
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
29
série. Perceba que em termos de (N), em 1998 o PSDB elegeu um deputado estadual a
menos que o PMDB. Ainda assim, o Rp do PSDB é maior que o do PMDB, isso porque os
valores estão padronizados levando em conta as cinco eleições. De qualquer maneira, em
geral os desempenhos dos três partidos, quando comparados entre si nas eleições para
deputado estadual entre 1998 e 2014, não sofreram grandes diferenças, em especial nas
disputas do final do período.
No entanto, é importante lembrar que os dados da tabela 1.3.4 estão agregados
para todo o País. Se quisers, podemos desagregar por região para tornar as informações
ainda mais detalhadas e sermos capazes de identificar se, quando comparados entre si,
um dos três partidos ganhou ou perdeu mais deputados estaduais por região e ano elei-
toral. A tabela 1.3.5 é resultado dos mesmos procedimentos já demonstrados acima, por
isso estão apenas os resultados de N e Rp por região e ano.
Como se pode perceber a partir das indicações e cores para os resíduos esta-
tisticamente significativos, na maior parte das eleições não houve diferenças estatistica-
mente significativas entre os números de deputados estaduais eleitos pelos três partidos.
O PMDB oscilou, abaixo do limite crítico, sem uma tendência clara, em todas as regiões
nas cinco disputas. O PT apresentou tendência de crescimento na região Norte e uma
tendência constante de queda nos resíduosda região Sul durante o período, porém, todos
os coeficientes ficaram abaixo do limite crítico nessas duas regiões. No Centro-Oeste, ele
oscilou sem tendência clara. No Nordeste, ele passou de coeficiente negativo e estatisti-
camente significativo em 1998 (-2,466) para resíduo positivo, porém, abaixo do limite críti-
co, em 2014 (+0,795). E no Sudeste apresentou redução de resíduo negativo e estatistica-
mente significativo em 1998 (-2,327) para -0,217 em 2014. O PSDB, quando comparado
aos outros dois partidos, oscilou sem tendência clara no Norte e Centro-Oeste entre 1998
e 2014. No Nordeste, ele apresentou queda comparativa, passando do resíduo positivo
e não significativo de +1,161 em 1998, para -2,128 em 2014. No Sudeste, ele também
apresenta queda comparativa no número de deputados estaduais eleitos, passando de
resíduo positivo e significativo (+2,229) em 1998 para negativo e não significativo em 2014
(-0,656). Na região Sul, o PSDB apresenta oscilação abaixo do limite crítico, porém, com
tendência de crescimento, passando de um resíduo negativo -0,298 no início da série
temporal, para +0,421 no final do período de análise.
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
30
Tabela 1.3.5. Dep. estaduais eleitos e resíduos padronizados para PT, PMDB e PSDB
por região do País entre 1998 e 2014
1998 2002 2006 2010 2014
N 12 19 20 20 16 87
Rp -0,437 -0,054 0,039 0,386 0,005
N 21 25 26 26 24 122
Rp 0,438 -0,38 -0,342 0,054 0,336
N 13 21 21 16 14 85
Rp -0,082 0,509 0,37 -0,455 -0,408
46 65 67 62 54 294
1998 2002 2006 2010 2014
N 16 33 34 43 28 154
Rp -2,466 -0,041 -0,244 1,975 0,795
N 47 40 44 41 41 213
Rp 1,003 -0,881 -0,719 -0,46 1,329
N 43 47 50 31 18 189
Rp 1,161 0,972 0,984 -1,294 -2,128
106 120 128 115 87 556
1998 2002 2006 2010 2014
N 3 9 9 9 9 39
Rp -1,532 0,069 0,203 0,489 0,724
N 17 14 21 19 14 85
Rp 0,403 -1,18 0,623 0,572 -0,361
N 17 23 14 12 14 80
Rp 0,654 1,168 -0,784 -0,931 -0,134
37 46 44 40 37 204
1998 2002 2006 2010 2014
N 19 50 37 45 34 185
Rp -2,327 1,877 -0,487 0,951 -0,217
N 26 27 33 30 34 150
Rp -0,022 -0,737 0,088 -0,296 1,007
N 49 35 47 39 35 205
Rp 2,229 -1,153 0,388 -0,65 -0,656
94 112 117 114 103 540
1998 2002 2006 2010 2014
N 17 31 22 27 19 116
Rp -0,054 1,619 -0,974 -0,08 -0,455
N 22 24 37 31 26 140
Rp 0,266 -0,756 0,758 -0,363 0,108
N 10 11 18 20 15 74
Rp -0,298 -0,988 0,176 0,6 0,421
49 66 77 78 60 330
TOTAL
PARTIDO EST. NORTE TOTAL
PT
PMDB
PSDB
TOTAL
PARTIDO EST. NORDESTE
TOTAL
PT
PMDB
PSDB
TOTAL
PARTIDO EST. CENTRO-OESTE TOTAL
PT
PMDB
PSDB
SUL TOTAL
PARTIDO EST. SUDESTE TOTAL
PT
PMDB
PT
PMDB
PSDB
TOTAL
PSDB
TOTAL
PARTIDO EST.
Fonte: autor a partir do TSE
Como é possível perceber nos dados da tabela acima, quando separamos os
desempenhos por regiões ganhamos em detalhamento de informações, porém, torna-se
mais complexa a explicação das relações e, portanto, mais fácil de tornar os resultados
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
31
incompreensíveis. Em resumo, se no final do período o desempenho comparativo dos três
partidos para deputado estadual apresentou resíduos muito próximos entre si, em 1998
o PSDB apresentava melhor desempenho do que o PT e o que explica essa diferença é
que no final da década de 1990 o PT elegia menos deputados no nordeste e no Sudeste,
enquanto o PSDB elegia mais no Sudeste. Em 2014, o PSDB elegeu menos no Nordeste,
equiparando as diferenças iniciais com o PT.
O objetivo deste capítulo foi apresentar algumas técnicas simples para cálculo
de coeficientes específicos aplicados a variáveis categóricas e para dados secundários,
a partir de tabelas de contingência. Essas ferramentas são úteis para o pesquisador que
pretende trabalhar com informações extraídas de relatórios ou publicações sobre os quais
não é possível acessar o banco de dados primário. A recomendação geral é que o pesqui-
sador use diferentes técnicas para complementar as informações obtidas isoladamente.
Dependendo do tipo de variável, faça um teste de χ² de início e, se os coeficientes forem
estatisticamente significativos, agregue uma análise de Resíduos Padronizados. Com
isso, você poderá tirar conclusões não apenas sobre as variações das variáveis, mas
também para os pares de relações entre as categorias. No próximo capítulo, discutiremos
um teste estatístico específico para verificar a associação entre duas variáveis binárias,
ou seja, para testar a força da relação entre as categorias em uma tabela quádrupla (2x2),
que é simples, rápido e fornece coeficientes bastante explicativos. Quando aplicados a
tabelas quádruplas, os testes dispensam a análise de resíduos individuais. Por fim, vale
(re)lembrar que o conjunto de testes apresentado aqui abrange uma pequena parte das
ferramentas estatísticas disponíveis para análise de dados categóricos.
1.4 referências biblioGráficas do capítulo i
Cervi, E. U. (2016). PSDB & PT em eleições nacionais. Salamanca/Curitiba: Flacso-es/
CPOP.
Pereira, J. C. R. (2004). Análise de Dados Qualitativos. São Paulo: EdUSP.
Pestana, M. H., & Gageiro, J. N. (2014). Análise de Dados Para Ciências Sociais.
Lisboa: Ed. Sílabo.
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
32
1.5 exercícios propostos do capítulo i

Considere a tabela de contingência a seguir para o cruzamento entre as variáveis
“Sexo do eleito” e “Partido” para o número de deputados estaduais eleitos em 2014.
Atenção, trata-se de um exercício, portanto, faça os três cálculos indicados abaixo,
independente do nível de significância da independência das variações:
1.5.1 O Coeficiente V de Cramer;
1.5.2 Os valores de Delta para todos os pares;
1.5.3 Os resíduos padronizados para todos os pares.
Interprete os resultados considerando a pergunta: É possível dizer que existiram dife-
renças estatisticamente significativas entre as proporções de mulheres eleitas por PT,
PMDB e PSDB para deputadas estaduais em 2014?
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
33
PT PMDB PSDB
HOMEM 79 686 581 1.346
MULHER 21 238 244 503
TOTAL 100 924 825 1.849
SEXO
PARTIDO
TOTAL
= 5,263 (0,072) χ2
anexo 1.1 – valores padronizados da distribuição do χ2
anexo do capítulo i
GL 0,995 0,975 0,9 0,5 0,1 0,05 0,025 0,01 0,005 0,001
1 0,000 0,001 0,016 0,455 2,706 3,841 5,024 6,635 7,879 10,827
2 0,010 0,051 0,211 1,386 4,605 5,991 7,378 9,210 10,597 13,815
3 0,072 0,216 0,584 2,366 6,251 7,815 9,348 11,345 12,838 16,266
4 0,207 0,484 1,064 3,357 7,779 9,488 11,143 13,277 14,860 18,466
5 0,412 0,831 1,610 4,351 9,236 11,070 12,832 15,086 16,750 20,515
6 0,676 1,237 2,204 5,348 10,645 12,592 14,449 16,812 18,548 22,457
7 0,989 1,690 2,833 6,346 12,017 14,067 16,013 18,475 20,278 24,321
8 1,344 2,180 3,490 7,344 13,362 15,507 17,535 20,090 21,955 26,124
9 1,735 2,700 4,168 8,343 14,684 16,919 19,023 21,666 23,589 27,877
10 2,156 3,247 4,865 9,342 15,987 18,307 20,483 23,209 25,188 29,588
11 2,603 3,816 5,578 10,341 17,275 19,675 21,920 24,725 26,757 31,264
12 3,074 4,404 6,304 11,340 18,549 21,026 23,337 26,217 28,300 32,909
13 3,565 5,009 7,041 12,340 19,812 22,362 24,736 27,688 29,819 34,527
14 4,075 5,629 7,790 13,339 21,064 23,685 26,119 29,141 31,319 36,124
15 4,601 6,262 8,547 14,339 22,307 24,996 27,488 30,578 32,801 37,698
16 5,142 6,908 9,312 15,338 23,542 26,296 28,845 32,000 34,267 39,252
17 5,697 7,564 10,085 16,338 24,769 27,587 30,191 33,409 35,718 40,791
18 6,265 8,23110,865 17,338 25,989 28,869 31,526 34,805 37,156 42,312
19 6,844 8,907 11,651 18,338 27,204 30,144 32,852 36,191 38,582 43,819
20 7,434 9,591 12,443 19,337 28,412 31,410 34,170 37,566 39,997 45,314
21 8,034 10,283 13,240 20,337 29,615 32,671 35,479 38,932 41,401 46,796
22 8,643 10,982 14,041 21,337 30,813 33,924 36,781 40,289 42,796 48,268
23 9,260 11,689 14,848 22,337 32,007 35,172 38,076 41,638 44,181 49,728
24 9,886 12,401 15,659 23,337 33,196 36,415 39,364 42,980 45,558 51,179
25 10,520 13,120 16,473 24,337 34,382 37,652 40,646 44,314 46,928 52,619
26 11,160 13,844 17,292 25,336 35,563 38,885 41,923 45,642 48,290 54,051
27 11,808 14,573 18,114 26,336 36,741 40,113 43,195 46,963 49,645 55,475
28 12,461 15,308 18,939 27,336 37,916 41,337 44,461 48,278 50,994 56,892
29 13,121 16,047 19,768 28,336 39,087 42,557 45,722 49,588 52,335 58,301
30 13,787 16,791 20,599 29,336 40,256 43,773 46,979 50,892 53,672 59,702
31 14,458 17,539 21,434 30,336 41,422 44,985 48,232 52,191 55,002 61,098
32 15,134 18,291 22,271 31,336 42,585 46,194 49,480 53,486 56,328 62,487
33 15,815 19,047 23,110 32,336 43,745 47,400 50,725 54,775 57,648 63,869
34 16,501 19,806 23,952 33,336 44,903 48,602 51,966 56,061 58,964 65,247
35 17,192 20,569 24,797 34,336 46,059 49,802 53,203 57,342 60,275 66,619
36 17,887 21,336 25,643 35,336 47,212 50,998 54,437 58,619 61,581 67,985
37 18,586 22,106 26,492 36,336 48,363 52,192 55,668 59,893 62,883 69,348
38 19,289 22,878 27,343 37,335 49,513 53,384 56,895 61,162 64,181 70,704
39 19,996 23,654 28,196 38,335 50,660 54,572 58,120 62,428 65,475 72,055
40 20,707 24,433 29,051 39,335 51,805 55,758 59,342 63,691 66,766 73,403
41 21,421 25,215 29,907 40,335 52,949 56,942 60,561 64,950 68,053 74,744
42 22,138 25,999 30,765 41,335 54,090 58,124 61,777 66,206 69,336 76,084
43 22,860 26,785 31,625 42,335 55,230 59,304 62,990 67,459 70,616 77,418
44 23,584 27,575 32,487 43,335 56,369 60,481 64,201 68,710 71,892 78,749
45 24,311 28,366 33,350 44,335 57,505 61,656 65,410 69,957 73,166 80,078
46 25,041 29,160 34,215 45,335 58,641 62,830 66,616 71,201 74,437 81,400
47 25,775 29,956 35,081 46,335 59,774 64,001 67,821 72,443 75,704 82,720
48 26,511 30,754 35,949 47,335 60,907 65,171 69,023 73,683 76,969 84,037
49 27,249 31,555 36,818 48,335 62,038 66,339 70,222 74,919 78,231 85,350
50 27,991 32,357 37,689 49,335 63,167 67,505 71,420 76,154 79,490 86,660
51 28,735 33,162 38,560 50,335 64,295 68,669 72,616 77,386 80,746 87,967
52 29,481 33,968 39,433 51,335 65,422 69,832 73,810 78,616 82,001 89,272
53 30,230 34,776 40,308 52,335 66,548 70,993 75,002 79,843 83,253 90,573
54 30,981 35,586 41,183 53,335 67,673 72,153 76,192 81,069 84,502 91,871
55 31,735 36,398 42,060 54,335 68,796 73,311 77,380 82,292 85,749 93,167
56 32,491 37,212 42,937 55,335 69,919 74,468 78,567 83,514 86,994 94,462
57 33,248 38,027 43,816 56,335 71,040 75,624 79,752 84,733 88,237 95,750
58 34,008 38,844 44,696 57,335 72,160 76,778 80,936 85,950 89,477 97,038
59 34,770 39,662 45,577 58,335 73,279 77,930 82,117 87,166 90,715 98,324
60 35,534 40,482 46,459 59,335 74,397 79,082 83,298 88,379 91,952 99,608
CAPÍTULO I – COEFICIENTE DE ASSOCIAÇÃO E ANÁLISE DE RESÍDUOS EM TABELAS DE CONTINGÊNCIA
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
34
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
35
teste de associação para tabelas Quádruplas
e para variáveis ordinais
A forma de organização inicial dos dados é
determinante para o processo de análise e
para os resultados que virão a seguir.
A análise de relações entre variáveis a partir de tabelas quádruplas (2x2) é
uma excelente forma de realizar uma primeira aproximação das associações que o
pesquisador espera encontrar no mundo empírico. Tabelas 2x2 sumarizam informa-
ções de um mundo bastante complexo. A principal contribuição para análises desse
tipo de variáveis foi feita pelo estatístico inglês George Udny Yule quando, em 1911,
publicou a primeira edição de “An introduction to the theory of Statistics”. Nesse livro,
foi demonstrado pela primeira vez um teste de associação entre variáveis binárias que
ficou conhecido como Q de Yule (Qxy). Devido à importância do teste, o texto foi repu-
blicado dezenas de vezes em diferentes línguas nas décadas posteriores à publicação
da primeira edição. Neste capítulo, aprenderemos a calcular o Qxy para cruzamentos
entre duas e três variáveis binárias. Ao final, é apresentada a forma de calcular o coe-
ficiente Gama, indicado para cruzamentos entre variáveis ordinais, com três ou mais
categorias cada uma.
CApítulo ii
2.1 teste Q de Yule (QxY)
Como já apresentado no volume I do manual, uma variável binária ou dicotô-
mica é aquela que possui apenas duas categorias, que representam a presença ou a
ausência de determinada característica. Normalmente, a representação numérica das
categorias é feita por 0 = ausência e 1 = presença. Pode ser aplicado, por exemplo, à
variável Sexo, quando se quer testar determinada característica das mulheres, então:
1 = mulher e 0 = homem. Ou quando se quer dividir o total de eleitores em dois grupos,
sendo: 1 = eleitores que votaram no candidato K na última eleição ou 0 = eleitores que
não votaram no candidato K na última eleição. Até aqui identificamos duas variáveis
dicotômicas: sexo e voto em determinado candidato. Digamos que nosso objetivo seja
saber se o candidato K teve mais votos entre as mulheres quando comparado aos
demais concorrentes. Nesse caso, precisaríamos cruzar as duas informações para ter
quatro condições possíveis: a) é mulher e não votou em K; b) é mulher e votou em K; c)
não é mulher e não votou em K e d) não é mulher e votou em K. Como existem quatro
possibilidades em um cruzamento de duas variáveis dicotômicas, elas são organizadas
em tabelas quádruplas (2x2). O passo seguinte é tentar identificar se a presença de
terminada característica está associada à presença de característica em outra variável.
No nosso exemplo, poderíamos nos perguntar se o fato de ser mulher está associado ou
não a votar no candidato K. Um teste estatístico para medir a existência ou não de re-
lação entre duas variáveis dicotômicas e, no caso de existir relação, a força e a direção
da mesma foi proposto pelo estatístico inglês George Unde Yule em 1911. Conhecido
por Q de Yule, é representado pela letra Qxy, como veremos a seguir.
O teste de independência Qxy serve para identificar se:
i) duas variáveis dicotômicas estão relacionadas entre si;
ii) de quanto é a intensidade da relação; e,
iii) se os resultados podem ser usados em generalizações para toda a popula-
ção quando se está testando a associação em amostras.
Como é aplicado em tabelas quádruplas (com duas variáveis dicotômicas) e
qualquer variável pode ser dicotomizada, trata-se de um coeficiente bastante útil e que
pode ser obtido com a aplicação de fórmulas simples, dispensando o uso de programas
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
36
CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
37
de computador. Uma variável pode ser dicotomizada quando se decide separar em dois
grupos as categorias internas dela. Por exemplo, pode-se ter uma variável categórica
na forma de Escala de Likert para avaliação de governo: Muito Boa, Boa, Regular, Ruim
e Péssima. A dicotomização se dá quando o pesquisador divide os resultados entre
Avaliação Positiva e as demais. Então, teríamos: 1 = (Muito Boa + Boa) e 0 = (Regular
+ Ruim + Péssimo), por exemplo. A dicotomização também pode ser a partir de uma
variável escalar discreta, como idade em anos completos. Nesse caso, a opção pode
ser usar o valor da mediana para dividir em dois grupos de igual tamanho. Então, se
quiséssemos testar oefeito entre os mais velhos, teríamos: 0 = grupo dos mais novos,
até a mediana e 1 = grupo dos mais velhos, a partir da mediana.
Também é possível dicotomizar distribuições de frequências a partir de dados
secundários, como, por exemplo, usando informações de uma tabela de distribuição das
intenções de voto a seis candidatos em uma eleição qualquer. Nesse caso, separa-se
a frequência de respondentes que dizem votar em um candidato (representado pela
letra K) e essa será a característica analisada (1). A soma de todas as demais receberá
código zero. Ao final teremos apenas dois resultados possíveis: vota no candidato K ou
não vota no candidato K.
O importante aqui é entender que qualquer variável pode ser dicotomizada
desde que o processo seja defensável estatisticamente. Quando se tem duas variáveis
dicotômicas, tais como votar ou não no candidato A e idade dos respondentes (jovem
e não jovem) é possível aplicar os cálculos do coeficiente de Qxy para identificar se as
duas variáveis apresentam independência de variações ou se as variações delas estão
associadas entre si. Se não forem independentes, significa que há alguma associação
entre as características medidas. Então, o coeficiente também nos fornece a informação
sobre o grau de associação entre elas, ou seja, a força. Uma terceira característica é a
direção da associação. Quando as variações estão no mesmo sentido, ambas as varia-
ções passando de zero para um, por exemplo, o sinal é positivo. Quando existe asso-
ciação, mas ela é cruzada, então o sinal será negativo. Por fim, o teste também mostra
se os resultados obtidos em uma amostra são consistentes o suficiente para permitir a
extrapolação para toda a população.
O mais comum quando se agregam variáveis escalares, proporcionais, ordinais
CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS
CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
38
ou de intervalo é considerar X e Y o conjunto de valores Altos ou a presença da caracte-
rística a ser medida e não-X e não-Y os valores Baixos ou a ausência da característica
a ser medida. Essa convenção é importante em função do sinal do coeficiente de asso-
ciação no resultado do teste. Uma inversão das posições significaria inverter um sinal de
relação na mesma direção (positivo) por relação em direções opostas (negativo). As ta-
belas quádruplas são compostas por quatro células de frequências, quatro células com
frequências marginais e uma célula de total, chamada de N. Cada uma das células de
frequências recebe uma letra como nome, sendo A, B, C e D, como no quadro a seguir:
Quadro 2.1. Distribuição Quádrupla para cálculo do Qxy
Não-Y Y Total
X A B Marginal X
Não-X C D Marginal Não-X
Total Marginal Não-Y Marginal Y Total de Casos (N)
Devem fazer parte das células de frequências apenas os casos válidos, o que
sempre precisa ser explicitado aos leitores. As variáveis analisadas são chamadas de X
e Y. As categorias de grupamento dicotômico das variáveis são chamadas, por conse-
quência, de X e não-X; Y e não-Y. Em um exemplo de pesquisa sobre intenção de voto
relacionada a sexo dos eleitores para saber se determinado candidato (K) recebe votos
de mulheres, os respondentes que dizem votar no candidato K compõem as casas da
linha X e aqueles que dizem votar em qualquer outro candidato fazem parte da linha
Não-X. Já as eleitoras são Y e os eleitores são não-Y. As somas dos casos nas linhas
(horizontais) e nas colunas (verticais) formam o que se chama de marginais. A somató-
ria das marginais leva ao número total de casos analisados, representado pela letra N.
Assim, teremos ao final uma tabela quádrupla que relaciona eleitores e não eleitores do
candidato K com o fato de ser ou não ser mulher. O resultado apresentará se o candida-
to K tem uma concentração maior de votos entre as mulheres ou não.
Como todos os demais testes estatísticos probabilísticos, o Qxy parte da hi-
pótese inicial (H0) de independência entre as variáveis. O que queremos identificar é
se existe uma chance estatística forte suficiente para garantir baixas possibilidades de
erro caso a hipótese nula (H0) seja rejeitada e passemos a defender que existe alguma
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
39
CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS
relação entre as duas variáveis. No caso do exemplo, afirmar que o candidato K tem
mais votos entre mulheres do que entre homens seria uma hipótese inicial de trabalho.
Partiríamos do princípio de que não há diferença de sexo entre os eleitores do candidato
K, ou seja, as duas variáveis são independentes, como prediz a H0. Nosso objetivo é
realizar os testes para verificar se temos condições suficientes de afirmar que há uma
associação entre as duas variáveis – ser mulher e votar em K. Nesse caso, rejeitaría-
mos H0 e assumiríamos que há uma probabilidade de que as duas variáveis estejam
associadas, quer dizer, assumimos H1. No próximo tópico, veremos como fazer isso
para duas variáveis dicotômicas.
2.1.1 teste de independência Q de Yule (QxY)
Os testes de independência visam identificar se as variações entre categorias
de duas variáveis se dão de forma independente ou se elas aguardam alguma depen-
dência entre si. A partir disso, se for identificada alguma dependência entre variações é
possível pensar na existência de associação estatística. Se não, diz-se que a associa-
ção é nula, ou seja, as variáveis são independentes. Se sim, a associação pode ter di-
ferentes intensidades: fraca, média, forte. Aqui, o teste de independência visa identificar
a inexistência de relação das variações entre duas variáveis. Portanto, relembrando, a
hipótese inicial é de independência. Se houver alguma relação entre as variações, en-
tão, nega-se a hipótese de independência e mede-se o grau de relação entre elas.
Nas tabelas quádruplas cada casa representa a frequência encontrada para
um par de características (par Não-Y, X; par Não-Y, Não-X; par Y, X; par Y, Não-X). Se
as variáveis forem independentes, a proporção de casos em cada par em relação ao
total será a mesma ou muito próxima entre si, portanto, impedindo qualquer afirmação
de associação entre as variáveis. Já se houver uma distorção razoável entre a frequên-
cia relativa de casos em um ou alguns pares em relação aos demais, podemos negar a
independência e medir o grau de associação entre as categorias das variáveis. Então,
o coeficiente Qxy nos fornece duas informações importantes:
i) sobre a magnitude da relação, medida pelo tamanho do coeficiente. Quanto
CAPÍTULO II - TESTE DE ASSOCIAÇÃO PARA TABELAS QUÁDRUPLAS E PARA VARIÁVEIS ORDINAIS
Manual de Métodos Quantitativos para iniciantes em Ciência Política - Volume 2 | Emerson Urizzi Cervi
40
mais próximo de ±1 mais forte será a associação; e
ii) a respeito da direção da relação. Se o sinal do coeficiente for positivo, então
as duas categorias estão associadas e variam na mesma direção. Se o sinal for negati-
vo, existe associação, mas as variações são em direções opostas.
O quadro a seguir representa os sinais predominantes nas associações Positi-
vas e Negativas entre duas variáveis dicotômicas.
Quadro 2.2. Relação dos sinais nas tabelas quádruplas
Não-Y Y Não-Y Y
X - + X + -
Não-X + - Não-X - +
Positiva Negativa
No quadro acima, a associação positiva indica uma concentração de casos
com a característica da variável X e com a característica da variável Y, mostrando que
as presenças das características em X e Y “caminham na mesma direção”. Já na as-
sociação negativa, a presença da característica na variável Y apresenta maior concen-
tração de frequências na casa da ausência da característica na variável X, nesse caso,