Buscar

estatistica_aplicada_as_ciencias_sociais_2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 208 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 208 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 208 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS
PAU
LO AFONSO BRACAREN
SE
Trabalhar com métodos quantitativos para a compreensão de fenômenos 
econômicos e notadamente de fenômenos sociais não significa absolu-
tamente diminuir as discussões a um patamar reducionista ao buscar 
equacionar esses fenômenos por meio de expressões matemáticas. 
A estatística deve ser compreendida em suas exatas potencialidades 
e limitações. A sua proposta é a de ser uma grande auxiliar quando os 
fenômenos a serem investigados podem ser expressos mediante alguma 
forma de quantificação. Ela não se basta nem deve pretender substituir 
outras ferramentas analíticas tão próprias das ciências humanas; o que 
ela pode desejar é ser seu complemento, e apenas eventualmente.
Código Logístico
57423
Fundação Biblioteca Nacional
ISBN 978-85-387-6448-9
9 788538 764489
Estatística aplicada às 
ciências sociais
IESDE BRASIL S/A
2018
Paulo Afonso Bracarense
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO 
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
B788e Bracarense, Paulo Afonso
Estatística aplicada às ciências sociais / Paulo Afonso 
Bracarense. - [2. ed.] - Curitiba [PR] : IESDE Brasil, 2018. 
204 p. : il.
Inclui bibliografia
ISBN 978-85-387-6448-9
1. Modelos matemáticos - Aspectos sociais. 2. Ciências 
sociais - Métodos estatísticos. I. Título.
18-53172 
CDD: 310
CDU: 311
© 2009-2018 – IESDE BRASIL S/A. 
É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito do autor e do detentor dos 
direitos autorais.
Projeto de capa e imagem: IESDE BRASIL S/A.
Todos os direitos reservados.
IESDE BRASIL S/A. 
Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200 
Batel – Curitiba – PR 
0800 708 88 88 – www.iesde.com.br
Paulo Afonso Bracarense
Doutor em Engenharia de Produção pela Universidade Federal de Santa Catarina (UFSC), 
com estágio de doutoramento na University of South Florida, nos Estados Unidos. Mestre em 
Agronomia (Estatística e Experimentação Agronômica) pela Universidade de São Paulo (USP) e 
em Políticas Públicas pela Humboldt University of Berlin (HUB) e European Viadrina University 
of Frankfurt (Oder), na Alemanha. Especialista em Gestão Municipal de Recursos Hídricos pelo 
Instituto Federal de Educação do Ceará (IFCE) e pela Agência Nacional de Águas (ANA). Bacharel 
em Estatística pela Universidade Federal do Paraná (UFPR). Professor da UFPR.
Sumário
Apresentação 9
1 Introdução e conceitos básicos 11
1.1 Sociologia e estatística 11
1.2 Os métodos estatísticos 12
1.3 Variáveis e escalas de mensuração 14
1.4 Medidas que revelam circunstâncias 15
1.5 Análise de associação entre variáveis 16
1.6 Metodologias qualitativas em ciências sociais 16
2 Análise de dados 19
2.1 Análise exploratória de dados e estatística descritiva 19
2.2 Tipos de medidas 19
3 Medidas estatísticas de posição 35
3.1 Medidas estatísticas 35
3.2 Medidas de posição 36
4 Medidas estatísticas de dispersão 45
4.1 A amplitude total 46
4.2 A variância 47
4.3 Desvio-padrão 51
4.4 Coeficiente de variação 52
5 Técnicas de amostragem 55
5.1 Sociologia e amostragem 55
5.2 População 56
5.3 Amostra 57
5.4 Tipos de amostragem 59
5.5 Principais técnicas de amostragem 64
6 Tamanho de uma amostra 71
6.1 A “margem de erro” 71
6.2 O nível de confiança 73
6.3 A variabilidade 75
6.4 Determinação do tamanho da amostra 75
6.5 Custo da pesquisa 77
6.6 Correção para populações finitas 78
7 Noções úteis de probabilidades 81
7.1 O papel do acaso 81
7.2 Teoria das probabilidades 81
7.3 Conceitos fundamentais 82
7.4 Definição de probabilidade 84
7.5 Axiomas e regras de probabilidades 85
7.6 Probabilidades conjunta, marginal, condicional e independência 88
7.7 Regra da multiplicação 90
7.8 Distribuições de probabilidades discretas 91
8 Inferência 97
8.1 Investigação sociológica 97
8.2 Procedimentos inferenciais 98
8.3 A distribuição normal 99
8.4 A distribuição “t” de Student 108
8.5 Intervalo de confiança 109
8.6 Testes de hipóteses 115
9 Estudos demográficos 123
9.1 Demografia 123
9.2 Estrutura e estimativas da população 124
9.3 Estimativas populacionais 126
9.4 Taxas demográficas 129
9.5 Fenômenos demográficos 132
9.6 Estrutura das populações 136
10 Indicadores sociais e econômicos 141
10.1 Indicadores sociais e Estado 141
10.2 Concepção de indicadores 142
10.3 Limitações do PIB como indicador social 142
10.4 Produção e disseminação de estatísticas públicas no Brasil 143
10.5 O índice de desenvolvimento humano (IDH) 143
10.6 O índice de Gini 147
10.7 Índices de preço 150
11 Análise de associação entre variáveis 153
11.1 Associação entre variáveis econômicas e sociológicas 153
11.2 Análise de regressão e de correlação 154
11.3 A construção da reta de regressão 158
11.4 Verificação da bondade do modelo 164
12 Análise de variáveis qualitativas 171
12.1 Métodos qualitativos e métodos para variáveis qualitativas 171
12.2 Análise de dados qualitativos 172
12.3 Análise de variáveis qualitativas 172
12.4 O teste qui-quadrado 173
12.5 O teste qui-quadrado para a independência 176
12.6 Testes das diferenças de K proporções amostrais ou da homogeneidade 177
12.7 Teste da bondade de ajustamento 179
Anexos 181
Gabarito 187
Referências 201
Apresentação
Este livro não é apenas resultado da experiência do autor como professor de Estatística para 
alunos de Sociologia e Economia, mas também de seu extenso trabalho prático na área, inclusive 
na tarefa de formulação de políticas públicas que, por sua natureza, exigem muita responsabilidade 
e envolvem grandes contingentes da população brasileira.
O principal desafio consistiu em trabalhar conteúdos que exigiam certo trato com a mate-
mática para um público que está acostumado a lidar com outro tipo de linguagem e lógica. Mesmo 
sendo essa uma tarefa difícil, não deixou de ser prazerosa.
A questão central colocada é a de como desenvolver esses conteúdos de modo a aproveitar 
o que de mais rico têm os leitores desta obra (o raciocínio crítico e contestador) e a elaboração 
de ideias e de conceitos de maneira multifacetada, o que nem sempre facilita o domínio de outra 
linguagem, como a linguagem matemática.
Há que se fazer um alerta importante nesta discussão: trabalhar com métodos quantita-
tivos para a compreensão de fenômenos econômicos e notadamente de fenômenos sociais não 
significa absolutamente diminuir as discussões a um patamar reducionista ao buscar equacionar 
esses fenômenos por meio de expressões matemáticas. A estatística deve ser compreendida em 
suas exatas potencialidades e limitações. A sua proposta é a de ser uma grande auxiliar quando os 
fenômenos a serem investigados podem ser expressos mediante alguma forma de quantificação. 
E só isso. Ela não se basta nem deve pretender substituir outras ferramentas analíticas tão próprias 
das ciências humanas; o que ela pode desejar é ser seu complemento, e apenas eventualmente.
Não há dúvidas de que a estatística serve muito bem para dar suporte ao chamado “paradig-
ma reducionista”, do qual faz parte a ideia de diminuir um problema complexo em partes menores, 
analisar cada uma delas e depois encontrar uma forma de aglutiná-las para compreender o todo. Ela 
pode e merece ser muito mais do que isso. As metodologias para análise de fenômenos complexos 
são necessariamente mais complexas do que aquelas para análise de fenômenos mais simples. É assim 
para qualquer ciência, inclusive para aquelas que utilizam métodos quantitativos. O que pode atribuir 
maior empregabilidade ao método estatístico, e que não é a vocação de qualquer método matemático, 
é a sua proposta de fazer uma grande negociação entre complexidade e incerteza na busca de com-
preensão do mundo real.
Apelamos, portanto, a você, leitor, que dê uma chance aos métodos propostos. Eles podem 
(e devem) ser úteis em algum momento no exercício profissional de análise da realidade, a despeito 
de algum esforço adicional para a leitura de seus conteúdos matemáticos, cujas exigências não serãosuperiores àquelas dos cursos médios. Sabemos perfeitamente que muitos dos nossos leitores 
gostariam de ter abandonado esse “sacrifício” quando optaram por um curso de ciências humanas, 
todavia você verá que, após um eventual período de estranhamento, terá, a partir de agora, mais um 
aliado em seu desafio cotidiano da análise dos fenômenos sociais: a ferramenta estatística.
Boa leitura!
1
Introdução e conceitos básicos
Usa a estatística como o bêbado o poste. 
Mais pelo apoio do que pela iluminação.
Andrew Lang (1844-1912)1
1.1 Sociologia e estatística
A estatística adquiriu o status de ciência no momento em que evoluiu de fazer levantamen-
tos de informações destinados ao conhecimento do Estado para se tornar uma fonte adicional de 
evidências a fim de explicar fenômenos da natureza e das relações humanas e sociais. Segundo 
Teixeira (2002), foi Émile Durkheim quem estabeleceu que o verdadeiro conhecimento socioló-
gico é o das chamadas correlações funcionais entre as diversas variáveis, que consiste em observar, 
comparar e explicar uma variável em relação a outra.
Durkheim nasceu na França e viveu de 1858 até 1917 (PARANÁ, 2018). É considerado um 
dos pais da sociologia moderna, tendo sido o fundador da Escola Francesa de Sociologia, que com-
binava a pesquisa empírica com a teoria sociológica, fortalecendo essa área de estudo. Defendeu 
sua tese de doutorado em 1893, sob o título Da divisão social do trabalho. Logo depois, em 1895, 
publicou As regras do método sociológico, considerada a primeira obra exclusivamente metodoló-
gica escrita por um sociólogo.
Os principais conceitos sociológicos desenvolvidos nesses trabalhos foram observados em 
1897 no livro O suicídio, no qual variáveis e dados empíricos são utilizados pela primeira vez de 
maneira sistemática na área da sociologia. Em 1896, Durkheim publica A proibição do incesto e 
suas origens, obra na qual o método de análise de dados etnográficos é aplicado em uma perspec-
tiva sociológica. Essa metodologia permite analisar representações coletivas como representações 
mentais ou simbólicas que são imagens da realidade empírica (BIOGRAFÍAS Y VIDAS, 2018).
Em O suicídio, Durkheim só admite observar, comparar e explicar o fato social por in-
termédio de outros fatos sociais (as taxas de suicídio só podem ser explicadas em função dos 
meios sociais, dos divórcios, das crises econômicas e de outras variáveis). Ele compara a taxa de 
mortalidade por suicídio com a taxa de mortalidade geral, particularmente suas variações ao 
longo do tempo, e observa que a primeira taxa permanece constante durante longos períodos 
e que sua invariabilidade é muito maior do que a ocorrida nos principais fenômenos demo-
gráficos. Além disso, compara as variações anuais das taxas de suicídio com as de diferentes 
sociedades, que podem ser bastante diversas.
1 Escritor escocês e crítico literário com contribuição na área de antropologia.
Estatística aplicada às ciências sociais12
1.2 Os métodos estatísticos
O tópico anterior introduz o escopo da metodologia estatística, que pode ser utilizada 
para a comprovação ou não de hipóteses de pesquisas na área social. Podemos entender a tare-
fa estatística com base em suas duas principais dimensões: (i) a análise exploratória de dados 
e; (ii) a inferência estatística.
Se um fenômeno social pode ser investigado por meio de observações empíricas, a organização 
delas de maneira sistemática pode ser enormemente auxiliada por metodologias estatísticas simples, 
conhecidas como análise exploratória de dados (AED). Anteriormente chamada de estatística descri-
tiva, a análise adquiriu essa nova denominação em razão do desenvolvimento de novas técnicas, ditas 
robustas, que consistem em explorar os dados com o intuito de produzir informações relevantes sobre 
o fenômeno em estudo.
Trata-se, portanto, de buscar na observação empírica elementos que possam auxiliar o ana-
lista social em sua tarefa de compreender o fenômeno em foco. É importante salientar que a análise 
de dados não substitui o instrumental teórico desse profissional, sua sensibilidade e experiência 
em olhar determinado fenômeno; mas, se os dados forem manipulados, no sentido positivo da 
palavra, com prudência e competência, podem ser de grande valia para ele. Para isso, é necessário 
despir-se de preconceitos do tipo “trabalhar com dados é uma atitude cartesiana” ou “só os positi-
vistas usam informações numéricas”.
Por outro lado, não se pode atribuir toda a responsabilidade de uma análise à informação 
estatística. Ela não tem, e não deve querer ter, a função principal; precisa ser utilizada muito 
mais para apoiar as teses envolvidas na investigação sociológica do que propriamente para lhes 
fornecer luz.
Essa forma de tratar os dados deve ser estendida também ao trabalho da segunda dimensão 
(e talvez a mais nobre) da estatística, que é o de ser uma ferramenta poderosa para a chamada indução 
ou inferência estatística, que objetiva tirar conclusões aproximadas por meio da observação de uma 
parcela da população, ou, ainda, determinar níveis de confiança acerca de elementos da população 
mediante a observação de uma amostra que melhor a represente. Também com os devidos cuidados, 
observações de dados numéricos do passado e do presente podem ser úteis para produzir inferên-
cias sobre o futuro.
Essa tarefa de filtragem de dados, que podem auxiliar na concepção de um modelo 
matemático que explique relações entre variáveis, começa por definições teóricas sobre essas 
relações e a determinação de quais variáveis têm o poder de medir certos fenômenos e de 
como é possível medi-los. Naturalmente, fenômenos mais complexos exigem a construção de 
modelos também mais complexos.
1.2.1 A análise exploratória de dados
Essa dimensão reúne um conjunto de técnicas constituídas pelas análises tabular e grá-
fica e pelas medidas estatísticas. A forma de apresentação dos dados por meio de tabelas e 
gráficos obedece às normas específicas determinadas internacionalmente. No caso brasileiro, 
Introdução e conceitos básicos 13
essas normas são definidas pela Associação Brasileira de Normas Técnicas (ABNT) e, portanto, 
devem ser respeitadas.
O clássico manual de Darrell Huff, Como mentir com estatística [How to lie with statistics], 
publicado originalmente em 1954, expõe formas de manipulação da apresentação de dados em ta-
belas e gráficos que podem levar o analista a cometer erros interpretativos. Antes de ensinar como 
mentir com estatísticas, o livro alerta para a utilização incorreta da apresentação de dados mesmo 
por analistas desavisados e bem-intencionados. Existem outros vários títulos sobre o uso e o mau 
uso de estatística para análise de fenômenos reais. O livro Usos e maus usos de dados e modelos: a 
matematização das ciências humanas [The uses and misuses of data and models: the mathematization 
of the human sciences], de W. James Bradley e Kurt Shaefer (1998), alerta para os cuidados que 
precisam ser tomados para a utilização da estatística como auxiliar na compreensão de fenômenos 
sociais. Os autores desenvolveram princípios que devem servir de guias para o uso de dados e 
modelos nas ciências humanas. Normas, valores e propósitos precisam se tornar parte do discurso 
comum de pesquisadores, promovendo estudos mais responsáveis ética e socialmente.
Novas formas de apresentação gráfica são utilizadas na AED, como o diagrama de caixas 
(box-plot), o esquema de cinco números e o diagrama ramo e folhas. A apresentação tabular e grá-
fica será abordada posteriormente.
Faz parte também da AED sintetizar dados com base nas chamadas medidas estatísticas. 
Elas podem ser classificadas em quatro grupos: (i) medidas de posição, entre elas as medidas de 
tendência central e as separatrizes; (ii) medidas de dispersão, como a variância e o desvio-padrão; 
(iii) medidas de assimetria e; (iv) medidas de achatamento ou de curtose. O estudo das medidas 
de posição e das medidas de dispersão, por serem as mais importantes, será assuntotratado em 
capítulos posteriores, e as medidas de assimetria e de curtose não serão tratadas em profundidade 
por não fazerem parte do escopo principal deste livro.
1.2.2 A inferência estatística
Essa análise ocupa-se de buscar explicações para um fenômeno que ocorre na grande popu-
lação por meio da observação de uma pequena parte dela, chamada de amostra. Inferências podem 
então ser feitas da parte para o todo e também com base em observações do passado e do presente 
para o futuro.
As técnicas de amostragem desenvolvidas a partir da primeira metade do século XX permi-
tem tirar conclusões aproximadas acerca de parâmetros que descrevem um fenômeno real ocorri-
do na população. O exemplo das pesquisas de opinião pública, notadamente das pesquisas eleito-
rais, ilustra a utilização de técnicas seguras de indução.
Os institutos de pesquisa conseguem produzir resultados muito próximos da realidade por 
meio da aplicação de inquéritos a pequenos grupos representativos da população. Afirmações 
como “temos 95% de confiança que o candidato ‘A’ terá 40% dos votos, com uma margem de erro 
de mais ou menos 3%” são obtidas na pesquisa com um grupo muito pequeno de eleitores. Essa 
declaração pode ser expressa matematicamente por:
Pr (40% – 3% < P < 40% + 3%) = 0,95
Estatística aplicada às ciências sociais14
A letra “P” é indicativa da percentagem de votos que o candidato A teria se as eleições fos-
sem no dia em que a pesquisa de campo foi realizada. O valor de 40% representa a percentagem de 
eleitores na amostra que disseram votar nesse candidato. A margem de erro de 3% indica o grau 
de precisão (ou desvio) do resultado em razão do trabalho amostral, e o nível de confiança de 95% 
equivale à chance de que a amostra sorteada realmente represente o universo de eleitores.
Essas duas medidas – margem de erro e nível de confiança – são predeterminadas para o 
cálculo do número de eleitores que será pesquisado, ou, como é tecnicamente conhecido, o tamanho 
da amostra. Esses temas serão tratados em capítulos específicos sobre técnicas de amostragem e 
inferência estatística.
No capítulo referente à amostragem, serão apresentadas as principais técnicas (amostra 
aleatória simples, amostra estratificada proporcional e amostra sistemática), além da discussão de 
métodos de amostragem não probabilísticos – que não suportam o trabalho de inferência – e as 
maneiras de se determinar o tamanho adequado de uma amostra representativa.
No tópico sobre inferência estatística, o trato com a curva normal e com o chamado teorema 
central do limite permitirá a construção de inferências sobre os parâmetros populacionais com base 
nas observações amostrais. Dois aspectos centrais serão tratados nesse capítulo: a construção de 
intervalos de confiança, como o anteriormente apresentado, e o procedimento conhecido como 
teste de hipóteses.
Os procedimentos de realização de uma pesquisa de opinião pública serão também abor-
dados posteriormente, bem como aqueles para realizar uma pesquisa que revele a opinião de um 
determinado grupo de pessoas. A forma de organização de um questionário e o estabelecimento 
de perguntas que tenham o potencial de revelar opiniões serão tratados de maneira sistemática.
1.3 Variáveis e escalas de mensuração
As universidades públicas brasileiras vêm adotando, nos últimos anos, políticas afirmativas, 
que buscam reparar o que seus dirigentes consideram injustiças históricas. Incansáveis discussões 
foram realizadas, por exemplo, em relação à reserva de vagas para estudantes afrodescendentes. 
Um dos núcleos da crítica a essa política de cotas é o argumento de que elas acirrariam o precon-
ceito racial no país.
Sem entrar no mérito da questão, seria de interesse científico verificar se essa última afirmação 
tem respaldo na realidade. Porém, medir a intensidade do preconceito racial, ou, mais simplificada-
mente, avaliar se a pessoa tem algum grau de preconceito, é uma tarefa desafiadora.
Acrescente-se que um problema potencial existente, quando se mede comportamento, é a 
chamada reatividade. Diz-se que uma medida é reativa se a consciência de estar sendo submetido 
a uma mensuração mudar o comportamento do indivíduo. Uma medida reativa informa como ele 
se comportaria em circunstâncias de estar sendo observado, mas não em condições naturais.
Introdução e conceitos básicos 15
Portanto, fenômenos complexos, como os tratados pelas ciências humanas, não são de fácil 
aferição. A definição clara das variáveis a serem estudadas e de como medi-las, estabelecendo-se 
escalas de mensuração, é uma das tarefas mais difíceis para o cientista social.
Uma variável é um conceito abstrato, que precisa ser traduzido em formas concretas de 
observação e manipulação. Ela pode ser compreendida como um evento, uma situação ou um 
comportamento e exige-se que a medida realizada por meio de uma variável seja válida e fidedigna.
Para algo ser válido, deve ser “verdadeiro”, no sentido de estar fundamentado nas evidências 
disponíveis. A fidedignidade diz respeito à variável estar medindo o que realmente se propõe a 
medir. Por meio de medidas, escalas podem ser construídas, sendo elas de natureza nominal, 
ordinal, numérica ou intervalar.
1.4 Medidas que revelam circunstâncias
Vários fenômenos sociais e econômicos adquiriram, ao longo do amadurecimento da utiliza-
ção de métodos numéricos nas ciências humanas, medidas que são aceitas universalmente. Mesmo 
assim, muitas dessas medidas ainda são questionadas quanto ao seu potencial de verificação de um 
fenômeno real. O índice de desenvolvimento humano (IDH), por exemplo, é uma medida compara-
tiva de riqueza, alfabetização, educação, esperança média de vida e outros fatores. É a padronização 
de avaliação e medida do bem-estar de uma população. O índice foi desenvolvido em 1990 pelo eco-
nomista paquistanês Mahbub ul Haq e é usado desde 1993 pelo Programa das Nações Unidas para o 
Desenvolvimento (PNUD) no seu relatório anual (PACHECO; JATENE, 2008).
No entanto, há uma série de críticas com relação à capacidade de o IDH medir de fato o 
desenvolvimento humano com certa precisão. No caso de medidas de riqueza e riqueza per capita, 
não se leva em consideração a distribuição da renda. Por isso, a análise do IDH deve ser acompa-
nhada de uma discussão da distribuição da riqueza, que pode ser realizada por meio do estudo do 
índice de Gini, por exemplo.
Determinadas medidas são importantes para se tentar compreender certas relações e situa-
ções de grupos de pessoas e mesmo de países. Por exemplo: o Brasil está entre os países com os 
maiores índices de desigualdade social do planeta (ONUBR, 2018). Como realizar essa medida? 
O índice de Gini é o indicador mais utilizado para se verificar a estrutura da distribuição de renda 
de um grupo social.
Interessa também saber como são determinados os índices que medem o aumento dos preços. 
Várias são as propostas metodológicas apresentadas, como o índice de custo de vida (ICV) e o índice 
de preço ao consumidor (IPC), que medem quantidades diferentes: o primeiro é um indicador geral 
de custo de vida, enquanto o segundo é um índice agregado de preços.
Outros indicadores importantes a serem tratados são os índices de mortalidade infantil e a 
esperança de vida. Como está estruturada a distribuição etária de uma população? Como ela enve-
lhece e como se renova? Esses indicadores e o estudo da estrutura populacional serão tratados em 
capítulo posterior.
Estatística aplicada às ciências sociais16
1.5 Análise de associação entre variáveis
A tarefa de verificação da relação entre duas ou mais variáveis é um dos temas centrais na 
confirmação de hipóteses em ciências humanas. Suponhamos que um pesquisador está interessado 
em verificar se pessoas que habitam aglomerações residenciais têm piores resultados em um teste 
de avaliação. Chamaremos a primeira variável de X, local de habitação, e a segunda, resultado no 
teste, de Y.
A primeira determinação não diz respeito propriamente à estatística; asvariáveis devem 
hipotética ou teoricamente estar relacionadas. A segunda tarefa diz respeito à forma de me-
dir essas variáveis. Algumas restrições precisam ser impostas para que se consiga estabelecer 
uma escala de medidas para aglomeração. Feito isso, pode-se construir um modelo matemático 
que relacione essas duas variáveis. Eventualmente, uma terceira variável pode estar escondida, 
ou ser uma variável latente, como quando se controla a classe social. O modelo mais simples, 
que relaciona somente duas variáveis, pode ser expresso da seguinte maneira:
y = + X + 
Esse é o modelo clássico chamado de regressão linear simples, no qual a relação entre as 
variáveis é linear e envolve somente duas delas, sendo, X a variável independente ou explicativa 
e Y a dependente ou variável de resposta.
Duas componentes fazem parte desse modelo: uma determinística, + X, e outra aleatória, 
ε. A primeira descreve aproximadamente a relação funcional entre X e Y, enquanto a segunda diz 
respeito a todas as outras variáveis que não foram analisadas no modelo, e que possivelmente são 
de menor importância, mais o efeito do acaso.
A força da relação entre X e Y será determinada por um indicador de força, chamado de 
coeficiente de correlação. Se for alto, isto é, próximo de 1, significa que, existindo a relação entre X 
e Y, ela será forte. Essas determinações serão estudadas posteriormente.
1.6 Metodologias qualitativas em ciências sociais
A utilização de métodos quantitativos pode não ser a mais adequada para algum tipo par-
ticular de estudo. Enquanto eles supõem uma população de objetos de observação comparáveis 
entre si, os métodos qualitativos enfatizam as especificidades de um fenômeno em termos de suas 
origens e de sua razão de ser.
Entre os principais métodos de pesquisa qualitativa estão a pesquisa-ação, a pesquisa par-
ticipante e a enquete operária. Estudaremos neste livro os métodos quantitativos para variáveis 
qualitativas, e não os métodos qualitativos.
Introdução e conceitos básicos 17
Atividades
1. Um fenômeno complexo e problemático que ocorre com maior expressão em diversas so-
ciedades indígenas da atualidade é o suicídio. Faça uma pesquisa bibliográfica sobre essa 
questão, procurando identificar algumas de suas possíveis causas. Atente-se para a utilização 
de indicadores na explicação desse problema.
2. Escolha um município qualquer do Brasil e compare o resultado das últimas eleições muni-
cipais com alguma pesquisa eleitoral realizada um pouco antes do pleito. O site do Instituto 
Brasileiro de Opinião Pública e Estatística2 concentra grande parte dessas informações. O 
que se pode concluir?
3. Em uma publicação – jornal ou revista –, observe as técnicas estatísticas utilizadas para 
análise de fenômenos sociais (medidas, gráficos, análises estatísticas etc.) e faça uma crítica 
procurando refletir se a ferramenta consegue ser representativa e sintetiza adequadamente 
a informação veiculada.
2 IBOPE. Disponível em: www. ibope.com.br. Acesso em: 18 out. 2018.
2
Análise de dados
As estatísticas não substituem o julgamento.
Henry Clay (1777-1852)1
2.1 Análise exploratória de dados e estatística descritiva
A estatística é a ciência da obtenção da informação com base em dados numéricos. 
A utilização desses dados para análise de fenômenos naturais e/ou sociais vem crescendo de 
modo considerável com a evolução de técnicas de obtenção de dados e com o acentuado cresci-
mento da computação.
A ideia central da utilização de dados numéricos para a análise de fenômenos do mundo real 
está em acrescentar mais uma peça de evidências ao corpo teórico e observações sobre achados da 
realidade. No entanto, essa utilização deve estar cercada de alguns cuidados, de modo a prevenir o 
mau uso das técnicas estatísticas, que pode levar a sérias distorções de entendimento da realidade.
De maneira sintética, podemos dizer que a análise de dados consiste em métodos e técnicas 
que permitem ao investigador reforçar, confirmar ou desconfirmar ideias acerca de um fenômeno 
real. Dois conjuntos de métodos podem ser distinguidos de acordo com essa ideia. O primeiro, 
mais simples, consiste em aplicar tratamentos gráficos e numéricos de modo a compreender o 
comportamento dos dados. Esses tratamentos são conhecidos modernamente como análise explo-
ratória de dados. O outro conjunto de técnicas, chamado de inferência estatística, permite que, com 
base na observação de uma parte dos dados, a amostra, sejam feitas ilações para um grupo maior, 
a população, que abrange aquele grupo menor.
A análise exploratória de dados pertence, portanto, ao campo do que era conhecido como 
estatística descritiva, que, com o acréscimo de técnicas chamadas robustas, permite dar tratamento 
mais detalhado aos dados, explorando pontos de vista não abrangidos anteriormente.
Fazem parte do escopo da discussão da AED o tratamento tabular e gráfico, as medidas esta-
tísticas e técnicas que permitem compor gráficos e medidas.
2.2 Tipos de medidas
Existem fundamentalmente dois tipos de medidas que estão relacionadas com a natureza 
da variável a ser observada. Associados a cada indivíduo, temos medidas ou atributos que o 
definem. As medidas são características de variáveis quantitativas e os atributos são de variáveis 
categorizadas ou qualitativas.
1 Advogado norte-americano que representou o Kentucky na Câmara dos Representantes e no Senado.
Estatística aplicada às ciências sociais20
As variáveis quantitativas podem ser contínuas ou discretas. Elas são contínuas quando entre 
dois quaisquer valores possam estar novos valores e são fruto de medidas que podem ser expressas 
pelos números reais. O salário dos empregados de uma empresa, por exemplo, pode ser considerado 
uma variável contínua. As variáveis são discretas quando são resultados de contagem e podem ser 
expressas por números inteiros, como a idade dos funcionários. Outra característica importante das 
variáveis quantitativas é que elas possibilitam fazer operações matemáticas com seus valores, como 
soma, subtração, multiplicação e divisão.
As variáveis categorizadas ou qualitativas são expressas em escalas ordinais, como é o caso da 
ordem em que os funcionários foram contratados, ou em categorias, como o sexo do funcionário 
ou o setor em que ele trabalha. Não se pode, nesse caso, fazer as operações matemáticas usuais com 
os resultados obtidos.
2.2.1 Tabelas e quadros estatísticos
Existe uma pequena diferença entre tabela e quadro estatístico. A tabela estatística é o 
resultado de alguma forma de resumo dos dados. A primeira linha vertical à esquerda e a última 
linha vertical à direita de uma tabela estatística devem ser somente linhas imaginárias, segundo 
as normas da ABNT2. As tabelas são utilizadas para apresentação de resultados estatísticos e 
também como ferramenta de desenvolvimento de operações. Uma tabela bastante importante 
utilizada em estatística é a distribuição de frequências, na qual é anotado o número de casos 
(frequência) para cada classe ou categoria considerada.
Já o quadro serve para a apresentação de dados, como os do exemplo dos empregados de 
uma empresa, ou para a apresentação de resultados-resumo, como um quadro de médias. O quadro 
tem seus limites à esquerda e à direita fechados por linhas.
2.2.1.1 Apresentação gráfica
Os dados de uma tabela estatística podem ser apresentados por meio de gráficos estatísticos. 
O tipo de gráfico deve ser compatível com a natureza dos dados. Os principais gráficos são o de 
colunas ou de barras, o de setores ou pizza, o de linhas e o histograma.
Existem também, na análise exploratória de dados, algumas apresentações gráficas que au-
xiliam a compreensão do comportamento dos dados, como o diagrama ramo e folhas, o esquema 
de cinco números e o diagrama de caixas ou box-plot.
O detalhamento da utilização de cada tipo de gráfico será assunto ainda deste capítulo.
Exemplo
Usaremos a situação a seguir, da composição dos empregados de uma 
empresa imaginária, chamadaaqui de empresa ABC, para ilustrar a 
natureza das variáveis e os recursos estatísticos disponíveis para uma 
2 ASSOCIAÇÃO Brasileira de Normas Técnicas. NBR 6023: informação e documentação – referências – elaboração. 
Rio de Janeiro, 2002. Disponível em: https://www.usjt.br/arq.urb/arquivos/abntnbr6023.pdf. Acesso em: 25 out. 2018.
Análise de dados 21
primeira análise de dados, que comporte a verificação do perfil de seu 
corpo funcional.
Observe, então, a seguinte situação: o coordenador do Departamento de 
Recursos Humanos (RH) da empresa solicitou, para um estudo prelimi-
nar sobre uma possível reorganização das funções e dos salários, a rela-
ção dos funcionários, na qual deveriam constar algumas variáveis para 
esse primeiro estudo: tempo de casa, sexo, idade, salário e setor.
Um auxiliar administrativo apresentou o seguinte quadro como resultado:
Quadro 1 – Relação dos funcionários da empresa ABC por sexo, idade, salário e setor de trabalho
Número de 
ordem Nome Sexo Idade Salário Setor
1 A. L. Ferraz M 49 1.714,00 Oper.
2 R. Abreu M 48 1.701,00 Oper.
3 R. S. Reis M 64 1.589,00 Oper.
4 N. Farias F 37 1.418,00 Oper.
5 J. L. Jansen F 42 1.000,00 Aux. Adm.
6 U. S. Machado M 40 3.732,00 Tec.
7 F. Nogueira F 21 1.330,00 Oper.
8 M. Pinheiro F 33 1.307,00 Oper.
9 M. A. da Silva M 39 1.282,00 Oper.
10 P. A. B. Costa F 42 1.260,00 Oper.
11 H. F. Minho F 39 975,00 Aux. Adm.
12 N. M. de Lima M 32 1.256,00 Oper.
13 C. F. Loureiro M 22 1.185,00 Oper.
14 M. E. M. Ferreira M 21 3.535,00 Tec.
15 J. A. Isaias F 37 2.956,00 Tec.
16 J. Martins F 24 1.179,00 Oper.
17 A. P. Ribeiro M 28 966,00 Aux. Adm.
18 L. C. Batista M 32 3.204,00 Adm.
19 A. F. dos Santos M 31 881,00 Aux. Adm.
20 C. A. Brandão F 38 3.080,00 Adm.
21 D. J. Feltrin M 23 2.872,00 Tec.
22 L. S. Prestes M 22 826,00 Aux. Adm.
23 J. L. Campos M 46 1.010,00 Oper.
24 S. I. Magalhães F 34 708,00 Aux. Adm.
(Continua)
Estatística aplicada às ciências sociais22
Número de 
ordem Nome Sexo Idade Salário Setor
25 P. R. Gonçalves M 47 2.960,00 Adm.
26 M. I. Machado M 42 2.797,00 Tec.
27 M. Paraná F 32 1.001,00 Oper.
28 U. V. Guimarães F 29 2.315,00 Adm.
29 E. M. Moreira M 41 5.572,00 Ger.
30 A. P. de Andrade M 30 2.372,00 Tec.
31 L. R. de Souza F 51 4.829,00 Ger.
32 R. T. Moraes F 23 1.826,00 Adm.
33 J. Pilloto M 20 540,00 Oper.
34 F. C. Lopes F 27 489,00 Oper.
35 C. A. Meier F 33 479,00 Oper.
36 H. O. Silveira F 22 1.904,00 Tec.
37 K. D. Almeida M 41 659,00 Aux. Adm.
38 M. J. D. Colares F 34 1.827,00 Tec.
39 R. F. L. Silvério M 24 472,00 Oper.
40 M. N. Messias F 20 640,00 Aux. Adm.
Fonte: Elaborado pelo autor.
Os dados apresentados foram organizados de modo a oferecer ao coorde-
nador do RH as informações que revelassem a distribuição dos salários de 
acordo com estas variáveis: (i) número de ordem, no sentido de que o mais 
antigo na organização recebeu o número 1 e o mais novo o número 40, 
não importando muito o tempo de contratação, uma vez que a empresa foi 
constituída há pouco tempo; (ii) sexo; (iii) idade; (iv) salário e; (v) setor, 
dividindo os funcionários de acordo com as funções: operacional (Oper.), 
auxiliar administrativo (Aux. Adm.), técnico (Tec.), administrativo (Adm.) 
e gerência (Ger.), sendo uma gerência técnica e outra administrativa.
O coordenador analisou o quadro e verificou imediatamente que os 
funcionários mais antigos eram, em sua maioria, do setor operacional, 
com exceção de dois auxiliares administrativos. Observou também que 
poucos ganhavam menos do que R$ 1 mil e que havia uma pequena 
predominância de funcionários do sexo masculino. Percebeu que o 
Reis de fato era o mais velho, com 64 anos, e que a empresa não tinha 
nenhum funcionário com menos de 20 anos. Verificou, também, que 
ele era o décimo oitavo contratado e que, entre os administradores, era 
o mais antigo, recebendo um salário maior em comparação com seus 
pares, no valor de R$ 3.204,00. Concluiu, finalmente, que, da forma 
Análise de dados 23
como os dados foram apresentados, havia dificuldade de obter infor-
mações mais detalhadas sobre a distribuição de cargos e salários. Sendo 
assim, o coordenador chamou um dos administradores e pediu que ele 
organizasse melhor os dados, afirmando que, em termos gerais, não 
importava o nome das pessoas. Foi prontamente atendido e recebeu o 
seguinte novo quadro:
Quadro 2 – Atualização das variáveis de funcionários da empresa ABC
Sexo Idade Setor Número de ordem Salário
Média 
salarial
M 41 Ger. 29 5.572,00
F 51 Ger. 31 4.829,00 5.200,50
M 40 Tec. 6 3.732,00
M 21 Tec. 14 3.535,00
F 37 Tec. 15 2.956,00
M 23 Tec. 21 2.872,00
M 42 Tec. 26 2.797,00
M 30 Tec. 30 2.372,00
F 22 Tec. 36 1.904,00
F 34 Tec. 38 1.827,00 2.749,38
M 32 Adm. 18 3.204,00
F 38 Adm. 20 3.080,00
M 47 Adm. 25 2.960,00
F 29 Adm. 28 2.315,00
F 23 Adm. 32 1.826,00 2.677,00
M 49 Oper. 1 1.714,00
M 48 Oper. 2 1.701,00
M 64 Oper. 3 1.589,00
F 37 Oper. 4 1.418,00
F 21 Oper. 7 1.330,00
F 33 Oper. 8 1.307,00
M 39 Oper. 9 1.282,00
F 42 Oper. 10 1.260,00
M 32 Oper. 12 1.256,00
M 22 Oper. 13 1.185,00
F 24 Oper. 16 1.179,00
M 46 Oper. 23 1.010,00
(Continua)
(Continua)
Estatística aplicada às ciências sociais24
Sexo Idade Setor Número de ordem Salário
Média 
salarial
F 32 Oper. 27 1.001,00
M 20 Oper. 33 540,00
F 27 Oper. 34 489,00
F 33 Oper. 35 479,00
M 24 Oper. 39 472,00 1.130,12
F 42 Aux. Adm. 5 1.000,00
F 39 Aux. Adm. 11 975,00
M 28 Aux. Adm. 17 966,00
M 31 Aux. Adm. 19 881,00
M 22 Aux Adm. 22 826,00
F 34 Aux .Adm. 24 708,00
M 41 Aux. Adm. 37 659,00
F 20 Aux. Adm. 40 640,00 831,88
Fonte: Elaborado pelo autor.
Com base no novo quadro, o coordenador pôde verificar uma série de 
novas informações, como média salarial e número de funcionários por 
categoria, e também que havia certa coerência dentro de cada catego-
ria com relação ao tempo de serviço e salário, pois funcionários mais 
antigos da mesma categoria recebiam salários maiores. Mas sobre sexo, 
idade e suas relações com as demais informações, o coordenador ainda 
tinha muita dificuldade de tirar conclusões.
Esse tipo simples de organização dos dados pode ser útil no dia a dia da 
análise de situações sociais. Os dados individuais, por mais bem organi-
zados que estejam, trazem poucas informações. É necessário que sejam 
sintetizados em quadros, tabelas, gráficos e medidas que possam resu-
mir as informações, agregando-as.
2.2.2 Variáveis categorizadas
As variáveis categorizadas são medidas de atributos, como sexo, grau de instrução, setor de 
trabalho, categoria profissional, preferência eleitoral etc. Os indivíduos estão relacionados a alguma 
categoria dentro de cada variável, como sexo e função, no caso dos empregados da empresa ABC.
2.2.2.1 Distribuição por sexo
A tabela e os gráficos a seguir apresentam a distribuição por sexo dos indivíduos da empresa 
que estamos tomando como exemplo.
Análise de dados 25
Tabela 1 – Distribuição por sexo dos funcionários da empresa ABC
Sexo Número Perc.
Fem. 19 47,5%
Masc. 21 52,5%
Total 40 100,0%
Fonte: Elaborada pelo autor.
A utilização de um gráfico estatístico objetiva representar visualmente os dados. Os gráficos 
adequados para a representação dessa tabela são os de colunas ou de barras e o gráfico de setores.
Figura 1 – Gráfico de colunas: representação da categoria sexo dos funcionários da empresa ABC
20
15
10
5
0
Fem. Masc.
Sexo
N
úm
er
o
Fonte: Elaborada pelo autor.
Figura 2 – Gráfico de barras: representação da categoria sexo dos funcionários da empresa ABC
Número
Fem.
Masc.
20151050
Se
xo
Fonte: Elaborada pelo autor.
Figura 3 – Gráfico de setores: representação da categoria sexo dos funcionários da empresa ABC
Fem.
52% 48%
Masc.
Fonte: Elaborada pelo autor.
O gráfico de setores é útil quando queremos observar o valor relativo da participação de 
cada categoria no total.
Estatística aplicada às ciências sociais26
2.2.2.2 Distribuição por função na empresa
A tabela e os gráficos a seguir apresentam a distribuiçãodos indivíduos de acordo com sua 
função na empresa.
Tabela 2 – Distribuição por função dos funcionários da empresa ABC
Função Número Perc.
Gerência 2 5,0%
Adm. 5 12,5%
Tec. 8 20,0%
Aux. Adm. 8 20,0%
Oper. 17 42,5%
Total 40 100,0%
Fonte: Elaborada pelo autor.
Figura 4 – Gráfico de colunas: representação da categoria função dos funcionários da empresa ABC
18
16
14
12
10
8
6
4
2
0
N
úm
er
o
Categorias
Gerência Tec. Aux. Adm. Oper.Adm.
Fonte: Elaborada pelo autor.
Figura 5 – Gráfico de setores: representação da categoria função dos funcionários da empresa ABC
Gerência
Adm.
Tec.
Aux. Adm.
Oper.
42%
5%
13%
20%
20%
Fonte: Elaborada pelo autor.
Análise de dados 27
2.2.3 Variáveis quantitativas
As variáveis quantitativas, sejam elas discretas ou contínuas, são apresentadas por meio da 
chamada distribuição de frequências. Nos dois casos podemos construir distribuições de frequên-
cias, indicando os valores da variável e a sua correspondente frequência de ocorrência.
No caso de variável contínua, ou mesmo de variável discreta com um grande número de 
possibilidades, é comum a construção de classes nas quais mais de um valor é contemplado.
Vamos estudar, inicialmente, o caso de uma variável discreta por meio da verificação da dis-
tribuição de frequências das idades dos funcionários. Pode ser de interesse do pesquisador saber 
qual é a distribuição de idade dos funcionários com menos de 30 anos. A tabela da distribuição de 
frequências correspondente a esses dados será a seguinte:
Tabela 3 – Distribuição de frequências dos funcionários até 30 anos
Idade Freq.
20 2
21 2
22 3
23 2
24 2
25 0
26 0
27 0
28 1
29 1
Total 13
Fonte: Elaborada pelo autor.
O gráfico correspondente à distribuição de frequências dessas idades é o gráfico de bastões.
Figura 6 – Gráfico de distribuição de frequências dos funcionários até 30 anos
20 21 22 23 24 25 26 27 28 29
3,5
3
2,5
2
1,5
1
0,5
0
Fonte: Elaborada pelo autor.
Estatística aplicada às ciências sociais28
2.2.3.1 Diagrama ramo e folhas
Uma outra forma de representação gráfica utilizando as próprias idades é o diagrama 
ramo e folhas, no qual o ramo representa os algarismos relativos às dezenas e as folhas referem-se 
àqueles quanto à unidade. Na primeira linha, o 2 equivale à dezena e os números à direita repre-
sentam as unidades. Estão representadas na primeira linha as idades 20, 20, 21, 21, 22 e assim 
por diante, até a idade 29.
Figura 7 – Diagrama ramo e folhas das idades dos 40 funcionários
2 00112223344789
3 01222334477899
4 0112226789
5 1
6 4
Fonte: Elaborada pelo autor.
Observe o aspecto da informação gráfica do diagrama ramo e folhas em analogia com o 
histograma que será apresentado na sequência. A vantagem da utilização do primeiro é que ele 
mostra o desenho da distribuição sem perder a informação detalhada.
2.2.3.2 Série temporal
Muitas variáveis são medidas em intervalos de tempo. O gráfico de linhas é a maneira 
mais adequada de apresentar a evolução de uma variável, sendo que o eixo X sempre será corres-
pondente a uma escala de tempo.
Quando não há um número demasiado grande de pontos, a ligação entre eles por segmentos 
de retas ajuda a visualizar o padrão de variação ao longo do tempo.
Suponha que no exemplo da empresa ABC os dados tivessem sido apresentados conforme 
a solicitação original, que incluía o tempo de casa de cada funcionário. Uma possível organização 
dos dados seria verificar quantos funcionários a empresa tinha em cada um de seus quatro anos de 
existência, conforme tabela a seguir:
Tabela 4 – Número de funcionários da empresa ABC por ano
Ano Funcionários
Ano 1 15
Ano 2 20
Ano 3 32
Ano 4 40
Fonte: Elaborada pelo autor.
Análise de dados 29
Figura 8 – Gráfico de linhas: representação do número de funcionários da empresa ABC por ano
45
40
35
30
25
20
15
10
5
0
Ano 1 Ano 2 Ano 3 Ano 4
Fonte: Elaborada pelo autor.
2.2.4 Distribuição de frequências
Poderíamos, eventualmente, considerar a idade como uma variável aleatória contínua 
cuja representação está aproximada para os valores inteiros das idades. A rigor, a variável idade 
é mesmo contínua, porque poderíamos medir o tempo de vida em anos, dias e mesmo segun-
dos. Nesse caso, seria possível construir classes entre certas idades de tal forma que elas repre-
sentassem um contínuo.
A tabela da distribuição de frequências das idades, quando organizada em classes, recebe o 
nome de histograma, um gráfico de colunas adjacentes representando um contínuo.
Tabela 5 – Distribuição de frequências das idades dos funcionários da empresa ABC
Idade Freq. Perc.
20 a 29 14 35,0%
30 a 39 14 35,0%
40 a 49 10 25,0%
50 a 59 1 2,5%
60 ou + 1 2,5%
Total 40 100,0%
Fonte: Elaborada pelo autor.
Estatística aplicada às ciências sociais30
Figura 9 – Histograma de distribuição de frequências das idades dos funcionários da empresa ABC
16
14
12
10
8
6
4
2
0
1
Idade
20 a 29 anos
30 a 39 anos
40 a 49 anos
50 a 59 anos
60 anos ou mais
Fr
eq
uê
nc
ia
Fonte: Elaborada pelo autor.
Tabela 6 – Distribuição salarial dos funcionários da empresa ABC
Salário Freq. Freq. Rel.
Até 999 11 0,28
De 1.000 a 1.999 17 0,43
De 2.000 a 2.999 6 0,15
De 3.000 a 3.999 4 0,10
Acima de 4.000 2 0,05
Total 40 1,00
Fonte: Elaborada pelo autor.
Observe que podemos utilizar indistintamente percentagem ou frequência relativa. Na ver-
dade, a percentagem é a frequência relativa multiplicada por 100.
Figura 10 – Gráfico de distribuição salarial dos funcionários da empresa ABC
Até 999
De 1.000 a 1.999
De 2.000 a 2.999
De 3.000 a 3.999
Acima de 4.000
18
16
14
12
10
8
6
4
2
0
Fr
eq
uê
nc
ia
Salários
1
Fonte: Elaborada pelo autor.
Análise de dados 31
2.2.4.1 Elementos de uma distribuição de frequências
A distribuição de frequências, como foi apresentada, é útil não só para apresentação de dados, 
mas para análises um pouco mais aprofundadas. A seguir, vamos reapresentar a distribuição de fre-
quências dos salários, porém de uma maneira mais matematicamente formal.
Tabela 7 – Distribuição de frequências salariais dos funcionários da empresa ABC
Salário (X) Freq. Freq. Rel.
X < 1.000 11 0,28
1.000 ≤ X < 2.000 17 0,43
2000 ≤ X < 3.000 6 0,15
3.000 ≤ X < 4.000 4 0,10
X ≥ 4.000 2 0,05
Total 40 1,00
Fonte: Elaborada pelo autor.
Observe que a distribuição é apresentada como um contínuo. Não há descontinuidade entre 
R$ 1.999,00 e R$ 2.000,00, por exemplo, portanto podemos ter a representação de qualquer valor, 
como R$ 1.999,85.
Definimos cinco classes. O número de classes de uma distribuição de frequências não deve 
ser muito grande, em torno de cinco a oito já é bastante razoável, e elas devem ter igual amplitude. 
No nosso caso, como temos poucos valores acima de R$ 4.000,00, agregamos todos na última classe. 
Cada uma delas tem um limite inferior de classe e um limite superior. A diferença entre eles chama-
mos de amplitude do intervalo de classe.
Podemos ainda definir o ponto médio de cada classe. Esse valor será útil para a determi-
nação das medidas estatísticas quando não temos os dados brutos. O ponto médio representará 
todos os valores da classe. Em nosso exemplo, entre R$ 1.000,00 e R$ 2.000,00 temos 17 valores. 
Todos eles serão considerados como R$ 1.500,00. Perdemos um pouco em informação, mas 
ganhamos em poder de síntese.
A frequência relativa será uma aproximação de probabilidades. A probabilidade de um dos 
40 funcionários da empresa ABC ser sorteado e ele ter um salário entre R$ 3.000,00 e R$ 4.000,00 
será de 4/40 ou de 0,10. Formalmente, P(3.000 ≤ X < 4.000) = 0,10. Podemos dizer, sem perder muito 
o rigor, que essa probabilidade é de 10%. A probabilidade de sortearmos um funcionário que ganhe 
menos do que R$ 2.000,00 pode ser definida como P(X < 2.000) = 28/40. Também P(X ≥ 2.000) 
= 12/40. Observe que P(X < 2.000) + P(X ≥ 2.000) = 1; sempre que isso ocorre, dizemos que essas 
probabilidades são complementares.
Se considerarmos a amplitude do intervalode classe como a unidade, a probabilidade pode 
ser calculada como a área de cada retângulo no histograma, que terá como base o valor 1 e como 
altura a frequência relativa. Esse cálculo de probabilidades por meio de áreas será fundamental 
quando tratarmos da inferência estatística.
Estatística aplicada às ciências sociais32
Um outro elemento importante em uma distribuição de frequências é a chamada frequên-
cia acumulada. Até R$ 2.000,00, temos 28 elementos, como acabamos de ver. Até R$ 3.000,00, 
temos 34 elementos, e assim por diante. A seguir, apresentamos a tabela completa.
Tabela 8 – Distribuição de frequências
Salário (X) Freq. Freq. Rel. Ponto médio Freq. acumulada
X < 1.000 11 0,28 500 11
1.000 ≤ X < 2.000 17 0,43 1.500 28
2.000 ≤ X < 3.000 6 0,15 2.500 34
3.000 ≤ X < 4.000 4 0,10 3.500 38
X ≥ 4.000 2 0,05 4.500 40
Total 40 1,00
Fonte: Elaborada pelo autor.
Outra aproximação possível é suavizar a apresentação do histograma, construindo um 
novo gráfico que una os pontos médios das classes. Esse novo gráfico é chamado de polígono de 
frequências e estará, possivelmente, mais próximo dos dados reais. Observe que com o polígono 
de frequências podemos determinar, utilizando o cálculo de áreas, as probabilidades de qualquer 
intervalo, como P(1.022,34 ≤ X < 3.087,53).
Na representação do polígono de frequências a seguir, observe que a área do polígono é 
também igual à unidade, ou seja, toda área retirada do histograma é recolocada. Podemos veri-
ficar isso na semelhança de triângulos: a área do triângulo acima do retângulo de bolinhas que 
será inserida no gráfico é a mesma que será retirada do triângulo do lado esquerdo do retângulo 
de linhas tracejadas.
Figura 11 – Polígono de frequências de distribuição salarial
Até 1.000
De 1.000 a 2.000
De 2.000 a 3.000
De 3.000 a 4.000
Acima de 4.000
18
16
14
12
10
8
6
4
2
0
Fr
eq
uê
nc
ia
s
Salários
1
Fonte: Elaborada pelo autor.
Os instrumentos de tabelas e gráficos apresentados são suficientes para se fazer uma 
primeira análise dos dados, que pode ser complementada com o cálculo de medidas estatísticas 
e análises inferenciais.
Análise de dados 33
Atividades
1. Os dados a seguir são relativos ao peso, ao nascer (em gramas), de recém-nascidos com sín-
drome de desconforto idiopático grave, ou seja, de causa desconhecida. Algumas crianças 
foram a óbito (*) e outras sobreviveram.
1.030* 1.300* 1.720 2.090 2.570
1.050* 1.310* 1.750* 2.200* 2.600
1.100* 1.410 1.760 2.200 2.700
1.130 1.500* 1.770* 2.270* 2.730*
1.175* 1.550* 1.820* 2.750* 2.830
1.185* 1.575 1.890* 2.400 2.950
1.225* 1.600* 1.930 2.440* 3.005
1.230* 1.680 1.940* 2.500* 3.160
1.262* 1.715 2.015 2.550 3.400
1.295* 1.720* 2.040 2.560* 3.640
Fonte: Hand et al., 1994.
a) Apresente a distribuição de frequências dos dados, em forma de tabela unidimensional.
b) Classifique a variável peso ao nascer em duas categorias: baixo peso (abaixo de 2.500 g) e 
não baixo peso (acima de 2.500 g) e faça uma tabela bidimensional cruzando as variáveis: 
condição do recém-nascido (sobrevivente ou não sobrevivente) e peso ao nascer (baixo 
peso e não baixo peso).
c) Avalie e interprete os resultados encontrados nas atividades a e b.
2. Os dados a seguir foram publicados pela Unidade de Recuperação de Alcoólatras, em 
Camberwell, Reino Unido. A tabela mostra o número de pessoas condenadas por embria-
guez nos tribunais de Tower Bridge e Lambeth, Londres, durante 6 meses, de 1º de janeiro 
a 27 de junho de 1970, classificados por idade e sexo. A distribuição etária é a mesma, de 
acordo com o sexo? Interprete os resultados com percentagens e análise gráfica.
Idade Número de homens
Número 
de mulheres
0 – 29 185 4
30 – 39 207 13
40 – 49 260 10
50 – 59 180 7
60 – 71 10
Total 903 44
Fonte: Hand et al., 1994.
Estatística aplicada às ciências sociais34
3. Os dados a seguir são relacionados à altura (em centímetros) de uma amostra de 351 mulhe-
res idosas selecionadas aleatoriamente em uma comunidade, para um estudo de osteoporose. 
Faça uma apuração dos dados e os represente em uma tabela e em um gráfico. Em seguida, 
interprete os resultados.
156 163 169 161 154 156 163 164 156 166 177 158
150 164 159 157 166 163 153 161 170 159 170 157
156 156 153 178 161 164 158 158 162 160 150 162
155 161 158 163 158 162 163 152 173 159 154 155
164 163 164 157 152 154 173 154 162 163 163 165
160 162 155 160 151 163 160 165 166 178 153 160
156 151 165 169 157 152 164 166 160 165 163 158
153 162 163 162 164 155 155 161 162 156 169 159
159 159 158 160 165 152 157 149 169 154 146 156
157 163 166 165 155 151 157 156 160 170 158 165
167 162 153 156 163 157 147 163 161 161 153 155
166 159 157 152 159 166 160 157 153 159 156 152
151 171 162 158 152 157 162 168 155 155 155 161
157 158 153 155 161 160 160 170 163 153 159 169
155 161 156 153 156 158 164 160 157 158 157 156
160 161 167 162 158 163 147 153 155 159 156 161
158 164 163 155 155 158 165 176 158 155 150 154
164 145 153 169 160 159 159 163 148 171 158 158
157 158 168 161 165 167 158 158 161 160 163 163
169 163 164 150 154 165 158 161 156 171 163 170
154 158 162 164 158 165 158 156 162 160 164 165
157 167 142 166 163 163 151 163 153 157 159 152
169 154 155 167 164 170 174 155 157 170 159 170
155 168 152 165 158 162 173 154 167 158 159 152
158 167 164 170 164 166 170 160 148 168 151 153
150 165 165 147 162 165 158 145 150 164 161 157
163 166 162 163 160 162 153 168 163 160 165 156
158 155 168 160 153 163 161 145 161 166 154 147
161 155 158 161 163 157 156 152 156 165 159 170
160 152 153
Fonte: Hand et al., 1994.
3
Medidas estatísticas de posição
Com o pé no forno e a cabeça na geladeira, em 
média, a temperatura do corpo está agradável.
K. Dunnigan
3.1 Medidas estatísticas
A utilização de medidas estatísticas serve para resumir os dados mediante valores represen-
tativos. Existem quatro tipos de medidas: as de posição, as de dispersão, as de assimetria e as de 
achatamento ou de curtose.
As medidas de posição objetivam verificar pontos que representem o conjunto de dados. 
Elas podem ser medidas de tendência central – como a média aritmética ou simplesmente média –, 
que dizem em torno de que ponto os dados se concentram, ou ainda as separatrizes, que informam 
o valor em que os dados se dividem, podendo ser em quatro, dez ou cem partes.
Já as medidas de dispersão dizem respeito à intensidade da concentração dos dados em 
torno de medidas de tendência central. As principais medidas de dispersão são a variância, 
o desvio-padrão e o coeficiente de variação.
As medidas de assimetria são utilizadas para verificar se os dados são simétricos em relação 
a um valor central, enquanto as medidas de achatamento ou de curtose servem para verificar se 
o gráfico de dados concentra-se em valores próximos ou distantes do eixo X do plano cartesiano. 
Esses dois últimos tipos de medidas são de menor interesse em uma primeira abordagem, portanto 
não serão tratados neste livro.
Existem valores que, embora pertençam a um conjunto de dados, são muito diferentes dos 
valores da maioria deles, os chamados valores discrepantes ou outliers, e destoam do conjunto prin-
cipal dos dados. É sempre importante verificar a existência desses valores em um conjunto, pois eles 
podem representar um erro de medida ou apontar que o fenômeno em estudo pode alcançar valores 
muito fora da tendência principal. Podem, portanto, servir de alerta para o fato de que o fenômeno 
em estudo eventualmente apresente um comportamento fora do padrão. O estudo detalhado dessa 
circunstância servirá de alerta ao analista para a possibilidade de eventual saída da normalidade em 
situações particulares.
Na análise de dados, ocasionalmente o pesquisador pode retirar esse outlier para verificar 
o comportamento da maioria dos dados e depois recolocá-lo para refazer a análise e ver se houve 
alguma alteração importante em suas conclusões. Essa tarefa faz parte da análise exploratória de 
dados e um pesquisador cuidadosodeve preocupar-se com tal situação.
Estatística aplicada às ciências sociais36
Se um cientista social está interessado no estudo da qualidade de vida dos moradores da 
região metropolitana de uma capital e se ele utilizará, por exemplo, o índice de desenvolvimento 
humano (IDH) como um dos indicadores que o auxiliará em seu estudo, deve verificar se o valor 
do IDH da capital não será muito diferente dos valores do índice nos municípios vizinhos que 
adquirem características dos bairros da periferia da capital, onde os indicadores de qualidade 
de vida são sempre inferiores. Em uma situação como essa, se o valor do IDH da capital não for 
tratado de maneira diferenciada, poderá afetar o resumo dos conjuntos de todos os municípios.
A sintetização das informações tem sido realizada até aqui mediante apresentação tabular e 
gráfica dos dados originais. A forma de se completar essa tarefa é por meio do cálculo das medidas 
estatísticas. Para tanto, serão abordados dois tipos de medidas: (i) as medidas de posição e (ii) as 
medidas de dispersão. Este capítulo é dedicado ao estudo das primeiras.
3.2 Medidas de posição
Trabalharemos aqui com dois tipos de medidas: as medidas de tendência central e as separa- 
trizes. As medidas de tendência central resumem os dados no centro da a média aritmética, 
a mediana e a moda.
3.2.1 A média aritmética
Também chamada simplesmente de média, é uma das medidas mais importantes da esta-
tística. Além de resumir os dados, serve para os propósitos de estimação da amostra para a popu-
lação. Ela tem as melhores propriedades de um estimador.
A média é a soma dos dados dividida pelo número de observações, e sua expressão mate-
mática é:
X = 
 Xii = 1
n
n
 = X1 + X2 + ... + Xn
n
A expressão Xii = 1
n
 significa somar valores de Xi com i variando de 1 até n. Cada Xi é um ele-
mento da amostra. O quadro a seguir apresenta o conjunto de indivíduos da empresa ABC junto à 
sua idade e a seu salário. Esses dados servirão para introduzir as medidas.
Quadro 1 – Idade e salário dos funcionários da empresa ABC
Número de ordem Nome Idade Salário
1 A. L. Ferraz 49 1.714,00
2 R. Abreu 48 1.701,00
3 R. S. Reis 64 1.589,00
4 N. Farias 37 1.418,00
5 J. L. Jansen 42 1.000,00
(Continua)
Medidas estatísticas de posição 37
Número de ordem Nome Idade Salário
6 U. S. Machado 40 3.732,00
7 F. Nogueira 21 1.330,00
8 M. Pinheiro 33 1.307,00
9 M. A. da Silva 39 1.282,00
10 P. A. B. Costa 42 1.260,00
11 H. F. Minho 39 975,00
12 N. M. de Lima 32 1.256,00
13 C. F. Loureiro 22 1.185,00
14 M. E. M. Ferreira 21 3.535,00
15 J. A. Isaias 37 2.956,00
16 J. Martins 24 1.179,00
17 A. P. Ribeiro 28 966,00
18 L. C. Batista 32 3.204,00
19 A. F. dos Santos 31 881,00
20 C. A. Brandão 38 3.080,00
21 D. J. Feltrin 23 2.872,00
22 L. S. Prestes 22 826,00
23 J. L. Campos 46 1.010,00
24 S. I. Magalhães 34 708,00
25 P. R. Gonçalves 47 2.960,00
26 M. I. Machado 42 2.797,00
27 M. Paraná 32 1.001,00
28 U. V. Guimarães 29 2.315,00
29 E. M. Moreira 41 5.572,00
30 A. P. de Andrade 30 2.372,00
31 L. R. de Souza 51 4.829,00
32 R. T. Moraes 23 1.826,00
33 J. Pilloto 20 540,00
34 F. C. Lopes 27 489,00
35 C. A. Meier 33 479,00
36 H. O. Silveira 22 1.904,00
37 K. D. Almeida 41 659,00
38 M. J. D. Colares 34 1.827,00
39 R. F. L. Silvério 24 472,00
40 M. N. Messias 20 640,00
Fonte: Elaborado pelo autor.
Estatística aplicada às ciências sociais38
O valor da variável em estudo do primeiro indivíduo, ou número 1, o funcionário A. L. 
Ferraz, será o valor X1. Se a variável em estudo for a idade, então X1 = 49. Já X2 representará a 
idade do indivíduo 2, sendo X2 = 48 anos, e assim por diante. Como temos 40 indivíduos, “n” 
será igual a 40. Assim, Xii = 1
n
 será a soma das idades dos 40 indivíduos, isto é, essa expressão diz 
que devemos somar todos os Xi com “i” variando de 1 até n, ou seja, com “i” variando de 1 até 40.
Quando não houver confusão, Xii = 1
n
 será apresentado simplesmente como X.
A média aritmética representa o centro de gravidade dos dados. Alguns cuidados, no en-
tanto, devem ser tomados quando desejamos resumir os dados pelo valor de sua média, pois ela é 
muito sensível a valores extremos. Um único valor muito grande ou muito pequeno pode mudar 
substancialmente o valor da média, podendo ela perder sua representatividade.
No exemplo dado, o valor da média das idades dos empregados da empresa ABC é de 
34 anos, e o valor da média dos salários é de R$ 1.791,20. Se considerarmos a idade de 64 anos 
como um outlier, a nova média será de 33,2 anos, e, se considerarmos os salários R$ 4.829,00 e 
R$ 5.572,00 como valores muito acima dos demais, teremos uma média salarial de R$ 1.611,76, 
quase R$ 200,00 de diferença com relação à primeira média.
No primeiro caso, a diferença parece não ter sido de grande significância, mas, para a média 
salarial, pode ser considerada importante, mesmo porque seria um dos elementos centrais em uma 
análise de cargos e salários. No cálculo da média, retirar o salário dos dois gerentes pode ser útil 
para a construção de uma política de cargos e salários.
Essa sensibilidade da média a valores extremos pode ser mais bem compreendida com a 
seguinte frase: “Se coloco os pés no congelador e a cabeça num forno aceso, a temperatura média 
do corpo será agradável...” (UFPA, 2018).
3.2.2 A média ponderada
Para calcular a média do seguinte conjunto (2, 2, 2, 2, 2, 3, 3, 4, 4, 4), a soma dos dados pode 
ser realizada da seguinte forma: 2x5 + 3x2 + 4x3 = 10 + 6 +12 = 28. Isso porque a frequência do 2 é 
5, a do 3 é 2 e a do 4 é 3. Observe que a soma das frequências é 10 (5 + 2 + 3), igual ao número de 
observações. Podemos expressar esse fato por:
X = Xf
 f
Na expressão apresentada, f é a frequência de cada um dos valores de X. Essa fórmula repre-
senta a chamada média aritmética ponderada, ou simplesmente média ponderada. Os ponderado-
res são as frequências.
Esse cálculo é muito útil quando os dados são apresentados em uma distribuição de frequên-
cias na qual X será o ponto médio de cada classe e a frequência será o ponderador. Se observarmos 
que a frequência relativa é igual à frequência dividida pelo número de observações, como visto na 
distribuição de frequências, isto é, frel = 
freq.
 f
, podemos representar a média ponderada como:
X = Xfrel
Medidas estatísticas de posição 39
Nesse caso, o valor de X será o do ponto médio de cada classe.
Nas tabelas a seguir são realizados os cálculos das médias das idades e dos salários do grupo 
de funcionários considerado. A notação [20;30) significa que o valor 20 anos pertence a essa classe 
e que o valor 30 anos pertence à classe seguinte. O intervalo é fechado à esquerda e aberto à direita. 
A notação para indicação dos intervalos de salários é diferente, embora represente a mesma coisa. 
O intervalo 1.000 ≤ X < 2.000 poderia ser representado por [1.000;2.000).
Tabela 1 – Cálculo da idade média ponderada
Idade
Número de 
trabalhadores (freq.)
Ponto médio (X) frel X. frel
[20;30) 14 25 0,35 8,575
[30;40) 14 35 0,35 12,075
[40;50) 10 45 0,25 11,125
[50;60) 1 55 0,025 1,3625
[60;70) 1 65 0,025 1,6125
Total 40 34,75
Fonte: Elaborada pelo autor.
Tabela 2 – Cálculo do salário médio ponderado
Salário Número de salários (freq.) Ponto médio (X) frel X frel
X < 1000 11 500 0,28 140
1000 ≤ X < 2000 17 1.500 0,43 645
2000 ≤ X < 3000 6 2.500 0,15 375
3000 ≤ X < 4000 4 3.500 0,1 350
X ≥ 4000 2 4.500 0,05 225
Total 40 1.735
Fonte: Elaborada pelo autor.
No cálculo da média ponderada das idades e dos salários, com o auxílio das tabelas anterior-
mente apresentadas, encontramos os seguintes valores para as médias: idade média de 34,75 anos 
e salário médio de R$ 1.735,00.
Se compararmos esses valores com os encontrados para os dados brutos, cuja idade média é 
de 34 anos e cujo salário médio é de R$ 1.791,20, percebemos que pequenas alterações ocorreram, 
principalmente no valor do salário médio, em razão de termos considerado o valor dos salários dosgerentes como R$ 4.500,00 na distribuição de frequências, quando de fato eles eram bem superiores 
a isso.
Essas distorções costumam desaparecer quando retiramos os outliers do cálculo ou quando 
o número de observações cresce.
Estatística aplicada às ciências sociais40
3.2.3 A mediana
Como foi observado anteriormente, a média é uma medida muito útil para a análise de certo 
fenômeno por meio de indicadores numéricos, mas é também muito sensível a valores extremos. 
Assim, é necessário determinar outras medidas que possam auxiliar o analista a compreender o 
comportamento dos dados além da determinação da média. Algumas medidas não são influencia-
das por valores extremos e são úteis então para a complementação da análise. Uma das principais 
que tem essa característica é a mediana.
A mediana é o valor que divide o rol em duas partes iguais. O rol é definido como a sequên-
cia ordenada de dados. Por exemplo, para o seguinte conjunto de dados (2, 3, 7, 7, 9), a mediana é 
o número 7, que divide o rol em duas partes iguais.
A posição da mediana será definida por PMed = 
n + 1
2
. No exemplo apresentado, a posição 
da mediana será PMed = 
5 + 1
2
 = 6
3
 = 3, portanto a mediana será o terceiro elemento do rol. 
O valor da mediana será o do elemento que ocupa a terceira posição, nesse caso, Med = 7. Quando o 
número de dados é muito grande, convém definir a posição da mediana antes de sua determinação.
No caso de “n” ser par, o procedimento é semelhante: define-se a posição da mediana e de-
pois calcula-se a média aritmética dos dois números imediatamente inferior e superior do valor 
da posição da mediana. No exemplo da empresa ABC, em que n = 40, teremos PMed = 
40 + 1
2
 = 
41
2
 = 20,5. A mediana será, então, a média entre os valores que ocupam a vigésima e a vigésima 
primeira posições da variável em consideração.
No nosso exemplo, após a organização dos valores em ordem crescente, a idade mediana 
será Med = 33, porque X20 = X21 = 33. O salário mediano será Med = R$ 1.318,50, porque 
X20 = 1.307,00 e X21 = 1.330,00.
3.2.3.1 Mediana para dados agrupados
Uma forma aproximada de determinação da mediana para dados agrupados consiste em 
localizar inicialmente a classe que a contém, com o auxílio da distribuição de frequências acumu-
lada. Em seguida, deve-se tomar o ponto médio da classe mediana como o valor da mediana, pois 
ele será um valor aproximado do verdadeiro valor dela.
Observe na tabela a seguir que o vigésimo e o vigésimo primeiro valores estão na segunda 
classe, que contém do décimo segundo ao vigésimo oitavo elementos. Podemos, por simplicidade, 
determinar o valor da mediana como aproximadamente R$ 1.500,00, o valor do ponto médio da 
classe mediana.
Essa aproximação para esse caso foi bastante razoável, como podemos observar pela com-
paração do valor obtido nesse cálculo e o valor real determinado pelos dados do rol. Quando a 
posição da mediana estiver muito próxima de algum dos limites da classe, uma interpolação pode 
ser realizada, mas a sua determinação está fora do escopo deste livro.
Medidas estatísticas de posição 41
Tabela 3 – Mediana para dados agrupados de salário
Salário (X) Freq. Ponto médio Freq. acumulada
X < 1.000 11 500 11
1.000 ≤ X < 2.000 17 1.500 28
2.000 ≤ X < 3.000 6 2.500 34
3.000 ≤ X < 4.000 4 3.500 38
X ≥ 4.000 2 4.500 40
Total 40
Fonte: Elaborada pelo autor.
3.2.4 A moda
A moda é o valor que ocorre com maior frequência. Para o conjunto de dados (2, 3, 3, 3, 4), 
a moda será o valor 3. Quando um conjunto tem uma só moda, ele é chamado de unimodal. 
Se tiver duas é bimodal; três modas, trimodal; e polimodal se tiver quatro ou mais. Se o conjunto 
não tiver nenhuma moda, será chamado de amodal.
O gráfico a seguir apresenta os aspectos de curvas que representam conjuntos unimodal, 
bimodal e trimodal.
Figura 1 – Gráfico das curvas dos conjuntos modais
Unimodal Bimodal Trimodal
Fonte: Elaborada pelo autor.
3.2.5 Separatrizes
As separatrizes são medidas que dividem um rol em duas partes proporcionais a certos va-
lores. A medida que separa os dados em duas partes iguais, ou em 50% e 50%, é a mediana, como 
vimos a pouco.
Uma série de três medidas pode separar o rol em quatro partes iguais. Elas são chamadas 
de quartis. O primeiro quartil (Q1) separa o rol em 25% e 75%, o segundo quartil (Q2) é a própria 
mediana, e o terceiro quartil (Q3) divide o rol em 75% e 25%.
Estatística aplicada às ciências sociais42
Da mesma forma que a mediana, para encontrar os quartis devemos inicialmente calcular 
a sua posição, para depois determinar o seu valor. A posição do quartil de ordem i, com i = 1... 3 é 
dada por PQi = 
i(n + 1)
4
.
No nosso exemplo, se desejamos verificar o valor dos quartis para os salários, teremos 
como posição do primeiro quartil PQ1 = 
1( 40+ 1)
4
 = 10,25, e como posição do terceiro quartil 
PQ3 = 
3( 40+ 1)
4
 = 30,75, lembrando que o segundo quartil é a própria mediana. Então, organi-
zando os dados em um rol crescente, teremos como valor do quartil 1 a média aritmética entre o 
10º elemento do rol e o 11º, portanto Q1 = R$ 987,50, uma vez que o décimo salário é de R$ 975,00 
e o décimo primeiro de R$ 1.000,00. O terceiro quartil será a média aritmética entre o 30º e o 31º 
elementos, resultando em Q3 = R$ 2.584,50, porque o trigésimo elemento é R$ 2.372,00 e o trigé-
simo primeiro, R$ 2.797,00. Naturalmente, esses são valores aproximados, mas podemos verificar 
que são aproximações bastante razoáveis.
Podemos também definir um conjunto de nove medidas que separam o rol em 10 partes, 
chamadas de decis, e um conjunto de 99 medidas que separam o rol em 100 partes, chamadas 
de percentis. Basta, para isso, determinar as posições de cada decil pela expressão i (n+ 1)
10
 e de 
cada percentil por i (n+ 1)
100
. É fácil verificar que o vigésimo quinto percentil, por exemplo, é o 
primeiro quartil.
Com base nas separatrizes, é possível construir duas representações que fazem parte tam-
bém da chamada análise exploratória de dados, que são: o esquema de cinco números e o diagrama 
de caixa ou box-plot.
3.2.6 Gráficos que utilizam medidas
Os dois gráficos a seguir, o esquema de cinco números e o box-plot, utilizam medidas esta-
tísticas para fazer sumarizações.
• Esquema de cinco números: consiste em apresentar os valores extremos (Xmin e Xmax); 
os quartis (Q1 e Q3), que representam o primeiro quartil, Q1, e o terceiro quartil, Q3; e a 
mediana, conforme figura a seguir:
Figura 2 – Esquema de cinco números
Med
Q1
 Xmin
Q3
 Xmáx
Fonte: Elaborada pelo autor.
• Box-plot: constitui-se de uma caixa ou um retângulo cujo valor superior é o terceiro quar-
til e o valor inferior é o primeiro quartil. Um traço no meio da caixa representa a mediana 
e os pontos extremos são mostrados fora da caixa. Define-se como outlier valores que 
estejam fora do intervalo [Q1 – 1,5 (Q3 – Q1); Q3 + 1,5 (Q3 – Q1)].
Medidas estatísticas de posição 43
Figura 3 – Diagrama de caixa ou box-plot
Box-plot
Outlier 
(fora da distância do Q3 + 1,5 vezes Q3 menos Q1)
Observação máxima 
(para uma distância de 1,5 vezes Q3 menos Q2)
Observação mínima 
(para uma distância de 1,5 vezes Q3 menos Q1)
Q3 – Terceiro quartil
Q2 – Segundo quartil (Mediana)
Q1 – Primeiro quartil
*
Fonte: Elaborada pelo autor.
Este capítulo apresentou as principais medidas de posição e os gráficos relacionados a 
elas. Esses procedimentos são úteis para que o analista possa compreender melhor o compor-
tamento dos dados que julga representar algum fenômeno sociológico que possa ser descrito 
numericamente.
Atividades
Os dados a seguir referem-se ao número de roubos realizados no estado de Santa Catarina 
no ano de 2017.
Número de roubos no estado de Santa Catarina – 2017
Região Município Número Taxa População do município
Grande Florianópolis Florianópolis 2.769 569,94 485.838
São José 1.911 797,20 239.718
Palhoça 721 437,20 164.926
Outros Municípios 367 132,60 276.780
Total 6.608 566,10 1.167.262
Região sul Tubarão215 205,83 104.457
Criciúma 399 188,77 211.369
Outros Municípios 1.068 157,05 679.775
Total 1.682 168,90 995.601
Região norte Joinville 1.980 343,11 577.077
Jaraguá do Sul 105 61,46 170.835
Outros Municípios 225 36,25 619.498
Total 2.310 168,90 1.367.410
(Continua)
Estatística aplicada às ciências sociais44
Número de roubos no estado de Santa Catarina – 2017
Região Município Número Taxa População do município
Região Vale do Itajaí Blumenau 569 163,27 348.513
Itajaí 954 448,70 212.615
Outros Municípios 2.362 197,10 1.198.453
Total 3.885 220,80 1.759.581
Região do Planalto Lages 275 173,49 158.508
Outros Municípios 206 78,29 262.905
Total 481 114,10 421.413
Região oeste Chapecó 524 245,69 213.279
Outros Municípios 833 77,37 1.076.613
Total 1.357 105,20 1.289.892
Total do estado 16.503 235,72 7.001.159
Fonte: Santa Catarina, 2018.
1. Por que as médias de cada região não são iguais à sua taxa total? Justifique.
2. Faça um esquema de cinco números dos dados apresentados, relativo ao número de roubos 
para 10.000 habitantes nos municípios catarinenses.
3. Construa um box-plot para os dados de roubos, verificando a existência de outliers.
4
Medidas estatísticas de dispersão
Garfield explica por que a soma dos desvios em 
relação à média aritmética é sempre igual a zero: 
“Se eu chutar o Odie para lá... e depois para lá 
– no sentido contrário –... é como se eu não tivesse chutado”.
Jim Davis (1945 -)1
As medidas de dispersão são úteis para que se possa verificar a homogeneidade ou hete-
rogeneidade das medidas de um grupo. Grupos mais homogêneos têm medidas de variabilidade 
menores do que os mais heterogêneos, enquanto os absolutamente homogêneos têm medidas de 
variabilidade iguais a zero.
Estes dois aspectos – variabilidade zero implica em medida de dispersão igual a zero, e me-
nor variabilidade implica em medida de dispersão menor – são a base da construção das medidas 
de dispersão, como veremos a seguir.
O estudo da variabilidade é, com certeza, um dos aspectos mais importantes de todo o corpo 
teórico da estatística, seja na compreensão de um fenômeno com base na análise exploratória de 
dados ou em estudos inferenciais.
Na comparação entre dois conjuntos de dados, podemos ter situações em que, apesar de as 
medidas de tendência central serem muito próximas, elas podem representar comportamentos 
muito diversos, devido à sua variabilidade ou dispersão. Para ilustrar o que estamos dizendo, observe 
os três conjuntos a seguir, resultado de uma simulação estritamente numérica.
Sejam os conjuntos A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}, observe que, se procurarmos 
analisar o fenômeno que produziu esses números por meio de suas medidas de tendência central, 
obteríamos como resultado que os três conjuntos têm a mesma média, igual a 2; a mesma 
mediana, também igual a 2; e que, ainda, o número 2 é moda para os três conjuntos. Dessa forma, 
poderíamos ser levados a crer que eles representam exatamente a mesma situação, todavia isso 
não ocorre. A simples observação dos dados nos mostra que os conjuntos representam situações 
muito diferentes.
O conjunto A representa uma situação de absoluta homogeneidade, não havendo qualquer 
variação entre os valores medidos em três diferentes indivíduos; o conjunto B apresenta pequenas 
variações; e o conjunto C tem uma variação ainda maior. Sendo assim, é necessária a construção 
de medidas que possam auxiliar o analista a compreender melhor o comportamento dos dados e, 
assim, entender melhor o fenômeno que os produziu.
1 Cartunista americano.
Estatística aplicada às ciências sociais46
A forma mais comum de se verificar o quanto os dados variam é observar o quanto eles se 
dispersam em torno de algum valor central, comumente a média. Mas é possível também utilizar 
os valores extremos.
As principais medidas de variabilidade são: (i) a amplitude total; (ii) a variância; (iii) o 
desvio-padrão; e (iv) o coeficiente de variação.
4.1 A amplitude total
A amplitude total de um conjunto de dados é determinada pela diferença entre o maior valor 
da amostra e seu menor valor. Se Xmax é o maior valor e Xmin é o menor valor, podemos definir a 
amplitude total (At) como:
At = Xmax – Xmin
É possível determinar para o conjunto de funcionários da empresa ABC a dispersão das 
idades e dos salários da seguinte maneira:
Quadro 1 – Relação dos funcionários da empresa ABC de acordo com sexo, idade e salário
Número de ordem Nome Idade Salário
1 A. L. Ferraz 49 1.714,00
2 R. Abreu 48 1.701,00
3 R. S. Reis 64 1.589,00
4 N. Farias 37 1.418,00
5 J. L. Jansen 42 1.000,00
6 U. S. Machado 40 3.732,00
7 F. Nogueira 21 1.330,00
8 M. Pinheiro 33 1.307,00
9 M. A. da Silva 39 1.282,00
10 P. A. B. Costa 42 1.260,00
11 H. F. Minho 39 975,00
12 N. M. de Lima 32 1.256,00
13 C. F. Loureiro 22 1.185,00
14 M. E. M. Ferreira 21 3.535,00
15 J. A. Isaias 37 2.956,00
16 J. Martins 24 1.179,00
17 A. P. Ribeiro 28 966,00
18 L. C. Batista 32 3.204,00
19 A. F. dos Santos 31 881,00
20 C. A. Brandão 38 3.080,00
21 D. J. Feltrin 23 2.872,00
(Continua)
Medidas estatísticas de dispersão 47
Número de ordem Nome Idade Salário
22 L. S. Prestes 22 826,00
23 J. L. Campos 46 1.010,00
24 S. I. Magalhães 34 708,00
25 P. R. Gonçalves 47 2.960,00
26 M. I. Machado 42 2.797,00
27 M. Paraná 32 1.001,00
28 U. V. Guimarães 29 2.315,00
29 E. M. Moreira 41 5.572,00
30 A. P. de Andrade 30 2.372,00
31 L. R. de Souza 51 4.829,00
32 R. T. Moraes 23 1.826,00
33 J. Pilloto 20 540,00
34 F. C. Lopes 27 489,00
35 C. A. Meier 33 479,00
36 H. O. Silveira 22 1.904,00
37 K. D. Almeida 41 659,00
38 M. J. D. Colares 34 1.827,00
39 R. F. L. Silvério 24 472,00
40 M. N. Messias 20 640,00
Fonte: Elaborado pelo autor.
O funcionário mais velho da empresa é o senhor R. S. Reis, que tem 64 anos, e os mais novos 
são os jovens J. Piloto e M. N. Messias, com 20 anos. Assim, Xmax = 64 e Xmin = 20. A amplitude 
total será:
At = Xmax – Xmin = 64 – 20 = 44 anos
A amplitude total dos salários será a diferença entre Xmax = 5.572 e Xmin = 472, corres-
pondente aos salários dos funcionários E. M. Moreira e R. F. L. Silvério.
At = Xmax – Xmin = 5.572 – 472 = 5.100 ou R$ 5.100,00
4.2 A variância
Se utilizarmos os desvios de um conjunto de dados em relação a um valor central desse con-
junto, é razoável pensarmos em determinar a distância de cada dado quanto ao valor médio – o que 
pode ser feito por meio de (X – X) – e depois somarmos essas distâncias.
A ideia de fazer essa soma é interessante, porque permite que todos os dados sejam 
considerados ou, de outra forma, que a distância de todos os dados da média componha a medida 
de dispersão, mas esbarra em uma restrição importante, que é uma das características da média: 
a soma dos desvios em relação à média de um conjunto de dados é sempre igual a zero.
Estatística aplicada às ciências sociais48
Vamos verificar essa propriedade utilizando novamente três conjuntos simples de dados: 
A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}. A média de cada um desses conjuntos é igual a 2.
Assim, para o conjunto A, a soma dos desvios em relação à média produzirá:
 (X – X ) = {(2 – 2) + (2 – 2) + (2 – 2)} = 0 + 0 + 0 = 0
Para o conjunto B:
 (X – X) = {(1 – 2) + (2 – 2) + (3 – 2)} = (–1) + 0 + 1 = 0
E para o conjunto C:
 (X – X) = {(0 – 2) + (2 – 2) + (4 – 2)} = (–2) + 0 + 2 = 0
Essa propriedade vale para qualquer conjunto de dados. Então, para contornarmos esse pro-
blema, mantendo a ideia de somar desvios em relação à média, teremos de encontrar uma forma 
de que essa soma seja sempre positiva. Duas alternativas apresentam-se: (i) a soma dos desvios em 
módulo; e (ii) a soma dos quadrados dos desvios.
Se tomarmos a média da soma dos desvios em módulo (de seus valores absolutos), defini-
remos uma medida de dispersão conhecida como desvio médio, que, embora resolva o problema 
apresentado, não é muito usual. De qualquer forma, sua expressão pode ser dada por:
Desvio médio = |x – X |
n
Essa medida

Continue navegando