APOSTILA ESTATISTICA 2015 v26 02 16

•
UFJF

Cleiton Motta
13.07.2016
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

56.627 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Estatística Básica – Prof. Adriana Andrade 
 
1 
 
UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO 
INSTITUTO DE CIÊNCIAS EXATAS 
DEPARTAMENTO DE MATEMÁTICA 
 
PROF.: ADRIANA ANDRADE 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
NOTAS DE AULA 
 
ESTATÍSTICA DESCRITIVA 
Estatística Básica – Prof. Adriana Andrade 
 
2 
 
 
Sumário 
 
1 – Apresentação da Disciplina .................................................................................................................. 3 
2 – Variáveis .............................................................................................................................................. 3 
3 – Apresentação dos resultados para Variáveis Qualitativas .................................................................... 4 
4 – Apresentação dos resultados para Variáveis Quanitativas ................................................................... 8 
5 – Somatório ........................................................................................................................................... 14 
6 - Medidas de Posição ............................................................................................................................ 14 
7 - Quantis (Separatrizes) ......................................................................................................................... 16 
8 - Medidas de Dispersão ......................................................................................................................... 17 
9 - Formas da Distribuição ....................................................................................................................... 18 
10 – Boxplot ............................................................................................................................................. 19 
11 – Medidas de Posição para Dados Agrupados em Tabelas de Frequência ......................................... 20 
12 - Análise Bidimensional ..................................................................................................................... 23 
12.1 - Associação entre Duas Variáveis Quantitativas ................................................................ 23 
12.2 – Associação entre Duas Variáveis Qualitativas .................................................................. 25 
 
Estatística Básica – Prof. Adriana Andrade 
 
3 
 
1 – Apresentação da Disciplina 
 
Objetivo da Disciplina: apresentação de conceitos e procedimentos elementares da Estatística. 
 
Motivação: Usamos estatística diariamente, independente de termos ou não feito um curso de 
estatística! Os métodos estatísticos estão presentes em diversas áreas, tais como na pesquisa em 
medicina bem como na análise de marketing sobre avaliações de programas de TV. 
 
Definição de estatística: conjunto de princípios e procedimentos que orientam a coleta, o 
processamento, a organização e a análise de informações utilizadas na tomada de decisão quando há 
presença de incertezas. 
 
Nesta disciplina serão apresentados métodos para: 
 
 Organizar 
 Descrever 
 Detectar padrões, relações e diferenças 
 Tomar decisões com base nas evidências estatísticas 
 
Esquema Estatística Descritiva 
 
 
 
 
 
 
2 – Variáveis 
 
Variável – Característica observada em um grupo. Pode ser representada por uma letra maiúscula. 
 
Tipos de Variável 
 
1 – Variável Qualitativa – resultante de uma classificação por qualidade, tipo ou atributo. Pode 
decorrer da identificação de um conteúdo. Permite a descrição da diferença entre tipos e elementos 
indicando a presença ou ausência de uma característica ou propriedade. É formada por categorias. 
1.1 – Nominais – categoria apenas “nomeia” o que a variável mensura 
1.2 – Ordinais – existe uma ordem entre as categorias possíveis 
 
2 – Variável Quantitativa – mensura quantidade / valor. As diferenças são estabelecidas com base em 
quantidades relativas a um grau ou a uma distância. É formada por números. 
2.1 – Discretas – resultam de contagem e são expressas por números inteiros. 
2.2 – Contínuas – resultam de mensuração e são expressas por números reais. 
 
 
Pergunta 
Problema 
Hipótese 
 
 
Processamento 
 
 Tabelas 
Gráficos 
 
 Medidas 
 
 
 Análise Coleta de 
dados 
Estatística Básica – Prof. Adriana Andrade 
 
4 
 
3 – Apresentação dos resultados para Variáveis Qualitativas 
 
Após procedermos à coleta de informações sobre um tema do nosso interesse, a próxima etapa da 
investigação diz respeito ao processamento e apresentação dos dados. Em nosso curso, inicialmente, 
iremos abordar duas formas de apresentação dos resultados: tabelas de distribuição de freqüências e 
gráficos. 
 
3.1 – Tabela de Distribuição de Freqüências 
 
A forma mais elementar de apresentar os resultados de uma variável é feita a partir da contagem dos 
resultados possíveis que foram observados. Essa contagem é denominada distribuição de freqüências. 
 
Esquema de Tabela para Variáveis Qualitativas 
Variável Freqüência Absoluta (ni) 
FreqüênciaRelativa 
(Proporção) fi 
Freqüência Relativa 
(Porcentagem) (%) 
Categoria 1 n1 f1 f1 x 100 
Categoria 2 n2 f2 f2 x 100 
.... ... ... ... 
Categoria k nk fk fk x 100 
Total n = n1+n2+...+nk = 


k
i
in
1
 1 = f1 + ...+fk=


k
i
if
1
 100 
 Fonte: Aula de Estatística – 2° Sem/2008 – Prof. Adriana Andrade. 
 
 
Comparando distribuições – Frequência Relativa 
 
Uma forma de comparar grupos considerando a diferença entre os seus respectivos tamanhos pode ser 
obtida pela padronização da distribuição de freqüência absoluta pelo tamanho dos grupos. Essa 
padronização ocorre quando calculamos a proporção de casos. 
 
Analfabetismo nos municípios do RJ - 2010 
Município Analfabetos População Total % 
Seropédica 5.099 72.907 7,0 
Rio de Janeiro 248.539 5.956.414 4,2 
Fonte: Censo demográfico 2010 - IBGE 
Nota: Foram contabilizados apenas os maiores de 5 anos. 
 
Descrição dos Elementos da tabela 
As tabelas devem seguir um padrão dado por uma resolução da ABNT. Esta resolução estabelece que as 
tabelas devem conter: 
1 - Título: é a indicação que, precedendo a tabela, é colocada na parte superior. Em geral deve conter o 
suficiente para que sejam respondidas as seguintes questões: 
O quê? (referente ao fato) 
Onde? (relativo ao lugar) 
Quando? (corresponde à época) 
2 - Cabeçalho: onde são especificadas os componentes da tabela. 
3 – Corpo: é representado por colunas e subcolunas dentro das quais as informações serão apresentadas. 
Linhas e colunas que contém as séries. 
4 – Rodapé: destinado para notas, observações pertinentes, bem como a identificação da fonte dos das 
informações apresentadas. Esclarecimentos de ordem geral. 
 
 
Estatística Básica – Prof. Adriana Andrade 
 
5 
 
 
As tabelas devem: 
Ser fechadas no alto e embaixo, por linhas horizontais. 
Não serem fechadas à direita e à esquerda por linhas verticais 
Os traços verticais para separação das colunas do corpo da tabela são facultativos. 
 
Exemplo: Variável Sexo 
 
Distribuição de freqüência da variável Sexo dos alunos 
Sexo ni fi % 
Feminino n1 f1 f1 x 100 
Masculino n2 f2 f2 x 100 
Total n = n1+n2 = 


2
1i
ni
 f1 + f2 = 


2
1i
fi
=1 100 
Fonte: Aula de Estatística – 1° Sem/2008 – Prof. Adriana Andrade. 
 
 
3.2 – Tipos de Gráficos para Variáveis Qualitativas 
 
Gráfico necessita ter título, padrões de cores e tamanho de fontes adequados. Assim como fonte e 
legenda.3.2.1 – Gráfico de Setores / Pizza 
Consiste em um círculo cujos setores (isto é, partes do mesmo círculo) somam 100%. São adequados 
para comparar o quanto que uma categoria representa sobre o total de casos, bem como para comparar o 
peso relativo das categorias. 
 
 
 
 
 
 
 
 
 
 
 
 
Estatística Básica – Prof. Adriana Andrade 
 
6 
 
 
3.2.2 – Gráfico de Colunas / Barras 
 
Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as freqüências ou 
porcentagens no eixo das ordenadas. Cada categoria será representada por uma barra cuja altura 
corresponderá às freqüências. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Escalas: devem começar em zero. 
Adequado Inadequado 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
34
25
0
5
10
15
20
25
30
35
40
Marca A Marca B
Itens vendidos
 
% 
% 
Estatística Básica – Prof. Adriana Andrade 
 
7 
 
 
3.2.3 – Gráfico de Coluna/Barra para duas variáveis 
 
Este gráfico também é adequado para apresentar a informação relativa a duas ou mais variáveis. 
 
Distribuição Percentual do Conceito segundo sexo do aluno de Estatística Básica 
Conceito Sexo Total 
Feminino Masculino 
Aprovado 56 39 45 (22) 
Reprovado 44 61 55 (27) 
Total 100 (16) 100 (33) 100 (49) 
 
56
39
44
61
0
20
40
60
80
100
Feminino Masculino
Distribuição Percentual da variável coneceito segundo sexo do aluno
Reprovado
Aprovado
 
 
3.2.4 – Pictogramas 
 
Gráfico no qual os dados são representados por desenhos ou imagens. Geralmente, são utilizadas figuras 
ou símbolos alusivos ao problema em estudo. Vantagem: fácil leitura e possui grande atrativo. 
Desvantagem: distorção das escalas e da proporcionalidade. 
 
Média de anos de estudo da população ocupada com 16 anos ou mais de idade, segundo sexo e cor/raça. Brasil, 1996 e 2007 
 
Fonte: Retrato 2008 - 3ª ed - Ipea 
 
 
 
 
 
 
 
 
Estatística Básica – Prof. Adriana Andrade 
 
8 
 
4 – Apresentação dos resultados para Variáveis Quanitativas 
 
4.1 – Tabela para Variáveis Quantitativas 
 
Para a realização de tabelas para variáveis quantitativas, iremos construir classes, intervalos ou faixas de 
valores e contar o número de ocorrências relativas a cada faixa, ou seja, iremos fazer uma agregação 
dos valores da variável. Esse procedimento evita a construção de tabelas com muitas linhas o que 
dificulta a análise da informação. Resumindo, iremos trabalhar com uma tabela de classes ou intervalos 
da variável de interesse. 
 
Como agrupar os valores de uma variável quantitativa 
 
– Calcular a Amplitude de variação dos valores – Amplitude Total (AT) 
– Especificar Número de classes (k) 
– Definir a Amplitude de Classes (h) 
 
1) Amplitude Total 
 
É a diferença entre o maior valor observado da variável (Xmax) e o menor (Xmin), fornece o intervalo de 
variação dos dados. 
 AT = Xmax - Xmin 
 
Varáveis com pequena amplitude total podem apresentar pouca variabilidade. Já as variáveis com 
grande amplitude podem possuir elevada variabilidade entre seus valores observados. 
 
Exemplo 1 - Variável número de filhos tidos por estudantes na Rural 
Valores possíveis: 0 1 2 
Percebemos que há pouca variação nos dados, cujo intervalo de variação é dado por: 2-0 = 2 
 
Exemplo 2 – Variável idade dos habitantes do município de Seropédica 
Valores possíveis: 0, 1, 2, 3, ..., 100, 101, 102. 
Percebemos que há uma grande variação nos dados, cujo intervalo de variação é dado por: 102-0 = 102. 
 
No exemplo 1, podemos enumerar todos os valores possíveis da variável em uma tabela sem maiores 
dificuldades. Porém, os dados do exemplo 2 para serem dispostos em uma tabela necessitam de uma 
agrupação dos seus possíveis valores em faixas / classes / intervalos. 
 
2) Especificar o Número de Classes (k) 
 
Depois de conhecermos a Amplitude dos dados da variável sob estudo, precisaremos definir o número 
de classes (k) que iremos utilizar na construção de nossa tabela. Perceba que a amplitude total e o 
número de classes devem ser considerados conjuntamente para construirmos a tabela de classes. Se a 
amplitude for muito grande, provavelmente, precisaremos de um número maior de classes. No entanto, 
essa orientação é limitada, pois o número de classes não varia proporcionalmente com o tamanho de n. 
 
 
 
 
 
 
 
Estatística Básica – Prof. Adriana Andrade 
 
9 
 
 
Na nossa disciplina, iremos utilizar a seguinte regra para especificar o número de classes: 
 
nk 
 
 
 Comparação entre n e k 
n k= n 
1 1 
10 3 
20 4 
40 6 
80 9 
160 13 
240 15 
320 18 
400 20 
 
 
3) Definição da Amplitude de Classe (h) 
 
Agora que já sabemos definir o número de classes, coloca-se a questão: qual o tamanho da classe ou 
qual a amplitude da classe? Quais serão os limites da classe? A amplitude da classe (h) é obtida por: 
k
AT
h 
 
Com a aplicação dessa expressão iremos obter classes de mesmo tamanho, ou seja, de igual amplitude. 
O h é uma constante, nesse caso. 
 
O pesquisador pode definir o número de classes e os seus respectivos limites baseando-se em sua 
experiência sobre a variável estudada. Em geral, utilizamos faixas de mesmo tamanho / amplitude. 
Porém, faixas de tamanho desigual podem ser convenientes para representar valores extremos. 
Exemplo: Acima de 30 anos. A definição do número de classes dependerá também do interesse do 
pesquisador. 
 
Indicação dos valores que delimitam a classe |-- fechado à esquerda (inclui valor) e aberto à direita 
(exclui valor). [a,b) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Estatística Básica – Prof. Adriana Andrade 
 
10 
 
Exemplo: Análise da variável peso dos alunos do sexo feminino – 2/2008 
 
49 67 54 56 61 
51 59 48 52 62 
54 53 50 48 53 
59 50 70 49 58 
77 48 59 50 48 
 
Etapas da Tabela 
Cálculo da Amplitude Total: AT = =29 
Cálculo do número de classes: 
525  nk
 
Cálculo do tamanho da classe: 
68,5
5
29
5
4877


h
 
 
Distribuição de freqüência peso dos alunos do sexo feminino – 2/2008 
Peso 
Frequência 
Absoluta (ni) 
Frequência 
Relativa (fi) 
Percentual 
(%) 
Frequência 
Acumulada (fac%) 
48|-- 54 13 0,52 52 52 
54|-- 60 7 0,28 28 80 
60|-- 66 2 0,08 8 88 
66|-- 72 2 0,08 8 96 
72|-- 78 1 0,04 4 100 
Total 25 1 100 - 
 
 
Freqüência Acumulada fac % - A freqüência acumulada indica quantos elementos ou que porcentagem 
deles estão abaixo de um certo valor. É obtida pela soma das freqüências de todos os valores da variável 
menores ou iguais ao valor considerado. 
 
ANÁLISE DAS INFORMAÇÕES EM UMA TABELA 
 
Os dados em formato de tabela possibilitam a identificação das características e da forma da 
distribuição de frequência. Devemos observar: 
- Se a frequência é igual em todas as categorias/classes; 
- Se cresce ou diminui ao longo da tabela; 
- Se começa pequena, aumenta e diminui; 
- Concentrações; 
- Lacunas 
 
Ramo e folha: gráfico que possibilita a organização rápida dos dados. Divide os valores em duas 
partes: uma será o ramo e o que sobrar constituirá as folhas. A idéia geral é usar os primeiros dígitos de 
cada valor da variável estudada como ramo e os demais como folhas. 
 
Etapas: 
1 – Coloque os ramos empilhados numa coluna separados por uma linha vertical; 
2 – As folhas serão representadas pelodígito posterior ao ramo; 
3 – Usualmente, faz-se a ordenação das folhas dentro de cada ramo. 
 
49 67 54 56 61 
51 59 48 52 62 
54 53 50 48 53 
59 50 70 49 58 
77 48 59 50 48 
4 8 8 8 8 9 9 
5 0 0 0 1 2 3 3 4 4 6 8 9 9 9 
6 1 2 7 
7 0 7 
 
Estatística Básica – Prof. Adriana Andrade 
 
11 
 
Observações: 
- Não podemos omitir ramos sem folhas; 
- Caso ocorra uma elevada concentração de folhas em poucos ramos, podemos subdivir os ramos: 
5ª - 0 1 2 3 4 
5b - 5 6 7 8 9 
 
4.2 – Tipos de Gráficos para Variáveis Quantitativas 
 
4.2.1 - Coluna / Barra – segue a mesma definição dada para os dados qualitativos. A diferença é que 
devemos sempre seguir a ordem da variável. Adequado para as variáveis discretas. 
 
 
 
 
4.2.2 - Gráfico de Séries Temporais - serve para representar uma série temporal, ou seja, dados 
coletados em diferentes momentos do tempo. 
 
 
 Fonte: Pesquisa Ibope com 2.506 eleitores. Margem de erro: 2% 
 
Estatística Básica – Prof. Adriana Andrade 
 
12 
 
 
 
4.2.3 – Histograma de Densidade de Frequência 
 
Gráfico de barras contíguas, com as bases proporcionais aos intervalos das classes e a área de cada 
retângulo proporcional à respectiva freqüência. No eixo das abscissas temos os intervalos de classes e 
no eixo das ordenadas as densidades de freqüência (absoluta, relativa ou percentual). Adequado para as 
variáveis contínuas 
 
Este gráfico representa a frequência pela área e não pela altura. Utilizado para representação de 
variáveis com intervalos com diferentes amplitudes de classe (hi). 
 
A densidade é obtida pelo quociente entre a freqüência e a amplitude da classe. 
i
i
i
h
freq
d 
, onde freqi pode ser ni fi ou % 
 
 A área de cada retângulo será igual a frequência de cada classe; 
 No caso de classes de igual tamanho, a amplitude h é constante, então o gráfico apresentará 
retângulos de igual base; 
 A vantagem em trabalhar com a densidade de freqüência é evitar que o histograma fique 
distorcido quando diferentes amplitudes são utilizadas na construção das classes; 
 
Distribuição de freqüência da variável número de salários mínimos recebidos por funcionários de uma 
loja. 
Classes ni fi hi di hi x di 
1|--3 6 0,3 2 0,15 0,30 
3|--5 8 0,4 2 0,20 0,40 
5|--|10 6 0,3 5 0,06 0,30 
Total 20 1 - 0,41 1 
 
Estatística Básica – Prof. Adriana Andrade 
 
13 
 
Histograma de Densidade - Distribuição Salarial
Salários
D
e
n
s
id
a
d
e
2 4 6 8 10
0
.0
0
0
.0
5
0
.1
0
0
.1
5
0
.2
0
0.15
0.2
0.05
 
Histograma de Frequência 
Adequado para as variáveis contínuas agrupadas em classes de igual tamanho. 
 
 
 
4.2.4 - Polígono de freqüência 
 
Utiliza segmentos de reta que ligam os pontos médios das classes em um histograma. Facilita a 
comparação de dois conjuntos de dados dispostos em histogramas ou em tabelas. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Peso Pmi %_fem %_masc 
48|-- 54 51 45 5 
54|-- 60 57 23 19 
60|-- 66 63 15 45 
66|-- 72 69 17 31 
 
0
5
10
15
20
25
30
35
40
45
50
45 51 57 63 69 75
%
Peso
Polígono de Frequência - Variável Peso segundo Sexo do aluno
Feminino
Masculino
 
Peso fi 
48|-- 54 0,52 
54|-- 60 0,28 
60|-- 66 0,08 
66|-- 72 0,08 
72|-- 78 0,04 
Total 1 
 
Estatística Básica – Prof. Adriana Andrade 
 
14 
 
5 – Somatório 

 
 
A notação de somatório é frequentemente utilizada nas fórmulas de algumas medidas estatísticas. Sua 
utilidade reside no fato de que o somatório representa de forma resumida a operação de soma de várias 
parcelas. 
 
Para desenvolver um somatório, temos de substituir o valor do índice em cada uma das parcelas e, em 
seguida realizar, a soma dessas parcelas. 
 
Seja X uma variável formada pelos seguintes valores: X = {3, 5, 1, 6, 2} 
 
A soma dos valores de X pode ser representada utilizando o somatório dos seus valores dado por 


n
i
ix
1
: 
1726153
5
1

i
ix
 
 
Algumas propriedades relacionadas ao somatório: 
 
1. 
  )(...)()()( 332211
1
nn
n
i
ii yxyxyxyxyx 

= 


n
i
ix
1
+


n
i
iy
1
 
 
2. 



n
i
inn
n
i
i xkxxxxkkxkxkxkxkx
1
321321
1
)...(...
 
 
3. 2
11
2 





 

n
i
i
n
i
i xx
 
 
4. 












 

n
i
i
n
i
i
n
i
ii yxyx
111
 
 
6 - Medidas de Posição 
 
Valores que representam a distribuição da variável estudada. 
 
6.1 – Moda (Mo): Categoria / valor que ocorre com mais freqüência na distribuição da variável. 
Adequada para variáveis qualitativas e quantitativas. 
 
Propriedades da Moda: 
1. Não depende de todos os valores da variável; 
2. Sempre é representada por um dos valores da variável; 
3. Não é influenciada por valores atípicos da variável; 
 
O que é um valor atípico da variável? 
Valor que destoa em magnitude dos demais valores do conjunto estudado. Também é denominado de 
outlier. Identificação: Uma das formas é calcular a AT da distribuição com e sem o valor sob suspeita 
de ser atípico. 
Estatística Básica – Prof. Adriana Andrade 
 
15 
 
 
6.2 – Mediana (Md): valor que ocupa a posição central na distribuição de freqüência da variável 
quando esta se encontra ordenada. Rol: é a ordenação dos valores observados da variável em ordem 
crescente. A mediana deixa 50% da distribuição abaixo dela e 50% acima. 
 
Propriedades da Mediana 
 
1. Não depende de todos os valores da série, podendo não se alterar com a modificação de 
alguns deles; 
2. Não é influenciada pelos valores atípicos da série. 
 
6.3 – Média Aritmética (
x
): é a soma de todos os valores da variável dividida pelo número de valores 
observados. A média de uma variável X é dada por 
n
x
n
xxxx
x
n
i
i
n



 1321
... 
 
Propriedades da média aritmética: 
 
1. Por depender de todos os valores observados, qualquer modificação nos dados fará com que a 
média fique alterada; 
 
2. É única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é igual 
a um determinado valor observado, tal como ocorre com a mediana; 
 
3. É afetada por valores atípicos observados, o que a torna uma medida inadequada para 
representar variáveis com valores atípicos ou conjunto de dados com valores 
discrepantes/atípicos; 
 
4. A soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma dos 
desvios é zero. 00)(
1111
 

xnxxxxx
n
i
i
n
i
n
i
i
n
i
i  
5. A soma dos quadrados dos desvios tomados em relação à média aritmética é um mínimo. 
Qualquer valor que não seja a média aritmética resultará em um valor superior a 



n
i
i xx
1
2)(
; 
6. Somando ou subtraindo uma constante não nula aos valores da distribuição da variável, a média 
aritmética receberá a soma ou subtração da constante. 
 
7. Multiplicando ou dividindo uma constante não nula aos valores da variável, a média ficara 
multiplicada ou dividida pela constante; 
 
Obs.: As duas propriedades 6 e 7d a Média valem também para a Moda e para a Mediana. 
 
8. O produto da média aritmética e o número de observações fornece o total da variável observada. 



n
i
ixnx
1
 
 
 
Estatística Básica – Prof. Adriana Andrade16 
 
Média ponderada: utilizada quando há interesse em atribuir pesos diferentes entre os valores da 
distribuição, ou seja, os valores não possuem a mesma importância 







n
i
i
n
i
ii
n
nn
p
p
px
ppp
pxpxpxpx
x
1
1
21
332211
...
... 
7 - Quantis (Separatrizes) 
 
 Os quantis (separatrizes) são quantidades que dividem a distribuição de valores em grupos do mesmo 
tamanho. Os principais quantis são: quartis, decis e os percentis. 
 
 Quartil: os quartis dividem a distribuição em quatro partes de mesmo tamanho (Q1,Q2,Q3). 
 
 0 25% 50% 75% 100% 
 Q1 Q2=Md Q3 
 
 Decil: os decis dividem a distribuição em 10 grupos de mesmo tamanho (D1,D2,...,D9). 
 
 0 10% 50% 90% 100% 
 D1 D5=Q2=Md D9 
 
 Percentil: os percentis dividem a distribuição em 100 grupos de mesmo tamanho (P1,P2,...,P99). 
Quadro 1 – Fórmula para obtenção da Posição dos Quantis 
Quantil Fórmula para obter 
posição 
Quartil 
Q1 PQ1 = 0,25(n+1) 
Q2 PQ2 = 0,50(n+1) 
Q3 PQ3 = 0,75(n+1) 
Decil 
D1 PD1 = 0,10(n+1) 
D2 PD2 = 0,20(n+1) 
... ... 
D9 PD9 = 0,90(n+1) 
Percentil 
P1 PP1 = 0,01(n+1) 
P10 PP10 = 0,10(n+1) 
... ... 
P99 P99 = 0,99(n+1) 
 
Exemplo: Variável – tempo de espera em atendimento de ambulatório 
 
Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 
Valor 34 43 46 58 63 63 66 68 71 72 73 73 75 76 82 83 86 90 91 93 95 
 Q1 D4 Md P60 Q3 
 
 Md Q1 Q3 D4 P60 
Posição 11 5,5 16,5 8,8 13,2 
Valor 73 63 84,5 69,5 75,5 
Estatística Básica – Prof. Adriana Andrade 
 
17 
 
8 - Medidas de Dispersão 
 
As medidas de dispersão auxiliam a descrição dos dados realizada a partir das medidas de posição, 
sobretudo as de tendência central (média, moda e mediana). Elas fornecem informações se os dados 
estão ou não próximos uns dos outros, bem como se as medidas utilizadas são adequadas para 
representar o conjunto de dados. Da mesma forma que é importante descobrir qual valor representa a 
tendência do conjunto, é relevante obter uma medida resumo de como as observações se posicionam em 
relação a esse padrão. 
8.1 – Amplitude Total (AT): É a diferença entre o maior e o menor valor do conjunto de dados. Fácil 
de calcular, mesmo para grandes conjuntos de dados, e de fácil entendimento. Sua limitação reside em 
não considerar os valores intermediários perdendo a informação de como os dados estão distribuídos 
e/ou concentrados. 
AT = Xmax - Xmin 
 
8.2 – Amplitude Interquartílica (AI): É a diferença entre o terceiro e o primeiro quartil. Esta medida é 
mais estável que a amplitude total por não considerar os valores mais extremos. Esta medida abrange 
50% dos dados e é útil para identificar valores atípicos. 
 
AI = Q3-Q1 
 
8.3 – Variância e Desvio padrão: são medidas que mensuram o grau de dispersão de um conjunto de 
dados em relação à média. A variância que é definida por: 
 
2
1
2
1
2
)( x
n
x
n
xx
XVAR
n
i
i
n
i
i




 
Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, o 
que dificulta a sua interpretação. Esse problema é resolvido extraindo-se a raiz quadrada da variância, 
definindo-se, assim, o desvio padrão: 
 
2
1
2
1
2
)( x
n
x
n
xx
XDP
n
i
i
n
i
i




 
A unidade do desvio padrão é a mesma da média. Por exemplo, se a média é em reais, o desvio padrão 
também se exprime em reais. A variância, por outro lado, se exprime em quadrados de unidades (ex. 
reais²) 
 
Propriedades das Medidas de Dispersão 
 
1. Todas as medidas de dispersão são não negativas; 
2. Somando-se uma mesma constante não nula (k) a todas as observações, as medidas de dispersão 
não se alteram, pois ocorre apenas uma translação dos valores; 
3. Quando somamos ou subtraímos uma constante (k) a todos os valores de uma variável (X), a sua 
VARIÂNCIA fica INALTERADA, pois a variância de uma constante é igual a zero; 
4. Quando multiplicamos ou dividimos todos os valores de uma variável (X) por uma constante, a 
sua VARIÂNCIA fica multiplicada ou dividida pelo QUADRADO da constante 
5. Quando multiplicamos ou dividimos todos os valores de uma variável (X) por uma constante 
(k), o seu DESVIO PADRÃO fica multiplicado ou dividido pela constante. 
6. Quando somamos ou subtraímos uma constante (k) a todos os valores de uma variável (X), o seu 
DESVIO PADRÃO fica INALTERADO, pois o desvio padrão de uma constante é igual a zero. 
Estatística Básica – Prof. Adriana Andrade 
 
18 
 
 
 
8.4 – Coeficiente de Variação 
É uma medida de dispersão relativa definida como a razão entre o desvio padrão e a média. O resultado 
é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem. Então: 
100
)(
)( 
X
XDP
XCV
 
A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados e, 
conseqüentemente, se a média é uma boa medida para representar esses dados. É utilizado também para 
comparar conjuntos com unidades de medidas distintas. Quanto mais próximo de zero, mais homogêneo 
é o conjunto de dados e mais representativa será sua média. 
 
9 - Formas da Distribuição 
 
9.1 – Simetria e Assimetria: Podemos avaliar graficamente o formato de uma distribuição de 
freqüência de uma variável a partir da relação entre a média, a moda e a mediana. Uma distribuição é 
dita simétrica quando apresenta o mesmo valor para a moda, a média e a mediana. Há uma 
convergência, uma concentração dos valores da distribuição em torno das medidas de tendência central. 
Quando esta igualdade não acontece, temos uma distribuição assimétrica. 
 
 
Coeficiente de Assimetria: É o grau de desvio, ou afastamento da simetria, de uma distribuição. Usado 
apenas em séries unimodais, é a quantificação do quão assimétrica é a distribuição. 
)(
)(
XDP
MoX
Ia


 
Ia = 0 :
MoX 
 a distribuição simétrica 
Ia < 0 :
MoX 
 a distribuição é assimétrica à esquerda ou possui uma assimetria negativa 
Ia > 0 :
MoX 
 a distribuição é assimétrica à direita ou possui uma assimetria positiva 
 
9.2 – Curtose: Curtose é o grau de achatamento da distribuição da variável. O quanto uma curva de 
freqüência será achatada em relação a uma curva normal de referência. 
 
Temos três padrões básicos de curtose: 
1 – Mesocúrtica: a curva da distribuição da variável não é muito achatada, nem muito afilada. Dados 
bem distribuídos em torno da média; 
2 – Platicúrtica: curva da distribuição da variável bem achatada. Elevada dispersão; 
3 – Leptocúrtica: – curva da distribuição da variável é bem afilida. Baixa dispersão. 
 
 
 
 
Estatística Básica – Prof. Adriana Andrade 
 
19 
 
Temos uma expressão para quantificar o grau de curtose de uma variável: 
Coeficiete de Curtose 
)(2 1090
13
PP
QQ
Ip



 
Ip = 0,263 Mesocúrtica 
Ip < 0,263 Leptocúrtica 
Ip > 0,263 Platicúrtica 
 
 
Exemplo: Variável Idade 
Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 
Valor 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 
 
70,0
5
2055,23
)(
)(





XDP
MoX
Ia
 
 
20,0
5,185,322
205,25
)(2 1090
13 






PP
QQ
Ip
 
 
10 – Boxplot 
 
Gráficoque possibilita a análise da forma, dispersão e posição dos dados. Representação gráfica do 
quartis. Permite visualização rápida do centro, dispersão e (as)simetria dos dados, mais a eventual 
presença de valores extremos. Ideal para comparar mais de uma variável. 
Etapas de Contrução 
1 – Construa um eixo com os valores da variável; 
2 – Construa uma caixa retangular estendendo-se de Q1 a Q3, e trace uma linha na direção do valor da 
mediana; 
3 – Defina as cercas: 
 
Cercas inferior - estende-se de Q1 até o menor valor que não seja atípico. 
Cerca superior - estende-se de Q3 até o maior valor que não seja atípico. 
 
Um valor x é considerado atípico se: 
 
x < Li = Q1-1,5*AI – Neste caso utilize o valor calculado 
x > Ls = Q3+1,5*AI – Neste caso utilize o valor calculado 
 
PQ1=(22+1)*0,25= 5,75 Q1=(20+20)/2 = 20 
 
Md=Q2 => (22+1)*0,50 = 11,5 Q2=(21+22)/2 = 21,5 
 
PQ3= (22+1)*0,75 = 17,25 => Q2 = (25+26)/2) = 25,5 
 
AI = Q1-Q3 = 25,5-20 = 57,5 
 
Li = Q1-1,5*AI = 20-(1,5*5,5) = 20-8,25= 11,75 
 
Ls = Q3+1,5*AI = 25,5+(1,5*5,5) = 25,5+8,5= 33,75 
 
 
XMin = 18 > Li = 11,75  Utilize XMin como cerca inferior. 
XMax = 37 > Ls = 33,75  Utilize Ls como cerca superior. 
 
Estatística Básica – Prof. Adriana Andrade 
 
20 
 
 
Boxplot da Variável Idade 
21N =
Idade
40
30
20
10
20
21
 
 
11 – Medidas de Posição para Dados Agrupados em Tabelas de Frequência 
 
Quanto a variável de interesse apresenta-se com seus valores agrupados em uma tabela de freqüência, 
ou seja, quando os valores originais não estão disponíveis, temos dados agrupados ou grupados. Para 
calcular as medidas resumo de interesse, precisaremos adotar alguns procedimentos que irão viabilizar 
a realização dos cálculos das medidas. 
 
O primeiro procedimento é calcular para cada classe de freqüência da variável o seu respectivo Ponto 
Médio (Pmi). O Ponto Médio da classe pode ser visto como o valor representante da classe obtido por: 
 
Pmi = lim inferior + limite superior 
2 
 
Repare que iremos calcular as medidas resumos com base no ponto médio de cada classe da tabela, ou 
seja, sem precisar de todos os valores do conjunto de dados. Por isso o resultado não será igual ao 
obtido a partir do cálculo realizado com dados brutos. Isso ocorre, pois iremos calcular as medidas a 
partir de uma representação dos dados, representação essa que já é um resumo e, por isso, não contém 
todas as informações originais. Conseqüentemente, as medidas calculadas partem de um conjunto de 
menor variabilidade. 
 
11.1 – Média Aritmética 
No caso dos dados grupados a média é obtida a partir de uma ponderação dos valores da tabela, 
onde os pesos são as freqüências absolutas de cada classe. A fórmula da média para dados grupados 
é obtida a partir de um ajuste na expressão da média aritmética: 
i
k
i
i
i
k
i
i
nn fPm
n
nPm
n
nPmnPmnPm
X 


 


1
12211 ... 
 
11.2 - Moda: Para obter o valor da moda em uma tabela de dados grupados, primeiramente, 
identificaremos a classe modal, aquela que possui a maior freqüência. 
 
11.2.1 – Moda bruta – é o Pm da classe modal 
 
 
 
Estatística Básica – Prof. Adriana Andrade 
 
21 
 
 
 
11.2.2 - Método de Czuber 
Leva em consideração as relações de distância entre a freqüência da classe modal e as freqüências das 
classes adjacentes. 
 
hliMo
pa
a
Czuber 










 
onde: 
il
 = limite inferior da classe modal 
a = diferença entre a freqüência absoluta da classe modal e a freqüência da classe anterior 
p = diferença entre a freqüência absoluta da classe modal e a freqüência da classe posterior 
h
= amplitude da classe 
 
 
11.2.3 - Método de King 
Leva em consideração apenas as freqüências das classes adjacentes à classe modal. 
 
h
nn
n
lMo
postant
post
iking 









)(
 
h
FF
F
LiMoking 







''
', 
 
onde: 
il
 = limite inferior da classe modal 
antn
= freqüência absoluta da classe anterior à classe modal 
postn
= freqüência absoluta da classe posterior à classe modal 
h
= tamanho/amplitude da classe 
 
 
11.3 - Mediana: encontra-se na classe com freqüência acumulada maior ou igual a 50%. Obtida pela 
seguinte expressão: 
 
h
n
fac
liMd
Mdi
ant
n




2
, onde 
il
 = limite inferior da classe que contém a mediana 
n = tamanho da amostra, ou seja, quantidade de observações. 
fac = freqüência absoluta acumulada da classe anterior a classe mediana 
n Md = freqüência absoluta da classe mediana 
h
= tamanho/amplitude da classe 
 
11.4 - Cálculo das Separatrizes(Quantis) para classes de freqüência 
 
h
n
facP
liSep
Sep
abs
antSep








 

 
il
 = limite inferior da classe que contém a separatriz; 
P = Fórmula da posição da separatriz; 
nSep = freqüência absoluta da classe que contém a separatriz; 
Estatística Básica – Prof. Adriana Andrade 
 
22 
 
fac = freqüência absoluta acumulada da classe vizinha anterior a classe que contém a separatriz 
h
= tamanho/amplitude da classe; 
11.5 – Variância e Desvio Padrão 
 
Para dados em tabelas de freqüências o desvio padrão é obtido por: 
 
n
nxPm
XDP
n
i
ii


 1
2
)( =
2
1
2
)( x
n
nPm
XDP
n
i
ii


 
 
 


n
i
ii fxPmXDP
1
2
)(
=
2
1
2
)( xfPmXDP
n
i
ii  

 
 
 
Tabela Auxiliar – Variável nº de repententes por turma em Estatísitca Básica em 2009 
Classe 
 
ni Pmi Pmini % Fac% fac 
 
 
 
 
 
10|--16 6 13 78 0,30 0,30 6 169 1014 
16|--22 7 19 133 0,35 0,65 13 361 2527 
22|--28 3 25 75 0,15 0,80 16 625 1875 
28|--34 4 31 124 0,20 1,00 20 961 3844 
Total 20 - 410 1 2,6 - 2116 9260 
 
2
iPm ii nPm
2
Estatística Básica – Prof. Adriana Andrade 
 
23 
 
12 - Análise Bidimensional 
 
Análise bidimensional é o termo utilizado para expressar o estudo de um fenômeno a partir da 
observação conjunta de duas variáveis. O objetivo da análise da distribuição conjunta de duas variáveis 
reside na investigação de como essas variáveis estão relacionadas e na avaliação do grau de 
dependência entre elas. Busca-se explicar como uma variável se comporta em função do desempenho 
de outra, de modo que possamos prever melhor o resultado de uma delas mediante o conhecimento da 
outra. 
 
 
12.1 - Associação entre duas variáveis quantitativas 
 
Para avaliar associação linear entre duas variáveis quantitativas, iremos trabalhar com dois 
procedimentos. O primeiro refere-se ao diagrama de dispersão e o segundo ao Coeficiente de 
Correlação Linear. 
 
12.1.1 – Diagrama de Dispersão 
 
O gráfico de dispersão é feito utilizando o plano cartesiano. Em cada eixo iremos especificar os valores 
de cada variável. Em seguida, iremos atribuir um ponto aos pares de valores (x,y). O exemplo a seguir 
ilustra o gráfico de dispersão para as variáveis peso e altura dos alunos da disciplina estatística básica. 
Gráfico de Dispersão das variáveis Peso e Altura
Altura
2,01,91,81,71,61,5
P e
so
90
80
70
60
50
40
30
 
 
À medida que os valores da variável altura aumentam verificamos que os valores da variável peso 
também aumentam. Este resultado é esperado, pois é provável que pessoas mais altas tendam a 
apresentar peso mais elevado que as pessoas de menor estatura. Pelo diagrama de dispersão 
percebemos, então,que há uma associação linear entre as variáveis peso e altura. 
 
Temos três tipos de padrões básicos a serem visualizados nos diagramas de dipersão: 
1 – Correlação positiva - as duas variáveis variam no mesmo sentido, ou seja, quando os valores de uma 
aumentam ou diminuem ocorre o mesmo com a outra variável. Os pontos parecem que estão ao redor de 
uma reta crescente, portanto, dizemos que há uma associação crescente entre as variáveis; 
 
2 - Correlação negativa - as duas variáveis variam em sentido oposto, ou seja, quando os valores de 
uma aumentam os valores da outra variável diminuem. Há uma associação decrescente entre as 
Estatística Básica – Prof. Adriana Andrade 
 
24 
 
variáveis. Os pontos parecem que estão ao redor de uma reta decrescente, portanto, dizemos que há uma 
associação decrescente entre as variáveis; 
 
3 – Ausência de correlação – os pontos estão distribuídos de forma aleatória no plano. 
 
12.1.2 – Covariância e Coeficiente de Correlação Linear 
 
Uma maneira de quantificar a associação linear entre duas variáveis quantitativas é obtida pelo cálculo 
da Covariância e do Coeficiente de Correlação. 
A covariância entre os valores das variáveis X e Y é dada por 
n
yyxx
YXCov
n
i
ii


 1
))((
),( . De 
forma mais conveniente podemos escrever: 
yx
n
yx
YXCov
n
i
ii


1),(
, ou seja, podemos falar que a 
covariância é a média dos produtos das variáveis menos o produto das médias. 
 
 
A covariância mede o grau de associação linear entre variáveis. Entretanto, ela é afetada pela escala na 
qual foram mensuradas as variáveis, logo, seus valores podem variar entre 

e

 o que introduz 
uma dificuldade para avaliação da magnitude do grau de associação. Para superar essa limitação, iremos 
calcular o Coeficiente de Correlação. 
 
 
O Coeficiente de Correlação é uma medida adimensional, obtida a partir da covariância entres as 
variáveis X e Y e pelos seus respectivos desvios-padrões e é obtido por: 
 
YX
ii
SS
YXCov
XDP
yy
XDP
xx
YXCor
),(
)()(
),( 






 







 

, 
 
onde Cov (X,Y) representa a covariância e SX e SY correspondem, respectivamente, ao desvio padrão 
da variável X e o desvio padrão da variável Y. 
 
O Coeficiente de Correlação linear varia entre –1 e 1.Quanto mais próximo de –1 e 1, mais forte 
será a associação linear entre as variáveis. Quanto mais próximo a 0 mais fraca será a associação. O 
sinal do coeficiente indica o tipo de associação: 
 
Positiva – as duas variáveis variam no mesmo sentido. 
 
Negativa – as duas variáveis variam em sentido oposto. 
 
 
Para calcular o Coeficiente de Correlação, iremos aplicar a seguinte fórmula: 


















2222
1),(
ynyxnx
yxnyx
YXCor
i
i
i
i
n
i
ii
 
As parcelas da expressão do Coeficiente de Correlação serão calculadas utilizando uma tabela auxiliar. 
Estatística Básica – Prof. Adriana Andrade 
 
25 
 
 
Vamos aplicar? 
Exemplo: Calcular o Coeficiente de Correlação entre as variáveis peso e altura para 5 indivíduos: 
 
 
 
 
1º Passo: Fazer a tabela auxiliar 
Tabela Auxiliar 
Indíviduo Altura (X) Peso (Y) 

i
ii yx
 

i
ix
2
 

i
iy
2
 
1 160 50 8.000 25.600 2.500 
2 165 54 8.910 27.225 2.916 
3 165 55 9.075 27.225 3.025 
4 170 65 11.050 28.900 4.225 
5 170 64 10.880 28.900 4.096 
Total = 5 830 288 47.915 137.850 16.762 
 
2º Passo: Calcular média 
166
5
8301 


n
xi
x
n
i 6,57
5
2881 


n
Yi
y
n
i 
3º Passo: Calcular o Coeficiente com os valores obtidos 
 
    
97,0
6,575762.16)1665(850.137
57,6)166(5-47.915
),(
22



YXCOR
 
 
O coeficiente de correlação de 0,97 indica que existe uma forte associação linear entre as variáveis 
altura e peso. Concluímos também que essa associação é positiva, pois a medida que os valores de 
altura aumentam, os valores de peso também aumentam. 
 
 
12.2 – Associação entre Duas Variáveis Qualitativas 
 
12.2.1 - Tabelas de dupla entrada 
 
Os dados em uma tabela de dupla entrada serão dispostos de maneira similar a uma matriz 
 
Altura 
(X) 160 165 165 170 170 
Peso (Y) 50 54 55 65 64 
Gráfico de Dispersão entre as variáveis Altura e Peso
45
50
55
60
65
70
158 160 162 164 166 168 170 172
Altura
Pe
so
Estatística Básica – Prof. Adriana Andrade 
 
26 
 
X 
Y 
Total 
Y1 Y2 Yn 
X1 n11 n12 n1n n1. 
X2 n21 n22 n2n n2. 
... ... ... ... ... 
Xr nr1 nr1 nrn nr. 
Total n.1 n.2 n.n n.. 
 
A distribuição conjunta de duas variáveis qualitativas pode ser apresentada em tabelas de duas entradas. 
 
 
 
Ex.: Análise da avaliação do prefeito do Rio entre homens e mulheres 
 
Distribuição conjunta das freqüências das variáveis Avaliação do prefeito do Rio e Sexo. 
Avaliação 
Sexo 
Total 
Feminino Masculino 
Positiva 140 100 240 
Negativa 60 200 260 
Total 200 300 500 
 
Distribuições marginais: são obtidas a partir dos totais de linha e dos totais de coluna da tabela de 
distribuição conjunta de duas variáveis. 
Mulheres = 200 Homens = 300 
Positivo = 240 Negativo = 260 
 
Distribuição conjunta: obtida pela interseção entre duas categorias das variáveis da tabela. 
Mulheres e Positiva= 140 Homens e Positiva = 100 
Mulheres e Negativa = 60 Homens e Negativa = 260 
 
Temos três formas de calcular os percentuais em tabelas de dupla entrada: 
1) Calcular os percentuais em relação ao total geral (n) da tabela: 
 
Distribuição conjunta dos percentuais das variáveis 
Avaliação do prefeito do Rio e Sexo 
Avaliação 
Sexo 
Total 
Feminino Masculino 
Positiva 28 20 48 
Negativa 12 40 52 
Total 40 60 100 
 
Análise: 
 48% dos entrevistados possuem avaliação positiva; 
 40% dos entrevistados são homens; 
 52% dos entrevistados fizeram uma avaliação negativa do prefeito, tendo o maior percentual 
ocorrido entre os homens (40%). 
 
 
2) Calcular os percentuais em relação aos totais de linha da tabela: 
 
Estatística Básica – Prof. Adriana Andrade 
 
27 
 
Distribuição conjunta dos percentuais das variáveis 
Avaliação do prefeito do Rio e Sexo 
Avaliação 
Sexo 
Total 
Feminino Masculino 
Positiva 58 42 100 
Negativa 23 77 100 
Total 40 60 100 
 
Análise: 
 Entre os que fizeram uma avaliação positiva, 58% são mulheres e 42% são homens; 
 Dado que entrevistado tem uma avaliação negativa, 77% são homens; 
 Dentre os que possuem uma avaliação negativa, 23% são mulheres. 
 
 
3) Calcular os percentuais em relação aos totais de coluna da tabela: 
 
Distribuição conjunta das variáveis Avaliação do prefeito do Rio e Sexo (%). 
Avaliação 
Sexo 
Total 
Feminino Masculino 
Positiva 70 33 48 
Negativa 30 67 52 
Total 100 100 100 
 
Análise: 
 Dado que o entrevistado é homem, 67% possui avaliação negativa; 
 33% dos entrevistados do sexo masculino têm avaliação positiva; 
 Entre as mulheres, prevalece a avaliação positiva (77%); 
 Distribuição percentual da avaliação dado que o sexo é feminino: 70% positiva ; 30% negativa 
 
Independente do sexo: 48% tem avaliação positiva e 52% negativa. 
 
Quando adicionamos a variável sexo no estudo da avaliação, percebemos um novo aspecto da outra 
variável, ou seja, o sexo da pessoa parece influenciar o comportamento da variável avaliação do prefeito 
do Rio. Dizemos, então, que a avaliação do prefeito depende do sexo do entrevistado.Podemos ainda 
escrever da seguinte forma: 
 
Variável Dependente ou Explicada: Avaliação do prefeito do Rio 
Variável Independente ou Explicativa: Sexo 
 
Dicas para identificar variável explicativa: 
1 - Perguntar quem vem antes: sexo ou avaliação? 
2 – Perguntar quem influencia: sexo influencia avaliação ou avaliação influencia sexo? 
 
 
12.2.2 – Medida de Associação entre duas variáveis qualitativas - Qui-quadrado de Pearson (
2
) 
 
A medida que quantifica a associação entre duas variáveis qualitativas é denominada Qui-quadrado de 
Pearson (
2
). Essa medida é calculada a partir dos valores observados da distribuição. Para avaliar a 
existência de associação ou de dependência entre as variáveis, iremos comparar as freqüências 
observadas no estudo com as freqüências esperadas em uma situação na qual não há associação entre as 
Estatística Básica – Prof. Adriana Andrade 
 
28 
 
duas variáveis em estudo (freqüência esperada assumindo a independência entre as variáveis), ou seja, 
no caso em que as variáveis são independentes. 
 
As freqüências esperadas são obtidas por: 
 
)(
)()(
geralTotal
jcolunadaTotalilinhadaTotal
e
ji


 
Distribuição das freqüências esperadas 
Avaliação 
Sexo 
Feminino Masculino 
Positiva e11 e12 
Negativa e21 e22 
 
e11=
96
500
240200


 e12=
144
500
240300


 
e21=
104
500
260200


 e22=
156
500
260300


 
Caso as freqüências observadas sejam próximas às freqüências esperadas (na situação de 
independência), podemos concluir que não há associação entre as variáveis. 
 
Valores esperados assumindo a independência entre as duas variáveis 
Avaliação 
Sexo 
Feminino Masculino 
Positiva 96 144 
Negativa 104 156 
 
 Uma medida que reporta a distância entre esses valores é obtida pelo cálculo do Qui-quadrado (
2
). 
 



i j ij
ijij
e
eo 2
2
)(

, com 
ijo
 e 
ije
 representando, respectivamente, as freqüências observadas e 
esperadas na linha i e coluna j. 
 
A medida 
2
 usa a diferença entre 
ijo
 e 
ije
 elevada ao quadrado para evitar o cancelamento de termos 
positivos por negativos. A divisão por 
ije
 objetiva padronizar a medida, relativizando o tamanho da 
diferença encontrada. Exemplo: [fo=5 fe=10] [fo=70 fe=75] é maior o impacto do desvio de |-5| 
em relação a 10 do que em 75. 
 
Para o exemplo analisado temos: 
 
64,64
156
)156200(
104
)10460(
144
)144100(
96
)96140( 22222 







 
 
Um critério para avaliar a magnitude do 
2
 , ou seja, se o valor do 
2
 é ou não uma evidência a favor 
da existência de associação entre as variáveis, é obtido pelo cálculo do Coeficiente de Contingência 
dado por: 
Estatística Básica – Prof. Adriana Andrade 
 
29 
 
n
C


2
2

 
 
O Coeficiente de Contingência é uma valor entre 0 e 1. Quanto mais próximo de 1, maior é a evidência 
a favor da existência de associação entre as variáveis. Quanto mais próximo de 0, tem-se indício de que 
a associação entre as variáveis é fraca ou até mesmo inexistente. 
 
Em alguns casos, mesmo existindo uma associação perfeita entre as variáveis, o Coeficiente de 
Contingência pode ser menor do que 1. Para superar essa limitação, usualmente, utiliza-se uma correção 
no Coeficiente de Contingência. 
 
)1)(1(
2


cl
n
C
 
Para nosso exemplo, temos que o Coeficiente de Contingência é dado por:
34,0
50064,64
64,64


C
 
 
Com base no valor do coeficiente podemos concluir que existe uma associação de fraca a moderada 
entre as variáveis avaliação do prefeito do rio e sexo do entrevistado. Obtivemos um pequeno ganho no 
conhecimento da avaliação do prefeito quando conhecemos o sexo do indivíduo. Essa informação deve 
ser considerada no desenvolvimento de uma campanha para elevar o índice de popularidade do prefeito 
entre seus eleitores.