Buscar

ESTATISTICA DESCRITIVA 2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

i 
Estatística Descritiva 
 
ii 
Luisa Zanolli Moreno 
 
Médica veterinária, mestranda do curso de pós-graduação em saúde pública da 
Faculdade de Saúde Pública da Universidade de São Paulo 
 
André Moreno Morcillo 
 
Professor Associado do Departamento de Pediatria da Faculdade de Ciências 
Médicas da Universidade Estadual de Campinas 
Pesquisador do CIPED – Centro de Investigação em Pediatria da Universidade 
Estadual de Campinas 
 
 
 
 
 
 
 
 
Estatística Descritiva 
 
 
 
 
 
 
 
 
 
 
 
 
 
Campinas – São Paulo – Brasil 
[Novembro de 2012] 
A divulgação de dados de pesquisa requer o uso de técnicas 
internacionalmente reconhecidas, de tal forma, que os artigos e relatórios possam 
ser avaliados por pesquisadores em diferentes cidades ou países. 
Esta parte da estatística, cujo objetivo é sintetizar, tornar clara e organizada 
a apresentação de dados, recebe o nome de “Estatística Descritiva”. Entre outras 
técnicas, podem ser utilizadas as medidas de tendência central, de dispersão e de 
posição, além de tabelas, gráficos, etc. 
 
Uma situação concreta 
 
Okuro et al. (2011)1 com o objetivo de avaliar a tolerância ao exercício 
submáximo e a força muscular respiratória em relação à anteriorização da cabeça e 
ao tipo respiratório em crianças com respiração bucal (RB) ou nasal (RN), 
avaliaram 30 crianças com respiração bucal comparando-as com 62 controles com 
respiração nasal. A seguir, apresentamos parte de seus resultados com os dados de 
Pressão Inspiratória Máxima (PImáx) e Pressão Expiratória Máxima (PEmáx). 
 
“As Tabelas 1 e 2 mostram que, no grupo RB, não houve diferenças entre as 
médias de PImáx e PEmáx nos subgrupos com alteração (grave e moderada) e 
sem alteração. No entanto, no grupo RN, as médias de PImáx e PEmáx foram 
maiores no subgrupo com alteração postural (70,8 ± 19,1 cmH2O vs. 54,7 ± 
21,7 cmH2O; p = 0,003; e 67,7 ± 22,1 cmH2O vs. 50,5 ± 19,5 cmH2O; p = 
0,004, respectivamente).” 
 
 
 
1
 Okuro RT et al. Respiração bucal e anteriorização da cabeça: efeitos na biomecânica respiratória e na 
capacidade de exercício em crianças. J. Bras. Pneumol. 2011; 37(4):471-479. 
 
 
2 
 
 
Trabalhando com informações ou “dados”2 
 
Os resultados de uma pesquisa são traduzidos em informações ou “dados”, 
que podem expressar uma quantidade ou uma qualidade. Os “dados” que 
expressam uma “quantidade” são chamados “dados” ou variáveis quantitativas, 
enquanto que aqueles que expressam uma “qualidade” são chamados de dados ou 
variáveis qualitativas ou categóricas. 
O peso, a altura, o índice de massa corporal, o valor da hemoglobina são 
exemplos de dados quantitativos. 
A classificação quanto ao sexo (masculino/feminino), renda familiar (renda 
baixa/renda média/renda alta), escolaridade (baixa/média/alta) são exemplos de 
dados qualitativos ou categóricos. 
Temos dois tipos de dados categóricos: os nominais e os ordinais. 
No tipo categórico nominal, todas as categorias têm o mesmo valor, a 
mesma importância. Como exemplo, podemos citar o sexo, onde masculino e 
feminino são categorias com o mesmo grau de importância. 
Por outro lado, no tipo categórico ordinal as categorias têm diferentes graus 
de importância. Por exemplo, quando falamos em renda alta, sabemos que se trata 
de famílias com renda superior às das famílias com renda média e baixa. Sabemos 
ainda que renda baixa significa renda inferior à dos grupos de renda média e alta. 
Saber identificar os tipos de dados ou variáveis é fundamental, pois as 
técnicas de estatística descritiva e de análise de dados são específicas para cada 
tipo de variável. 
 
2
 Dados - elemento ou quantidade conhecida que é resultado de uma pesquisa e que serve de base para 
resolução de um problema. 
 
3 
Estatística Descritiva de dados quantitativos 
 
Quando o conjunto dos dados é pequeno, basta apresentá-lo de forma 
simples. Não há necessidade de se usar técnicas ou recursos sofisticados. Abaixo 
apresentamos as idades (anos) de 8 crianças. 
 
7 6 4 7 7 8 7 12 
 
Uma maneira simples para descrevê-las seria: a mais nova tem 4 anos, 
enquanto a mais velha tem 12 anos. A idade mais frequente é 7 anos. 
Tente repetir o mesmo processo com um grupo um pouco maior. Abaixo 
apresentamos as idades (anos) de 60 pacientes. 
 
20 48 30 44 97 76 
89 60 33 53 64 5 
8 76 65 7 33 37 
1 60 89 63 22 58 
3 34 27 2 66 66 
91 98 58 43 63 96 
48 20 20 68 10 84 
92 81 82 67 44 72 
24 48 31 70 33 4 
24 54 35 45 43 7 
 
As técnicas que serão apresentadas a seguir foram desenvolvidas para 
facilitar a apresentação de grandes conjuntos de dados, possibilitando a sua leitura 
e interpretação de forma sistemática e rápida. 
 
Para a apresentação de dados quantitativos são utilizados alguns métodos 
numéricos, com o objetivo de descrever o que ocorre no centro da distribuição e a 
forma como os dados estão dispersos. Estes métodos conhecidos por medidas 
resumo, podem ser divididos em: 
 
• MEDIDAS DE TENDÊNCIA CENTRAL DE IMPORTÂNCIA NA ÁREA DAS CIÊNCIAS BIOLÓGICAS: 
média aritmética, média geométrica, mediana e moda. 
• MEDIDAS DE DISPERSÃO: amplitude máxima, variância, desvio padrão, coeficiente 
de variação e amplitude interquartil. 
• MEDIDAS DE POSIÇÃO: quartis e escores z 
 
 
4 
Medidas de tendência central 
 
1. Média Aritmética 
A média aritmética ( x ) é uma das medidas mais usadas para descrever a 
tendência central. Seu cálculo é muito fácil: somamos os valores medidos e, a 
seguir, dividimos pelo número de casos avaliados. Indicamos a média de uma 
população por µµµµ e a de uma amostra ou grupo por x . 
N
X∑
=µ 
ΣX = soma dos valores da população 
N = número de casos da população 
 
n
x
x
∑
= 
Σx = soma dos valores da amostra ou grupo 
n = número de elementos da amostra ou grupo 
 
Exemplo: dado o conjunto dos números [99, 100; 101; 102; 105], sua 
média será: 
 ( ) 4,011
5
10510210110099
=
++++
=x 
 
Observação: 
A média aritmética tem uma grande desvantagem: sofre grande influência 
de valores extremos (muito grandes ou muito pequenos) em relação ao conjunto 
dos dados. 
No exemplo acima, se trocarmos o valor 100 por 60 a média passa a ser: 
 
( ) 4,93
5
1051021019960
=
++++
=x 
A troca de um único elemento causou uma diminuição de 8 unidades na 
média do grupo. 
Assim, a média aritmética só é um bom parâmetro de tendência central 
quando os dados têm distribuição simétrica. 
 
 
 
 
5 
2. Média Geométrica 
A média geométrica (Mg) é um bom parâmetro de tendência central de 
dados maiores que zero, que apresentam grande assimetria à direita, tal como 
ocorre com os resultados de títulos de anticorpos, peso, índice de massa corporal, 
etc. 
 
Seu cálculo é dado pelas fórmulas: 
 
( )xxxx n nMg ××××= ...321 1 (1) 
 
ou 
 
( )n
nxxxxMg ××××= ...321 (2) 
 
Também pode ser calculada de forma bem mais prática. Para tal 
trabalharmos com os logaritmos3 (logs) dos dados. Determinamos a média 
aritmética dos logaritmos e, a seguir, calculamos o antilogaritmo da média 
aritmética dos logs. O antilogaritmo da média dos logs é igual à média geométrica. 
Vejamos um exemplo simples: considere os cinco valores apresentados a 
seguir: [10, 100, 1.000, 10.000, 100.000] 
 
Determinando a média geométrica pela fórmula (1): 
( )xxxx n nMg ××××= ...321 1 
( ) 000.1000.100000.10000.110010 51 =××××=Mg 
 
Determinando a média geométrica pelafórmula (2): 
( )n
nxxxxMg ××××= ...321 
 
 
3
 Neste texto usamos logaritmos na base 10 ( xLog 
10
) 
 
6 
( ) 000.1000.100000.10000.1100105 =××××=Mg 
 
Determinando a Mg pelo método dos logaritmos: 
 
Inicialmente calculamos a média dos logaritmos ( xLogs ) 
( )
( ) 3
5
54321
5
000.100000.10000.110010
=
++++
=
=
++++
=
x
LogLogLogLogLog
x
Logs
Logs
 
 
A seguir, determinamos o antilogaritmo da média dos logaritmos ( xLogs ) 
( ) 000.11010)log( 3 === xxAnti LogsLogs 
( ) 000.11010 3 === xMg Logs
 
 
 
3. Mediana 
Se ordenarmos os dados em ordem crescente, a mediana (Md) é o valor da 
variável observado no elemento que ocupa o centro da distribuição. A mediana 
divide os dados em dois grupos que têm o mesmo número de casos. Metade dos 
casos tem valores menores e a outra metade tem valores maiores que a mediana. 
A mediana é equivalente ao percentil 50º e ao 2º quartil. 
Para a sua determinação, inicialmente deve-se ordenar a amostra (ordem 
crescente) e, a seguir, procura-se o elemento que ocupa a posição central. O valor 
da variável deste elemento é a mediana. 
 
No exemplo anterior - dado um conjunto de números [99, 100; 101; 102; 
105]: 
 
Ordem 1º 2º 3º 4º 5º 
Valor 99 100 101 102 105 
 
 
7 
O centro da distribuição é ocupado pelo 3º elemento cujo valor é 101. A 
mediana deste grupo é 101 (Md=101). 
Observe que dois elementos da distribuição são menores que a mediana (99 
e 100) e dois elementos são maiores que a mediana (102 e 105). 
A etapa mais trabalhosa na determinação da mediana é a identificação do 
elemento que ocupa o centro da distribuição ordenada dos dados. Não há muita 
dificuldade quando o número de casos é pequeno, porém, quando trabalhamos com 
grandes grupos as dificuldades são enormes. 
O Excel tem uma rotina que faz automaticamente a ordenação dos dados, o 
que simplifica sobremaneira o trabalho. No entanto, a identificação do elemento 
central ainda é um problema quando queremos fazer a determinação manual da 
mediana. 
Para facilitar o trabalho podemos empregar os seguintes procedimentos: 
 
a) Quando o número de casos é ímpar 
Quando o número de casos é impar, sempre há um elemento que ocupa o 
centro da distribuição, cuja posição é dada por: 
 
2
1Central Elemento do Posição += N 
 
N = número de casos 
 
b) Quando o número de casos é par 
Nesta circunstância dois elementos ocupam o centro da distribuição, cujas 
posições podem ser determinadas por: 
2
NElemento Primeiro do Posição = 
 
1
2
NElemento Segundo do Posição += 
 
N = número de casos 
 
A mediana será a “média aritmética” dos valores destes dois elementos 
centrais. 
 
 
8 
Por exemplo, considere os 10 valores apresentados a seguir: 2, 4, 6, 8, 10, 12, 14, 
16, 18, 20 
 
Aplicando-se as fórmulas acima teremos (N=10): 
5
2
10
2
Elemento Primeiro do Posição === N 
61
2
101
2
Elemento Segundo do Posição =





+=





+=
N
 
 
Posição 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 
Número 2 4 6 8 10 12 14 16 18 20 
 
A mediana será a média aritmética dos valores do 5º e 6º elementos. 
 
( ) 11
2
1210
=
+
=Md 
 
Observe que o valor 11 não pertence aos dados originais. Ele foi estimado 
por interpolação, a partir dos valores dos dois elementos que ocupam o centro da 
distribuição. 
 
 
Neste outro exemplo com 6 elementos [100;105;101;98;99;103] 
 
1. Inicialmente ordenamos os dados: 98; 99; 100; 101; 103; 105 
 
2. A seguir, determinamos os elementos centrais: 
 
3
2
6
2
Elemento Primeiro do Posição === N 
41
2
61
2
Elemento Segundo do Posição =





+=





+=
N
 
 
 
9 
Posição 1º 2º 3º 4º 5º 6º 
Valor 98 99 100 101 103 105 
3. Agora, podemos calcular a mediana: 
 
( ) 5,100
2
101100Md =+= 
 
Diferentemente da média aritmética, a mediana não sofre a influência de 
elementos extremos. No exemplo acima, se o sexto elemento fosse 105.000 a 
mediana da distribuição seria a mesma. 
 
Posição 1º 2º 3º 4º 5º 6º 
Valor 98 99 100 101 103 105.000 
 
( ) 5,100
2
101100Md =+= 
 
 
4. Moda 
A moda (Mo) expressa os valores que têm maior frequência no grupo de 
estudo. Podemos ter distribuições de dados sem moda (amodais), com uma moda 
(unimodais), com duas (bimodais) ou mais de duas modas (multimodais). 
No exemplo anterior todos os valores ocorrem uma única vez, portanto, a 
distribuição não apresenta moda (amodal). 
 
Ao tomarmos um grupo de 15 crianças de uma escola, obtemos as seguintes 
idades (anos): 
4; 5; 6; 7; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 9 
 
A idade que aparece com maior frequência é 7 anos; portanto, a moda 
desta distribuição é 7 anos. 
 
Esta medida de tendência central não é utilizada na prática. 
 
10 
Medidas de dispersão 
 
1. Amplitude Máxima 
A amplitude máxima (AM) é a diferença existente entre o maior (máximo) e 
o menor (mínimo) valor observado. Por ser uma medida de dispersão calculada a 
partir de somente dois elementos, ignorando os demais, expressa de forma limitada 
a dispersão do conjunto dos dados. 
 
Exemplo: considerando as idades (anos) de um grupo de 10 crianças: 
4; 5; 5; 6; 6; 6; 7; 7; 8; 8 
 
Menor valor observado = 4 anos 
Maior valor observado = 8 anos 
 
448 =−=AM 
 
2. Variância 
A variância é uma medida de dispersão que leva em consideração todos os 
elementos do grupo. Indicamos a variância de uma população por “σσσσ2” e de uma 
amostra ou grupo por “s2”. 
Para determinar a variância calculamos a diferença (desvio) de cada 
elemento em relação à média aritmética do grupo [ ( )µ−X ]. A seguir, estas 
diferenças são elevadas ao quadrado [( )µ−X 2 ] e, finalmente, dividimos a soma 
dos quadrados destas diferenças [ ( )∑ − µX 2 ] pelo número de casos (N). 
 
( )
N
X∑ −
=
µ
σ
2
2
 
 
Quando trabalhamos com grupos (amostras), temos o interesse de que a 
variância (s2) seja representativa da variância da população (σ2). Levando-se em 
conta este fato, dividimos o numerador por (N-1) e não por N. A variância é 
calculada pela fórmula: 
( )
1
2
2
−
−
=
∑
n
xx
s 
 
11 
Exemplo: considerando as idades (anos) de um grupo de 10 crianças: 
 
7; 5; 6; 7; 8; 6; 6; 8; 5; 4 
 
1. Inicialmente calculamos a média 
 
( ) 2,6
10
4586687657
=
+++++++++
=x 
 
2. A seguir, criamos uma tabela com três colunas para facilitar os cálculos. Na 
primeira coluna colocamos as idades. Na segunda, as diferenças entre cada 
idade e a média aritmética do grupo [ ( )xx − ] e, na terceira, os valores da 
segunda coluna elevados ao quadrado [( )xx − 2 ]. 
 
Idades ( )xx − ( )xx − 2 
7 0,8 0,64 
5 -1,2 1,44 
6 -0,2 0,04 
7 0,8 0,64 
8 1,8 3,24 
6 -0,2 0,04 
6 -0,2 0,04 
8 1,8 3,24 
5 -1,2 1,44 
4 -2,2 4,84 
Total 15,6 
 
3. A seguir, calculamos a variância. 
( )
anos,
,
n
xx
s 2
2
2 71
9
615
1
==
−
−
=
∑
 
 
Com um pouco de paciência e empregando algumas transformações 
algébricas simples, podemos desenvolver o numerador da fórmula da variância 
 
12 
( ( )∑ −xx 2 ), chegando a uma expressão equivalente, que apresenta a vantagem 
de não usar a média. 
( ) ( )
n
x
x xx
∑
−=
− ∑∑
2
22
 
 
Assim, passamos a contar com uma maneira prática de calcular a variância: 
( )
1
2
2
2
−
∑
−
=
∑
n
n
x
x
s 
 
Retomando o exemplo anterior e aplicando estanova fórmula temos: 
 
Idades X X2 
7 7 49 
5 5 25 
6 6 36 
7 7 49 
8 8 64 
6 6 36 
6 6 36 
8 8 64 
5 5 25 
4 4 16 
Total 62 400 
 
anosx 2,6
10
62
== 
( )
anos 719
615
9
10
)62(400
1
2
2 2
22
,
,
n
n
x
x
s ==
−
=
−
∑
−∑
= 
 
 
 
13 
3. Desvio Padrão 
A variância é uma excelente medida de dispersão, no entanto, pouco usada 
nas publicações. Como elevamos os desvios ao quadrado, também elevamos ao 
quadrado as unidades de medida. Assim, a unidade da variância do peso será kg2 , 
da altura será cm
2 , e a do índice de massa corporal será 
m
kg
4
2
. A interpretação 
destas unidades de dispersão torna-se muito confusa para o leitor. 
 
Considerando estes fatos, passou-se a usar a raiz quadrada da variância, 
que passou a receber o nome de desvio padrão. Indicamos o desvio padrão de uma 
população por “σσσσ” e de uma amostra ou grupo por “s”. 
 
σσ
2variância +=+= ou ss 2variância +=+= 
 
O desvio padrão do exemplo anterior é: 
anos 3,17,12 =+=+= ss 
 
Pelo fato de que o desvio padrão é a raiz quadrada da variância, tem a 
unidade original em que os dados foram medidos. No exemplo anterior a unidade 
da variância da idade era anos2 e a do desvio padrão é anos. 
O desvio padrão representa quanto, em média, cada observação está 
distante da média aritmética do grupo. Quanto mais próximos da média estiverem 
os valores, menor será o desvio padrão e, quanto mais distantes estiverem da 
média, maior ele será. 
A seguir apresentamos um novo grupo de 10 crianças, para calcularmos o 
desvio padrão da idade e o compararmos com o do exemplo anterior. 
 
4; 8; 9; 5; 12; 13; 14; 6; 5; 5 
 
A média aritmética da idade deste grupo é: 
anosx 1,8
10
81
== 
 
14 
O desvio padrão é: 
( )
anos 7,3
9
9,124
9
10
)81( 2781
1
2
2
==
−
=
−
∑
−∑
=
n
n
x
x
s 
Observe que no primeiro grupo tínhamos uma média igual a 6,2 e o desvio 
padrão igual a 1,3 anos. Neste último, a média é 8,1 e o desvio padrão 3,7 anos. 
 
 
4. Coeficiente de Variação 
O coeficiente de variação (CV) é a razão entre o desvio padrão e a média do 
grupo. O coeficiente de variação, expresso em porcentagem, é uma medida usada 
para comparar as dispersões de dois ou mais grupos. 
 
100.
x
s
CV = 
 
Considerando os dois exemplos anteriores temos: 
 
No primeiro grupo de crianças a média é x =6,2 e o s = 1,3 
%0,21100.
2,6
3,1100. ===
x
sCV 
No segundo grupo de crianças a média é x =8,1 e o s = 3,7 
 
%7,45100.
1,8
7,3100. ===
x
sCV 
 
A dispersão do segundo grupo é 2,2 vezes maior que a do primeiro. 
 
 
 
15 
Medidas de posição 
 
1. Quartis 
Chamamos de quartil a qualquer um dos três valores que divide o conjunto 
ordenado de dados em quatro grupos, cada um contendo 25% dos casos. 
O 1º quartil separa o grupo formado por 25% dos casos com os menores 
valores. O 2º quartil também divide o grupo em dois subgrupos com igual número 
de casos, sendo que metade dos casos tem valores menores e a outra metade, 
valores maiores que o 2º quartil. O 3º quartil separa o grupo com os maiores 
valores, também com 25% dos casos, dos demais 75% que têm valores menores. 
O 1º quartil é equivalente ao percentil 25, o segundo é equivalente ao 
percentil 50 e à mediana, enquanto o 3º quartil é equivalente ao percentil 75. 
 
 
Chamamos de amplitude interquartil (AIQ) à diferença entre o 3º e o 1º 
quartil. Ela expressa a dispersão dos casos que ocupam o centro da distribuição, 
excluídos os 25% menores e os 25% maiores. 
 
QuartilQuartilAIQ º1º3 −= 
Como determinar os quartis? 
Inicialmente ordenamos os dados e, a seguir, identificamos os três valores 
que dividem o grupo todo em quatro subgrupos, cada qual com igual número de 
casos. 
Para determinar a posição do elemento que corresponde 1º Quartil (PQ1), 
utilizamos a seguinte fórmula: 
( )
4
1NQuartil 1º do Posição += 
 
 
 
Mínimo Máximo 1º Quartil 2º Quartil 3º Quartil 
25% 25% 25% 25% 
 
16 
Para encontrar a posição do elemento do 2º Quartil (PQ2) usamos a fórmula: 
( )
4
1N2Quartil 2º do Posição +×= 
 
Para o 3º Quartil (PQ3) usamos a fórmula: 
( )
4
1N3Quartil 3º do Posição +×= 
 
Quando a posição (P) de um determinado quartil é um número inteiro, o 
elemento faz parte dos dados do pesquisador. Portanto, basta localizá-lo e verificar 
o valor da variável em estudo. O seu valor é o quartil. Nem sempre temos essa 
situação. 
Quando a posição (P) de um determinado quartil é um número decimal, o 
elemento que se procura não faz parte dos dados do pesquisador. Neste caso, 
assim como fizemos anteriormente com a mediana, o valor do quartil será obtido 
por interpolação. Esta interpolação é uma média ponderada, que pode ser obtida 
pela fórmula: 
( ) ( ) ( )[ ]xxx decimalfração AnteriorPosterior AnteriorQuartil −×+= 
 
Onde, X(Posterior) – X(Anterior) é a diferença entre os valores dos elementos que 
delimitam o intervalo que contém o quartil e “fração decimal” é a parte decimal da 
posição (P) do quartil. 
 
Por exemplo, quando a posição (P) de um determinado quartil é 38, nosso 
trabalho torna-se muito fácil. Basta procurar na série ordenada dos dados o valor 
da variável do caso que ocupa a posição 38. O valor da variável é o quartil desejado 
Outras vezes a posição (P) é um número decimal, por exemplo, P=40,8. 
Sabemos que o quartil desejado está entre o 40º e o 41º elemento, mas que não 
existe, não é real. Portanto temos que estimá-lo a partir dos valores dos casos 40º 
e 41º. O 40º antecede a posição do quartil e será chamado de “Anterior” e o 41º 
sucede a posição do quartil e será chamado de “Posterior”. A “fração decimal” neste 
caso é 0,8 que é a parte decimal de P. 
 
 
 
17 
Vamos tomar um exemplo mais concreto. Na tabela abaixo os valores de 
altura já ordenados. Queremos determinar um determinado quartil e obtivemos 
P=40,8. Como proceder? 
 
Posição ... 38º 39º 40º 41º 42º 43º ... 
Altura ... 123 134 135 138 141 142 ... 
 
 
Neste caso temos: 
 
XAnterior = 135 
XPosterior = 138 
Fração decimal = 0,8 
( ) ( ) ( )[ ]xxx decimalfração AnteriorPosterior AnteriorQuartil −×+= 
[ ] 4,1371351388,0135Quartil =−×+= 
Neste caso, valor do quartil foi obtido por interpolação e seu valor é 
137,4cm. 
 
 
2. Escores Z 
O escore z (z-score) representa a posição relativa dos elementos de um 
grupo em relação à sua média aritmética. O escore z expressa, em unidades de 
desvio padrão, a distância que um determinado dado está em relação à média 
aritmética. 
Para o cálculo do escore z temos que conhecer a média e o desvio padrão do 
grupo em estudo. A partir destes dados, utilizamos a fórmula: 
( )
s
xx −
=− scorez 
 
x : valor da variável 
x : média do grupo 
s : desvio padrão do grupo 
 
18 
Por exemplo, dado o conjunto de números [100; 101; 105,2; 99,2; 100,5]. 
 
Inicialmente calculamos a média e o desvio padrão do grupo: 18,101=x e 
34,2=s . 
 
Para determinar o escore z de 105,2 fazemos: 
( ) 71,1
34,2
18,1012,105
+=
−
=
−
=−
s
xx
scorez 
O escore z de 105,2 é +1,71, o que significa que 105,2 está situado 1,71 
unidades de desvio padrão acima da média. 
 
Para determinar o escore z de 100 fazemos: 
( ) 50,0
34,2
18,1010,100
−=
−
=
−
=−
s
xx
scorez 
O escore z de 100 é -0,50, o que significa que 100 está situado 0,5 unidades 
de desvio padrão abaixo da média 
 
Para determinar o escore z de 101,18 fazemos: 
( ) 034,2
18,10118,101
scorez =
−
=
−
=−
s
xx
 
O escore z de 101,18 é 0, o que significa que 101,18 é igual à média do 
grupo. 
 
 
 
19 
Análise exploratória de dados 
Chamamos de “análise exploratória de dados” à avaliação criteriosa4,5 dos 
dados e que deve preceder a análise final, cujo resultado é o conjunto das 
informações que serão publicadas. Para esta avaliação utilizamos todas as técnicas 
discutidas neste texto, entretanto, ressaltamos que o mais importante é a 
experiência da pessoa que vai fazer a análise. É fundamental que se conheça a 
natureza e a forma de distribuição de cada uma das variáveis em estudo, assim 
como se deve avaliar a “qualidade” dos dados que serão analisados. 
Quando falamos em “qualidade” estamos nos referindo ao rigor 
metodológico usado no momento das medições, na qualidade da digitação, na 
depuração de erros de medida e dos erros de digitação, etc. 
A partir dessa interpretação preliminar, após avaliar a forma de distribuição 
dos dados e a qual modelo se ajustam, pode-se iniciar a análise descritiva e a 
aplicação de testes estatísticos. 
Cuidado especial devem receber os chamados “dados atípicos” ou “pontos 
fora da curva” ou “outliers”. Estes dados atípicos são aqueles que estão muito 
distantes do centro da distribuição, e que até podem ocorrer, embora, às vezes, 
resultem de erro de medida, erro de anotação ou mesmo de digitação. 
São considerados outliers os pontos que são maiores que 3º 
quartil+1,5xAIQ ou menores que 1º quartil-1,5xAIQ, onde AIQ é a amplitude 
interquartil. 
 
Por exemplo, em um estudo sobre altura de crianças em idade escolar, 
encontramos casos com valor 220cm e 240cm. O mais provável é que tenha 
ocorrido erro no momento do exame antropométrico, na anotação ou mesmo por 
ocasião da digitação, pois é impossível que haja crianças em idade escolar com 
estas alturas. Se estes casos não forem retirados do grupo, haverá séria distorção 
na média e no desvio padrão, comprometendo os testes estatísticos. 
 
O gráfico de box-plot é uma ferramenta muito útil e prática para se fazer 
essa análise preliminar de dados quantitativos. Este gráfico é construído a partir de 
cinco pontos fundamentais: o mínimo, o 1º quartil, o 2º quartil, o 3º quartil e o 
máximo. 
 
4
 “Exploratory data analysis is detective work – numerical detective work or counting detective work or 
graphical detective work”. Tukey (1977) p. 1. 
 
20 
Iniciamos marcando o mínimo e o máximo. A seguir, desenhamos um 
retângulo que passa pelo 1º quartil e pelo 3º quartil. Posteriormente, marcamos a 
mediana no interior do retângulo. Desenhamos dois segmentos de reta com 
comprimento igual a 1,5xAIQ. O primeiro, acima do bordo superior do retângulo e o 
outro, abaixo do bordo inferior. 
 
Os casos cujos valores não estão incluídos entre os dois extremos dos 
segmentos de reta são considerados outlliers e devem ser reavaliados antes de se 
prosseguir na análise dos dados. Na figura abaixo apresentamos um Box-Plot. 
 
 
 
 
 
5
 “Unless exploratory data analysis uncovers indications, usually quantitative ones, there is likely to be 
nothing for confirmatory data analysis to consider” Tukey (1977) p. 3. 
Pico de Fluxo Expiratório
(m
l)
500
450
400
350
300
250
200
150
100
Máximo 
Mínimo 
 1º Quartil 
 3º Quartil 
Mediana 
 
21 
Estatística Descritiva de dados categóricos ou qualitativos 
 
Para a apresentação de dados qualitativos determinamos as distribuições de 
frequências e as apresentamos em tabelas e gráficos. 
 
1. Distribuição de frequências simples 
Para obtermos uma distribuição de frequência de dados categóricos, basta 
contarmos quantos casos há em cada categoria. 
As frequências das categorias podem ser expressas por seu número absoluto 
ou pela porcentagem em relação ao total. 
 
Avaliação nutricional pelo critério de Gomez de 521 crianças de pré-escolas 
da cidade de Paulínia – São Paulo (Zanolli,1992)6. 
 (N) (%) 
Eutrofia 412 79,1 
Desnutrição Leve 104 20,0 
Desnutrição Moderada 5 1,0 
Desnutrição Grave 0 0 
Total 521 100,0 
 
O cálculo da porcentagem de uma determinada categoria é muito simples: 
divide-se a frequência absoluta pelo total e multiplica-se por 100. No exemplo 
anterior, para o grupo dos eutróficos seria: 
Eutróficos (%) = 412 / 521 x 100 = 79,07869 
Geralmente fazemos a aproximação para uma casa decimal que, no exemplo 
acima, resulta 79,1%. 
A interpretação destes dados é muito simples. Ao lermos a tabela 
verificamos que 412 crianças entre as 512 eram nutridas, o que corresponde a 
79,1% do total. 
Em algumas circunstâncias pode interessar ao pesquisador apresentar 
também a frequência acumulada. 
 
 
6
 Zanolli ML – Avaliação do estado nutricional de pré-escolares matriculados nas escolas municipais de educação infantil de 
Paulínia – SP. Campinas, 1992. Tese (Mestrado em Saúde Coletiva), Faculdade de Ciências Médicas, UNICAMP. 
 
22 
Avaliação nutricional pelo critério de Gomez de 521 crianças de pré-escolas da cidade de 
Paulínia – São Paulo (Zanolli, 1992)7 
 (N) (%) (%) Acumulada 
Eutrofia 412 79,1 79,1 
Desnutrição Leve 104 20,0 99,1 
Desnutrição Moderada 5 1,0 100,1 
Desnutrição Grave 0 0 0 
Total 521 100,1 100,1 
 
Quando trabalhamos com variáveis numéricas torna-se necessário agrupar 
os dados em categorias para poder apresentá-los na forma de distribuição de 
frequências. Os dados são agrupados em intervalos de classes, cujo número não 
deve ser pequeno ou muito grande, recomendando-se que varie de 5 a 20. Há 
algumas fórmulas para determinar o número de classes, mas a lógica e o bom 
senso parecem ser mais úteis. É necessário ter em mente que os intervalos de 
classes devem ser estabelecidos de tal forma que todos os dados possam ser 
incluídos em somente uma das classes. 
Abaixo temos uma distribuição de frequências de uma variável quantitativa 
(idade em meses) agrupada em intervalos de classe. 
 
Distribuição da idade(anos) de 521 crianças de pré-escolas da cidade de 
Paulínia – São Paulo (Zanolli, 1992)8. 
Idade (meses) (N) (%) 
36,0 –| 48,0 35 6,7 
48,0 –| 60,0 70 13,4 
60,0 –| 72,0 168 32,2 
72,0 –| 83,9 204 39,2 
84,0 –| 96,0 44 8,4 
Total 521 99,9 
 
 
 
7
 Id. 
8
 Ibid. 
 
23 
2. Distribuição de frequências em relação a duas variáveis qualitativas – 
tabelas de contingência 
 
Neste caso o objetivo é construir uma tabela contendo informações sobre o 
comportamento de uma população ou grupo com relação a duas ou mais variáveis. 
 
Distribuição de 521 crianças de pré-escolas da cidade de Paulínia – São Paulo em relação 
ao sexo e à idade (Zanolli,1992)9. 
Idade 
(meses) 
Feminino 
N (%) 
Masculino 
N (%) 
Total 
N (%) 
36,0 – 47,9 15 (42,9) 20 (57,1) 35 (100,0) 
48,0 – 59,9 41 (58,6) 29 (41,4) 70 (100,0) 
60,0 – 71,9 81 (48,2) 87 (51,8) 168 (100,0) 
72,0 – 83,9 99 (48,5) 105 (51,5) 204 (100,0) 
84,0 – 95,9 24 (54,5) 20 (45,5) 44 (100,0) 
Total 260 (49,9) 261 (50,1) 521 (100,0) 
 
 
 
 
Avaliação nutricional pelo critério de Gomez em relação sexo de 567 crianças matriculadas 
nas 14 creches do município de Paulínia – SP, 1995 (Antonio,1995)10. 
Sexo Eutrofia D. Leve D. Moderada Total 
Masculino 221 (81,0) 49 (17,9) 3(1,1) 273 
Feminino 227 (77,2) 66 (22,4) 1 (0,3) 294 
Total 448 (79,0) 115 (20,3) 4 (0,7) 567 
D. Leve – desnutrição de Iº grau; D. Moderada – Desnutrição de IIº; N (%) 
 
 
 
9
. Ibid. 
10
 Antonio MARGM - Avaliação do estado nutricional e do perfil de crescimento de 568 crianças matriculadas nas 14 creches 
municipais de Paulínia – SP. Campinas, 1995. Tese (Mestrado em Pediatria), Faculdade de Ciências Médicas, UNICAMP 
 
24 
3. Apresentação gráfica 
 
a) Gráficos setoriais 
 
Os gráficos setoriais (pie chart, pizza) são indicados para apresentar a 
distribuições de frequências. A área do círculo atribuída a cada categoria é 
proporcional à sua frequência. A maneira mais prática para determiná-la, sabendo-
se que o total (100%) corresponde a um ângulo de 360º, é: 
Ângulo desejado = (% x 360)/100 
Por exemplo, para uma frequência de 45% devemos tomar um ângulo de 162º: 
Ângulo desejado = (45 x 360)/100 = 162º 
A seguir apresentamos um exemplo de gráfico setorial 
 
10,28%
32,71%
57,01%
negro
pardo
caucasiano
etnia
 
 
 
b) Gráficos de Barra 
 
Da mesma forma que o anterior, este tipo de gráfico é indicado para 
apresentar distribuições de frequências. Neste caso a frequência está relacionada à 
altura da barra, sendo que as barras devem ter a mesma largura. 
 
 
25 
A seguir apresentamos um gráfico de barras expressando a distribuição de 
frequências em relação à etnia. 
. 
etnia
negropardocaucasiano
(N
)
60
40
20
0
 
 
 
Na figura abaixo o gráfico de barras expressa a frequência em relação à 
etnia e sexo. 
 
 
etnia
negropardocaucasiano
(%
)
60,0%
40,0%
20,0%
0,0%
sexo feminino
sexo masculino
sexo
 
 
26 
Bibliografia 
Altman DG. Practical statistics for medical research. 1st edition. London: Chapman & 
Hall, 1991. 
Anderson DR, Sweeney DJ, Williams TA. Estatística aplicada à administração e 
economia. 2ª ed. São Paulo: Pioneira, 2002. 
Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 1ª ed. São Paulo: EPU, 1981. 
Bland M. An introduction to medical statistics. 2nd edition. New York: Oxford 
University Press, 1995. 
Bunchaft G. Estatística sem mistérios. 4ª ed. Petrópolis, RJ: Vozes, 1997. 
Bussab WO, Morettin PA. Estatística básica. 5ª ed. São Paulo: Saraiva, 2003. 
Callegari-Jacques SM. Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre: 
Artmed, 2003. 
Daniel WW. Biostatistics – A foundation for analysis in the health sciences. 6th. 
Edition. New York: John Wiley & Sons, Inc., 1995. 
Guimarães RC, Cabral JAS. Estatística. Lisboa: McGraw-Hill, 1997. 
Levin J. Estatística aplicada às Ciências Humanas. São Paulo: Harper & Row do 
Brasil, 1987. 
Martins GA. Estatística geral e aplicada. São Paulo: Atlas, 2001. 
Spiegel MR. Estatística. 3ª ed. São Paulo: Makron Books, 1993. 
Triola MF. Introdução à estatística. 7ª ed., Rio de Janeiro: LTC – Livros Técnicos e 
Científicos Editora Ltda, 1999. 
Tukey JW. Exploratory data analysis. London: Addison-Wesley Publishing Company, 
1977. 
Vieira S. Introdução à bioestatística. 3ª ed., Rio de Janeiro: Editora Campus, 1980. 
Zar J. Biostatistical analysis. 2nd edition. Englewood Cliffs: Prentice-Hall Inc., 1984. 
 
27 
Estatística Descritiva com o SPSS 
 
Para análise de variáveis quantitativas podemos usar três módulos do SPSS: o 
<Frequencies ...>, o <Descriptives ...> e o <Explore ...>. 
 
1. Usando o <Frequencies ...> 
 
Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Frequencies ...> 
 
 
Selecione as variáveis, levando-as para a janela <Variable(s)> 
Click em <Statistics> para selecionar as opções desejadas 
 
Click em <Charts> para selecionar as opções de gráficos 
 
 
28 
Abaixo apresentamos um output típico do módulo 
Statistics
anos Idade (anos)
107
0
9,681
,9282
8,0
11,9
9,000
9,417
10,500
Valid
Missing
N
Mean
Std. Deviation
Minimum
Maximum
25
50
75
Percentiles
 
 
 
2. Usando o <Descriptives ...> 
 
Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Descriptives ...> 
 
Selecione as variáveis, levando-as para a janela <Variable(s)> 
Click em <Options> para selecionar as opções desejadas 
 
 
 
A seguir apresentamos um output típico do módulo 
Descriptive Statistics
107 8,0 11,9 9,681 ,9282
107
anos Idade (anos)
Valid N (listwise)
N Minimum Maximum Mean Std. Deviation
 
 
29 
3. Usando o <Explore ...> 
 
Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Explore ...> 
 
Selecione as variáveis, levando-as para a janela <Dependent List> e <Factor List> 
Click em <Statistics> para selecionar as opções desejadas 
 
 
Click em <Plots> para selecionar as opções de gráficos 
 
 
Click em <Options> para selecionar as opções desejadas 
 
 
30 
A seguir apresentamos os outputs típicos do módulo 
Descriptives
9,707 ,1199
9,467
9,948
9,691
9,542
,748
,8649
8,1
11,8
3,8
1,5
,236 ,330
-,778 ,650
9,656 ,1337
9,388
9,924
9,624
9,333
,984
,9917
8,0
11,9
3,9
1,6
,472 ,322
-,705 ,634
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
sexo sexo
1 sexo masculino
2 sexo feminino
anos Idade (anos)
Statistic Std. Error
 
Percentiles
8,417 8,667 8,938 9,542 10,458 10,867 11,088
8,350 8,500 9,000 9,333 10,583 11,117 11,550
8,958 9,542 10,417
9,000 9,333 10,542
sexo sexo
1 sexo masculino
2 sexo feminino
1 sexo masculino
2 sexo feminino
anos Idade (anos)
anos Idade (anos)
Weighted
Average(Definition 1)
Tukey's Hinges
5 10 25 50 75 90 95
Percentiles
 
 
 
sexo
sexo femininosexo masculino
Id
ad
e 
(an
o
s)
12,0
11,0
10,0
9,0
8,0
 
 
31 
Para análise de variáveis qualitativas podemos usar os módulos do SPSS: 
<Frequencies ...> e o <Crosstabs ...>. 
 
1. Usando o <Frequencies ...> para obter lista de frequências simples 
 
Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Frequencies ...> 
 
Selecione as variáveis, levando-as para a janela <Variable(s)> 
Click em <Display frequency tables> para habilitar a apresentação das frequências 
Click em <Charts> para selecionar as opções de gráfico 
 
 
 
A seguir apresentamos os outputs típicos do módulo 
sexo
52 48,6 48,6 48,6
55 51,4 51,4 100,0
107 100,0 100,0
1 sexo masculino
2 sexo feminino
Total
Frequency Percent Valid Percent
Cumulative
Percent
 
 
sexo
sexo femininosexo masculino
Fr
eq
u
en
c
y
60
50
40
30
20
10
0
sexo
 
 
32 
2. Usando o <Crosstabs ...> para obter tabelas de contingência 
 
Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Crosstabs ...> 
Selecione as variáveis que comporão as linhas, levando-as para a janela <Row(s)> 
Selecione as variáveis que comporão as colunas, levando-as para a janela 
<Column(s)> 
Click em <Cells> para habilitar a apresentação das porcentagens 
 
 
 
A seguir apresentamos um output típico do módulo 
 
sexo * etnia
24 22 6 52
46,2% 42,3% 11,5% 100,0%
37 13 5 55
67,3% 23,6% 9,1% 100,0%
61 35 11 107
57,0% 32,7% 10,3% 100,0%
n
%
n
%
n
%
1 sexo masculino
2 sexo feminino
Total
1 caucasiano 2 pardo 4 negro
etnia
Total

Outros materiais

Outros materiais