Buscar

Apostila 02

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

1
DESCRIÇÃO, EXPLORAÇÃO E COMPARAÇÃO DE DADOS 
 
 
RESUMO DE DADOS EM UMA TABELA DE FREQÜÊNCIAS 
 
Ao estudarmos grandes conjuntos de dados, é conveniente organizá-los e 
resumi-los, construindo uma tabela de freqüências. 
 
A princípio, podemos construir uma tabela sem que seus elementos estejam 
numericamente organizados. Denotamos esta tabela por tabela primitiva. 
 
Se ordenarmos os elementos da tabela primitiva de forma crescente ou 
decrescente, a mesma passará a se chamar rol. 
 
Uma tabela de freqüências relaciona categorias (ou classes) de valores, 
juntamente com contagens (ou freqüências) do número de valores que se 
enquadram em cada categoria. 
 
Exemplos de tabelas de freqüência: 
 
 
 
 
 
 
 
 
 
 
 
 
 
Apresentaremos agora alguns termos-padrão no estudo de tabelas de 
freqüência: 
 
Classes de freqüência ou, simplesmente, classes são intervalos de variação 
da variável. O intervalo 151-158 da tabela I é um exemplo de classe. O 
intervalo 151 ├ 159 da tabela II também é um intervalo de classe. 
 
Limites de classe são os extremos de cada classe. O menor número é o 
limite inferior da classe (li) e o maior número, o limite superior da classe (Li). 
O valor 151 cm é o limite inferior da primeira classe da tabela I. O valor 158 cm 
é o limite superior da primeira classe da tabela I. 
 
Fronteiras de classe são os números usados para separar classes, mas sem 
as lacunas criadas pelos limites de classe. São obtidas como se segue: divide-
se por dois o tamanho da lacuna entre o limite superior de uma classe e o limite 
inferior da classe seguinte; soma-se o valor obtido a cada limite superior e 
Tabela I. Alturas de 100 alunos do sexo 
masculino da Universidade X. 
5 
18 
42 
27 
8 
151-158 
159-166 
167-174 
175-182 
183-190 
Número de 
estudantes
Altura (cm) 
5 
18 
42 
27 
8 
151 ├ 159 
159 ├ 167 
167 ├ 175 
175 ├ 183 
183 ├ 191
Número de 
estudantes 
Altura (cm) 
Tabela II. Alturas de 100 alunos do sexo 
masculino da Universidade X. 
 2
subtrai-se esse valor de cada limite inferior. As fronteiras de classe para a 
classe 151-158 são 150,5-158,5. 
 
Amplitude de um intervalo de classe ou, simplesmente, intervalo de classe, é 
a medida do intervalo que define a classe. Para uma tabela de freqüências 
com o formato da tabela I, a amplitude de classe é a diferença entre dois limites 
de classe inferiores consecutivos. Para uma tabela de freqüências com o 
formato da tabela II, a amplitude de classe é a diferença entre os limites 
superior e inferior de uma classe. Observa-se que a amplitude de classe nas 
tabelas I e II é 8 cm. 
 
Amplitude total da distribuição (AT) é a diferença entre o limite superior da 
última classe (limite superior máximo) e o limite inferior da primeira classe 
(limite inferior mínimo). É comum calcularmos este tipo de amplitude para 
distribuições de freqüências com a notação usada na tabela II. AT para a tabela 
II é 40 cm (191 cm –151 cm). 
 
Amplitude amostral (AA) é a diferença entre o valor máximo e o valor mínimo 
da amostra. É também chamada de Range. Essa amplitude corresponde à 
amplitude total de uma distribuição de freqüência em que se utiliza a notação 
da tabela I. AA para as tabelas I e II é 39 cm (190 cm –151 cm). 
 
Ponto médio de uma classe (ou marca de uma classe) (xi) é, como o 
próprio nome indica, o ponto que divide o intervalo de classe em duas partes 
iguais. 
 
Xi = li + Li 
 2 
 
Por exemplo, o ponto médio da classe 151-158 é 154,5 cm. 
 
O processo de construção de uma tabela de freqüências envolve os seguintes 
passos: 
 
1) Decidir o número de classes. Esse número deve ficar entre 5 e 20. 
2) Determinar a amplitude de classe, dividindo a amplitude amostral pelo 
número de classes. Arredonde o valor encontrado para mais. Caso o 
valor encontrado seja inteiro deve-se acrescentar 1 a este valor. Isso 
garante que todos os dados serão incluídos. 
3) Escolher como limite inferior da primeira classe o menor valor observado 
ou um valor ligeiramente inferior a ele. Esse valor será o ponto de 
partida. 
4) Some a amplitude de classe ao ponto de partida, obtendo o segundo 
limite inferior de classe. Adicione a amplitude de classe ao segundo 
limite inferior, obtendo o terceiro; e assim por diante. 
5) Relacione os limites inferiores de classe em uma coluna e introduza os 
limites superiores. 
6) Represente cada observação por um pequeno traço na classe 
apropriada e determine a freqüência total de cada classe. 
 
 3
Exemplo: Construir uma tabela de freqüências com os dados a seguir que 
representam as alturas, em polegadas, de 28 homens. 
Alturas (in): 70, 73, 70, 72, 71, 73, 71, 67, 68, 72, 67, 72, 71, 73, 72, 70, 72, 68, 
71, 71, 71, 73, 69, 73, 71, 66, 77, 67. 
 
Solução: Vamos, inicialmente, colocar os valores em ordem crescente para 
facilitar. 
Alturas (in): 66, 67, 67, 67, 68, 68, 69, 70, 70, 70, 71, 71, 71, 71, 71, 71, 71, 72, 
72, 72, 72, 72, 73, 73, 73, 73, 73, 77. 
 
Vamos escolher 5 como o número de classes. 
A amplitude total é 77-66=11. 
O intervalo de classe é 11/5=2,2=3. 
O valor mínimo é 66. Adotaremos 65 como primeiro limite inferior. O segundo 
limite inferior será 68 (65+3). Os demais limites inferiores são: 71, 74, 77. 
Construindo a tabela... 
 
 
 
 
 
 
 
 
 
 
 
 
Na construção de uma tabela de freqüências, devemos observar as seguintes 
diretrizes: 
1) As classes devem ser mutuamente excludentes. 
2) Todas as classes devem ser incluídas, mesmo as de freqüência nula. 
3) Procurar utilizar a mesma amplitude para todas as classes. 
4) Escolher números convenientes para limites de classes. 
5) Utilizar entre 5 a 20 classes. 
6) A soma das freqüências das diversas classes deve ser igual ao número 
de observações originais. 
 
Uma modalidade importante da tabela básica de freqüência utiliza freqüências 
relativas. 
 
Freqüência relativa (ogiva) de uma classe é a freqüência dessa classe 
dividida pela soma de todas as freqüências. Geralmente é expressa em 
porcentagem. A tabela de freqüências anterior pode ser rescrita na forma de 
tabela de freqüências relativas como a seguir: 
 
 
 
 
 
4 
6 
17 
0 
1 
65-67 
68-70 
71-73 
74-76 
77-79 
Número de 
homens
Altura (in) 
 4
 
 
 
 
 
 
 
 
 
 
 
 
 
Obtemos outra variante da tabela de freqüências quando desejamos as 
freqüências acumuladas. 
 
Freqüência acumulada é a freqüência total de todos os valores inferiores ao 
limite superior de um dado intervalo de classe até e inclusive aquele intervalo. 
Uma tabela apresentando esse tipo de freqüência pode ser vista abaixo. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
REPRESENTAÇÃO PICTÓRICA DOS DADOS 
 
Um recurso gráfico, comum e importante, para a apresentação de dados é o 
histograma. Este consiste em uma escala horizontal para os valores dos 
dados a serem representados, uma escala vertical para as freqüências e barras 
para representar os valores das freqüências das diversas classes. Cada barra 
é delimitada pela fronteira inferior de classe à esquerda e pela fronteira 
superior de classe à direita. Obtém-se, entretanto, melhor legibilidade tomando-
se os pontos médios das classes em lugar das fronteiras de classes. 
 
Um histograma de freqüências relativas tem a mesma forma e a mesma 
escala horizontal que um histograma, mas a escala vertical apresenta 
freqüências relativas em vez de freqüências absolutas. 
 
 
 
5% 
18% 
42% 
27% 
8% 
151-158 
159-166 
167-174 
175-182 
183-190 
Freqüência 
relativa 
Altura (cm) 
Tabela IV. Alturas de 100 alunos do sexo 
masculino da Universidade X. 
0 
5 
23 
65 
92 
100 
Abaixo de 151
Abaixo de 159
Abaixo de 167
Abaixo de 175
Abaixo de 183
Abaixo de 191
Freqüência 
acumulada 
Altura (cm)Tabela III. Alturas de 100 alunos do sexo 
masculino da Universidade X. 
 5
 
 
Outro recurso é o polígono de freqüência. Este constitui um gráfico de linha 
em que as freqüências são locadas sobre perpendiculares levantadas nos 
pontos médios. Pode-se também obtê-lo, ligando se os pontos médios dos 
topos dos retângulos de um histograma. 
 
Uma tabela de freqüências e o correspondente histograma nos dão 
informações valiosas sobre a natureza da distribuição de dados, mas há a 
desvantagem de perdermos alguns detalhes sobre os mesmos. Existe, no 
entanto, um tipo de gráfico, o gráfico de ramo-e-folhas, que permite ver a 
distribuição dos dados sem perdas de informações. Em um gráfico desse tipo, 
classificamos os dados segundo um padrão que revela a distribuição 
subjacente. O padrão consiste em separar um número (como 257) em duas 
partes – ramo e folhas. 
 
Exemplos: 
 
Ramo-e-folhas 
 
Ramo Folhas 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
014466889 
578 
03358 
0046 
1228 
01122466677899 
01222223333345556778888888889999 
00000000112222233333344445555666666777777778888888999 
00011112222223333334444555666677899999 
00011222334557 
 
 
 
 
 6
Ramo-e-folhas ampliado 
 
Ramo Folhas 
20 
20 
21 
21 
22 
22 
23 
23 
24 
24 
25 
25 
26 
26 
27 
27 
28 
28 
29 
29 
0144 
66889 
 
578 
033 
58 
004 
6 
122 
8 
011224 
66677899 
0122222333334 
5556778888888889999 
0000000011222223333334444 
5555666666777777778888888999 
00011112222223333334444 
555666677899999 
00011222334 
557 
 
 
Ramo-e-folhas reduzido 
 
78-79 
80-81 
82-83 
84-85 
86-87 
07*4 
*55 
9* 
* 
79*0 
 
Exemplo de leitura: A primeira linha deste gráfico representa os números 780, 
787 e 794. 
 
Quando temos dados qualitativos uma forma conveniente de indicar suas 
relações é a utilização de um diagrama de Pareto. Esse diagrama consiste em 
um gráfico de barras com as barras ordenadas de acordo com a freqüência. 
 
 7
 
 
Outra forma de ilustrar dados qualitativos é utilizar um gráfico em setores. 
 
 
 
Às vezes temos dados emparelhados de uma forma que associa cada valor de 
um conjunto a um determinado valor de um segundo conjunto. Um diagrama 
de dispersão é um gráfico de dados emparelhados (x,y), com um eixo x 
horizontal e um eixo y vertical. 
 
Outra forma de representação pictórica dos dados é através de gráficos de 
pontos. Estes consistem em gráficos em que cada observação é representada 
por um ponto ao longo as escala de valores. Quando um valor ocorre mais de 
uma vez, são marcados como pontos em colunas verticais acima do valor 
correspondente na escala. 
 
 8
Outras representações... 
 
Gráfico em barras 
 
 
 
Gráfico de colunas múltiplas 
 
 
 
 
Pictogramas 
 
 
 9
 
 
 
 
Gráfico de linhas 
 
 
 
MEDIDAS DE TENDENCIA CENTRAL 
 
Uma medida de tendência central é um valor no centro ou no meio de um 
conjunto de dados. Há diferentes formas de definir o centro. Dessa forma, há 
diferentes definições de medidas de tendência central. São elas: média, 
mediana, moda e ponto médio. 
 
A média (aritmética) é, de modo geral, a mais importante de todas as 
mensurações numéricas descritivas. Obtém-se a média aritmética somando 
todos os valores de um conjunto e dividindo-se o total pelo número de valores. 
n
x
x ∑= 
 10
 
Exemplo: Relacionam-se a seguir os tempos (em anos) que os 10 primeiros 
presidentes americanos sobreviveram à posse. Calcular a média desta 
amostra. 
10 29 26 28 15 23 17 25 0 20 
 
Solução: 3,19
10
193
10
2002517231528262910
n
x
x ==+++++++++== ∑ anos 
 
A média de uma tabela de freqüências pode ser calculada como se segue: 
∑
∑=
f
)x.f(
x , 
em que f é a freqüência, x é o ponto médio da classe e ∑x corresponde a n. 
 
Exemplo: Dada a tabela de freqüências a seguir com as alturas de 100 alunos 
de uma universidade x calcule a média das alturas. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Solução: 
7,171
82742185
5,186x85,178x275,170x425,162x185,154x5
f
)x.f(
x =++++
++++== ∑
∑ cm 
 
 
Em certas situações, os valores têm graus de importância diferentes, o que nos 
leva a calcular uma média ponderada. A média ponderada é calculada da 
seguinte forma: 
∑
∑=
w
)x.w(
x , 
em que w é o peso de cada valor. 
 
 
Exemplo: Calcule a média de 5 notas de teste (85, 90, 75, 80, 95). Com os 
quatro primeiros testes valendo 15% cada um, e o último valendo 40%. 
 
Tabela V. Alturas de 100 alunos do sexo 
masculino da Universidade X. 
5 
18 
42 
27 
8 
151-158 
159-166 
167-174 
175-182 
183-190 
Número de 
estudantes
Altura (cm) 
 11
Solução: 5,87
4015151515
95x4080x1575x1590x1585x15
w
)x.w(
x =++++
++++== ∑
∑ 
 
 
A mediana x~ de um conjunto de valores é o valor do meio desse conjunto, 
quando os valores estão dispostos em ordem crescente ou decrescente. Se o 
número de valores é ímpar, a mediana é o número localizado no meio da lista. 
Se o número de valores é par, a mediana é a média dos dois valores do meio. 
 
Exemplo: Calcule a mediana dos conjuntos de dados a seguir: 
a) 10 29 26 28 15 
b) 500 600 800 50.000 1000 500 
 
Solução: 
a) Ordenando os dados temos: 
 10 15 26 28 29 
 Como o número de valores é ímpar (5) a mediana é o valor do meio, ou 
seja, a mediana é 26. 
 
b) Ordenando os dados temos: 
 500 500 600 800 1000 50.000 
 Como o número de valores é par (6) a mediana é a média dos valores do 
meio (3º e 4º valores). Ou seja, a mediana é (600+800)/2=700. 
 
 
A moda (M) de um conjunto de valores é o valor que ocorre com maior 
freqüência. Quando dois valores ocorrem com a mesma freqüência máxima, 
cada um deles é uma moda, e o conjunto se diz bimodal. Se mais de dois 
valores ocorrem com a mesma freqüência máxima, cada um deles é uma 
moda, e o conjunto é multimodal. Quando nenhum valor é repetido, o conjunto 
não tem moda. 
 
Exemplo: Determine a moda dos seguintes conjuntos de dados. 
a) 5 5 5 3 1 5 1 4 3 5 
b) 1 2 2 2 3 4 5 6 6 6 7 9 
c) 1 2 3 6 7 8 9 10 
 
Solução: 
a) A moda é 5. 
b) Existem duas modas: 2 e 6. 
c) Não há moda. 
 
O ponto médio é o valor que está a meio caminho entre o maior e o menor 
valor. 
2
valormenorvalormaiormédioponto += 
Exemplo: Determine o ponto médio do conjunto de dados abaixo: 
 10 29 26 28 15 23 17 25 0 20 
 
 12
Solução: O valor máximo é 29 e o valor mínimo é 0, logo o ponto médio é 
5,14
2
029
2
valormenorvalormaiormédioponto =+=+= 
 
 
É difícil determinar qual destas medidas de tendência central é a melhor. Cada 
uma apresenta vantagens e desvantagens. A tabela abaixo resume algumas 
vantagens e desvantagens destas medidas. 
 
Medida Vantagens Desvantagens 
Média Existe sempre. Leva em conta 
todos os valores. Funciona bem 
com muitos métodos estatísticos. 
É afetada por valores 
extremos. 
Mediana Não é afetada por valores 
extremos. Existe sempre. 
Não leva em conta todos os 
valores. 
Moda É apropriada para o nível nominal 
de mensuração. Não é afetada por 
valores extremos. 
Pode não existir. Pode 
haver mais de uma moda. 
Não leva em conta todos os 
valores. 
Ponto médio Existe sempre Muito sensível a valores 
extremos. Não leva em 
conta todos os valores. 
 
Uma distribuição de dados é simétrica quando a metade da esquerda do seu 
histograma é aproximadamente a imagem-espelho da metade da direita. 
Quando uma distribuição tende mais para um lado do que para o outro ele é 
assimétrica. Os dados assimétricos para a esquerda dizem-se negativamente 
assimétricos; a média e a mediana estão à esquerda da moda. Os dados 
assimétricos para a direita dizem-se positivamente assimétricos; a médiae a 
mediana estão à direita da moda. 
 
 
 
 
MEDIDAS DE VARIAÇÃO 
 
Vamos considerar os dados situados na tabela abaixo. Eles representam os 
tempos de espera (em minutos) de clientes em dois bancos. 
 
 13
Banco A 
(Fila única) 
6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 
Banco B 
(Fila múltipla) 
4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 
 
Os clientes do banco A entram em uma fila única que é atendida por três 
caixas. Os clientes do banco B podem entrar em qualquer uma das três filas 
que conduzem a três guichês. A média de tempo de espera para ambos os 
bancos é a mesma (7,2 min), a moda também é a mesma (7,7 min) e o ponto 
médio também é o mesmo (7,1 min). Com base nessas medidas de tendência 
central, podemos admitir que os tempos de espera nos dois bancos fossem 
aproximadamente os mesmos. No entanto o banco A possui tempos de espera 
com muito menos variação que o banco B. Dessa forma, o clientes irão preferir 
o banco A onde não correrão o risco de entrar em uma fila muito mais lenta do 
que as outras. 
 
Vamos agora, conhecer algumas medidas de variação. 
 
A amplitude de um conjunto de dados é a diferença entre o maior valor e o 
menor valor. Para o exemplo citado acima, a amplitude dos tempos de espera 
no banco A é 1,2 min (7,7-6,5) e no banco B é 5,8 min (10,0-4,2). 
 
O desvio-padrão (s) de um conjunto de valores amostrais é uma medida de 
variação dos valores em relação à média. É calculado como se segue: 
1n
)xx(
s
2
−
−= ∑ 
 
Para o cálculo do desvio-padrão de uma população (σ) usa-se a definição: 
 
N
)x( 2∑ µ−=σ , 
 
em que µ é a média dos valores da população. 
 
Exemplo: Determine o desvio-padrão dos tempos de espera em guichês dos 
clientes do banco A. Esses tempos são dados a seguir: 
6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 
 
Solução: Muitas vezes, fica mais fácil calcular o desvio-padrão organizando os 
dados em uma tabela. 
 
 
 
 
 
 
 
 
 14
x xx − 2)xx( − 
6,5 
6,6 
6,7 
6,8 
7,1 
7,3 
7,4 
7,7 
7,7 
7,7 
-0,65 
-0,55 
-0,45 
-0,35 
-0,05 
0,15 
0,25 
0,55 
0,55 
0,55 
0,4225 
0,3025 
0,2025 
0,1225 
0,0025 
0,0225 
0,0625 
0,3025 
0,3025 
0,3025 
Totais: 71,5 2,0450 
 
 
 
min15,7
10
5,71x == 
 
min48,0
110
0450,2s =−= 
 
 
A variância é o quadrado do desvio-padrão. Dessa forma, temos: 
amostraliânciavar
1n
)xx(
s
2
2
−
−= ∑ 
lpopulacinaiânciavar
N
)x( 22 ∑ µ−=σ 
 
Exemplo: A variância para os dados do exemplo anterior é 0,23 min2 (0,482). 
 
 
Outra definição através da qual o desvio-padrão pode ser calculado é a 
seguinte: 
)1n(n
)x()x(n
s
22
−
−= ∑ ∑ 
 
Quando os dados estão dispostos em uma tabela de freqüência o desvio-
padrão é calculado como se segue: [ ] ( )[ ]
)1n(n
x.f)x.f(n
sou
1n
)xx.(f
s
222
−
−=−
−= ∑∑∑ 
 
Exemplo: Os dados da tabela a seguir representam as alturas de 100 alunos 
de uma universidade. Calcule o desvio-padrão dessas alturas. 
 
 
 15
 
 
 
 
 
 
 
 
 
 
 
 
Solução: Organizando os dados e os alguns cálculos em uma tabela temos: 
 
Altura/cm Freqüência (f) Ponto médio da classe (x) f.x f.x2 
151-158 
159-166 
167-174 
175-182 
183-190 
5 
18 
42 
27 
8 
154,5 
162,5 
170,5 
178,5 
186,5 
772,5 
2925 
7161 
4.819,5 
1492 
119.351,25
475.312,5 
1.220.950,5
860.280,75
278.258 
Total 100 17.170 2.954.153 
 [ ] ( )[ ]
cm3,61
)1100(100
)17170()153.954.2(100
)1n(n
x.f)x.f(n
s
222
=−
−=−
−= ∑∑ 
 
 
 
Regra prática 
 
Para conjuntos de dados típicos, a amplitude mede aproximadamente 4 
desvios-padrão, de forma que podemos aproximar como segue o desvio 
padrão: 
 
4
amplitudepadrãodesvio ≈ 
 
Desde que conheçamos o desvio padrão, podemos estimar os valores máximo 
e mínimo: 
 
)padrãodesvio(2)média(máximo
)padrãodesvio(2)média(mínimo
×+≈
×−≈
 
 
 
Regra empírica (ou regra 68-95-99) de dados 
 
Outra regra que auxilia a interpretação do valor de um desvio-padrão é a regra 
empírica, aplicável somente a conjuntos de dados com distribuição 
aproximadamente em forma de sino. Para uma distribuição em forma de sino: 
Tabela VI. Alturas de 100 alunos do 
sexo masculino da Universidade X. 
5 
18 
42 
27 
8 
151-158 
159-166 
167-174 
175-182 
183-190 
Número de 
estudantes
Altura (cm) 
 16
- Cerca de 68% dos valores estão a menos de 1 desvio-padrão a contar 
da média. 
- Cerca de 95% dos valores estão a menos de 2 desvios-padrão a contar 
da média. 
- Cerca de 99% dos valores estão a menos de 3 desvios-padrão a contar 
da média. 
 
 
 
 
 
Teorema de Thebichev 
 
A proporção (ou fração) de qualquer conjunto de dados a menos K desvios 
padrão a contar da média é sempre ao menos 1-1/K2, onde K é um número 
positivo maior do que 1. 
 
Exemplo: Ao menos ¾ (ou 75%) de todos os valores estão no intervalo que vai 
de 2 desvios-padrão abaixo da média a 2 desvios-padrão acima da média. 
 
 
 
MEDIDAS DE POSIÇÃO 
 
Todos nós estamos familiarizados com os QIs, e reconhecemos que um QI de 
102 é bastante comum, enquanto que um QI de 170 é raro. O QI de 102 é 
comum porque está próximo da média (100), mas o QI de 170 é raro porque 
esta distante da média. Isso pode sugerir uma diferença entre os valores 
típicos e os valores raros com base em sua diferença em relação à média. Mas 
o tamanho dessa diferença depende da escala que está sendo utilizada. Por 
exemplo, com relação a QIs, a diferença de 2 pontos é insignificante, mas em 
relação a notas de alunos essa diferença é altamente significativa.Seria melhor 
se dispuséssemos de um padrão que não levasse em conta a escala utilizada. 
Obtemos esse resultado com o escore padronizado. 
 
 17
O escore padronizado ou escore (z) é o numero de desvios-padrão pelo qual 
um valor x dista da média (para mais ou para menos). Obtém-se como segue: 
amostraumapara
s
xxz −= 
populaçãoumaparaxz σ
µ−= 
 
Os escores z permitem distinguir entre valores usuais e valores raros. 
Consideramos usuais os valores cujos escores padronizados estão entre –2,00 
e 2,00. 
 
Exemplo: As alturas da população de homens têm média igual a 69,0 in., 
desvio-padrão igual a 2,8 in. e distribuição em forma de sino. A altura do 
jogador de basquete Michael Jordan é 78 in. Ele pode ser considerado 
excepcionalmente alto, comparado com a população geral de homens adultos? 
 
Solução: Para ser considerado excepcionalmente alto, o jogador deve ter um 
escore z maior do que 2. 
 
21,3
8,2
0,690,78xz =−=σ
µ−= 
 
O jogador é excepcionalmente alto. 
 
 
Existem outras medidas de posição úteis na comparação de valores de um 
mesmo conjunto de dados ou entre valores de conjuntos de dados diferentes. 
Essas medidas são os quartis, os decis e os percentis. 
 
Denominamos quartis os valores de uma série que a dividem em quatro partes 
iguais. O primeiro quartil (Q1) separa os 25% inferiores dos 75% superiores 
dos valores ordenados. O segundo quartil (Q2) é a mediana. O terceiro 
quartil (Q4) separa os 75% inferiores dos 25% superiores dos dados. 
 
Analogamente, há nove decis (D1, D2, D3...D9) que dividem os dados em 10 
grupos com cerca de 10% deles em cada grupo. 
 
Há, também, 99 percentis (P1, P2, P3...P99) que dividem os dados em 100 
grupos com cerca de 1% deles em cada grupo. 
 
A fim de se calcular o percentil correspondente a um valor x utiliza-se a 
definição a seguir: 
 
100.
valoresdetotalnúmero
xaerioresinfvaloresdenúmeroxvalordopercentil = 
 
 
Sendo n o número total de valores e k um determinado percentil, é possível 
determinar a posição (L) desse percentil através da definição 
 18
n
100
kL ⎟⎠
⎞⎜⎝
⎛= 
 
Quando L não é um valor inteiro devemos arredondar seu valor para o inteiromais próximo a fim de encontrar a posição do percentil considerado. O valor do 
percentil será o valor que ocupar a posição L. Se L for um número inteiro, então 
o percentil desejado estará a meio caminho entre o Lmo valor e o próximo valor 
mais alto no conjunto de dados. 
 
Exemplo: A tabela a seguir relaciona as 175 cargas axiais (em libras) de latas 
de alumínio, colocadas em ordem crescente. Determine: 
a) O percentil correspondente a 241. 
b) O escore correspondente ao 25º percentil (P25). 
c) O escore correspondente ao 40º percentil (P40). 
 
 
200 
225 
254 
262 
268 
270 
273 
277 
279 
282 
286 
291 
201 
228 
256 
263 
268 
270 
273 
277 
279 
283 
286 
292 
204 
230 
256 
263 
268 
270 
274 
277 
279 
283 
286 
292 
204 
230 
256 
263 
268 
270 
274 
277 
280 
283 
287 
292 
206 
234 
257 
263 
268 
271 
274 
277 
280 
283 
287 
293 
206
236
257
263
268
271
274
277
280
283
288
293
208
241
258
264
268
272
275
277
281
283
289
294
208
242
259
265
269
272
275
277
281
284
289
295
209
242
259
265
269
272
275
278
281
284
289
295
215
248
260
265
269
272
275
278
281
284
289
297
217
250
261
266
269
272
276
278
282
284
289
 
218 
251 
262 
267 
270 
273 
276 
278 
282 
285 
290 
 
220 
251 
262 
267 
270 
273 
276 
278 
282 
285 
290 
 
223 
252 
262 
268 
270 
273 
276 
278 
282 
285 
290 
 
223
252
262
268
270
273
276
278
282
286
291
 
 
Solução: 
a) Pela tabela acima é possível perceber que há 21 valores inferiores a 241, 
logo 
12100
175
21241depercentil
100.
valoresdetotalnúmero
xaerioresinfvaloresdenúmeroxvalordopercentil
=×=
=
 
 
A carga axial de 241 é o 12º percentil. 
 
b) 4475,43175
100
25n
100
kL ==×=⎟⎠
⎞⎜⎝
⎛= 
 
Como o valor de L não é um número inteiro, iremos arredondá-lo (para 44). O 
25º percentil é o 44º valor (ou escore) a contar do menor. Assim, P25 é igual a 
262. 
 
 19
c) )exatamente(70175
100
40n
100
kL =×=⎟⎠
⎞⎜⎝
⎛= 
 
Como o valor de L é um número inteiro, o 40º percentil está a meio caminho 
entre os 70º e 71º valores. Esses ambos valores são 269, logo P40 é igual a 
269 (269+269/2). 
 
 
Temos definições análogas para quastis e decis. 
 
 
ANÁLISE EXPLORATÓRIA DE DADOS (EDA) 
 
Muitas vezes podemos tirar conclusões errôneas de histogramas. Isso ocorre 
devido à presença de valores extremos. Nesses casos é necessária uma 
exploração mais profunda dos dados. O gráfico de ramo-e-folhas já estudado é 
um dos instrumentos muito usados na EDA. Outro instrumento é o diagrama 
em caixa (boxplots). 
 
Os diagramas em caixa são convenientes para revelar tendências centrais, 
dispersão, distribuição dos dados e a presença de outliers (valores extremos). 
Um diagrama em caixa (boxplot) é um gráfico de dados que consiste em uma 
reta que se prolonga do menor ao maior valor, e um retângulo com retas 
traçadas no primeiro quartil Q1, na mediana e no terceiro quartil Q3. O diagrama 
em caixa tem a vantagem de não ser tão sensível a valores extremos como 
outras mediadas baseadas na média e no desvio-padrão. No entanto, não dá 
informações tão detalhadas como os histogramas e gráficos de ramo-e-folhas. 
 
Observação: Algumas vezes estão presentes, nos conjuntos de dados, valores 
extremos (outliers) que se diferenciam muito dos demais valores. Alguns 
desses valores constituem erros e devem ser eliminados (por exemplo a 
medida da pulsação de um aluno ser 8 ou 15). Outros valores, no entanto, 
representam anomalias interessantes que merecem um estudo detalhado.

Outros materiais