Buscar

Apostila 1

Prévia do material em texto

ESTATÍSTICA 
PARTE I 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Material disponibilizado pela Professora Denise Pimenta Nacle. 
 
 2 
1 - Introdução 
 
 A palavra ESTATÍSTICA lembra à maioria das pessoas Recenseamentos. Do ponto de vista histórico, 
esta associação está perfeitamente correta. Os censos existem há milhares de anos, e se constituem em um 
esforço imenso e caro feito pelos estados com o objetivo de conhecerem seus habitantes : suas condições 
sócio-econômicas, sua cultura, sua religião, etc.. Na realidade, as palavras estatística e estado têm a mesma 
origem latina : STATUS. 
 
 Os recenseamentos são realizados de 10 em 10 anos, nos anos terminados em zero. São feitos em 
época onde a população encontra-se mais estável. No Brasil, os recenseamentos de 1970 e 1980 foram 
realizados em 1
o
 de setembro. A finalidade do recenseamento é político-administrativa e científica, pois serve 
de ponto básico para ações dos governos na elaboração dos planos de desenvolvimento social e econômico do 
país. 
 
 Por várias décadas, a estatística permaneceu associada à simples apresentação de tabelas e gráficos. 
Hoje, a estatística compreende conceitos e métodos de grande importância em todas as pesquisas que 
envolvam coleta de dados, e conclusões através da análise de dados. Assim, a estatística encontra-se 
incorporada a praticamente todas as áreas do conhecimento humano : Econometria, Estatística da Produção 
Agrícola, Demografia, Psicometria, Bioestatística, etc. Isto porque os pesquisadores estão sempre à procura 
de respostas às suas perguntas : 
 
 A proporção de peças defeituosas na linha de produção tem se mantido constante, ou seja, varia em torno 
de 2% ? 
 A renda média de uma família de 4 pessoas aumentou de um ano para outro ? em quantos % ? 
 O índice de reprovação diminuiu com o uso do novo método de ensino ? 
 Qual o consumo médio mensal de determinado item em estoque, assumindo um grau de atendimento de 
95%? 
 Qual o valor estimado do inventário da firma X ? 
 
 A estatística consiste num corpo de conceitos e métodos usados para coletar e interpretar dados 
acerca de uma área específica de investigação e tirar conclusões em situações onde estão presentes a incerteza 
e a variação. 
 
2- O Papel da Estatística na Pesquisa Científica 
 
De acordo com o que foi colocado anteriormente, pode-se notar que a estatística penetra no domínio de toda 
investigação científica. Assim, as fases do método estatístico são basicamente as seguintes : 
 
 Especificação de Objetivos 
 
 Coleta de Informações 
 
Análise de Dados 
 
 Conclusões 
 
 
 3 
2.1- Especificação dos Objetivos (Definição do Problema) 
 
 Antes de ser iniciado o levantamento ou coleta de dados, faz-se imprescindível o equacionamento de 
todos os possíveis fatores que intervirão no trabalho, não só para torná-lo exeqüível, mas para se conseguir o 
objetivo no menor tempo possível, menor custo e com menos recursos. 
 
 Os objetivos da pesquisa devem ser especificados de forma clara e precisa, incluindo as hipóteses de 
interesse a serem investigadas. 
 
 Deve-se verificar a existência de estudos semelhantes, pois pode ser que parte da informação 
necessária seja encontrada nestes últimos. 
 
2.2- Coleta de Informações 
 
 Após a especificação dos objetivos, compreende a fase do planejamento, que consiste em determinar o 
procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto 
objeto do estudo. 
 
 A estatística indica ao pesquisador o caminho e os meios mais adequados para se obter dados 
informativos, de modo que as conclusões possam ser tiradas com o grau desejado de precisão. A parte da 
estatística que cuida da coleta de dados é denominada Planejamento de Experimentos e Amostragem. 
 
 É nesta fase que será escolhido o tipo de levantamento a ser utilizado : 
 Levantamento Censitário : quando a contagem for completa, abrangendo todo o universo. 
 Levantamento por Amostragem : quando a contagem for parcial. 
 
Surgem, assim, dois conceitos importantes : População e Amostra 
 
 
 
 
 
 Amostra 
 
 
 População  
 
População : Consiste no estudo de todas as observações possíveis de um fenômeno. As populações podem 
ser finitas (limitadas em tamanho : livros de uma biblioteca, alunos de uma sala de aula) ou infinitas 
(consistem tipicamente em um processo que gera ítens : extrações, com reposição, de bolas de uma urna). 
 
Amostra : Consiste no estudo selecionado de parte deste conjunto total de observações possíveis. Uma 
amostra consiste de mensurações representadas simbolicamente por X1, X2, ... , Xn , onde n é o tamanho da 
amostra. Cada mensuração é chamada de Unidade Experimental ou Amostral. Trabalhar com apenas uma 
parte da população gera certa variabilidade nos resultados. 
 
 4 
Toda amostra deve ser REPRESENTATIVA no sentido de refletir as características da população. Por 
exemplo, se um experimento deseja avaliar o desempenho de uma turma na última avaliação e usa-se como 
representante da turma os 10 melhores alunos, certamente estaríamos superestimando o valor da nota média 
da turma. Esta amostra não seria fidedigna. 
 
 O instrumento de coleta de dados utilizado recebe o nome de Formulário Estatístico ou 
Questionário. As informações obtidas dos questionários dão origem ao chamado Banco de Dados. Um banco 
de dados nada mais é do que a disposição das informações sobre cada unidade experimental do estudo, 
dispostas através de códigos ou de números. Um banco de dados é formado por características numéricas ou 
não, que chamaremos de Variável. As variáveis podem ser : 
 
 Quantitativas 
 
 
 Discretas Contínuas 
 
 
 Qualitativas 
 
 
 Ordinais Nominais 
 
Variáveis Quantitativas : As informações são obtidas sob forma de dados que medem numericamente 
determinadas características. Elas podem ser : 
 
 Discretas (ou descontínuas) : O resultado é, em geral, uma contagem. Assumem valores inteiros. 
 Exemplos : número de filhos num lar, número de peças defeituosas numa linha de produção, número 
 de ítens em estoque de determinado material aeronáutico, número de acidentes numa fábrica. 
 
 Contínuas : Tais variáveis podem assumir qualquer valor real num intervalo contínuo. 
 Exemplos : altura, peso, comprimento, espessura, pressão sanguínea, temperatura. 
 
Variáveis Qualitativas : São variáveis obtidas por classificação, podendo ser do tipo Nominal ou Ordinal. 
 
 Ordinais : Existe uma ordem nas categorias ou classes. 
 Exemplos : Classe Social : Baixa, Média, Alta. 
 Conceito na Disciplina : A, B,C, D ou E. 
 Classificação de um item no estoque : 
 A (investimento de 75% do estoque aplicado em 10% do total de artigos) 
 B (investimento de 20% do estoque aplicado em 25% do total de artigos) 
 C (investimento de 5% do valor total do estoque aplicado em cerca de 65% do número de artigos do estoque) 
 
 Nominais : Não existe uma ordem nas categorias. 
 
 Exemplos : Sexo : F (feminino) M (masculino) 
 Estado Civil : Solteiro Casado Outros 
 
 O tratamento estatístico a ser adotado vai depender do tipo de variável que será analisada e do 
objetivo do estudo. 
 5 
2.3- Análise de Dados 
 
 Após a coleta, mediante um processo adequado de experimentação, é necessário examinar o conjunto 
de dados e deles extrair informações relativas às questões levantadas na especificação dos objetivos. Algumas 
técnicas estatísticas ou mesmo procedimentos de análisesão comuns a qualquer área de estudo. Por exemplo, 
é usual organizar os dados em quadros, ilustrar os resultados usando tabelas e gráficos e sintetizá-los através 
de medidas. Tais técnicas são conhecidas como Estatísticas Descritivas. Um outro conjunto de métodos que 
tem por objetivo fazer generalizações sobre um fenômeno em estudo, com base nos dados amostrais, em 
situações onde existe incerteza e variação, é chamado Inferência Estatística ( ou Estatística Indutiva). Assim, 
a Estatística Inferencial busca obter resultados sobre as populações a partir das amostras, dizendo também 
qual a precisão desses resultados e com que probabilidade se pode confiar nas conclusões obtidas. 
 
2.4- Conclusões (Exposição de Resultados) 
 
 Nesta fase, os resultados obtidos fornecidos pelos dados são avaliados em relação ao contexto do que 
se conhecia no estágio inicial da investigação, na especificação dos objetivos. 
 
3- Grandes Áreas da Estatística 
 
De acordo com o que foi colocado anteriormente, a estatística pode ser vista da seguinte forma : 
 
Planejamento de Experimentos 
e Amostragem 
 
 
 
 
 
 Estatística Descritiva Cálculo de Probabilidades 
 
 
 
 
 
 
Inferência Estatística 
 
 
 O Cálculo de Probabilidades procura quantificar a incerteza presente em determinada situação, ora 
usando um número, ora usando uma função matemática. 
 
 
 
 
 
 
 
 
 
 6 
4- Técnicas de Amostragem 
 
 A amostragem está associada às maneiras usadas para selecionar a amostra de maneira a garantir a 
representatividade. Pode-se notar que em muitas situações rotineiras a amostragem está presente : o 
cozinheiro experimenta a sopa para ver se é preciso acrescentar ou não mais sal; ao passar os olhos sobre um 
programa de televisão por alguns instantes o telespectador pode decidir se muda ou não de canal; ao provar 
uma fatia de um bolo pode-se concluir se é saboroso ou não. 
 
 Serão estudadas as seguintes técnicas de amostragem : 
 
1. Amostragem Aleatória Simples 
2. Amostragem Estratificada 
3. Amostragem Sistemática 
 
 A escolhe de uma ou outra técnica vai depender da natureza da população que está sendo avaliada. 
 
4.1 - Amostragem Aleatória Simples 
 
 Na amostragem aleatória simples (AAS) todas as unidades experimentais têm a mesma chance de 
serem selecionadas. No caso de populações finitas, o procedimento para obtenção da amostra é : 
 
 Obter uma lista de todos os elementos da população e numerá-los de 1 a N (tamanho da população). 
 Aplicar à listagem um método aleatório para selecionar os ítens que irão compor a amostra. Para realizar o 
sorteio até completar o tamanho da amostra n, deve-se usar uma Tabela de Números Aleatórios (TNA), 
que consiste de sequências dos dígitos de 0 a 9 distribuidos de forma aleatória. 
 Escolher arbitrariamente por onde começar na TNA, informando a linha e a(s) coluna(s). 
 A partir do local selecionado, anote os números obtidos, no sentido vertical. 
 Buscar números com o número de dígitos igual a N. Anotar os números  a N, sem repetí-los. 
 Pare quando conseguir obter o número de elementos n necessários à amostra. 
 Use os números escolhidos na TNA para identificar os ítens da lista numerada. 
 
 Esta técnica é recomendada quando a população apresenta-se homogênea, ou seja, as medidas não 
variam muito. 
 
Exemplo : Uma cidade turística tem 32 hotéis 3 estrelas. Pretende-se conhecer o custo médio de diária para 
apartamento de casal. Os valores populacionais consistem nos seguintes preços diários (em reais). 
 
Hotel 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
Preço 25 20 35 21 22 22 24 25 30 38 24 20 20 25 20 19 25 23 20 24 28 24 24 22 28 26 
 
Hotel 27 28 29 30 31 32 
Preço 23 25 22 27 25 23 
 
Utilizando a TNA, extraia uma AAS de tamanho 10 dessa população, sem repetir. 
Note que a população já se encontra numerada. Pegar números  32. 
Obtenção dos números na TNA : começar, por exemplo, na linha 08 colunas de 1 a 2, e o sentido vertical (L8 
C1-2 ). 
Os números serão : 2 14 30 19 9 10 12 22 29 11 (sem repetir). 
 7 
Associar estes números com os da população numerada e pegar o preço correspondente. A amostra será : 
20 25 27 20 30 38 20 24 22 24  Custo médio de diária = (soma dos preços / 10) = 25 
O custo médio de diária é 25 reais. 
 Apenas para efeito de comparação : o custo médio de diária dos 32 hotéis foi de 24,34 reais. Isto mostra que 
a amostra forneceu um valor muito próximo ao da população. 
 
4.2 - Amostragem Estratificada 
 
 A Amostragem Estratificada pressupõe a divisão da população em subgrupos (estratos) homogêneos. 
Se dentro de cada estrato o número de unidades experimentais é o mesmo, denomina-se Amostragem 
Estratificada de Igual Tamanho. Caso contrário, é chamada de Amostragem Estratificada Proporcional, pois 
a proporção que cada estrato representa em relação à população é usada para determinar o número de 
elementos da amostra para cada estrato. Pode-se, por exemplo, ter interesse de estratificar uma população 
segundo o sexo, faixa etária, classe social, etc. 
 
Exemplo : Os dados abaixo referem-se aos pesos (gramas) de 18 peças de um almoxarifado. 
 
Peça 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 
Peso 50 55 58 61 63 66 66 68 69 71 72 72 74 75 75 76 76 76 
Tipo A A A B B B B B B C C C C C C C C C 
 
Obtenha uma amostra estratificada proporcional, sem reposição, de tamanho 6. 
 
Note que os pesos das peças do almoxarifado estão aumentando à medida que passamos do Tipo A para o 
Tipo B, e do Tipo B para o C. Isto significa que é razoável considerar cada tipo como sendo um estrato. 
Assim, a amostra será representada da seguinte forma : 
 
Estrato População % Amostra 
A 3 16,7 1 
B 6 33,3 2 
C 9 50,0 3 
Total 18 100,0 6 
 
Cálculo de % : 18 ---- 100% 18 ---- 100% 18 ---- 100% 
 3 ---- x % 6 ---- x % 9 ---- x % 
 x = 16,7 % x = 33,3% x = 50% 
 
Cálculo do número de elementos da amostra, dentro de cada estrato : 
 
 6 ---- 100% 6 ---- 100% 6 ---- 100% 
 x ---- 16,7% x ---- 33,3% x ---- 50% 
 x = 1 x = 2 x = 3 
Amostra : 
 -Pegar números na TNA  18 sendo : 01 elemento para o Tipo A, 02 para o B e 03 para o C. 
 -Especificar a linha e a(s) coluna(s) por onde começou e seguir o sentido vertical. 
 -Use os números obtidos na TNA para identificar os ítens da lista numerada. 
Assim, teremos : 
 -começar, por exemplo, na TNA da linha12 colunas 4-5 (L12C4-5) : 7 12 10 6 17 2 
 8 
Estrato TNA Amostra 
A 2 55 
B 7 6 66 66 
C 12 10 17 72 71 76 
 
4.3 - Amostragem Sistemática 
 
 Usa-se um sistema de seleção para obtenção da amostra, que pode ser descrito da seguinte forma : 
 
 Obter uma lista de todos os elementos da população, ordená-los e numerá-los de 1 a N (tamanho da 
população). 
 Calcular a fração K = N / n . Usar o inteiro mais próximo. 
 A população estará dividida em grupos de K elementos. 
 Obter um número  K, usando a TNA. Este número indicará qual elemento do primeiro grupo fará parte 
da amostra. Os elementos seguintes serão obtidos somando-se K ao número anterior.Exemplo : Os dados seguintes referem-se aos diâmetros (mm) de 30 eixos produzidos por uma indústria 
automobilística (dados hipotéticos). 
 
Eixo 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 
Diâmetro 13 14 15 16 16 16 16 17 17 18 18 19 19 20 20 21 22 24 26 26 26 26 26 27 28 
 
Eixo 26 27 28 29 30 
Diâmetro 29 30 31 31 32 
 
Extrair, sem reposição, uma amostra sistemática de tamanho n = 5. 
 
 Note que a população já está ordenada e numerada de 1 a 30. 
 K = 30 / 5 = 6 população dividida em grupos de 6 elementos. 
 Obter na TNA um número  6. Escolhi L5 C1 e o número é 3. 
 O diâmetro do eixo de número 3 será o primeiro elemento da amostra. Os restantes serão obtidos 
somando-se K ao valor 3, resultando em : 3 9 15 21 27 
 Amostra : 15 17 20 26 30 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 9 
5- Estatística Descritiva 
 
 Consiste num conjunto de métodos voltados à organização, apresentação e síntese de dados. 
 
 Aspectos importantes na descrição de um conjunto de dados : 
 
 Sintetização de dados mediante a apresentação de tabelas e gráficos 
 
 A construção de uma tabela de distribuição de frequências é muito útil quando dispomos de muitas 
observações. Tal tabela, quando construida para variáveis quantitativas, consiste no agrupamento de 
observações próximas, gerando intervalos. Através desta tabela pode-se construir os seguintes gráficos : 
histograma, polígono de frequências e ogiva. 
A apresentação visual dos dados em forma de gráficos possibilita fazer um exame geral dos dados 
grafados para detectar características importantes como : simetria, assimetria ou observações fora do comum 
(atípicas), isto é, observações que pareçam afastar-se da massa global de dados, denominadas “OUTLIERS”. 
 
 Cálculo de um valor representativo ou típico que indique o centro dos dados 
 
 Qualquer medida que indique o centro de um conjunto de dados é chamada de Medida de Tendência 
Central. 
 
 Cálculo de medidas numéricas relativas à dispersão ou variação presente nos dados 
 
 Tais medidas são denominadas Medidas de Dispersão. 
 
5.1 - Tabela de Distribuição de Frequências 
 
 Etapas para a construção de uma tabela de distribuição de frequências : 
 
 Determinar X min (menor valor do conjunto de dados) e X max (maior valor do conjunto de dados). 
 
 Calcular a amplitude dos dados, dada por : A = X max - X min 
 
 Escolher o número de subintervalos (ou classes), preferencialmente de igual amplitude, que cubram todo o 
intervalo entre os valores X min e X max , sem superposição. Estes subintervalos são os intervalos de 
classe e seus pontos extremos determinam as fronteiras ou limites de classe. O número de intervalos de 
classe ( K ) pode ser obtido usando uma das seguintes fórmulas : 
 
 
 K = n K = 1 + 3,32 log n 
 
 
 esta é a que será usada, devido à sua simplicidade 
 
 Determinar a amplitude do intervalo de classe H = A / K 
 É importante colocar que o número de intervalos e de sua amplitude é uma questão de tentativa. O 
número de classes, em geral, varia de 5 a 15, dependendo do número de observações. 
 10 
 Construir os intervalos começando de X min . Ir somando H a partir de X min . Os intervalos são 
representados pelo símbolo |----, indicando que inclui-se o limite inferior do intervalo e exclui-se o limite 
superior do intervalo. 
 
 Especificados todos os intervalos, deve-se construir as seguintes colunas no cabeçalho da tabela : 
 
 f i fr i X i F i FR i onde : i = 1, 2, ..., número de intervalos 
 
 frequência absoluta do intervalo i número de observações no intervalo i 
 
 frequência relativa do intervalo i f i / n 
 
 ponto médio do intervalo i ( LI + LS ) 
 2 
 frequência absoluta acumulada do intervalo i acumula-se f i 
 
 frequência relativa acumulada do intervalo i acumula-se fr i 
 
 onde : LI = limite inferior do intervalo i e LS = limite superior do intervalo i 
 fr i pode ser expressa em %. Para isso, basta multiplicar o valor encontrado por 100. 
 
 Importante : uma tabela deve ser construida seguindo as Normas de Apresentação Tabular do IBGE. 
 
Exemplo : Os dados seguintes referem-se ao número de horas trabalhadas (por semana) por 48 pessoas 
selecionadas aleatoriamente de uma pesquisa diária realizada nos EUA em 1987. 
 
15 20 24 24 30 30 34 37 38 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 44 
45 45 45 45 46 48 50 50 50 50 50 56 60 60 60 60 64 65 70 
Fonte : U.S. Bureau of Labor Statistics 
 
X min = 15 X max = 70 A = X max - X min = 70 - 15 = 55 
 
K = 48  7 H = A / K = 55 / 7  8 
 
Tabela 1 - Distribuição do número de horas trabalhadas por semana, USA, 1987 
Horas Trabalhadas f i fr i (%) X i F i FR i (%) 
15 |---- 23 02 4,2 19 02 4,2 
23 |---- 31 04 8,3 27 06 12,5 
31 |---- 39 03 6,25 35 09 18,75 
39 |---- 47 25 52,1 43 34 70,85 
47 |---- 55 06 12,5 51 40 83,35 
55 |---- 63 05 10,4 59 45 93,75 
63 |---- 71 03 6,25 67 48 100,0 
Total 48 100,0 ---- ---- ---- 
Fonte : U.S. Bureau of Labor Statistics 
 
 f i 
 fr i 
 X i 
 F i 
 FR i 
 11 
Pode-se notar que a maior parte das pessoas (52,1%) trabalham de 39 a 47 (exclusive) horas semanais. 
Poucos trabalham menos de 23 horas/semana e 63 horas/semana ou mais. Cerca de 75% das pessoas 
trabalham de 39 |--- 63 horas/semana. 
 
 A construção da tabela anterior gerou intervalos de mesma amplitude ( 8 ) e com limites ou intervalos 
determinados ( 7 ). Existem tabelas que apresentam um ou mais limites indeterminados e cujas amplitudes 
podem variar de um intervalo para outro. A tabela seguinte ilustra esta situação. 
 
Tabela 2 - Percentagem da renda familiar gasta na alimentação, Brasil, 1975 
Classes de Renda % renda Número de famílias pesquisadas 
< 1 62,81 1554 
 1 |---- 2 59,21 2435 
 2 |---- 3,5 50,16 1641 
 3,5 |---- 5,0 40,98 642 
 5,0 |---- 7,0 34,48 377 
 7,0 |---- 10,0 27,80 222 
 10,0 |---- 15,0 21,19 129 
 15,0 |---- 30,0 14,06 80 
  30 6,26 23 
Fonte : IBGE 
Nota : As classes de renda foram representadas em salários mínimos. 
 O número de famílias pesquisadas em cada classe de renda foi escolhido de forma a 
 ser proporcional ao número total de famílias desta classe na população. 
 
Quanto maior a classe de renda, menor o percentual da renda gasto pela família na alimentação. 
 
 Pode-se ter interesse em construir uma tabela de distribuição de frequências para variáveis 
qualitativas. Neste caso, a variável não seria representada por intervalos, e sim, por categorias. Não 
apresentaremos aqui tais tabelas. 
 
5.2 - Gráficos 
 
 A representação gráfica é um complemento importante da apresentação tabular, pois permite uma 
visualização imediata da distribuição dos dados observados : concentração e dispersão dos valores, simetria 
ou assimetria nos dados. 
 
 Uma distribuição de frequências pode ter as seguintes formas : 
 
 
 
 
 
 
 
 
 Simétrica Assimétrica à direita Assimétrica à esquerda 
 
 Serão apresentadas as seguintes representações gráficas : Histograma, Polígono de Freqüências e 
Ogiva. 
 12 
 Histograma 
 
 É um gráfico de barras justapostas, resultante da representação databela de distribuição de 
frequências. Para cada intervalo da tabela, levanta-se um retângulo vertical cuja área é proporcional à 
frequência (absoluta ou relativa) do intervalo. 
 
Exemplo : O histograma referente à Tabela 1 encontra-se abaixo. 
 
15 23 31 39 47 55 63 71
0
10
20
30
40
50
Horas Trabalhadas
Fr
eq
uê
nc
ia
 R
el
at
iv
a(
%
)
Gráfico 1 - Distribuição do número de horas trabalhadas por semana, USA, 1987
Fonte : U.S. Bureau of Labor Statistics
 
 
Pode-se notar que a distribuição do número de horas trabalhadas por semana apresenta-se bastante disperso 
pois só o intervalo de 39 |--- 47 absorve 52,1% das pessoas amostradas. O ideal seria reconstruir a Tabela 1 
para redistribuir este percentual nos outros intervalos. Assim, ficaria mais clara a forma da distribuição. 
 
 
15 25 35 45 55 65 75
0
10
20
30
40
50
Horas Trabalhadas
Fr
eq
uê
nc
ia
 R
el
at
iv
a
Gráfico 1A - Distribuição do número de horas trabalhadas por semana, USA, 1987
Fonte : U.S. Bureau of Labor Statistics
 
 
 
 
 13 
77.562.547.532.517.52.5
60
50
40
30
20
10
0
Horas Trabalhadas
Fr
eq
uê
nc
ia
 R
el
at
iv
a 
(%
)
Gráfico 1B - Distribuição do número de horas trabalhadas por semana, USA, 1987
Fonte : U.S. Bureau of Labor Statistics 
 
 
Os gráficos 1A e 1B são histogramas com diferentes amplitudes. Note que a visualização da forma da 
distribuição do número de horas semanais trabalhadas melhora muito, indicando uma ligeira assimetria à 
direita. 
 
 Polígono de Frequências 
 
 As frequências são indicadas por uma série de pontos colocados acima dos valores que representam os 
pontos médios Xi dos intervalos de classe. Estes pontos são unidos por segmentos de reta e, nas 
extremidades, a linha poligonal toca o eixo dos X’s, por prolongamento. O eixo dos Y’s pode ser 
representado por fi ou fri. 
 
Exemplo : O Polígono de Frequências referente à Tabela 1 encontra-se abaixo. 
 
 
67595143352719
50
40
30
20
10
0
Horas Trabalhadas
Fr
eq
uê
nc
ia
 R
el
at
iv
a 
(%
)
Gráfico 2 - Distribuição do número de horas trabalhadas por semana, USA, 1987
Fonte : U.S. Bureau of Labor Statistics 
 
O número de horas semanais trabalhadas com maior frequência (52,1%) é 43 horas. A análise dada para o 
histograma é a mesma para o polígono. 
 
 14 
 Ogiva 
 
 É um gráfico de frequências acumuladas (absolutas ou relativas), onde cada intervalo é representado 
por seu limite superior ou por seu ponto médio. É conhecida como Ogiva de Galton. Tal gráfico é útil na 
determinação de medidas chamadas Separatrizes (Decis, Quartis e Percentis), que serão tratadas 
posteriormente. 
 
Exemplo : A Ogiva referente à Tabela 1 encontra-se abaixo. 
 
15 23 31 39 47 55 63 71
0
50
100
Horas Trabalhadas
Fr
eq
uê
nc
ia
 R
el
at
iv
a 
A
cu
m
ul
ad
a(
%
)
Gráfico 3 - Distribuição acumulada do número de horas
trabalhadas por semana, USA, 1987
Fonte : U.S. Bureau of Labor Statistics
 
 
A ogiva mostra que 83,35% das pessoas trabalham menos de 55 horas semanais. Em geral, costuma-se fazer 
uma única análise usando a tabela de distribuição de frequências e seus gráficos correspondentes. 
 
5.3 - Medidas de Posição (ou de Locação) 
 
 Tais medidas sumarizam certas características importantes da distribuição de frequências em um único 
número. Os dados podem ainda ser sintetizados através das seguintes medidas : Medidas de Tendência 
Central e Medidas Separatrizes. 
 
 Uma medida de tendência central é toda e qualquer medida numérica que represente o centro de um 
conjunto de dados, ou seja, um valor representativo em torno do qual as observações se distribuem. São elas : 
 
 Média Aritmética Simples 
 Média Aritmética Ponderada 
 Mediana 
 Moda 
 
 Quando o número de observações é grande, pode-se ter interesse em dividir o conjunto de dados 
ordenado em partes. Tais medidas são chamadas de Separatrizes. Se o conjunto de dados for dividido em 4 
partes, tem-se os Quartis; se o conjunto de dados for dividido em 10 partes, tem-se os Decis; se o conjunto de 
dados for dividido em 100 partes, tem-se os Percentis. 
 
 Os dados podem apresentar-se na sua forma original (DADOS BRUTOS) ou sob a forma de uma 
tabela de distribuição de frequências, com intervalos de classe especificados (DADOS TABULADOS). 
 15 
Suponha que você dispõe da idade de todos os seus alunos; esses dados são DADOS BRUTOS. No caso de 
pesquisas onde se pede ao entrevistado que assinale em qual intervalo de renda ele se encaixa, tem-se os 
DADOS TABULADOS ou AGRUPADOS em intervalos. Assim, serão apresentadas as medidas de posição 
para os Dados Brutos e para os Dados Tabulados. 
 
5.3.1 - Medidas de Tendência Central - Dados Brutos 
 
 Os dados são brutos quando encontram-se apresentados individualmente. 
 
 Média Aritmética Simples 
 
 No seu cálculo supõe-se que cada valor tem a mesma importância no conjunto de dados. É 
representada por X (lê-se : X barra) e dada por : 
 n 
  Xi 
 i=1 
 X = --------------- onde : Xi indica o valor de ordem i ( i = 1, 2, 3, ... , n ). 
 n 
 
 soma de todos os valores 
X = --------------------------------- 
 número total de valores 
 
Exemplo : Os dados seguintes referem-se ao número de horas trabalhadas por 5 indivíduos. 
 
Indivíduo Número de horas trabalhadas 
1 1 
2 5 
3 7 
4 3 
5 3 
Calcule a média aritmética simples. 
 
 1 + 5 + 7 + 3 + 3 
X = ----------------------- = 3,8  4 horas 
 5 
 
 O número médio de horas trabalhadas pelos 5 indivíduos é de 4 horas. 
 
 Média Aritmética Ponderada 
 
 Existem situações onde os números que deseja-se sintetizar têm graus de importância (ou pesos) 
diferentes. Usa-se, então, a Média Aritmética Ponderada. É representada por Xp e é dada por : 
 
 
 
 
 
 16 
 n 
  Xi Pi 
 i=1 
 X p = --------------- 
 n 
  Pi 
 i=1 
 
onde Pi : peso da i-ésima observação. 
 
Exemplo : Suponha que um professor determine que a 1
a
 prova tem peso 0,3, a 2
a
 tem peso 0,3 e a prova 
final tem peso 0,4. Sabendo que um aluno obteve as seguintes notas : 70, 80 e 85, respectivamente, calcule 
sua nota média. 
 
 (0,3 x 70) + (0,3 x 80) + (0,4 x 85) 21 + 24 + 34 
 X p = ---------------------------------------- = ------------------- = 79 pontos 
 0,3 + 0,3 + 0,4 1 
 
 A nota média do aluno será 79 pontos. 
 
Exemplo : Suponha agora que um outro professor aplique à sua turma apenas 2 provas : uma no meio do 
período e um exame final. Especifica que o exame final tem o dobro do peso da prova anterior. Um aluno 
apresenta as notas : 82 e 90 pontos. Calcule a nota média. 
 
 (1 x 82) + (2 x 90) 82 + 180 
 X p = ---------------------- = --------------- = 87 pontos A nota média do aluno será de 87 pontos. 
 1 + 2 3 
 Mediana 
 
 É o valor que ocupa a posição central, quando se dispõe os dados em ordem crescente. Ela indica que 
50% dos valores estão nela ou abaixo dela e, 50% dos valores estão nela ou acima dela. É representada por 
Md. 
 Se n é ímpar : a mediana é a observação que está no meio, ou seja, é a observação de ordem (n + 1) / 2 
 
 Se n é par : a mediana é a média aritmética dos 2 termos centrais, ou seja, é a médiaaritmética dos 
termos de ordem n/2 e (n + 2) / 2. 
 
Exemplo : Os salários-hora (em reais) de 5 funcionários de uma companhia são : 75 90 83 142 e 88. 
Calcule a Mediana. 
 
Como n = 5 é ímpar a mediana será a observação central no conjunto de dados ordenados. 
 
75 83 88 90 142 ==> Md = 88 reais. 
 
 50% dos funcionários apresentam salário-hora de, no máximo, 88 reais. 
 
Um novo funcionário foi admitido nesta companhia com o salário-hora de 130 reais. Qual será o salário-hora 
mediano ? 
 
 17 
 88 + 90 
Dados Ordenados : 75 83 88 90 130 142 ==> Md = ---------- = 89 reais. 
 2 
 50% dos funcionários ganham até 89 reais por hora. 
 
 Moda 
 
 É o valor que ocorre com maior frequência no conjunto de dados. É representada por Mo. 
 Uma distribuição pode ser : 
 
 amodal : não tem moda 
 unimodal : uma única moda 
 bimodal : 2 modas 
 multimodal : + de 2 modas 
 
 A moda é útil quando a medida de posição deve ser o valor mais típico da distribuição. 
 
Exemplo : Inspecionam-se 15 rádios antes da remessa. Os números de defeitos por unidade são : 
1 0 3 4 2 1 0 3 1 2 0 1 1 0 1 
 
Calcule a moda. 
 
Mo = 1 ==> O número de defeitos mais frequente por rádio é 1. 
 
 Observação : 
 
 A média aritmética é uma boa medida para distribuições simétricas, pois é sensível a cada valor do 
conjunto de dados. 
 A mediana não é afetada por uns poucos valores muito pequenos ou muito grandes em relação à 
massa global de dados, enquanto que a presença de tais valores extremos influenciam fortemente a média 
aritmética. Assim, em distribuições assimétricas, a mediana é a melhor medida de centro. 
 
Exemplo : Considere os dados seguintes. 
 
A = { 5, 7, 10, 13, 15 } e B = { 5, 7, 10, 13, 65 } 
 
XA = 10 Md = 10 XB = 20 Md = 10 
 
A média do conjunto de dados B passa a ser o dobro da média de A, enquanto que a mediana não sofre 
influência do valor extremo 65. 
 
 
 
 
 
 
 
 
 
 18 
5.3.2 - Medidas Separatrizes - Dados Brutos 
 
 Quartis 
 
 Divide-se o conjunto de dados ordenados em 4 partes, originando o 1
o
 Quartil, o 2
o
 Quartil e o 3
o 
Quartil. 
 
 
 
 
Q1 = 1
o
 Quartil = n x 0,25 indica que 25% das observações estão nele ou abaixo dele e, 75% das 
observações estão nele ou acima dele. 
 
Q2 = Md 
 
Q3 = 3
o
 Quartil = n x 0,75 indica que 75% das observações estão nele ou abaixo dele e, 25% das 
observações estão nele ou acima dele. 
 
 
 Decis 
 
 Divide-se o conjunto de dados ordenados em 10 partes, originando os decis de 1 a 9. 
 
 
 
 
 
D1 = 1
o
 Decil = n x 0,10 indica que 10% das observações estão nele ou abaixo dele e, 90% das 
observações estão nele ou acima dele. 
 
D8 = 8
o
 Decil = n x 0,80 indica que 80% das observações estão nele ou abaixo dele e, 20% das 
observações estão nele ou acima dele. 
 
 Percentis 
 
 Divide-se o conjunto de dados ordenados em 100 partes, originando percentis de 1% a 99%. É 
representado por P. 
 
 P20% = n x 0,20 indica que 20% das observações estão nele ou abaixo dele e, 80% das observações 
estão nele ou acima dele. 
 
P65% = n x 0,65 indica que 65% das observações estão nele ou abaixo dele e, 35% das observações 
estão nele ou acima dele. 
 
Exemplo : Em um almoxarifado existem 25 peças fabricadas por duas máquinas A e B. Os seus comprimentos 
(em mm) são : 
 
75 58 57 72 73 79 78 86 60 78 76 61 64 58 82 85 57 55 57 79 80 76 60 74 76 
 
 
25% 25% 25% 25% 
 Q1 Q2 Q3 
 
 D1 D2 D3 D4 D5 D6 D7 D8 D9 
DD9 
 
 10% 10% 10% 10% 10% 10% 10% 10% 10% 10% 
 19 
Determine os quartis, os decis 3 e 6, e os percentis 70% e 95%. 
 
 
Dados Ordenados : 
 
55 57 57 57 58 58 60 60 61 64 72 73 74 75 76 76 76 78 78 79 79 80 82 85 86 
 
Q1 = n x 0,25 = 25 x 0,25 = 6,25  6a observação = 58 25% das peças fabricadas apresentam 
comprimento de, no máximo, 58 mm. 
 
Q2 = Md = 13
a
 observação = 74 50% das peças fabricadas apresentam comprimento de, no máximo, 
74 mm. 
 
Q3 = n x 0,75 = 25 x 0,75 = 18,75  19a observação = 78 75% das peças fabricadas apresentam 
comprimento de, no máximo, 78 mm. 
 
D3 = n x 0,3 = 25 x 0,3 = 7,5  8a observação = 60 30% das peças fabricadas apresentam 
comprimento de, no máximo, 60 mm. 
 
D6 = n x 0,6 = 25 x 0,6 = 15
a
 observação = 76 60% das peças fabricadas apresentam comprimento de, 
no máximo, 76 mm. 
 
P 70% = n x 0,70 = 25 x 0,70 = 17,5  18
a
 observação = 78 70% das peças fabricadas apresentam 
comprimento de, no máximo, 78 mm. 
 
P 95% = n x 0,95 = 25 x 0,95 = 23,75  24
a
 observação = 85 95% das peças fabricadas apresentam 
comprimento menor ou igual a 85 mm. 
 
5.3.3 - Medidas de Tendência Central e Medidas Separatrizes - Dados Tabulados 
 
 Existem situações em que os dados são apresentados sob a forma de uma tabela de distribuição de 
frequências, com intervalos de classe especificados. É o caso de pesquisas em que se pede ao entrevistado que 
assinale no formulário do questionário em qual intervalo de renda ele se encaixa. Nessas situações não existe 
outra forma de trabalhar com os dados, senão agrupados. Existem ainda situações em que o conjunto de 
dados consiste de um grande número de observações e a utilização de uma tabela de distribuição de 
frequências proporciona uma condensação da informação presente nos dados. 
 
 Os cálculos baseados em dados agrupados são menos precisos do que os cálculos baseados nos dados 
originais. 
 
 Média Aritmética 
 
 k 
  Xi fi 
 i=1 
 X = --------------- onde k = número de intervalos 
 N 
 
 
 20 
 Moda 
 
 É o ponto médio do intervalo de maior frequência. 
 
 Mediana, Percentis, Decis e Quartis 
 
 Como podemos expressar os Quartis, a Mediana e os Decis em função dos Percentis, a fórmula para o 
cálculo de qualquer uma dessas medidas é dado por : 
 
 (n x p) - Fi do intervalo anterior ao do percentil desejado 
P 100p% = Linferior + ------------------------------------------------------------------- x H 
 fi do intervalo que contém o percentil 
 
onde : H = amplitude do intervalo; p = percentil desejado; n = tamanho da amostra; Linferior = limite inferior do intervalo que 
contém o percentil; 
 
Procedimento para Cálculo : 
 
1- Determinar (n x p), onde n é o tamanho da amostra e p é o percentil que você deseja calcular. 
2- O valor encontrado no item anterior indica a posição da observação referente ao percentil desejado. 
3- Identificar na Tabela de Distribuição de Frequências em que intervalo encontra-se tal observação. Para 
 isso, consulte a coluna da tabela referente à Frequência Absoluta Acumulada ( Fi). 
4- Marque este intervalo, pois os cálculos restantes para determinação do percentil dependem deste intervalo. 
 
Exemplo : A tabela seguinte fornece a distribuição do número de dias que 40 empregados de uma companhia 
estiveram ausentes durante o último ano. 
 
Número de ausências fi Xi Fi Xi x f i 
0 |---- 3 13 1,5 13 19,5 
3 |---- 6 14 4,5 27 63 
6|---- 9 06 7,5 33 45 
9 |---- 12 04 10,5 37 42 
12 |---- 15 03 13,5 40 40,5 
Total 40 ----- ---- 210 
 
Calcule a média aritmética, a mediana e a moda. Calcule Q1 e o percentil 80%. Interprete-os. 
 
Cálculo da Média Aritmética : 
 
 k 
  Xi fi 
 i=1 
 X = --------------- onde k = número de intervalos = 5 n = tamanho da amostra = 40 
 n 
Note que o somatório de Xi.fi é o somatório resultante do produto de cada ponto médio (Xi) por sua 
frequência absoluta (fi). Este somatório foi calculado na tabela anterior, resultando em 210. Logo, a média 
aritmética é : 
 
X = 210 = 5,3 
 40 
O número médio de ausências no emprego é de 5,3 dias. 
 
 21 
Cálculo da Moda : 
 
A Moda é o ponto médio (Xi) do intervalo de maior frequência. Como o intervalo de maior frequência é o de 
3 |---- 6, seu ponto médio correspondente é 4,5. 
 
Mo = 4,5 
O número de ausências mais frequente foi 4,5 dias. 
 
Vale lembrar que : 
 
Md = Mediana = Percentil 50% 
Q1 = Primeiro Quartil = Percentil 25% 
 
Cálculo da Mediana : 
 
O primeiro passo é determinar n x p 
 
n x p = 40 x 0,50 = 20 Isto significa que a mediana refere-se à vigésima observação. Como os dados 
estão agrupados em intervalos, precisamos identificar em que intervalo ela se encontra. Para tal, consulte a 
coluna da Frequência Absoluta Acumulada ( Fi ). Assim : 
 
A mediana encontra-se no intervalo 3 |---- 6 pois Fi é 27. Usando a fórmula, teremos : 
 
Md = 3 + 20 - 13 x 3 = 4,5 
 14 
Pode-se dizer que 50% dos funcionários faltam, no máximo, 4,5 dias. 
Cálculo do Percentil 80% : 
 
O primeiro passo é determinar n x p 
 
n x p = 40 x 0,80 = 32 Isto significa que o Percentil 80% refere-se à trigésima segunda observação. 
Como os dados estão agrupados em intervalos, precisamos identificar em que intervalo ele se encontra. Para 
tal, consulte a coluna da Frequência Absoluta Acumulada ( Fi ). Assim : 
 
O Percentil 80% encontra-se no intervalo 6 |---- 9 pois Fi é 33. Usando a fórmula, teremos : 
 
P 80% = 6 + 32 - 27 x 3 = 8,5 
 6 
80% dos funcionários faltam, no máximo, 8,5 dias de trabalho. 
 
Cálculo do Primeiro Quartil : 
O primeiro passo é determinar n x p 
n x p = 40 x 0,25 = 10 Isto significa que o Percentil 25% refere-se à décima observação. Como os dados 
estão agrupados em intervalos, precisamos identificar em que intervalo ele se encontra. Para tal, consulte a 
coluna da Frequência Absoluta Acumulada ( Fi ). Assim : 
 
O Percentil 25% encontra-se no intervalo 0 |---- 3 pois Fi é 13 . Usando a fórmula, teremos : 
 
Q1 = P 25% = 0 + 10 - 0 x 3 = 2,31 
 13 
25% dos funcionários faltam, no máximo, 2,3 dias de trabalho. 
 22 
 
5.4 - Medidas de Variação ou Dispersão 
 
 Outro aspecto importante na descrição de um conjunto de dados é o cálculo de medidas numéricas que 
dão a variação dos dados em torno da medida de centro. São chamadas de medidas de dispersão ou variação. 
São elas : 
 
 Amplitude dos dados (A) 
 Desvio-padrão amostral (s) 
 Coeficiente de Variação (CV) 
 
Veremos todas essas medidas para os dados brutos e para os dados na tabela de distribuição de 
frequências (dados tabulados). 
 
5.4.1 - Medidas de Dispersão - Dados Brutos 
 
 
 Amplitude dos Dados : A = X max - Xmin 
 
 Dá o comprimento do intervalo abrangido pelas observações. Tem a vantagem de ser fácil de calcular, 
mas tem a desvantagem de não levar em conta a variação dos valores intermediários e é fortemente 
influenciada por valores muito pequenos ou muito grandes em relação aos demais. 
 
 Desvio-padrão : s 
 
 Dá a dispersão em torno da média aritmética. 
 
 
  ( Xi - X ) 2 ( Xi 2 ) - n X 2 
s = ------------------- ou: s = ------------------------- 
 n - 1 n - 1 
 
 
Obs. : A variância é o desvio-padrão elevado ao quadrado. 
 
 Coeficiente de Variação : CV = s 
 x 
 É usado quando deseja-se comparar várias variáveis, pois é um número puro (não tem unidade de 
medida). É uma medida que determina se o conjunto de dados é homogêneo ou não. O conjunto de dados 
mais homogêneo é o que apresenta menor CV (CV  0,22). 
 
Exemplo : Os dados seguintes dão a experiência (anos) de 9 secretárias selecionadas aleatoriamente. 
14 3 5 6 4 9 18 5 16 
Calcule todas as medidas de dispersão. 
 
Dados Ordenados : 3 4 5 5 6 9 14 16 18 X = 9 Md = 6 
 
A = 18 - 3 = 15 
 A variação no tempo de experiência das secretárias é de 15 anos. 
 
 23 
A tabela seguinte foi construida para facilitar os cálculos do somatório. 
 
 
Xi ( Xi - X ) 
 2
 
14 25 
3 36 
5 16 
6 9 
4 25 
9 0 
18 81 
5 16 
16 49 
80 257 Total 
 
 
s = 257 / 8 = 5,7 
 
 A dispersão em torno do tempo médio de experiência das secretárias é de 5,7 anos. 
 
CV = 5,7 / 9 = 0,63 => O tempo de experiência das secretárias apresenta-se heterogêneo pois CV > 0,22. 
 
 
5.4.2 - Medidas de Dispersão - Dados Tabulados 
 
 
 Amplitude dos Dados : A = (Xi último intervalo) - (Xi primeiro intervalo) 
 
Xi = ponto médio 
 
 Desvio-padrão : s 
 
 
  ( Xi - X ) 2 fi 
s = --------------------- ou : 
 n - 1 
 
 
 ( Xi2 fi ) - n X 2 
s = --------------------- 
 n - 1 
 
 Coeficiente de Variação : CV = s 
 x 
 
 
Exemplo : A tabela seguinte fornece a distribuição do número de dias que 40 empregados de uma companhia 
estiveram ausentes durante o último ano. 
 
 
 
 
 24 
 
Número de ausências 
 
fi 
 
Xi Fi Xi x f i 
 
 (Xi - X )
2 
fi 
0 |---- 3 13 1,5 13 19,5 187,72 
3 |---- 6 14 4,5 27 63 8,96 
6 |---- 9 06 7,5 33 45 29,04 
9 |---- 12 04 10,5 37 42 108,16 
12 |---- 15 03 13,5 40 40,5 201,72 
Total 40 ----- ---- 210 535,60 
 
X = 5,3 
 
A = 13,5 - 1,5 = 12 => a variação do número de dias ausentes é de 12 dias. 
 
 
s = 535,6 / 39 = 3,71 => a dispersão em torno do número médio de dias ausentes é de 3,7 dias. 
 
CV = 3,71 / 5,3 = 0,70 => a distribuição do número de dias ausentes apresenta-se heterogênea.

Continue navegando