Buscar

livro - Estatistica Aplicada a Administracao

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 90 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 90 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 90 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística Aplicada 
à Administração
Gabrielle Gomes dos Santos Ribeiro
Presidente Prudente
Unoeste - Universidade do Oeste Paulista
2017
Ribeiro, Gabrielle Gomes dos Santos. 
 Estatística Aplicada à Administração. / Gabrielle Go-
mes dos Santos Ribeiro. – Presidente Prudente: Unoeste 
- Universidade do Oeste Paulista, 2017. 
 86 p.: il.
 Bibliografia.
 ISBN: 978-85-9492-016-4
 1. Estatística. 2. Administração-Estatística. I. Título.
CDD\22ª. ed.
© Copyright 2017 Unoeste - Todos os direitos reservados
Nenhuma parte desta publicação poderá ser reproduzida ou transmitida de qualquer modo ou 
por qualquer outro meio, eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer 
outro tipo de sistema de armazenamento e transmissão de informação, sem prévia autorização, 
por escrito, da Universidade do Oeste Paulista.
Estatística Aplicada à Administração
Gabrielle Gomes dos Santos Ribeiro
Reitora: Ana Cristina de Oliveira Lima
Vice-Reitor: Brunno de Oliveira Lima Aneas
Pró-Reitor Acadêmico: José Eduardo Creste
Pró-Reitor Administrativo: Guilherme de Oliveira Lima Carapeba
Pró-Reitor de Pesquisa, Pós-Graduação e Extensão: Adilson Eduardo Guelfi
Diretor Geral: Augusto Cesar de Oliveira Lima
Núcleo de Educação a Distância: Dayene Miralha de Carvalho Sano, Marcelo Vinícius Creres 
Rosa, Maria Eliza Nigro Jorge, Mário Augusto Pazoti e Sonia Sanae Sato
Coordenação Tecnológica e de Produção: Mário Augusto Pazoti
Projeto Gráfico: Luciana da Mata Crema
Diagramação: Aline Miyamura Takehana
Ilustração e Arte: Aline Miyamura Takehana
Revisão: Renata Rodrigues dos Santos
Colaboração: Edwiges Inácia de Lima
Designer Educacional: Janiele de Souza Santos
Direitos exclusivos cedidos à Associação Prudentina de Educação e Cultura (APEC), 
mantenedora da Universidade do Oeste Paulista
Rua José Bongiovani, 700 - Cidade Universitária
CEP: 19050-920 - Presidente Prudente - SP
(18) 3229-1000 | www.unoeste.br/ead
Catalogação na fonte: Rede de Bibliotecas Unoeste
519.502.4658
R484e
Gabrielle Gomes dos Santos Ribeiro
Graduada em Estatística (2011) e mestre em Ciências Cartográficas (2015) pela Uni-
versidade Estadual Paulista (Unesp), campus de Presidente Prudente. Atualmente, é 
assessora estatística do Programa de Pós-Graduação Stricto Sensu, assessora de plane-
jamento e analista de dados da CPA, e membro do corpo docente da Universidade do 
Oeste Paulista (Unoeste).
Sobre a autora
Carta ao aluno
O ensino passa por diversas e constantes transformações. São mudanças 
importantes e necessárias frente aos avanços da sociedade na qual está inserido. A 
Educação a Distância (EAD) é uma das alternativas de estudo, que ganha cada vez mais 
espaço, por comprovadamente garantir bons referenciais de qualidade na formação pro-
fissional. Nesse processo, o aluno também é agente, pois organiza o seu tempo confor-
me suas atividades e disponibilidade. 
Maior universidade do oeste paulista, a Unoeste forma milhares de profissio-
nais todos os anos, nas várias áreas do conhecimento. São 40 anos de história, sendo 
responsável pelo amadurecimento e crescimento de diferentes gerações. É com esse 
mesmo compromisso e seriedade que a instituição iniciou seus trabalhos na EAD em 
2000, primeiramente com a oferta de cursos de extensão. Hoje, a estrutura do Nead 
(Núcleo de Educação a Distância) disponibiliza totais condições para você obter os co-
nhecimentos na sua área de interesse. Toda a infraestrutura, corpo docente titulado e 
materiais disponibilizados nessa modalidade favorecem a formação em plenitude. E o 
mercado precisa e busca sempre profissionais capacitados e que estejam antenados às 
novas tecnologias.
Agradecemos a confiança e escolha pela Unoeste e estamos certos de que 
suas expectativas serão atendidas, pois você está em uma universidade reconhecida 
pelo MEC, que oportuniza o desenvolvimento constante de Ensino, Pesquisa e Extensão. 
Aqui, além de graduação, existe pós-graduação lato e stricto sensu, com mestrados e 
doutorado recomendados pela Capes (Coordenação de Aperfeiçoamento de Pessoal de 
Nível Superior), prêmios conquistados em âmbito nacional por suas ações extensivas e 
pesquisas que colaboram com o desenvolvimento da cidade, região, estado e país; en-
fim, são inúmeros os referenciais de qualidade.
Com o fortalecimento da EAD, a Unoeste reforça ainda mais a sua missão 
que é “desenvolver a educação num ambiente inovador e crítico-reflexivo, pelo exercício 
das atividades de Ensino, Pesquisa e Extensão nas diversas áreas do conhecimento cien-
tífico, humanístico e tecnológico, contribuindo para a formação de profissionais cidadãos 
comprometidos com a responsabilidade social e ambiental”.
Seja bem-vindo e tenha bons estudos!
Reitoria
Sumário
Capítulo 1
Introdução à EstatístIca
1.1 Conceitos e Definições ............................................................................................. 14
1.2 Organização dos Dados ............................................................................................ 16
1.3 Tabela de Distribuição de Frequências ....................................................................... 18
Capítulo 2
rEprEsEntaçõEs GráfIcas
2.1 Construção e Interpretação de Gráficos ..................................................................... 24
Capítulo 3
MEdIdas dEscrItIvas
3.1 Média ..................................................................................................................... 32
3.2 Mediana .................................................................................................................. 34
3.3 Moda ...................................................................................................................... 40
3.4 Separatrizes ............................................................................................................ 42
3.5 Amplitude Total ....................................................................................................... 43
3.6 Variância ................................................................................................................. 43
3.7 Desvio-Padrão ......................................................................................................... 44
3.8 Coeficiente de Variação ............................................................................................ 47
3.9 Assimetria ............................................................................................................... 47
3.10 Curtose ................................................................................................................. 49
Capítulo 4
aMostraGEM
4.1 Amostragem Aleatória Simples (AAS) ........................................................................ 55
4.2 Amostragem Aleatória Estratificada (AAE) .................................................................. 61
4.3 Amostragem Sistemática (AS) ................................................................................... 66
Capítulo 5
análIsE dE corrElação
5.1 Correlação Linear Simples ........................................................................................ 72
Referências ................................................................................................................... 82
9
Apresentação
Seja bem-vindo aos estudos de Estatística Aplicada à Administração! Este 
livro visa fornecer embasamento teórico e prático para o tratamento e análise de dados 
da área de Administração. 
Os assuntos abordados iniciam-se com uma introdução à estatística, tra-
tando sobre os principais conceitos e definições da área e as técnicas para organização 
de dados. Em seguida, são apresentadas as principais formas de representar os dados 
através de gráficos. Na sequência, são indicadas as medidas descritivas e os principais 
métodos de amostragem de dados. Finalizamos com a Análise de Correlação Linear Sim-
ples, técnica que verifica a existência de associação entre duas variáveis.
Esperamosque este livro seja de grande contribuição para sua futura atuação 
profissional. 
Bons estudos e sucesso para você! 
11
Introdução à EstatístIca
Capítulo 1
12
O que você acha que é “Estatística”? O que você lembra quando escuta esta 
palavra? Se você pensou em números, gráficos, tabelas, contas, acertou em parte, pois a 
Estatística é muito mais que isso. A Estatística é definida como um conjunto de métodos 
e técnicas que envolvem todas as etapas de uma pesquisa, desde o planejamento, a 
coleta de dados, a análise, até a interpretação e disseminação dos resultados. 
Sabe as pesquisas eleitorais que frequentemente são feitas antes das elei-
ções para prefeito, vereadores, presidente e deputados? Então, elas são os exemplos 
mais comuns de aplicação de métodos estatísticos. 
Primeiramente, a pesquisa é planejada, definindo quantos indivíduos serão 
entrevistados, de que forma eles serão selecionados, onde e quando ocorrerá a pesqui-
sa. Depois, os dados são processados, gerando tabelas, gráficos e medidas descritivas. 
No final, a partir dos dados coletados, são realizadas as previsões dos resultados das 
eleições por meio de testes estatísticos coletados e esses resultados são divulgados.
Introdução
Você Sabia
Segundo Costa et al. (2016, p. 4), “a utilização da estatística já remonta a quatro mil 
anos antes de Cristo, quando era utilizada por povos guerreiros na conquista de terri-
tórios. Na própria Bíblia, no novo testamento, observa-se o interesse dos governantes 
pela contagem da população”.
Naqueles dias, César Augusto publicou um decreto ordenando o recen-
seamento de todo o império romano. Este foi o primeiro recenseamen-
to feito quando Quirino era governador da Síria. E todos iam para a sua 
cidade natal, a fim de alistar-se. Assim, José também foi da cidade de 
Nazaré da Galileia para a Judeia, para Belém, cidade de Davi, porque 
pertencia à casa e à linhagem de Davi. Ele foi a fim de alistar-se, com 
Maria, que lhe estava prometida em casamento e esperava um filho. 
Enquanto estavam lá, chegou o tempo de nascer o bebê, e ela deu à 
luz o seu primogênito. Envolveu-o em panos e o colocou numa man-
jedoura, porque não havia lugar para eles na hospedaria (BÍBLIA, N.T. 
LUCAS, 2:1-7).
Desde então, a Estatística tem se tornado uma ferramenta essencial na pro-
dução e disseminação do conhecimento, e no processo de tomada de decisão. “O grau 
de importância atribuído à estatística é tão grande que praticamente todos os governos 
13
possuem organismos oficiais destinados à realização de estudos estatísticos” (IGNÁCIO, 
2010, p. 1). No Brasil, temos o Instituto Brasileiro de Geografia e Estatística (IBGE).
Muitos não sabem, mas a Estatística está presente nos mais variados cam-
pos de atuação, da Medicina ao Direito, trata-se de uma ciência multidisciplinar. Hoje, é 
notável a utilização da Estatística nas universidades, nas empresas, nos hospitais, nas 
fábricas, nos tribunais, nas construções, nas instituições de pesquisa, nas bolsas de valo-
res ou até em casa. Gráficos e tabelas são apresentados na exposição de resultados das 
empresas, dados numéricos são usados para aprimorar e aumentar a produção de uma 
fábrica, testes estatísticos são realizados para verificar a eficácia de um medicamento, 
probabilidades de um passivo vir a desenvolver um câncer são calculadas e censos de-
mográficos fornecem informações sobre a população que auxiliam o governo a planejar 
políticas de desenvolvimento (IGNÁCIO, 2010).
Além disso, a Estatística está presente nos fenômenos e fatos do nosso dia 
a dia mais do que imaginamos. “Praticamente todas as informações divulgadas pelos 
meios de comunicação provêm de alguma forma de pesquisas e estudos estatísticos” 
(IGNÁCIO, 2010, p. 8). O crescimento populacional, os índices de inflação, as pesquisas 
eleitorais, as taxas de desemprego e mortalidade, os índices de desenvolvimento huma-
no são alguns exemplos de pesquisas divulgadas pelos meios de comunicação e que se 
utilizam dos métodos estatísticos.
Para Ignácio (2010, p. 1):
A chegada de computadores pessoais cada vez mais poderosos foi 
decisiva e fez com que a Estatística se tornasse mais acessível aos 
pesquisadores de diferentes campos de atuação. Atualmente, os equi-
pamentos e softwares permitem a manipulação de grande quantidade 
de dados, o que veio a dinamizar o emprego dos métodos estatísticos.
O autor ainda complementa:
Na Administração, os métodos estatísticos podem ser empregados 
para o planejamento e controle da produção, visando à implantação 
de técnicas administrativas eficientes, que garantam menores custos 
e maiores lucros, na estimação de receitas, previsão de estoques e de 
demandas, e, principalmente, ao conhecimento do mercado e de seu 
cliente (IGNÁCIO, 2010, p. 10).
Neste livro, trataremos dos conceitos e técnicas necessárias para cumprir 
todas as etapas anteriormente citadas.
14
1.1 Conceitos e Definições
Você sabe o que é uma variável? Variável é uma característica qualquer que 
é medida ou avaliada em cada elemento da população ou amostra.
Na Estatística, as variáveis são classificadas da seguinte maneira:
FIGURA 1 – Classificação das variáveis
Fonte: Elaborada pela autora (2017).
Explicando melhor cada uma delas, as variáveis quantitativas são aquelas 
que descrevem quantidades e têm seus valores expressos numericamente (idade, peso, 
salário, número de filhos, etc.). Elas podem ser subdivididas em discretas e contínuas. 
As variáveis discretas assumem determinados valores pertencentes a um conjunto fi-
nito ou enumerável. Geralmente, elas são resultados de contagens e, por isso, somente 
fazem sentido números inteiros. Por exemplo: número de irmãos, número de alunos em 
uma sala de aula, número de bactérias por litro de leite, número de cigarros fumados 
por dia. Já as variáveis contínuas são aquelas que podem assumir qualquer valor nu-
mérico, num determinado intervalo de variação (reta real). Em geral, são resultantes de 
mensurações e medições, por isso os valores são apresentados em forma de fração e 
devem ser medidos por meio de algum instrumento, como: altura, peso, salário e tempo. 
As variáveis qualitativas são aquelas usadas para descrever uma qualidade 
ou atributo dos indivíduos da população e dentre elas podemos separar entre dois tipos: 
nominal e ordinal. As nominais não apresentam uma ordem natural de ocorrência, ou 
seja, não existe nenhuma ordenação nos possíveis resultados, por exemplo: time de 
preferência, cor dos olhos, gênero, classificação entre fumante e não fumante, etc. As 
ordinais são aquelas que apresentam uma ordem nos seus resultados, uma hierarquia 
em seus próprios valores, por exemplo: escolaridade (grau de instrução), opinião sobre 
a aula (ruim, regular ou boa), estágio da doença do paciente (inicial, intermediário ou 
terminal). 
Para cada tipo de variável citado, existem técnicas adequadas para coleta e 
resumo das informações.
15
O papel do estatístico é realizar um estudo de dados (observações). As prin-
cipais etapas para a realização de um estudo de dados são: 
a) Levantamento de dados 
Antes do levantamento de dados, precisamos definir nossa população de 
interesse. População é o conjunto de elementos (pessoas, objetos, animais) que tem 
pelo menos uma característica (de interesse) observável em comum. Na prática, nem 
sempre conseguimos obter informações sobre todos os elementos da população (mes-
mo nos recenseamentos conduzidos pelo governo a cada dez anos, algumas perguntas 
só são dirigidas a uma parte da população). Nesses casos, utilizamos uma amostra: 
subconjunto ou parte da população escolhido segundo determinadas regras e critérios 
de um método de amostragem. É importante observar que as informações obtidas por 
amostragem variam de uma amostra para outra. Portanto, há uma variabilidade amos-
tral. Há, naturalmente, regras ou sugestões de formas de coleta de dados para controlar, 
ainda que parcialmente, essa variabilidade.
b) Descrição e apresentação dos dados 
Para realizaçãodessa etapa, fazemos a Análise Exploratória de Dados, 
que consiste em resumir e organizar os dados coletados por meio de gráficos, tabelas 
ou medidas numéricas, e a partir desse resumo procurar alguma regularidade ou padrão 
nas observações (interpretar os dados). 
c) Apresentação dos resultados e conclusões 
Aqui entra a Inferência Estatística (estatística indutiva). É tirar conclusões 
sobre populações com base nos resultados observados em amostras extraídas dessas 
populações (a indução, que leva ao processo de raciocínio, implica o conhecimento de 
uma parte para tirar conclusões sobre a realidade no todo). A Inferência Estatística bus-
ca obter resultados sobre a população a partir da amostra, dizendo também qual a pre-
cisão desses resultados e com que probabilidade se pode confiar nas conclusões obtidas. 
A Figura 2 resume as etapas de um estudo de dados e suas interações.
FIGURA 2 – Etapas de um estudo de dados e suas interações
Fonte: Elaborada pela autora (2017).
16
1.2 Organização dos Dados
Após a etapa de coleta dos dados, podemos apresentá-los em tabelas e grá-
ficos, com o objetivo de resumir e simplificar sua exposição, introduzindo a interpretação 
mais rápida, eficiente e segura. Estudaremos então, neste capítulo, as tabelas e seus 
elementos. Os diferentes tipos de gráficos serão estudados mais à frente.
A tabela é uma apresentação que resume um conjunto de dados dispostos 
segundo linhas e colunas de maneira sistemática. Os elementos fundamentais da ta-
bela são: título, cabeçalho, coluna indicadora e corpo.
TABELA 1 - Previsão de tempo para 08/03 nas principais capitais brasileiras – temperatura em 
graus Celsius
Capital Tempo Mínimo/Máximo
Belo Horizonte Sol 21º/33º
Brasília Sol 19º/31º
Curitiba Sol/Chuva 19º/31º
Porto Alegre Chuva 22º/29º
Recife Sol 23º/31º
Rio de Janeiro Sol com Nuvens 21º/37º
Salvador Sol/Chuva 23º/33º
São Paulo Sol/Chuva 19º/33º
f Cabeçalho
h Coluna Indicadora
Corpo




Fonte: Adaptado do Clima Tempo (2016).
De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela 
devemos colocar:
• um traço horizontal ( - ) quando o valor é zero;
• três pontos ( ... ) quando não temos os dados;
• zero ( 0 ) quando o valor é muito pequeno para ser expresso pela 
unidade utilizada;
• um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão 
de determinado valor.
Sobre a formatação de uma tabela, Battisti e Battisti (2008, p. 16) afirmam que:
As laterais não possuem borda (traço), somente uma borda horizontal 
superior e uma horizontal inferior para delimitar o corpo da tabela, e 
mais uma borda para separar o cabeçalho do resto da tabela. Se a tabe-
la possui uma linha do total, então devemos colocar uma borda acima e 
abaixo desta linha. Se existir mais de uma tabela, elas serão numeradas 
em ordem sequencial.
Ainda segundo Battisti e Battisti (2008, p. 19):
17
Nas tabelas cruzadas apresentamos duas ou mais variáveis. Geralmen-
te, utilizamos uma tabela cruzada para representar a relação entre duas 
variáveis aleatórias, que neste caso também pode ser chamada de ta-
bela de dupla entrada. O formato de uma tabela cruzada, com duas 
variáveis aleatórias, é apresentado a seguir:
TABELA 2 – Formato de uma tabela cruzada
Título
Nome da Variável 1
Nome da Variável 2
Categoria 1 
da variável 2
Categoria 2 
da variável 2 Total
Categoria 1 da variável 1 n (%) n (%) n (%)
Categoria 2 da variável 1 n (%) n (%) n (%)
Categoria 3 da variável 1 n (%) n (%) n (%)
Total n (%) n (%) n (%)
Fonte
Fonte: Elaborada pela autora (2017).
Nas palavras de Battisti e Battisti (2008, p. 19):
Temos três formas de apresentar o percentual (%) numa tabela cruza-
da: por linha, por coluna e por total. Isto é, quando queremos comparar 
as categorias da variável 1, utilizamos o percentual por linha. Quando o 
intuito é comparar as categorias da variável 2, utilizamos o percentual 
por coluna. O percentual total considera todos os elementos pesquisa-
dos. Vamos utilizar o exemplo a seguir para facilitar a compreensão:
TABELA 3 - Nível de satisfação dos clientes da empresa XY em relação ao sexo, abril/2008
Nível de Satisfação
 Sexo
Total
Feminino Masculino
Muito Satisfeito 43 (44,3%) 14 (20,9%) 57 (24,8%)
Satisfeito 44 (45,4%) 29 (43,3%) 73 (44,5%)
Mais ou Menos 4 (4,1%) 6 (9,0%) 10 (6,1%)
Insatisfeito 5 (5,2%) 16 (23,8%) 21 (12,8%)
Muito Insatisfeito 1 (1,0%) 2 (3,0%) 3 (1,8%)
Total 97 (100,0%) 67 (100,0%) 164 (100,0%)
Fonte: Battisti; Battisti (2008, p. 20).
Se compararmos os dados da tabela apresentada, podemos identificar o 
nível de satisfação por sexo. Para isso, precisamos calcular o percentual (%) na coluna. 
Observe o exemplo adaptado de Battisti e Battisti (2008, p. 20):
Muito satisfeito para o sexo feminino: 43/97 x 100=44,3%
Muito satisfeito para o sexo masculino: 14/67 x 100=20,9%
Observamos que 89,7% (44,3% + 45,4%) das mulheres estão muito 
satisfeitas ou satisfeitas, enquanto 64,2% (20,9% + 43,3%) dos ho-
mens estão satisfeitos ou muito satisfeitos.
18
1.3 Tabela de Distribuição de Frequências
Quando se estuda uma variável, o maior interesse do pesquisador é conhe-
cer a distribuição dessa variável pelos possíveis valores (realizações) dela. 
A partir da tabela de dados brutos, vamos construir uma nova tabela com 
as informações resumidas para cada variável. Essa tabela será denominada tabela de 
frequência e conterá os valores da variável e suas respectivas contagens.
A construção da tabela de frequência para variáveis qualitativas e quantitati-
vas discretas ocorre da mesma forma. Segue um exemplo:
TABELA 4 – Opinião dos alunos sobre a qualidade dos programas de TV
Opinião
Freq. 
Absoluta
(ni)
Freq.
Relativa
(fi)
Freq. 
Percentual
(Pi)
Freq. 
Acumulada
(fac)
Freq. 
Acumulada
(%)
Ruim 39 39/50 = 0,78 78% 0,78 78%
Média 1 1/50 = 0,02 2% 0,78+0,02 = 0,80 80%
Boa 3 3/50 = 0,06 6% 0,78+0,02+0,06 = 0,86 86%
Não sabe 7 7/50 = 0,14 14% 0,78+0,02+0,06+0,14 =1 100%
Total 50 1 100%
Fonte: Elaborada pela autora (2017).
Os elementos de uma tabela de frequência são:
• Frequência absoluta (ni): é o número de observações correspondente a 
cada classe.
• Frequência relativa (fi): é a proporção das observações que pertence à 
classe, ou seja, é o quociente entre a frequência absoluta da classe correspondente e a 
soma das frequências (total observado). Para um conjunto de dados com n observações, 
a frequência relativa de cada classe é ni /n.
• Frequência Percentual (Pi): para encontrar a distribuição de frequência 
percentual de uma classe, deve-se multiplicar por 100 o valor da frequência relativa para 
a mesma classe.
• Frequência Acumulada (fac): a frequência acumulada de uma classe 
é definida pela soma das frequências de todas as classes anteriores à classe de re-
ferência. Pode ser calculada a partir da frequência absoluta, frequência relativa ou 
frequência percentual. No exemplo da Tabela 4, ela foi calculada a partir da frequência 
relativa. Na frequência acumulada em porcentagem, apenas multiplicamos por 100 o 
valor da frequência acumulada de cada classe.
19
A construção de tabelas para dados quantitativos contínuos não é tão sim-
ples como para os dados discretos, ela requer certo cuidado e é um pouco mais traba-
lhosa, devido à grande quantidade de valores diferentes no conjunto de dados. Por isso, 
se fossemos construir a tabela como mostramos anteriormente, ela ficaria enorme e 
perderia a sua essência, que consiste em resumir o conjunto de dados.
Dessa forma, a alternativa que vamos adotar é construir classes ou faixas 
de valores e contar quantos valores do meu conjunto de dados está dentro de cada 
classe. O menor valor da classe é chamado de limite inferior (Li) e o maior valor da classe 
é o limite superior (Ls). O intervalo ou classe pode ser representado da seguinte manei-
ra: (Li)+(Ls), em que o limite inferior da classe é incluído na contagem da frequência, 
mas o superior não, pois o intervalo está aberto. Então, o limite superior só iráentrar na 
contagem da frequência da próxima classe.
Na tabela de frequência, além dos elementos (colunas) citados anteriormen-
te, acrescentamos mais uma coluna, a do ponto médio das classes (xi). Ele é definido 
como a média dos limites da classe: . Esses valores são utilizados no cálculo 
de algumas medidas descritivas e na construção de gráficos.
A quantidade de classes (k) que será utilizada para construir a tabela é de-
finida pela fórmula de Sturges:
k=1+3,3 x log(n)
Em que n é o número de elementos do seu conjunto de dados.
Após o cálculo do número de classe, define-se o intervalo de variação dos 
dados (amplitude total): 
L = Máximo (maior valor do conjunto) – Mínimo (menor valor do conjunto)
E a amplitude de cada classe:
Para exemplificar, considere os seguintes dados referentes à quantidade de 
salários mínimos recebidos pelos 20 funcionários de uma empresa:
4,0 4,2 4,4 4,4 4,5 4,6 4,6 4,7 4,8 4,8
5,1 5,1 5,2 5,3 5,5 5,5 5,5 5,8 5,8 6,0
Nesse caso, a quantidade de classes será:
k = 1 + 3,3 x log(n) = 1 + 3,3 x log(20) = 1 + 3,3 . 1,30 = 1 + 4,29 = 5,29 
≈ 5 classes
20
E a amplitude de cada classe:
Assim, fazemos os seguintes cálculos para conhecermos os intervalos das 
classes: 
4,0 + h = 4,0 + 0,4 = 4,4
4,4 + h = 4,4 + 0,4 = 4,8
4,8 + h = 4,8 + 0,4 = 5,2
5,2 + h = 5,2 + 0,4 = 5,6
5,6 + h = 5,6 + 0,4 = 6,0
Então, a tabela de frequência ficará da seguinte maneira:
TABELA 5 – Tabela de frequência para os salários dos funcionários
Salários 
mínimos
xi ni fi Pi fac fac (%)
4,0 ˫ 4,4 (4,0+4,4)/2=4,2 2 2/20=0,10 10% 0,10 10%
4,4 ˫ 4,8 4,6 6 0,30 30% 0,40 40%
4,8 ˫ 5,2 5,0 4 0,20 20% 0,60 60%
5,2 ˫ 5,6 5,4 5 0,25 25% 0,85 85%
5,6 ˫ 6,0 5,8 3 0,15 15% 1,00 100%
Total 20 1 100
Fonte: Elaborada pela autora (2017).
A partir da tabela de frequência podem-se tirar muitas conclusões, como: 
• 60% dos funcionários recebem de 4,0 a 5,2 salários mínimos.
• 15% dos funcionários recebem acima de 5,6 salários mínimos.
Resumo
Neste capítulo, falamos inicialmente sobre a origem da Estatística, sua evo-
lução ao longo dos anos, sua definição e, principalmente, onde e como ela pode ser apli-
cada. Vimos também os principais conceitos da área Estatística, que serão necessários 
para o entendimento de outros tópicos desse assunto. Por fim, estudamos quais são os 
elementos de uma tabela e como organizar e resumir os conjuntos de dados por meio 
de tabelas de frequência.
21
Atividades
1. Determinado produto foi pesquisado em 20 lojas e apresentou diferentes preços. Con-
sidere a seguinte distribuição de frequência da pesquisa realizada:
Preços Número de lojas
50 2
51 5
52 6
53 6
54 1
Total 20
Pede-se:
a) Complete a tabela de frequência apresentada. Calcule a frequência relativa, a frequência acu-
mulada (calculada a partir da frequência relativa) e a frequência acumulada em porcentagem.
b) Qual a porcentagem de lojas com preço de até R$ 53,00 (50≤x≤53)?
c) Qual a porcentagem de lojas com preço maior do que R$ 52,00 (>52)?
2. Em um estudo sobre o consumo diário de refrigerante na cidade de Presidente Pruden-
te, verificou-se que das 80 famílias selecionadas para a amostra: 20% das famílias conso-
mem até um litro, 50% consomem entre um e dois litros, 20% consomem entre dois e três 
litros e o restante consome entre três e quatro litros. Escreva as informações apresentadas 
na forma de uma tabela de frequência com intervalos de classes.
3. Quinze clientes de um banco foram analisados quanto ao tempo (em anos) que já são 
clientes do local, se possuem (S) ou não (N) algum tipo de empréstimo bancário e o risco 
desse cliente se tornar um inadimplente: alto (A), médio (M) ou baixo (B). Os dados são 
apresentados na tabela a seguir:
Clientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Tempo 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5
Empréstimo S S N N N S S N N S S N S N N
Rico A M A M M B A M B M B B M M A
a) Classifique cada uma das variáveis como quantitativa (discreta ou contínua) ou qua-
litativa (nominal ou ordinal).
b) Para cada variável, construa uma tabela de frequência sem intervalos de classes.
22
Anotações
4. Os dados apresentados a seguir referem-se à porcentagem de lucro de 20 produtos 
vendidos em uma loja:
53,0 70,2 84,3 69,5 77,8 87,5 53,4 82,5 67,3 54,1
95,4 64,3 74,4 63,5 52,4 55,3 69,1 72,3 50,7 55,7
A partir desses dados, construa uma tabela de frequência com intervalos de classes.
5. Considere o salário (expresso em salários mínimos) de 20 empregados da seção de 
orçamentos da empresa X:
4,00 4,30 4,56 4,78 4,80 5,25 5,73 5,79 5,94 6,26
6,66 6,72 6,80 6,86 6,90 7,18 7,39 7,54 7,87 8,50
Construa uma tabela de frequência com intervalos de classes para os dados apresentados.
23
rEprEsEntaçõEs GráfIcas
Capítulo 2
24
Você já sabe como representar resumidamente os dados, de forma numéri-
ca, por meio de tabelas. Neste capítulo, estudaremos outra forma de resumir e represen-
tar um conjunto de dados: as representações gráficas. Os gráficos são um complemento 
das tabelas, eles basicamente descrevem as informações da amostra por meio de uma 
imagem e a partir deles conseguimos ter uma rápida impressão visual da distribuição dos 
valores e extrair informações relevantes sobre os dados.
Introdução
2.1 Construção e Interpretação de Gráficos
Os gráficos têm a função de informar, de forma rápida e precisa, sobre a 
distribuição da variável em estudo.
Existem vários tipos de gráficos para descrever variáveis qualitativas e quan-
titativas discretas, os mais comuns são: gráfico de barras, gráfico de setores e gráfico de 
linhas. Para as variáveis quantitativas contínuas, o mais utilizado é o histograma. Ainda 
existem o Ramos-e-Folhas e o BoxPlot, usados para variáveis quantitativas em geral.
Conforme o Manual de Normas e Padrões para Trabalhos Acadêmicos e Cien-
tíficos da Unoeste (2015, p. 31), a identificação de gráficos, figuras, tabelas e outros [...] 
“aparece na parte superior, precedida da palavra designativa, seguida de seu número de 
ordem no texto em algarismo arábico, travessão e do respectivo título”.
Importante
A grande maioria dos gráficos que serão apresentados a seguir pode ser construída a 
partir do software Excel.
Agora, serão descritos os gráficos citados anteriormente:
• Gráfico de barras: é composto por duas linhas ou eixos, com barras ver-
ticais ou horizontais traçadas num eixo das coordenadas cartesianas, que representam 
a variação de um fenômeno de um processo de acordo com a sua intensidade. Essa 
intensidade é indicada por outro eixo. É apropriado para variáveis qualitativas e variáveis 
discretas. As colunas devem sempre possuir a mesma largura e a distância entre elas 
deve ser constante. Recomenda-se que as barras não sejam justapostas, pois isso tem 
apelo de continuidade.
25
FIGURA 3 – Gráfico de barras da opinião dos alunos sobre a qualidade dos programas de TV
Fonte: Elaborada pela autora (2017).
• Gráfico de setor (ou de pizza): é representado por círculos divididos 
proporcionalmente de acordo com os dados do fenômeno ou do processo a ser represen-
tado. Os valores são expressos em números ou em porcentagem (%). É recomendado 
quando se tem o total e a categoria (ou o valor) representa uma parte e queremos res-
saltar a participação de um determinado dado no total (WIKIPEDIA, 2016).
Exemplo: a opinião dos alunos sobre a qualidade dos programas de TV. 
Como temos no total 50 alunos, o setor circular de 360° será equivalente a 50. Pela 
Figura 3, 39 pessoas responderam que a qualidade dos programas de TV é RUIM. Essas 
39 pessoas representam 39/50 = 0,78 (ou seja, 78% do total), 78% de 360°é 280,8°. 
Encontramos o ângulo correspondente ao número de alunos que acham que os progra-
mas de TV são ruins. Da mesma forma, 3 pessoas ou 6% responderam que a qualidade 
é BOA; 6% de 360° é 21,6°.
FIGURA 4 – Gráfico de setores da opinião dos alunos sobre a qualidade dos programas de TV
Fonte: Elaborada pela autora (2017).
• Gráfico deLinhas: é composto por dois eixos, um vertical e outro hori-
zontal, e uma linha que demonstra a evolução de um fenômeno ou processo, isto é, o 
seu crescimento ou diminuição, no decorrer de um determinado período.
26
FIGURA 5 – Gráfico de linhas da opinião dos alunos sobre a qualidade dos programas de TV
Fonte: Elaborada pela autora (2017).
Lembre-se
Os gráficos de barras, de setores e de linhas serão utilizados somente para representar 
dados em tabelas de frequência sem intervalos de classes, ou seja, para dados quanti-
tativos discretos ou qualitativos.
• Histograma: é formado por um conjunto de retângulos justapostos, no 
qual cada retângulo tem como base a amplitude das classes e como altura a frequência 
(simples, absoluta, relativa ou percentual) da classe que representa.
FIGURA 6 – Histograma
Fonte: Elaborada pela autora (2017).
27
Lembre-se
O histograma somente pode ser usado para representar tabelas de frequência com in-
tervalos de classes, ou seja, para dados quantitativos contínuos.
• BoxPlot (ou gráfico de caixa): é um gráfico utilizado para avaliar a 
distribuição do dados. Ele é formado pelo primeiro e terceiro quartil e pela mediana. As 
hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o li-
mite inferior e do quartil superior até o limite superior. “Os pontos fora desses limites são 
considerados valores discrepantes (outliers) e são denotados por asterisco (*)”. (PORTAL 
ACTION, 2017).
Exemplo: uma medida de bom desempenho de uma empresa é o retorno 
sobre os investimentos. A seguir, são apresentados os retornos, em milhares (R$), dos 
últimos 12 meses de serviço da empresa Y.
2.210 2.255 2.350 2.380 2.380 2.390
2.420 2.440 2.450 2.550 2.630 2.825
O primeiro passo é ordenar os dados; logo em seguida, calcula-se a media-
na, representada por Q2 (segundo quartil). 
A mediana é uma medida de localização do centro da distribuição dos dados, 
ou seja, é o valor que separa a metade maior e a metade menor de uma amostra, popu-
lação ou distribuição de probabilidade.
Se n é ímpar, a mediana é o elemento médio. Se n é par, a mediana é definida 
como a média dos dois elementos do meio.
Logo,
2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825
Encontrada a mediana, realiza-se o terceiro passo: localizar o primeiro e o 
terceiro quartil. Para isso, calculam-se as medianas das duas metades, ou seja, o pri-
meiro quartil é a mediana da metade inferior e o terceiro quartil é a mediana da metade 
superior.
28
FIGURA 7 – BoxPlot da variável “retornos em milhares (R$)”
Fonte: Elaborada pela autora (2017).
Portanto, a mediana é 2.405 e os quartis Q1 = 2.365 e Q3 = 2.500. 
A resenha dos dados mostra um menor valor 2.210 e um maior valor de 
2.825. Além desses valores, precisamos encontrar os limites, inferior e superior:
Limite Inferior: LI: {Q1-1,5 (Q3 - Q1)}
Limite Superior: LS: {Q3+1,5 (Q3 - Q1)}
Calculando o LI, temos: 
 LI: {Q1-1,5 (Q3 - Q1)} a LI = 2.365 - 1,5 (2.500-2.365) = 2.162,5
Calculando o LS, temos: 
 LS: {Q3+1,5 (Q3 - Q1)} a LS = 2.500 + 1,5 (2.500-2.365) = 2.702,5
Os dados fora desses limites são considerados outliers (pontos fora da curva, 
representado por “o”.). Sendo o limite superior 2.702,5; nesse caso, “o” = 2.825 é um 
outlier.
29
• Ramos-e-Folhas: tanto o histograma como o polígono de frequência 
fornecem uma ideia da forma da distribuição da variável sob consideração. “Um procedi-
mento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma 
ideia da forma da sua distribuição é o ramos-e-folhas” (CESPEDES, 2010, p. 29). Pode-
-se dizer que a vantagem dele sobre o histograma é que não perdemos informação sobre 
os dados. Ramo-e-folha é um procedimento alternativo ao histograma e ao polígono de 
frequência para obter uma ideia da forma da distribuição dos dados sem perder a infor-
mação sobre eles. “Não existe uma regra fixa para a sua construção, mas a ideia básica 
é dividir cada observação em duas partes: a primeira (ramo) é colocada à esquerda de 
uma linha vertical, a segunda (folha) é colocada à direita” (CESPEDES, 2010, p. 29). É 
possível construir um ramo com os primeiros dígitos ordenados. Quando tivermos muitas 
folhas em cada ramo, podemos duplicar os ramos.
Resumo
Neste capítulo, aprendemos várias formas diferentes de representar grafica-
mente um conjunto de dados, sendo ele de natureza quantitativa ou qualitativa. Além 
de construir os gráficos, agora você será capaz de interpretá-los. Em complemento às 
tabelas e aos gráficos, existem outras formas de sintetizar e descrever um conjunto de 
dados: por meio das chamadas medidas-resumo, que veremos mais à frente.
Atividades
1. Construa um histograma para os dados das Atividades 4 e 5 propostas no capítulo 1.
2. Construa um gráfico de setores para as variáveis “Empréstimo” e “Risco” da Atividade 
3 do capítulo 1.
3. O conceito de 20 alunos do 1º ano do ensino médio, na disciplina de Estatística, está 
na seguinte tabela:
A C C B D C E B B C
C E C A A B C A C B
a) Qual é o tipo dessa variável?
b) Monte uma tabela de distribuição de frequência sem intervalos de classes.
c) Construa um gráfico de linhas.
30
4,10 4,30 4,36 4,87 4,95 5,25 5,73 5,79 5,94 6,26
6,53 6,71 6,82 6,86 6,90 7,18 7,39 7,54 8,76 9,40
4. Construa um ramos-e-folhas para o conjunto de dados a seguir:
5. Um gerente anotou o número de clientes atendidos por dia, durante um período de 
30 dias, e obteve os seguintes dados:
4 4 5 5 6 4 3 7 4 4
8 6 5 5 5 7 5 4 3 6
5 5 6 8 5 10 6 6 5 5
Construa uma tabela de frequência sem intervalos de classes e um gráfico de barras.
Anotações
31
MEdIdas dEscrItIvas
Capítulo 3
32
As medidas-resumo descrevem e sintetizam as principais características ob-
servadas em um conjunto de dados, permitindo ao pesquisador melhor compreensão do 
comportamento dos dados. Essas medidas fazem parte da Análise Descritiva dos dados, a 
etapa inicial de um estudo estatístico. Elas podem ser subdivididas da seguinte maneira:
• Medidas de posição: fornecem um valor que representa a posição central 
do conjunto de dados, com os demais dados dispostos em torno deste. As medidas de 
posição são: moda, média e mediana.
• Medidas de dispersão: amplitude, variância, desvio-padrão e coeficiente 
de variação.
• Medidas de forma: assimetria e curtose.
No decorrer deste capítulo, estudaremos como calcular cada uma dessas me-
didas por meio de dados brutos (apresentados na forma em que foram coletados) e dados 
agrupados em tabelas de frequências.
Introdução
3.1 Média
A média é definida pela soma de todas as observações do conjunto de dados 
dividida pelo número de observações:
• Determinação da média por meio de tabelas de distribuição de 
frequência sem intervalos de classes:
Se temos n1 observações iguais a x1 , n2 observações iguais a x2 e nk observa-
ções iguais a xk , então a média será definida por:
Exemplo: nível de cicatrização.
33
TABELA 6 – Nível de cicatrização
Cicatrização (xi) Frequência (ni) Frequência relativa (fi) xi .ni
14 5 0,167 70
15 7 0,233 105
16 6 0,200 96
17 7 0,233 119
18 5 0,167 90
Total 30 1,000 480
Fonte: Elaborada pela autora (2017).
• Determinação da média por meio de tabelas de frequência com 
intervalos de classes:
Para o caso de tabelas com intervalos de classes, devemos definir o ponto 
médio da classe, que será o nosso xi:
Exemplo: quantidade de funcionários de 50 empresas do mesmo ramo:
TABELA 7 – Número de funcionários trabalhando em 50 empresas do mesmo ramo
Funcionários ni xi
40 ˫ 50 8 40+50 / 2 = 45
50 ˫ 60 22 55
60 ˫ 70 8 65
70 ˫ 80 6 75
80 ˫ 90 5 85
90 ˫ 100 1 95
TOTAL 50
Fonte: Elaborada pela autora (2017).
34
Lembre-se
Apesar de a média aritmética apresentar excelentes propriedades, que a mantém como 
uma das medidas mais importantes em Estatística, em certos casos ela pode não ser 
o parâmetro mais adequado para descrever um conjunto de dados. Isto pode ocorrer, 
entreoutros casos, quando existem dados aberrantes, extremos ou discrepantes. Pois 
todos os valores entram para o cálculo da média, então os valores extremos afetam no 
valor calculado e, em alguns casos, pode haver uma grande distorção, tornando, nesse 
caso, a média indesejável como medida de tendência central.
Exemplo: uma amostra de salário de 10 funcionários da empresa E (em mil 
reais): 1,2 – 1,2 – 1,3 – 1,5 – 1,7 – 1,8 – 1,9 – 2,1 – 2,3 – 55,0.
Note que, provavelmente, um dos salários deve ser de um dos diretores da 
empresa. Sua inclusão vai alterar sensivelmente o salário médio dos funcionários. 
O salário médio dos funcionários sem o maior salário é:
(1,2 + 1,2 + 1,3 + 1,5 + 1,7 + 1,8 + 1,9 + 2,1 + 2,3) = 15/9 = 1,67 
(R$ 1670,00)
Já considerando o maior salário, a média é:
(15 + 55) /10 = 7,0 (R$ 7000,00)
Portanto, mostrando uma situação totalmente enganosa.
3.2 Mediana
A mediana (Md) é o valor central da variável quando os valores estão dispos-
tos em ordem crescente ou decrescente de magnitude. É o valor que divide o conjunto 
de dados em dois subconjuntos com o mesmo número de elementos. 
Se o número de elementos “n” for ímpar, a Md será o elemento central da 
sequência de dados; se for par, a Md será a média aritmética entre os dois elementos 
centrais da sequência de dados:
Exemplo: o número de empresas falidas no mês de janeiro nos últimos 7 
anos é: 52 – 41 – 37 – 82 – 24 – 63 – 68. Ordenando esses valores de forma crescente, 
temos: 24 – 37 – 41 – 52 – 63 – 68 – 82.
35
• Dados agrupados em tabelas de frequência sem intervalos de classes
Para o cálculo da mediana por meio de tabelas de frequência sem intervalos de 
classes, calculamos . A mediana será o valor da variável que corresponde a tal frequência 
acumulada imediatamente superior à metade da soma das frequências. 
Exemplos:
a) quando n é ímpar.
Considere a seguinte distribuição:
TABELA 8 – Cálculo quando n é ímpar
TABELA 9 – Cálculo quando n é ímpar
Idades ni fac
1 3 3
2 4 3+4=7
4 5 12
5 2 14
7 5 19
Total 19 -
Idades ni fac Posições
1 3 3 1ª – 3ª
2 4 7 4ª – 7ª
4 5 12 8ª– 12ª a 10ª
5 2 14 13ª – 14ª
7 5 19 15ª – 19ª
Total 19 - -
Fonte: Elaborada pela autora (2017).
Fonte: Elaborada pela autora (2017).
fac é a frequência absoluta acumulada
n = 19
A partir da tabela 8, vamos organizar o rol para visualizarmos melhor as po-
sições que encontraremos. 
1 1 1 3 3 3 3 4 4 4 4 4 5 5 7 7 7 7 7
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª 12ª 13ª 14ª 15ª 16ª 17ª 18ª 19ª
Para que você compreenda melhor, anotaremos na tabela 9 as posições 
encontradas:
36
O primeiro passo é encontrar a posição, como n é ímpar, temos:
Posição da mediana: 
A 10ª posição é ocupada pelo valor 4. Logo, Md = 4.
b) quando n é par.
Considere a seguinte distribuição:
TABELA 10 – Cálculo quando n é par
Número de meninos ni fac
0 2 2
1 6 8
2 10 18
3 12 30
4 4 34
Total 34 -
Fonte: Elaborada pela autora (2017).
fac é a frequência absoluta acumulada
n = 34
O primeiro passo é encontrar a posição, ou seja, . Como n 
é par, a mediana está entre a 17ª e 18ª posição.
Se analisarmos a tabela 10, e fizermos do mesmo modo como o exemplo 
anterior, temos:
TABELA 11 – Cálculo quando n é par
Número de meninos ni fac Posições
0 2 2 1ª – 2ª
1 6 8 3ª – 8ª
2 10 18 9ª –18ª a 17ª e 18ª
3 12 30 19ª – 30ª
4 4 34 31ª – 34ª 
Total 34 - -
Fonte: Elaborada pela autora (2017).
A 17ª posição é ocupada pelo valor 2 e a 18ª posição pelo valor 2, então:
Como n é par, utilizamos: 
Logo, Md = 2.
Vamos ver mais um caso para fixar o entendimento do assunto:
Exemplo: número de irmãos dos 50 alunos da sala do 4º ano de Fonoaudiologia.
37
TABELA 12 – Número de irmãos
Número de irmãos ni fac
1 28 28
2 14 42
3 6 48
4 1 49
7 1 50
Total 50 -
Fonte: Elaborada pela autora (2017).
fac é a frequência absoluta acumulada
n = 50
O primeiro passo é encontrar a posição, ou seja, . Como n 
é par, a mediana está entre 25ª e 26ª posição.
• Dados agrupados em tabelas de frequência com intervalos de classes
Para o caso de tabelas de frequência com intervalos de classes é um pouco 
mais complicado, pois nesse caso precisamos definir qual ponto do intervalo será esco-
lhido para representar a mediana.
Primeiro precisamos definir qual é o intervalo de classe em que se encontra 
a mediana (classe mediana). Nesse caso, diferente do que vimos anteriormente, a po-
sição da mediana será sempre definida por , independentemente se a quantidade 
de dados for par ou ímpar.
Nota-se que a mediana foi definida pela média do 25º e 26º valor, e para 
identificar quais eram esses valores olhamos para a frequência acumulada. Por exemplo: 
os primeiros 28 valores do conjunto de dados é igual a 1, então, o 25º e 26º valores são 
1. E se eu quisesse saber qual é o 36º valor? Bom, nesse caso seria 2, pois a frequência 
acumulada mostra que do 29º ao 42º o valor é igual a 2.
Atenção
Em muitos livros, você poderá encontrar a seguinte fórmula para o cálculo do valor posi-
cional da tabela de frequências: , mas aqui chamamos a frequência absoluta de ni . 
Portanto, utilizamos .
38
A mediana é . Portanto, a classe em negrito é a classe mediana, 
pois é a classe que contém o 32º valor do conjunto de dados.
Para descobrir que valor é esse, faremos:
Em que:
li= limite inferior da classe da mediana
Fant= frequência acumulada da classe anterior à mediana
nMd= frequência absoluta da classe mediana
hMd= amplitude da classe mediana
Exemplo: vamos encontrar a mediana dos pagamentos efetuados utilizando 
os dados da seguinte tabela que apresenta a distribuição de pagamentos:
TABELA 13 - Distribuição dos pagamentos de 64 funcionários da empresa LM
i Pagamento (R$) ni fac
1 450 ˫ 550 8 8
2 550 ˫ 650 10 18
3 650 ˫ 750 11 29
4 750 ˫ 850 16 45
5 850 ˫ 950 13 58
6 950 ˫ 1050 5 63
7 1050 ˫ 1150 1 64
Fonte: Elaborada pela autora (2017).
Portanto, metade dos pagamentos foi igual ou superior à R$ 768,75.
Quando o limite superior (Li) da classe mediana for igual à n/2, a mediana 
será igual ao próprio limite superior.
Exemplo:
O passo seguinte é um problema de interpolação (inserção de uma determi-
nada quantidade de valores entre dois números dados), supondo que os valores distri-
buem uniformemente em todo o intervalo de classe.
Para isso, existe uma fórmula:
39
TABELA 14 – Tabela com intervalo de classes
i Classes ni fac
1 0 ˫ 10 1 1
2 10 ˫ 20 3 4
3 20 ˫ 30 9 13
4 30 ˫ 40 7 20
5 40 ˫ 50 4 24
6 50 ˫ 60 2 26
Fonte: Elaborada pela autora (2017).
Nesse caso, a mediana é: 
A classe mediana é a 3ª classe (em negrito). A mediana é o último valor 
dessa classe, ou seja, Md = 30.
Atenção
A mediana tem interpretação simples quando as observações são muito diferentes umas 
das outras. Todavia, quando há valores repetidos, a sua interpretação não é tão simples 
(DUARTE, 2016).
Veja o seguinte exemplo: 
Resultado da prova: 2 – 2 – 5 – 5 – 5 – 5 – 5 – 7 – 8 – 8 – 8. A mediana seria 
a nota 5, mas só existem 2 notas menores e 4 notas maiores que 5. Essa desvantagem, 
mais a dificuldade de sua obtenção, faz com que ela seja menos utilizada do que a média 
aritmética. 
No entanto, existem casos nos quais o emprego da mediana é necessário 
(GUIMARÃES, 2008):
• Valores aberrantes ou atípicos têm maior influência na mediana do que 
sobre a média, pois a mediana não considera a soma dos elementos, e sim a ordem dos 
elementos.
• No caso em que a primeira ou a última classe (ou ambas) tenham respec-
tivamente o extremo inferior e superior indefinidos e o centro da distribuição não esteja 
contido em nenhuma delas, é possível calcular a mediana, mas a média não. 
40
3.3 Moda
Para uma distribuição de frequências, a moda (Mo) é o valor que ocorre com 
mais frequência. A moda é também conhecida como tipo dominante, valor popular e 
valor de densidade máxima de um conjunto de dados.
Apesar de seu significado ser bem simples, a moda nem sempre existe, nemsempre é única.
• Quando não há valores repetidos, a série é amodal.
• Quando tem duas modas, a série é bimodal.
• Quando tem várias modas, a série é multimodal.
Exemplos: 
• Para o exemplo do número de irmãos, Mo = 1.
• Para o exemplo da cicatrização, as modas são 15 e 17, ou seja, a série é 
bimodal.
Importante
A moda pode ser usada como uma medida de tendência central também para variáveis 
qualitativas. Por exemplo: “Doenças cardíacas constituíram a causa principal de mor-
talidade no ano de 2015”. Um número maior de óbitos ocorreu por causa de doenças 
cardíacas, ou seja, “doenças cardíacas” é a moda da distribuição.
Para os dados agrupados em intervalos de classe, a moda pertence à classe 
de maior frequência. Mas qual valor deverá ser escolhido para representá-la? Podemos 
usar o seguinte estimador:
Em que:
li= limite inferior da classe da moda (classe moda).
∆1= nMo- nant e ∆2= nMo - npost
nant e npost = respectivamente frequência absoluta simples da classe anterior 
e da classe posterior à classe modal.
nMo = frequência absoluta simples da classe modal.
hMo = amplitude da classe modal.
Exemplo: vamos encontrar a moda dos pagamentos efetuados utilizando os 
dados da tabela a seguir:
41
TABELA 15 – Distribuição dos pagamentos de 64 funcionários da empresa LM
i Pagamento (R$) ni
1 450 ˫ 550 8
2 550 ˫ 650 10
3 650 ˫ 750 11
4 750 ˫ 850 16
5 850 ˫ 950 13
6 950 ˫ 1050 5
7 1050 ˫ 1150 1
Fonte: Elaborada pela autora (2017).
A classe modal é a 4ª classe (750 ˫ 850). Então, a moda será:
Observações gerais:
• Para calcular a moda de uma variável precisamos apenas da distribuição de 
frequência absoluta (contagens).
• Já para a mediana necessitamos ordenar as realizações da variável.
• A média só pode ser calculada para variáveis quantitativas.
• Essas condições limitam bastante o cálculo de medidas-resumo para vari-
áveis qualitativas.
• Para as variáveis qualitativas ordinais podemos calcular moda e mediana.
• Para as variáveis nominais podemos trabalhar somente com moda.
Notas:
• A média é a mais utilizada, principalmente quando não há valores aberran-
tes, sendo a medida mais conveniente para cálculos posteriores. 
• A Md deve ser usada, sempre que possível, como medida representativa de 
distribuições fortemente assimétricas, pois o seu valor não é afetado por valores extremos.
• A Mo é usada quando há interesse em saber o ponto de concentração do 
conjunto ou o tipo de distribuição que se está analisando, sendo que o seu valor, em se 
tratando de dados agrupados, é fortemente afetado pela maneira como as classes são 
constituídas.
42
3.4 Separatrizes
Segundo Guimarães (2008, p. 49), “além da mediana que, por definição, 
divide um conjunto ordenado de valores em duas partes iguais, existem outras medidas 
que dividem o conjunto de dados em 4, 10 ou 100 partes iguais”. São elas: Quartis, Decis 
e Percentis. Ainda conforme o autor, essas medidas não são de tendência central, mas 
elas são medidas de posição, pois fornecem pontos à esquerda ou à direita, dos quais 
são encontradas frações da frequência total.
• Quartis
Denominamos quartis os valores de uma série que dividem em quatro partes 
iguais. Em cada parte há n/4 (25%) das observações do conjunto.
• Decis
São valores que dividem o conjunto ordenado dos valores de X em 10 partes 
iguais, isto é, 10% das observações são menores que o 1º Decil (D1), 20% são menores 
que o segundo Decil (D2), etc.
• Percentis
São valores que dividem o conjunto ordenado de dados de X em 100 partes iguais.
Exemplo: vamos usar a variável Altura. Teríamos que ordenar os dados, 
mas vamos usar os resultados de Ramos-e-Folhas para facilitar. Encontre Q1, Q3, D6, P38 
e P93.
Para encontrar Q1, 25% dos dados ou n/4 = 50/4 = 12,5.
Para encontrar Q3, 75% dos dados ou (3n)/4 = (3x50)/4 = 37,5.
43
Para encontrar D6 , 60% dos dados ou (6n)/10 = (6x50)/10 = 30.
D6 = x30 = 1,69
Para encontrar P38 , 38% dos dados ou (38n)/100 = 19.
P38 = x19 = 1,64
Para encontrar P93 , 93% dos dados ou (93n)/100 = 46,5.
3.5 Amplitude Total
A primeira medida de dispersão que vamos comentar é a amplitude total. Ela 
é definida pela diferença entre o maior valor e o menor valor do seu conjunto de dados:
A = xmáx - xmín
De acordo com Tavares (2007, p. 32), são desvantagens da amplitude:
• Considera somente os dois valores extremos, por isso é apenas uma indi-
cação aproximada da dispersão. 
• Apresenta muita variação de uma amostra para outra, mesmo que ambas 
sejam extraídas da mesma população. 
“Portanto, você deve trabalhar com uma medida que leve em consideração 
todas as observações”, ou seja, a variância e o desvio-padrão (TAVARES, 2007, p. 32).
Exemplo: vamos comparar a variabilidade de 3 conjuntos de dados: A, B e 
C. As amplitudes de cada um são:
AA = 70 – 70 = 0 AB = 90 – 50 = 40 AC = 160 – 5 = 155
O conjunto C é o que apresenta maior variabilidade, ou seja, é o conjunto 
mais heterogêneo (os valores diferem muito entre si). Em compensação, o conjunto A é 
o mais homogêneo, pois não apresentou nenhuma variabilidade nos dados.
3.6 Variância
Considere a seguinte situação: tenho notas de provas de 3 turmas de alunos:
44
TABELA 16 – Notas das turmas A, B e C
Turma Nota Média
A 2 3 4 6 6 8 9 10 6
B 4 5 5 6 6 7 7 8 6
C 6 6 6 6 6 6 6 6 6
Fonte: Elaborada pela autora (2017).
Calculando a média de cada turma, observa-se que todas deram iguais a 
6 (x̅A = x̅B = x̅C = 6). Então, pode-se concluir que as turmas mostraram ter adquirido o 
mesmo conhecimento? Evidente que NÃO. Mesmo as médias sendo iguais, a variância 
entre as notas foi diferente em cada turma. Por exemplo: na turma A as notas são muito 
diferentes entre si, repetido apenas o valor 6, ou seja, há uma grande variação entre os 
dados. Já na turma C todas as notas são iguais, portanto a variância é zero. Por isso, a 
importância de saber a variância de um conjunto de dados.
“A variância de uma amostra {x1, x2,….,xn} de n elementos é definida como 
a soma ao quadrado dos desvios dos elementos em relação à sua média x̅ dividido por 
(n-1). Ou seja, a variância amostral é dada por” (PORTAL ACTION, 2017):
3.7 Desvio-Padrão
“O desvio-padrão amostral de um conjunto de dados é igual à raiz quadrada da va-
riância amostral. Dessa forma, o desvio-padrão amostral é dado por” (PORTAL ACTION, 2017):
“O desvio-padrão, quando analisado isoladamente, não dá margem a muitas 
conclusões. Por exemplo, para uma distribuição cuja média é 300, um desvio-padrão 
de 2 unidades é pequeno, mas para uma distribuição cuja média é 20, ele já não é tão 
pequeno” (TAVARES, 2007, p. 34). Por isso, ele é mais recomendável para comparar 2 
ou mais grupos.
Importante
Segundo Tavares (2007, p. 34), são condições para se usar o desvio-padrão ou variância 
para comparar a variabilidade entre grupos: 
• mesmo número de observações;
• mesma unidade;
• mesma média.
45
• Cálculo por meio da tabela de frequência sem intervalos de classes:
Quando os dados estiverem agrupados em tabelas sem intervalos de classes, 
a variância será definida por:
É a mesma base da fórmula apresentada anteriormente, a única diferença é 
que agora iremos acrescentar o número de ocorrências de cada valor da variável (frequ-
ência absoluta - ni).
Exemplo:
TABELA 17 - Distribuição de frequências de funcionários da empresa segundo o número de filhos
Número de filhos (xi) Número de funcionários (ni)
0 4
1 5
2 7
3 3
5 1
TOTAL 20
Fonte: Elaborada pela autora (2017).
Cálculo da variância para os dados da Tabela 17:
Cálculo do desvio-padrão:
O primeiro passo é fazer o cálculo da média, ou seja:
46
Exemplo:
TABELA 18 - Distribuição de frequências da variável salário
Intervalo de classe Ponto médio (xi)
Frequência 
absoluta (ni)
Frequência 
relativa (fi)
4 ˫ 7,9 (4+7,9)/2=5,95 10 10/36=0,27≈0,28
7,9 ˫ 11,8 9,85 12 0,33
11,8 ˫ 15,7 13,75 7 0,19
15,7 ˫ 19,6 17,65 6 0,17
19,6 ˫ 23,5 21,55 1 0,03
Total 36 1
Fonte: Elaborada pela autora (2017).
Considerando a Tabela 18:
TABELA 19– Cálculo da variância
(xi - x̅ )
2 ni.(xi - x̅ )
2
27,04 270,4
1,69 20,28
6,76 47,32
42,25 253,50
108,16 108,16
Total 699,66
Fonte: Elaborada pela autora (2017).
Logo, a variância e o desvio-padrão serão:
• Cálculo por meio da tabela de frequência com intervalos de classes:
Quando formos calcular a variância a partir de tabelas de frequência com 
classes, o procedimento será o mesmo adotado para tabelas sem intervalos de classes, 
porém, nesse caso xi será o ponto médio da classe (definido no tópico Média):
 Então:
47
3.8 Coeficiente de Variação
Quando as condições para utilizar o desvio-padrão em comparações entre 
grupos não são satisfeitas, usaremos uma medida estatística chamada de Coeficiente de 
Variação (CV). O coeficiente será dado por meio da expressão:
Em que: s é o desvio-padrão e x̅ é a média do conjunto de dados.
Exemplo: queremos comparar a variabilidade de dois conjuntos de dados: 
o custo de fabricação de peças automotivas (em reais) e o tempo gasto na fabricação de 
cada peça (em segundos).
TABELA 20 – Média e desvio-padrão das variáveis Custo e Tempo
x̅ s
Custo 175 reais 5 reais
Tempo 68 segundos 2 segundos
Fonte: Elaborada pela autora (2017).
A princípio, você poderia concluir que o Custo apresenta maior variabilidade. 
No entanto, as condições citadas anteriormente deveriam ser satisfeitas para que se 
pudesse utilizar o desvio-padrão para comparar a variabilidade (TAVARES, 2007, p. 35). 
Como as condições não são satisfeitas, vamos calcular o CV dos dois grupos:
Portanto, como o CV do Tempo foi maior, ele apresenta maior dispersão do 
que o Custo, mudando, assim, a conclusão anterior (TAVARES, 2007, p. 35).
3.9 Assimetria
Assimetria é uma das medidas associadas à forma de uma distribuição de 
dados, ela indica o grau de desvio de uma distribuição de frequência. O coeficiente de 
assimetria permite definir se a distribuição é simétrica (Média = Moda = Mediana) ou 
assimétrica.
Quando a distribuição é simétrica, ela é unimodal e suas observações dis-
tribuem-se de modo aproximadamente simétrico ao redor da média, ou seja, o seu 
histograma representa um padrão de comportamento conhecido como Modelo Normal. 
48
FIGURA 8 – Formas da curva de distribuição de acordo com a assimetria
Fonte: Elaborada pela autora (2017).
De acordo com Artes (2014, p. 3-4):
Conhecer o tipo e intensidade da assimetria de um conjunto de dados 
pode trazer informações úteis ao analista. Por exemplo, caso a distri-
buição tenha uma forte assimetria positiva, sabe-se que apesar da alta 
concentração de dados em valores mais baixos, a média sofrerá influ-
ência da cauda à direita, deslocando-se em sua direção. Nesse caso, 
haverá mais observações abaixo da média do que acima dela. O inverso 
acontece se a assimetria for negativa. Admita que o interesse seja ana-
lisar os retornos de duas aplicações, ambas com mesma média e mes-
ma variância, no entanto, uma delas com assimetria positiva e a outra 
negativa. No caso de assimetria negativa, espera-se que a quantidade 
de dias com retornos inferiores a média seja maior do que acima, no 
entanto, a ocorrência de valores muito maiores do que a média é mais 
comum do que valores muito abaixo dela (o inverso acontece com os 
retornos do ativo com assimetria negativa). Essa informação pode ser 
útil, caso o investidor tenha que se decidir por uma dessas aplicações.
• Como medir a assimetria? Para medir a assimetria utilizamos o Coeficiente 
de Assimétrica de Pearson (As), ele é definido como:
Em que: 
s = desvio-padrão; Mo = moda; x̅ = média
Se As < 0 a curva será assimétrica negativa.
Se As > 0 a curva será assimétrica positiva.
Se As = 0 a curva será simétrica.
No caso das distribuições assimétricas, elas podem ser assimétrica positiva 
(Moda ≤ Mediana ≤ Média) ou assimétrica negativa (Média ≤ Mediana ≤ Moda). Nas 
assimétricas negativas, há uma alta concentração de dados nos valores mais baixos. A 
cauda mais longa da distribuição fica à direita, indicando a ocorrência de valores altos 
com baixa frequência; já nas assimétricas positivas, a maior concentração de dados está 
nos valores mais altos. A cauda mais longa da distribuição fica à esquerda. Para ilustrar 
a forma de cada uma dessas distribuições, segue a imagem:
49
3.10 Curtose
A medida da Curtose indica o grau de achatamento da curva de distribuição 
dos dados. Ela também é uma medida de forma da análise descritiva. As curvas podem 
ser definidas como: Platicúrtica (curva mais achatada), Mesocúrtica (curva normal) e 
Leptocúrtica (curva mais afunilada).
FIGURA 9 – Tipo de curva segundo o grau de achatamento
Fonte: MSPC (2008).
• Como medir a Curtose? Por meio do Coeficiente Centílico de Curtose:
Em que:
Q3= 3º Quartil
Q1= 1º Quartil
P90= Percentil 90
P10= Percentil 10
Se K = 0,263 a curva será Mesocúrtica.
Se K < 0,263 a curva será Leptocúrtica.
Se K > 0,263 a curva será Platicúrtica.
Resumo
Neste capítulo, vimos que podemos tirar várias conclusões do conjunto de 
dados a partir da Análise Descritiva. As medidas-resumo nos fornecem informações 
importantes sobre a distribuição de uma variável. Vimos que a partir das medidas de 
posição podemos localizar o centro de uma distribuição, a partir das medidas de disper-
são temos uma noção de como os dados variam em torno da média, se eles são homo-
gêneos ou heterogêneos. E a partir da assimetria e curtose, conseguimos informações 
sobre a forma da curva de distribuição dos dados. Todas essas medidas juntas servirão 
de auxílio no momento de escolher o melhor procedimento para análise dos dados.
50
Atividades
1. Queremos estudar a idade dos 350 funcionários da Indústria Têxtil Moriá e vamos fa-
cilitar esse processo por meio de uma amostra. Para determinar que tamanho dever ter 
essa amostra, foi colhida uma amostra-piloto. As idades observadas foram:
42, 27, 21, 55, 18, 27, 30, 21, 24
Calcule a média, a mediana, a moda e a variância para os dados apresentados.
2. Considere o número de filhos de 20 empregados da seção de orçamentos de uma 
empresa:
Número de filhos Frequência absoluta (ni)
0 10
1 3
2 3
3 2
4 1
5 1
TOTAL 20
Duração (em anos) Número de casamentos
0 ˫ 6 2800
6 ˫ 12 1400
12 ˫ 18 600
18 ˫ 24 150
24 ˫ 30 50
TOTAL 5000
a) Qual a porcentagem de funcionários que tem mais do que 2 filhos? E a porcentagem 
de funcionários que possuem até 1 filho?
b) Qual a média de filhos dos funcionários da empresa?
c) Calcule a mediana, a moda e o desvio-padrão.
3. Calcule a média de clientes atendidos por dia e a moda a partir da tabela construída 
na atividade 5 do capítulo 2.
4. Com o objetivo de analisar a duração dos casamentos em Presidente Prudente, foi co-
letada uma amostra de 5000 certidões no cartório da cidade. Os dados verificados estão 
representados nesta tabela:
a) Qual a duração média dos casamentos? E a mediana?
b) Encontre a variância e o desvio-padrão da duração dos casamentos.
51
5. Um empresário do ramo alimentício deseja inserir um novo prato no seu cardápio. 
Porém, antes disso, ele achou necessário testar a aceitação do prato pelo público. Para 
isso, durante 20 dias, ele anotou o número de pedidos desse prato:
23 27 30 25 32 29 28 29 32 31 32 25 32 33 38 33 42 34 37 46
Com esses dados, calcule os coeficientes de Assimetria e Curtose e interprete os resultados.
Anotações
52
53
aMostraGEM
Capítulo 4
54
No cotidiano é comum se deparar com perguntas que, aos olhos, requerem 
muito tempo e dinheiro para serem respondidas, por exemplo: quantos eleitores irão 
votar em certo candidato à presidência? Ou então, da população de uma determinada 
cidade, quantas pessoas são idosas, quantas vivem na área rural e quantas estão de-
sempregadas?
Em vez de entrevistar uma população inteira para conhecer a informação, 
existe outro processo possível, que consiste em consultar apenas um grupo de pessoas 
dessa população, que constituem uma amostra. Esse procedimento de seleção de um 
grupo de pessoas é denominado Amostragem. 
A característica ou informação desconhecidasobre a população é denomina-
da parâmetro. “Se a amostra representa de fato toda a população, podemos utilizar as 
características dos seus elementos para estimar a característica de toda população”, ou 
seja, obter uma estimativa do valor do parâmetro. Esse processo de tirar conclusões so-
bre a população a partir de uma amostra é chamado Inferência (CASULO, 2014, p. 11).
“As principais vantagens da utilização do estudo por amostras representativas 
(aquelas que mantêm as características da população de onde a amostra foi retirada) em 
relação ao censo (avaliação de toda a população) são”: a economia de tempo, redução 
dos custos e a obtenção de resultados menos propícios ao erro (TAVARES, 2007, p. 74).
Introdução
Lembre-se
De acordo com Tavares (2007, p. 73): 
• “População: é o conjunto de elementos que apresenta uma ou mais características em 
comum”.
• “Parâmetro: é um valor desconhecido associado a uma característica da população”.
• “Estimador: é uma função (fórmula) que permite calcular a estimativa do valor de um 
parâmetro, baseando-se nas observações de uma amostra”.
A amostragem é uma técnica ou conjunto de procedimentos necessários 
para coletar amostras e estudar as populações por meio delas, e quando realizada com 
técnicas adequadas, é um fator responsável pela determinação da representatividade da 
população em questão. 
55
O processo pode ser probabilístico (caracterizado pelo fato de todos os 
elementos da população terem alguma chance não nula e conhecida de serem selecio-
nados) ou não probabilístico (a escolha dos elementos da amostra é feita por um pro-
cedimento de seleção, segundo critérios estabelecidos pelo pesquisador, portanto alguns 
elementos não têm nenhuma chance de serem escolhidos). 
É importante lembrar que, sempre que possível, cada elemento da popula-
ção deve ter igual probabilidade de participar da amostra, fazendo com que diminua o 
viés de amostragem.
As técnicas da estatística pressupõem que as amostras utilizadas sejam pro-
babilísticas, que é a melhor recomendação que se deve fazer no sentido de se garantir 
que a amostra seja representativa, pois o acaso será o único responsável por eventuais 
discrepâncias entre população e amostra.
Outro fator importante é o tamanho da amostra, sabe-se que amostras 
maiores geram estimativas mais precisas, porém, erros menores têm seu custo: maiores 
complexidades, mais equipes, mais equipamentos, mais tempo de trabalho em campo, 
etc., o que implica custos financeiros mais elevados. Por outro lado, deve-se levar em 
conta que os resultados extraídos de amostras menores estão sujeitos a grandes varia-
bilidades, transmitem pouca confiança e, portanto, não são considerados adequados 
para a tomada de decisões estratégicas. Portanto, o ideal seria encontrar um ponto de 
equilíbrio entre o erro permitido pelo pesquisador e a precisão requerida nos resultados.
Neste capítulo, veremos as principais técnicas de amostragem: Amostragem Alea-
tória Simples (AAS), Amostragem Aleatória Estratificada (AAE) e Amostragem Sistemática (AS).
4.1 Amostragem Aleatória Simples (AAS)
Na definição de Bolfarine e Bussab (2005, p. 73):
A Amostragem Aleatória Simples (AAS) é o método mais simples e mais 
importante para a seleção de uma amostra. Além de servir como um 
plano próprio, o seu procedimento é usado de modo repetido em proce-
dimentos de múltiplos estágios. Ele pode ser caracterizado pela definição 
operacional: De uma lista com N unidades elementares, sorteiam-se com 
igual probabilidade n unidades.
É um dos tipos de amostragem que utiliza técnica probabilística. Na AAS, 
uma amostra é escolhida de tal forma que cada item ou pessoa na população tem a 
mesma probabilidade de ser incluída, ou seja, se a população tem um tamanho N, cada 
pessoa dessa população tem a mesma probabilidade igual a 1/N de entrar na amostra.
56
FIGURA 10 – Esquema da retirada de uma amostra de n indivíduos de uma população de tamanho N
Fonte: Elaborada pela autora (2017).
Segundo Bolfarine e Bussab (2005, p. 73), “a caracterização para o uso do 
plano AAS é a existência de um sistema de referências completo, descrevendo cada uma 
das unidades elementares. Deste modo, tem-se bem listado o universo”: 
U = {1, 2,..., N}
Em que: N é o tamanho fixo e algumas vezes desconhecido da população.
O plano é descrito do seguinte modo por Bolfarine e Bussab (2005, p. 73):
i) Utilizando-se um procedimento aleatório (tabela de números, urna, 
etc.), sorteia-se com igual probabilidade um elemento da população U.
ii) Repete-se o processo anterior até que sejam sorteadas n unidades, 
tendo sido este número prefixado anteriormente.
iii) Caso seja permitido o sorteio de uma unidade mais de uma vez, tem-
-se o processo AAS com reposição, que será indicado por ASSc. Quando 
o elemento sorteado é removido de U antes do sorteio do próximo, 
tem-se o plano AAS sem reposição. O primeiro procedimento, também 
conhecido como AAS irrestrito, será indicado por AASc, enquanto que o 
segundo, conhecido como AAS restrito, será designado por AASs.
De acordo com Paulino (2014, p. 18):
Do ponto de vista prático, o plano ASSs é muito mais interessante, pois 
satisfaz o princípio intuitivo de que ‘não se ganha mais informação se 
uma mesma unidade aparece mais de uma vez na amostra’. Por ou-
tro lado, o plano ASSc introduz vantagens matemáticas e estatísticas, 
como a independência entre as unidades sorteadas, que facilita em 
muito a determinação das propriedades dos estimadores das quantida-
des populacionais de interesse.
Os valores obtidos para cada item das N unidades que fazem parte da popu-
lação são denotados por y1, y2, … , yN. Os valores correspondentes para as unidades na 
amostra são denotados por y1, y2, … , yn ou yi , (i=1, 2, ... , n) (COCHRAN, 1977).
57
Sendo assim, têm-se as seguintes denifições:
• O total populacional é caracterizado pela letra Y e pode ser estimado por:
Ŷ=Ny̅
Em que: y̅ é a média da amostra e N é o tamanho da população.
E a variância do total populacional (V(Ŷ)) tem o seguinte estimador não viesado:
• A média populacional corresponde à Y̅ e é estimada pela estatística:
Sendo que sua variância (V(Y̅)) é estimada por:
• A variância populacional (σ2) pode ser estimada respectivamente por:
Exemplo:
Segundo Cochran (1977), foram passadas listas de assinaturas para uma 
solicitação, obtendo-se 676 folhas. Cada folha tinha espaço para 42 assinaturas (mas 
nem todas as folhas foram preenchidas). Uma amostra AASs de 50 folhas (cerca de 7%) 
apresenta os seguintes resultados:
Atenção
Na estatística, quando tratamos de um parâmetro populacional, não utilizamos acentos 
em cima da letra que o representa. Mas, quando se trata do correspondente estimador 
amostral desse parâmetro, ele é denotado com um acento circunflexo em cima da letra.
58
Logo, o total estimado de assinaturas foi:
Ŷ = N.y̅ = 676.29,42 = 19.887,92 ≈ 19.888 assinaturas.
O tamanho da amostra n deve ser determinado de tal forma que o estimador 
obtido tenha um erro máximo de estimação igual a B, com determinado grau de con-
fiança (probabilidade). De maneira mais específica, o problema consiste em determinar 
n, de modo que:
 (1)
A partir dessa amostra, estime o total de assinaturas encontradas nas 676 folhas.
n = 50 ; N = 676 ; Y: número de assinaturas
Como os dados estão organizados em uma tabela de frequência sem inter-
valos de classes, a média será estimada por:
Fonte: Elaborada pela autora (2017).
TABELA 21 – Tabela de frequência para o exemplo do número de assinaturas
Número de assinaturas Frequência absoluta (ni)
3 1
4 1
5 2
6 3
7 1
9 1
10 1
11 1
14 1
15 2
16 2
19 1
23 1
27 2
29 1
32 1
36 1
41 4
42 23
TOTAL 50
59
Então, para B fixado, comparando-se as expressões (1) e (2), a solução para 
o problema consiste em determinar n de tal forma que:
Para n grande, tem-se que:
 (2)
Resolvendo a equação em n, o tamanho da amostra pode ser definido por 
meio da equação:
Logo, para a determinaçãodo tamanho da amostra, é preciso fixar o erro 
máximo desejado (B), com um grau de confiança 1-a (trazido pelo valor crítico za) e pos-
suir algum conhecimento a priori da variabilidade da população (σ2). Os dois primeiros 
são fixados pelo pesquisador e, quanto ao terceiro, a resposta exige mais trabalho. O uso 
de pesquisas passadas, “adivinhações” estatísticas, ou amostras piloto são os critérios 
mais usados (BUSSAB; MORETTIN, 2010).
As três maneiras mais utilizadas para se obter a amostra n são o método por 
sorteio, no qual são escolhidos um a um até que esteja completa a amostragem, a tabela 
de números aleatórios, na qual serão sorteados até que seja satisfeita a solicitação da 
amostra e a geração de números aleatórios por meio de um software estatístico.
• Amostragem por sorteio 
Nesse método, primeiramente temos que desenvolver uma lista dos elemen-
tos da população, numerados conforme a quantidade de elementos, para depois colo-
camos em uma urna e fazemos o sorteio. Lembrando que todo o número tem a mesma 
probabilidade de ser sorteado e não há repetição, os números são sorteados um a um 
até obter a quantidade definida para a amostra. 
Exemplo: uma sala de aula do 3º termo de Jornalismo tem 30 alunos. Uma 
pesquisa realizada pelo coordenador do curso pretende conhecer a idade média dos 
alunos desse termo. As idades coletadas de cada aluno foram:
25, 20, 35, 21, 22, 24, 25, 30, 38, 24, 20, 20, 25, 20, 19,
25, 23, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23.
60
TABELA 22 – Tabela de números aleatórios
09 * 25 * 21 * 06 * 89 86
11 * 37 13 Repet. 21 Repet. 37 32
51 59 33 19 * 62 70
86 13 * 62 46 56 96
35 67 61 93 43 61
12 * 20 * 60 80 37 18 *
Fonte: Elaborada pela autora (2017).
3º passo: na tabela estão os números sorteados, indicados com asterisco. 
Os números que não têm na amostra e os valores repetidos são descartados. Nossa 
amostra então será: 09, 11, 12, 25, 13, 20, 21, 06, 19, 18.
• Utilizando um software estatístico
Em vez de utilizar uma tabela pronta de números aleatórios, também pode-
mos usar uma ferramenta disponível nos softwares estatísticos e até mesmo no Excel, 
que gera certa quantidade de números aleatórios com uma determinada quantidade de 
casas decimais. No Excel, essa ferramenta é chamada Aleatório. Depois, o procedimen-
to é o mesmo utilizado com a tabela, nós enumeramos os elementos da população para 
que possam ser identificados e depois geramos números aleatórios até que a quantidade 
definida para amostra seja coletada. 
Para facilitar a análise, o intuito do coordenador é extrair, por sorteio, uma 
amostra de apenas 10 alunos desta classe (população). Então, o primeiro passo do co-
ordenador é escrever as idades de todos os alunos em pedaços de papéis e colocá-los 
em uma urna. Depois, sorteamos 10 papéis para obter os valores, ou as idades, que irão 
compor a amostra. 
No caso de grandes populações, esse método não é muito recomendado, 
pois o processo tomaria muito tempo. Nesse caso, é preferível utilizar uma tabela de 
números aleatórios ou fazer o uso de algum software estatístico.
• Usando uma tabela de números aleatórios
Para ilustrar, iremos utilizar o exemplo anterior. 
1º passo: enumerar os alunos da sala para poder identificá-los a partir de um 
número. Como temos um conjunto de 30 elementos, usaremos dois dígitos para enumerar 
os alunos, o primeiro aluno receberá o número 01 e o último receberá o número 30. 
2º passo: agora iremos sortear os 10 elementos da amostra. Como a tabela 
fornece valores de 1 dígito e nossa população foi enumerada com 2 dígitos, utilizaremos 
a tabela agrupando de 2 em 2 números. Podemos começar de qualquer ponto da tabela, 
seguindo na vertical ou na horizontal até conseguirmos sortear o tamanho de n.
61
Dica
Aprenda um pouco mais sobre como extrair amostras aleatórias usando o Excel pelo 
livro: “Estatística Aplicada à Administração usando Excel”, de John L. Neufeld, 2003.
4.2 Amostragem Aleatória Estratificada (AAE)
Essa técnica de amostragem usa informação existente sobre a população 
para dividi-la em grupos bem definidos, chamados estratos. De cada um desses estratos, 
é selecionada uma amostra mediante um processo aleatório simples. 
A ideia da estratificação de uma população é a identificação de grupos bem 
diferentes entre si no que diz respeito ao parâmetro em estudo, mas que os elemen-
tos sejam bem parecidos dentro dos grupos, ou seja, cada grupo é homogêneo e 
com pouca variabilidade.
A Figura 11 mostra como é feita a escolha dos elementos de cada estrato (A, 
B, C, D), que você pode fazer usando amostragem aleatória simples devido ao fato de 
os estratos serem homogêneos individualmente, considerando a variável de interesse.
FIGURA 11 – Esquema de uma AAE
Fonte: Tavares (2007).
Esse método de amostragem estratificada tem a vantagem de fornecer re-
sultados com menor probabilidade de erro associada. Porém, ele apresenta problemas 
na distribuição espacial dos pontos de amostragem, pois nem sempre se consegue sub-
dividir a área em estratos bem distintos, é comum que os estratos fiquem sobrepostos 
entre si.
Segundo Bolfarine e Bussab (2005 apud RIBEIRO, p. 40), a execução de um 
plano de amostragem estratificada (AE) exige os seguintes passos:
62
i) Divisão da população em subpopulações bem definidas (estratos);
ii) De cada estrato retira-se uma amostra, usualmente independente;
iii) Em cada amostra, usam-se estimadores convenientes para os parâ-
metros do estrato;
iv) Monta-se para a população um estimador combinando os estimado-
res de cada estrato, e determinam-se suas propriedades.
Em uma AAE, a população de tamanho N é dividida em L estratos de N1 , N2, 
..., NL unidades, tal que:
N = N1 + N2 + ... + NL
Quando os estratos são determinados, uma AAS é retirada de dentro de cada 
estrato independente. O tamanho amostral dentro de cada estrato é n1+ n2+...+nL, tal que:
n = n1 + n2 + ... + nL
Ou seja, a quantidade total de amostras é definida pela soma da quantidade 
de amostras coletadas dentro de cada estrato.
Numa AASs, a variância do estimador da média amostral y̅ é dada por:
Observa-se que aumentando o tamanho da amostra, o erro padrão diminui. 
Se a população é muito heterogênea (diferente) e as razões de custo limitam o aumento 
da amostra, torna-se impossível definir uma AASs da população toda com uma precisão 
razoável. Ou seja, S2 é grande, se desejar que a variância (√(V(y̅))) seja pequena, então 
n deve ser grande, o que implica um aumento de custo (BOLFARINE; BUSSAB, 2005).
Ainda segundo Bolfarine e Bussab (2005), uma solução para esse problema é 
dividir a população em subpopulações mais homogêneas, isto é, grupos com variâncias 
S2 pequenas que diminuem o erro amostral global.
A estratificação é usada, principalmente, para resolver alguns problemas como:
• A melhoria de precisão das estimativas.
• Produzir estimativas para a população toda e subpopulações.
• Por questões administrativas, etc.
 
Os parâmetros de interesse são: 
YhgTotal do estrato h.
Y̅hgMédia do estrato h.
σ2hgVariância do estrato h (dividida por nh)
63
S2hgVariância do estrato h (dividida por nh-1)
Y̅ g Média populacional.
Y gTotal populacional.
E seus respectivos estimadores:
Em que:
Wh é o peso do estrato h, definido por Nh / N 
yhi é o valor da i-ésima observação no estrato h
As variâncias estimadas de y̅es e Ŷes são respectivamente:
Lembrando que o objetivo de um desenho amostral é fornecer estimadores 
com variâncias pequenas e o menor custo possível. Após definir o valor de n, existem 
diversas formas de dividir n entre os estratos. Cada divisão poderá resultar em variâncias 
diferentes para a média amostral, por exemplo. Daí o objetivo então é usar uma aloca-
ção que fornece uma quantidade específica de informação a um mínimo custo.
64
O melhor esquema de alocação está afetado por três fatores:
1) O número total de elementos em cada estrato.
2) A variabilidade das observações dentro de cada estrato.
3) O custo de obtenção das observações.

Continue navegando