Buscar

Estatística Básica

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 85 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 85 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 85 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

AT
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
C837 Costa, Suely de Souza 
 Estatística básica / Suely de Souza Costa, José Cardoso Neto, Sônia 
 Araújo do Nascimento. --- Manaus : [s.n.], 2012. 
 85 p. : il. color. 
 
 Elaboração Projeto Fronteiras: Alto Rio Negro; apoio FINEP, 
 Financiadora de Estudos e Projetos. 
 Bibliografia: p. 81-82. 
 ISBN: 
 
 1. Estatística – Estudo e ensino. I. Cardoso Neto, José. 
 II. Nascimento, Sônia Araújo. III. Título. 
 
 
 
 CDD 19. ed. 519.5 
INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA – 
Inpa
PROJETO FRONTEIRA: ALTO RIO NEGRO
SUBPROJETO:
IMPLANTAÇÃO DE UM BANCO DE DADOS AMBIENTAIS E 
DE UMA BIBLIOTECA EM SÃO GABRIEL DA CACHOEIRA, 
NO ALTO RIO NEGRO, AMAZONAS.
ESTATÍSTICA BÁSICA
Autores
SUELY DE SOUZA COSTA
JOSÉ CARDOSO NETO
SONIA ARAUJO DO NASCIMENTO
Manaus
2012
Presidência da Republica
Ministério Ciência Tecnologia
Instituto Nacional de Pesquisas da Amazônia — Inpa
Projeto Fronteira: Alto Rio Negro
Wanderli Pedro Tadei, Dr.
Coordenador
Lúcia K. O. Yuyama Dra.
Sub-coordenadora
 Suely de Souza Costa Dra. Engenharia de Produção 
e Coordenadora do Subprojeto “Implementação do banco de dados ambientais e de 
uma biblioteca em São Gabriel da Cachoeira”.
 Ângela Nascimento dos Santos Panzu, Especialista em Memória Social e Docu-
mento e em Documentação e Informação, Bibliotecária e Orientadora. 
 José Cardoso Neto, Dr. em Estatística e Professor da UFAM. 
Sonia Araújo Nascimento, Esp. em Estatística Industrial e Professora da UEA.
Silene da Mota Coelho, Especialista em Informática na Educação.
Prólogo
 Este livro propõe disponibilizar as ferramentas básicas e aplica-
ções da estatística para um público que precisa ambientar-se com está ma-
téria num curto espaço de tempo. Este trabalho é fruto da demanda de 
São Gabriel da Cachoeira, e vem dar continuidade nos dois livros s desen-
volvidos anteriormente, para o ensino à distância para outros municípios 
do Estado do Amazonas. 
 Procurou-se apresentar o conteúdo de forma fácil e dinâmica. 
Exemplos e exercícios práticos são usados para sedimentar o aprendizado 
e, ao mesmo tempo, reduzir as fronteiras de acesso à linguagem estatística, 
essencial para apoio à tomada de decisão em diferentes áreas do conheci-
mento.
	 No	final	de	um	caminho,	há	sempre	muito	agradecer	àqueles	que,	
de uma forma ou de outra, contribuíram para a conclusão deste trabalho.
 Agradecemos aos nossos alunos que participaram direta ou indire-
tamente dos cursos ministrados em diversos momentos, nas salas de aula 
presenciais e ensino à distância, tornando o projeto pedagógico realidade. 
Entre os amigos que com estímulo nos apoiaram no cumprimento dessa 
trajetória, expressamos gratidão à equipe do no sub-Projeto Fronteira, e 
em	especial,	o	apoio	financeiro	da	Finep	ao	Projeto	Fronteira.
7
SUMÁRIO
CAPÍTULO 1 CONCEITOS FUNDAMENTAIS......................13 
1.1 Estatística E sua importância...............................................13
1.2 população E amostra............................................................14
1.3 alguns tópicos importantEs na sElEção da amostra......15
1.3.1 Identificação	 dos	 objetivos	 da	 pesquisa	 e	 popula-
ção......................................................................................................15
1.3.2 Coleta dos dados.................................................................15
1.3.3 Planejamento e Seleção da amostra....................................16
 1.3.4 critérios dE inclusão E Exclusão dos ElEmEntos da am
ostra.......................................................................................................16
 1.3.5 Quais as técnicas para sElEção da amostra...................16
1.3.6 Plano de Amostragem........................................................18
1.3.7 Seleção de Amostra............................................................20
1.4 amostragEm alEatória simplEs..........................................21
 1.4.1 amostragEm Estratificada...............................................21
 1.4.2 amostragEm sistEmática....................................................21
1.5 dEfinição E classificação dE variávEis..............................23
1.5.1 Variável Qualitativa.............................................................24
1.5.2 Variável Quantitativa...........................................................24
1.6 colEta dE dados.....................................................................25
8
1.6.1 fontEs dE dados..............................................................25
1.6.2 construção dE instrumEnto dE pEsQuisa ...................26
1.6.3 amostra piloto ou pré-tEstE........................................27
1.6.4 rEcursos complEmEntarEs ...........................................27
CAPÍTULO 2 ORGANIZAÇÃO DE DADOS....................31
2.1 aprEsEntação dE dados Em tabElas...........................31
2.2 componEntEs das tabElas...............................................31
2.3 tabElas dE dupla Entrada............................................32
2.4 tabElas dE distribuição dE frEQüências.....................33
2.5 tabEla dE distribuição dE frEQüência pontual........34
2.6 tabElas dE distribuição dE frEQüências Em classEs..35
2.7 construção dE uma tabEla dE distribuição dE 
frEQüência Em classEs..................................................................35
2.8 tipos dE frEQüências.......................................................38
2.9 mEdidas dE posição para dados agrupados................39
2.9.1 Média aritmética ( X ) para dados agrupados.............39
2.9.2 Mediana - dM ..............................................................41
2.9.3 Moda - oM ...................................................................44
2.10 mEdidas dE dispErsão ou variabilidadE......................46
2.10.1 Amplitude total........................................................47
 2.10.2 variância ( 2S ).......................................................48
 2.10.3 dEsvio padrão ( S ).....................................................49
8 9
2.11 mEdidas dE dispErsão rElativa......................................51
2.12 coEficiEntE dE variação dE pEarson - (%)CV .........51
CAPÍTULO 3 CORRELAÇÃO............................................59
3.1 diagrama dE dispErsão...................................................59
3.2 corrElação linEar............................................................61
3.3 como sE mEdE corrElação linEar?................................62
3.4 tEstE dE significância sobrE r ......................................63
CAPÍTULO 4 REGRESSÃO LINEAR SIMPLES..............67
4.1 introdução.........................................................................67
4.2 modElo Estatístico..........................................................67
4.3 o método dos mínimos Quadrados..............................68
4.4 notação básica..................................................................68
4.5 rEta dE mínimos Quadrados..........................................68
4.6 análisE dE variância.......................................................70
4.7 como Encontrar as somas dE Quadrados?...................71
4.8 como Encontrar os Quadrados médios?......................72
4.9 o tEstE f.............................................................................734.10 coEficiEntE dE dEtErminação.......................................74
4.11 infErência sobrE os parâmEtros.....................................75
4.12 obsErvaçõEs sobrE o modElo:.........................................76
4.13 análisE dos rEsíduos........................................................77
10
REFERÊNCIAS..............................................................81
ANEXO...........................................................................83
TABELA DE ESTATÍSTICA A - DISTRIBUIÇÃO NOR-
MAL PADRÃO - ( )P Z z p≤ = ..............................................83
TABELA ESTATÍSTICA B - DISTRIBUIÇÃO T DE 
STUDENT P(T > T)= Α..............................................84
TABELA ESTATÍSTICA C - DISTRIBUIÇÃO F - P(F 
> F; N,D) = 0.05..............................................................85
LISTA DE TABELAS
Tabela 1 Número de famílias nos bairros mais populosos de 
uma cidade X.
Tabela 2. População por bairro, na cidade de São Gabriel da 
Cachoeira, no ano de 2003.
Tabela 3 Nascidos vivos registrados por sexo e o ano de regis-
tro, 1988.
Tabela 4 Número de domicílios por bairros e região de nasci-
mento do responsável em São Gabriel da Cachoeira/AM, 2003.
Tabela 5 Níveis de escolaridade da Empresa X, no Polo Indus-
trial de Manaus, 2010.
Tabela 6 Nascidos vivos segundo o peso ao nascer, em quilo-
gramas.
Tabela	7	Número	de	famílias	com	filhos	do	sexo	masculino
Tabela 8 Estatura média de crianças em uma creche.
10 11
Tabela 9 Número de banheiros por domicílios
Tabela 10 Crianças e adolescentes em uma escola
Tabela 11 Distribuição das estaturas das crianças.
Tabela 12 A estatura modal conforme a tabela a seguir.
Tabela 13 Dados estão agrupados sem intervalos de 
classe
Tabela 14 Dados de estatura (em cm) agrupados em 
intervalos de classe ...............................................................
Tabela 15 Quantidades de nicotina e alcatrão em 12 
marcas de cigarros.
Tabela 16 Regra de decisão sob a hipótese nula
Tabela 17 Cálculos para análise de regressão: Nicotinas 
(Y) e Alcatrão (X) em mg.
Tabela 18 Análise de Variância – ANOVA
Tabela 19 Tabela de Análise de Variância
Tabela 20 Análise dos resíduos, em função da estimação 
da nicotina e o valor observado.
LISTA DE QUADROS
Quadro 1 Quadro Retirado da Tabela Normal Padrão 
(Tabela C).
Quadro 2 Dados brutos da variável peso de crianças 
ao nascer (kg).
Quadro 3 Dados em ordem crescente da variável peso 
de crianças ao nascer (kg)
12
Quadro 4 Qual a temperatura mais comum medida 
no mês.
Quadro 5 Estaturas e pesos de um grupo de indiví-
duos.
Quadro 6. Número de casas por quarteirão
Quadro	7		Estimação	dos	coeficientes	de	regressão.
LISTA DE FIGURAS
Figura 1 Diagrama de dispersão da quantidade de ni-
cotina e alcatrão em cigarros.
Figura 2 Representação da correlação positiva.
Figura 3 Representação da correlação negativa
Figura 4 Representação da reta de regressão e dos 
pontos observados.
Figura 5 Representação do resíduo em função dos da-
dos ajustados.
12 13
Capítulo 1 Conceitos fundamentais
1.1 Estatística e sua importância
Durante muito tempo, a Estatística foi vista como uma simples téc-
nica,	que	podia	proporcionar	ao	homem	a	possibilidade	de	produzir	gráfi-
cos e tabelas. Posteriormente, a estatística passou a ser um procedimento, 
que servia à razão, na teoria dos jogos. Atualmente, no mundo contempo-
râneo, passou a se constituir numa metodologia útil não só para descrever 
e analisar os fenômenos, mas, principalmente, para prever acontecimentos.
Para	tanto,	a	Estatística,	através	de	técnicas	específicas,	transforma	
uma quantidade de dados (números) em informações úteis, que servem 
para organizar, analisar, apresentar, representar e interpretar dados sobre 
um determinado fenômeno. Todo esse procedimento ajuda-nos a enten-
der o fenômeno e dar apoio à tomada de decisão.
Todas as ciências se desenvolveram bastante nas últimas décadas e, 
dentro desse desenvolvimento a estatística também vêm se ampliando e se 
constituindo em metodologias, que tem se apropriado de conhecimentos 
e	de	tecnologias	existentes	das	áreas	afins,	principalmente	da	Matemática	
e da Computação, fazendo com que os cálculos complexos e demorados 
sejam resolvidos facilmente através de pacotes estatísticos disponíveis no 
mercado	(programas	de	computadores	específicos	para	estatística).
A Estatística Descritiva é de extrema importância na análise inicial 
dos dados coletados de um determinado fenômeno. O seu uso serve para: 
organizar, analisar, interpretar e descrever um conjunto de dados. Embora 
já	se	disponha	de	métodos	estatísticos	bem	sofisticados,	muitos	problemas	
do nosso dia-a-dia podem ser resolvidos com a Estatística Descritiva. Os 
métodos de Inferência Estatística são utilizados principalmente para tomar 
decisões diante de incertezas que são inerentes aos fenômenos aleatórios.
14
1.2 População e Amostra
População é o conjunto de todos os elementos (pessoas, animais, domi-
cílios ou objetos) que têm pelo menos uma característica ou atributo em 
comum de interesse no fenômeno em estudo. A seguir veremos alguns 
exemplos:
Exemplo 1.1	Suponha	que	queremos	estudar	o	perfil	 sócio-econômico	
dos estudantes do Ensino Médio da cidade de São Gabriel da Cachoeira. 
Então,	o	fenômeno	em	estudo	é	o	perfil	sócio-econômico	dos	estudan-
tes do Ensino Médio e a população é formada por todos os estudantes 
matriculados nas escolas de Ensino Médio da cidade de São Gabriel da 
Cachoeira.
Exemplo 1.2 Para estudar o consumo mensal de energia (em kW/h) num 
determinado bairro da cidade de São Gabriel da Cachoeira, o fenômeno 
em estudo é o consumo de energia e a população é formada por todos os 
domicílios do bairro estudado.
Exemplo 1.3 Imagine agora que queremos fazer um levantamento sobre 
o	perfil	das	da	população	na	cidade	de	São	Gabriel	da	Cachoeira.		Então,	o	
fenômeno em estudo é a população de todos os habitantes que residem na 
cidade (sendo a grande maioria da população da região local entre outros 
imigrantes).
Amostra é uma parte da população, selecionada de maneira criteriosa, 
para efetivamente fornecer os dados representativos para o estudo.
Uma amostra representativa de uma população pode ser obtida 
escolhendo-se aleatoriamente os elementos que irão compor a amostra, e 
isso nos permite fazer inferências sobre a população. 
No Exemplo 1.1, a amostra é composta por parte dos estudantes 
do Ensino Médio da cidade de São Gabriel da Cachoeira, enquanto que 
no Exemplo 1.2 a amostra é formada por alguns domicílios do bairro es-
tudado, escolhidos aleatoriamente.
Duas observações são importantes: a primeira é que devemos usar 
procedimentos estatísticos para determinar o tamanho da amostra, ou 
14 15
seja, quantos elementos devem ser selecionados para fazer parte da amos-
tra; e a segunda é utilizar o método adequado para a seleção dos elementos 
da amostra, isto é, o plano de amostragem. 
Algumas questões surgem, quando pensamos em amostragem, 
dentre as quais: Como será selecionada a amostra? Qual será o tipo de 
amostragem? Dentre os tipos de amostragem será aleatória ou não? Quem 
fará parte da amostra? Quem não fará parte da amostra? 
Lembramos que a amostra está diretamente ligada aos objetivos da pes-
quisa, deste modo, para decidir sobre o tamanho da amostra e o método 
de seleção da amostra, é necessário ter informações sobre o universo a 
ser pesquisado.
1.3 Alguns tópicos importantes na 
seleção da amostra.
1.3.1 Identificação dos objetivos da pesquisa e 
população
Ao realizarmos uma pesquisa é importante avaliar alguns pontos: 
O	primeiro	ponto	seria	identificar	as	razões	e	antecedentes	da	pes-
quisa,	para	então	definir	os	objetivos	gerais,	operacionais	e	alternativos.	
Segundo	ponto	seria	identificar	as	unidades	de	análise	e	resposta,	
assim como estabelecer população-alvo de interesse (as sub-populações, 
no caso de estratos).
Outro	 ponto	 é	 a	 especificação	 das	 variáveis	 de	 interesse,	 bem	
como	definir	as	possíveis	unidadesde	medidas.
1.3.2 Coleta dos dados 
Estabelecer o modo de coleta na pesquisa de campo: entrevista di-
reta, observação, individual, em grupo, por carta, telefone, e-mail, baseado 
na elaboração de um instrumento de pesquisa (formulário, questionário 
entre outros). Neste contexto, é muito importante operacionalizar os con-
16
ceitos de variáveis.
1.3.3 Planejamento e Seleção da amostra
A precisão estatística para pesquisa esbarra nas limitações impos-
tas pelo orçamento, na operacionalidade e na logística, seja no campo, ou 
no laboratório. Deste modo é necessário avaliar custo do levantamento da 
pesquisa, para saber o quanto vai ser gasto para coletar os dados.
1.3.4 Critérios de inclusão e exclusão dos 
elementos da amostra
Antes	de	obter	a	amostra	é	preciso	definir	exatamente	a	população	
de	onde	essa	amostra	será	retirada,	ou	seja,	é	preciso	saber	a	configura-
ção	da	população.	Na	 configuração	da	população,	 é	preciso	 estabelecer	
os critérios para selecionar os elementos ou sujeitos que irão constituir a 
amostras.	Assim	como	definir	os	sujeitos	que	não	poderão	participar	da	
amostra.
1.3.5 Quais as técnicas para seleção da 
amostra 
Os princípios básicos da teoria da amostragem são expressos por 
meio de uma linguagem simples, apresentando os recursos empíricos fa-
miliares a quem já utiliza os procedimentos descritivos da estatística em 
seus estudos, ou atividades de pesquisas. Neste capítulo, serão delimitadas 
as características básicas dos planos de observação e a localização dos pro-
cedimentos	da	amostragem,	no	processo	da	investigação	científica.
		Na	realização	de	uma	investigação	científica	queremos	fazer	afir-
mações sobre características de uma determinada população, que assegu-
16 17
rem	o	valor	científico	das	informações	obtidas	e	das	conclusões	alcança-
das,	isto	é,	a	confiabilidade	dos	resultados	do	estudo.	
A	amostragem	tem	a	finalidade	de	reunir	as	seguintes	características	
operacionais:
	Ser	aplicado	a	um	conjunto	de	dados	reais	e	finitos,	composto	de	ele-
mentos ou sujeitos de uma população em estudo;
	Estes elementos podem ser animais, plantas, ou sujeitos de pesquisas, 
como seres humanos coletados de maneira direta (entrevistas, como 
roteiros de pesquisas e formulários, ou mesmos questionários) ou in-
direta	 por	meio	 de	 bancos	 de	 dados	 (fichas	 cadastrais,	 prontuários,	
entre outros) em uma determinada comunidade. (Lembrando que, 
pesquisas com seres humanos de maneira direta ou indireta, o projeto 
de pesquisa deverá ser submetido à aprovação em um Comitê de Ética 
em Pesquisa – CEP, conforme (Resolução 196/96 MS), antes de fazer 
pesquisa);
	As características ou atributos são observados em cada elemento da 
amostra, e posteriormente agregados por meio de medidas estatísticas, 
denominadas valores populacionais;
	Os dados são coletados em amostras da população em estudo e as 
medidas calculadas (estimativas) passam a ser a informação disponível 
para os valores populacionais desconhecidos.
Em geral, estudo de levantamento é quase impossível observar to-
dos os elementos da população em estudo, principalmente pelo tempo e 
o custo operacional. Portanto, precisa-se selecionar uma amostra. Na qual 
se deve escolher uma amostra que seja representativa da população. As-
sim, escolhendo-se criteriosamente as unidades amostrais, teremos segu-
rança para usar a inferência estatística e generalizar os resultados obtidos 
na amostra para a população.
Alguns conceitos são necessários e serão reforçados a seguir:
	População é o conjunto de todos os elementos (animais, plantas, 
pessoas, domicílios ou objetos) que têm pelo menos uma caracterís-
tica ou um atributo em comum de interesse do estudo.
	Censo - quando consideramos todos os elementos da população, 
em um estudo, realizamos um censo. Em geral, a realização de um 
censo demanda muito tempo e alto custo, daí o Brasil fazer o censo 
a cada dez anos. Por outro lado, o censo se torna viável também, 
18
quando a população é pequena e é fácil o acesso aos elementos da 
população. 
	Amostra é uma parte da população, selecionada de maneira criterio-
sa, para efetivamente fornecer os dados para o estudo.
Deste modo, é necessário a formulação do problema e determinar 
qual	é	o	objeto	de	pesquisa,	para	poder	definir	o	plano	de	amostragem	
com elementos de ligação na operacionalidade do estudo, que compreen-
de desde o cálculo do tamanho da amostra e do plano amostral. 
1.3.6 Plano de Amostragem 
A	elaboração	do	plano	de	amostragem	significa	construir	soluções	
para determinar o número de elementos a serem observados, mas também 
as condições concretas para operacionalizar os planos de observação e 
análise no processo de amostragem. 
Em geral, escolhemos um tamanho mínimo de amostra necessário 
para estimar uma proporção populacional - π ou uma média populacio-
nal - µ ,	com	uma	aceitável	margem	de	erro	-	ε	para	mais	ou	para	menos	e	
a probabilidade de ocorrer um erro menor ou igual ao erro aceitável deve 
ser	alta,	isto	é,	um	intervalo	de	confiança	de	 (1 ) 100%α− × . Ou seja, de-
vemos escolher n de modo que,
(| | ) 1P p π ε α− ≤ ≥ − ou (| | ) 1 ,P x µ ε α− ≤ ≥ −
onde p é a proporção amostral e x é a média amostral.
A partir daí, fazendo algumas suposições e alguns cálculos, vamos 
encontrar, respectivamente,
2
/ 2
0 2 (1 )
zn α π π
ε
= × × − ou 
2
2/ 2
0 2
zn α σ
ε
= ×
Se	a	população	em	estudo	tem	um	número	finito	de	elementos,	
devemos fazer a correção de população finita como segue:
0
01
nn n
N
=
+
18 19
Onde N é o tamanho da população do estudo.
Em seguida, de acordo com os objetivos do estudo, determina-
mos o procedimento amostral (método) mais apropriado entre os tipos 
de amostragens: aleatória Simples, amostragem sistemática, amostragem 
estratificada,	entre	outras.	
Podemos observar que, na fórmula para o cálculo do tamanho da 
amostra, aparecem as quantidades desconhecidas π ou 2σ . Este proble-
ma é contornado usando-se em seu lugar as respectivas proporção amos-
tral p ou variância amostral 2S , que podem ser obtidas de uma amostra 
piloto.
Exemplo 1.4: Suponha que queremos avaliar o estado nutricional de 
escolares (entre 6 a 10 anos) na rede de ensino público em Manaus, 
por exemplo, neste ano. O cálculo da amostra poderia ser realizado levan-
do-se em conta a área metropolitana de Manaus, levando-se em conside-
ração a demanda escolar semanal e a prevalência de 15%, poderia ser a 
prevalência de desnutrido estimada entre os desvios nutricionais dos esco-
lares )15,0( p . Admitindo-se para composição da amostra a ser estuda-
da um erro amostral tolerável de 5% )05,0( 0 e e	um	nível	de	confiança	
de 95%, isto é, 100)1( ×−α , ( 96,1
2
Z ) .
( )
( )2
2
2
0
1)(
e
ppZ
n
−




=
α
 
    
 
196
05,0
15,0115,096,1
2
2
0 

n 
Utilizando-se	 a	 fórmula	 para	 correção	 para	 populações	 finitas,	 com	
N=64.857 crianças de 6 a 10 anos (IBGE, 2000), temos 
N
n
nn
0
0
1+
= 2159,214
64857
1961
196
≅=
+
=n
Após o cálculo da amostra, algumas vezes, é necessário levar em conside-
ração, no tamanho da amostra, possível perdas por preenchimento de for-
mulário	ou	devoluções	de	questionários	a	fim	de	compensar	as	possíveis	
perdas, resguardaremos um nível de 5%.
Com uma compensação das perdas de 5% equivale a uma amostra com no 
mínimo 225 escolares.
20
A	seguir	representamos	o	quadro	os	intervalos	de	confiança	 )1( α− mais 
frequentemente utilizados com os correspondentes valores de 
2
αz .
Quadro 1 Quadro Retirado da Tabela Normal Padrão (Tabela C).
1.3.7 Seleção da amostra
Resumidamente, podemos selecionar os elementos da amostra da 
seguinte forma: a) Quando a população é homogênea conforme a variá-
vel de interesse usa-se amostra aleatória simples; b) Quando se sabe que 
a população não é homogênea, conforme a variável de interesse usa-se 
amostragem	estratificada,	ou	seja,	dividi-se	a	população	em	grupos	homo-
gêneos (estratos) e realiza-se amostragem aleatória simplesem cada estra-
to; c) Há outros métodos de amostragens como amostragem sistemática e 
amostragem por conglomerado.
1.4 Como selecionar a amostra?
De um lado, uma amostra representativa de uma população pode 
ser obtida escolhendo-se aleatoriamente os elementos que irão compor 
a amostra e isso nos permite calcular estimativas de erros no processo 
inferencial. Amostras obtidas desta forma são chamadas de Amostras 
Probabilísticas,	neste	caso	fica	claramente	definida	a	probabilidade	de	
um elemento qualquer fazer parte da amostra. 
Por outro lado, o plano de amostragem consiste em decidir qual é 
 
(1-α) Z/2 
0,80 1,282 
0,95 1,960 
0,99 2,576 
20 21
o modelo de sorteio e o tipo de amostragem adequado para a seleção da 
amostra seja probabilística, ou não, adequado às condições propostas no 
plano de observação. Neste livro, a amostragem não probabilística não 
fará parte.
 
1.4.1 Amostragem Aleatória Simples
Quando a população é homogênea, segundo a característica esco-
lhida para o estudo, os elementos da população são numerados de 1 a N e 
em seguida, sorteia-se aleatoriamente n números compreendidos entre 1 
e N . A amostra será composta pelos n números sorteados.
1.4.2 Amostragem Estratificada
Quando a população sabidamente não é homogênea em relação à 
característica escolhida para o estudo, mas pode ser dividida em grupos 
homogêneos,	é	mais	fácil	e	eficiente	escolher	uma	amostra	aleatória	sim-
ples de cada grupo. Estes grupos são chamados de estratos.
Esse método de amostragem é bastante utilizado, pois em muitos 
estudos	a	população	 tem	estratos	bem	definidos	e	comumente	usa-se	a	
amostragem	estratificada	proporcional,	isto	é,	o	tamanho	da	amostra	em	
cada estrato é proporcional ao tamanho do estrato.
Exemplo 1.5 Suponha que vamos tomar uma amostra de 10 alunos de 
uma classe com 50 alunos dos quais 32 são mulheres. A população será 
estratificada	por	gênero.	Então,	o	tamanho	da	população	é	 50N = , o ta-
manho de estrato corresponde aos homens é 18HN = e o tamanho do 
estrato corresponde às mulheres é 32MN = . Calculando o tamanho da 
amostra 10n = , proporcional ao tamanho de cada estrato, encontramos.
1810 3,6 4
50
H
H
Nn n
N
= × = × = ≈ 
22
3210 6,4 6
50
M
M
Nn n
N
= × = × = ≈
.e
Observe que H MN N N= + e H Mn n n= + . Ou seja, o tamanho da po-
pulação é igual à soma dos tamanhos dos estratos e o mesmo ocorre com 
o tamanho da amostra, isto é, serão selecionados proporcionalmente ho-
mens (4) e mulheres (6). 
 1.4.3 Amostragem Sistemática
É bastante utilizada por sua simplicidade operacional. De uma 
população de N elementos, escolhem-se n elementos a cada intervalo de 
amplitude r , sendo r o inteiro mais próximo de /N n .
A amostra será formada pelos elementos escolhidos seqüencial-
mente de ordem , , 2 , , ( 1)k k r k r k n r+ + + − , onde k é qualquer intei-
ro escolhido aleatoriamente entre 1 e n .
Exemplo 1.6: Vamos selecionar uma amostra sistemática de oito alunos 
de uma turma de 50 alunos de uma classe em São Gabriel da Cachoeira. 
Usamos o Diário de Classe onde consta o nome dos alunos em ordem al-
fabética. Aqui 50N = , 8n = e 50 /8 6,3 6.r = = ≈ Suponha que entre 1 
e 8 sorteamos o número 6. Assim, farão parte da amostra os alunos cujos 
números no boletim correspondem a 6, 12, 18, 24, 30, 36, 42 e 48.
Exemplo 1.7: Suponha que José é candidato a Prefeito de uma cidade 
com, digamos, 10.000 habitantes. Ele quer saber qual é a proporção de 
eleitores com intenção de votar nele. Para responder essa questão, antes 
de	tudo	deve	ficar	claro	que	a	população	a	ser	pesquisada	não	é	a	popula-
ção dos habitantes do Município, e sim a população formada por todos 
22 23
os eleitores com domicílio eleitoral naquela cidade. Para estimar a 
proporção	desejada,	José	admite	um	erro	de	5%	e	fica	estabelecido	que	
seja	usado	um	intervalo	de	95%	de	confiança.	Neste	caso	o	tamanho	da	
amostra será calculado como:
2
/ 2
0 2 (1 )
zn α π π
ε
= × × − ,
onde 0,05ε = , obtido da Tabela A - distribuição normal 
/ 2 0,025 1,96z zα = = , e π é verdadeira proporção de eleitores de José. Essa 
proporção é desconhecida π e devemos estimá-la usando uma amostra pi-
loto ou usando o valor máximo 2
1=π , e 2
11 =−π , isto é, (1 )π π× − 
que igual a ¼. Assim, o tamanho inicial da amostra é dado por:
2
0 2
(1,96) 1 384,19 385
(0,05) 4
n = × = ≈ .
Supondo que na cidade existem, registrados, 4.852 eleitores, deve-
mos	fazer	a	correção	de	população	finita	e	o	tamanho	final	da	amostra	fica	
dado por 
385 3573851
4852
n = =
+
No caso do estudo da eleição para Prefeito da cidade, uma forma 
razoável de se fazer a amostragem é dividir a população em estratos, cada 
estrato correspondendo, por exemplo, aos bairros da cidade. O tamanho 
da amostra em cada bairro (estrato) deve ser proporcional ao tamanho da 
população do bairro. Escolhendo-se aleatoriamente os domicílios dentro 
do bairro e de cada domicílio poderemos entrevistar um eleitor.
1.5 Definição e classificação de 
variáveis
	 No	exemplo	1.1,	estudo	do	perfil	socioeconômico	dos	estudantes	
do	Ensino	Médio	da	cidade	de	São	Gabriel	da	Cachoeira	fica	subentendi-
24
do que, estamos querendo conhecer, normalmente, algumas variáveis de 
interesse,	por	exemplo:	sexo,	 idade,	 renda	familiar,	número	de	filhos	na	
família, escolaridade dos pais, entre outras variáveis socioeconômicas. 
É importante diferenciar os tipos de variáveis para podermos dar 
o	tratamento	estatístico	adequado	às	mesmas.	As	variáveis	são	classificadas	
como qualitativas ou quantitativas. 
1.5.1 Variável Qualitativa
A Variável Qualitativa representa uma qualidade e seus valores são 
categorias. De acordo com as categorias, pode ser subdividida em Qua-
litativa Nominal, se as categorias não impõem uma ordem natural, ou 
Qualitativa Ordinal, se as categorias impõem uma ordem natural. 
Exemplo 1.8 Variáveis Qualitativas Nominais Nacionalidade (brasi-
leira, colombiana, venezuelana, portuguesa,...); Religião (católica, evangéli-
ca,...); Sexo: (masculino, feminino,...). Observa-se nestas variáveis que não 
existe uma relação de ordem entre as categorias.
Exemplos 1.9 Variáveis Qualitativas Ordinais Escolaridade (Ensino 
Fundamental, Ensino Médio, Ensino Superior); Classe social (A, B, C,...); 
Tamanho do manequim de uma pessoa (PP, P, M, G, GG). Neste caso, as 
categorias apresentam uma relação de ordem natural.
1.5.2 Variável Quantitativa
A Variável Quantitativa representa uma quantidade e seus va-
lores são numéricos. Podem ser subdivididas em quantitativa discreta, 
quando seus valores são pontos sobre a reta, geralmente resultado de uma 
contagem, ou quantitativa contínua, quando seus valores estão num in-
tervalo da reta, geralmente é o resultado de uma medida.
Exemplo	1.10		Variáveis	quantitativas	discretas		Número	de	filhos	por	
família (0, 1, 2,...); Número de computadores por domicílio (0, 1,...); 
Números de celulares por domicílio (0, 1,...); Números de quartos por 
domicílios (0,1,...); Números de mensagens recebidas por dia (0, 1, 2, 3, 
...), entre outras. Neste caso, refere-se a resultado de contagem da variá-
24 25
vel de interesse.
Exemplo 1.11 Variáveis Quantitativas Contínuas idade e peso de indi-
víduo (em quilograma), altura de indivíduos (em centímetro ou em metro), 
entre outras.
As variáveis são avaliadas e registradas conforme o objeto de estu-
do, sendo realizadas em diferentes unidades de medidas. Por exemplo, no 
estudo	do	perfil	dos	estudantes	do	Ensino	Médio	da	cidade	de	São	Gabriel	
da Cachoeira, o pesquisador tem como unidade amostral, estudante do 
Ensino Médio e as variáveis poderiam ser: altura, idade, renda familiar 
e tipo de escola em que está matriculado o estudante. O valor da vari-
ável vai depender do estudante avaliado, sendo o valor expresso pela uni-
dade de medida escolhida, por exemplo, a variável idade em anos; renda 
em números de salários mínimos, altura poderá ser medida em centímetro 
(ou metro). 
1.6 Coleta de dados
Em	toda	pesquisa	de	levantamento	onde	queremosfazer	afirma-
ções sobre características de uma população, surgem dois problemas que 
devem	ser	tratados	com	bastante	atenção	para	a	confiabilidade	dos	resul-
tados do estudo. O primeiro diz respeito ao número de unidades a serem 
observadas, o tamanho da amostra, anteriormente, já visto. O segundo 
refere-se ao plano amostral, isto é, como operacionalizar a coleta dos 
dados.
Na realização de estudos dessa natureza é quase impossível obser-
var todos os elementos da população em estudo, principalmente pelo tem-
po e o custo operacional. Portanto, tendo que trabalhar com uma amostra, 
deve-se escolher uma amostra que seja representativa da população. 
Assim, escolhendo-se criteriosamente as unidades amostrais teremos se-
gurança para usar a inferência estatística e generalizar os resultados obti-
dos da amostra para a população.
26
 1.6.1 Fontes de dados 
As fontes de dados podem ser primárias e secundárias:
Fontes primárias: Dizemos que a fonte é primária quando o pró-
prio pesquisador gera a informação. A fonte primária mais utilizada é a 
observação direta de um fenômeno, por ser um método clássico na pes-
quisa de campo, baseado ou não em um instrumento de pesquisa usado 
para levantamento de dados. Tais como, temperatura média diária em uma 
determinada	região	ou	o	índice	de	inflação	mensal	de	certo	país.
Fontes secundárias: São bancos de dados ou arquivos previamente exis-
tentes, onde estão armazenadas as informações que serão utilizadas no 
levantamento, ou seja, os dados já existem e o pesquisador irá lançar mão 
deles	para	desenvolver	seu	estudo.	As	fichas	de	cadastro	de	estudantes	ou	
de clientes de uma loja de departamentos são exemplos de fontes de dados 
secundária.
 1.6.2 Construção do instrumento de pesquisa
O instrumento de pesquisa é o objeto que reúne um conjunto de 
questões para gerar um documento padrão onde serão coletados e regis-
trados os dados da pesquisa. O instrumento precisa ser bem adequado 
e direcionado aos objetivos da pesquisa. Para o êxito do instrumento de 
pesquisa devemos levar em conta que:
•	 As questões devem ser formuladas de forma mais simples possí-
vel;
•	 Devemos facilitar as respostas dos entrevistados;
•	 Demos elaborar as perguntas de forma clara para facilitar a com-
preensão do respondente; 
•	 Devemos estimular a memória do sujeito entrevistado;
•	 Devemos evitar a realização de cálculos;
26 27
•	 Devemos evitar palavras técnicas no instrumento;
•	 Devemos evitar perguntas dúbias;
•	 Devemos evitar perguntas sugestivas;
•	 Devemos evitar grande número de questões em questionário;
•	 Devemos evitar questões com respostas abertas, mas podemos 
permitir a existência de espaço para uma resposta adicional.
 1.6.3 Amostra piloto ou pré-teste
Após a aprovação do projeto de pesquisa em um Comitê de Ética 
em Pesquisa, é importante efetuar uma amostra piloto para testar, pre-
viamente, esse instrumento, pois, somente com aplicação efetiva do ins-
trumento é que poderemos detectar falhas, e, com isso, corrigi-las. E se 
constitui naquilo que denominamos de pré-teste.
Em sua aplicação, as falhas poderão ser detectadas. Nesse momen-
to, poderemos detectar: a ambigüidade de questões; necessidade de novas 
questões; respostas que não haviam sido previstas; entre outras. O pré-
-teste ainda possibilita a estimativa do tempo de aplicação do instrumento, 
assim como a atualização do número de elementos da amostra.
 1.6.4 Recursos Computacionais
Como nós indicamos, no início deste livro, o avanço computacio-
nal foi fundamental para o crescente uso da Estatística. Cálculos cansati-
vos agora são realizados apenas com um clique no mouse. Pacotes esta-
tísticos como Minitab, Statistica e SPSS, são bastante interativos e de fácil 
manuseio, mas em geral, o custo de uma permissão de uso é muito alto. 
Um pacote estatístico de uso livre e bastante utilizado pelos esta-
tísticos e usuários da estatística é o chamado R, encontrado em (http://
www.r-project.org).
A	planilha	eletrônica	Excel	(Microsoft®	Office	Excel	2003)	tem	
28
Exercício do capítulo 1
1) Escreva	a	unidade	de	medida	e	 faça	a	classificação	das	variáveis	
conforme as legendas: Quantitativa Contínua – QTC; Quantitati-
va Discreta – QTD; Qualitativa Ordinal – QLO; Qualitativa No-
minal – QLN.
a) Peso de um pirarucu pescado com arpão (kg)
b) Desperdício	de	alimento	ao	final	da	merenda	escolar	por	turno	
(em kg)
c) Temperatura (em grau Celsius)
d) Medição da pressão arterial sistólica (mg/ml)
e) Número de ligações telefônicas recebidas ao dia 
f) Duração de uma chamada telefônica (min)
g) Hierarquia em uma empresa
h) Hierarquia militar
i) Peso de bagagem (em kg)
j) Desperdício	de	alimento	ao	final	da	merenda	escolar	por	turno	
(em kg)
k) Regiões do Brasil (centro-oeste, nordeste, norte, sudeste e sul)
l) Time de futebol em São Gabriel da Cachoeira
m) Temperatura (em grau Celsius)
n) Escolaridade 
o) Medição da pressão arterial sistólica (mg/ml)
p) Número de acidentes de trânsito
2) O que você entende por população, amostra e censo?
3) Em uma cidade foram arroladas 68 casas comerciais que vendem 
o produto P, numeradas de 1 a 68 em uma listagem. Como es-
colher sistemática e aleatoriamente uma amostra de tamanho 20 
28 29
dessas casas de comércio?
4) Considere que a rede pública municipal do ensino fundamental de 
um município tem 3500 alunos matriculados e distribuídos em 12 
escolas.	Suponha	que	o	objetivo	da	pesquisa	seja	estudar	o	perfil	
dos alunos. 
a) Qual é a população? 
b) Determine o tamanho da amostra com erro de 5% e intervalo 
de	confiança	de	95%;
c) Que tipo de amostragem você usaria?
5) 	Com	base	na	tabela	a	seguir,	use	amostragem	aleatória	estratifica-
da. Determine o tamanho total da amostra e o tamanho da amos-
tra	em	cada	bairro.	Considere	erro	de	5%	e	intervalo	de	confiança	
de 95%.
Tabela 1 Número de famílias nos bairros mais populosos de uma cidade 
X. 
 
 
 
 
 
 
 
 
 
 
 
Bairros Número de famílias 
Compensa 142 
Alvorada 89 
Japiim 113 
Flores 89 
Cidade Nova 97 
São José Operário 79 
Total 609 
30
30 31
várias ferramentas estatísticas e será utilizada no desenvolvimento deste 
curso.
Mas é necessário que se tenha a clareza de que o computador rea-
liza as tarefas que você ordena. Portanto, é imprescindível que o adminis-
trador,	ou	qualquer	profissional,	 tenha	o	conhecimento	das	ferramentas	
estatísticas, para usar com propriedade os recursos computacionais dispo-
níveis para a análise de dados.
Capítulo 2 Organização de dados
 2.1 Apresentação de Dados em Tabelas
 A apresentação de tabelas permite a condensação de dados de 
modo a torná-los de fácil compreensão. Os dados devem ser apresentados 
em tabelas de acordo com normas técnicas estabelecidas pela Fundação 
Instituto	Brasileiro	de	Geografia	e	Estatística	(IBGE,	1993).
 2.2 Componentes das tabelas
 As tabelas têm título, corpo, cabeçalho e coluna indicadora. O títu-
lo explica o que contém a tabela. O corpo é formado pelas linhas e colunas 
de	dados	da	tabela.	O	cabeçalho	da	tabela	especifica	o	conteúdo	das	colu-
nas	e	a	coluna	indicadora	especifica	o	conteúdo	das	linhas.	A	fonte	indica	
o local de onde foram retirados (Tabela 2).
Tabela 2. População por bairro, na cidade de São Gabriel da Cachoeira, no ano de 2003.
 
 
 
 
Bairro População 
Areal 3.119 
Boa Esperança 992 
Centro 1.306 
Dabaru 3.425 
Fortaleza 1.629 
Graciliano 632 
Nova Esperança 815 
Padre Cícero 795 
Praia 892 
São Jorge 187 
Total 13.792 
Fonte: ISA 2004 
 
Título 
Coluna indicadora 
Corpo 
Cabeçalho 
32
 Toda tabela dever ser delimitada por traços horizontais. Podem 
ser feitos traços verticais para separar as colunas, mas não devem ser 
feitos traços verticais para delimitar a tabela. O cabeçalho é separado do 
corpo por um traço horizontal.
 As tabelas podem apresentar as freqüências absolutas, as freqüên-
cias relativas e o total. Para obter a freqüência relativa de uma categoria, 
divide-se a freqüência dessa categoria pelo total, isto é, asoma das fre-
qüências. O total da coluna é escrito entre traços horizontais.
 As tabelas podem conter fonte, notas e chamadas. A fonte dá 
indicação da entidade, ou do pesquisador, ou dos pesquisadores que pu-
blicaram ou forneceram os dados. Como exemplo, na tabela 2 a fonte é 
o ISA - Instituto Socioambiental, (Azevedo, 2004). As notas e chamadas 
devem esclarecer aspectos relevantes do levantamento dos dados ou da 
apuração; quando existentes, devem ser apresentadas após a fonte.
 2.3 Tabelas de Dupla entrada
 Muitas vezes os elementos da amostra ou da população são 
classificados	com	mais	de	um	fator.	Os	dados	devem	então	ser	apresen-
tados em tabela de contingência, isto é, em tabelas de dupla entrada, cada 
entrada referente a um dos fatores. Como exemplo, veja a Tabela 3, que 
apresenta o número de nascidos vivos registrados. Note que eles estão 
classificados	por	dois	fatores:	o	ano de registro e o sexo.
Tabela 3 Nascidos vivos registrados por sexo e o ano de registro, 1988.
Ano de registro Sexo Total Masculino Femenino 
1984 1.307.758 1.251.280 2.559.038 
1985 1.339.059 1.280.545 2.619.604 
1986 1.418.050 1.361.203 2.779.253 
 
32 33
 2.4 Tabelas de distribuição de freqüên-
cias
A partir de dados brutos (tendo estes dados uma grande variação dos 
seus valores), podemos construir uma tabela com as informações resu-
midas e mais informativas possível, para cada variável do estudo. Como 
exemplo do Quadro 1.
Quadro 2 Dados brutos da variável peso de crianças ao nascer (kg).
As tabelas com grande número de dados (muita informação) são 
cansativas e não dão ao leitor uma visão rápida e global do fenômeno es-
tudado, ou seja, deixa sem resposta, as questões de interesse, como pode 
ser observado na tabela 3. 
Essa tabela (denominada de tabela de distribuição de freqüência), 
como o nome indica, conterá os valores da variável e suas respectivas 
contagens, sendo denominada freqüência absoluta, ou simplesmente fre-
qüência. Existem dois tipos de tabelas de distribuição de freqüências: dis-
tribuição de freqüência pontual e distribuição de freqüência em classes.
DADOS BRUTOS 
2,522 3,200 1,900 4,100 4,600 3,400 
2,720 3,720 3,600 2,400 1,720 3,400 
3,125 2,800 3,200 2,700 2,750 1,570 
2,250 2,900 3,300 2,450 4,200 3,800 
3,220 2,950 2,900 3,400 2,100 2,700 
3,000 2,480 2,500 2,400 4,450 2,900 
3,725 3,800 3,600 3,120 2,900 3,700 
2,890 2,500 2,500 3,400 2,920 2,120 
3,110 3,550 2,300 3,200 2,720 3,150 
3,520 3,000 2,950 2,700 2,900 2,400 
3,100 4,100 3,000 3,150 2,000 3,450 
3,200 3,200 3,750 2,800 2,720 3,120 
2,780 3,450 3,150 2,700 2,480 2,120 
3,155 3,100 3,200 3,300 3,900 2,450 
2,150 3,150 2,500 3,200 2,500 2,700 
3,300 2,800 2,900 3,200 2,480 - 
3,250 2,900 3,200 2,800 2,450 - 
 
34
2.5 Tabela de distribuição de freqüência 
pontual
A apresentação da tabela de freqüência sem intervalos de clas-
ses, isto é, uma tabela de distribuição de freqüência pontual, na tabela 4. 
Lembrando que todo título de tabela deve conter a localização e a data do 
fenômeno.
Tabela 4 Número de domicílios por bairros e região de nascimento do responsável em 
São Gabriel da Cachoeira/AM, 2003.
Bairros 
Local de Nascimento 
Total 
SGC Região Fora da Região 
Areal 95 340 142 577 
Boa Esperança 18 102 53 173 
Centro 67 88 141 296 
Dabaru 75 329 190 594 
Fortaleza 144 86 157 387 
Graciliano 22 61 30 113 
Nova Esperança 14 88 22 124 
Padre Cícero 15 90 19 124 
Praia 47 62 40 149 
São Jorge 3 17 2 22 
Total 500 1263 796 2559 
Fonte: ISA (2003) 
Nota: Levantamento Preliminar de origem preliminar dos responsáveis pelo domicílio 
 
34 35
Tabela 5 Níveis de escolaridade da Empresa X, no Polo Industrial de Manaus, 2010.
 2.6 Tabelas de distribuição de freqüên-
cias em classes
Imagine que, para dar uma idéia geral sobre o peso ao nascer de nascidos 
vivos, o pesquisador irá apresentar não os pesos observados, mas o nú-
mero de nascidos vivos por faixa de peso. Deve-se, então, construir uma 
tabela de distribuição de freqüências.
 2.7 Construção de uma tabela de 
distribuição de freqüência em classes
1o PASSO: Organizamos todos os dados em ordem crescente ou decres-
cente.
Quadro 3 Dados em ordem crescente da variável peso de crianças ao nascer (kg)
Níveis de 
Escolaridade 
Número de 
Empregados Porcentagem 
Fundamental 12 33,33 
Médio 18 50,00 
Superior 06 16,67 
Total 36 100,00 
 
1,570 2,480 2,780 3,000 3,200 3,550 
1,720 2,480 2,800 3,000 3,200 3,600 
1,900 2,500 2,800 3,100 3,200 3,600 
2,000 2,500 2,800 3,100 3,200 3,700 
2,100 2,500 2,800 3,110 3,200 3,720 
2,120 2,500 2,890 3,120 3,220 3,725 
2,120 2,500 2,900 3,120 3,250 3,750 
2,150 2,522 2,900 3,125 3,300 3,800 
2,250 2,700 2,900 3,150 3,300 3,800 
2,300 2,700 2,900 3,150 3,300 3,900 
2,400 2,700 2,900 3,150 3,400 4,100 
2,400 2,700 2,900 3,150 3,400 4,100 
2,400 2,700 2,900 3,155 3,400 4,200 
2,450 2,720 2,920 3,200 3,400 4,450 
2,450 2,720 2,950 3,200 3,450 4,600 
2,450 2,720 2,950 3,200 3,450 - 
2,480 2,750 3,000 3,200 3,520 - 
 
36
1,570 2,480 2,780 3,000 3,200 3,550 
1,720 2,480 2,800 3,000 3,200 3,600 
1,900 2,500 2,800 3,100 3,200 3,600 
2,000 2,500 2,800 3,100 3,200 3,700 
2,100 2,500 2,800 3,110 3,200 3,720 
2,120 2,500 2,890 3,120 3,220 3,725 
2,120 2,500 2,900 3,120 3,250 3,750 
2,150 2,522 2,900 3,125 3,300 3,800 
2,250 2,700 2,900 3,150 3,300 3,800 
2,300 2,700 2,900 3,150 3,300 3,900 
2,400 2,700 2,900 3,150 3,400 4,100 
2,400 2,700 2,900 3,150 3,400 4,100 
2,400 2,700 2,900 3,155 3,400 4,200 
2,450 2,720 2,920 3,200 3,400 4,450 
2,450 2,720 2,950 3,200 3,450 4,600 
2,450 2,720 2,950 3,200 3,450 - 
2,480 2,750 3,000 3,200 3,520 - 
 
2o Passo:	Verificar	a	Amplitude	Total		( tA )
A amplitude total é a diferença entre o maior valor observado e o menor 
valor observado. Neste caso, será 030,3570,1600,4 =−=tA .
3o Passo:	Definir	o	Número	de	classes	(faixas)	(K )
O	número	de	classe	pode	ser	definido	pelo	pesquisador.	Uma	maneira	de	
encontrar	o	número	de	classes	pode	ser	definida	pela	fórmula	de	Sturges.	
A fórmula de Sturges, )log(32,31 nK  , em que n é o tamanho da 
amostra. Com base aos dados anteriores, 100=n , calculando K :
744,744,61222,31)100log(22,31 ≈=+=×+=×+=K .
Ou seja, vamos usar inicialmente 7=K classes.
OBSERVAÇÃO: É importante deixar claro que o resultado obtido por 
esta fórmula pode ser usado como referência, mas cabe ao pesquisador 
determinar o número de classes em que pretende organizar seus dados. 
Quando se constrói uma tabela de distribuição de freqüências, é melhor 
usar, como limites (extremos) de classes, números fáceis de trabalhar. 
36 37
4o Passo: Amplitude das Classes ( h )
Assim como no caso do número de classes ( K ), a amplitude das classes (
h ) é, na maioria das vezes, trabalhada em relação ao maior inteiro, isto é, 
dependendo da natureza dos dados. Para calcular a amplitude de classes, 
utiliza-se a seguinte fórmula:
t
A
h t=
Então, a amplitude de classes para os dados em questão será: 
5,043,0
7
03,3
h 
5o Passo: Limites das classes
Existem diversas maneiras de expressar os limites das classes. Por exemplo:
a) 10 12 compreendem todos os valores entre 10 e 12;
b) 10 ¾ 12 compreendem todos os valores de 10 a 12, excluindo o 12;
c) limite aparente 10 ¾ 12; limite real 9,5 – 11,5;
d) 10 ¾12 compreendem todos os valores, excluindo o 10.
Nota: Usualmente se utiliza o intervalo do exemplo b, que também será 
utilizado na tabela de distribuição de freqüências que construiremos.
6o Passo: Construção da tabela de distribuição de freqüências, tabela 6.
38
Tabela 6 Nascidos vivos segundo o peso ao nascer, em quilogramas.
Observação: A tabela distribuição de freqüência deve ter uma formata-
ção adequada de acordo com as normas vigentes. Na coluna das classes, 
em relação à primeira classe onde o intervalo de classe é 1,570 ¾ 2,070, 
trabalhou-se com a menor observação sendo o limite inferior (1,570) e 
o limite superior (1,570 + 0,5 = 2,070) é a soma do limiteinferior com a 
amplitude de classes ( h ).
2.8 Tipos de freqüências
Numa distribuição de freqüência pode-se trabalhar com alguns ti-
pos de freqüência, discriminados a seguir:
Freqüência absoluta ( fi ) – é o número de vezes que o elemento 
aparece na amostra, ou número de elementos pertencentes a uma classe.
Classes de peso Frequência 
1,570  2,070 04 
2,070  2,570 20 
2,570 3,070 29 
3,070 3,570 33 
3,570 4,070 09 
4,070  4,570 04 
4,570  5,070 01 
TOTAL 100 
 
38 39
 Freqüência relativa ( rfr ) – é o valor da freqüência absoluta divi-
dido pelo número total de observações, ou seja, 
n
ffr ii  
.
 Freqüência acumulada ( ifa ) – é a soma das freqüências absolu-
tas até a classe i .
 Freqüência relativa acumulada ( ifra ) – é o valor da freqüência 
acumulada dividido pelo número total de observações, ou seja, 
n
frfra ii  
.
 2.9 Medidas de posição para dados 
agrupados
Tem por objetivo descrever um conjunto de dados de forma orga-
nizada e compactada que possibilite a visualização do conjunto estudado 
por meio de suas estatísticas. 
 2.9.1 Média aritmética ( X ) para dados agrupados
Sem intervalo de classe - Consideremos a distribuição de freqüência abaixo, para o 
número	de	famílias	com	filhos	do	sexo	masculino	em	34	famílias	com	até	quatro	filhos.	
Vamos determine a média de meninos por família.
40
Tabe;la	7	Número	de	famílias	com	filhos	do	sexo	masculino
Como as freqüências são os números de vezes em que cada valor da 
variável aparece, elas funcionam como fatores de ponderação, o que nos 
leva a calcular a média aritmética ponderada, dada pela fórmula:
1
.
78 2,29.
34
n
i i
i
i
x f
X
f
== = =
∑
∑
Portanto,	 há	 uma	média	 de	 dois	 filhos	 do	 sexo	masculino	 por	 família,	
aproximadamente.
 COM INTERVALOS DE CLASSE - Neste caso, 
convencionamos que todos os valores incluídos em um determinado 
intervalo de classe coincidem com o seu ponto médio e determinamos a 
média aritmética ponderada por meio da fórmula:
 
∑
∑
==
i
n
i
ii
f
fx
X 1
.
, onde: if é freqüência da classe i e ix é o ponto médio da 
classe i .
Exemplo: Calcular a estatura média de crianças em uma creche, conforme 
a tabela abaixo. Aplicando a fórmula acima temos:
2440 61
40
X cm= = , as crianças têm em média 61 centímetros de altura..
Número de filhos homens ( ix ) Frequência ( if ) ii xf  
0 02 0 
1 06 6 
2 10 20 
3 12 36 
4 04 16 
Total 34 78 
 
40 41
Tabela 8 Estatura média de crianças em uma creche.
 2.9.2 Mediana - dM
A mediana de um conjunto de valores, dispostos segundo uma ordem 
(crescente ou decrescente), é o valor situado de tal forma no conjunto que 
o separa em dois subconjuntos de mesmo número de elementos.
 SEM INTERVALOS DE CLASSE: Neste caso, é o bastante 
identificar	 a	 freqüência	 acumulada	 imediatamente	 superior	 à	 metade	
da soma das freqüências. A mediana será aquele valor da variável que 
corresponde a tal freqüência acumulada. Exemplo: Conforme tabela a 
seguir:
Tabela 9 Número de banheiros por domicílios
 Estatura (cm) Frequência ( if ) Ponto médio ( ix ) . ii xf  . 
50  54 04 52 208 
54  58 09 56 504 
58  62 11 60 660 
62  66 08 64 512 
66  70 05 68 340 
70 ├74 03 72 216 
Total 40 - 2.440 
Número de 
banheiros 
( iX ) 
Frequência 
( if ) 
Frequência acumulada 
( ifa ) 
0 02 02 
1 06 08 
2 09 17 
3 13 30 
4 05 35 
Total 35 - 
 
42
Quando o número de elementos na amostra ( n ) for ímpar, o valor 
mediano será o valor dos dados ordenados que ocupe a ordem dada 
pela fórmula 
2
1+n
, ou seja, .18
2
135


 Será, portanto, o décimo oitavo 
elemento (180).	Para	identificá-lo,	localiza-se	o	180 elemento na freqüência 
acumulada, neste exemplo 3,dM = isto é, a mediana é igual a 3. 
Calcule a mediana da tabela, a seguir:
Tabela 10 Crianças e adolescentes em uma escola
Quando o somatório das freqüências for par, o valor mediano será a mé-
dia entre os elementos de ordem 
2
n
 e 1
2
+
n
, ou seja, 4
2
8
= e 51
2
8
=+ . 
Identificam-se	o	4o e 5o elementos na freqüência acumulada, que corres-
pondem, respectivamente, aos elementos 15 e 16. Portanto a média dos 
elementos é a mediana 
15 16 31 15,5
2 2d
M anos+= = = .
Idade (anos) ( iX ) Frequência ( if ) Frequência acumulada ( ifa ) 
 12 1 1 
14 2 3 
15 1 4 
16 2 6 
17 1 7 
20 1 8 
Total 8 - 
 
42 43
COM INTERVALOS DE CLASSE: Neste caso, devemos seguir os 
seguintes passos: 
10) passo: Determinamos as freqüências simples if ;
20) passo: Calculamos as freqüências acumuladas ifa ;
30) passo: Marcamos a classe correspondente à freqüência acumulada 
imediatamente superior a 2
n
. Tal classe será a classe mediana;
40) passo: Calculamos a Mediana pela seguinte fórmula:. 
12 i
d i i
i
n fa
M l h
f
−
 − 
 = + ×
onde:
ii = é o limite inferior da classe que contém a mediana;
1ifa = é a freqüência acumulada da classe anterior à classe mediana;
if = é a freqüência da classe que contém a mediana;
ih = é a amplitude da classe que contém a mediana.
Tabela 11 Distribuição das estaturas das crianças.
Estaturas 
(cm) 
Crianças 
( if ) 
Freqüência acumulada 
( ifa ) 
50 54 4 4 
54 58 9 13 
58 62 11 24 
62 66 8 32 
66 70 5 37 
70 74 3 40 
Total 40 - 
 
44
10) passo: 202
40
2

n
 logo a classe mediana será 58¾ 62.
20) passo:	Identificação	dos	elementos	para	calcular	o	valor	da	mediana	
na fórmula:
il = 58; 1ifa = 13; if = 11; e ih = 4. 
Substituindo esses valores na fórmula, obtemos:
  54,60
11
28584
11
132058 dM
 
 
 
 
 
Emprego da Mediana
•	 Quando desejamos obter o ponto que divide a distribuição em duas 
partes iguais. 
•	 Quando há valores extremos que afetam de maneira acentuada a média 
aritmética. 
 2.9.3 Moda - oM
A moda é o valor que ocorre com maior freqüência em um 
conjunto de dados.
Exemplo: O salário modal dos empregados de uma fábrica é o salário mais 
comum, isto é, o salário recebido pelo maior número de empregados dessa 
fábrica.
44 45
A MODA PARA DADOS AGRUPADOS:
 Moda sem intervalos de classe: Uma vez agrupados os dados, é 
possível	determinar	imediatamente	a	moda:	basta	fixar	o	valor	da	variável	
de maior freqüência.
Quadro 4 Qual a temperatura mais comum medida no mês.
Resposta: a 0 2M = , isto é, a temperatura modal é 2º C, pois ocorreu com 
maior freqüência.
Moda com intervalos de classe: A classe que apresenta a maior fre-
qüência	é	denominada	classe	modal.	Pela	definição,	podemos	afirmar	que	
a moda, neste caso, é o valor dominante que está compreendido entre os 
limites da classe modal.
Tabela 12 A estatura modal conforme a tabela a seguir.
 
Temperaturas Dias (f i) 
0º C 3 
1º C 9 
2º C 12 
3º C 6 
Estaturas (cm) Crianças ( if ) 
50 54 4 
54 58 9 
58 62 11 
62 66 8 
66 70 5 
70 74 3 
Total 40 
 
46
Método utilizando a fórmula de CZUBER:
iio hlM ×∆+∆
∆
+=
21
1
il = limite inferior da classe modal;
1∆ = é a diferença entre a freqüência da classe modal e a freqüência da 
classe imediatamente anterior à da classe modal;
2∆ = é a diferença entre a freqüência da classe modal e a freqüência da 
classe imediatamente posterior à da classe modal;
ih = amplitude da classe modal.
6,594
)811)(911(
91158 


oM 
OBS: A moda é utilizada quando desejamos obter uma medida rápida e 
aproximada de posição ou quando a medida de posição deva ser o valor 
mais típico da distribuição.
 2.10 Medidas de dispersão ou variabilidade
 Para a descrição adequada de um fenômeno, necessitamos da 
medida de tendência central – média. Utilizamos também as medidas de 
dispersão que representam as oscilações em torno de um valor central, os 
desvios em relação a este valor central.
46 47
 2.10.1 Amplitude total
É a única medida de dispersão que não tem na média o ponto de referência. 
Quando os dados não estão agrupados, a amplitude total é a diferença 
entre o maior e o menor valor observado: minmax XXAt −=
Exemplo: Para os valores 40, 45,48, 62 e 70. Calcule a amplitude total:
304070 tA 
Quando os dados estão agrupados sem intervalos de classe ainda temos, 
como exemplo:
Tabela 13 Dados estão agrupados sem intervalos de classe
tA = minmax XX − tA = 81220  .
COM INTERVALOS DE CLASSE A AMPLITUDE TOTAL - é a 
diferença entre o limite superior da última classe e o limite inferior da 
primeira classe. 
 Idade ( iX ) Frequência ( if ) 
12 1 
14 2 
15 1 
16 2 
17 1 
20 1 
Total 8 
48
Exemplo:
Tabela 14 Dados de estatura (em cm) agrupados em intervalos de classe
 A amplitude total tem o inconveniente de só levar em conta os 
dois valores extremos da série. Faz-se uso da amplitude total quando se 
quer determinar a amplitude da temperatura em um dia, no controle de 
qualidade ou como uma medida de cálculo rápido sem muita exatidão.
 2.10.2 Variância ( 2S )
 A variância é uma medida que tem pouca utilidade na estatística 
descritiva, porém é extremamente importante na inferência estatística e 
em combinações de amostras. Calculada pela soma ao quadrado das dife-
renças das classes.
 
Estaturas (cm) Frequência ( if ) 
50 54 04 
54 58 09 
58 62 11 
62 66 08 
66 70 05 
70 74 03 
Total 40 
tA = max min 74 50 24 .X X cm    
 
 
n
fxx
S
i
k
i
i
2
12



 ou 1
2
11
2
2











n
fxfx
S
k
i
iii
k
i
i
 
48 49
 2.10.3 Desvio padrão ( )
 É a medida de dispersão que geralmente é mais empregada, pois 
leva em consideração a totalidade dos valores da variável em estudo. É 
um indicador de variabilidade bastante estável. O desvio padrão baseia-se 
nos desvios em torno da média aritmética e a sua fórmula básica pode ser 
traduzida como: a raiz quadrada da média aritmética dos quadrados dos 
desvios e é representada por .
DESVIO PADRÃO PARA DADOS NÃO AGRUPADOS E SEM RE-
PETIÇÕES
Para uma amostra: 
Exemplo: Dada uma amostra: 2, 3, 4, 5. Calcule o desvio padrão.
Solução: Precisamos calcular a média primeiramente.
Exemplo: Calcule o desvio padrão populacional para os dados: 3, 6, 12, 7.
Para o cálculo do desvio padrão populacional, utilizamos a seguinte fór-
mula:
2S 
2S 
1
)( 2
1





n
xx
S
n
i
i
 
 
5,3
4
14
x 
 
14
)5,35()5,34()5,33()5,32( 2222


S 
3
)5,1()5,0()5,0()5,1( 2222 
S 
3
25,225,025,025,2 
S 
3
00,5
S  67,1S  29,1S 
 
50
N
xx
S
n
i
i
2
1
)( 


 
 
7
4
28
x 
 
4
)77()712()76()73( 2222 
S 
4
)0()5()1()4( 2222 
S  
4
42
S  5,10S  24,3S 
 
 
DESVIO PADRÃO PARA DADOS AGRUPADOS- DISTRIBUIÇÃO 
DE FREQUÊNCIA PONTUAL
Utilizando a Tabela abaixo (Tabela 6), calcule o desvio padrão. 
 
Idade 
(xi) 
Alunos 
(fi) 
xifi xi2fi 
12 1 12x1= 12 122x1= 144 
14 2 14x2= 28 142x2= 392 
15 1 15x1= 15 152x1= 225 
16 2 16x2= 32 162x2=512 
17 1 17x1 = 17 172x1= 289 
20 1 20x1 = 20 202x1= 400 
Total 8 124 1.962 
 






















 



n
i
n
i
ii
ii n
fx
fx
n
S
1
2
12
1
1
  
 









8
124962.1
18
1 2S 
   40
7
1
S  71,5S  39,2S anos. 
 
50 51
DESVIO PADRÃO PARA DADOS AGRUPADOS-DISTRIBUIÇÃO 
EM CLASSES
A seguir, temos a distribuição de frequência dos tempos de atendimento 
(em minutos) de um caixa de banco de uma amostra de 15 clientes.
*No cálculo do desvio padrão usaremos a mesma fórmula anterior, sendo que xi a ser 
trabalhado será o ponto médio entre cada intervalo, ou seja, o ponto médio do primeiro 
intervalo será a média dos intervalos.
Aplicando a fórmula:
 2.11 Medidas de dispersão relativa
 2.12 Coeficiente de variação de Pearson - 
CV(%)
 Na estatística descritiva o desvio padrão por si só tem grandes 
limitações. Assim, um desvio padrão de duas unidades pode ser considera-
do pequeno para uma série de valores cujo valor médio é 200; no entanto, 
se a média for igual a 20, o mesmo não poderia ser dito. Observa-se o fato 
de o desvio padrão ser expresso na mesma unidade de medida dos dados.
 Por outro lado quando os dados são expressos em unidades dife-
rentes,	limita-se	o	emprego	do	coeficiente	de	variação	-	CV:	Coeficiente	de	
Variação de Pearson (é a razão entre o desvio padrão e a média referente a 
dados de uma mesma série). Medida essa denominada de:
Faixa de tempo Clientes 
(fi) 
(xi)* xifi xi2fi 
0 4 3 2 2x3= 6 (2)2x3= 12 
4 8 7 6 6x7 = 42 (6)2x7= 252 
8 12 5 10 10x5= 50 (10)2x5= 500 
Total 8 - 98 764 
 
 
 









15
98764
115
1 2S   73,123
14
1
S  84,8S  87,2S minutos. 
 
100
X
SCV 
52
 O resultado neste caso é expresso em percentual, entretanto pode 
ser expresso também através de um fator decimal, desprezando assim o 
valor 100 da fórmula.
Exemplo: Tomemos os resultados das estaturas e dos pesos de um mesmo 
grupo de indivíduos no quadro a seguir:
Quadro 5 Estaturas e pesos de um grupo de indivíduos.
Qual das medidas (Estatura ou Peso) possui maior homogeneidade?
Cálculo dos Coeficientes de Variação 
Teremos	que	calcular	os	coeficientes	de	variação	das	variáveis	Estatura	e	
Peso. 
O	coeficiente	de	menor	valor	será	o	de	maior	homogeneidade,	isto	é,	o	
que tem a menor dispersão ou variabilidade dos dados.
Estatura: 
Peso: 
Logo, nesse grupo de indivíduos, a variável estatura apresenta menor grau 
de dispersão nos dados que a variável peso.
VARIÁVEL M É D I A DESVIO PADRÃO 
Estatura 175 cm 5,0 cm 
Peso 68 kg 2,0 kg 
 
%85,2100)175/5((%) CV 
%94,2100)68/2((%) CV 
52 53
Exercício do capítulo 2
1) Os dados da tabela abaixo são de títulos negociados. Calcule o 
valor médio dos títulos negociados.
2) Observe o número de divórcios na cidade, de acordo com a 
duração do casamento, na tabela abaixo.
a) Qual a duração média e mediana dos casamentos?
b) Encontre a variância e o desvio padrão da duração dos casa-
mentos.
3) A distribuição de freqüência do salário anual dos moradores do 
bairro A que têm alguma forma de rendimento é apresentada na tabela a 
seguir:
a) Qual a média e o desvio padrão da variável salário?
 Valor dos Títulos (R$) Número de Títulos 
2.000 18 
500 08 
200 02 
Total 28 
 Anos de casamento Número de divórcios 
0 6 2.800 
 6 12 1400 
1218 600 
18 24 150 
2430 50 
Total 5.000 
54
b) Um bairro B apresentou, para a mesma variável, uma média de 
7,2 e um desvio padrão de 15,1. Em qual dos bairros a população é mais 
homogênea quanto à renda?
4) Uma pesquisa com usuários de transportes coletivos na cidade 
X indagou sobre os diferentes tipos usados nas suas locomoções diárias. 
Dentre ônibus, moto e taxi, o número de diferentes meios de transporte 
utilizados foi: 2; 3; 2; 1; 2; 1; 2; 1; 2; 3; 1; 1; 1; 2; 2; 3; 1; 1; 1; 1; 2, 1; 1; 2; 
2; 1; 2; 1; 2 e 3.
a) Organize uma distribuição de freqüência.
b)	Faça	uma	representação	gráfica.
c) Calcule todas as medidas de tendência e variabilidade que você 
conhece.
d) Admitindo que essa amostra represente bem o comportamento 
do usuário desta cidade pesquisada, você acha que a porcentagem dos 
usuários que utilizam mais de um tipo de transporte é grande?
5) A distribuição de freqüência abaixo indica o número de aciden-
tes ocorridos com motoristas de uma empresa de ônibus em determinado 
ano: 
a) Determine a freqüência acumulada absoluta e a freqüência re-
lativa (%);
 Faixa salarial Número de moradores 
0 2 10.000 
2 4 3.900 
4 6 2.000 
6 8 1.100 
 8 10 800 
1012 700 
1214 2.000 
Total 20.500 
54 55
b) Calcule a média, mediana e moda;
c) Calcule a amplitude total, variância, desvio padrão.
6) (Bussab e Morettin, 2005) Para facilitar um projeto de ampliação 
da rede de esgoto de uma região de uma cidade, as autoridades tomaram 
uma amostra de tamanho 50 dos 270 quarteirões que compõem a região, e 
foram encontrados os seguintes números de casas por quarteirão: 
Quadro 6. Número de casas por quarteirão
Faça uma análise descritiva destes dados:
a) Construa uma distribuição de freqüênciamais adequada para estes 
dados;
b) Calcule a média, mediana e moda;
c) Calcule a amplitude total, variância e desvio padrão.
 7) Os dados da tabela abaixo, retirados de Magalhães e Lima (2001), 
são informações de um questionário aplicado aos alunos do primeiro ano 
de uma escola fornecendo as seguintes informações: Id:	identificação	do	
aluno. Turma: turma a que o aluno foi alocado (A ou B). Sexo: F de 
feminino, M de masculino. Idade: idade em anos. Alt: altura em metros. 
Peso: peso em quilogramas. Filhos:	número	de	filhos	na	família.	Fuma: 
hábito de fumar, sim ou não. Toler: tolerância ao cigarro: (I) indiferente, 
(P) incomoda pouco e (M) incomoda muito. Física: horas de atividade 
 
2 2 3 10 13 14 15 15 16 16 
18 18 20 21 22 22 23 24 25 25 
26 27 29 29 30 32 36 42 44 45 
45 46 48 52 58 59 61 61 61 65 
66 66 68 75 78 80 89 90 92 97 
 
 Número de Acidentes Número de Motoristas 
2 16 
3 09 
4 06 
5 05 
6 03 
Total 39 
56
física por semana. Cine: número de vezes em que vai ao cinema por se-
mana. OpCine: opinião a respeito das salas de cinema na cidade: (B) re-
gular a boa e (M) muito boa. TV: horas gastas assistindo TV por semana. 
OpTV: opinião a respeito da qualidade da programação na TV: (R) ruim, 
(M) média, (B) boa e (N) não sabe. Faça uma análise descritiva dos dados 
apresentados acima.
Id Turma Sexo Idade Alt Peso Filhos Fuma Toler Física Cine OpCine TV OpTV 
1 A F 17 1,60 60,5 2 NAO P 0 1 B 16 R 
2 A F 18 1,69 55,0 1 NAO M 0 1 B 7 R 
3 A M 18 1,85 72,8 2 NAO P 5 2 M 15 R 
4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R 
5 A F 19 1,58 55,0 1 NAO M 2 2 B 5 R 
6 A M 19 1,76 60,0 3 NAO M 2 1 B 2 R 
7 A F 20 1,60 58,0 1 NAO P 3 1 B 7 R 
8 A F 18 1,64 47,0 1 SIM I 2 2 M 10 R 
9 A F 18 1,62 57,8 3 NAO M 3 3 M 12 R 
10 A F 17 1,64 58,0 2 NAO M 2 2 M 10 R 
11 A F 18 1,72 70,0 1 SIM I 10 2 B 8 N 
12 A F 18 1,66 54,0 3 NAO M 0 2 B 0 R 
13 A F 21 1,70 58,0 2 NAO M 6 1 M 30 R 
14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N 
15 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R 
16 A F 19 1,63 47,4 3 NAO P 0 1 B 18 R 
17 A F 17 1,82 66,0 1 NAO P 3 1 B 10 N 
18 A M 18 1,80 85,2 2 NAO P 3 4 B 10 R 
19 A F 20 1,60 54,5 1 NAO P 3 2 B 5 R 
20 A F 18 1,68 52,5 3 NAO M 7 2 B 14 M 
21 A F 21 1,70 60,0 2 NAO P 8 2 B 5 R 
22 A F 18 1,65 58,5 1 NAO M 0 3 B 5 R 
23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R 
24 A F 20 1,55 48,0 1 SIM I 0 1 M 28 R 
25 A F 20 1,69 51,6 2 NAO P 8 5 M 4 N 
26 A F 19 1,54 57,0 2 NAO I 6 2 B 5 R 
27 B F 23 1,62 63,0 2 NAO M 8 2 M 5 R 
28 B F 18 1,62 52,0 1 NAO P 1 1 M 10 R 
29 B F 18 1,57 49,0 2 NAO P 3 1 B 12 R 
30 B F 25 1,65 59,0 4 NAO M 1 2 M 2 R 
31 B F 18 1,61 52,0 1 NAO P 2 2 M 6 N 
32 B M 17 1,71 73,0 1 NAO P 1 1 B 20 R 
33 B F 17 1,65 56,0 3 NAO M 2 1 B 14 R 
34 B F 17 1,67 58,0 1 NAO M 4 2 B 10 R 
35 B M 18 1,73 87,0 1 NAO M 7 1 B 25 B 
36 B F 18 1,60 47,0 1 NAO P 5 1 M 14 R 
37 B M 17 1,70 95,0 1 NAO P 10 2 M 12 N 
38 B M 21 1,85 84,0 1 SIM I 6 4 B 10 R 
39 B F 18 1,70 60,0 1 NAO P 5 2 B 12 R 
40 B M 18 1,73 73,0 1 NAO M 4 1 B 2 R 
41 B F 17 1,70 55,0 1 NAO I 5 4 B 10 B 
42 B F 23 1,45 44,0 2 NAO M 2 2 B 25 R 
43 B M 24 1,76 75,0 2 NAO I 7 0 M 14 N 
44 B F 18 1,68 55,0 1 NAO P 5 1 B 8 R 
45 B F 18 1,55 49,0 1 NAO M 0 1 M 10 R 
46 B F 19 1,70 50,0 7 NAO M 0 1 B 8 R 
47 B F 19 1,55 54,5 2 NAO M 4 3 B 3 R 
48 B F 18 1,60 50,0 1 NAO P 2 1 B 5 R 
49 B M 17 1,80 71,0 1 NAO P 7 0 M 14 R 
50 B M 18 1,83 86,0 1 NAO P 7 0 M 20 B 
56 57
Id Turma Sexo Idade Alt Peso Filhos Fuma Toler Física Cine OpCine TV OpTV 
1 A F 17 1,60 60,5 2 NAO P 0 1 B 16 R 
2 A F 18 1,69 55,0 1 NAO M 0 1 B 7 R 
3 A M 18 1,85 72,8 2 NAO P 5 2 M 15 R 
4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R 
5 A F 19 1,58 55,0 1 NAO M 2 2 B 5 R 
6 A M 19 1,76 60,0 3 NAO M 2 1 B 2 R 
7 A F 20 1,60 58,0 1 NAO P 3 1 B 7 R 
8 A F 18 1,64 47,0 1 SIM I 2 2 M 10 R 
9 A F 18 1,62 57,8 3 NAO M 3 3 M 12 R 
10 A F 17 1,64 58,0 2 NAO M 2 2 M 10 R 
11 A F 18 1,72 70,0 1 SIM I 10 2 B 8 N 
12 A F 18 1,66 54,0 3 NAO M 0 2 B 0 R 
13 A F 21 1,70 58,0 2 NAO M 6 1 M 30 R 
14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N 
15 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R 
16 A F 19 1,63 47,4 3 NAO P 0 1 B 18 R 
17 A F 17 1,82 66,0 1 NAO P 3 1 B 10 N 
18 A M 18 1,80 85,2 2 NAO P 3 4 B 10 R 
19 A F 20 1,60 54,5 1 NAO P 3 2 B 5 R 
20 A F 18 1,68 52,5 3 NAO M 7 2 B 14 M 
21 A F 21 1,70 60,0 2 NAO P 8 2 B 5 R 
22 A F 18 1,65 58,5 1 NAO M 0 3 B 5 R 
23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R 
24 A F 20 1,55 48,0 1 SIM I 0 1 M 28 R 
25 A F 20 1,69 51,6 2 NAO P 8 5 M 4 N 
26 A F 19 1,54 57,0 2 NAO I 6 2 B 5 R 
27 B F 23 1,62 63,0 2 NAO M 8 2 M 5 R 
28 B F 18 1,62 52,0 1 NAO P 1 1 M 10 R 
29 B F 18 1,57 49,0 2 NAO P 3 1 B 12 R 
30 B F 25 1,65 59,0 4 NAO M 1 2 M 2 R 
31 B F 18 1,61 52,0 1 NAO P 2 2 M 6 N 
32 B M 17 1,71 73,0 1 NAO P 1 1 B 20 R 
33 B F 17 1,65 56,0 3 NAO M 2 1 B 14 R 
34 B F 17 1,67 58,0 1 NAO M 4 2 B 10 R 
35 B M 18 1,73 87,0 1 NAO M 7 1 B 25 B 
36 B F 18 1,60 47,0 1 NAO P 5 1 M 14 R 
37 B M 17 1,70 95,0 1 NAO P 10 2 M 12 N 
38 B M 21 1,85 84,0 1 SIM I 6 4 B 10 R 
39 B F 18 1,70 60,0 1 NAO P 5 2 B 12 R 
40 B M 18 1,73 73,0 1 NAO M 4 1 B 2 R 
41 B F 17 1,70 55,0 1 NAO I 5 4 B 10 B 
42 B F 23 1,45 44,0 2 NAO M 2 2 B 25 R 
43 B M 24 1,76 75,0 2 NAO I 7 0 M 14 N 
44 B F 18 1,68 55,0 1 NAO P 5 1 B 8 R 
45 B F 18 1,55 49,0 1 NAO M 0 1 M 10 R 
46 B F 19 1,70 50,0 7 NAO M 0 1 B 8 R 
47 B F 19 1,55 54,5 2 NAO M 4 3 B 3 R 
48 B F 18 1,60 50,0 1 NAO P 2 1 B 5 R 
49 B M 17 1,80 71,0 1 NAO P 7 0 M 14 R 
50 B M 18 1,83 86,0 1 NAO P 7 0 M 20 B 
8) Um órgão do governo do estado (Bussab e Morettin, 2005) está inte-
ressado em determinar padrões sobre o investimento em educação, por 
habitante, realizado pelas prefeituras. De um levantamento de dez cidades, 
foram	obtidos	os	valores	(codificados)	da	tabela	abaixo:
Nesse	caso,	será	considerada	como	investimento	básico	a	média	final	das	
observações, calculada da seguinte maneira:
 a) Obtém-se uma média inicial.
 b) Eliminam-se do conjunto aquelas observações que forem su-
periores à média inicial mais duas vezes o desvio padrão, ou inferiores à 
média inicial menos duas vezes o desvio padrão.
	 c)	Calcula-se	a	média	final	com	o	novo	conjunto	de	observações.
 d) Qual o investimento básico que você daria como resposta?
 Cidades A B C D E F G H I J 
Investimento 20 16 14 8 19 15 14 16 19 18 
58
58 59
Capítulo 3 Correlação
Em muitos estudos, o principal objetivo é descrever a associação 
existente entre as variáveis, isto é, avaliar o grau de dependência entre elas, 
de modo a prever o resultado mais aproximado de uma delas quando se 
conhece	a	realização	da	outra.	Para	verificar	se	existe	relação	entre	duas	
variáveis	quantitativas,	o	coeficiente	de	correlação	é	uma	medida	adequa-
da.	Usualmente,	devemos	determinar	o	coeficiente	de	correlação	para	uma	
amostra, pois desconhecemos este valor na população. Um procedimento 
bastante	útil	para	se	verificar	a	associação	entre	variáveis	quantitativas,	é	
por meio do diagrama de dispersão.
3.1 Diagrama de Dispersão
No estudo da relação entre duas variáveis, o diagrama de disper-
são representa um importante passo preliminar antes da análise estatística 
formal. O diagrama de dispersão dos dados permite dar uma idéia, da 
relação	 existente,	 entre	 as	 variáveis.	 	 Para	 fazer	 o	 gráfico	 de	 dispersão,	
representa-se cada ponto pelo par de valores X (abscissa) e Y (ordenada) 
num sistema cartesiano. Na Figura 1 estão representados os pares ),( YX 
observados na Tabela 17. 
60
 
Diagrama de Dispersão
0
0.5
1
1.5
2
2.5
3
0 10 20 30 40
Figura 1 Diagrama de dispersão da quantidade de nicotina e alcatrão em cigarros.
Tabela 15 Quantidades de nicotina e alcatrão em 12 marcas de cigarros.
Observação Alcatrão em mg ( X ) Nicotina em mg ( Y ) 
1 1 0,1 
2 3 0,3 
3 6 0,3 
4 9 0,6 
5 12 0,9 
6 15 0,5 
7 18 1,3 
8 21 1,4 
9 24 1,6 
10 28 1,7 
11 30 2,1 
12 35 2,4 
 
60 61
Figura 2 Representação da correlação positiva.
3.2 Correlação linear
Observada uma associação entre as variáveis quantitativas X e Y , 
é	muito	útil	quantificar	esta	associação.	Apresentaremos	a	seguiro	tipo	de	
associação mais simples – a linear. 
Verificada	por	meio	da	nuvem	de	ponto	estabelecida	pelo	diagrama	
de	dispersão,	vamos	encontrar	uma	medida	que	possa	quantificar	o	quanto	
o	gráfico	se	aproxima	de	uma	reta.	Esta	quantificação	é	conhecida	como	o	
coeficiente de correlação linear e será denotado por r .
Quando duas variáveis crescem no mesmo sentido, dizemos que en-
tre elas existe uma correlação positiva.
Quando duas variáveis crescem em sentidos opostos, dizemos que 
entre elas existe uma correlação negativa.
 
62
 3.3 Como se mede correlação linear?
Para medir o grau de correlação linear entre duas variáveis, calcula-
-se	o	coeficiente	de	correlação	 r .
Dada uma amostra de um par de variáveis ( , ), 1, 2, ,i iX Y i n= 
o	coeficiente	de	correlação	entre	as	variáveis	é	calculado	como	segue:
Exemplo: No estudo de cigarros da Tabela 15, com uma amostra de ta-
manho 12n = marcas de cigarros, foram avaliadas: variáveis Nicotina (Y ) 
e Alcatrão ( X ), encontrando os seguintes valores:
 
Figura 3 Representação da correlação negativa.
  
   
1 1
1
2 2
2 21 1
1 1
n n
i in i i
i i
i
n n
i in ni i
i i
i i
X Y
X Y
nr
X Y
X Y
n n
 

 
 
 


   
    
     
   
      
 
62 63
Neste caso temos
	 O	coeficiente	de	correlação	varia	entre	–1	e	+1,	ou	seja,													.	
A relação é mais próxima de uma reta, à medida que r se aproxima de –1 
ou +1. A relação será uma reta perfeita se .
 3.4 Teste de significância sobre r.
 Muitas vezes, temos o interesse em testar a existência de corre-
lação entre duas variáveis X e Y , a partir de uma amostra. Neste caso, 
além de mensurar o grau de correlação observado nos dados, queremos, 
também, testar as seguintes hipóteses relativas à população em estudo.
0H : As variáveis X e Y são não correlacionadas;
1H : As variáveis X e Y são correlacionadas.
Ou equivalentemente,
0 : 0H ρ = versus 0:1 ≠ρH
Supondo que a amostra vem de uma população com correlação nula, a 
estatística de teste, 
tem distribuição -Student com graus de liberdade. Para o exemplo 
acima encontramos
 
12
1
312,30i i
i
X Y

 , 
12
1
202i
i
X

 , 
12 2
1
4746i
i
X

 , 
12
1
13,20i
i
Y

 e 
12 2
1
20,88i
i
Y

 . 
 
2 2
202 13,2312,30 90,1012 0,9739
92,51(202) (13,2)4746 20,88
12 12
r


  
   
    
   
 
1 1r    
1r   ou 1r   
2
2
1c
nt r
r

 

 
64
2
12 20,9739 13,569
1 (0,9739)c
t   

 
	 E	agora,	como	vamos	decidir	se	existe	correlação	significativa	en-
tre alcatrão e nicotina? A regra de decisão depende da hipótese alternativa 
e é apresentada na Tabela B.
Tabela 16 Regra de decisão sob a hipótese nula
 Continuando nosso exemplo, consultando a Tabela B, em anexo, 
da distribuição t -Student, encontra-se o grau de liberdade, com 2 10n − = 
e / 2 0,025α = , 10,2,5% 2,228t = . Comparando com o valor obtido da es-
tatística 13,569ct = , devemos rejeitar a hipótese nula, pois (10; 2,5%)ct t> 
ou seja, existe uma correlação positiva entre nicotina e alcatrão ao nível de 
5% de probabilidade.
Hipóteses Regra de decisão: 
0:0 H Não Rejeito 0H se, e somente se, ( 2, )nt t  
1 : 0H   Rejeito 0H se, e somente se, ( 2; )2
| |
n
t t  
 
64 65
Exercício
1. O primeiro estudo de regressão foi realizado por Galton, por volta de 
1885. O problema que gerou este estudo consistia em compreender se 
existia	relação	entre	a	altura	dos	filhos	(Y)	em	função	da	altura	média	dos	
pais (X) medidas em centímetros.
a) Faça o diagrama de dispersão;
b) Calcule a correlação;
c) Teste a correlação 0,05α = ;
d) Conclua.
X Y X Y X Y X Y 
164 166 164 168 166 166 166 168 
166 171 166 173 169 166 169 168 
169 171 169 173 171 166 171 168 
171 171 171 173 171 176 173 168 
173 171 173 176 173 178 176 171 
176 173 176 176 178 176 178 178 
 
66
66 67
Capítulo 4 Regressão linear simples
 4.1 Introdução
No estudo de regressão linear simples, o objetivo é construir um 
modelo estatístico que possa ser utilizado para prever os valores da variá-
vel resposta ou variável dependente Y , com base nos valores da variável 
regressora ou variável independente X . O modelo de regressão linear é 
dito simples, porque utiliza apenas uma variável independente. 
O primeiro passo, na análise, é construir o diagrama de dispersão. 
Ele ajuda na escolha da forma relacional entre as variáveis. Essa relação 
pode ser descrita por uma função linear ou por uma função linearizável.
4.2 Modelo Estatístico
Assumimos que cada resposta iY está relacionada com o valor iX 
da variável independente por meio da equação:
onde:
(1) 1 2,, , nX X X são os valores da variável controlada X , que o experimentador selecionou para o estudo.
(2) 1 2, , , nε ε ε , são erros desconhecidos que afetam a verdadeira 
relação linear. São variáveis aleatórias não observáveis, as quais 
assumimos serem independentes, normalmente distribuídas com 
média zero e variância constante 2σ , constante e desconhecida, 
isto é 2(0, )i Nε σ� .
(3) α e β são parâmetros desconhecidos e devem ser estimados a 
, 1,2, ,i i iY X i n      
68
partir dos dados. α e β representam o intercepto e a inclinação 
da reta, respectivamente.
 4.3 O método dos Mínimos Quadrados
 Este método consiste em determinar os valores dos parâmetros e 
que	minimizam	a	soma	dos	quadrados	dos	erros,	a	qual	é	definida	por:
onde a e b são	chamados	de	estimadores	de	mínimos	quadrados	de	α	e	b,	
respectivamente.
 4.4 Notação básica
 4.5 Reta de Mínimos Quadrados
 Com a notação acima e usando resultados do cálculo, encontra-
mos, para a e b , o seguinte resultado, respectivamente:
 A reta de regressão ou de mínimos quadrados é dada então por:
2 2
1 1
ˆ( ) ( )
n n
i i i i
i i
SQE Y Y Y a bX
 
      
1
1 n
i
i
X X
n 
  
1
1 n
i
i
Y Y
n 
  
1 1
cov( , ) ( )( )
n n
i i i i
i i
X Y X X Y Y X Y nXY
 
      
2
22 2
1 1
( )
n n
X i i
i i
S X X X nX
 
     
2
22 2
1 1
( )
n n
Y i i
i i
S Y Y Y nY
 
     
 
XbYa  e 2
cov( , )
X
X Yb
S
 . 
 
ˆ , 1,2, ,i iY a bX i n   
68 69
Exemplo
 Para os dados de nicotina e alcatrão, vamos determinar a reta de 
regressão para descrever a quantidade de Nicotina em função da quanti-
dade de Alcatrão. A tabela 17 auxilia os cálculos:
Tabela 17 Cálculos para análise de regressão: Nicotinas (Y) e Alcatrão (X) em mg.
Neste caso encontramos,
i iX iY 
2
iX 
2
iY i iX Y 
1 1 0,1 1 0,01 0,1 
2 3 0,3 9 0,09 0,9 
3 6 0,3 36 0,09 1,8 
4 9 0,6 81 0,36 5,4 
5 12 0,9 144 0,81 10,8 
6 15 0,5 225 0,25 7,5 
7 18 1,3 324 1,69 23,4 
8 21 1,4 441 1,96 29,4 
9 24 1,6 576 2,56 38,4 
10 28 1,7 784 2,89 47,6 
11 30 2,1 900 4,41 63,0 
12 35 2,4 1225 5,76 84,0 
Total 202 13,2 4746 20,88 312,3 
 
1
1 202 16,83
12
n
i
i
X X
n 
   e 
1
1 13,2 1,10
12
n
i
i
Y Y
n 
   . 
22 2 2
1
47416 12 (16,83) 1347,01
n
X i
i
S X nX

      
Ou 
2
2 2
1 1
/ 1347,01
i
n n
X i
i i
S X X n
 
 
   
 
  
22 2 2
1
20,88 12 (1,10) 6,36
n
Y i
i
S Y nY

      ou 
2
2 2
1 1
/ 6,36
i
n n
Y i
i i
S Y Y n
 
 
   
 
  
1 1
( )( ) 312,30 12 16,83 1,10 90,14
n n
XY i i i i
i i
S X X Y Y X Y nXY
 
           ou 
1 1 1
cov( , ) / 90,14
n n n
i i i i
i i i
X Y X Y X Y n
  
  
    
  
   
70
As estimativas dos parâmetros são dadas por
Portanto, o modelo é estimado por:
O modelo estima que, quando aumenta 1mg de alcatrão, aumenta 0,0669mg 
de nicotina.
Figura 4 Representação da reta de regressão e dos pontos observados.
 4.6 Análise de Variância
 Uma	 vez	 estimada	 a	 reta	 de	 regressão,	 devemos	 verificar	 se	 ela	
representa satisfatoriamente a relação entre as variáveis em estudo, cuja 
tendência foi observada pelo conjunto de dados.
 Desse modo, é necessário conhecer

Outros materiais