Buscar

Apostila Estatística Aplicada ao Marketing II

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

1 
 
LUCIANE REGINA PAVAN 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
APOSTILA 
 ESTATÍSTICA APLICADA AO MARKETING II 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
MARINGÁ 
2013 
 
 
2 
 
INFERÊNCIA ESTATÍSTICA 
 
Trata-se do processo de obter informações sobre uma população a partir de 
resultados observados na amostra. 
De modo geral, tem-se uma população com grande número de elementos e deseja-
se, a partir de uma amostra dessa população, conhecer “o mais próximo possível” 
algumas características da população. Toda conclusão tirada por uma amostragem, 
quando generalizada para a população, virá acompanhada de um grau de incerteza ou 
risco. 
Ao conjunto de técnicas e procedimentos que permitem dar ao pesquisador um 
grau de confiabilidade, de confiança nas afirmações que faz para a população, baseadas 
nos resultados das amostras, damos o nome de Inferência Estatística. 
O problema fundamental da Inferência Estatística, portanto, é medir o grau de 
incerteza ou risco dessas generalizações. Os instrumentos da Inferência Estatística 
permitem a viabilidade das conclusões por meio de afirmações estatísticas. 
 
 
1. INTERVALO DE CONFIANÇA 
O que vamos estudar? 
 
Veja o exemplo a seguir: Uma indústria de componentes eletrônicos está 
interessada em determinar a vida útil de certo tipo de bateria. Uma amostra em horas foi 
analisada e a média amostral 
x
 obtida foi 
5,32x
horas. 
 
 Podemos concluir que qualquer bateria fabricada por esta indústria terá uma 
vida útil de 32,5 horas, ou seja, podemos afirmar que a média amostral é a média da 
população? Claro que não! 
 
 Então o que pretendemos é exatamente determinar uma maneira de calcular a 
média populacional. Para isso vamos determinar um intervalo especial chamado intervalo 
de confiança para a média populacional. Vamos determinar um intervalo de confiança 
para a média quando as amostras forem grandes (
30n
) e um intervalo de confiança 
para a média quando as amostras forem pequenas (
30n
). 
 
 Para começar precisamos entender algumas definições importantes, ou seja, o que 
significa: Estimativa Intervalar; Nível de Confiança (c) e Erro Máximo da Estimativa (E)? 
 
Estimativa Intervalar: É um intervalo de valores usado para estimar um parâmetro 
populacional (média, variância e desvio-padrão). Embora a estimativa pontual não seja 
igual a média populacional real, ela provavelmente está próxima desse valor. 
 
Observação: Antes de obter uma estimativa intervalar, você deve, em 1º 
lugar, determinar qual a confiança necessária de que sua estimativa contenha a 
média populacional . 
 
Nível de Confiança (α): 
É a probabilidade de que o intervalo estimado contenha o parâmetro populacional. 
 
Observação Importante: Quando são retiradas amostras com 30 ou mais elementos de 
uma população qualquer, a distribuição amostral das médias das amostras terá uma 
distribuição normal, o nível de confiança α é a área sob a curva normal padrão entre os 
 
 
3 
 
valores críticos 
cZ
 e 
cZ
. A área remanescente é 1- α. Portanto, a área em cada cauda é 
(1-α)/2. 
 
Exemplo: Se α = 90% então como a curva é simétrica com relação a Z = 0 , pela tabela 
da distribuição normal corresponde a 
64,1cZ
. Então 5% da área estão à esquerda de – 
1,64 e 5% estão à direita de 1,64. 
 
Erro Máximo da Estimativa (e): 
 Dado um nível de confiança c, o erro máximo da estimativa E é a maior distância 
possível entre a estimativa pontual e o valor do parâmetro a ser estimado. A fórmula 
usada para calcular o erro é: 
n
ZE c
, onde é o desvio-padrão da população. 
 
Lembrando... Distribuição Normal 
Reconhecemos hoje em dia que muitas ocorrências reais e naturais, assim como muitas 
medidas físicas tem distribuição de freqüência que são aproximadamente normais. (Nível 
de Colesterol, Alturas, Diâmetros de Laranjas, Peso, etc.). A forma da distribuição normal 
lembra um sino. Como existem muitas distribuições normais de probabilidade, cada uma 
dependendo de uma média e um desvio padrão, eles padronizaram uma distribuição, 
chamada “Distribuição Normal Padrão”. Para determinar a área sob qualquer curva 
normal, é preciso primeiro converter os limites para o escore Z através da fórmula 
x
Z
, onde é o desvio padrão da população e é a média da população. 
Exemplo: A espessura de uma chapa de aço é uma variável normalmente 
distribuída com média 15 mm e desvio padrão 3 mm. O comprador exige que as 
chapas possuam no mínimo uma espessura de 12 mm. De um lote de 500 chapas, 
quantas serão recusadas pelo comprador? 
Devemos calcular P(x < 12 mm), ou seja, a probabilidade da espessura das chapas ser 
menor que 12 mm. Primeiro devemos calcular o valor de Z, ou seja, converter o limite 
x=12 mm para um Z correspondente. Obtemos então: 
1
3
3
3
1512
Z
. Olhando na 
tabela de distribuição normal obtemos Z = 0,3413. Portanto a área desejada é 0,5 – 
0,3413 = 0,1587 = 15,87%. Isso corresponde a 15,87% de 500 chapas = 80 chapas 
aproximadamente. Portanto de um lote de 500 chapas, 80 serão recusadas. 
 
Depois das definições e revisões importantes, vamos determinar os intervalos de 
confiança para a média (Amostras Grandes 
30n
). 
 
 
1.1 INTERVALO DE CONFIANÇA PARA MÉDIA – AMOSTRAS 
30n
E DESVIO 
PADRÃO CONHECIDO 
 
Definição: Um intervalo de confiança para a média populacional é 
ExEx
. A probabilidade de que o intervalo de confiança contenha é α. 
 
ORIENTAÇÕES GERAIS 
 
Como obter um intervalo de confiança para uma média populacional (ou 
conhecido) com uma população distribuída normalmente? 
 
 
4 
 
1. Obtenha as estatísticas amostrais n e 
x
. Lembre que 
n
x
x
 ou 
n
fx
x
ii
. 
2. Se conhecido, especifique . Caso contrário, se 
30n
, determine o desvio 
padrão amostral s e use-o como uma estimativa de , ou seja, 
s
. Lembre que 
1
)( 2
n
xx
s
i
 ou 
1
)( 2
n
fxx
s
ii
. 
3. Determine o valor crítico 
cZ
que corresponde ao nível de confiança determinado. 
Use a Tabela Normal Padrão. 
4. Determine o erro máximo de estimativa 
n
ZE c
. 
5. Determine o extremo esquerdo 
Ex
 e o extremo direito 
Ex
 e forme o intervalo 
de confiança para a média 
ExEx
 ou [
ExEx ;
] 
 
Exemplo: Uma indústria de componentes eletrônicos está interessada em 
determinar a vida útil de certo tipo de bateria. Em uma amostra aleatória de 40 baterias, a 
vida útil média encontrada foi de 
5,32x
horas. Sabe-se que o desvio padrão da amostra 
é s=1,5 e que a população está normalmente distribuída. Construa um intervalo de 
confiança de 90% da vida útil média da população. 
Solução: 
1. n = 40 e 
5,32x
. 
2. Como 
30n
 então 
s
, ou seja, 
5,1s
. 
3. Como α 
64,1%90 cZ
 
4. 
39,0
40
5,1
64,1
n
ZE c
. 
5. 
11,3239,05,32Ex
 
89,3239,05,32Ex
 
O intervalo de confiança para a média populacional é [
ExEx ;
]= [32,11 ; 32,89]. 
Portanto, há 90% de probabilidade que o intervalo de confiança 
89,3211,32
contenha a média real da vida útil das baterias. 
 
Observação: Depois de construir o intervalo de confiança, é importante que o resultado 
seja corretamente interpretado. Voltando no último exemplo dado, onde n = 40, 
5,1
,
5,32x
e c = 90%, conseguimos determinar o intervalo de confiança 
89,3211,32
 para a média populacional. Uma vez que já existe, ou ela está no 
intervalo ou não. 
“É incorreto afirmar que há 90% de probabilidade de que a média real da vida 
útil das baterias esteja no intervalo (32.11, 32.89)”. A maneira correta é “há 90% de 
probabilidade que o intervalode confiança descrito contenha a média real da vida 
útil das baterias”. Isso também significa, naturalmente, que existem 10% de 
probabilidade de que o intervalo de confiança não contenha . 
Observe que, quanto maior o nível de confiança, maior será o intervalo. 
Aumentando o intervalo, a precisão da estimativa diminui. Uma forma de aumentar a 
precisão de uma estimativa sem a redução do nível de confiança α é ampliar o tamanho 
da amostra. 
 
 
 
 
5 
 
Valores de Z para os níveis de confiança mais usados na prática: 
. 
 
 
 
 
 
 
 
1.2 INTERVALO DE CONFIANÇA PARA MÉDIA – AMOSTRAS 
30n
E DESVIO 
PADRÃO DESCONHECIDO 
 
A distribuição t de Student 
Willian S. Gosset (1876 - 1937) desenvolveu a distribuição t em Dublin, Irlanda. 
Gosset publicou seus achados usando o pseudônimo de Student. 
Em muitas situações da vida real, o desvio padrão populacional é desconhecido. 
Além disso, em função de fatores como tempo e custo, não é prático colher amostras de 
tamanho 30 ou mais. Nesse caso, como construir intervalos de confiança para a média 
populacional? 
Se a variável aleatória é normalmente distribuída, a distribuição amostral para 
x
 é uma distribuição t. 
Por exemplo: 
Sabendo-se que uma amostra tem 15 elementos, que a sua média 120 e desvio 
padrão igual a 10. Represente um intervalo de confiança em nível de 95%. 
Como a amostra é menor que 30 elementos, então iremos usar a distribuição t de 
Student, de acordo com a tabela t de Student, conseguimos determinar que o intervalo 
de confiança nesse caso é 
54,12546,114
 (Veremos como determinar esse 
intervalo a seguir). 
Portanto, há 95% de probabilidade que o intervalo de confiança 
54,12546,114
 
contenha a média real desejada. 
A distribuição t de Student 
Definição: Se a distribuição de uma variável aleatória x é aproximadamente normal e 
30n
, então a distribuição amostral de 
x
 é uma distribuição t de Student, onde 
n
s
x
t
. 
Os valores críticos de t são denotados por 
ct
. Diversas propriedades da distribuição t 
estão relacionadas a seguir: 
1. A distribuição t tem a forma de sino e é simétrica em torno da média. 
2. A distribuição t é uma família de curvas, cada uma delas determinada por um 
parâmetro chamado grau de liberdade (g.l). Os graus de liberdade são os 
números de escolhas livre deixada após uma amostra estatística tal como 
x
 ter 
sido calculada. Quando se usa uma distribuição t para estimar uma média 
populacional, o número de graus de liberdade é igual ao tamanho da amostra 
menos 1, ou seja, g.l = n – 1. 
3. A área total sob uma curva t é 1 ou 100%. 
4. A média, a moda e a mediana da distribuição t são iguais a zero. 
5. Quando o número de graus de liberdade cresce, a distribuição tende para a 
distribuição normal. Após 30 graus de liberdade a distribuição t está muito próxima 
da distribuição normal padrão z. 
Nível de 
confiança 
 / 2 Z 
90% 0,10 0,05 1,65 
95% 0,05 0,025 1,96 
99% 0,01 0,005 2,58 
 
 
6 
 
 
Vamos aprender agora como determinar o intervalo de confiança se 
30n
. 
 
ORIENTAÇÕES GERAIS 
Construindo um intervalo de confiança para a média: distribuição t 
1. Obtenha as estatísticas amostrais n e 
x
 e s. Lembre que 
n
x
x
 ou 
n
fx
x
ii
 e 
1
)( 2
n
xx
s
i
 ou 
1
)( 2
n
fxx
s
ii
. 
2. Identifique o grau de liberdade g.l = n – 1 , o nível de confiança α e o valor 
critico 
ct
. 
3. Determine o erro máximo de estimativa 
n
s
tE c
. 
4. Determine o extremo esquerdo 
Ex
 e o extremo direito 
Ex
 e forme o 
intervalo de confiança para a média 
ExEx
 ou [
ExEx ;
] 
 
Exemplo: Você seleciona ao acaso 16 restaurantes e mede a temperatura do café 
vendido em cada uma. A temperatura média amostral é de 162°F, com um desvio padrão 
amostral de 10°F. Obtenha o intervalo de confiança de 95% para a temperatura média. 
Solução: Uma vez que o tamanho da amostra é 16 < 30, pode-se usar a 
distribuição t de Student. 
 n = 16, 
162x
 e 
10s
 . 
g.l = 16 – 1 = 15; α= 0,95; 
131,2ct
 
3275,5
16
10
131,2
n
s
tE c
 
6725,1563275,5162Ex
 
3275,1673275,5162Ex
 
O intervalo de confiança para a média populacional é 
33,16767,156
ou 
[156,67;167,33] 
Portanto, com 95% de confiança, pode-se afirmar que o Intervalo de Confiança 
[156,67;167,33] contenha a temperatura média do café. 
 
 
EXERCÍCIOS: INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL 
 
 
1) O dono de um café quer calcular o lucro médio diário por cliente. Numa amostra de 100 
clientes verificou que o gasto médio por cliente era de 350 unidades monetárias (u.m.), 
sendo o desvio padrão dessa amostra de 75 u.m.. Estime um intervalo de confiança para 
o verdadeiro gasto médio com 90% de confiança. 
 
2) Um mini-mercado pretende estimar o número médio de litros de água que vende 
diariamente, para efeitos de controlo de encomendas a fornecedores. Ao fim de 20 dias 
de negócio, verificou que em média vendia 32 litros de água/dia, sendo o desvio padrão 
desta amostra igual a 12 litros. Admitindo a normalidade, calcule os limites de confiança 
para um grau de confiança de 95%. 
 
 
 
7 
 
3) Com a finalidade de estimar o peso médio (em quilos) das crianças de 15 anos de 
idade em determinada região geográfica, selecionaram-se aleatoriamente 10 crianças que 
forneceram uma média de 38.4 quilos e um desvio padrão de 5.5 quilos. Admitindo a 
normalidade. Determine um intervalo de confiança a 95% para o peso médio de todas as 
crianças. 
 
4) Não se conhece o consumo médio de combustível de automóveis da marca T. Na 
análise de 100 automóveis da marca T, obteve-se consumo médio de combustível de 8 
km/l e desvio padrão de 10 km/l. Encontre um intervalo de confiança para o consumo 
médio de combustível dessa marca de carro. Adote um coeficiente de confiança igual a 
95%. 
 
5) Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um 
município. Sabe-se que o tempo de estudo tem distribuição normal. Foram entrevistados 
n = 25 indivíduos, obtendo-se para essa amostra, um tempo médio de estudo igual a 10,5 
anos com desvio padrão igual a 2,5 anos. Obter um intervalo de 90% de confiança para o 
tempo médio de estudo populacional. 
 
6) Dada a distribuição a seguir, pede-se para construir o intervalo de confiança para a 
média ao nível de 95% 
 
Classes 2,2 6,2 6,2 10,2 10,2 14,2 14,2 18,2 
Fi 3 4 5 3 
 
7) Um conjunto, composto por 10 animais em experiência, foi alimentado com uma dieta 
especial durante certo tempo e verificou-se que os aumentos de peso foram: 25 – 22 – 30 
– 26 – 24 – 39 – 32 – 26 – 32 – 33. Encontrar os limites de confiança para a média , ao 
nível de confiança de 90%. 
 
 
8 
 
1.3 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO POPULACIONAL 
 
O procedimento de construção do intervalo de confiança para a proporção populacional é 
totalmente análogo ao do intervalo de confiança para a média de uma população normal 
com variância conhecida, visto anteriormente. Assim, iremos usar a seguinte notação: 
 
 
 : proporção ou frequência relativa na amostra; 
 
p: proporção alegada para a população; 
 
q = 1−p. Se p
 
é a proporção favorável (sucesso) na população, q será a proporção 
desfavorável (fracasso); 
 
n: tamanho da amostra. 
 
Na ausência de encontra-se fazendo, 
n
x . 
 
 
Calculamos a margem de erro: 
 
 
E em seguida construímos o Intervalo de Confiança: 
 
Em uma pesquisa com 1068 hóspedes, 673 informaram ter preferência em ver filmes na 
TV a cabo. Determine a estimativa intervalar de todos os hóspedes do hotel. 
 
 
 
 
 
 
 
 
Exercícios: 
 
 
91.4 TÉCNICAS DE AMOSTRAGEM 
 
O que é? 
É o estudo de um pequeno grupo de elementos retirado de uma população que se 
pretende conhecer. 
Esses pequenos grupos retirados da população são chamados de Amostras. 
Por que realizar um estudo por amostragem? 
Como a amostragem considera apenas parte da população, diferentemente de um censo, 
o tempo para análise e o custo são menores, além de ser mais fácil e gerar resultados 
satisfatórios. 
Quando não se deve realizar um estudo por amostragem? 
Quando o tamanho da amostra é grande em relação ao tamanho da população, ou 
quando se exige o resultado exato, ou quando já se dispõe dos dados da população, é 
recomendado realizar um censo, que considera todos os elementos da população. 
A partir das três perguntas anteriores, vamos aprender a realizar um estudo por 
amostragem, conhecendo suas diferentes técnicas. 
Para realizar um estudo por amostragem, a amostra deve ser representativa da 
população estudada. Para isso, existem técnicas adequadas para cada tipo de situação. 
 
Veremos a seguir as principais técnicas de amostragem, divididas em probabilísticas e 
não-probabilísticas: 
Técnicas Probabilísticas 
As técnicas probabilísticas garantem a possibilidade de realizar afirmações sobre a 
população com base nas amostras. Normalmente, todos os elementos da população 
possuem a mesma probabilidade de serem selecionados. Assim, considerando N como o 
tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N. 
Estas técnicas garantem o acaso na escolha. 
São técnicas probabilísticas: 
 
 
10 
 
 Amostragem Aleatória Simples 
É o processo mais elementar e freqüentemente utilizado. Pode ser realizado 
numerando-se os elementos da população de 1 a n e sorteando-se, por meio de 
um dispositivo aleatório qualquer, X números dessa seqüência, que 
corresponderão aos elementos pertencente à amostra. 
Exemplo 
Obter uma amostra representativa, de 10%, de uma população de 200 alunos de 
uma escola. 
1º) Numerar os alunos de 1 a 200; 
2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma 
urna; 
3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da 
população. 
Nesta técnica de amostragem, todos os elementos da população têm a mesma 
probabilidade de serem selecionados: 1/N, onde N é o número de elementos da 
população. 
 Amostragem Estratificada 
Quando a população possui características que permitem a criação de 
subconjuntos, as amostras extraídas por amostragem simples são menos 
representativas. Nesse caso, é utilizada a amostragem estratificada. 
Como a população se divide em subconjuntos, convém que o sorteio dos 
elementos leve em consideração tais divisões, para que os elementos da amostra 
sejam proporcionais ao número de elementos desses subconjuntos. Observe a 
figura abaixo: 
 
Exemplo 
Em uma população de 200 alunos, há 120 meninos e 80 meninas. Extraia uma 
amostra representativa, de 10%, dessa população. 
 
 
11 
 
Nesse exemplo, há uma característica que permite identificar 2 subconjuntos, a 
característica Sexo. Considerando essa divisão, vamos extrair a amostra da 
população. 
SEXO POPULAÇÃO AMOSTRA (10%) 
Masculino 120 12 
Feminino 80 8 
Total 200 20 
Portanto, a amostra deve conter 12 alunos do sexo masculino e 8 do sexo 
feminino, totalizando 20 alunos, que correspondem a 10% da população. 
Para selecionar os elementos da população para formar a amostra, podemos 
executar os seguintes passos: 
1º) Numerar os alunos de 1 a 200, sendo os meninos numerados de 1 a 120 e as 
meninas, de 121 a 200; 
2º) Escrever os números de 1 a 120 em pedaços de papel e colocá-los em uma 
urna A; 
3º) Escrever os números de 121 a 200 em pedaços de papel e colocá-los em uma 
urna B; 
4º) Retirar 12 pedaços de papel, um a um, da urna A, e 8 da urna B, formando a 
amostra da população. 
São exemplos desta técnica de amostragem as pesquisas eleitorais por região, 
cidades pequenas e grandes, área urbana e área rural, sexo, faixa etária, faixa de 
renda, etc. 
 Amostragem Sistemática 
Esta técnica de amostragem em populações que possuem os elementos 
ordenados, em que não há a necessidade de construir um sistema de referência. 
Nesta técnica, a seleção dos elementos que comporão a amostra pode ser feita por 
um sistema criado pelo pesquisador. 
Exemplo 
Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta técnica 
de amostragem, podemos realizar o seguinte procedimento: 
1º) Como 2000 dividido por 80 é igual a 25, escolhemos, por um método aleatório 
qualquer, um número entre 1 e 25, que indica o primeiro elemento selecionado 
para a amostra. 
2º) Consideramos os demais elementos, periodicamente, de 25 em 25. 
Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada pelas 
casas: 8ª, 33ª, 58ª, 83ª, 108ª, etc. 
 
 
12 
 
Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos de 
variação, que tornariam a amostra não-representativa da população. 
 Amostragem por Conglomerados 
Esta técnica é usada quando a identificação dos elementos da população é 
extremamente difícil, porém pode ser relativamente fácil dividir a população em 
conglomerados (subgrupos) heterogêneos representativos da população global. 
A seguir, é descrito o procedimento de execução desta técnica: 
1º) Seleciona uma amostra aleatória simples dos conglomerados existentes; 
2º) Realizar o estudo sobre todos os elementos do conglomerado selecionado. 
São exemplos de conglomerados: quarteirões, famílias, organizações, agências, 
edifícios, etc. 
Exemplo 
Estudar a população de uma cidade, dispondo apenas do mapa dos quarteirões da 
cidade. 
Neste caso, não temos a relação dos moradores da cidade, restando o uso dos 
subgrupos heterogêneos (conglomerados). Para realizar o estudo estatístico sobre 
a cidade, realizaremos os seguintes procedimentos: 
1º) Numerar os quarteirões de 1 a n; 
2º) Escrever os números de 1 a n em pedaços de papel e colocá-los em uma urna; 
3º) Retirar um pedaço de papel da urna e realizar o estudo sobre os elementos do 
conglomerado selecionado. 
Técnicas Não-Probabilísticas (não-aleatórias) 
São técnicas em que há uma escolha deliberada dos elementos da população, que não 
permite generalizar os resultados das pesquisas para a população, pois amostras não 
garantem a representatividade desta. 
São técnicas não-probabilísticas: 
 Amostragem Acidental 
Trata-se da formação de amostras por aqueles elementos que vão aparecendo. 
Este método é utilizado, geralmente, em pesquisas de opinião, em que os 
entrevistados são acidentalmente escolhidos. 
Exemplo 
Pesquisas de opinião em praças públicas, ruas movimentadas de grandes cidades, 
etc. 
 
 
13 
 
 Amostragem Intencional 
De acordo com determinado critério, é escolhido intencionalmente um grupo de 
elementos que comporão a amostra. O pesquisador se dirige intencionalmente a 
grupos de elementos dos quais deseja saber a opinião. 
Exemplo 
Em uma pesquisa sobre preferência por determinado cosmético, o pesquisador 
entrevista os freqüentadores de um grande salão de beleza. 
 
 
14 
 
1.5 CÁLCULO DO TAMANHO DA AMOSTRA 
Para as mesmas amostras estatísticas, a medida que o nível de confiança cresce, o 
intervalo de confiança se alarga. Mas, a medida que o intervalo de confiança se alarga, a 
precisão da estimativa diminui. 
Uma forma de aumentar a precisão de uma estimativa sem a redução do nível de 
confiança é ampliar o tamanho da amostra. 
Mas quando precisamos aumentar a amostra para assegurar certo nível de confiança 
para um determinado erro máximo de estimativa? A respostaestá na análise correta da 
fórmula usada para calcular o erro E. 
n
ZE c
 
 
1.5.1 DETERMINAÇÃO DO TAMANHO DA AMOSTRA PARA MÉDIA 
Dado um nível de confiança e um erro máximo de estimativa, o tamanho da amostra 
necessária para estimar a média populacional é: 
 
 
 
OBS: Aproximar sempre para o maior inteiro e observa-se que o tamanho da amostra 
depende do grau de confiança desejado, da margem de erro pretendida e do σ. 
Exemplo: 
Consultando o IBGE verificou-se que o desvio padrão da altura dos homens adultos no 
Brasil é de 8 cm. Qual deve ser o tamanho mínimo que deve ter uma amostra de homens 
brasileiros para que o erro cometido ao estimar a altura média seja de 1 cm com um nível 
de confiança de 90%? 
Observe que precisamos entrar com o valor do escore Z=1,65 (observado em tabela) 
correspondente ao nível de confiança de 90%. 
Logo pela fórmula o valor do tamanho mínimo da amostra que é de 173 habitantes. 
 
Exercício: 
1) Qual o tamanho de amostra necessária para se estimar a média de uma população 
infinita cujo desvio padrão é igual a 4, com 99% de confiança e erro de 0,5? 
 
2) Um economista deseja estimar a renda média para o primeiro ano de trabalho de um 
bacharel em direito. Quantos valores de renda devem ser tomados, se o economista 
deseja ter 95% de confiança em que a média amostral esteja a menos de R$500,00 da 
verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para 
tais rendas, o desvio padrão é de R$6250,00. 
 
3) Baseado nos dados do exercício 2, utilize a margem de erro de R$1.000,00 e 
determine qual seria o tamanho da amostra necessário nesta situação. 
 
 
 
15 
 
1.5.2 DETERMINAÇÃO DO TAMANHO DA AMOSTRA PARA PROPORÇÃO 
 
Para determinar o tamanho necessário da amostra a fim de achar o valor aproximado de 
uma proporção populacional devemos utilizar a Margem de Erro e resolver para n. 
 
 
 
 
 
 
 
Quando se conhece a Estimativa o tamanho da amostra é dado por: 
 
 
 
Quando não se conhece a estimativa considera-se: 
 
 
 
Assim o tamanho da amostra será: 
 
 
 
Exemplo 
 
•Um instituto de pesquisas quer estimar, com margem de erro de três pontos percentuais, 
a percentagem de eleitores que pretendem votar “sim” em determinado referendo. Com 
nível de confiança de 95%, quantos eleitores devem ser pesquisados? 
a) Supor que se tenha uma estimativa de estudo anterior, mostrando que 18% dos 
eleitores vão votar “sim”; 
b) Supor não haver qualquer estimativa. 
 
Solução: 
a) 
 
 
 
 
 
 
b) 
 
 
16 
 
Exercícios: 
 
1) Uma amostra de 300 habitantes de uma grande cidade revelou que 180 desejavam a 
fluoração da água. Encontre o intervalo de confiança para a verdadeira proporção dos que 
não desejam a fluoração da água: 
(a) para um nível de significância de 5%; 
(b) para um nível de confiança de 96%. 
 
2) Para estudar a viabilidade de lançamento de um novo produto no mercado, o gerente 
de uma grande empresa contrata uma firma de consultoria estatística para estudar a 
aceitação do produto entre os clientes potenciais. O gerente deseja obter uma estimativa 
com erro máximo de 1% com nível de confiança de 90% e pede ao consultor estatístico 
que forneça o tamanho de amostra necessário. 
a) De posse das informações dadas, o consultor calcula o tamanho da amostra 
necessário levando em conta que a população está dividida meio-a-meio em suas 
preferências. Qual o tamanho de amostra obtido pelo consultor? 
b) O gerente acha que o custo de tal amostra seria muito alto e autoriza o consultor a 
realizar um estudo piloto com uma amostra de 100 pessoas para obter uma estimativa da 
verdadeira proporção. O resultado desse estudo piloto é uma estimativa = 0, 76 de 
aceitação do novo produto. Com base nessa estimativa, o consultor recalcula o tamanho 
da amostra necessário. Qual é esse tamanho? 
c) Selecionada a amostra com o tamanho obtido no item anterior, obteve-se uma 
proporção de 72% de clientes favoráveis ao produto. Construa um intervalo de confiança 
para a verdadeira proporção com nível de confiança de 90%. 
 
3) Uma associação de estudantes universitários de uma grande universidade deseja 
saber a opinião dos alunos sobre a proposta da reitoria a respeito do preço do bandejão. 
Para isso, seleciona aleatoriamente uma amostra de 200 estudantes, dos quais 120 são 
favoráveis à proposta da reitoria. 
a) Construa um intervalo de confiança para a verdadeira proporção de alunos favoráveis à 
política da reitoria, ao nível de significância de 1%. 
b) Qual é a margem de erro em (a)? 
c) Qual deverá ser o tamanho da amostra para se ter um erro de, no máximo, 5% com 
nível de confiança de 99%? 
 
 
17 
 
2. TESTE DE HIPÓTESE 
 
Trata-se de uma técnica para se fazer inferência estatística. Ou seja, a partir de um teste 
de hipóteses realizado com os dados amostrais, pode-se fazer inferências sobre a 
população. 
 
Hipóteses estatísticas são suposições feitas sobre o valor dos parâmetros (média, 
desvio padrão) nas populações. 
 Muitos problemas requerem que determinemos entre aceitar ou rejeitar uma 
afirmação acerca de algum parâmetro. A afirmação é chamada de hipótese e o 
procedimento de tomada de decisão sobre a hipótese é chamado de teste de hipóteses. 
 
TIPOS DE HIPÓTESES: 
As hipóteses estatísticas sempre comparam dois ou mais parâmetros, quer afirmando que 
são iguais, quer que não são. São de dois tipos: 
 Ho: hipóteses a ser testada, ou também chamada de hipóteses nula. É sempre a 
primeira a ser formulada. 
 H1: hipótese alternativa (Ha), é a hipóteses contrária à hipóteses nula. É a que o 
pesquisador quer ver confirmada. 
O teste de hipóteses é um procedimento estatístico pelo qual ser rejeita ou não uma 
hipótese, associando à conclusão um risco máximo de erro. 
 
2.1 TESTE DE HIPÓTESE PARA MÉDIA (Μ) POPULACIONAL COM VARIÂNCIA 
CONHECIDA E n ≥ 30. 
Como o teste é para média de populações normais com variância conhecida, 
usaremos a variável Z: N(0,1) como critério, ou seja, a Distribuição Normal. 
A maioria dos Testes de hipóteses envolvendo médias é bilateral, isto é, testa a 
hipóteses nula onde há ausência de diferença contra a alternativa de que existe uma 
diferença entre as médias. 
 
 Ho: 
o
 
 H1: 
o
 
 
 
Há casos, porém, em que somente haverá interesse prático se μ for menor ou maior do 
que μo. neste caso temos os testes unilaterais. 
- Unilateral a direita - Unilateral a esquerda 
Ho: 
o
 Ho: 
o
 
H1: 
o
 H1: 
o
 
 
 
 
 
 
 
 
ESTRUTURA DO TESTE DE HIPÓTESES: 
 
 
18 
 
Para executarmos o teste de hipóteses, podemos estabelecer alguns passos, sendo: 
1. Formulação de H0 e H1; 
2. Escolha de uma distribuição amostral adequada; 
3. Escolha de um nível de significância e definição da região crítica; 
4. Cálculo de uma estatística de teste; 
5. Comparação do valor teste com a região crítica; 
6. Rejeitar H0 se o valor teste excede a região crítica ou aceitar em caso contrário. 
 
 
ESTATÍSTICA DE TESTE 
A Estatística de Teste é o cálculo do coeficiente “z” que, então no passo 5 será 
comparado com a região crítica. 
Quando o desvio padrão da população é conhecido, utilizaremos a distribuição normal Z: 
 
 
onde: 
Ζ = estatística de teste 
х = média obtida na amostra 
μ = média da população 
σ= desvio padrão da população 
n = número de elementos na amostra 
 
 
2.2 TESTE DE HIPÓTESE PARA MÉDIA (Μ) POPULACIONAL COM VARIÂNCIA 
DESCONHECIDA E n<30. 
 
Segue-se a mesma estrutura do Teste anterior, porém quando o desvio padrão da 
população não é conhecido, ou seja,como desconhecemos σ, iremos trabalhar com S, 
que é o desvio padrão da amostra; e também com t quando a amostra for menor que 30, 
pois, usaremos a distribuição t de Student. 
 
 onde: 
t = estatística de teste 
х = média obtida na amostra 
μ
0 
= média esperada da população 
S = desvio padrão da população 
 n = número de elementos na amostra 
 
 
 
19 
 
 
 
Exercícios: Teste de Hipótese para Média populacional 
 
1) Uma amostra de 25 valores foi selecionada, chegando a uma média amostral x igual a 
11,3. 
a) Poderia esta média amostral ter sido obtida de uma população com média μ=10 e 
variância σ²=16? Adotando-se 5% de significância. 
 
b) Poderia esta média amostral ter sido obtida de uma população com média μ maior 10 e 
variância σ²=16? Adotando-se 5% de significância. 
 
2) Os sistemas de escapamentos de uma aeronave funcionam devido a um propelente 
sólido. A taxa de queima desse propelente é uma característica importante do produto. 
Um técnico da qualidade seleciona uma amostra aleatória de n=25 e obtém uma taxa 
média amostral de queima de
X
= 51,3 cm/s. As especificações requerem que a taxa 
média de queima seja de 50 cm/s. Sabemos que o desvio padrão da taxa de queima é 
de 
2
 cm/s. Teste a hipótese de que a taxa média de queima seja igual a 50 cm/s 
usando um nível de significância de 0,05. 
 
3) Está sendo proposta uma dieta que visa a reduzir o nível de colesterol sangüíneo. De 
uma população em que o nível médio é 262 mg/mL e o desvio padrão, 70 mg/dL, é 
selecionada uma amostra de 20 pessoas que se submetem a esta dieta. Ao final de certo 
tempo, o nível de colesterol é medido nessas pessoas e a média é 233 mg/mL. Pode-se 
afirmar que a dieta produziu realmente uma redução no colesterol sangüíneo ou a 
diferença deve ser atribuída ao acaso, ao nível significância de 5%? 
 
4) Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação e 
acredita que aumentará a resistência média, que é de 206 kg. A resistência das lajotas 
tem distribuição normal, com desvio padrão de 12 kg. Retira-se uma amostra de 30 
lajotas, obtendo-se X’ =210 kg. Ao nível de 10%, pode o fabricante aceitar que a 
resistência média de suas lajotas tenha aumentado? 
 
5) Um fabricante de linha de pesca afirma que sua linha do “teste 5Kg” resiste ao “teste 7 
Kg”. Se uma amostra de 20 linhas do “teste 5 Kg” teve média de ruptura de 6,5 Kg com 
desvio padrão de 3,9 kg, podemos aceitar a alegação do fabricante, ao nível significância 
de 5%? 
 
 
 
 
20 
 
2.3 TESTES DE HIPÓTESES PARA UMA PROPORÇÃO 
 
Definição: Assim como no Teste de Hipóteses para a Média, é uma regra de decisão 
utilizada para aceitar ou rejeitar uma hipótese estatística com base em elementos 
amostrais. A diferença é que, enquanto no Teste para Médias os dados amostrais se 
apresentam através de medidas, no Teste para Proporções os dados se apresentarão na 
forma de percentagem (ou proporção) de elementos com uma determinada característica, 
que será testada em relação à percentagem alegada para a população. Por exemplo: 
proporção para uma determinada doença, proporção de peças defeituosas, proporção de 
eleitores de um candidato, proporção de pessoas que possuem DVD em uma cidade, etc. 
Teremos então nos Testes para Proporções as seguintes Hipóteses: 
 
 
1) Para o teste Bicaudal ou Bilateral: 
Hipótese Nula H
0
: p = p
0
 
Hipótese Alternativa H
1
: p ≠ p
0
 
Onde: p
0 
é o valor alegado para a proporção populacional. 
 
2) Para o teste Unicaudal ou Unilateral à direita 
Hipótese Nula H
0
: p = p
0
 
Hipótese Alternativa H
1
: p > p
0 
 
 
3) Para o teste Unicaudal ou Unilateral à esquerda 
Hipótese Nula H
0
: p = p
0
 
Hipótese Alternativa H
1
: p < p
0 
 
A principal diferença entre os dois testes é que no Teste de Hipóteses para a Média 
precisávamos nos preocupar com o tamanho da amostra e se era conhecida ou não a 
variância populacional para decidir se usávamos a Tabela Normal ou a Tabela t-Student. 
Já no Teste de Hipóteses para Proporções não precisamos nos preocupar com isso, pois 
para encontrar o valor tabulado a ser comparado com o valor calculado (estatística teste) 
usaremos sempre a TABELA DA DISTRIBUIÇÃO NORMAL PADRÃO. 
 
Cálculo da estatística teste (Zt): 
 : proporção ou freqüência relativa na amostra; 
 
p: proporção alegada para a população; 
 
q = 1−p. Se p
 
é a proporção favorável (sucesso) na população, q será a proporção 
desfavorável (fracasso); 
n: tamanho da amostra. 
 
O procedimento de teste para proporção usa a estatística de teste a seguir: 
 
 
Na ausência de encontra-se fazendo, 
n
x . 
OBS: Os passos para testar a hipótese segue os mesmos para teste de hipótese 
da média. 
 
 
21 
 
Exemplo: O consumidor está desconfiado do fabricante que diz que apenas 20% das 
unidades fabricadas apresentam defeito. Para confirmar sua suspeita, o consumidor usou 
uma amostra de tamanho 50, onde 27% das unidades eram defeituosas. Mostre como o 
fabricante poderia refutar a acusação usando um nível de significância de 10%. 
 
Exercícios: Teste de hipótese para uma proporção 
 
1) Um fabricante alega que apenas 2% das peças que ele fornece estão abaixo das 
condições ordinárias de utilização. Em 200 peças selecionadas aleatoriamente, encontrou-
se 10 falhas. A alegação do fabricante é aceitável ao nível de 5%? 
 
2) As condições de mortalidade de uma região são tais que a proporção de nascidos que 
sobrevivem até 60 anos é de 0,6. Testar essa hipótese ao nível de 5% se em 1.000 
nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes até 60 anos. 
 
3) Um jornal alega que 25% dos seus leitores pertencem a classe A. Se em uma amostra 
de 740 leitores encontramos 156 de classe A, qual sua decisão a respeito da veracidade 
da alegação veiculada pelo jornal? Considere um nível de significância de 5%. 
 
4) Uma pesquisa conclui que 90% dos médicos recomendam aspirina a pacientes que têm 
dor de cabeça crônica. Teste a afirmação, ao nível de significância de 0,05, contra a 
alternativa de que a percentagem é inferior a 90%, se numa amostra aleatória de 100 
médicos, 80% recomendam aspirina. 
 
5) Um fabricante de doces afirma que a percentagem de embalagens de pastilhas de 
chocolate mal cheias é, no máximo, igual a 3%. Uma pesquisa aleatória acusa 8% de 
embalagens mal cheias. Considerando uma significância de 0,05, a evidência amostral 
refuta a alegação do fabricante, isto é, mais de 3% de embalagens mal cheias? 
 
6) Um produtor de morangos afirma que 85 % de sua produção não contém agrotóxicos, 
estando assim dentro dos limites do ministério da agricultura. Numa amostra de 50 caixas 
de morango constatou-se agrotóxicos em 10 caixas. Considerando um valor crítico para 5 
%, determinar se o produtor está certo em sua afirmação. 
 
7) Um fabricante afirma que 5% dos equipamentos que fornece à indústria encontram-se 
fora de suas especificações. Uma amostra de 200 itens escolhidos ao acaso revelou 20 
itens fora de especificação. A alegação do fabricante é aceitável ao nível de 10%? 
 
 
22 
 
3. CORRELAÇÃO 
 
Introdução: 
Quando consideramos, observações de duas ou mais variáveis, surge um 
problema: as relações que podem existir entre elas. 
Quando consideramos variáveis como peso e altura de um grupo de pessoas, uso 
de cigarros incidência de câncer, vocabulário e compreensão da leitura, entre outros, 
procuramos verificar se existe alguma relação entre os pares de variáveis estudada, e 
qual o grau dessa relação. 
Sendo a relação das variáveis de natureza quantitativa, a correlação é o 
instrumento adequado para descobrir e medir essa relação. Uma vez caracterizada a 
relação, a regressão é a função matemática adequadapara a determinação dos 
parâmetros dessa função. 
 
1. Relação funcional 
 Neste tipo de relação a ligação entre as variáveis é exata, veja o exemplo: 
O perímetro de um quadrado é exatamente a soma da dimensão de seus quatro 
lados, logo: 
P=4.L 
Onde: 
P – é o perímetro 
L – é a medida do lado do quadrado 
Vemos que esta relação é exata, portanto, é uma relação funcional. 
 
2. Relação Estatística 
Aqui existe uma relação entre as variáveis que não é exata, mas sim estatística, 
veja o exemplo: 
A relação entre o peso e a altura de um grupo de pessoas. Vemos claramente que 
a ligação entre peso e altura não é precisa quanto à ligação entre os lados do quadrado e 
seu perímetro, porém, em média quanto maior a altura, maior o peso. 
Quando duas variáveis estão relacionadas por uma relação estatística, dizemos 
que existe correlação entre elas. 
 
3. Diagrama de dispersão 
Uma maneira de visualizar a (possível) correlação entre as observações de duas 
variáveis, é através do diagrama de dispersão. 
O diagrama de dispersão é um gráfico onde pontos no espaço cartesiano XY são usados 
para representar simultaneamente os valores de duas variáveis quantitativas medidas em 
cada elemento do conjunto de dados. Ele é muito útil para comparar dados, como antes e 
depois. 
 
 
 
 
 
 
4. Correlação Linear 
 
 
 
 
 
 
23 
 
 
 
Uma correlação pode ser: 
 
 
 
 
 
 
 
a) Linear positiva se os pontos do diagrama tem como imagem uma reta 
ascendente; 
b) Linear negativa se os ponto têm como imagem uma reta descendente; 
c) Não-linear se os pontos têm como imagem uma curva. 
Se os pontos apresentam-se disperso, não oferecendo uma imagem definida, 
concluímos que não há relação entre as variáveis em estudo. 
Temos então os seguintes diagramas: 
 
 
 
 
 
 
 
 
 
5. Coeficiente de Correlação Linear 
O instrumento empregado para a medida da correlação linear é o coeficiente de 
correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre 
duas variáveis e, ainda, o sentido dessa correlação (positivo ou negativo). Esta medida 
e também chamada de coeficiente de correlação de Pearson, que é dado por: 
 
Onde n é o número de observações. 
 
 O valor de r estar sempre entre 1 e -1, ou seja −1 ≤ r ≤ 1 
 Se r está próximo de 1, há uma forte correlação positiva. 
 Se r está próximo a –1, há uma forte correlação negativa. 
 Se r está próximo de 0, não há correlação linear. 
 
A partir dos valores de r podemos verificar o tipo da correlação existente entre as 
variáveis estudadas, conforme tabela seguinte: 
Valor de r Correlação 
0,0 nula 
0,0 ----| 0,3 fraca 
0,3 ----| 0,6 media 
0,6 ----| 0,9 forte 
0,9 ----| 0,99 fortíssima 
1,0 perfeita 
Ao observarmos o diagrama, vemos 
que os pontos formam uma elipse, 
quanto mais fina esta elipse, mais ela 
se aproximará de uma reta, assim 
chamada de correlação linear. 
 
 
 
24 
 
Para obter os somatórios da equação r procede-se da seguinte maneira: 
∑(x.y): fazem-se os produtos x.y, referente a cada par de observações e depois 
efetua-se a soma. 
∑ x: somam-se os valores da variável x. 
∑ y: somam-se os valores da variável y. 
∑ x²: elevam-se ao quadrado cada valor de x e, depois, efetua-se a soma. 
∑ y²: elevam-se ao quadrado cada valor de y e, depois efetua-se a soma. 
(∑ x)²: somam-se os valores da variável x e depois eleva ao quadrado. 
(∑ y)²: somam-se os valores da variável y e depois eleva ao quadrado. 
 
Exercício: 
1) A tabela abaixo mostra o resultado de uma pesquisa com 10 famílias de determinada 
região. 
 
 
Famílias Renda (R$) Poupança 
(R$) 
Nº de Filhos Média de 
Anos de 
Estudo da 
família 
A 10 4 8 3 
B 15 7 6 4 
C 12 5 5 5 
D 70 20 1 12 
E 80 20 2 16 
F 100 30 2 18 
G 20 8 3 8 
H 30 8 2 8 
I 10 3 6 4 
J 60 15 1 8 
a) Calcular ao coeficiente de correlação Linear entre a renda familiar e a poupança. 
 
Solução: 
RENDA (Y) POUPANÇA 
(X) 
X2 
 
Y2 XY 
10 4 16 100 40 
15 7 79 225 105 
12 5 25 144 60 
70 20 400 4.900 1.400 
80 20 400 6.400 1.600 
100 30 900 10.000 3.000 
20 8 64 400 160 
30 8 64 900 240 
10 3 9 100 30 
60 15 225 3.600 900 
y =407 x =120 x2=2.152 y2=26.769 xy=7.535 
 
Aplicando na Fórmula : 
 
r = (10 x 7.535 )– (120 x 407 = 0,9835 
 √(10x2.152) – 1202 √10x26.769 -4072 
 
 
25 
 
Existe uma forte correlação linear entre renda e a poupança familiar. 
O sinal do coeficiente mostra que as duas variáveis variam no mesmo sentido. 
b) Calcular o coeficiente de correlação linear entre renda e número de filhos para as dez 
famílias. 
c) Calcular o coeficiente de correlação linear entre número de filhos e anos de estudo. 
d) Calcular o coeficiente de correlação linear entre poupança e número de filhos. 
 
 
4. REGRESSÃO ESTATÍSTICA 
 
Quando duas variáveis possuem certo grau de relacionamento (verificado pela 
correlação), podemos aplicar a análise de regressão que vai nos permitir descrever 
através de um modelo matemático, a relação entre duas variáveis, partindo de n 
observações das mesmas. 
Já que foi estabelecido uma relação linear e uma boa correlação entre as variáveis 
deve-se agora determinar uma formula matemática para prever os resultados de y dado 
os valores de x. Chama-se esta relação de regressão, ou seja, a regressão, em geral, 
trata da questão de se estimar um valor condicional esperado. 
Para executarmos a regressão, as variáveis serão divididas em variável 
dependente e variável independente. 
Para o eixo x, indicamos a variável independente e para o eixo y, a dependente. 
 
A regressão linear que é um modelo adequado quando encontramos disposições dos 
pontos conforme os da figura abaixo: 
 
 
Descrevemos a equação linear através da fórmula y = a + bx. 
Y= valor calculado na reta de regressão para os valores de x 
a = ordenada do intercepto da reta no eixo y 
b= coeficiente angular da reta de regressão 
 
Os diferentes valores observados representados pela figura acima serão ajustados 
através da técnica dos mínimos quadrados que permitem ajustar a melhor reta para o 
conjunto de pontos dados. 
Os valores de b e a são sinteticamente determinados pelas fórmulas: 
 
 
 
onde X é o valor médio da variável x, e Y é o valor médio da variável y. 
 
que é calculado da seguinte forma: 
 
 
 onde n é o número de observações dos dados amostrais. 
 
 
26 
 
EXEMPLO RESOLVIDO 
Considere-se a tabela seguinte, que apresenta o bônus recebido pelos funcionários de 
uma dada empresa, expresso em euros (variável y), e o respectivo tempo de serviço, em 
meses (variável x) 
 
a) Ajustar os dados através de um modelo 
linear. 
b) Para um funcionário com 45 meses de 
serviço, ambos os processos estimam um 
bônus de quantos euros? 
 
 
 
 
 
 
 
Solução: 
a) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
I –Determinar o valor do Parâmetro b 
 
 
b= (12)(89894) – (628)(1684) b= 1,138005 
12 (34416) – (628)² 
 
II – Determinar o valor do Parâmetro a 
 
a = 1684 - 1,138005. 628 = 80,77773 
 12 12 
 
III – Equação da Reta Ajustada 
y = a + bx 
y = 80,77773 + 1,138005 x 
 
 
 
27 
 
b) fazendo x = 45 y = 80,77773 + 1,138005 (45)=131,988 
 
Para um funcionário com 45 meses de serviço, ambos os processos estimam um bônus 
de 131.988 € 
 
EXEMPLO RESOLVIDO 
 
Os dados abaixo referem-se ao volume de precipitação pluviométrica (mm) e ao volume 
de produção de leite tipo C (milhões de litros), em determinada região do país. 
 
c) Ajustar os dados através de um modelo linear 
d) Admitindo-se, em 1980, um índice pluviométrico de 24 mm, qual deverá ser o 
volume esperadode produção do leite tipo C? 
Anos Produção de leite 
(1.000.000 l) 
Índice Pluviométrico 
(mm) 
1970 26 23 
1917 25 21 
1972 31 28 
1973 29 27 
1974 27 23 
1975 31 28 
1976 32 27 
1977 28 22 
1978 30 26 
1979 30 25 
 
Solução: 
Y X X2 XY 
26 23 529 598 
25 21 441 525 
31 28 784 868 
29 27 729 783 
27 23 529 621 
31 28 784 868 
32 27 729 864 
28 22 484 616 
30 26 676 780 
30 25 625 750 
y = 289 x = 250 x2 =6.310 xy = 7.273 
 
I –Determinar o valor do Parâmetro b 
 
 
 
b = (10x7.273)- (250x289) = 0,8 
 (10x6.310) - 2502 
 
II – Determinar o valor do Parâmetro a 
 
 
 
28 
 
 
a = 289 - 0,8. 250 = 8,9 
 10 10 
 
III – Equação da Reta Ajustada 
y = a + bx 
y = 8,9 +0,8x 
 
b) fazendo x = 24 mm temos: y = 8,9 +0,8x24 = 28,1. 
De acordo com o modelo, podemos esperar 28,1 milhões de litros produzidos para um 
índice pluviométrico de 24 mm. 
 
Exercícios: 
1) Considere X o número de horas (em milhões) de trabalho na Construção Civil e Y o 
número de acidentes ocorridos. 
X 3 5 10 16 20 
Y 12 13 17 22 25 
a) Ajuste uma reta aos dados, ou seja, estabeleça a reta de regressão linear. 
b) Determine quantos acidentes (Y) poderão ocorrer para 14 milhões de horas 
trabalhadas. 
 
2) A tabela abaixo apresenta os dados referentes à variação da demanda de um produto 
produzido (Y) em relação à variação do preço da venda (X): 
X 40 45 52 58 62 
Y 320 305 290 280 275 
a) Análise o diagrama de dispersão e interprete-o. 
 
 
 
 
 
 
 
 
 
b) Tendo Σx=257, Σy=1470, Σx²=13537, Σy²=433550 e Σx.y=74895, calcule o nível de 
correlação entre as variáveis em estudo. 
 
 
3) Os dados a seguir correspondem à variável renda familiar e gasto com alimentação 
(em unidades monetárias) para uma amostra de 15 famílias. 
260
280
300
320
340
0 50 100
 
 
29 
 
 
Renda Familiar (X) Gasto com Alimentação (Y) 
3 1,5 
5 2,0 
10 6,0 
10 7,0 
20 10,0 
20 12,0 
20 15,0 
30 8,0 
40 10,0 
50 20,0 
60 20,0 
70 25,0 
70 30,0 
80 25,0 
100 40,0 
 
a) Construa o diagrama de dispersão da variável gasto com alimentação (Y) em função da 
renda familiar (X). 
b) Calcular o coeficiente de correlação entre essas variáveis. 
c) Obtenha a equação de regressão do gasto com alimentação em função da renda 
familiar.

Outros materiais