Livro Texto Unidade II Estatística aplicada

•
UNIP

Carla LINDA
11/10/2018
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 48 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 48 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 48 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística Aplicada

23.981 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
55
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Unidade II
5 AMOSTRAGEM
Nesta parte do curso de Estatística Aplicada nós iremos nos ater à amostragem e à correlação.
Por amostragem, entendem‑se os procedimentos destinados a estudar as relações entre populações 
e suas amostras.
Já dentro da correlação e da regressão, estaremos nos direcionando aos relacionamentos entre duas 
variáveis, procurando verificar se o comportamento de uma está de alguma forma relacionado com o 
comportamento da outra.
Caso você queira saber se uma determinada marca de uísque é boa, você precisa beber a garrafa 
inteira? A menos que você tenha acabado de bebê‑la, a sua resposta será certamente não. Todos nós 
sabemos que basta beber uma dose para conseguirmos avaliar a qualidade da bebida. Essa pequena dose 
é chamada de amostra, e o processo pelo qual estimamos a qualidade do uísque usando a avaliação de 
uma amostra é chamado de amostragem.
Agora, note que, se você quiser fazer o mesmo raciocínio para uma feijoada, terá de considerar 
alguns aspectos. O processo de amostragem ainda é válido, mas, a amostra certamente terá de ser 
maior do que aquela de uísque. Por quê? Porque enquanto o uísque é totalmente homogêneo, a 
feijoada tem um alto grau de heterogeneidade. Em outras palavras, se você pegar uma pequena 
amostra da feijoada, correrá o risco de não provar o paio, que está uma porcaria, e, assim, chegar a 
conclusões errôneas.
Em Estatística, a medida que nos informa qual é o grau de homogeneidade do universo que estamos 
trabalhando é o desvio padrão, e quanto maior ele for, menos homogêneo serão o universo e a amostra.
 Observação
Assim, quando quisermos saber qual é o tamanho que uma amostra 
deve ter, deveremos saber qual é o seu desvio padrão.
Por outro lado, observe que quando você experimenta uma amostra para saber como funciona o 
universo todo, você está fazendo uma estimação, ou seja, uma previsão do todo com base em uma 
parte. Isso é possível, mas com um cuidado fundamental: a previsão está sujeita a um erro estatístico, 
ou seja, uma tolerância para mais e para menos em torno do valor previsto. Essa tolerância é chamada 
de erro máximo da estimativa e deve ser estabelecida por você em função da resposta que você espera 
56
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
obter. Note que quanto menor for o erro que você está disposto a aceitar, maior vai ser o tamanho da 
amostra que terá de ser colhida, ou seja, mais cara será sua amostragem.
 Observação
Assim, quando quisermos saber qual é o tamanho que uma amostra 
deve ter, deveremos estabelecer qual é o erro máximo esperado.
Por fim, você terá que notar de essa sua estimativa merece certa confiança de sua parte, ou seja, o 
quanto você acredita que ela está certa. Lembre‑se de que, se você quiser ter 100% de confiança, terá 
de pagar por isso. A amostra ficará grande e cara. Na maior parte das vezes, uma confiança de 90% 
ou 95% é suficientemente boa para podermos tomar uma decisão segura e coerente. Certamente você 
trabalhou com uma confiança muito menor quando decidiu pedir a mão daquela garota bonita ou 
aceitou o pedido de casamento daquele galante rapaz!
 Observação
Assim, quando quisermos saber qual é o tamanho que uma amostra 
deve ter, deveremos estabelecer qual é o nível de confiança com que 
devemos trabalhar.
 Observação
Note, portanto, que grande parte de nossas preocupações no processo 
de amostragem é a determinação do tamanho das amostras.
Amostragem, fundamentalmente, é o processo de colher amostras e estudá‑las, determinando suas 
medidas estatísticas, e, a partir desse estudo, induzir os parâmetros populacionais.
Quando falamos que estamos estimando um parâmetro estatístico, queremos dizer que a partir do 
conhecimento de uma medida estatística iremos prever o valor da medida (parâmetro) populacional. 
Por exemplo, suponha que tenhamos escolhido aleatoriamente 100 alunos de Estatística, dentro de 
uma população de 1.000 estudantes, coletado as notas de cada um, e encontrado a média dessas notas. 
Suponha que essa média tenha sido 5,6. É lógico supor, em princípio, que a média de todos os 1.000 
alunos de Estatística também seja igual a 5,6.
Para diferenciarmos as duas informações, iremos utilizar simbologia diferente para as medidas 
estatísticas e para os parâmetros populacionais. Assim, diríamos que, para a amostra de 100 alunos, 
a média é X = 5,6 e que para a população de 1.000 estudantes a média estimada é µ = 5,6. As 
medidas estatísticas são simbolizadas por letras do nosso alfabeto, e os parâmetros estatísticos, 
por letras gregas.
57
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Essa estimativa feita é chamada de estimativa por pontos e normalmente é preterida em favor das 
estimativas por intervalos, que indicam a precisão ou a exatidão. As estimativas por intervalos são dadas 
por dois números obtidos pela introdução do conceito de erro estatístico.
Assim, seria preferível apresentar a estimativa que acabamos de apresentar da seguinte maneira: o 
valor estimado para a média dos 100 estudantes mencionados é de 5,6±0,2, ou seja, a média será um 
valor entre 5,4 e 5,8. O valor 0,2 é o erro esperado nessa estimativa.
Os cálculos envolvendo essas estimativas serão mostrados a seguir. Inicialmente, vamos verificar 
como selecionamos as amostras.
A generalização dos dados de uma amostra para uma população deve atender a uma condição 
básica e imprescindível: a amostra deve ser representativa da população, ou seja, devemos garantir que a 
probabilidade de se encontrar determinados elementos numa população seja a mesma na amostra. Isso 
significa que características importantes devem ser mantidas proporcionais na amostra e na população. 
Por exemplo, se o gênero é importante em determinado estudo e sabemos que 48% da população são 
formados por homens, então, nas amostras, deveremos ter 48% de homens. Uma amostra de 500 elementos 
deverá ter obrigatoriamente 240 homens. Essas amostras colhidas são chamadas de probabilísticas.
Essas amostras probabilísticas são as mais indicadas, pelo fato de permitirem o cálculo da 
variabilidade e, consequentemente, do erro esperado ou inferencial. Quando falamos anteriormente dos 
erros esperados, estávamos nos referindo a esse modelo de amostragem.
Existem, no entanto, amostragens nas quais a proporcionalidade entre amostras e populações não 
é respeitada. São as amostragens não probabilísticas ou amostragens por julgamento. Nesse tipo de 
amostragem, evidentemente, não é possível o cálculo da variabilidade – e, portanto, dos erros esperados 
e previstos. Consequentemente, não tem a mesma precisão, porém é muito mais barato e rápido e tem 
sido usado com frequência cada vez maior em situações nas quais não é tão determinante a precisão. 
Pesquisas de marketing, por exemplo, podem seguir esse modelo. Outro exemplo bem próximo do 
nosso dia a dia são as pesquisas feitas em sites na internet. Como a votação é voluntária e não guarda 
correspondência controlada com a população, os resultados não têm validade estatística, mas servem 
para fins jornalísticos e como um indicador superficial de uma tendência.
 Saiba mais
No site a seguir você encontrará uma série de pesquisas sobre política, 
comportamento, esportes, entre outros. Algumas dessas pesquisas você 
notará que são probabilísticas, enquanto outras são por julgamento.
PESQUISAS de opinião. UOL Notícias, 2014. Disponível em: <http://
noticias.uol.com.br/politica/pesquisas/>. Acesso em: 15 jul. 2014.
58
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
Quanto a amostras probabilísticas, com as quais iremos nos preocupar principalmente, existem 
diversos modelos possíveis, ou seja, existem vários critérios diferentes para selecioná‑las. Vejamos 
os principais.
5.1 Amostragem aleatória simples
É uma das principais maneiras de se obter uma amostra, principalmente,em razão da sua simplicidade. 
Como o próprio nome indica, consiste em escolher aleatoriamente (sortear) os elementos que irão 
compor a amostra dentro de uma população.
Suponha, por exemplo, que o setor de contabilidade de sua empresa deseje encontrar o valor médio 
das contas a pagar em determinado mês, mas que não tenha tempo de somar todos os valores de todas 
as contas e dividir pelo número de contas (que é o cálculo da média, como se estuda em Estatística). 
A maneira de se chegar a esse valor mais rapidamente seria a partir de uma amostragem aleatória 
simples. O encarregado do cálculo sortearia algumas das contas e obteria a média dessas contas. A 
média encontrada provavelmente será igual (ou muito próxima) da média de toda a população.
Suponha que as contas a pagar pela empresa no referido mês estejam relacionadas na tabela 
a seguir:
Tabela 11
0 R$ 259,00 27 R$ 518,00 54 R$ 388,50 81 R$ 485,63 108 R$ 1.456,88
1 R$ 486,00 28 R$ 972,00 55 R$ 729,00 82 R$ 911,25 109 R$ 2.733,75
2 R$ 2.954,00 29 R$ 5.908,00 56 R$ 4.431,00 83 R$ 5.538,75 110 R$ 16.616,25
3 R$ 3.985,00 30 R$ 7.970,00 57 R$ 5.977,50 84 R$ 7.471,88 111 R$ 22.415,63
4 R$ 235,00 31 R$ 470,00 58 R$ 352,50 85 R$ 24.708,00 112 R$ 1.321,88
5 R$ 12.000,00 32 R$ 24.000,00 59 R$ 18.000,00 86 R$ 22.500,00 113 R$ 67.500,00
6 R$ 456,00 33 R$ 912,00 60 R$ 684,00 87 R$ 855,00 114 R$ 2.565,00
7 R$ 23.587,00 34 R$ 47.174,00 61 R$ 35.380,50 88 R$ 44.225,63 115 R$ 132.676,88
8 R$ 230,00 35 R$ 460,00 62 R$ 345,00 89 R$ 431,25 116 R$ 1.293,75
9 R$ 12.354,00 36 R$ 440,63 63 R$ 18.531,00 90 R$ 23.163,75 117 R$ 69.491,25
10 R$ 235,00 37 R$ 470,00 64 R$ 352,50 91 R$ 440,63 118 R$ 1.321,88
11 R$ 1.254,00 38 R$ 2.508,00 65 R$ 1.881,00 92 R$ 2.351,25 119 R$ 7.053,75
12 R$ 3.652,00 39 R$ 7.304,00 66 R$ 5.478,00 93 R$ 6.847,50 120 R$ 20.542,50
13 R$ 1.234,00 40 R$ 2.468,00 67 R$ 1.851,00 94 R$ 2.313,75 121 R$ 6.941,25
14 R$ 10.316,25 41 R$ 530,00 68 R$ 397,50 95 R$ 496,88 122 R$ 1.490,63
15 R$ 1.834,00 42 R$ 3.668,00 69 R$ 2.751,00 96 R$ 3.438,75 123 R$ 265,00
16 R$ 236,00 43 R$ 472,00 70 R$ 354,00 97 R$ 442,50 124 R$ 1.327,50
17 R$ 468,00 44 R$ 936,00 71 R$ 702,00 98 R$ 877,50 125 R$ 2.632,50
18 R$ 1.234,00 45 R$ 2.468,00 72 R$ 1.851,00 99 R$ 2.313,75 126 R$ 6.941,25
19 R$ 23,00 46 R$ 46,00 73 R$ 34,50 100 R$ 43,13 127 R$ 129,38
20 R$ 1.243,00 47 R$ 2.486,00 74 R$ 1.864,50 101 R$ 2.330,63 128 R$ 6.991,88
59
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
21 R$ 2.328,00 48 R$ 14.516,13 75 R$ 456,00 102 R$ 2.218,55 129 R$ 2.365,00
22 R$ 313,31 49 R$ 551,61 76 R$ 284,27 103 R$ 285,48 130 R$ 485,00
23 R$ 587,90 50 R$ 28.532,66 77 R$ 1.516,94 104 R$ 566,13 131 R$ 4.567,00
24 R$ 3.573,39 51 R$ 278,23 78 R$ 4.417,74 105 R$ 1.492,74 132 R$ 895,00
25 R$ 4.820,56 52 R$ 14.944,35 79 R$ 1.492,74 106 R$ 27,82 133 R$ 2.651,00
26 R$ 284,27 53 R$ 7.650,00 80 R$ 320,56 107 R$ 1.503,63 134 R$ 3.872,00
Note que as contas a pagar estão relacionadas e numeradas de zero em diante. Destas 134 contas, 
iremos escolher, aleatoriamente, 10. Perceba que poderíamos fazer isso por qualquer método aleatório 
– por exemplo, por meio de moedas, dados ou papeizinhos numerados –, mas esses métodos podem ter 
defeitos estruturais, causando falhas: a moeda pode estar com uma face mais pesada ou o dado pode 
ter uma face desgastada. Normalmente utilizamos para isso tabelas de dados aleatórios, que podem ser 
encontradas em qualquer livro de Estatística (Anexo 2 deste livro‑texto). A tabela a seguir foi retirada 
desse Anexo 2 e será usada para apresentarmos o cálculo em andamento.
Tabela 12
58137 54989 04897 59401 19847 16910 08050 49746 48326
50381 72805 40258 72318 91216 08981 90373 59507 95963
94462 46412 44836 21022 94209 54407 37064 16258 50259
21764 29143 02720 21458 83999 90047 23438 57674 15258
74466 18683 97084 49572 56224 89485 40909 57926 62133
98292 92361 61139 68485 93740 96402 54981 16098 62973
69682 51101 45235 44290 41329 09870 06624 77931 35888
63224 87244 26837 28379 20330 63149 80083 46478 66855
07593 21013 09194 77319 25976 16580 34135 44888 12468
77714 74636 50487 55343 80062 98620 85767 78863 39802
A tabela de números aleatórios tem duas características importantes. A primeira é que, 
independentemente da disposição em que os números aparecem e são lidos, a chance de um número 
ser escolhido para uma amostra é igual à chance de qualquer outro número. A segunda característica é 
que todas as combinações de números têm a mesma probabilidade de ocorrerem.
Bruni (2013) ressalta que, apesar de muitos estudiosos questionarem o uso da tabela de números 
aleatórios montada a partir de recursos computacionais, atualmente, os procedimentos empregados na 
geração de números aleatórios sempre envolvem recursos computacionais. Ele recomenda os seguintes 
passos no uso dos números aleatórios:
1 – Liste todos os itens da população (foi o que fizemos na Tabela 11).
2 – Enumere todos os itens da lista começando do zero (note que foi o que fizemos na referida 
tabela).
60
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
3 – Leia os números da tabela obedecendo ao seguinte padrão: a quantidade de algarismos lidos de 
cada número da tabela de números aleatórios tem que ser igual à quantidade de algarismos lidos do 
último número de sua lista (observe que temos 134 valores de conta a pagar, portanto os números que 
usaremos na amostragem terão três algarismos significativos, ou seja, números de 000 até 134).
4 – Devem ser desprezados todos os números que não correspondem a algarismos de sua lista, assim 
como repetições de números já lidos (no nosso caso, se aparecer, por exemplo, o número 258, ele não 
terá significado, visto termos só 134 informações. Da mesma forma, se aparecer uma segunda vez o 
número 047, só consideraremos a primeira vez).
5 – Após a execução dos passos anteriores, verifique os números selecionados e identifique na lista 
os itens que deverão fazer parte da amostra aleatória selecionada.
Nesse nosso exemplo, vamos estabelecer que iremos ler a tabela de números aleatórios na horizontal 
da esquerda para a direita. Poderíamos lê‑la em diagonal, ou na vertical, ou de qualquer outra maneira 
que permanecesse constante ao longo do processo. Dessa forma, ficaríamos com a tabela assim (perceba 
que já apresentamos os números com três casas decimais):
581 375 498 904 897 594 011 984 716 910 080 504 974 648 326 503 817 280 540 258 723 189 
121 608 981 903 735 950 795 963 944 624 641 244 836 210 229 420 954 407 370 641 625 850 
259 217 642 914 302 720 214 588 399 990 047 234 285 767 415 258 744 661 868 397 084 495 
725 622 489 485 409 095 792 662 133 982 929 236 161 139 684 859 374 096 402 549 811 609 
862 973 696 682 511 014 523 544 290 413 290 987 006 624 779 313 588
Os números em vermelho são os sorteados; os demais não são números dentro do espectro trabalhado 
(valores acima de 134).
Assim, os dez números sorteados são: R$ 1.254,00 (a conta de número 011); R$ 485,63 (081); R$ 
1.490,63 (122); R$ 14.516,13 (048); R$ 24,708,00 (085); R$ 3.438,75 (096); R$ 3.872,00 (134); R$ 442,50 
(097); R$ 10.316,25 (014); R$ 456,00 (006). Com esses valores, podemos calcular a média da amostra:
x
x
N
i
= =
=
+ + + + + +
∑
1254 485 63 1490 63 14 516 13 24 708 3 438 75 3 87, , . , . . ,. 22 442 50 10 316 25 456
10
60 979 89
10
6 097 99
+ + +
= =
, . ,
. ,
. ,
Como a média da amostra trabalhada é de R$ 6.097,99, podemos inferir que a média de toda a 
população seria, provavelmente, igual a esse valor. Observe que isso não é exatamente a verdade. O valor 
real será algo parecido com R$ 6.097,99, mas não exatamente. Existe uma tolerância nessa informação 
que equacionaremos mais tarde.
61
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
 Observação
Como curiosidade, poderíamos calcular a média real das contas a 
pagar mencionadas. Faríamos isso somando todas as contas e dividindo 
por 134. Esse resultado seria de R$ 6.914,08 – evidentemente diferente do 
induzido, mas próximo. Nesse caso, como as quantidades são relativamente 
pequenas, podemos fazer os dois cálculos. Na vida prática, o processo de 
amostragem aleatória simples nos economizaria muito trabalho.
A amostragem aleatória pode ser feita a partir de dois tipos de população: a discreta e a contínua. Na 
discreta, todos os elementos da população devem ter a mesma probabilidade de fazer parte da amostra – é 
o caso do exemplo que acabamos de fazer. Já na continua, é necessário que a probabilidade dos intervalos 
de dados seja representada proporcionalmente. Por exemplo, se 15% das pessoas numa população têm 
entre 20 e 25 anos, na amostra deve ser mantida a proporção de 20% para pessoas dessa idade.
Outro aspecto importante é o fato de uma população poder ser finita ou infinita. A amostragem das 
populações finitas evidentemente é mais fácil, podendo ser feita de duas formas diferentes. A primeira 
forma é a que fizemos anteriormente: relacionamos todos os elementos numa lista e posteriormente 
escolhemos aleatoriamente aqueles que fariam parte da amostra. Outra forma pode aparecer quando 
a população é difícil de ser listada. Bruni (2013) dá como exemplo desta última a pesquisa de poluição 
de um rio. Não há como comparar características da população com as das amostras. Nesses casos, 
escolhem‑se diferentes intervalos para fazer a amostragem, criando‑se em seguida um índice. Acima de 
determinado patamar nesse índice, o rio será considerado poluído.
Quando uma população é infinita ou finita muito grande, obter amostras aleatórias é consideravelmente 
mais complexo. Uma das maneiras de contornar essa complexidade é registrar os dados à medida que 
eles surgem – por exemplo, pacientes que são atendidos num hospital. Evidentemente, não há garantia 
absoluta de que a correspondência entre a população e suas amostras seja rigidamente representativa.
5.2 Amostragem com reposição e sem reposição
Quando trabalhamos com populações finitas, podemos fazer amostragens de duas formas diferentes: 
com e sem reposição.
O conceito de ambos é intuitivo. Amostragens com reposição são aquelas em que um elemento, após 
ser retirado da população para fazer parte da amostra, é devolvido à população, podendo portanto ser 
sorteado novamente. Um jogo de dados ou de moedas é um exemplo desse tipo de amostragem.
Em amostragens sem reposição, os elementos não são devolvidos à amostra, não podendo, portanto, 
ser novamente sorteados. O caso das Contas a Pagar que apresentamos anteriormente é um exemplo 
disso. Algumas situações tornam as amostragens sem reposição inevitáveis – por exemplo, quando 
temos um teste destrutivo, ou então quando estamos pesquisando itens defeituosos. Não tem sentido 
62
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
devolver um defeito à população. As amostras sem reposição tendem a ter menor custo, pois um item 
é analisado uma única vez.
Podemos dizer que os tamanhos relativos das amostras e a população definem se a amostragem vai 
ser feita com ou sem reposição. Quando a amostra é muito grande em relação à população, a tendência 
é trabalhar com reposições; caso contrário, as reposições são desnecessárias ou indiferentes.
5.3 Amostragem sistemática
Como o próprio nome diz, consiste em uma escolha sistemática. É estabelecida uma sistemática de 
escolha dos elementos que irão compor a amostra. É muito parecida com a amostragem aleatória simples, 
também precisando de uma lista numerada, mas a escolha é feita sistematicamente, e não por sorteio.
No exemplo das Contas a Pagar, como temos 134 elementos na população e queremos amostras de 
10 elementos, poderíamos montar a amostra com os elementos múltiplos de 13, por exemplo, porque 
134 ÷ 10 = 13 (arredondando). Assim a amostra poderia ser composta pelos elementos de números 0; 
13; 26; 39; …; 117; 130, ou 1; 14; 27...
5.4 Amostragem estratificada
É uma tentativa de melhorar as amostragens aleatória simples e sistemática, consistindo em dividir 
a população em subgrupos de elementos semelhantes entre si e, dentro desses estratos, aplicar as 
amostragens aleatória ou estratificada. Por exemplo, podemos, numa pesquisa eleitoral, dividir os 
eleitores em estratos (de acordo com gênero, nível de escolaridade, nível socioeconômico etc.) e, 
dentro de cada estrato, aplicar a amostragem aleatória. Essa estratégia tende a melhorar a precisão das 
pesquisas, permitindo o uso de amostras menores quando os extratos são mais homogêneos.
5.5 Amostragem por conveniência
A conveniência é motivada pela facilidade de obter as informações ou pela sua acessibilidade. Por 
exemplo, caso desejemos pesquisar a intenção de votos em determinada eleição, podemos colocar 
pesquisadores numa praça de grande movimento na cidade. Isso seria conveniente, porque seria fácil e 
barato encontrar os eleitores, mas, claramente, não permitiria precisão adequada. É fácil entender: se a 
tal praça estivesse num bairro periférico, teríamos uma concentração muito maior de pessoas de classes 
econômicas mais pobres do que na população correspondente. Esse tipo de amostragem normalmente 
é usado em casos extremos e especiais, ou quando a população é reconhecidamente homogênea.
5.6 Amostragem intencional
Nesse caso, o pesquisador escolhe propositalmente os elementos que farão parte da amostra. 
Por exemplo, uma empresa poderia lançar e promover seus produtos fazendo, simultaneamente, 
pesquisas apenas numa determinada cidade, assumindo que essa cidade teria características mais 
adequadas ao estudo (por exemplo, maior homogeneidade). Ele estaria propositadamente escolhendo 
o local de amostragem.
63
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
5.7 Amostragem por julgamento
Nesse caso, os elementos da amostra são escolhidos pelo pesquisador. Por exemplo, desejando saber 
algo sobre a cena cultural do Brasil, o pesquisador poderia entrevistar grandes nomes da cultura, por 
meio de um julgamento de relevância.
5.8 Amostragem por quotas
Possivelmente seja o método de amostragem mais usado. No fundo, é um aperfeiçoamento ou 
uma melhoria do método de amostragem acidental. Os elementos selecionados para a amostra devem 
representar proporções previamente determinadas a partir da população. O seguinte processo de seleção 
por quotas é recomendado por Bruni (2013), a partir de Bunchaft e Kellner:
Passo 1 – Devem ser selecionadas as características da população consideradas relevantes para o 
estudo – por exemplo, nível social, nível de escolaridade, gênero etc.
Passo 2 – Com base em dados listados, censitários, cadastros e outros, devem ser determinadas as 
proporções de cada característica na população. Por exemplo, podemos consultar o IBGE para determinar 
qual a porcentagem de homens entre os eleitores brasileiros.
 Saiba mais
No Brasil, a maioria dos dados censitários e das estatísticas é produzida 
pelo IBGE – Instituto Brasileiro de Geografiae Estatística. Boa parte desses 
dados pode ser acessada no seguinte site: <http://www.ibge.com.br>.
Passo 3 – As divisões e subdivisões da população devem ser estruturadas em células, conforme 
ilustrado na tabela a seguir. Quanto maior o número de características analisadas, maior será o número 
de células estabelecidas.
Tabela 13
Classe social Gênero masculino Gênero feminino Total
A 4% 2% 6%
B 9% 6% 15%
C 13% 9% 22%
D 16% 11% 27%
E 16% 14% 30%
Total 100% 100% 100%
Fonte: Bruni (2013, p. 171).
64
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
Passo 4 – O número de elementos de cada célula deve ser determinado. Se, por exemplo, o tamanho 
da amostra for composto por 500 indivíduos, 2% ou 10 pessoas deverão ser do sexo feminino e da 
classe A.
Passo 5 – Cada entrevistador ou coletor de dados deverá receber uma quota, de forma que o total 
da amostra mantenha as proporções determinadas nas células.
6 TEORiA ElEMEnTAR dA AMOSTRAGEM
Imagine uma população de grande quantidade de valores, da qual são retiradas todas as amostras 
possíveis de tamanho N. Para cada uma dessas amostras, podemos calcular uma determinada grandeza 
estatística – digamos, por exemplo, a média, que irá variar de amostra para amostra. Todos os valores 
calculados juntos formarão uma distribuição amostral, que no caso da média se chamará distribuição 
amostral das médias. Para essa distribuição, como para qualquer outra, podem ser calculados a média e 
o desvio padrão; portanto, podemos falar de média e desvio padrão da distribuição amostral das médias, 
por exemplo.
Observe que, de maneira semelhante, podemos conceituar distribuições amostrais das outras 
medidas estatísticas – por exemplo, as distribuições amostrais das proporções, a distribuição amostral 
das variâncias, as distribuições amostrais dos desvios padrões etc. Neste curso, iremos nos ater às 
principais, ressaltando que as demais seguem exatamente os mesmos princípios.
6.1 distribuição amostral das médias
Admita que uma determinada população tenha média µ e desvio padrão σ e que retiremos dessa 
população todas as amostras possíveis de tamanho N. Para cada amostra, calculamos a média, e todas as 
médias calculadas irão compor a distribuição amostral das médias, cuja média é chamada de média da 
distribuição das médias e simbolizada por µx; já o desvio padrão da distribuição das médias é simbolizado 
por µx, sendo os valores de ambos dados, respectivamente, por:
µ µ σ σx xe N
= =
O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos.
Sabemos que a altura média de 5.000 estudantes universitários do sexo masculino é de 1,728 
m, com desvio padrão de 0,067 m. Desse grupo, retiramos 100 amostras de 30 estudantes cada 
uma. Qual é a média da distribuição amostral das médias e qual é o desvio padrão da distribuição 
amostral das médias?
Observe que nos foram informados os seguintes dados:
•	 média populacional: µ = 1,728;
65
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
•	 desvio padrão populacional: σ = 0,067;
•	 tamanho das amostras: N = 30.
Assim, podemos calcular a média e o desvio padrão da distribuição amostral:
µ µ µ
σ
σ
σ σ
x x
x x xN
= ⇒ =
= ⇒ = ⇒ =
1728
0 067
30
0 012
,
,
,
Sobre esses cálculos, é importante ressaltar:
•	 Não estamos considerando todas as amostras possíveis e imagináveis, somente 100 delas estão 
sendo levadas em conta. Isso faz que essa não seja a verdadeira distribuição amostral das médias, 
mas uma amostragem experimental. No entanto, como o número 100 é suficientemente grande, 
podemos afirmar que essas duas distribuições são muito aproximadas e, do ponto de vista prático, 
poderão ser consideradas iguais.
•	 Esses cálculos foram considerados para uma população muito grande, tão grande que a 
consideramos infinita. Caso a população não fosse tão grande e a amostragem não fosse feita com 
reposição, deveríamos fazer uma correção no cálculo do desvio padrão da distribuição amostral. 
 
Essa correção é feita pela multiplicação do valor do desvio padrão pela expressão: 
N N
N
p
p
-
-1
, 
 
onde Np é o tamanho da população. Assim, o cálculo do desvio padrão sendo:
σ
σ
σ σ σx
p
p
x x xN
N N
N
=
-
-
⇒ =
-
-
⇒ = × ⇒ =
1
0 067
30
3000 30
3000 1
0 012 0 987 0
,
, , ,0012
Perceba que, na prática, não ocorrem diferenças, em virtude do tamanho muito grande da população.
•	 O desvio padrão da distribuição amostral é normalmente chamado de erro padrão.
•	 Para grandes valores de N (N≥30), a distribuição amostral é aproximadamente normal, 
independentemente do comportamento da população. Essa característica permite responder à 
seguinte questão:
Quantas das 100 amostras colhidas apresentarão valores médios acima de 1,735 m?
Esse cálculo é feito de modo idêntico ao que fizemos no capítulo da distribuição normal, ou seja:
66
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
z
x
tabela At
A Ap t
1
1735 1728
0 012
0 58 0 7190
1 1 0
=
-
=
-
= → → =
= - = -
µ
σ
, ,
,
, ,
,77190 0 2810 28 10= =, , %
A probabilidade de que uma das amostras tiradas tenha valor médio superior a 1,735 m é de 28,10%.
Exemplo de aplicação
Certos transistores fabricados por certa empresa têm uma vida média de 800 horas, com desvio 
padrão de 60 horas. Determinar a probabilidade de uma amostra aleatória de 16 válvulas retiradas do 
grupo ter uma vida média entre 790 e 810 horas.
a) 50,28%
b) 35,68%
c) 99,72%
d) 35,72%
e) 49,72%
Resolução:
O cálculo das probabilidades envolvendo uma amostra é feito a partir de uma curva normal cuja 
média é a amostral e o desvio padrão é o amostral, ou seja, nesse caso:
µ µ σ σx x
N
= = = = =800
60
16
15
A partir daí, o cálculo é semelhante aos exercícios de distribuição normal, ou seja:
z
z
x
A
x
tab1
1
1
790 800
15
0 67 0 2514
810 800
15
0 67
=
-
=
-
= - → =
=
-
=
-
=
µ
σ
µ
σ
, ,
, →→ =Atab2 0 7486,
67
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Portanto:
P(vida média entre 790 e 810 horas) = Atab2 – Atab1 = 0,7486 – 0,2514 = 0,4972
Ou 49,72%; portanto, alternativa E.
6.2 distribuição amostral das proporções
Admita que uma população seja infinita, que a probabilidade de ocorrência de certo evento seja p 
(probabilidade de sucesso) e que retiremos dessa população todas as amostras possíveis de tamanho 
N. Para cada amostra calculamos a média, e todas as médias calculadas irão compor a distribuição 
amostral das proporções, cuja média é chamada de média da distribuição das proporções e simbolizada 
por µp; já o desvio padrão da distribuição das proporções é simbolizado por σp, sendo os valores de 
ambos dados, respectivamente, por:
µ σp pp e
p p
N
= =
-( )1
O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos.
Em determinado processo produtivo, 4% dos itens produzidos são defeituosos. Em dado momento, 
retiram‑se da produção 500 itens produzidos. Calcule:
a) Qual a média da distribuição amostral dessa proporção?
b) Qual é o desvio padrão dessa distribuição amostral das proporções?
c) Qual é a probabilidade de que, desses 500 itens inspecionados, 3% ou mais sejam defeituosos?
Observe que nos foram informados os seguintes dados:
•	 probabilidade de sucesso: p = 4% ou 0,04;
•	 tamanho das amostras: N = 500.
Assim,podemos calcular a média e o desvio padrão da distribuição amostral:
µ µ
σ σ
p p
p p
p= ⇒ =
=
-
⇒ =
0 04
0 04 1 0 04
500
0 009
,
, ( , )
,
68
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
Para o cálculo do Item c, precisamos introduzir o fator de correção para variáveis discretas. Isso 
é necessário porque estaremos usando conceitos da distribuição normal, pois uma distribuição 
para variáveis contínuas numa questão envolve variáveis discretas. Isso é permitido porque o N é 
suficientemente grande (≥ 30), mas é necessário o uso do fator de correção: f
Nc
=
1
2
.
Nessa questão, o fator de correção é f
N
f fc c c= ⇒ = ×
⇒ =
1
2
1
2 500
0 001, .
Esse cálculo é feito de modo idêntico ao da distribuição normal, ou seja:
z
x
tabela At
A Ap t
1
0 03 0 001 0 04
0 009
122 0 1112
1
=
-
=
- -
= - → → =
= -
µ
σ
, , ,
,
, ,
== - = =1 0 1112 0 8888 88 88, , , %
A probabilidade de que desses 500 itens inspecionados 3% ou mais sejam defeituosos é de 
88,88%.
Exemplo de aplicação
Uma prévia eleitoral mostrou que certo candidato recebeu 46% dos votos. Determine a probabilidade 
de uma seção eleitoral constituída de 200 pessoas selecionadas ao acaso entre a população votante 
apresentar a maioria de votos a favor desse candidato.
a) 12,56%
b) 50%
c) 11,31%
d) 15,31%
e) 88,69%
Resolução:
Apesar de este exercício se referir a uma distribuição binomial, o número relativamente 
grande de pessoas entrevistadas permite que utilizemos a distribuição normal, desde que 
levemos em conta a descontinuidade. Dessa forma, teremos os seguintes parâmetros amostrais 
da distribuição amostral:
69
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
µ σp p
p P
N
Dc
N x
= = =
-
=
-
=
= = =
0 46
1 0 46 1 0 46
200
0 035
1
2
1
2 200
1
400
,
( ) , ( , )
,
== 0 0025,
A partir daí, teremos um cálculo normal de distribuição normal, lembrando que maioria de votos é 
50% mais um voto, ou seja, 50% mais a descontinuidade:
z
X
Atab1 1
0 5 0 00025 0 46
0 035
121 0 8869=
-
=
+ -
= → =
µ
σ
( , , ) ,
,
, ,
Ou 11,31%. Consequentemente, a alternativa correta é a C.
6.3 distribuição amostral das diferenças
Dadas duas populações das quais são retiradas amostras de NA da população A e NB elementos da 
população B, a distribuição amostral das diferenças (das médias, das proporções ou de qualquer outra 
medida estatística) é caracterizada pela diferença dos valores centrais e pela raiz quadrada da soma dos 
quadrados dos desvios padrões, divididas pelo tamanho da amostra, ou seja:
Para diferenças entre médias:
µ µ µ σ σ σXA XB xA xB XA XB
xA
A
xB
B
e
N N- -
= - = +
2 2
Para diferenças entre proporções:
µ σpA pB A B p` pB
A A
A
B B
B
p p e
p p
N
p p
N- -
= - =
-
+
-( ) ( )1 1
 lembrete
O desvio padrão, assim como o erro padrão, representam variações. Portanto, 
eles sempre se somam, mesmo que estejamos fazendo a diferença entre 
situações. Subtrair variações seria acreditar que uma variação compensasse a 
outra e, na verdade, elas se acumulam. Erros nunca se compensam!
70
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
As questões a seguir ajudarão a entender esses conceitos:
Os amortecedores do fabricante A rodam em média 65.000 km, com desvio padrão de 4.500 km 
normalmente distribuídos. Já os amortecedores do fabricante B duram em média 60.000 km, com 
desvio padrão de 3.500 km. Suponha que tenham sido testados 36 amortecedores da marca A e 49 
amortecedores da marca B. Calcule:
a) Quais são a média e o desvio padrão da distribuição amostral da diferença entre as vidas úteis?
b) Qual é a probabilidade de que a amostra dos amortecedores da marca A dure 3.000 km a menos 
do que os da marca B?
µ µ
σ
σ σ
σ
XA XB XA XB
XA XB
xA
A
xB
B
XA XBN N
- -
- -
= - ⇒ =
= + ⇒ =
65000 60000 5000
2 2 44500
36
3500
49
901
2 2
+ ⇒ =
-
σXA XB
Observe que a diferença entre as amostras das vidas úteis dos amortecedores da marca A e da marca 
B é, em média, de 5.000 km a favor do primeiro, mas com um erro padrão de 901. Portanto, o cálculo 
da questão b será:
z
x
tabela At
A Ap t
1
3000 5000
901
2 22 0 0132
0 0132 1
=
-
=
-
= - → → =
= = =
µ
σ
, ,
, ,332%
Veja mais uma questão.
Os resultados de uma eleição mostraram que um candidato obteve 60% dos votos. Qual é a 
probabilidade de que duas amostras aleatórias, cada uma com 200 eleitores, apresentem uma diferença 
superior a 10% uma em relação à outra?
µ µ µ
σ
pA pB A B pA pB pA pB
p` pB
p p
- - -
-
= - ⇒ = - ⇒ =
=
-
+
0 6 0 6 0
0 6 1 0 6
200
0
, ,
, ( , ) ,, ( , )
,
6 1 0 6
200
0 049
-
⇒ =
-
σp` pB
Perceba que, em princípio, não deveria haver diferença entre as duas amostras, mas é possível que a 
amostra A seja maior que a amostra B ou vice‑versa. A probabilidade de que a amostra A tenha 10% a 
mais de eleitores que a amostra B é calculada da seguinte forma:
71
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
z
x
tabela At
A Ap t
1
0 10 0 0025 0 0
0 049
2 09 0 9817
1
=
-
=
+ -
= → → =
= - =
µ
σ
, , ,
,
, ,
11 0 9817 0 0183 183- = =, , , %
Devemos lembrar, no entanto, que o oposto também pode ocorrer, ou seja, existem 1,83% de 
probabilidade de que a amostra B tenha mais de 10% de eleitores que a amostra A. Logo, a probabilidade 
de que uma tenha mais que 10% de eleitores do que a outra é de:
0,0183 + 0,0183 = 0,0366 = 3,66%
Exemplos de aplicação 
1) As lâmpadas elétricas do fabricante A duram em média 1.400 horas, com desvio padrão de 200 
horas, e as do fabricante B duram em média 1.200 horas, com desvio padrão de 100 horas. Se forem 
ensaiadas 125 lâmpadas de cada marca, qual será a probabilidade de que as da marca A tenham vida 
média maior do que as da marca B em, pelo menos, 160 horas?
a) 2,28%
b) 97,72%
c) 58,47%
d) 39,85%
e) 62,8%
Resolução:
A distribuição de probabilidades da diferença entre essas amostras é dada pelos parâmetros:
µ µ µ µ
σ σ
σ σ
xa
xa
a
a
a
aN N
- - -
- = + = +
xb a b
xb
= =1400 1200 = 200
2 2 2200
125
10022
125
20=
Com esses parâmetros, usando o conceito da curva normal, podemos resolver a questão:
72
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
z
X
Atab1 1
160 200
20
2 00 0 0228=
-
=
-
= - → =
µ
σ
, ,
P(marca A durar mais que B em pelo menos 160h) = 1 – Atab1 = 1 – 0,0228 = 0,9772
Ou 97,72%. Portanto, alternativa B.
2) Os resultados de uma eleição mostram que certo candidato recebeu 65% dos votos. Determine a 
probabilidade de duas amostras aleatórias, constituídas cada uma de 200 eleitores, indicarem mais de 
10% de diferença nas proporções dos que votaram a seu favor.
a) 31,6%
b) 96,84%
c) 0,31%
d) 3,16%
e) 47,85%
Resolução:
A distribuição de probabilidades da diferença entre essas amostras é dada pelos parâmetros:
µ µ
σ σ
pa pb a b
pa pb
a a
a
b b
b
p p
p p
N
p p
N
- = - = - =
- =
-
+
-
=
0 65 0 65 0
1 1 0 6
, ,
( ) ( ) , 55 1 0 65
200
0 65 1 0 65
200
0 0477
1
2
1
2200
1
400
0 0
( , ) , ( , )
,
,
-
+
-
=
= = = =Dc
N x
0025
A partir daí, teremos um cálculo normal de distribuição normal, lembrando que mais de 10% de 
votos são 10% mais a descontinuidade e que podemos ter essa situação dos dois lados da curva:
z
X
Atab1 1
0 1 0 0025 0
0 0477
2 15 0 9842=
-
=
+ -
= → =
µ
σ
( , , )
,
, ,
P(maioria dos votos a favor do candidato na amostra A) = 1 – Atab1 = 1 – 0,9842 = 0,0158
73
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Como essa diferença pode ocorrer dos dois lados da curva (amostra A mais do que 10% da amostra 
B ou amostra B mais do que 10% da amostra A), devemos multiplicar o resultado obtido por 2:
P(maioria dos votos a favor do candidato) = 2 x 0,0158 = 0,0316
Ou 3,16%. Consequentemente, a alternativa correta é a D.
7 TEORiA dA ESTiMAçãO ESTATíSTicA
No item anterior, vimos que é possível prever o comportamento de amostras sabendo o comportamento 
da população da qual elas são retiradas. Do ponto de vista prático, no entanto, normalmente é mais 
interessante o movimento ao contrário, ou seja, a partir do estudo de uma amostra, estimar‑se o 
comportamento de uma população.
Esse campo do estudo estatístico é conhecido como inferência estatística, sendo esta normalmente 
feita com a definição dos chamados intervalos de confiança.
Suponha uma distribuição amostral das médias cuja média seja µX, e o erro padrão, σX. Note que 
uma amostra qualquer, retirada da população correspondente, deve pertencer a essa distribuição. 
Observe o gráfico:
P(z)
z
-4σx -3σx -2σx -1σx µx 1σx 2σx 3σx 4σx
68,2%
95,4%
99,7%
100,0%
Figura 19
74
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
Observe que a probabilidade de que uma amostra tenha valor médio entre µX - σX. e µX + σX é de 
68,2%, quer dizer, temos uma confiança de 68,2% de que o valor médio de uma amostra qualquer 
esteja entre aqueles valores mencionados. Em outras palavras, o intervalo de confiança de 66,2% são os 
valores entre µX - σX. e µX + σX.
De modo semelhante, o intervalo de confiança de 99,7% está entre µX - 3σX . e µX + 3σX, e assim 
por diante.
O número de erros padrões que estabelecem a confiabilidade é chamado de coeficientes de confiança 
ou valores críticos e simbolizado por zc. Podemos determinar uma confiança a partir do valor crítico ou, 
ao contrário, determinar o valor crítico a partir da confiança desejada, utilizando a tabela da curva 
normal reduzida.
Por exemplo, caso queiramos trabalhar com uma confiabilidade de 90%, o valor crítico será de 1,645. 
Chega‑se a esse valor por meio do raciocínio estabelecido no gráfico a seguir:
P(z)
z
-Zc Zc
100% – 90%
2
= 5% = 0,0500
100% – 90%
2
= 5% = 0,050090%
Figura 20
Utilizando a tabela da distribuição reduzida, teríamos:
At = 0,0500 → Zc = 1,645
Perceba que a área 0,0500 é exatamente o ponto médio entre os valores 0,0495 (Z= ‑1,65) e 0,0505 
(Z = ‑1,64), daí o valor 1,645. O sinal negativo será ignorado, por causa da simetria da curva. Existe um 
Zc positivo e outro negativo, simétricos.
A partir desses conceitos, podemos determinar os vários intervalos de confiança:
Intervalo de confiança para a média: estimativa = ± ×X Zc
N
σ
75
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Intervalo de confiança para as proporções: estimativa p= ± × -Z p p
Nc
( )1
Intervalo de confiança para as diferenças de médias: estimativa (X ‑X )A B= ± × +Z
N Nc
xA
A
xB
B
σ σ2 2
Intervalo de confiança para as diferenças das proporções:
estimativa (p ‑p )A B= ± ×
-
+
-
Z
p p
N
p p
Nc
A A
A
B B
B
( ) ( )1 1
A multiplicação do valor crítico pelo erro padrão gera o chamado erro esperado, ou margem de erro.
Acompanhe a seguir algumas aplicações dos raciocínios que acabamos de desenvolver:
Um auditor‑contábil separou aleatoriamente uma amostra de 45 contas pagas por uma empresa e 
encontrou um valor médio para elas de R$ 14.900,00, com desvio padrão de R$ 3.600,00. Baseando‑se 
nisso, qual foi o valor estimado para a média populacional, com 95% de confiabilidade?
A estimativa para a média é dada por: estimativa = ± ×X Z
N
c
σ
. Para se fazer essa estimativa, 
precisamos das seguintes informações:
•	 média: X = 14900;
•	 valor crítico: Zc = 1,96, conforme o seguinte cálculo: 
At tabela Zc=
-
= → → =
1 0 95
2
0 0250 196
,
, , ;
•	 desvio padrão: σ = s = 3600;
•	 tamanho da amostra: 45.
Assim:
estimativa estimativa = ± × = ± × → = ±X Z
N
c
σ
14900 196
3600
45
14900 1, 0052
Baseado nesse cálculo e nessa amostra, podemos dizer que se estima que as contas dessa empresa 
tenham um valor médio entre R$ 13.848,00 e R$ 15.952,00, com 95% de certeza.
Veja outro exemplo:
76
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
Uma pesquisa eleitoral feita com 2.500 eleitores revelou que o candidato X a determinado cargo 
eletivo teve 45% de intenções de voto. Qual a estimativa que se faria da votação que esse candidato 
teria caso a eleição fosse hoje, com 99% de confiabilidade?
A estimativa para a proporção é dada por: estimativa p= ± × -Z p p
Nc
( )1
. Para se fazer essa 
estimativa, precisamos das seguintes informações:
•	 proporção: p = 0,45;
•	 valor crítico: Zc = 2,58, conforme o seguinte cálculo:
At tabela Zc=
-
= → → =
1 0 99
2
0 0050 2 58
,
, , ;
•	 tamanho da amostra: 2500.
Assim:
estimativa p estimativa 0,45= ± × - → = ± × -Z p p
Nc
( )
,
, ( ,1
2 58
0 45 1 0 445
2500
0 026
)
,
→
→ = ±estimativa 0,45
ou
estimativa = 45% ± 2,6%.
Desse modo, podemos afirmar que, se a eleição fosse hoje, o candidato A teria 45% dos votos, com 
uma margem de erro, para mais ou para menos, de 2,6%, com 99% de certeza, ou então dizer que ele 
teria entre 42,4% e 47,6% dos votos, com 99% de confiabilidade.
Veja mais uma questão.
Uma amostra de 300 lâmpadas da marca A apresentou uma durabilidade média de 2.300 horas, com 
desvio padrão de 200 horas. Outra amostra de 150 lâmpadas da marca B apresentou vida útil de 2.000 
horas, com desvio padrão de 90 horas. Estime com 90% de confiabilidade a diferença entre as vidas úteis 
de ambas as marcas de lâmpadas.
Informações:
•	 médias: XA = 2300; XB = 2000;
•	 valor crítico: Zc = 1,645, conforme o seguinte cálculo:
At tabela Zc=
-
= → → =
1 0 90
2
0 0500 1645
,
, , ;
77
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
•	 desvios padrões: σA = sA = 200; σB = sB = 90;
•	 tamanhos das amostras: NA = 300; NB = 150.
Assim:
estimativa (2300‑2000) estimativa = ± × + → =1645 200
300
90
150
2 2
, 300± 22 5, .
As lâmpadas da marca A devem durar mais do que as lâmpadas da marca B entre 277,5 horas e 322,5 
horas, com 90% de confiança.
Outro exemplo:
Uma amostra aleatória, com 250 homens e 320 mulheres, revelou que 150 dos homens e 240 das 
mulheres apreciaram o design de um novo modelo de automóvel. Estime com 98% de confiabilidade a 
diferença entre a proporção de todos os homens e de todas as mulheres em relação a esse novo automóvel.
Informações:
•	 proporções: p pH M= = = =
150
250
0 6
240
320
0 75, ,; ;
•	 valor crítico: Zc = 2,33, conforme o seguinte cálculo:
At tabela Zc=
-
= → → =
1 0 98
2
0 0100 2 33
,
, , ;
•	 tamanho da amostra:NH = 250; NM = 320.
Assim:
estimativa (p ‑p )
estimativa 
M H= ± ×
-
+
-
→
=
Z
p p
N
p p
Nc
M M
M
H H
H
( ) ( )1 1
 (0,75‑0,60)
estima
± × - + - →
→
2 33
0 75 1 0 75
320
0 60 1 0 60
250
,
, ( , ) , ( , )
ttiva (0,15= ± 0 092, )
ou
estimativa = 15% ± 9,2%.
78
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
Estima‑se que 15% a mais de mulheres do que homens gostem do design desse automóvel, com 
uma margem de erro de 9,2% e uma confiabilidade de 98% – ou, em outras palavras, a diferença entre 
mulheres e homens nesse aspecto está entre 5,8% e 24,2%, com 98% de certeza.
Decorrência importante desses cálculos é a determinação do tamanho da amostra necessária 
para se atender a determinadas condições estatísticas. O raciocínio é o mesmo dos casos anteriores, 
invertendo‑se, no entanto, a incógnita procurada.
A questão seguinte demonstra esse equacionamento.
Um analista de treinamento deseja estimar o tempo de treinamento em horas para determinado 
cargo com uma confiabilidade de 95% e erro esperado de 2 horas. Baseado em estudos anteriores, ele 
estima o desvio padrão das horas gastas em treinamento em 18 horas. Qual é o tamanho de amostra 
com que deve trabalhar?
O erro esperado, ou margem de erro, é dado por: erro esperado = ×Z
N
c
σ
 . Para se fazer essa 
estimativa, precisamos das seguintes informações:
•	 valor crítico: Zc = 1,96, conforme o seguinte cálculo:
At tabela Zc=
-
= → → =
1 0 95
2
0 0250 196
,
, , ;
•	 desvio padrão: σ = s = 18 horas;
•	 erro esperado desejável: 2 horas.
Assim:
erro esperado = × → = × → = × → = ×

Z N N N Nc
σ
2 196
18
196
18
2
196
18
2
, , ,  → =
2
312N .
Baseado nesse cálculo, o analista deve trabalhar com uma amostra de 312 elementos.
De maneira semelhante, podem ser calculados os tamanhos necessários para amostras em quaisquer 
dos intervalos de confiança.
Exemplo de aplicação
O seu chefe precisa tomar uma decisão acerca da implantação de uma nova unidade e pediu 
para você fazer uma estimativa dos gastos com salários. Ele informou a você que só conseguirá 
tomar essa decisão para um erro esperado máximo de 20 reais e com uma confiabilidade de 
95%. Para tanto, você fez uma pesquisa com 225 trabalhadores da região em que será instalada 
a fábrica, seguindo a distribuição de cargos e funções, e chegou à média de R$ 1.950,00, com 
desvio padrão de R$ 298,00, mas não conseguiu atender ao erro esperado fixado pelo seu chefe. 
79
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Quantos trabalhadores a mais você terá de pesquisar para atingir os valores estipulados de 
confiabilidade e erro esperado?
a) 853 trabalhadores.
b) 628 trabalhadores.
c) 450 trabalhadores.
d) 368 trabalhadores.
e) 280 trabalhadores.
Resolução:
Diante da posição do seu chefe, a única coisa que você pode fazer é aumentar o tamanho da 
amostra, visto que todas as outras grandezas não podem ser alteradas por prerrogativa sua. Desse modo, 
você deverá calcular qual o tamanho de amostra que deverá tomar para satisfazer seu chefe:
•	 erro esperado = 20 (imposição do chefe);
•	 Zc=1,96 (coeficiente para 95% de confiabilidade);
•	 o erro padrão é, por enquanto, desconhecido, porque se precisa do tamanho da amostra para ser 
determinado, e isso você não tem.
Assim, podemos equacionar:
Erro esperado = Zc × erro padrão. Logo, 20 = 1,96 × erro padrão. Portanto:
erro padrao = = = ∴ = ∴ = ∴ =σ σx x
n n
n
20
196
10 20
298
10 20
298 298
10 2,
, ,
, 00
29 2 29 2 2= ⇒ =, ( , )n~
Ou seja, n = 853 trabalhadores.
Assim, você deverá tomar uma amostra de 853 trabalhadores para poder satisfazer seu chefe. Como 
você já pegou 225, terá de pegar mais 628. Assim, a alternativa correta é a B.
8 cORRElAçãO E REGRESSãO linEARES
Podemos eleger para a palavra correlação significados tais como: relação mútua entre dois termos; 
qualidade de correlativo; correspondência.
80
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
Em Estatística, é um parâmetro que indica o grau de correspondência entre duas variáveis, ou seja, 
a correlação mostra a intensidade com a qual dois conjuntos de dados estão relacionados mutuamente.
Eventualmente, duas variáveis interagem, ou seja, uma variável está correlacionada a outra, de 
maneira mais ou menos intensa, provocando questões do seguinte tipo:
•	 O salário de um trabalhador está relacionado com sua escolaridade, ou seja, em que grau a variável 
salário médio de um trabalhador está ligada com a variável escolaridade do trabalhador?
•	 A quantidade de livros que uma pessoa já leu está relacionada com sua escolaridade?
•	 Em que grau o peso de uma pessoa está relacionado com sua altura?
•	 A estatura de uma pessoa está relacionada com sua alimentação?
•	 A lucratividade de uma empresa está relacionada com o grau de escolaridade de seus executivos?
•	 A capacidade de aprender Estatística está relacionada com o sexo do aluno?
Responder matematicamente a essas questões é o objetivo do estudo estatístico das correlações.
Considerando que exista uma correlação entre duas variáveis, muitas vezes, desejamos saber qual é 
a lei matemática que as relaciona. Isso nos remete ao estudo das funções regressão.
Neste momento, tanto para correlação como para regressão, iremos nos circunscrever aos 
relacionamentos lineares, quer dizer, àqueles que utilizam uma equação de primeiro grau. Existem 
outros relacionamentos, mas não serão objeto de nosso estudo.
8.1 correlação linear
Imagine qualquer uma das questões anteriormente mencionadas. Parece que algumas respostas são 
verdadeiras; por exemplo, um trabalhador deverá ganhar mais se tiver maior escolaridade, e uma pessoa 
mais alta deverá pesar mais, mas outras respostas parecem ser falsas, como relacionar o sexo da pessoa 
com facilidade de aprendizado.
A maneira estatística de se determinar a verdade ou a falsidade dessas questões é calcular o 
coeficiente de correlação que existe entre as variáveis – no nosso caso, o coeficiente de correlação linear. 
Esse coeficiente linear, chamado de coeficiente de correlação linear de Pearson, é obtido da seguinte 
maneira:
r
n x y x y
n x x n y y
i i i i
i i i i
=
-
- -
∑∑∑
∑ ∑∑∑
. . ( ).( )
( . ( ) ).( . ( ) )2 2 2 2
81
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Onde x é a chamada variável independente e y é a variável dependente, ou seja, que está correlacionada 
(ou não) à variável x.
Essa correlação pode existir ou não e ser intensa ou não, conforme nos informa o coeficiente de 
Pearson.
De acordo com o coeficiente r, a correlação poderá ser:
•	 r = ‑1,00: correlação negativa perfeita;
•	 r = ‑0,75: correlação negativa forte;
•	 r = ‑0,50: correlação negativa média;
•	 r = ‑0,25: correlação negativa fraca;
•	 r = 0,00: correlação linear inexistente;
•	 r = +0,25: correlação positiva fraca;
•	 r = +0,50: correlação positiva média;
•	 r = +0,75: correlação positiva forte;
•	 r = +1,00: correlação positiva perfeita.
Correlação linear positiva significa que, se uma variável aumenta, a outra variável também aumenta 
ou, então, se uma variável diminui, a outra também diminui.
Correlação linear negativa significa que, se uma variável aumenta, a outra variável diminui ou, 
então, se uma variável diminui, a outra aumenta.
O exemplo a seguir mostra, passo a passo, os procedimentos de cálculo.
Uma empresade confecções quer avaliar se suas despesas com publicidade estão repercutindo 
favoravelmente em suas vendas. Para tanto, levantou os gastos de publicidade e as vendas em cinco 
meses diferentes, os quais estão relacionados na tabela a seguir. Calcule a resposta para a empresa.
Tabela 14
Gastos com publicidade (em $ mil) 3 4 8 12 14
Vendas (em $ mil) 7 14 15 28 32
82
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
A reposta a essa questão é o cálculo do coeficiente de correlação linear. Caso ele seja positivo, 
poderemos afirmar que as despesas com publicidade repercutem favoravelmente nas vendas; caso 
contrário, a resposta será negativa. Caso o coeficiente seja positivo, quanto mais próximo de 1, maior 
será a repercussão da publicidade nas vendas.
Para fazermos esse cálculo, iremos montar a seguinte tabela, na qual serão determinados os 
somatórios necessários para a utilização da fórmula:
Tabela 15
Xi YI Xi2 YI2 Xi.YI
3 7 9 49 21
4 14 16 196 56
8 15 64 225 120
12 28 144 784 336
14 32 196 1024 448
Somatórios 41 96 429 2278 981
r
n x y x y
n x x n y y
i i i i
i i i i
=
-
- -
∑∑∑
∑ ∑∑∑
. . ( ).( )
( . ( ) ).( . ( ) )2 2 2 2
 
r =
-
- -
5 981 41 96
5 429 41 5 2278 962 2
. ( ).( )
( . ( ) ).( . ( ) )
r =
-
- -
4905 3936
2145 1681 11390 9216( ).( )
 r =
969
464 2174( ).( )
 = r = 0,96
Existe entre as duas variáveis uma correlação positiva forte, ou seja, do ponto de vista prático, é 
fortemente interessante, para essa empresa, investir em publicidade.
Imagine agora a seguinte questão: caso a empresa investisse R$ 18.000,00 em publicidade, qual 
seriam as vendas previstas?
Perceba que para se responder a essa questão seria necessário estabelecer um relacionamento 
matemático entre as duas variáveis. Isso pode ser feito por meio da regressão linear, nosso próximo e 
último assunto.
8.2 Regressão linear
Trata‑se do processo de traduzir o comportamento conjunto de duas variáveis na forma de uma lei 
matemática denominada equação de regressão. Assim sendo, os conceitos de correlação e regressão 
são indissociáveis. A regressão é linear quando essa lei matemática mencionada é uma reta – portanto, 
uma equação de 1º grau.
83
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Correlação perfeita
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6
Correlação forte
14
12
10
8
6
4
2
0
0 5 10 15 20
Figura 21
Como na prática se trabalha com diversos pontos experimentais, existem inúmeras retas possíveis 
para um determinado conjunto de dados. No entanto, o critério normalmente utilizado para a definição 
dessa reta é o chamado método dos mínimos quadrados.
É sabido que a equação de uma reta é dada pela fórmula geral: y = ax + b
Onde a e b são os chamados coeficientes da reta.
 lembrete
Numa reta ou função linear, o coeficiente a é chamado de coeficiente 
angular. Caso ele seja positivo, a curva é crescente (aumento de x 
corresponde a aumento de y). Já se for negativo, a curva será decrescente 
(aumento de x corresponde à diminuição de y). O coeficiente b, por sua vez, 
informa a distância da reta em relação ao eixo horizontal, no ponto em 
que ela cruza o eixo dos y. Quanto maior o módulo do valor de b, maior a 
distância entre esse ponto e a origem.
Estatisticamente, a equação da chamada reta interpoladora é dada pela fórmula:
y K x y K xy i y
* ( )= ⋅ + - ⋅
Onde: K r
s
sy
y
x
= ⋅




Assim, para calcularmos a equação da reta interpoladora, precisaremos calcular a média e o desvio 
padrão de ambas as variáveis (x e y) e o coeficiente de correlação entre elas.
Vamos utilizar um exemplo para deixar mais claro o processo de cálculo, passo a passo:
84
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
A tabela a seguir mostra a evolução de duas variáveis possivelmente correlacionadas. Determine a 
equação de regressão linear decorrente.
Tabela 16
x 3 5 7 9 10 14 16
y 1 2 3 5 7 10 13
1º passo: cálculo do coeficiente de correlação linear:
Tabela 17
xi yi xi
2 yi
2 xi.yi
3 1 9 1 3
5 2 25 4 10
7 3 49 9 21
9 5 81 25 45
10 7 100 49 70
14 10 196 100 140
16 13 256 169 208
S= 64 41 716 357 497
r
n x y x y
n x x n y y
r
i i i i
i i i i
=
-
- -
=
∑∑∑
∑ ∑∑∑
. . ( ).( )
( . ( ) ).( . ( ) )
.
2 2 2 2
7 4997 64 41
7 716 64 7 357 41
0 988
2 2
-
- -
=
( ) . ( )
( . ( ) ) . ( . ( ) )
,r
2º passo: cálculo da média e do desvio padrão da variável x:
Tabela 18
xi di di2
3 3 – 9,1429 = –6,1429 37,7352
5 5 – 9,1429 = –4,1429 17,1636
7 7 – 9,1429 = –2,1429 4,5920
9 9 – 9,1429 = –0,1429 0,0204
10 10 – 9,1429 = 0,8571 0,7346
85
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
14 14 – 9,1429 = 4,8571 23,5914
16 16 – 9,1429 = 6,8571 47,0198
S= 64 130,857
x
x
n
x x
s
d
n
s sx
i
x
i
x
= ⇒ = ⇒ =
=
-
⇒ =
-
⇒ =
∑
∑
64
7
9 1429
1
130 857
7 1
4 6701
2
,
,
,
3º passo: cálculo da média e do desvio padrão da variável y:
Tabela 19
yi di di
2
1 1 – 5,8571 = –4,8571 23,5914
2 2 – 5,8571 = –3,8571 14,8772
3 3 – 5,8571 = –2,8571 8,1630
5 5 – 5,8571 = –0,8571 0,7346
7 7 – 5,8571 = 1,1429 1,3062
10 10 – 5,8571 = 4,1429 17,1636
13 13 – 5,8571 = 7,1429 51,0210
S= 41 116,857
y
y
n
y y
s
d
n
s s
i
y
i
x x
= ⇒ = ⇒ =
=
-
⇒ =
-
⇒ =
∑
∑
41
7
5 8571
1
116 857
7 1
4 4132
2
,
,
,
4º passo: cálculo do coeficiente Ky:
K r
S
S
Ky
y
x
y=



 ⇒ =



 =. , .
,
,
,0 988
4 4123
4 6701
0 93
5º passo: definição da equação da reta procurada:
y* = Ky . xi + (y – Ky . x)
86
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
y* = 0,93 . xi + (5,8571 – 0,93 . 9,1429)
y* = 0,93 . xi – 2,64
A determinação dessa equação da reta permite prever valores futuros, com os devidos cuidados de 
sempre. Por exemplo, caso queiramos saber qual é o valor de y quando o x assumir o valor 18:
y* = 0,93 . xi – 2,64 → y* = 0,93 . 18 – 2,64 → y* = 14,1
 Observação
O Microsoft Excel tem entre suas funções o cálculo da projeção linear. Ele 
pode ser encontrado no menu de funções, no campo de funções estatísticas, com 
o nome PROJ.LIN. Seu uso é bastante fácil dentro dos procedimentos do Excel.
 Resumo
Um dos maiores interesses e usos da Estatística é prever cenários 
futuros ou muito complexos a partir da análise de amostras desses 
cenários. Esse processo é conhecido genericamente como amostragem 
e, se conceitualmente simples e imediato, em termos matemáticos é 
relativamente complexo de ser calculado.
O principal cálculo a ser feito é a margem de erro das previsões feitas. 
Esse valor depende basicamente de três fatores: homogeneidade da 
população, tamanho das amostras e confiabilidade que desejamos ter na 
estimativa. Manuseando tamanho e confiabilidade, podemos encontrar a 
precisão adequada para nossa pesquisa, em função dos recursos que temos 
à nossa disposição.
O custo das pesquisas e previsões é um fator importante a se 
considerar. Geralmente as pesquisas são caras e proporcionais à precisão. 
Grande precisão, grandes custos, porque precisão vem junto com o 
tamanho das amostras. É fundamental, portanto, que saibamos equacionar 
adequadamenteessas grandezas.
As amostragens permitem que nós façamos previsões sobre o futuro 
necessárias para montarmos cenários alternativos e tomarmos decisões. 
Outro aspecto importante é a nossa ideia de causa e efeito. Muitas vezes, 
atribuímos um efeito a uma determinada causa. Isso é correto? Pode ser 
que sim, mas pode ser também que não. O modo estatístico de se fazer essa 
afirmação está situado no campo das correlações e regressões.
87
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Correlação é a relação entre duas variáveis. Se eu estudar muito (primeira 
variável), aprenderei muito (segunda variável). Certo? Nem sempre isso é 
totalmente verdadeiro; dependendo das condições, isso poderá ser totalmente 
verdadeiro ou nem um pouco verdadeiro. Medindo e comparando essas 
variáveis, poderemos encontrar o grau de correlação para um caso específico 
e determinar até que ponto, naquela situação, a causa e o efeito estão 
plenamente vinculados. Essa vinculação pode ser desde total até nenhuma.
Caso duas variáveis estejam correlacionadas, é possível prever qual o 
efeito de uma determinada variação da causa. Quanto mais vou aprender 
se aumentar o meu tempo de estudo em duas horas? Essa resposta pode 
ser dada por meio de uma curva de regressão linear ou não.
A regressão linear é a mais usada, por isso foi tema deste material, 
mas existem outras regressões matemáticas, as logarítmicas, por exemplo, 
que também podem ser usadas. O raciocínio é idêntico, apenas o 
equacionamento é diferente.
 Exercícios
Questão 1. (Enade 2008) Uma empresa realizou uma avaliação de desempenho de um sistema 
web. Nessa avaliação, foram determinados o desvio padrão e a média do tempo de resposta do referido 
sistema, tendo como base 10 consultas realizadas. Constatou‑se que o tempo de resposta do sistema web 
possui distribuição normal. Para um nível de confiança de 95%, identificou‑se o intervalo de confiança 
para a média do tempo de resposta das consultas.
Com relação a essa avaliação de desempenho, julgue as afirmativas abaixo:
I - Com a medição do tempo de resposta do sistema para 10 consultas adicionais, é possível que a 
média e o desvio padrão do tempo de resposta para o conjunto das 20 consultas aumente ou diminua. 
II - Com a medição do tempo de resposta do sistema para 15 consultas adicionais, com nível de 
confiança de 95%, o intervalo de confiança para o conjunto das 25 consultas é maior que o intervalo de 
confiança para o conjunto das 10 consultas iniciais. 
III - Na medição do tempo de resposta das 10 consultas iniciais, o intervalo de confiança com nível 
de confiança de 99% é maior que o intervalo de confiança com nível de confiança de 95%.
Assinale a alternativa correta:
A) Apenas a afirmativa I está correta. 
B) Apenas a afirmativa II está correta. 
88
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
C) Apenas a afirmativa III está correta. 
D) Apenas as afirmativas I e III estão corretas. 
E) Todas as afirmativas estão corretas. 
Resposta correta: alternativa C.
Análise das afirmativas
I – Afirmativa incorreta.
Justificativa: a afirmativa I diz que “Com a medição do tempo de resposta do sistema para 10 
consultas adicionais, é possível que a média e o desvio padrão do tempo de resposta para o conjunto 
das 20 consultas aumente ou diminua”. Porém, não é difícil imaginar que o aumento de 10 consultas 
adicionais possa manter a mesma média que a obtida pelos valores iniciais: basta para isto que os 
mesmos valores inicialmente amostrados sejam repetidos. Desta forma, essa afirmativa está errada, pois 
cita apenas dois casos possíveis e ignora a possibilidade de médio e desvio se manterem iguais. 
II – Afirmativa incorreta.
Justificativa: a afirmativa II diz que “Com a medição do tempo de resposta do sistema para 15 
consultas adicionais, com nível de confiança de 95%, o intervalo de confiança para o conjunto das 25 
consultas é maior que o intervalo de confiança para o conjunto das 10 consultas iniciais”. Essa afirmativa 
está errada, pois o aumento no tamanho da amostra de 10 para 25 valores poderá afetar de qualquer 
maneira o intervalo de confiança, aumentando‑o, diminuindo‑o ou deixando‑o igual. Por exemplo, se 
os 15 valores adicionais forem mais distantes da média que os 10 iniciais, iremos aumentar o intervalo 
de confiança, se eles forem mais próximos iremos diminuir o intervalo e, em um caso muito particular, 
podemos ter os valores com o mesmo desvio padrão, o que deixaria o intervalo de confiança igual à 
situação inicial, com apenas 10 valores. 
III – Afirmativa correta.
Justificativa: a afirmativa III diz que “Na medição do tempo de resposta das 10 consultas iniciais, o 
intervalo de confiança com nível de confiança de 99% é maior que o intervalo de confiança com nível 
de confiança de 95%”. Essa afirmação está claramente correta, pois o intervalo de confiança cresce 
necessariamente em tamanho quando se aumenta o nível de confiança. Dito em outras palavras, o 
tamanho de um intervalo de confiança é inversamente proporcional ao seu nível 68 de confiança. Na 
verdade, quando o nível de confiança tende a 100%, o tamanho do intervalo de confiança tende a 
infinito. 
Questão 2. (IMCC 2007) É esperado que a massa muscular de uma pessoa diminua com a idade. 
Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e 
observou em cada uma delas a idade (X) e a massa muscular (Y).
89
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Estatística aplicada
Massa muscular (X) Idade (Y)
82 71
91 64
100 43
68 67
87 56
73 73
78 68
80 56
65 76
84 65
116 45
76 58
97 45
100 53
105 49
77 78
73 73
78 68
I - O diagrama de dispersão “massa muscular x idade” é dado abaixo.
M
. m
us
cu
la
r
Idade
40
120
110
100
90
80
70
60
50 60 70 80
II - Entre as variáveis massa muscular e idade, pode‑se observar que há um forte indício de relação 
linear crescente entre as variáveis em estudo.
III - O resultado da correlação foi de ‑ 0,837 e pode‑se notar que há uma forte correlação linear 
entre a variável massa muscular e idade. Nota‑se que à medida que a idade da pessoa aumenta a massa 
muscular diminui.
90
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Unidade II
IV - Não é possível estimar a massa muscular média de mulheres com 50 anos.
Assinale a alternativa com as informações incorretas:
A) I e II
B) I e III
C) II e III
D) II e IV
E) IV
Resolução desta questão na plataforma.
91
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
RefeRêNCIAS
Textuais
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia. 2. 
ed. São Paulo: Thomson Learning, 2007.
BRUNI, A. B. Estatística Aplicada à gestão empresarial. 4. ed. São Paulo: Atlas, 2013.
BUSSAB, W. O., MORETIN, P. A. Estatística básica. 3. ed. São Paulo: Atual, 1986.
COSTA NETO, P. L. O. Estatística. São Paulo: Edgard Blücher, 1979.
COSTA NETO, P. L. O.; CYMBALISTA, M. Probabilidades. São Paulo: Edgard Blücher, 1974.
DOWNING, D.; CLARK, J. Estatística Aplicada. São Paulo: Saraiva, 1998.
FONSECA, J. S.; MARTINS, G. A.; TOLEDO, G.L. Estatística Aplicada. São Paulo: Atlas, 1995.
GUERRA, M.; GUERRA, M. J.; DONAIRE, D. Estatística Aplicada. São Paulo: Ciência e Tecnologia, 1991.
KAZMIER, L. J. Estatística Aplicada à Economia e Administração. São Paulo: MakronBooks, 1982.
KUNE, H. Métodos estatísticos para a melhoria da qualidade. São Paulo: Gente, 1993.
LAPPONI, J. A. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
MEDEIROS, E. et al. Estatística para os Cursos de Economia, Administração e Ciências Contábeis. 2. ed. 
São Paulo: Atlas, 1997. v. 1 e 2.
___. Tabelas de Estatística para os cursos de Economia, Administração e Ciências Contábeis. 2. ed. São 
Paulo: Atlas, 1999.
MEYER, P. L. Probabilidade: aplicações à Estatística. Rio de Janeiro: LTC, 1976.
MILONE, G.; ANGELINI, F. Estatística Aplicada. São Paulo: Atlas, 1995.
MLODINOW, L. O andar do bêbado: como o acaso determina nossas vidas. Rio de Janeiro: Zahar, 2009.
MOORE, D. A Estatística básica e sua prática. Rio de Janeiro: LTC, 2000.
MOORE, D. et al. A Prática da Estatística empresarial: como usar dados para tomar decisões. Rio de 
Janeiro: LTC, 2006.
92
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
PESQUISAS de opinião. UOL Notícias, 2014. Disponível em: <http://noticias.uol.com.br/politica/
pesquisas/>. Acesso em: 15 jul. 2014.
SPIEGEl, M. R. Estatística. São Paulo: Makron Books, 1993.
STEVENSON, W. J. Estatística Aplicada à Administração. São Paulo: Habra, 1981.
TRIOLA, M. F. Introdução à Estatística. Rio de Janeiro: LTC, 2005.
WITTE, R. S.; WITTE, J. S. Estatística. 7. ed. Rio de Janeiro: LTC, 2005.
Site
<http://www.ibge.com.br>.
Exercícios
Unidade I – Questão 1: CENTRO DE SELEÇÃO E DE PROMOÇÃO DE ENVENTOS (CESPE). Concurso 
público Nível superior Anac 2009: Especialista em Regulação de Aviação Civil. Questão 35. Disponível 
em: <http://www.cespe.unb.br/concursos/anac2009/arquivos/ANAC_CARGO_04_AREA_04_CAD_M.
pdf>. Acesso em: 8 jun. 2014.
Unidade II – Questão 1: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO 
TEIXEIRA (INEP). Exame Nacional de Desempenho dos Estudantes (ENADE) 2008: Computação. Questão 
32. Disponível em: <http://download.inep.gov.br/download/Enade2008_RNP/COMPUTACAO.pdf>. 
Acesso em: 8 jun. 2014.
Unidade II – Questão 2: INSTITUTO DE MATEMÁTICA, ESTATÍSTICA E COMPUTAÇÃO CIENTÍFICA (IMCC). 
ME414: Estatística para experimentalistas 2007. Questão 1. Disponível em: <http://www.ime.unicamp.
br/~hlachos/ExerciciosRegre.doc>. Acesso em: 8 jun. 2014.
93
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Anexo 1
Áreas sob a curva normal reduzida
Página 1 – Valores da variável reduzida negativos – Área entre -3,99 e Z
z
Z 0 1 2 3 4 5 6 7 8 9
‑3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
‑3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
‑3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
‑3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
‑3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
‑3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
‑3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
‑3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
‑3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
‑3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
‑2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
‑2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
‑2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
‑2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
‑2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
‑2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
‑2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
‑2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
‑2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
‑2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
‑1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
‑1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
‑1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
‑1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
‑1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
‑1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
‑1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
‑1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
‑1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
‑1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
‑0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
‑0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
‑0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
‑0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
‑0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
‑0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
‑0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
‑0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
‑0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
94
Re
vi
sã
o:
 L
uc
as
 -
 D
ia
gr
am
aç
ão
: J
ef
fe
rs
on
 -
 1
8/
07
/1
4
Áreas sob a curva normal reduzida
Página 1 – Valores da variável reduzida positivos – Área entre -3,99 e Z
z
Z 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9646 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967