Buscar

Apostila Estatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 27 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
 
Estatística 
 
INTRODUÇÃO À ESTATÍSTICA 
 
“Ciência que dispõe de processos apropriados para recolher, 
 organizar, classificar, apresentar e interpretar conjuntos de dados” 
 
A estatística fornece-nos as técnicas para extrair informação de dados, os quais são muitas vezes 
incompletos, na medida em que nos dão informação útil sobre o problema em estudo, não 
realçando, no entanto, aspectos importantes. 
 
No estudo de um problema envolvendo métodos estatísticos, estes 
devem ser utilizados mesmo antes de se recolher a amostra, isto é, 
deve-se planear a experiência que nos vai permitir recolher os dados, 
de modo a que, posteriormente, se possa extrair o máximo de 
informação relevante para o problema em estudo, ou seja para a 
população de onde os dados provêm. 
 
Exemplo: 
 
Se pretendemos estudar o sucesso escolar, em Português dos alunos do 10º ano, da Escola 
Secundária Prof. Herculano de Carvalho, será natural ir consultar as pautas destes alunos, no final 
do ano. A partir daí poderá facilmente ser obtida a percentagem de aprovações. 
 
Se, no entanto, pretendermos aprofundar um pouco mais este assunto, nomeadamente saber se 
o sucesso é análogo para os rapazes e raparigas, ou nos diferentes agrupamentos 
disciplinares, deverá recolher-se não só a informação respeitante ao aluno ter passado ou não, 
mas também para cada um o sexo e o agrupamento disciplinar: 
 
Agrupamento disciplinar Nota Sexo 
1 12 F 
2 13 M 
... ... ... 
 
Uma vez os dados recolhidos, sob a forma de uma amostra (Conjunto de dados ou observações, 
recolhidos a partir de um subconjunto da população, que se estuda com o objetivo de tirar 
conclusões para a população de onde foi recolhida.), faz-se a redução e representação desses 
dados, utilizando as tabelas e os diferentes tipos de gráficos, sendo um dos principais objetivos 
desta fase, a identificação da estrutura subjacente aos dados, deixando de lado a aleatoriedade 
presente. 
 
Seguidamente o objetivo do estudo estatístico pode ser o de estimar uma quantidade ou testar 
uma hipótese, utilizando-se técnicas estatísticas convenientes, as quais realçam toda a 
potencialidade da Estatística, na medida em que vão permitir tirar conclusões acerca de uma 
população (Coleção de unidades individuais, que podem ser pessoas ou resultados 
experimentais, com uma ou mais características comuns, que se pretendem estudar.), baseando-
se numa pequena amostra, dando-nos ainda uma medida do erro cometido. 
 
Uma noção fundamental em Estatística é a de conjunto ou agregado, conceito 
para o qual se usam, indiferentemente, os termos População ou Universo. 
 
Exemplo 1: Relativamente à população constituída pelos alunos do 10º ano de 
escolaridade matriculados na Escola Secundária dos Olivais nº. 2, podemos 
estar interessados em estudar as seguintes características populacionais: 
 
2 
 
- Altura (em cm) dos alunos: 
Depois de medir a altura de cada aluno, obteríamos um conjunto de dados com o seguinte 
aspecto: 
145, 161, 158, 156, 146, ... ,140, 139, 162 
 
- Notas obtidas na disciplina de Português, no 1º período: 
10, 15, 13, 16, 9, 11, 10, ... , 18, 11, 13, 8 
 
Exemplo 2: Conjunto das temperaturas (em graus), num determinado dia às 9h, em todas as 
cidades da Europa: 
 
12 ,8, 15, 4, 10, 11, 13, 12, ... , 14, 12, 10, 11 
 
Por vezes, identifica-se População com a característica populacional que se pretende estudar. 
 
Relativamente ao exemplo 1, falamos da 
- População das alturas dos alunos do ... 
- População das notas em Português no 1º ... 
 
Relativamente ao exemplo 2, falamos da 
- População das temperaturas às 9h ... 
 
Nem sempre é possível estudar exaustivamente todos os 
elementos da população! 
 
 
 
- Pode a população ter dimensão infinita 
Exemplo: População constituída pelas pressões atmosféricas, nos 
diferentes pontos de uma cidade. 
- Pode o estudo da população levar à destruição da população 
Exemplo: População dos fósforos de uma caixa. 
- Pode o estudo da população ser muito dispendioso 
Exemplo: Sondagens exaustivas de todos os eleitores, sobre determinado candidato. 
 
Quando não é possível estudar, exaustivamente, todos os elementos da população, estudam-se 
só alguns elementos, a que damos o nome de Amostra (Conjunto de dados ou observações, 
recolhidos a partir de um subconjunto da população, que se estuda com o objetivo de tirar 
conclusões para a população de onde foi recolhida.). 
 
Exemplo 1: 
 
Relativamente à população das alturas dos alunos do 10º ano matriculados na Escola Secundária 
dos Olivais, nº. 2, consideremos a seguinte amostra, constituída pelas alturas (em cm) de 20 
alunos escolhidos ao acaso: 
 
145, 163, 157, 152, 156, 149, 160, 157, 148, 147, 151, 152, 150, 148, 156, 160, 148, 157, 153, 
162 
 
 
 
 
 
 
 
 
 
Porquê? 
3 
 
Exemplo 2: 
 
 
 
Sim, pois a amostra deve ser tão representativa quanto possível da População que se pretende 
estudar, uma vez que vai ser a partir do estudo da amostra, que vamos tirar conclusões para a 
População. 
 
Quando a amostra não representa corretamente a população diz-se enviesada e a sua 
utilização pode dar origem a interpretações erradas, como se sugere nos seguintes exemplos: 
 
- Utilizar uma amostra constituída pelos leitores habituais de determinada revista especializada, 
para tirar conclusões sobre a população geral. 
 
Recenseamento e Sondagem 
 
Recenseamento  O termo recenseamento está, em regra geral, associado à contagem oficial 
e periódica dos indivíduos de um País, ou parte de um País. Ele abrange, no entanto, um leque 
mais vasto de situações. Assim, pode definir-se recenseamento do seguinte modo: 
 
estudo científico de um universo de pessoas, instituições ou objetos físicos com 
o propósito de adquirir conhecimentos, observando todos os seus elementos, e 
fazer juízos quantitativos acerca de características importantes desse universo. 
 
Sondagem  Por vezes não é viável nem desejável, principalmente quando o número de 
elementos da população é muito elevado, inquirir todos os seus elementos sempre que se quer 
estudar uma ou mais características particulares dessa população. 
Assim surge o conceito de sondagem, que se pode tentar definir como: 
 
estudo científico de uma parte de uma população com o objetivo de estudar atitudes, 
hábitos e preferências da população relativamente a acontecimentos, circunstâncias e 
assuntos de interesse comum. 
 
Estatística Descritiva e Estatística Indutiva 
 
Podemos dizer que uma análise estatística envolve duas fases fundamentais, com objetivos 
distintos: 
 
1ª Fase  Estatística Descritiva  Procura-se descrever a amostra, pondo em evidência as 
características principais e as propriedades. 
 
É importante a fase de recolha da amostra? 
4 
 
2ª Fase  Estatística Indutiva  Conhecidas certas propriedades (obtidas a partir de uma análise 
descritiva da amostra), expressas por meio de proposições, imaginam-se proposições mais gerais, 
que exprimam a existência de leis (na população). 
 
No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou 
verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos, e portanto, não são 
falsas, mas não foram verificadas para todos os indivíduos da População, pelo que também não 
podemos afirmar que são verdadeiras ! 
 
Existe, assim, um certo grau de incerteza (percentagem de erro) que é medido em termos de 
Probabilidade. 
 
 
 
De acordo com o que dissemos anteriormente sobre a Estatística Indutiva, precisamos aqui da 
noção de Probabilidade, para medir o grau de incerteza que existe, quando tiramos uma 
conclusão para a população, a partir da observação da amostra. 
 
Exemplo: Tendo-se concluído, que de uma amostra constituída por 1000 eleitores, 63.5%desses 
eleitores pensavam votar no atual Presidente da Câmara, pode-se mostrar que, com uma 
confiança de 95%, a percentagem de eleitores da População de onde foi recolhida a amostra se 
situa no intervalo [60.5%, 66.5%]. 
 
Campos de Aplicação 
 
"Os campos de aplicação da Estatística são muitos e os mais variados." 
 
 
 
 
O gerente de uma fábrica de detergentes pretende lançar um novo 
produto para lavar a louça, pelo que, encarrega uma empresa 
especialista em estudos de mercado de "estimar" a percentagem de 
potenciais compradores desse produto. 
 
População: conjunto de todos os agregados familiares do País 
Amostra: conjunto de alguns agregados familiares, inquiridos pela empresa. 
Problema: pretende-se, a partir da percentagem de respostas afirmativas, de entre os inquiridos 
sobre a compra do novo produto, obter uma estimativa do número de compradores na População. 
 
 
 
Pretende-se estudar o efeito de um novo medicamento para 
curar determinada doença. É selecionado um grupo de 20 
doentes, administrando-se o novo medicamento a 10 desses 
doentes escolhidos ao acaso e o medicamento habitual aos 
restantes. 
 
População: conjunto de todos os doentes com a doença que o 
medicamento a estudar pretende tratar. 
Amostra: conjunto dos 20 doentes selecionados 
Problema: pretende-se, a partir dos resultados obtidos, realizar um "teste de hipóteses" para 
tomar uma decisão sobre qual dos medicamentos é melhor. 
 
 
 
 
Será que é necessário o conceito de Probabilidade para se poder fazer Estatística? 
Estudos de mercado 
Medicina 
5 
 
 
 
 
O administrador de uma fábrica de parafusos pretende assegurar-se de que a 
percentagem de peças defeituosas não excede um determinado valor, a partir do 
qual determinada encomenda poderia ser rejeitada. 
 
População: conjunto de todos os parafusos fabricados ou a fabricar pela fábrica, 
utilizando o mesmo processo. 
Amostra: conjunto de parafusos escolhidos ao acaso de entre o lote de 
produzidos. 
Problema: pretende-se, a partir da percentagem de parafusos defeituosos presentes na amostra, 
"estimar" a percentagem de defeituosos em toda a produção. 
 
MEDIDAS DE TENDÊNCIA CENTRAL 
 
 As medidas de tendência central são usadas para indicar um valor que tende a tipificar, ou 
a representar melhor, um conjunto de números. As três medidas mais usadas são a média, a 
mediana e a moda. 
 
A Média 
 
A média aritmética é a idéia que ocorre à maioria das pessoas quando se fala em “média”. E como 
ela possui certas propriedades matemáticas convenientes, é a mais importante das três medidas 
que estudaremos. Calcula-se a média aritmética determinando-se a soma dos valores do conjunto 
e dividindo-se esta soma pelo número de valores no conjunto. 
A média de uma amostra é representada pelo símbolo 
X
 (leia-se “X barra”), e seu cálculo pode 
expressar-se em notação sigma como segue. 
 
n
x
X
n
1i
i
_ 

 
 
Ou mais simplesmente como 
 
n
x
X
_ 

 
 
 A média tem certas propriedades interessantes e úteis, que explicam por que é ela a 
medida de tendência central mais usada: 
 
 A média de um conjunto de números pode sempre ser calculada. 
 Para um dado conjunto de números, a média é única. 
 A média é sensível a (ou afetada por) todos os valores do conjunto. Assim, se um valor se 
modifica, a média também se modifica. 
 Somando-se uma constante a cada valor do conjunto, a média ficará aumentada do valor 
dessa constante. 
 A soma dos desvios dos números de um conjunto a contar da média é zero: 
 
 






 0XX
_
i
 
A Média Ponderada 
 
Média ponderada é uma média aritmética na qual será atribuído um peso a cada valor da série. 
 




n
i
i
n
i
ii
p
W
WX
X
1
1
_
.
 
Controle de Qualidade 
6 
 
A Mediana (Me) 
 
É o elemento que está exatamente no centro das informações ordenadas. Para se calcular a 
mediana de uma série deveremos seguir os seguintes passos: 
 
a) Ordenar os N elementos do mais baixo ao mais alto. 
b) Se N for ímpar a mediana é o termo de ordem: 
2
1N
P


. 
c) Se N for par é a média aritmética dos termos de ordem: 
2
N
P1 
 e 
1
2
N
P2 
 
 
A característica principal da mediana é dividir um conjunto ordenado de dados em dois grupos 
iguais; a metade terá valores inferiores à mediana, a outra metade terá valores superiores à 
mediana. 
 
 Uma medida estreitamente relacionada com a mediana é o quartil. Os quartis dividem 
conjuntos ordenados em 4 partes iguais: 25% dos valores serão inferiores ao primeiro quartil (Q1), 
50% serão inferiores ao segundo quartil (Q2 = mediana), 75% serão inferiores ao terceiro quartil 
(Q3), e 25% serão superiores ao terceiro quartil. 
 
Comparação entre Média e Mediana 
 
A escolha da média, ou da mediana, como medida de tendência central de um conjunto, depende 
de diversos fatores. A média é sensível a cada valor do conjunto, inclusive os extremos. Por outro 
lado, a mediana é relativamente insensível aos valores extremos. 
 
Moda (Mo) 
 
 A moda é o valor que ocorre com maior freqüência num conjunto. 
 Comparada com a média e com a mediana, a moda é a menos útil das medidas para 
problemas estatísticos, porque não se presta à análise matemática, ao contrário do que ocorre 
com as outras duas medidas. Todavia, de um ponto de vista puramente descritivo, a moda indica 
o valor “típico” em termos da maior ocorrência. 
 
Tabela de comparação entre Média, Mediana e Moda. 
 
 Definição Vantagens Limitações 
Média 
n
x
X
_ 

 
 Reflete cada valor 
 Possui 
propriedades 
matemáticas 
atraentes 
 É influenciada por 
valores extremos 
Mediana Metade dos valores 
são maiores, metade 
menores 
 Menos sensível a 
valores extremos 
do que a média 
 Difícil de 
determinar para 
grande quantidade 
de dados 
Moda Valor mais freqüente  Valor “típico”: 
maior quantidade 
de valores 
concentrados 
neste ponto 
 Não se presta a 
análise 
matemática 
 Pode não ser 
moda para certos 
conjuntos de 
dados. 
 
 
 
7 
 
Exercícios 
 
01. Determine a média e a mediana de cada conjunto. 
 
a) 4, 8, 7, 3, 5, 6 
b) 2, 1, 7, 6 
c) 0,010, 0,020, 0,030, 0,020, 0,015 
d) 309, 81, 452, 530, 70, 55, 198, 266 
 
02. Inspecionam-se quinze rádios antes da remessa. Os números de defeitos por unidade são: 
 
1, 0, 3, 4, 2, 1, 0, 3, 1, 2, 0, 1, 1, 0, 1 
 
Determine a média, a mediana e a moda do número de defeitos. 
 
03. Quatro amigos trabalham num supermercado por tempo parcial com os seguintes salários 
horários: 
 
Bill: $2,20 
Ed: $2,40 
Tom: 2,50 
Don: 2,10 
 
a) Determine o salário horário médio dentre os quatro. 
b) Se Bill trabalha 20 horas, Ed 10 horas, Tom 20 horas e Don 15 horas numa semana, 
determine seus salários totais e seus salários horários médios. 
c) Se cada um trabalha 40 horas numa semana, determine o salário horário médio, e o salário 
total. 
 
04. Consideremos a situação: 
 
O Paulinho, o Toninho e o Pedrinho são três avançados de uma equipa de futebol. Nesta 
época, o Paulinho e o Pedrinho já fizeram cinco jogos e o Toninho quatro. 
 O número de remates à baliza do adversário nos jogos realizados foi o seguinte: 
 
 
 
 
 
 
 
 
 
Qual deles fez a melhor média? 
 
05. Um professor de Estatística I adotou para 1998 os seguintes pesos para as notas bimestrais: 
 
10 bimestre peso 1 
20 bimestre peso 2 
30 bimestre peso 3 
40 bimestre peso 4 
 
Qual será a média de um aluno que obteve as seguintes notas de Estatística: 5, 4, 3 e 2 nos 
respectivos bimestres ? 
 
06. Foi organizado um churrasco para comemorar a conclusão do Curso de Administração. Foram 
compradas as seguintes carnes aosrespectivos preços: 
 Remates à baliza do adversário por jogo 
Paulinho 7 8 3 10 7 
Pedrinho 5 5 0 4 4 
Toninho 9 8 10 5 
8 
 
 
10 Kg de filé mignon R$ 12,00 o Kg 
20 Kg de lingüiça R$ 7,00 o Kg 
10 Kg de picanha R$ 16,00 o Kg 
 
Qual o valor médio do Kg de carne adquirida ? 
 
07. Determine a mediana das massas de seis estudantes, sendo: 84, 91, 72, 68, 87, 78. 
 
08. Determinar a média, a mediana e a moda do conjunto de números: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6 
 
MEDIDAS DE DISPERSÃO 
 
 São necessários dois tipos de medidas para descrever adequadamente um conjunto de 
dados. Além da informação quanto ao “meio” de um conjunto de números, é conveniente 
dispormos também de um método que nos permita exprimir a dispersão. As medidas de dispersão 
indicam se os valores estão relativamente próximos uns dos outros, ou separados. 
 Consideraremos quatro medidas de dispersão: o intervalo, o desvio médio, a variância e o 
desvio padrão. Todas elas, exceto o intervalo, têm na média o ponto de referência. Em cada caso, 
o valor zero indica ausência de dispersão; a dispersão aumenta à proporção que aumenta o valor 
da medida. 
 
O Intervalo 
 
 O intervalo de um grupo de números é, de modo geral, a medida mais simples de calcular 
e de entender. Focaliza o maior e o menor valor do conjunto. O intervalo pode ser expresso de 
duas maneiras: 
 A diferença entre o maior e o menor valor. 
 O maior e o menor valor do grupo. (Mais utilizado) 
 
 A vantagem de utilizar o intervalo como medida de dispersão reside no fato de o intervalo 
ser relativamente fácil de calcular, mesmo para um grande conjunto de números. Outrossim, a 
significação do intervalo é fácil de entender. 
 A maior limitação do intervalo é o fato de ele só levar em conta os dois valores extremos 
de um conjunto, nada informando quanto aos outros valores. 
 
Medidas de dispersão que têm a Média como ponto de referência 
 
 Em razão de suas propriedades matemáticas, quase sempre se calcula a média de um 
conjunto de dados. Por isso, existem várias medidas de dispersão que têm a média como ponto 
de referência. Todas elas requerem o cálculo do desvio, ou diferença, entre cada valor e a média. 
 









__
xx i
 
Desvio Médio Absoluto 
 
 O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à média do 
grupo, ignorando o sinal do desvio. 
 
n
xx
DMA
i 

__
 
 
 onde n é o número de observações no conjunto. 
 
9 
 
 
A Variância 
 
 Calcula-se a variância de uma amostra quase da mesma forma que o desvio médio, com 
duas pequenas exceções: (1) os desvios são elevados ao quadrado antes da soma, e (2) toma-se 
a média dividindo-se por (n – 1) em lugar de n, porque isso dá uma melhor estimativa da variância 
populacional. 
 
1
2
__
2












n
xx
S
i
x
 
 
 Se um conjunto de números constitui uma população, ou se a finalidade de somar os 
dados é apenas descrevê-los, e não fazer inferências sobre uma população, então deve-se 
usar n em lugar de (n – 1) no denominador. 
 
 A variância de uma amostra é a média dos quadrados dos desvios dos valores a contar da 
média, calculada usando-se (n – 1) em lugar de n. 
 
 Uma fórmula alternativa, bastante usada para o cálculo da variância, é 
 
 
1
/
22
2




n
nxx
S
ii
x
 
 
Esta fórmula é às vezes mais fácil de utilizar, porque não exige o cálculo da média, e também 
porque não há necessidade de determinar cada um dos desvios. Para uma média igual a 
3,33333333333 o processo de cálculo anterior acarreta erros devidos ao arredondamento. 
 
O Desvio Padrão 
 
 O desvio padrão é simplesmente a raiz quadrada positiva da variância. Assim, se a 
variância é 81, o desvio padrão é 9. para determinar o desvio padrão, calcula-se a variância e 
toma-se a raiz quadrada positiva do resultado. 
 
1
2
__












n
xx
S
i
x
=  
1
/
22


n
nxx ii 
 
[Como anteriormente, a substituição de (n – 1) por n produz as fórmulas do desvio padrão da 
população.] 
 
 O desvio padrão é uma das medidas mais comumente usadas para distribuições, e 
desempenha papel relevante em toda a estatística. Cabe notar que a unidade do desvio padrão é 
a mesma da média. Por exemplo, se a média é em reais, o desvio padrão também se exprime em 
reais. A variância, por outro lado, se exprime em quadrados de unidades. 
 
Exercícios 
 
01. Calcule a média e o desvio padrão das vendas diárias: 
 
$8.100, $9.000, $4.580, $5.600, $7.680, $4.800, $10.640 
 
02. Calcule a média e a variância para o seguinte conjunto de dados, supondo que eles 
representem: 
10 
 
 
a) uma amostra 
b) a população 
 
83, 92, 100, 57, 85, 88, 84, 82, 94, 93, 91, 95 
 
03. Determine a variância amostral e o desvio padrão dos seguintes dados abaixo, usando a 
fórmula abreviada. 
 
1, 3, 4, 3, 4, 2, 4, 1, 2, 2, 1, 0 
 
04. Consideremos os seguintes dados correspondentes a preços de propostas: 
 
26,5; 27,5; 25,5; 26,0; 27,0; 23,4; 25,1; 26,2; 26,8 
 
a) Calcule a média aritmética. 
b) Calcule a mediana. 
c) Determine o DMA. 
d) Determine o desvio padrão. 
e) Determine a variância. 
 
DISTRIBUIÇÃO DE FREQUÊNCIA 
 
 As distribuições de frequências constituem-se num caso particular das séries estatísticas, 
nas quais todos os elementos são fixos. Agora os dados referentes ao fenômeno são 
apresentados através de gradações, onde é feita a correspondência entre categorias ou valores 
possíveis e as frequências respectivas. 
 A definição de alguns conceitos será importante para o uso da linguagem apropriada ao 
elaborarmos e analisarmos as distribuições de frequências. No total, são 9 conceitos a serem 
apresentados. A seguir definiremos 5 primeiros, válidos para qualquer distribuição de frequências, 
e mais adiante apresentaremos os 4 últimos, específicos para dados agrupados em classes.: 
 
1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados. 
 
Ex: Idade dos alunos de um determinado curso. 
 
24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 - 30 - 32 - 25 - 26 - 33 - 34 - 21 - 
31 - 25 - 31 - 26 - 25 - 35 - 33 - 31 
 
Como pode ser observado, os valores estão dispostos de forma desordenada. Em razão disso, 
pouca informação se consegue obter inspecionando-se os dados anotados. Mesmo uma 
informação tão simples como a de saber os valores mínimos e máximo requer um certo exame 
dos dados coletados. 
 
2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente. 
 
Ex: Utilizando os mesmos dados anteriores: 
 
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 
33 - 33 - 34 - 34 - 34 - 35 - 35 – 36 
 
Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível visualizar, de 
forma bem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de 
imediato. Mas, a análise com este tipo de disposição começa a se complicar quando o número de 
observações tende a crescer. 
 
11 
 
3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da 
variável em estudo. 
 
Ex: Utilizando os mesmos dados anteriores: 
A = 36 - 21 = 15. 
 
4. Freqüência absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra ou 
o número de elementos pertencentes a uma classe. 
 
5. Freqüência total (ft) - É a soma das freqüências simples absolutas de todos os elementos 
observados. 
 
 Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de 
freqüência. Uma tabela com distribuição de freqüência é uma tabela onde se procura fazer um 
arranjodos valores e suas respectivas freqüências, onde a freqüência de determinado valor será 
dado pelo número de observações ou repetições de um valor ou de uma modalidade. As tabelas 
de freqüências podem representar tanto valores individuais como valores agrupados em classes. 
 
Essas tabelas podem ser classificadas em: 
 
 • Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes - é uma 
tabela onde os valores da variável aparecem individualmente. Esse tipo de distribuição é utilizado 
geralmente para representar uma variável discreta, com pouca variedade de valores. 
Exemplo : Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuição de 
freqüências de dados não agrupados. 
 
Tabela 1: Idade dos alunos de um determinado curso. 
 
Idade (Xi) fi 
21 3 
22 2 
23 2 
24 1 
25 4 
26 3 
28 1 
30 1 
31 3 
32 1 
33 3 
34 3 
35 2 
36 1 
Total (fi) 30 
 
Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que 
apresentam uma grande quantidade de valores distintos, uma vez que a tabela poderá ficar muito 
extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados. 
Note que a soma das freqüências absolutas simples é sempre igual ao número total de valores 
observados. 
 
 • Distribuição de Freqüências de Dados Agrupados em Classes. 
 
 Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de 
freqüências, utilizaremos os dados agrupados em classes e não mais individualmente. Classe 
12 
 
pode ser definida como sendo os subintervalos da Amplitude Total de uma variável (grupo de 
valores). 
 Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os 
valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores 
representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em 
classes. Nesse último caso, o procedimento visa a evitar certos inconvenientes, como: 
 
1. grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a 
interpretação dos resultados apurados. 
2. o aparecimento de diversos valores da variável com freqüência nula. 
3. impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo, 
bem como de sua variação. 
 
Este tipo de tabela informa, de imediato, a tendência de a série se concentrar em torno de um 
valor central, além de proporcionar uma visão panorâmica do comportamento da variável, o que 
seria impossível de se fazer a partir da lista dos dados brutos. 
 
Ex: Utilizando os mesmos dados anteriores, temos: 
 
Tabela 2: Idade dos alunos de um determinado curso. 
 
Idade Freqüência (fi) 
21 24 7 
24 27 8 
27 30 1 
30 33 5 
33 36 9 
Total 30 
 
O símbolo indica a inclusão do limite inferior do intervalo naquela classe. 
 
Para construção de tabelas de freqüência para dados agrupados em classe os 4 conceitos 
listados a seguir, 
complementam os 5 primeiros já apresentados: 
 
1. Definição do número de classes - É representado por k. É importante que a distribuição conte 
com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão 
comprimidos que pouca informação poderá ser extraída desta tabela. Se, por outro lado, forem 
utilizadas muitas classes, haverá algumas com freqüência nula ou muito pequena, apresentando 
uma distribuição irregular e prejudicial à interpretação do fenômeno. 
Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções: 
 
(a) k = 5, para n ≤ 25 e k = 
n
, para n > 25. 
(b) Fórmula de Sturges: K = 1+3,3 log10 n, onde n é o tamanho da amostra 
Exemplo: Se n = 49 teríamos: 
• pelo primeiro método: k = 7 
• pelo segundo método: k = 1+3, 3 log10 49 ==> k = 6, 58 ==> k ≈ 7 
 
2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de 
distribuição de freqüência, o valor 21 é denominado limite inferior da primeira classe, enquanto o 
valor 24 é denominado limite superior da primeira classe. 
 
3. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao 
comprimento desta classe. Numericamente, sua amplitude pode ser definida como a diferença 
existente entre os limites superior (ou inferior) de duas classes consecutivas. 
Ex: Utilizando os mesmos dados anteriores: 
13 
 
h = 24 − 21 = 3 
 
Determinando a amplitude de classe: Dividir o intervalo por k, número de classes, para obter uma 
amplitude de classe. 
 
4. Pontos Médios ou Centrais da Classe (xj) - É a média aritmética simples entre o limite superior 
e o inferior de uma mesma classe. 
 
Ex: Utilizando os mesmos dados anteriores: 
 
22,5
2
2124
x i 


 
Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da classe 
precedente a amplitude do intervalo de classe. 
 
Tipos de Freqüência 
 
1. Freqüência Simples: 
 
(a) Freqüência Simples Absoluta (fi) - é o número de repetições de um valor individual ou de uma 
classe de valores da variável. Trata-se do caso visto até o presente momento. 
(b) Freqüência Simples Relativa (fri) - representa a proporção de observações de um valor 
individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de 
um número relativo. 
 
t
i
i
i
ri
f
f
f
f
f 

 
 
Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100: 
 
.100
n
f
f iri 
 
 
2. Freqüências Acumuladas: 
(b) Freqüências Acumuladas “Abaixo de ”: 
 
Absoluta (Fiab) - é a soma da freqüência simples absoluta de uma classe ou de um dado valor com 
as freqüências simples absolutas das classes ou dos valores anteriores. A expressão ”abaixo de” 
refere-se ao fato de que as freqüências a serem acumuladas correspondem aos valores menores 
ou anteriores ao valor ou à classe cuja freqüência acumulada se deseja obter, incluindo no cálculo 
a freqüência do valor ou da classe. É utilizada toda vez que se procura saber quantas 
observações existem até uma determinada classe ou valor individual. 
 
Relativa (Friab) - é a soma da freqüência simples relativa dessa classe ou desse valor com as 
freqüências simples relativas das classes ou dos valores anteriores. 
 
 
Tabela 2: Idade dos alunos de um determinado curso. 
 
Idade Nº de alunos (fi) fri fri (%) Fiab Fiab(%) 
21 24 7 0,23 23 7 23 
24 27 8 0,27 27 15 50 
27 30 1 0,03 3 16 53 
30 33 5 0,17 17 21 70 
33 36 9 0,30 30 30 100 
Total 30 1,00 100 ... ... 
14 
 
MEDIDAS PARA DADOS GRUPADOS 
 
 As principais medidas para dados grupados são idênticos às medidas para pequenos 
conjuntos de dados, a saber, a média, a mediana e a moda como medidas de tendência central, e 
o intervalo, a variância e o desvio padrão como medidas de dispersão. (Deixamos de lado o DMA 
por não ser muito usado.) 
 
Determinação da Média de uma Distribuição de Freqüência 
 
 Pode-se usar uma variante da fórmula de cálculo da média ponderada para determinar a 
média de uma distribuição de freqüência. Os pesos são substituídos pelas freqüência das classes, 
e a fórmula fica 
 
n
xf
x
ii__ 

 
 
Onde fi é a freqüência da i-ésima classe e n é o número de observações. 
 Se não há perda de informação na distribuição de freqüência, a fórmula dará o mesmo 
resultado do cálculo com os dados originais; se o grupamento causa perda de informação, os x i’s 
são substituídos pelos pontos médios das respectivas classes, e a média resultante é uma 
aproximação. 
 
Determinação da Mediana de uma Distribuição de Freqüência 
 
 Aqui também o processo e os resultados diferem, dependendo de dispormos ou não dos 
dados originais. Se dispusermos dos dados originais, o processo seráo seguinte: 
 
 Identificar o intervalo que contém a mediana. 
 Determinar a posição (posto) da mediana nesse intervalo. 
 Ordenar os valores daquela classe. 
 Identificar a mediana. 
 
 Sem os dados originais ficamos restritos à suposição de que os valores na classe que 
contém a mediana são eqüiespaçados. 
 
Determinação da Moda de uma Distribuição de Freqüência 
 
 A moda de uma distribuição de freqüência indica qual porção da distribuição tem a maior 
freqüência de ocorrências. Em geral é bastante simples identificar a moda, uma vez que os dados 
seja dispostos numa distribuição de freqüência. Quando há perda de informação, a moda se 
refere a uma “classe modal”, e não a um valor único. 
 Às vezes há dois ou mais picos distintos de freqüência nos dados; cabe então falar em 
termos de distribuição bimodal ou de modas múltiplas. 
 A moda não se presta a manipulações matemáticas. Além disso, se as freqüências 
razoavelmente uniformes, a moda perde muito de sua importância como medida descritiva. 
 
Determinação do Intervalo de uma Distribuição de Freqüência 
 
 Se temos acesso aos dados originais o intervalo é simplesmente a diferença entre o maior 
e o menor valor, ou os próprios valores. Sem os dados originais, o intervalo deve ser encarado 
como a diferença entre o limite inferior da primeira classe e o limite superior da última classe, ou 
os pontos extremos da distribuição. 
 
Determinação da Variância e do Desvio Padrão de uma Distribuição de Freqüência 
 
 A variância de dados grupados se determina pela fórmula 
15 
 
1
2
__
2












n
xxf
S
ii
x
 ou  
1
/
22
2




n
nxfxf
S
iiii
x
 
 
Como anteriormente usa-se (n – 1) se a variância é considerada como uma estimativa da 
variância da população, e n se os dados constituem por si uma população. O desvio padrão é a 
raiz quadrada positiva da variância. Para uma distribuição sem perda de informação, os valores 
serão exatos; se houver perda de informação, os xi’s serão os pontos médios, e os resultados 
serão apenas aproximados. 
 
Atividades 
 
Nos exercícios abaixo, determine: 
 
a) a média; 
b) a mediana; 
c) a moda; 
d) o intervalo; 
e) a variância; 
f) o desvio padrão. 
 
01. Anotou-se a idade de cada um dos 50 visitantes de uma exposição científica. 
 
Idade fi 
 0 10 6 
10 20 18 
20 30 11 
30 40 3 
40 50 0 
50 60 8 
60 70 4 
 50 
 
02. Tempo de espera em uma fila do INSS. 
 
Minutos fi 
 0 5 220 
 5 10 82 
10 15 27 
15 20 15 
20 25 5 
25 30 1 
 350 
 
 
CÁLCULO DAS PROBABILIDADES 
 
Introdução 
 
 Todas as vezes que se estudam fenômenos de observação, cumpre-se distinguir o próprio 
fenômeno e o modelo matemático (determinístico ou probabilístico) que melhor o explique. 
 Os fenômenos estudados pela Estatística são fenômenos cujo resultado, mesmo em 
condições normais de experimentação variam de uma observação para outra, dificultando dessa 
maneira a previsão de um resultado futuro. 
16 
 
 Para a explicação desses fenômenos – fenômenos aleatórios – adota-se um modelo 
matemático probabilístico. Neste caso, o modelo utilizado será o CÁLCULO DAS 
PROBABILIDADES. 
 
Caracterização de um experimento aleatório 
 
 A fim de se entender melhor a caracterização desses experimentos, convém obserar o que 
há de comum nos seguintes experimentos: 
 
E1: Retirar uma carta de um baralho com 52 cartas e observar seu “naipe”. 
E2: Jogar uma moeda 10 vezes e observar o número de coroas obtidas. 
E3: Retirar com ou sem reposição, bolas de uma urna que contém 5 bolas brancas e 6 pretas. 
 
A análise desses experimentos revela: 
 
a) Cada experimento poderá ser repetido indefinidamente sob as mesmas condições; 
b) Não se conhece um particular valor do experimento “a priori”, porém pode-se descrever todos 
os possíveis resultados – as possibilidades. 
 
Espaço amostral 
 
Definição: Para cada experimento aleatório E, define-se Espaço Amostral S o conjunto de todos 
os possíveis resultados desse experimento. 
 
Exemplo: 
 
Considere-se o experimento 
E = jogar um dado e observar o número da face de cima. Então, S = {1, 2, 3, 4, 5, 6} 
Observe que sendo S um conjunto, poderá ser finito ou infinito. 
 
Evento 
 
Definição: evento é um conjunto de resultados do experimento, em termos de conjuntos, é um 
subconjunto de S. Em particular, S e  (conjunto vazio) são eventos, S é dito o evento certo e  o 
evento impossível. 
 
 Usando as operações com conjuntos, podem-se formar novos eventos. 
Assim: 
 
I) A  B  é o evento que ocorre se A ocorre ou B ocorre ou ambos ocorrem; 
II) A  B  é o evento que ocorre se A e B ocorrem; 
III) _
A
  é o evento que ocorre se A não ocorre. 
 
Exemplo 
 
Seja o experimento E: jogar três moedas e observar os resultados 
S = {(c,c,c), (c,c,k), (k,c,c), (c,k,c), (k,k,k), (k,k,c), (k,c,k), (c,k,k)} 
Seja A o evento: ocorrer pelo menos 2 caras. 
Então, A = {(c,c,c), (c,c,k), (c,k,c), (k,c,c) 
Eventos mutuamente exclusivos 
 
 Dois eventos A e B são denominados mutuamente exclusivos, se eles não puderem 
ocorrer simultaneamente, isto é, A  B =  
 
 
 
17 
 
Exemplo: 
 
E: jogar um dado e observar o resultado. 
S = {1, 2, 3, 4, 5, 6} 
Sejam os eventos: A = ocorrer número par, e B = ocorrer número ímpar. 
Então, A = {2, 4, 6} e B = {1, 3, 5}, A  B =  
 
 A e B são mutuamente exclusivos, pois a ocorrência de um número par e ímpar não pode 
ser verificada como decorrência da mesma experiência. 
Definição de Probabilidade 
 
 Dado um experimento aleatório E e S o espaço amostral, probabilidade de um evento A – 
P(A) – é uma função definida em S que associa a cada evento um número real, satisfazendo os 
seguintes axiomas: 
 
I) 0  P(A)  1 
II) P(S) = 1 
III) Se A e B forem eventos mutuamente exclusivos, (A  B = ), então P(A  B) = P(A) + P(B) 
 
S
A
casos) de total (Número N.T.C.
)favoráveis casos de (Número N.C.F
P(A) 
 
 
Exercícios 
 
01. Determine a probabilidade de cada evento: 
 
a) um número par aparecer no lançamento de um dado não viciado; 
b) um rei aparecer ao extrair-se uma carta de um baralho; 
c) pelo menos uma cara aparece no lançamento de 3 moedas; 
d) pelo menos uma cara aparece no lançamento de n moedas; 
 
02. Um número inteiro é escolhido aleatoriamente dentre os números 1, 2, 3, ... 50. Qual a 
probabilidade de: 
 
a) o número ser divisível por 5; 
b) terminar em 3; 
c) ser primo; 
d) ser divisível por 6 ou 8. 
 
03. Dois dados são lançados simultaneamente. Qual a probabilidade de: 
 
a) a soma ser menor que 4; 
b) a soma ser 9; 
c) o primeiro resultado ser maior que o segundo. 
 
04. Um lote é formado por 10 peças boas, 4 com defeitos e duas com defeitos graves. Uma peça 
é escolhido ao acaso. Calcule a probabilidade de que: 
 
a) ela não tenha defeitos graves; 
b) ela não tenha defeitos; 
c) ela ou seja boa ou tenha defeitos graves. 
 
05. Das 10 alunas de uma classe, 3 tem olhos azuis. Se duas delas são escolhidas ao acaso, qual 
é a probabilidade de ambas terem os olhos azuis? 
 
18 
 
06. Considere o mesmo enunciado da questão anterior e calcule a probabilidade de na escolha de 
duas alunas, nenhuma ter olhos azuis. 
 
07. Uma urna contem x bolas brancas e 3x bolas pretas e 3 bolas vermelhas. Uma bola é extraída 
ao acaso. Determine o menor valor possível de x a fim de que a probabilidade de a bola ser 
sorteada ser preta seja maior que 70%. 
 
08. As probabilidades de três jogadores marcarem um gol cobrando pênalti são, respectivamente, 
1/2, 2/5, e 5/6. Se cada um bater um único pênalti, a probabilidade de todos errarem é igual a 
quantos por cento? 
 
09. Uma doença congênita afeta 1 em cada 700 homens. Numa população de um milhão de 
homens, a probabilidadede que um homem, tomado ao acaso, não seja afetado é? 
 
10. Retirando-se uma carta de um baralho comum e sabendo-se que saiu uma dama, qual a 
probabilidade de que a carta seja de ouros? 
 
11. Com os algarismos de 1 a 9, forma-se um número de 4 algarismos distintos. A probabilidade 
de qe o número formado seja menor que 6000 é? 
 
12. Escolhido, ao acaso, um elemento do conjunto dos divisores de 60, a probabilidade de que ele 
seja primo é? 
 
DISTRIBUIÇÃO DESCONTÍNUAS DE PROBABILIDADE 
 
Introdução 
 
 Por que é que ao jogarmos uma moeda, às vezes obtemos cara, outras vezes 
coroa? Por que é que um dado, quando lançado, apresenta uma determinada face, e 
não outra? Dizemos que tais ocorrências e outras análogas são determinadas pela 
chance; mas que é chance afinal? 
 A chance pode ser encarada como a interação de grande número de fatores – 
talvez de um número extremamente grande de fatores – que influem coletivamente 
no resultado de um experimento ou amostra. Não é fora de propósito admitir, no caso 
do dado, que a força com que ele é jogado, as correntes de ar, o ângulo pelo qual 
atinge a mesa, quantas vezes foi jogado, etc., tudo isso desempenha sua parte. Como 
é virtualmente impossível controlar todos esses fatores, ou predizer como eles inter-
atuarão numa jogada, de modo a afetar o resultado, não nos é possível especificar 
com precisão qual resultado ocorrerá em determinada jogada. Além disso, a mesma 
impossibilidade de saber de antemão qual resultado, dentre um conjunto de 
resultados possíveis, ocorrerá numa prova é característica inerente a qualquer 
processo em que a chance seja um fator – tal como no caso da extração de cartas de 
um baralho, a extração de nomes de uma urna, ou mesmo a amostragem. 
 Por outro lado, se admitimos que os mesmos fatores atuam da mesma maneira, 
ou de maneira análoga, em observações repetidas grande número de vezes, 
constatamos que existe uma possibilidade de predição “a longo prazo”. Em outras 
palavras, certos resultados podem ser mais prováveis que outros, e isso se tornaria 
visível num grande número de observações. 
 
Variáveis Aleatórias 
 
 Quando uma variável tem resultados ou valores que tendem a variar de uma 
observação para outra em razão de fatores relacionados com a chance, chama-se 
variável aleatória. Do ponto de vista prático, é desejável que se defina uma variável 
aleatória associada a uma amostra ou experimento, de tal modo que seus resultados 
19 
 
possíveis sejam numéricos. Por exemplo o número de fregueses que entram numa 
grande loja no espaço de 20 minutos: 0, 1, 2, 3, 4,... 
 
Valor Esperado de uma Variável Aleatória 
 
 Se uma v. a. x toma os valores X1, X2, X3, ..., Xn, com as possibilidades 
correspondentes P1, P2, P3, ..., Pn, então o seu valor esperado, E(X), é 
P1X1 + P2X2 + P3X3 + ... PnXn Ou seja: 



n
1i
iiXPE(X)
 
Exemplo: 
 
01.Suponha-se que uma loja tenha compilado os seguintes dados sobre vendas de 
refrigeradores: 
 
xi 
Número vendido 
P(X) 
Freqüência relativa 
0 0,20 
1 0,30 
2 0,30 
3 0,15 
4 0,05 
 1,00 
 
E(X) = 0,20.0 + 0,30.1 + 0,30.2 + 0,15.3 + 0,05.4 = 1,55 
 
Como a firma obviamente não pode vender 1,55 refrigeradores em nenhum dia 
(porque o número vendido é uma variável que consiste dos inteiros 0, 1, 2, 3, 4), a 
pergunta é óbvia é: Como interpretar aquele valor? Muito simplesmente: O valor é 
uma média a longo prazo. 
 
Exercícios 
 
01.Um investidor julga que tem 40% de probabilidade de ganhar $25.000 e 60% de 
probabilidade de perder $15.000 num investimento. Qual será seu ganho 
esperado? 
02.Um empreiteiro faz as seguintes estimativas: 
 
Prazo de execução Probabilidade 
10 30% 
15 20% 
22 50% 
 
O prazo esperado para execução da obra, de acordo com suas estimativas, é? 
 
03.O número de chamadas telefônicas recebidas por uma mesa e suas respectivas 
probabilidades para um intervalo de 3 minutos são: 
 
 Total 
Número de chamadas 0 1 2 3 4 5 
Freqüência relativa 0,60 0,20 0,10 0,04 0,03 0,03 1,00 
 
Em média, quantas chamadas podem ser esperadas num intervalo de 3 minutos? 
 
20 
 
 
04.Uma confeitaria estabeleceu um registro de vendas para certo tipo de bolo. 
Determine o número esperado de bolos encomendados. 
 Total 
Número de bolos/dia 0 1 2 3 4 5 6 7 8 9 
Freqüência relativa 0,02 0,07 0,09 0,12 0,20 0,20 0,18 0,10 0,01 0,01 1,00 
 
05. Um bilhete de loteria tem 0,00001 de chance de dar um prêmio de $100.000, 
0,0002 de chance de dar um prêmio de $50.000 e 0,004 de chance de um prêmio 
de $25. Qual seria o preço justo de venda do bilhete? 
 
REGRESSÃO E CORRELAÇÃO 
 
Introdução 
 
 A regressão e a correlação são duas técnicas estreitamente relacionadas que envolvem 
uma forma de estimação. A diferença entre essas técnicas e o tipo de estimação discutido 
anteriormente é que aquela técnica anterior foi utilizada para estimar um único parâmetro 
populacional, enquanto que as técnicas apresentadas no momento se referem à estimação de 
uma relação que possa existir na população. 
 
A correlação mede a força, ou grau, de relacionamento entre duas variáveis; a regressão dá uma 
equação que descreve o relacionamento em termos matemáticos. 
 
Regressão linear 
 
 A regressão linear simples constitui uma tentativa de estabelecer uma equação 
matemática linear que descreva o relacionamento entre duas variáveis. 
 
A Equação Linear 
 
 Duas importantes características da equação linear são o coeficiente angular da reta e a 
cota da reta em determinado ponto. Uma equação linear tem a forma 
 
y = ax + b 
 
onde a e b são valores que se determinam com base nos dados amostrais; b é a cota da reta em 
x = 0, e a é o coeficiente angular. 
 
 
 
 A figura ilustra a relação entre o gráfico de uma reta e sua equação. A reta, com equação y 
= ax + b, intercepta o eixo dos y’s no ponto y = b. O coeficiente angular da reta, a, indica a 
variação de y por unidade de variação de x, ou x/y. 
 
Decisão por um Tipo de Relação 
 
 É importante ter em mente que nem todas as situações são bem aproximadas por uma 
equação linear. Por isso, em geral é necessário desenvolver um trabalho preliminar para 
21 
 
determinar se um modelo linear é adequado. O processo mais simples consiste em grafar os 
dados a ver se uma relação linear parece razoável. 
 
 
Nem toda relação entre duas variáveis é linear. Os pontos em (b) e (c) dispõem-se segundo um 
padrão linear, o que não ocorre com (a) e (d). 
 
Determinação da Equação Matemática 
 
A determinação dos valores de a e b é dada pelas fórmulas: 
 
    
    nxxn
yxxyn
a
 






xa-y
b 
22
 
 
Onde n é o número de observações. 
 
Exercícios 
 
01. Para cada conjunto de dados faça o gráfico e, se uma reta parecer apropriada, determine os 
coeficientes a e b com base nos dados e escreva a equação matemática. 
 
a) Tamanho do pedido, 
x 
25 20 40 45 22 63 70 60 55 50 30 
 
 Custo total y $2000 $3500 $1000 $800 $3000 $1300 $1500 $1100 $950 $900 $1600 
 
b) Vendas 
($1000), x 
201 225 305 380 560 600 685 735 510 725 450 370 150 
 Lucro 
($1000),y 
17 20 21 23 25 24 27 27 22 30 21 19 15 
 
02. Uma companhia com 15 magazines suburbanos compilou dados sobre a área de vendas (em 
metros quadrados) versus lucro mensal. Grafe os dados e, se uma relação linear parecer 
justificada, determine a equação de regressão. 
 
Armazém Lucro mensal (em $1000) Metros quadrados (em 1000) 
A 45 55 
B 115 200 
C 120 180 
D 95 110 
E 75 90 
F 170 260 
G 110 140 
H 140 215 
I 130 200 
J 75 85 
K 80 90 
L 105 180 
M 200 300 
N 95 130 
O 60 8022 
 
 
 
ANÁLISE DE CORRELAÇÃO 
 
Introdução 
 
 O objetivo do estudo correlacional é a determinação da força do relacionamento entre duas 
observações emparelhadas. O termo correlação significa literalmente “co-relacionamento”, pois 
indica até que ponto os valores de uma variável estão relacionados com os de outra. Há muitos 
casos em que pode existir um relacionamento entre duas variáveis. Consideremos, por exemplo, 
questões como estas: 
 
1. A idade e a resistência física estão correlacionadas? 
2. Pessoas de maior renda tendem a apresentar melhor escolaridade? 
3. O sucesso num emprego pode ser predito com base no resultado de testes? 
 
Problemas como esses se prestam à análise de correlação. O resultado de tal análise é um 
coeficiente de correlação – um valor que quantifica o grau de correlação. 
 
O COEFICIENTE r DE PEARSON 
 
 Características de r 
 
O coeficiente de correlação tem duas propriedades que caracterizam a natureza de uma relação 
entre duas variáveis. Uma é o seu sinal (+ ou -) e a outra é sua magnitude. O sinal é o mesmo que 
o do coeficiente angular de uma reta imaginária que se ajustasse aos dados se fosse traçado num 
diagrama de dispersão, e a magnitude de r indica quão próximos da reta estão os pontos 
individuais. Por exemplo, valores de r próximos de -1,00 ou +1,00 indicam que os valores estão 
muito próximos da reta, ou mesmo sobre a reta, enquanto que os valores mais próximos de 0 
sugerem maior dispersão. 
 
 Mais precisamente, podemos dizer: 
 
1. O valor de r varia de -1,00 a +1,00: -1,00  r  1,00. 
2. Um relacionamento positivo (r é +) entre duas variáveis indica que a valores altos (baixos) de 
uma das variáveis, correspondente valores altos (baixos) da outra. 
3. Um relacionamento negativo (r é -) significa que a valores altos (baixos) de uma variável 
correspondem valores baixos (altos) da outra. 
4. Um relacionamento zero (r = 0) indica que alguns valores altos estão em correspondência com 
valores baixos e outros estão em correspondência com valores altos. 
5. O sinal de r é sempre o mesmo sinal de a, o coeficiente angular de uma reta imaginária 
ajustada aos dados. Note-se que não é necessário calcular essa reta. 
 
 
 
Fórmula para o cálculo do coeficiente r 
 
23 
 
    
       2222 yyn.xxn
y.xx.yn.
r





 
 
Atividades 
 
01. Grafe os dados abaixo e, se uma relação linear parecer justificada, determine a equação de 
regressão e calcule o coeficiente de correlação. 
 
a) x y b) x Y 
 34 21 3,9 46 
 30 22 4,6 46 
 40 25 6,0 52 
 34 28 2,8 50 
 39 15 3,1 48 
 35 24 3,4 40 
 42 24 4,2 42 
 45 22 4,0 44 
 43 17 
 
02. Com os dados abaixo, sobre crimes violentos e a temperatura média entre 21 e 2 horas das 
noites de sábado numa grande comunidade, grafe os dados e calcule o coeficiente de 
correlação. 
 
Crimes violentos/1000 residentes Temperatura média (ºF) 
5,0 87 
2,2 50 
4,1 75 
5,4 90 
2,8 55 
3,0 54 
3,6 68 
4,9 85 
4,1 82 
4,2 80 
2,0 45 
2,7 58 
3,1 66 
 
03. Determine o coeficiente de correlação entre as horas de estudo de 11 estudantes e as 
respectivas notas num teste. 
 
Horas de estudo 2,5 3 6 4 6 4,5 7 10 5,5 5 8,5 
Notas 89 95 80 82 85 90 75 70 91 93 74 
 
NÚMEROS-ÍNDICES 
 
Introdução 
 
 Os números-índices são um importante instrumento para sintetizar modificações em 
variáveis econômicas durante um período de tempo. Esses números indicam a variação relativa 
no preço, na quantidade, ou no valor entre um ponto anterior no tempo (período-base) e, 
usualmente, o período corrente. Por exemplo, quando uma família nota que o preço do pão é o 
dobro do que era há 10 anos, está fazendo uso de certo tipo de número-índice. 
 Quando só um produto está em jogo, o índice é chamado índice simples, enquanto que 
uma comparação que envolva um grupo de artigos é chamada índice composto. Por exemplo, 
24 
 
além do pão, uma família pode incluir em sua observação itens como leite, manteiga, carne, 
verduras e enlatados. Alguns desses itens podem ter tido aumentos substanciais de preço, outros 
podem ter tido aumentos pequenos, e outros ainda uma redução de preço. A finalidade do índice 
composto é sintetizar a variação global de preços para este tipo de produtos. Mas as compras 
daquela família podem também ter se modificado através dos anos. Talvez tenha aumentado o 
consumo de leite e de carne. Isto ocorrerá se a família tiver aumentado. Logo, é preciso incluir não 
só variações de preço como também variações de quantidade a fim de obter um quadro mais 
preciso da variação global. 
 A administração e a indústria também se defrontam com situações que requerem o estudo 
de tais variações. Eles também experimentam variações de preços de matérias-primas, de 
produtos semi-acabados, de peças de substituição, de mão-de-obra, combustível e vendas. Os 
números-índices proporcionam um meio de avaliar essas variações. 
 A rigor, os números-índices não se referem apenas a comparações entre diferentes 
períodos de tempo; podem também ser usados para comparações dentro do mesmo esquema de 
tempo. 
 Há três classificações de números-índices administrativos e econômicos: índices de preço, 
quantidade e valor. 
 Todos os números-índices tem certas características em comum. Uma é que eles são 
razões de quantidades no período corrente para quantidades no período-base. As razões são 
expressas como porcentagens, arredondadas para o 1% ou 0,1% mais próximo, porém sem o 
sinal de porcentagem. A quantidade referente ao período-base é considerada como 100%. 
 
Números-índices simples 
 
 Um número-índice simples avalia a variação relativa de um único item ou variável 
econômica entre dois períodos de tempo. Calcula-se como a razão do preço, quantidade ou valor 
em dado período para o correspondente preço, quantidade ou valor num período-base. 
 Consideremos, por exemplo, o preço e o volume médio para um vendedor local de 
automóveis usados, para determinado modelo. 
 
 
Dados de preço e volume para vendedores de carros 
 
Ano Preço médio de venda Número vendido Receita (em 1000) 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
3000 
3300 
3900 
4500 
4500 
4800 
4950 
60 
63 
60 
66 
72 
75 
66 
180,0 
207,9 
234,0 
297,0 
324,0 
336,0 
326,7 
 
 Podem-se calcula números-índices para os chamados relativos de preço, quantidade, e 
valor, mediante as seguintes fórmulas: 
 
x100
.qp
.qp
 valor do relativo
x100
q
q
 quantidade da relativo
x100
p
p
 preço do relativo
oo
nn
o
n
o
n



 
Onde: 
 
po = preço de um item no ano-base 
qo = quantidade de um item no ano-base 
pn = preço de um item em determinado ano 
25 
 
qn = quantidade de um item em determinado ano 
 
 Tomemos 1972 como ano-base. Isto significa que estamos considerando o preço de $3000 
como sendo igual a 100% e que os preços dos outros anos serão medidos em relação aquele 
preço. Analogamente, o volume será medido tomando-se a cifra de 60 de 1972 como 100%, e a 
receita tomando-se $180000 como 100$. 
 
 Os números-índices (relativos) para preço, quantidade e valor para carros de 1076 são 
 
180 x100
3000.60
4500.72
 x100
.qp
.qp
 valor do relativo
120 x100
60
72
 x100
q
q
 quantidade da relativo
150 x100
3000
4500
 x100
p
p
 preço do relativo
19721972
19761976
1972
1976
1972
1976



 
 
 Essas cifras podem ser interpretadas da seguinte maneira. Os preços de automóveis 
aumentaram 50% entre 1972 e 1976, a quantidade vendida aumentou de 20%, e o valor (receita) 
aumentou de 80%. Para os outros anos podemos calcular os relativos da mesma maneira. 
 
Índices anuais para preço, quantidade e valor para o exemplo dos carros, 
tomandocomo base as cifras de 1972. 
 
 Preço Quantidade Receita 
Ano Dólares Índice Unidades Índice Dólares Índice 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
3000 
3300 
3900 
4500 
4500 
4800 
4950 
100 
 
 
 
150 
60 
63 
60 
66 
72 
75 
66 
100 
 
 
 
120 
180,0 
207,9 
234,0 
297,0 
324,0 
336,0 
326,7 
100 
 
 
 
180 
 
 
 Os números-índices simples, que utilizam um período-base comum, chamam-se relativos 
de base fixa. Outra forma de número-índice, chamada relativo de ligação, focaliza a atenção nas 
variações anuais. Calcula-se o preço, a quantidade ou o valor de cada ano em relação às cifras do 
ano anterior. 
 
109 100 x 
66
72
 100 x 
q
q
 quantidade para ligação de relativo
1975
1976
1976 
 
 
Alternativamente, podemos usar os índices de 1975 e 1976: 
 
109 100 x 
110
120
 100 x 
I
I
 quantidade para ligação de relativo
1975
1976
1976 
 
 
 
 A principal limitação dos índices simples é que eles se referem apenas a itens isolados, 
enquanto que frequentemente necessitamos sintetizar variações para todo um grupo de itens. Os 
números-índices para grupos chamam-se números-índices compostos, e é para estes que agora 
voltamos nossa atenção. 
 
Números-índices compostos 
 
26 
 
 Os números-índices compostos são usados para indicar uma variação relativa no preço, na 
quantidade, ou no valor de um grupo de itens. Por exemplo, podemos inquirir se os preços, de 
artigos de mercearia em geral aumentaram ou diminuíram no decorrer de certo período. Na 
realidade, muitos preços subiram, mas alguns podem ter baixado. Que se pode dizer, de modo 
geral? Para tanto, é preciso examinar alguma combinação de itens, em lugar de itens individuais. 
Analogamente, pode ser útil determinar se as quantidades de artigos de mercearia sofreram 
variação e, em caso afirmativo, em que direção. Consideraremos o método dos agregados 
ponderados para determinar os números-índices compostos. 
 
O método dos agregados ponderados 
 
 O problema de determinar variações de preço para um grupo de artigos é que, 
usualmente, além de variações no preços, há variações nas quantidades compradas. Assim, para 
focalizarmos só preços, as variações nas quantidades devem ser eliminadas. Em outras palavras, 
queremos saber até que ponto as variações de valor são devidas as variações de preço, sem 
precisarmos considerar variações de quantidade. Uma forma de conseguir isto é fazer as 
quantidades do ano corrente iguais às quantidades do ano-base. Dessa forma, a única diferença 
será no preços entre os dois anos. 
 Consideraremos o exemplo de um comprador noturno que adquire quatro itens: 
cogumelos, limões, bolos e o jornal vespertino. Os dados constam na tabela abaixo. Note-se que 
tanto os preços como as quantidades se modificaram de 1970 a 1978. Se quisermos saber qual 
foi a variação global nos preços, poderemos imaginar as quantidades como tendo permanecido 
inalteradas. A fórmula para um índice de preços é a seguinte: 
base.-ano do pesos os denota q onde 100 x 
.qp
.qp
 base)-ano do (pesos preço de índice o
0o
0n



 
Usando as cifras da tabela, encontramos 
 
 1970 1978 
 aa Preço Quantidade aa Preço Quantidade 
Cogumelos 
Limões 
Bolos 
Jornal 
 0,8/kg 
0,1 cada 
1,0/dúzia 
0,1 
2 kg 
4 
1 dúzia 
1 
 1,2/kg 
0,08 cada 
2,0/dúzia 
0,25 
1,5 kg 
6 
0,5 dúzia 
1 
 
160 100 x 
0,1(1) 1(1) 0,1(4) 0,8(2)
0,25(1) 2(1) 0,08(4) 1,2(2)
 I 100 x 
).q(p
).q(p
 I preço
19701970
19701978
preço 




 
 
O índice de preço sugere que, globalmente, os preços subiram 60%. 
 De modo análogo, podemos calcular um índice de quantidade, mantendo constante os 
preços e isolando, assim, as variações de quantidade. 
 
base.-ano do pesos os denota p onde 100 x 
.pq
.pq
 base)-ano do (pesos quantidade de índice o
0o
0n



 
Referindo-se às cifras da tabela, nosso índice de quantidade, utilizando os pesos do ano-base 
(preços), é 
 
77 100 x 
0,1(1) 1(1) 0,1(4) 0,8(2)
1(0,1) 0,5(1) 6(0,1) 1,5(0,8)
 I 100 x 
).q(p
).p(q
 I quant.
19701970
19701978
quant. 




 
O índice pode ser interpretado como indicativo de que as quantidades globais dos artigos em 
estudo, adquiridos por aquele comprador, declinaram 23% (isto é, 100% - 77% = 23%). 
 Um índice de valor teria a seguinte forma: 
 
27 
 
100 x 
.qp
.qp
 valor de índice
0o
nn



 
 
Para o nosso comprador, o índice seria 
 
114 100 x 
0,1(1) 1(1) 0,1(4) 0,8(2)
0,25(1) 2(0,5) 0,08(6) 1,2(1,5)
 Ivalor 



 
 
 Não é necessário usar preços ou quantidades do ano-base como ponderações para esses 
índices. Assim é que, por vezes, se usam os pesos do ano corrente. Entretanto, uma 
desvantagem dos pesos do ano corrente é que eles devem ser revistos cada ano. Outro processo 
seria utilizar pesos de algum ano intermediário entre o ano-base e o ano corrente. 
 
Atividade 
 
O gerente de uma fábrica está revisando as cifras de produção de um de seus departamentos da 
divisão de plásticos. Os dados (primeiro trimestre de cada ano) são apresentados a seguir. 
Calcule índices de preço e de quantidade para 1974 e 1976, usando o método dos agregados, 
tomando 1972 como peso-base. 
 
 1972 1974 1976 
 custo a quantidade a custo a quantidade a custo a quantidade 
Mão-de-obra, 
preço por hora 
 
 
4,00 
 
10.400 
 
4,10 
 
10.920 
 
4,80 
 
9.360 
Materiais, 
preço/ton 
 
 
28 
 
12 
 
30 
 
15 
 
36 
 
10 
Gerais, 
preço/m2 
 
50 
 
800 
 
55 
 
800 
 
70 
 
800

Outros materiais