ESTATISTICA APLICADA

•

UNIP

Jennifer Bianca

12.04.2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.490 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 
ESTATÍSTICA APLICADA 
 
DISTRIBUIÇÃO BINOMIAL 
 
 A utilização da distribuição binomial exige certas hipóteses. Essas hipóteses 
são: 
1. Há n observações ou provas idênticas; 
2. Cada prova tem dois resultados possíveis, um chamado “sucesso” e o outro 
“falha”; 
3. As probabilidades p de sucesso e (1 – p) de falha permanecem constantes em todas 
as provas; 
4. Os resultados das provas são independentes uns dos outros. 
 
 Para calcular uma probabilidade binomial, é preciso especificar n, o número de 
provas, x, o número de sucessos e p a probabilidade de sucesso em cada prova. 
x-nx p)(1p 
x
n
P(X) 






 
onde: p = sucesso 
 (1 - p) = falha 
 
A média de uma binomial é a média a longo prazo, ou o valor esperado de uma v.a. 
binomial. O desvio padrão de uma binomial indica até que ponto os valores amostrais 
tendem a se afastar da média da distribuição. No caso da Binomial, tanto a média ,E(x), 
como o desvio, 
 x
 podem ser expressos em termos de número ou de percentagem 
de sucessos. As fórmulas são: 
 
 Média E(X) Desvio padrão 
 x
 
Número de Sucessos np 
 pnp 1
 
Porcentagem de Sucessos p 
  npp /1
 
 
Exemplo: Sejam 0,10 a probabilidade de sucesso e 100 o número de observações. 
Determine a média e o desvio padrão da distribuição, tanto para o número como para 
a percentagem de sucessos. 
 
 Média E(X) Desvio padrão 
 x
 
Número de Sucessos 100(0,10)=10 
   3900100100 ,,
 
Porcentagem de Sucessos 0,10 
  030100900100 ,/,, 
 
 
 
 
EXERCÍCIOS 
1. Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a probabilidade de o 
time A: 
a) ganhar dois ou três jogos; 
b) ganhar pelo menos um jogo. 
 
 
 
 
 
2 
2. Determine a probabilidade de obtermos exatamente 3 caras em 6 lances de uma 
moeda. 
3. Jogando-se um dado 3 vezes, determine a probabilidade de se obter um múltiplo 
de 3 duas vezes. 
4. A probabilidade de um atirador acertar o alvo é 2/3. Se ele atirar 5 vezes, qual a 
probabilidade de acertar exatamente 2 tiros? 
5. Seis parafusos são escolhidos ao acaso da produção de certa máquina, que 
apresenta 10% de peças defeituosas. Qual a probabilidade de serem defeituosos 
dois deles? 
6. Pesquisa governamental recente indica que 80% das famílias de uma comunidade, 
que ganharam mais de $15.000 (renda bruta) no ano anterior, possuem dois 
carros. Supondo verdadeira esta hipótese, e tomada uma amostra de 10 famílias 
dessa categoria, qual é a probabilidade de exatamente 80% da amostra terem dois 
carros? 
7. Qual é a probabilidade de dois dos próximos três presidentes do Brasil terem 
nascido em Domingo? 
Respostas: 1. 400/729, 665/729 2. 5/16 3. 2/9 4. 40/243 5. 9,8415%
 6. 0,3019 7. 18/343 
 
 
DISTRIBUIÇÃO DE POISSON 
 
 Esta distribuição é útil para descrever as probabilidades do número de 
ocorrências num campo ou intervalo contínuo (em geral tempo ou espaço). Exemplos: 
defeitos por centímetro quadrado, acidentes por dia, clientes por hora, chamadas 
telefônicas por minuto, etc. Observe que a unidade de medida (tempo, área) é 
contínua, mas a variável aleatória (numero de ocorrências) é discreta. 
 A utilização da distribuição de Poisson exige certas hipóteses. Essas hipóteses 
são: 
1 A probabilidade de ocorrência é a mesma em todo o campo de observações; 
2 A probabilidade de mais de uma ocorrência em um único ponto é 
aproximadamente zero; 
3 O número de ocorrências em qualquer intervalo é independente do número de 
ocorrências em outros intervalos. 
Se uma v.a. é descrita por uma distribuição de Poisson, então a probabilidade de 
realizar (observar) qualquer número dado de ocorrências por unidade de medida 
(minuto, hora, centímetro, etc) é dada pela fórmula: 
 
 
!x
te
xP
xt 

 
Onde: x número de ocorrências; 
 

= a taxa média por unidade; 
 t = número de unidades 
 
t
= número médio de ocorrências no intervalo t . Assim: 
 
!x
e
xP
x

 
Exemplo: Um processo mecânico produz tecido para tapetes com uma média de 
dois defeitos por metro quadrado. Determine a probabilidade de um metro 
 
 
 
 
 
3 
quadrado ter exatamente um defeito, admitindo que o processo possa ser bem 
aproximado por uma distribuição de Poisson. 
  2700
1
2
2
12
,
!!

 e
X
e
1xP 
X 
 
 
Exercícios: 
 
1) Suponhamos que os navios cheguem a um porto à razão de 
2
navios/hora, 
e que essa razão seja bem aproximada por Poisson. Observando o processo 
durante um período de meia hora, determine a probabilidade de (a) não chegar 
nenhum navio, (b) chegarem 3 navios. 
 
2) Suponha que os defeitos em fios para tear possam ser aproximados por Poisson 
com média 0,2 defeitos por metro 
 20,
. Inspecionando-se pedaços de fio 
de 6 metros de comprimento, determine a probabilidade de menos de 2 
defeitos. 
 
3) Os defeitos em rolos de filme colorido ocorrem à razão de 0,1 defeito por rolo, 
e a distribuição dos defeitos é a de Poisson. Determine a probabilidade de um 
rolo em particular conter um ou mais defeitos. 
 
4) Os clientes chegam a uma loja a razão de 6,5/hora (Poisson). Determine a 
probabilidade de que durante qualquer hora: 
a. não chegue nenhum cliente 
b. chegue mais de um cliente 
c. exatamente 6,5 clientes 
 
5) Em um pedágio de determinada rodovia chegam em média 600 carros por 
hora. Determine a probabilidade de chegarem exatamente 10 carros em um 
minuto. 
Respostas: 1) a)0,3679, b)0,061 2) 0,6626 3) 0,0952 
 4) a) 0,0015 b) 0,9887 c) impossível 5) 0,1251 
 
INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA 
DISTRIBUIÇÃO DE AMOSTRAGEM E INTERVALOS DE CONFIANÇA PARA A MÉDIA DA 
POPULAÇÃO 
 
Devido a fatores tais como tempo e custo, é comum estimarmos parâmetros de uma 
população com base em estatísticas de uma amostra. 
Estimadores por ponto freqüentemente utilizados 
 
Parâmetro Populacional Estimador 
Média, µ 
X
 
Desvio padrão, 

 s 
Proporção, p 
p
 
 
 
 
 
 
 
4 
DISTRIBUIÇÃO DE AMOSTRAGEM DA MÉDIA 
 
 É descrita pela determinação do valor esperado E(X) ou média, da distribuição e 
do desvio padrão da distribuição das médias, simbolizado como 
 x
 
 Sendo : n = tamanho da amostra; 
  = média da população; 
 (x) = desvio padrão populacional; 
 
X
 = média da amostra. 
 N = tamanho da população. 
 Valor esperado é definido como:
   xxE
 
 O desvio padrão é definido como: 
 
 
n
x
x

 
 
 
 Considerando o fator de correção para população finita: 
 
 
1


N
nN
n
x
x

 
“REGRA DE BOLSO”: O fator de correção pode ser omitido sempre que n < 0,05N. 
Quando 
 x
( desvio padrão da população) for desconhecido, o desvio padrão da 
média pode ser estimado usando-se o desvio padrão da amostra como um estimador 
do desvio padrão da população: 
Ou seja: 
 
 
n
xs
xs 
 
 Quando inclui o fator de correção: 
 
 
1N
nN
n
xs
xs



 
 
 
 TEOREMA DO LIMITE CENTRAL para n  30  à medida que se aumenta o 
tamanho da amostra, a distribuição de amostragem da média se aproxima da 
forma da distribuição normal, qualquer que seja a forma da distribuição da 
população. 
z = 
n
X

 
 
INTERVALO DE CONFIANÇA PARA MÉDIA UTILIZANDO DISTRIBUIÇÃO NORMAL 
 
Muito embora a média de uma amostra seja útil como um estimador não tendencioso 
da média da população, não existe maneira de expressar o grau de acurácia de um 
estimador por ponto. Matematicamente falando, a probabilidade de que a média da 
amostra seja exatamente a média da populaçãoé zero. Um intervalo de confiança 
 
 
 
 
 
5 
para a média construído com respeito à média da amostra especifica a probabilidade 
de o intervalo incluir o valor da média populacional. Se tomarmos uma amostra e 
afirmarmos que 
 
 
n
x  x e μx
 deveremos informar com que nível de 
confiança fazemos tal afirmação. Para tanto devemos calcular o intervalo de 
confiança. 
 xzX 
 ou 
 xzsX 
 
 Os intervalos mais freqüentemente usados são 90%, 95% e 99% . Os valores de 
z requeridos para tais intervalos são apresentados abaixo. 
 
Z (número de unidades de desvios padrões a 
partir da média 
Proporção de área no intervalo 
 z
 
1,65 0,90 
1,96 0,95 
2,58 0,99 
 
1. Se o Desvio Padrão Populacional é Conhecido 
 
n
xσ
zx 
 
 
2. Para n  30 com Desvio Padrão Populacional Desconhecido 
 
n
xs
zx 
 
 
3. Para n < 30 com Desvio Padrão Populacional Desconhecido - Distribuição t de 
Student 
 
 
 
 
 
6 
Uma distribuição t é apropriada para inferências sobre a média sempre quando 
 for desconhecido e a população normalmente distribuída, qualquer que seja o 
tamanho da amostra. Quando o desvio padrão da população não é conhecido, usa 
– se o desvio padrão da amostra como estimativa, substituindo 
 X
 por 
sX
 nas 
equações para intervalos de confiança. A forma da distribuição t é bastante 
parecida com a normal. A distribuição t tem maior área nas caudas., significa que o 
nível de confiança, o valor t será um pouco maior que o correspondente valor de z. 
 Para usar uma tabela t, devemos conhecer duas coisas: o nível de confiança 
desejado, e o número de graus de liberdade = tgl = tn-1 . O número de graus de 
liberdade está relacionado com a maneira como se calcula o desvio padrão. Para 
usar a tabela, deve-se especificar a área das caudas da distribuição e o número de 
graus de liberdade. Onde gl = grau de liberdade = n – 1. 
 O intervalo de confiança para uma média amostral quando se usa 
 xs
 é muito 
semelhante ao intervalo quando se usa 
 x
 . O intervalo é: 
 
 
n
xs
tx gl
 
 
Na prática, quando n aumenta, indo além de 30 observações, a necessidade de 
admitir a normalidade diminui. Usa – se z como uma aproximação de t. 
“REGRA DE BOLSO”: Distribuição t pode ser aproximada pela distribuição normal 
quando n  30 ou gl  29 para uma única amostra. 
 
Exemplos: 
1. Para uma dada semana, foi tomada uma amostra aleatória de 30 empregados 
horistas selecionados de um grande número de empregados de uma fábrica, a 
qual apresentou um salário médio de 
X
 = $180,00 com um desvio padrão de 
amostra de s = $14,00. Estimamos o salário médio para todos os empregados 
horistas da fábrica de tal maneira que tenhamos uma confiança de 95% de que 
o intervalo estimado inclua a média da população da seguinte forma: 
X
  1,96.
 xs
 = 180  1,96 (2,56) = 174,98 a 185,02 
 Onde: 
X
 = $180,00 (dado) 
 
 
 
n
xs
xs 
 = 
30
14
 = 2,56 
2. A vida média de operação para uma amostra de n = 10 lâmpadas é 
X
 = 4.000 
horas com o desvio padrão da amostra s = 200 horas. Supõe-se que o tempo de 
operação das lâmpadas em geral tenha distribuição aproximadamente normal. 
Estimamos a vida média de operação para a população de lâmpadas da qual foi 
extraída a amostra, usando um intervalo de confiança de 95%, da seguinte 
forma: 
IC = 95% = 
X
  tgl 
n
s
 = 4000  (2,262).
10
200
 = 3856,8 a 4143,2 
X
 = 4.000 (dado); 
tgl = tn-1 = t10-1 = t9 = 2,262 para IC = 95% (100 – 95)/2 = 0,025 
 
 
 
 
 
 
7 
Exercícios 
1) Suponha que se queira estimar o valor das vendas, por estabelecimento 
varejista, durante o último ano, de um determinado produto. O número de 
estabelecimentos varejistas é bastante grande. Determinar o intervalo de 
confiança de 95% dado que os valores de venda são considerados 
normalmente distribuídos, 
252004253  neX ,$,.$  
2) Com referência ao problema 1, determinar o intervalo de confiança de 95%, 
dado que a população é normalmente distribuída, 
252004253  nesX ,$,.$
. 
3) Com referência ao problema 1, determinar o intervalo de confiança de 95%, 
dado que a população não é normalmente distribuída, 
502004253  nesX ,$,.$
. 
4) Para uma amostra de 50 firmas tomada de uma determinada indústria, o 
número médio de empregados por firma é 420,4 com um desvio padrão na 
amostra de 55,7. Nesta indústria, há um total de 380 firmas. Determinar o 
erro padrão da média para ser usado na estimação da média populacional por 
um intervalo de confiança. 
5) Para o problema anterior, determinar o intervalo de confiança de 90% para 
estimar o número médio de trabalhadores por firma na indústria. 
 
Respostas: 1) $3.346,60 a $3.503,40, 2) $3.342,44 a $3.507,56 3) $3.369,55 a 
$3.480,45 4) 7,33Z 5) 408,3 a 432,5 
 
DETERMINAÇÃO DO TAMANHO NECESSÁRIO DA AMOSTRA PARA ESTIMAR A MÉDIA 
 
 Baseado no uso da distribuição normal é: 
n = 
 







2
E
x
z

((x) conhecido) 
 Onde: z = valor usado para o grau de confiança; 
  = desvio padrão da população; 
 E = fator de erro 
n = 
 







2
E
xs
z
((x) desconhecido) 
Erro 
 
 
n
x
zE


 ((x) conhecido) 
Exemplo: 
3. Um analista do departamento de pessoal deseja estimar o número médio de 
horas de treinamento anual para os funcionários de uma divisão da companhia, 
com um fator de erro de 3,0horas (para mais ou para menos) e com 90% de 
confiança. Baseado em dados de outras divisões, ele estima o desvio padrão 
das horas de treinamento em =20horas. 
O tamanho mínimo necessário da amostra é: 
 
 
 
 
 
8 
 n = 








2
E
z
 = [
3
)20)(65,1(
]2 = (
3
33
) 2 = 112 = 121 
 
 
 
Exercício: 
1) Deseja-se estimar o valor médio das compras por cliente em uma loja de um 
aeroporto. Com base em dados de outros aeroportos similares, o desvio 
padrão de tais valores de vendas é estimado em 
800,$
. Qual o tamanho 
mínimo que deveria ter uma amostra aleatória se ele deseja estimar a média 
das vendas dentro de $0,25 e com confiança de 99%? 
Resposta: 69 
 
INTERVALOS DE CONFIANÇA PARA A PROPORÇÃO, UTILIZANDO A DISTRIBUIÇÃO 
NORMAL 
 
 A distribuição de probabilidade aplicável as proporções é a distribuição de 
probabilidade binomial,a qual acarreta cálculos extenuantes. Na maioria das vezes 
utiliza-se a distribuição normal como aproximação da binomial para a construção 
de intervalos de confiança para as proporções. 
 A aproximação é apropriada quando n  30 tanto np  5 como n(1 – p)  5. 
 A variância da distribuição de proporções serve de base para o erro padrão. 
 Dada 
p
, proporção observada na amostra, o erro padrão estimado da proporção 
é: 
 
sp
 = 
n
pp 1. 
 
 No contexto da estimação estatística, a proporção populacional p (ou 

) não é 
conhecida porque este é o valor que esta sendo estimado. 
 Não se considera necessário o uso desta correção se n<0,05N. 
 A correção finita é: 
 
sp
 = 
n
pp 1. .
1

N
nN
 
 
 O intervalo de confiança para uma proporção populacional é: 
 
p
  z
sp
 
 
 
Exemplo: 
4. Uma empresa de pesquisa de mercado faz contato com uma amostra de 100 
homens em uma grande comunidade e verifica que uma proporção de 0,40 na 
amostra prefere lâminas de barbear fabricadas por seu cliente em vez de qualquer 
outra marca. O intervalo de confiançade 95% para a proporção de todos os 
 
 
 
 
 
9 
homens na comunidade que preferem a lâmina de barbear do cliente é 
determinado como se segue: 
sp
 = 
n
pp 1. = 
100
)40,01(40,0 
 = 
100
24,0
 = 0,05 
 
IC = 95%  
p
  z
sp
 = 0,40  1,96(0,05) = 0,40  0,098 = 0,30 a 0,50 
DETERMINAÇÃO DO TAMANHO NECESSÁRIO DA AMOSTRA PARA ESTIMAR A 
PROPORÇÃO 
 Antes de uma amostra ser coletada, pode-se determinar o tamanho mínimo 
necessário da amostra, especificando-se o grau de confiança desejado e o erro que é 
aceitável, e fazendo-se uma estimativa inicial de 

, a proporção populacional 
desconhecida: 
 n = 
 





 
2
2 1
e
pp
Z
 
 Se é impossível chegar a uma estimativa inicial de , então deve-se estimá–lo como 
sendo 0,50, portanto o tamanho da amostra fica: 
 n = (
e
z
2
) 2 
Erro e = z 
n
pp 1. 
Exemplo: Suponha que em uma pesquisa eleitoral, antes dos dados serem 
coletados,foi especificado que o intervalo de 95% estimado deveria ter um erro 
máximo de 
020,
 e que não tenha havido nenhum estabelecimento anterior do 
valor mais verossímil de 

. O tamanho mínimo requerido da amostra a ser 
coletada deverá ser: 
4012
0202
961
2
22
.
,
,














E
z
n
 
ou 
   
4012
020
50150
961
1
2
2
2
2 .
,
,,
, 






 





 

E
pp
zn
 entrevistados 
EXERCÍCIOS 
1. Determine intervalos de confiança para média () de uma Normal para cada um 
dos seguintes casos: 
Média amostral 
(cm) 
Coeficiente 
de Confiança 
desvio (cm) Tamanho da 
amostra 
170 95% s=15 10 
165 85% =30 184 
180 70% s=30 225 
 
2. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 
válvulas e obtém-se a vida média de 800 horas e desvio padrão de 100 horas. 
 
 
 
 
 
10 
a) Qual o intervalo de confiança de 99% para a vida média populacional? 
b) Com que confiança dir-se-ia que a vida média é 8000,98? 
c) Que tamanho deve ter a amostra para que seja de 95% a confiança na 
estimativa 8007,84? 
3. Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a 
diferença da média amostral para média da população, em valor absoluto, seja 
menor que um, ou seja considerar erro igual a um, com coeficiente de segurança 
igual a 95% e 99%. 
4. Uma amostra aleatória de 625 donas-de-casa revela que 70% delas preferem a 
marca X de detergente. Construir um intervalo de confiança para p =proporção de 
donas-de-casa que preferem X com confiança igual a 90%. 
5. Desejamos estimar a proporção ( p ) de consumidores de um certo produto . Uma 
amostra de 300 pessoas indicou que 100 delas consumiam o produto. Determine o 
intervalo de confiança para p, com 95% de confiança. 
6. Um pesquisador esta estudando a resistência de determinado material sob 
determinadas condições. Ele sabe que essa variável é normalmente distribuída 
com desvio padrão de 2 unidades. 
a) Utilizando os valores 4,9; 7,0; 8,1: 4,5; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de 
uma amostra de tamanho 9, determine o intervalo de confiança para a resistência 
média com um coeficiente de confiança igual a 90%. 
b) Qual o tamanho da amostra necessário para que o erro cometido, ao 
estimarmos a resistência média, não seja superior a 0,01 unidades com confiança 
0,90? 
 
7. Suponha que a média e o desvio padrão da vida útil de uma determinada marca de 
tubo de imagem de TV sejam desconhecidos. Supõe-se que a vida útil dos tubos de 
imagem tem uma distribuição aproximadamente normal. Para uma amostra de n = 
15,, a média da vida útil é de 8.900 horas e o desvio padrão da amostra é s = 500 
horas. Construa um intervalo de confiança de 95% para estimar a média da 
população. 
Respostas:
276,928900 7) 108.900 b) 1,16,22 a) 6) 0,0530,33 5) 0,034)0,7
 666 b) a)384 3) 625 c) 16%~ b) 12,9a)800 2) 08,2c)180 3,18b)165 73,01170 a) 1)


 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11 
 
Correlação e Regressão 
 
Diagrama de Dispersão 
 Considere uma amostra aleatória, formada por dez dos 98 alunos de uma classe 
e pelas notas obtidas por eles em matemática e estatística: 
 
 
Nos 
Notas 
Matemática 
xi 
Estatística 
yi 
01 5,0 6,0 
08 8,0 9,0 
24 7,0 8,0 
38 10,0 10,0 
44 6,0 5,0 
58 7,0 7,0 
59 9,0 8,0 
72 3,0 4,0 
80 8,0 6,0 
92 2,0 2,0 
 
Representando, em um sistema coordenado cartesiano ortogonal, os pares 
ordenados (xi, yi), obtemos uma nuvem de pontos que denominamos diagrama de 
dispersão. Esse diagrama nos fornece uma idéia grosseira, porém útil, da correlação 
existente: 
 Os pontos , formam uma elipse em diagonal. Podemos imaginar , que quanto 
mais fina a elipse, mais ela se aproxima de uma reta dizemos então que existe uma 
0
2
4
6
8
10
12
0 2 4 6 8 10 12
0
2
4
6
8
10
12
0 2 4 6 8 10 12
 
 
 
 
 
12 
Correlação Linear. 
 
Assim, uma correlação é: 
Linear positiva se os pontos do diagrama conduzem a uma reta ascendente; 
Linear negativa se os pontos do diagrama conduzem a uma reta descendente; 
Não Linear se os pontos do diagrama conduzem a uma curva. 
 
Coeficiente de Correlação: Indica o grau de intensidade da correlação entre duas 
variáveis e, ainda, o sentido desta correlação (positivo ou negativo). 
 Faremos uso do coeficiente de correlação de Pearson, que é dado por: 
 
  
     
 
 
2
iy
2
i
yn
2
ix
2
i
xn
iyixiyixn
r
  
 

 
onde n é o número de observações. Os valores limite de r são –1 e +1, isto é, o valor 
de r pertence ao intervalo [-1;1]. 
Assim: 
se r =1, há uma correlação perfeita e positiva entre as variáveis; 
se r = -1; há uma correlação perfeita e negativa entre as variáveis 
se r = 0, ou não há correlação ou a relação não é linear. 
se 
3,0r0 
 correlação muito fraca, nada podemos concluir a respeito da relação 
entre as variáveis em estudo. 
se 
6,0r3,0 
, há uma correlação fraca entre as variáveis 
 Vamos então calcular a correlação relativa a tabela anterior. 
 
Matemática 
xi 
Estatística 
yi 
xi yi xi
2 yi
2 
5,0 6,0 30 25 36 
8,0 9,0 72 64 81 
7,0 8,0 56 49 64 
10,0 10,0 100 100 100 
6,0 5,0 30 36 25 
7,0 7,0 49 49 49 
9,0 8,0 72 81 64 
3,0 4,0 12 9 16 
8,0 6,0 48 64 36 
2,0 2,0 4 4 4 
 65
 
 65
 
  473
 
  481
 
  475
 
 
n = 10 
 
 
 
 
 
 
13 
  
     
 
 0,911
)265)(10x475265-(10x481
65x65-10x473
 
2
iy
2
i
yn
2
ix
2
i
xn
iyixiyixn
r 


  
 

 
Ajustamento da reta 
 
 Sempre que desejamos estudar determinada variável em função da outra 
fazemos uma análise de regressão. Tal análise tem por objetivo descrever através de 
um modelo matemático, a relação entre duas variáveis, partindo de n observações das 
mesmas. 
 
 Assim, supondo X a variável independente e Y a dependente, vamos procurar 
determinar o ajustamento de uma reta à relação entre essas variáveis, ou seja, vamosobter uma função definida por: 
Y=aX+b 
 
Suponha o exemplo acima. Concluímos que se trata de uma correlação retilínea que 
permite o ajustamento de uma reta. Para tanto, vamos calcular os parâmetros a e b 
com a ajuda das fórmulas: 
 
  
 
 
 
 
 

2
ix
2
ixn
iyixiyixn
a 
 
baXY 
 sobservaçõe de número n
valores dos média 
n
iy
y 
n
ix
x 
 xayb







ˆ
 
Exercício Pretendendo-se estudar a relação entre as variáveis “consumo de energia 
elétrica” (xi) e “volume de produção nas empresas industriais”(yi) , fez-se uma 
amostragem que inclui vinte empresas, computando-se os seguintes valores: 
      22,13iyix 84,96
2
i
y 12,16
2
i
x 20,72iy 11,34ix
 
Determine: 
a) o cálculo do coeficiente de correlação; 
b) estabeleça a equação da reta ajustada; 
 
 
 
 
 
 
14 
EXERCÍCIOS 
 
1. Um grupo de pessoas fez uma avaliação do peso aparente de alguns objetos. 
Com o peso real e a média dos pesos aparentes, dados pelo grupo, obteve-se a 
tabela: 
PESO REAL (X) 18 30 42 62 73 97 120 
PESO APARENTE (Y) 10 23 33 60 91 98 159 
Calcule o índice de correlação e a reta ajustada. 
 
 
2. Considere os resultados de dois testes, X e V, obtidos por um grupo de alunos 
da escola A: 
x. 11 14 19 19 22 28 30 31 34 37 
y 13 14 18 15 22 17 24 22 24 25 
Calcule o coeficiente de correlação e a reta ajustada. 
 
Teste do qui quadrado 
Este teste objetiva verificar se a freqüência absoluta observada de uma variável é 
significativamente diferente da distribuição de freqüência absoluta esperada. 
 
1.1 - Teste do qui quadrado para uma amostra 
Aplica-se quando se quer estudar a dependência entre duas variáveis, através de uma 
tabela de dupla entrada ou também conhecida como tabela de contingência. 
Procedimento para a execução do teste 
1. Determinar H0. Será a negativa da existência de diferenças entre a distribuição 
de freqüência observada e a esperada; 
2. Estabelecer o nível de significância (µ ); 
3. Determinar a região de rejeição de H0. Determinar o valor dos graus de 
liberdade (φ), sendo K – 1 (K = número de categorias). Encontrar, portanto, o 
valor do Qui-quadrado tabelado; 
4. Calcular o Qui Quadrado, através da fórmula: 
 
 
 




 

esperadafreq
esperadafreqobservadafreq
.
..
2
2
 
 
 
 
 
 
 
15 
 
Sendo o Qui Quadrado calculado, maior do que o tabelado rejeita-se H0 em prol 
de H1. 
Exemplo: 
Um vendedor trabalhou comercializando um produto em cinco bairros 
residenciais de uma mesma cidade em um mesmo período do ano. Seu gerente 
decidiu verificar se o desempenho do vendedor oscilava em virtude do bairro 
trabalhado, ou seja, se as diferenças eram significativas nos bairros trabalhados. A 
partir deste estudo o gerente poderia então elaborar uma estratégia comercial para 
cada bairro ou manter uma para todos. 
 
Bairro 1 2 3 4 5 Total 
Valores 
Observados 
9 11 25 20 15 80 
Valores Esperados 16 16 16 16 16 80 
 
H0: não há diferenças significativas entre os bairros 
H1: as diferenças observadas para os bairros 3 e 4 são significativamente 
diferentes para melhor em relação aos demais bairros. 
µ = 0,05 
g.l = 5 – 1 = 4, onde Qui quadrado tabelado é igual a 9,49. 
 
         
75,10
16
172
16
116812549
16
1615162016251611169
2
22222
2








 
 
Conclui-se que o Qui quadrado calculado (10,75) é maior do que o tabelado (9,49), 
rejeita-se H0 em prol de H1. Portanto há diferença significativa, ao nível de 0,05, para 
os bairros 3 e 4. Face ao cálculo o gerente deve elaborar uma estratégia comercial para 
cada bairro. 
 
Exercício 
1) Vamos supor que uma moeda tenha sido lançada 30 vezes, resultando em 18 
caras(C) e 12 coroas (K). Com um nível de significância de 5% verificar se a 
moeda é honesta. 
 
 
 
 
 
 
16 
1.2 Teste do qui quadrado para independência (duas amostras) 
A utilização do presente teste em pesquisa visa verificar se as distribuições de duas ou 
mais amostras não relacionadas diferem significativamente em relação à determinada 
variável. 
Procedimento para a execução do teste 
1. Determinar H0. As variáveis são independentes, ou as variáveis não estão 
associadas; 
2. Estabelecer o nível de significância (µ ); 
3. Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade 
(φ), sendo 
 φ = (L – 1) (C – 1), onde L = números de linhas da tabela e C = ao número de 
colunas.. Encontrar 
 portanto, o valor do Qui-quadrado tabelado; 
4. Calcular o Qui Quadrado, através da fórmula: 
 
 
 




 

esperadafreq
esperadafreqobservadafreq
.
..
2
2
 
5. Para encontrar o valor esperado (E), utilizar a fórmula a seguir: 
 
 
total
colunalinha
E
 

 
 
Sendo o Qui Quadrado calculado, maior do que o tabelado, rejeita-se H0 em prol de H1. 
Há dependência ou as variáveis não estão associadas. 
Exemplo: 
Um pesquisador deseja identificar se há dependência no consumo de seus chocolates 
e as cidades de sua região. 
 
 Cidades do Vale do Taquari 
Sabor do chocolate Lajeado Santa Cruz Estrela Taquari ∑ 
Chocolate com caju 60 30 20 40 150 
Chocolate com amendoim 45 35 20 10 110 
Chocolate com flocos 55 25 47 13 140 
Chocolate com passas 70 35 25 20 150 
∑ 230 125 112 83 550 
 
 
 
 
 
17 
 
H0: A preferência pelos sabores independe da cidade 
H1: A preferência pelos sabores depende da cidade. 
µ = 0,05 
φ = (4 – 1) (4 – 1) = 9, onde Qui quadrado tabelado é igual a 16,92. 
 
Calculo dos valores 
esperados (E). 
Cidades do Vale do Taquari 
Sabor do chocolate Lajeado Santa Cruz Estrela Taquari 
Chocolate com caju 62,7 34,1 30,5 22,6 
Chocolate com amendoim 46,0 25,0 22,4 16,6 
Chocolate com flocos 58,5 31,8 28,5 21,1 
Chocolate com passas 62,7 34,1 30,5 22,6 
 
     
72,43
6,22
6,2220
.....
1,34
1,3430
7,62
7,6260
222
2 





 
Conclui-se que o Qui quadrado calculado (43,72) é maior do que o tabelado 
(16,92), rejeita-se H0 em prol de H1. 
Portanto há diferença significativa, ao nível de 0,05, para as cidades. 
 Exercício 
Foi realizado um estudo para avaliar a eficiência de uma nova droga no tratamento da 
hipertensão, envolvendo a cooperação de dois grupos aleatórios, cada um com 200 
pacientes. Um grupo recebeu o novo medicamento enquanto o outro recebeu 
placebo. Após um período de tempo, cada pessoa em estudo foi examinada para 
determinar possíveis melhoras. Os resultados foram os seguintes: 
Resultado Novo Medicamento Placebo Total 
melhorou 117 74 191 
Não melhorou 83 126 209 
Total 200 200 400 
Com um nível de significância de 0,01 verificar se o tratamento experimental difere do 
tratamento com placebo