Buscar

[EQ UFRJ 2017.1]Probest [P2]

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
CAPÍTULO 6 - VETORES ALEATÓRIOS MULTIDIMENSIONAIS 
• 6.2 Independência 
• 6.3 Propriedades adicionais da esperança e da variância 
• 6.5 Combinação Linear de n variáveis aleatórias Normais 
independentes 
• 6.6 Teorema Central do Limite 
• 6.7.1 Aproximação da distribuição Binomial pela Normal 
 CAPÍTULO 7 - ANÁLISE EXPLORATÓRIA DE DADOS AMOSTRAIS 
• 7.1 Analisando dados 
• 7.2 Tipologia das variáveis 
• 7.3 Distribuições de Freqüências. Tabelas e Gráficos. 
• 7.3.1 – Tabelas de Freqüências para Variáveis Qualitativas 
• 7.3.2 – Gráficos de barras e Gráficos de setores para 
Variáveis Qualitativas 
• 7.3.3 – Tabelas de Freqüências para Variáveis Quantitativas 
• 7.3.4 – Histogramas e Diagramas Ramo-Folha para Variáveis 
Quantitativas 
• 7.4 - Medidas de Centralidade para dados amostrais 
quantitativos 
• 7.5 Medidas de Dispersão para dados amostrais 
quantitativos 
• 7.7 Identificação de Discrepâncias em Variáveis 
Quantitativas 
• 7.8 - Box Plot para Variáveis Quantitativas 
• 7.9 – Estudando a relação entre duas variáveis 
• 7.9.2 - Covariância e Correlação entre Variáveis 
Quantitativas 
• 7.9.3 - Reta de Regressão 
 CAPITULO 8 - AMOSTRAGEM E ESTIMAÇÃO PONTUAL 
• 8.1 - Amostra aleatória 
• 8.2 - Estatísticas 
• 8.3 A Média Amostral 
• 8.4 A Variância e o Desvio Padrão amostrais 
• 8.6 A Proporção Amostral 
• 8.7 Estimação Pontual de parâmetros 
• 8.7.1 Principais exemplos de estimadores pontuais 
• 8.7.2 Estimador não Tendencioso/span> 
• 8.7.3 O Erro Quadrático Médio 
• 8.7.4 O Erro Absoluto de estimação 
• 8.8 Dimensionamento da amostra 
• 8.8.1 Dimensionando amostra para estimar a média popul., 
com σ conhecido 
• 8.8.2 Dimensionando amostra para estimar a média popul., 
com σ desconhecido 
• 8.8.4 Dimensionamento de Amostra para estimar a 
proporção populacional 
 CAPÍTULO 9 - ESTIMAÇÃO POR INTERVALO 
• 9.1 Intervalo de Confiança para a média populacional 
• 9.1.1 Intervalo de Confiança para a média populacional, com 
o desvio padrão conhecido. 
• 9.1.2 Intervalo de Confiança para a média populacional, com 
o desvio padrão desconhecido. A distribuição t de Student 
• 9.2 Intervalo de Confiança para a proporção populacional 
 CAPÍTULO 10 - INTRODUÇÃO Á TEORIA DOS TESTES DE HIPÓTESES 
• 10.1 Conceitos Básicos 
• 10.2 Esclarecendo melhor alguns conceitos 
• 10.3 Rotina para Obtenção do Critério de Decisão 
• 10.4 Teste para a Média Populacional 
• 10.5 O conceito de p-valor 
• 10.7 Teste para proporções
Não caiu na P1 mas deveria 
Vamos ver alguns conceitos importantes que não caíram na P1 mas deveriam ter caído e, 
portanto, são matérias da P2: 
Covariância: 
A covariância é um parâmetro que mede a interdependência de duas variáveis aleatórias. Seja 
X e Y duas variáveis aleatórias com os seus respectivos valores esperados: 
{
𝐸(𝑋) = 𝜇𝑋
𝐸(𝑌) = 𝜇𝑌
 
A covariância entre X e Y é dado por: 
• 𝑪𝒐𝒗(𝑿, 𝒀) = 𝑬[(𝑿 − 𝝁𝑿)(𝒀 − 𝝁𝒀)] 
• 𝑪𝒐𝒗(𝑿, 𝒀) = 𝑬[𝑿𝒀] − 𝝁𝑿𝝁𝒀 
Essa definição é válida tanto para o caso discreto quanto para o caso contínuo. Algumas 
propriedades da covariância: 
Algumas propriedades da covariância: 
• Pode ser positiva, negativa ou nula 
• 𝐶𝑜𝑣(𝑋, 𝑋) = 𝑉𝑎𝑟[𝑋] 
• Se X e Y são variáveis independentes, então 𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌] e logo 𝐶𝑜𝑣(𝑋, 𝑌) = 0. 
A recíproca não é verdadeira, pois podemos ter 𝐶𝑜𝑣(𝑋, 𝑌) = 0 sem que X e Y sejam 
independentes 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 𝑉𝑎𝑟[𝑋 + 𝑌] = 𝑉𝑎𝑟[𝑋] + 𝑉𝑎𝑟[𝑌] + 2𝐶𝑜𝑣(𝑋, 𝑌) ; 𝑠𝑒 𝑋, 𝑌 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒𝑠 
• 𝑉𝑎𝑟[𝑋 + 𝑌] = 𝑉𝑎𝑟[𝑋] + 𝑉𝑎𝑟[𝑌] ; 𝑠𝑒 𝑋, 𝑌 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒𝑠 
• 𝐶𝑜𝑣(𝑎𝑋 + 𝑏𝑦, 𝑐𝑋 + 𝑑𝑌) = 𝑎𝑐𝑉𝑎𝑟[𝑋] + 𝑏𝑑𝑉𝑎𝑟[𝑌] + (𝑎𝑑 + 𝑏𝑐)𝐶𝑜𝑣(𝑋, 𝑌) 
Coeficiente de Correlação: 
Também mede a interdependência de duas variáveis aleatórias. Seja (X,Y) uma variável 
aleatória bidimensional, com variâncias marginais finitas e não nulas e esperanças marginais: 
{
𝐸(𝑋) = 𝜇𝑋
𝐸(𝑌) = 𝜇𝑌
 
O coeficiente de correlação é dado por: 
• 𝝆(𝑿, 𝒀) =
𝑪𝒐𝒗(𝑿,𝒀)
𝑫𝑷(𝑿)𝑫𝑷(𝒀)
 
Propriedades do coeficiente de correlação: 
• O coeficiente de correlação é adimensional 
• O coeficiente de correlação está entre -1 e 1 
• Se X e Y são v.a.'s independentes, como Cov(X,Y), 𝜌(𝑋, 𝑌) também é igual à 0. A 
recíproca não é verdadeira. É possível ter 𝜌(𝑋, 𝑌) = 0 sem que as v.a.’s sejam 
independentes. 
• Se X e Y são v.a.'s tais que Y=aX + b, sendo (a,b) constantes reais e "a" diferente de 
zero, então: 
o 𝜌(𝑋, 𝑌) = 1 , 𝑠𝑒 𝑒 𝑠𝑜𝑚𝑒𝑛𝑡𝑒 𝑠𝑒 𝑎 > 0 
o 𝜌(𝑋, 𝑌) = −1 , 𝑠𝑒 𝑒 𝑠𝑜𝑚𝑒𝑛𝑡𝑒 𝑠𝑒 𝑎 < 0 
O resultado acima mostra que o coeficiente de correlação é uma medida do grau de 
linearidade da relação entre as v. a.´s X e Y. Quanto mais próximo ρ estiver de +1 ou de – 1, 
maior será este grau de linearidade. Além disso, ρ > 0 indica que há uma tendência a que X e Y 
cresçam conjuntamente; enquanto que um valor ρ < 0, sinaliza para uma tendência de Y 
decrescer à medida que X aumenta. É importante salientar também que um valor de ρ 
próximo de zero não significa necessariamente a ausência de uma relação entre X e Y. Este 
fato indica apenas que a relação, se existir, não é linear. Isto porque, como vimos 
anteriormente, Cov(X,Y) = 0 não implica em independência entre X e Y. 
Vetores Aleatórios Multidimensionais 
Sejam 𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛 variáveis aleatórias a serem observadas simultaneamente, o vetor 
(𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛 ) formado por essas variáveis é um exemplo do que chamamos de variável 
aleatória multidimensional. Dizemos que 𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛 tem distribuição conjunta. A variável 
aleatória multidimensional é uma generalização das bidimensionais, estudadas no capítulo 5. 
Podemos analisar a independência de variáveis aleatórias n-dimensionais da seguinte forma: 
• 𝐹  Função distribuição acumulada conjunta 
• 𝐹1, 𝐹2, 𝐹3 … 𝐹𝑛  Funções distribuição acumulada marginais 
• 𝑓  Função densidade conjunta 
• 𝑓1, 𝑓2, 𝑓3 … 𝑓𝑛  Funções densidade conjuntas marginais 
As variáveis 𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛 são independentes, em um vetor aleatório n-dimensional, se: 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
𝑭(𝒙𝟏, 𝒙𝟐, 𝒙𝟑 … 𝒙𝒏) = ∏ 𝑭𝒊(𝒙𝒊)
𝒏
𝒊=𝟏
 
𝒇(𝒙𝟏, 𝒙𝟐, 𝒙𝟑 … 𝒙𝒏) = ∏ 𝒇𝒊(𝒙𝒊)
𝒏
𝒊=𝟏
 
Em particular, se o vetor aleatório n-dimensional for contínuo, temos que 𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛 são 
independentes se: 
𝑷(𝑿𝟏, 𝑿𝟐, 𝑿𝟑 … 𝑿𝒏) = ∏ 𝑷(𝑿 = 𝒙𝒊)
𝒏
𝒊=𝟏
 ; {
𝒙𝒊 ∈ 𝑰𝒊 = [𝒂𝒊, 𝒃𝒊] 
𝒂𝒊, 𝒃𝒊 ∈ 𝑰𝑹
 
Podemos enumerar ainda algumas propriedades adicionais de esperança e variância para 
vetores aleatórios: 
𝑬 (∑ 𝒂𝒊𝑿𝒊
𝒏
𝒊=𝟏
) = ∑ 𝒂𝒊𝑬(𝑿𝒊)
𝒏
𝒊=𝟏
 
𝑽𝒂𝒓 (∑ 𝒂𝒊𝑿𝒊
𝒏
𝒊=𝟏
) = ∑ 𝒂𝒊
𝟐𝑽𝒂𝒓(𝑿𝒊)
𝒏
𝒊=𝟏
+ 𝟐 ∑ 𝒂𝒊. 𝒂𝒋. 𝑪𝒐𝒗(𝑿𝒊, 𝑿𝒋)
𝒋>𝒊
 
Caso 𝑋𝑖, 𝑋𝑗 sejam independentes pra cada i,j, tems: 
• 𝑉𝑎𝑟(∑ 𝑎𝑖𝑋𝑖
𝑛
𝑖=1 ) = ∑ 𝑎𝑖
2𝑉𝑎𝑟(𝑋𝑖)
𝑛
𝑖=1 
Teorema Central do Limite: 
Suponha “n” variáveis aleatórias com o mesmo tipo de distribuição, seja ela contínua ou 
discreta: 
• {𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛} 
Considere agora a variável aleatória Y que é a soma das distribuições acima: 
• 𝑌 = ∑ 𝑋𝑖
𝑛
𝑖=1 
Segundo o teorema central do limite, se “n” for muito grande, a distribuição de Y é 
aproximadamente uma distribuição normal: 
• 𝒀~𝑵𝒐𝒓[𝒏𝝁, 𝒏𝝈𝟐] 
Onde 𝜇 𝑒 𝜎2 são, respectivamente, os valores da esperança e da variância das variáveis 𝑋𝑖. O 
processo de normalização será, então, da forma: 
• 𝒁 =
𝒀−𝒏𝝁
𝝈√𝒏
 
Combinação Linear de n variáveisaleatórias Normais independentes 
Repetindo o caso acima, mas com as “n” variáveis aleatórias sendo distribuições normais: 
𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛 ~𝑁𝑜𝑟[𝜇, 𝜎
2] 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
A variável aleatória que representa a combinação linear dessas variáveis é também uma 
distribuição normal. A distribuição de Y será: 
• 𝒀 = ∑ 𝒄𝒊𝑿𝒊
𝒏
𝒊=𝟏 ~ 𝑵𝒐𝒓 [𝝁𝒀, 𝝈𝒀
𝟐] 
• 𝝁𝒀 = ∑ 𝒄𝒊𝝁𝒊
𝒏
𝒊=𝟏 
• 𝝈𝒀
𝟐 = ∑ 𝒄𝒊
𝟐𝝈𝒊
𝟐𝒏
𝒊=𝟏 
Aproximação da distribuição Binomial pela Normal 
Se considerarmos que a distribuição binomial é a soma de “n” distribuições de Bernoulli, 
podemos considerar também, que, pelo teorema central do limite, a v.a Z: 
𝒁 =
𝑿 − 𝒏𝒑
√𝒏𝒑(𝟏 − 𝒑)
 
Tem distribuição aproximadamente normal padronizada, sabendo que “X” é uma distribuição 
binomial com E(X)=np e 𝐷𝑃(𝑋) = √𝑛𝑝(1 − 𝑝), se “n” for suficientemente grande. Se “p” 
estiver muito próximo de ½ , “n” não precisa ser tão grande para aproximação ser boa. A 
aproximação é tão boa quanto maior for o “n”, se “p” se afastar muito de p=0,5. A título de 
regra, é conveniente usar essa aproximação somente quando 𝑛𝑝(1 − 𝑝) ≥ 3. 
Caso deseje-se calcular 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏), como se trata de aproximar uma distribuição discreta 
(Binomial) por uma contínua (Normal), convém introduzir, antes de mais nada, uma correção: 
subtrair ½ de a e somar ½ de b. Veja: 
𝑾~ 𝑵𝒐𝒓[𝒏𝒑, 𝒏𝒑(𝟏 − 𝒑)] 
𝑷(𝒂 ≤ 𝑿 ≤ 𝒃) = 𝑷 (𝒂 −
𝟏
𝟐
≤ 𝑾 ≤ 𝒃 +
𝟏
𝟐
) 
E como a variável aleatória original é discreta, faz sentido calcular a probabilidade de X ter um 
valor constante “a”: 
𝑷(𝑿 = 𝒂) = 𝑷 (𝒂 −
𝟏
𝟐
≤ 𝑾 ≤ 𝒂 +
𝟏
𝟐
) 
Análise Exploratória de Dados Amostrais 
Na prática, nem o modelo nem os parâmetros são conhecidos de antemão e há a necessidade 
de determiná-los de alguma maneira. Isso pode ser feito a partir da coleta e análise de dados. 
A estatística é uma ciência de análise de dados, onde aprendemos a coletar, organizar e 
analisar esses dados de forma que seja possível extrair conclusões corretas a partir deles. Os 
conceitos mais importantes por detrás da estatística são: 
• População  Conjunto de elementos cujas propriedades desejam ser observadas 
• Amostra  Pequena porção, facilmente descritível, da população 
Exemplo: 
• População  Indivíduos de um país 
• Amostra  Homens 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Por vezes a população é muito grande ou mesmo infinita. Chamamos de censo a descrição de 
todos os elementos da população. O censo é impossível de ser feito caso a população seja 
muito grande ou infinita. Portanto, podemos extrair informações de amostras, que são ditas 
representativas da população se, da amostra, podemos extrair algumas informações que são 
passíveis de serem expandidas para toda a população. O nome desse processo é inferência. As 
técnicas de inferência são feitas somente após a amostragem exploratória, que se trata de um 
conjunto de técnicas que nos permite ter um primeiro contato com as informações 
disponibilizadas pelos dados obtidos. 
Para que você possa garantir que sua amostra seja representativa da população você deve 
fazer uma análise de dados. Os dados podem ser numéricos ou não, mas são sempre variáveis. 
As variáveis podem ser descritas como: 
• 𝑸𝒖𝒂𝒍𝒊𝒕𝒂𝒕𝒊𝒗𝒂 {
𝑵𝒐𝒎𝒊𝒏𝒂𝒍 → 𝒆𝒙: 𝒄𝒐𝒓 𝒅𝒐𝒔 𝒐𝒍𝒉𝒐𝒔
𝑶𝒓𝒅𝒊𝒏𝒂𝒍 → 𝒆𝒙: 𝒃𝒐𝒎, 𝒓𝒆𝒈𝒖𝒍𝒂𝒓, 𝒓𝒖𝒊𝒎
 
• 𝑸𝒖𝒂𝒏𝒕𝒊𝒕𝒂𝒕𝒊𝒗𝒂 {
𝑫𝒊𝒔𝒄𝒓𝒆𝒕𝒂 → 𝒆𝒙: 𝒏º 𝒅𝒆 𝒂𝒍𝒖𝒏𝒐𝒔
𝑪𝒐𝒏𝒕í𝒏𝒖𝒂 → 𝒆𝒙: 𝒂𝒍𝒕𝒖𝒓𝒂
 
Analisar dados é: 
• Identificar comportamentos médios 
• Identificar comportamentos discrepantes 
• Comparar comportamentos 
• Investigar interdependência entre variáveis 
• Revelar tendências 
• Separar essencial (estrutura) de eventual (ruído) 
Após analisar os dados, é importante ter uma forma eficiente de resumir a informação contida 
nos dados e disponibilizar esse resumo de forma facilmente compreensível (tabelas e gráficos). 
Nº da Obs. Bairro Tipo Nº de Quartos Preço 
1 Barra Apto 2 165 
2 Barra Apto 3 240 
3 Barra Cobertura - 158 
4 Barra Sala - 150 
5 Botafogo Apto 2 59 
6 Catete Apto 1 54 
7 Centro Sala - 35 
8 Copacabana Apto 2 83 
9 Copacabana Apto 3 180 
10 Copacabana Apto 4+ 85 
11 Flamengo Apto 1 58 
12 Flamengo Cobertura - 120 
13 Gávea Apto 4+ 250 
14 Ipanema Apto 3 130 
15 Jacarepaguá Apto 3 90 
16 Lagoa Apto 2 130 
17 Laranjeiras Apto 2 68 
18 Laranjeiras Apto 4+ 360 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
19 Leblon Apto 3 300 
20 Leblon Apto 4+ 600 
21 Maracanã Apto 3 137 
22 Recreio Cobertura - 240 
23 São Conrado Casa 4+ 650 
24 Tijuca Apto 2 49 
25 Tijuca Apto 2 95 
26 Tijuca Casa 4+ 170 
27 Vila Isabel Apto 2 57 
 
Na tabela acima, que representa algumas informações sobre alguns imóveis, cada coluna é 
uma variável e cada linha, uma observável/observação. Observamos um imóvel X e 
analisamos as informações que esse dado tem a nos oferecer. No caso, as informações são 
Bairro, Tipo, Nº de quartos e Preço. Para melhor descrever o comportamento de uma variável 
é comum apresentar os valores que ela assume organizados sob a forma de tabelas de 
frequências e gráficos. O tipo de cada variável é o que vai determinar a forma pela qual ela 
será tratada. 
Variáveis Qualitativas 
Podem ser descritas por tabelas de frequências, gráficos de barras ou gráficos de setores. 
Para montar a tabela de frequências, basta eleger uma variável e dispor em linhas todos os 
“valores possíveis” para aquela variável com sua frequência absoluta (número de aparições) e 
percentagem (número de aparições sobre número total de aparições dentre todos os tipos de 
“Valores Possíveis). 
Dois exemplos de tabelas que podemos obter com os dados da tabela anterior são: 
Frequência de bairros entre os imóveis: 
Bairro Frequência absoluta Percentual 
Vila Isabel 1 3,7 
Tijuca 3 11,1 
São Conrado 1 3,7 
Recreio 1 3,7 
Maracanã 1 3,7 
Leblon 2 7,4 
Laranjeiras 2 7,4 
Lagoa 1 3,7 
Jacarepaguá 1 3,7 
Ipanema 1 3,7 
Gávea 1 3,7 
Flamengo 2 7,4 
Copacabana 3 11,1 
Centro 1 3,7 
Catete 1 3,7 
Botafogo 1 3,7 
Barra 4 14,8 
 
Frequência de tipos de imóveis: 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Tipo Frequência absoluta Percentual 
Apartamento 20 74,07 
Cobertura 3 11,13 
Casa 2 7,4 
Sala 2 7,4 
 
Usando tabelas de frequência, podemos montar gráficos que mostrem a distribuição das 
frequências. Dois tipos de gráficos que fazem isso são os de barras e os de setores (famoso 
gráfico de pizza). Abaixo, exemplos desses gráficos para a frequência de tipos de imóveis: 
 
 
Enquanto o gráfico de barras correlaciona percentagens diferentes com alturas diferentes das 
barras, o gráfico de setores correlaciona as frequências com ângulos. Dada a possibilidade de 
se dispor as categorias (no caso, tipo de imóvel) ao longo de um eixo sobre o qual as barras 
estão apoiadas no gráfico de barras, é conveniente usá-lo para dispor variáveis qualitativas 
ordinais. O uso de setores é recomendável quando a quantidade de categorias é pequena, pois 
caso contrário ficaria difícil distingui-las. 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Variáveis Quantitativas 
Podem ser descritas por tabelas de frequências, histogramas e diagramas ramo-folha. 
No caso de tabela de frequências, os moldes são muito parecidos com os de variáveis 
qualitativas: 
Numero de Quartos Frequência Percentagem 
- 5 18,52 
1 2 7,4 
2 8 29,64 
3 6 22,22 
4+ 6 22,22 
No caso acima, estamos trabalhando com uma variável quantitativa discreta (número de 
quartos) comum conjunto de valores possíveis muito pequeno e, portanto, a tabela é fácil de 
fazer. Caso a variável tenha um conjunto muito grande ou seja contínua, é conveniente 
escrever a tabela de frequências de acordo com intervalos de valores possíveis para a variável, 
de preferência igualmente espaçados (exemplo: Frequência de pessoas que entra numa loja 
por dia: 1-4 pessoas, 5-8 pessoas , 9-12 pessoas , ... ). 
Histogramas são como gráficos de barras, trocando o eixo com as informações qualitativas por 
informações quantitativas, dispostas em intervalos. O outro eixo, pode mostrar tanto a 
frequência quanto a percentagem: 
 
Se as frequências/percentagens estiverem na vertical, temos um histograma vertical. Caso 
contrário, temos um histograma horizontal. Diagramas ramo-folha respeitam um passo a 
passo para serem construídos. 
Primeiro, vamos organizar em ordem crescente todos os valores possíveis de uma amostra. 
Veja um exemplo: 
• 56,56,56,58,59,60,60,60,61,78,79,88,88,89,89,91,93,95,97,97,97,103,105,158 
Agora, vamos explicitar as dezenas possíveis: 
• 5, 6,7,8,9,10,15 
As dezenas serão ramos e as folhas serão os valores das unidades. A definição do significado 
dos ramos e das folhas dependerá de quem fez o diagrama, mas essa metodologia é usual. 
• No conjunto de 5 dezenas, temos 5 números, dos quais 3 tem 6 unidades, 1 tem 8 e 1 
tem 9. As folhas do ramo 5 serão então 66689 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• No conjunto de 6 dezenas, temos 4 números, dos quais 3 tem 0 unidades e 1 tem 1 
unidade. As folhas do ramo 6 serão então 0001 
• No conjunto de 7 dezenas, temos 2 números, dos quais 1 tem 8 
unidades e 1 tem 9 unidades. As folhas do ramo 7 serão então 89 
• No conjunto de 8 dezenas, temos 4 números, dos quais 2 tem 8 
unidades e 2 tem 9 unidades. As folhas do ramo 8 serão então 8899 
• No conjunto de 9 dezenas, temos 6 números, dos quais 1 tem 1 
unidade, 1 tem 3 unidades, 1 tem 5 unidades e 3 tem 7 unidades. As 
folhas do ramo 9 serão então 135777 
• No conjunto de 10 dezenas, temos 2 números, dos quais 1 tem 3 
unidades e outro tem 5 unidades. As folhas do ramo 10 serão 35 
• No conjunto de 15 dezenas, temos 1 número, contendo 8 unidades. 
A folha do ramo 15 será 8 
Juntando todas essas informações, é nítido o que o diagrama acima expressa. 
Medidas de centralidade para dados amostrais quantitativos 
As medidas de centralidade podem ser medidas de diversas formas. Algumas são: 
Nome Significado Expressão 
Média 
Aritmética 
Representa o valor médio 
 
�̅� =
∑ 𝑥𝑖
𝑛
𝑖=1
𝑛
 
 
Mediana 
Valor no meio de uma 
sequência ordenada de 
dados 
 
𝑄2 = {
𝑥
(
𝑛+1
2 )
 , 𝑠𝑒 𝑛 = í𝑚𝑝𝑎𝑟
𝑥
(
𝑛
2)
+ 𝑥
(
𝑛
2+1)
2
, 𝑠𝑒 𝑛 = 𝑝𝑎𝑟
 
Exemplo: 
1,2,3  Q2 = 2 
1,2,3,4  Q2 = 
2+3
2
 = 2,5 
 
Moda 
Valor do conjunto de 
dados que ocorre com 
maior frequência 
1,2,2,5,6  Moda = 2 
1,2,2,5,5,6  Moda = 2 e 5 (amostra bimodal) 
 
Vamos usar como exemplo os números usados para construir o diagrama ramo-folha. 
• Soma de todos os elementos  1973 
• Quantidade de elementos  n= 24 
• Média  82,2 
• Mediana  X12 + X13/2 = 88 + 88 / 2 = 88 
• Moda  Amostra trimodal. As 3 modas são 56,60 e 97. 
Medidas de dispersão para dados amostrais quantitativos 
Medidas de dispersão medem o grau de espalhamento dos valores da amostra em torno da 
medida de centralidade. 
Nome Significado Expressão 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Variância 
amostral 
- 
 
𝑠2 =
∑ (𝑥𝑖 − �̅�)
²𝑛
𝑖=1
𝑛 − 1
 
 
Desvio 
padrão 
amostral 
Raiz quadrada 
não negativa da 
variância 
amostral 
 
𝑠 = +√
∑ (𝑥𝑖 − �̅�)²
𝑛
𝑖=1
𝑛 − 1
 
 
 
Coeficiente 
de variação 
amostral 
Razão entre 
desvio padrão e 
média aritmética 
𝐶𝑉 =
𝑠
�̅�
=
√∑ (𝑥𝑖 − �̅�)
²𝑛
𝑖=1
𝑛 − 1
∑ 𝑥𝑖
𝑛
𝑖=1
𝑛
 = √
𝑛2
𝑛 − 1
∙
∑ (𝑥𝑖 − �̅�)²
𝑛
𝑖=1
[∑ 𝑥𝑖
𝑛
𝑖=1 ]
2 
 
Para os números usados para realizar o diagrama ramo folha, temos: 
• Variância amostral  
1
23
[(56 − 82,2)2 + (56 − 82,2)2 + (56 − 82,2)2 +
(58 − 82,2)2 + (59 − 82,2)2 + (60 − 82,2)2 + (60 − 82,2)2 + (60 − 82,2)2 +
(61 − 82,2)2 + (78 − 82,2)2 + (79 − 82,2)2 + (88 − 82,2)2 + (88 − 82,2)2 +
(89 − 82,2)2 + (89 − 82,2)2 + (91 − 82,2)2 + (93 − 82,2)2 + (95 − 82,2)2 +
(97 − 82,2)2 + (97 − 82,2)2 + (97 − 82,2)2 + (103 − 82,2)2 + (105 − 82,2)2 +
(158 − 82,2)2] =
1
23
[3(686,44) + (585,64) + (538,24) + 3(492,84) + (449,44) +
(17,64) + (10,24) + 2(33,64) + 2(46,24) + (77,44) + (116,64) + (163,84) +
3(219,04) + (432,64) + (519,84) + (5745,64)] =
1
23
[13011,96] = 565,74 
• Desvio Padrão Amostral  √565,74 = ~23,78 
• Coeficiente de variação amostral  
23,78
82,2
= ~28,94% 
Cálculo de Quartis 
Se por um lado a mediana é o valor no qual metade dos valores é maior que ele, dentre todos 
os valores na amostra, e metade é inferior, podemos interpretar a mediana como o segundo 
quartil, sendo que cada quartil é responsável por dividir a amostra inteira em 4 partes. O 
cálculo do Q1, ou primeiro quartil (1/4 dos valores é inferior à Q1 e ¾ superior a Q1) e do Q3, 
ou terceiro quartil (1/4 dos valores é superior à Q3 e ¾ inferior à Q3) é feito da seguinte 
forma: 
Número par: 
• Exemplo: {1,2,3,4,5,6,7,8,9,10,11,12} 
• Cortar sequência pela metade: {1,2,3,4,5,6} e {7,8,9,10,11,12} 
• O primeiro quartil será a mediana da primeira sequência. Logo Q1 = 3,5 
• O terceiro quartil será a mediana da segunda sequência. Logo Q2 = 9,5 
Número ímpar: 
• Exemplo: {1,2,3,4,5,6,7,8,9,10,11} 
• Eliminar elemento central: {1,2,3,4,5,6,7,8,9,10,11} 
• Cortar sequência pela metade: {1,2,3,4,5} {7,8,9,10,11} 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• O primeiro quartil será a mediana da primeira sequência. Logo Q1 = 3 
• O terceiro quartil será a mediana da segunda sequência. Logo Q2 = 9
Na amostra que usamos para o diagrama ramo-folha, temos 𝑛 = 24 → 𝑝𝑎𝑟. Logo, devemos 
cortar a sequência pela metade. A metade localiza-se logo após o elemento n/2 = 12. Assim: 
• 56,56,56,58,59,60,60,60,61,78,79,88,88,89,89,91,93,95,97,97,97,103,105,158 
• {56,56,56,58,59,60,60,60,61,78,79,88} {88,89,89,91,93,95,97,97,97,103,105,158} 
Cada uma das sequências tem número par. Vamos calcular a mediana de cada uma. 
• 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = {
𝑥
(
𝑛+1
2
)
 , 𝑠𝑒 𝑛 = í𝑚𝑝𝑎𝑟
𝑥
(
𝑛
2
)
+𝑥
(
𝑛
2
+1)
2
, 𝑠𝑒 𝑛 = 𝑝𝑎𝑟
 
Para a primeira sequência: 
• 𝑄1 = 
𝑥
(
𝑛
2
)
+𝑥
(
𝑛
2
+1)
2
 ; 𝑛 = 12 → 𝑄1 = 
𝑥(6)+𝑥(7)
2
=
60+60
2
 
Para a segunda sequência: 
• 𝑄3 = 
𝑥
(
𝑛
2
)
+𝑥
(
𝑛
2
+1)
2
 ; 𝑛 = 12 → 𝑄3 = 
𝑥(6)+𝑥(7)
2
=
95+97
2
 
Logo 
• 𝑄1 = 60 
• 𝑄3 = 96,5 
Chamamos de distância interquartil a seguinte relação 
𝑫𝑰𝑸 = 𝑸𝟑 − 𝑸𝟏 
No caso exemplo, tem o seguinte valor: 
𝐷𝐼𝑄 = 96,5 − 60 = 36,5 
Identificação de discrepâncias em Variáveis Quantitativas 
Por vezes, nossa amostra está sujeita a erros, vindos de condições anormais de coleta de 
dados (pode ser um erro de leitura, computacional, de digitação, etc.). Por vezes isso pode 
afetar intensamente análises estatísticas. Dizemos que uma medida de centralidade é 
resistente caso valores anormais causados por erros não mudem muito seu valor. É nítido ver 
que a média aritmética é menos resistente que a mediana, por exemplo. Se a medida de 
centralidade em estudo não for resistente, ela será afetada intensamente pela presença de 
observações discrepantes ou outliers. 
Uma vez detectada a presença de uma observação discrepante, deve-sedecidir entre: 
• Repetir o experimento e realizar nova coleta de dados 
• Expurgar dado discrepante da amostra 
• Manter o dado discrepante, se houver justificativa plausível para tal 
Para identificar as observações discrepantes, precisamos de critérios. Dois deles são intervalos 
onde não há variáveis discrepantes 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
(�̅� − 𝟑𝒔 , �̅� + 𝟑𝒔 ) 
(𝑸𝟏 −
𝟑
𝟐
𝑫𝑰𝑸 , 𝑸𝟑 +
𝟑
𝟐
𝑫𝑰𝑸 ) 
Logo, qualquer valor fora desses intervalos é considerado uma observação discrepante. Para 
nosso exemplo do ramo-folha, os dois intervalos ficam: 
• (�̅� − 3𝑠 , �̅� + 3𝑠 ) = (82,2 − 3.23,78 ,82,2 + 3.23,78 ) = (10,86 ; 153,54) 
• (𝑄1 −
3
2
𝐷𝐼𝑄 , 𝑄3 +
3
2
𝐷𝐼𝑄 ) = (60 −
3
2
36,5 ; 96,5 +
3
2
36,5) = (5,25 ; 151,25) 
Veja que para ambos o valor de 158 é um valor discrepante, pois está acima de 153,54 e de 
151,25. Veja também que se retirarmos ele, e ficarmos com n=23, alguns dos valores 
calculados anteriormente mudam consideravelmente: 
 
Perceba, no entanto, que a Moda não se altera se tirarmos o 158. 
Boxplot para variáveis quantitativas 
O boxplot é uma outra forma de representar os dados e as informações em uma amostragem. 
Essa forma, no entanto, tenta representar ao mesmo tempo várias informações importantes 
sobre as variáveis quantitativas em questão. Como construir um boxplot: 
1. Inicialmente é traçado um eixo vertical onde serão representados os valores da 
variável considerada. 
2. Depois se desenha um retângulo cuja posição da base inferior corresponde ao valor do 
1º quartil Q1 e cuja posição da base superior corresponde ao valor do 3o quartil Q3. A 
posição da mediana é indicada por um traço horizontal no interior desse retângulo. 
3. Em seguida são traçados dois segmentos de reta verticais que vão, um deles desde o 
ponto médio da base inferior do retângulo até a posição da menor observação não 
discrepante, e o outro desde o ponto médio da base superior do retângulo até a 
posição da maior observação não discrepante. 
4. Cada uma das observações discrepantes é explicitada (e, muitas vezes, devidamente 
rotulada) no gráfico. 
Para nossa sequência de 24 números, temos: 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
 
Estudando a relação entre duas variáveis 
Muitas vezes estamos interessados em duas características dos elementos de uma amostra. 
Por exemplo, em uma amostra de carros produzidos por uma montadora podemos 
determinar, para cada carro, o seu modelo e o tipo de combustível usado; numa amostra de 
fios elétricos as características de interesse podem ser o seu diâmetro e a sua condutividade, 
etc. As variáveis a serem medidas podem ser qualitativas ou quantitativas. Começaremos 
considerando o caso de duas variáveis qualitativas. 
Chamemos essas duas características, cada, de uma variável. Usemos X e Y para representa-
las. Agora: como determinar se X e Y estão relacionados e de que forma? Uma primeira forma 
de determinar é montar um gráfico de dispersão, que nada mais é do que um plot no plano xy 
dos pontos (𝑥𝑖 , 𝑦𝑖) ; 𝑖 = 1,2, … 𝑛, sendo 𝑥𝑖, 𝑦𝑖 cada elemento de uma amostra de tamanho 
“n” de duas variáveis quantitativas contínuas X e Y, respectivamente. Veja um exemplo: 
Temp Dif. Term Temp Dif. Term Temp Dif. Term 
19,2 0,464 150,1 0,397 90,0 0,497 
30,2 0,459 160,0 0,38 100,0 0,545 
40,2 0,453 170,0 0,371 110,0 0,436 
50,3 0,445 180,0 0,366 114,8 0,436 
60,1 0,442 190,2 0,357 120,0 0,433 
70,2 0,436 200,0 0,356 130,1 0,431 
80,2 0,428 210,0 0,35 139,9 0,425 
90,1 0,485 20,0 0,474 150,0 0,414 
100,2 0,452 27,8 0,449 159,9 0,401 
110,1 0,419 40,1 0,481 170,0 0,389 
115,1 0,415 50,2 0,472 179,9 0,379 
120,2 0,414 60,0 0,467 190,0 0,372 
130,1 0,414 70,1 0,461 199,8 0,368 
140,1 0,407 80,1 0,458 209,9 0,367 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
 
 
𝑇𝑒𝑚 [º𝐶]
𝐷𝑖𝑓. 𝑇𝑒𝑟𝑚 [𝑚𝑚2/𝑠]
 
 
É nítido de ver que os pontos de alta temperatura tendem à se associar à pontos de baixa 
difusividade térmica. Além disso, a natureza da relação entre X e Y parece ser bem expressa 
por meio de uma reta. Existem ainda, duas formas de se medir o grau de associação entre X e 
Y: 
Nome Fórmula 
Covariância Amostral 
 
𝒔𝒙𝒚 =
∑ (𝒙𝒊 − �̅�)(𝒚𝒊 − �̅�)
𝒏
𝒊=𝟏
𝒏 − 𝟏
 
 
Coeficiente de Correlação (ou Coeficiente 
de Correlação Linear ou coeficiente de 
correlação de Pearson) 
 
𝒓𝒙𝒚 =
𝒔𝒙𝒚
𝒔𝒙𝒔𝒚
 
 
 
Nas medidas acima, temos: 
• Covariância amostral  𝑠𝑥𝑦 
• Coeficiente de correlação  𝑟𝑥𝑦 
• Desvios padrões amostrais de X e Y, respectivamente  𝑠𝑥 , 𝑠𝑦 
• Média aritmética de X e Y, respectivamente  �̅�, �̅� 
• Número de elementos na amostra  n 
A covariância pode assumir valores negativos, positivos ser 0, dependendo do comportamento 
do diagrama de dispersão. Se negativo, o gráfico de dispersão é decrescente. Se positivo, é 
crescente. Se nulo, nenhum dos dois. Como a covariância amostral tem difícil interpretação e 
depende da unidade de medida, usa-se mais o coeficiente de correlação uma vez que ele é 
adimensional e assume valores menores (entre -1 e 1). Especificamente, o coeficiente de 
correlação linear mede a interdependência linear entre X e Y, tornando seu uso complicado 
caso as variáveis se relacionem de forma não linear. 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
 
Veja que em (a), os pontos (𝒙𝒊, 𝒚𝒊) estão mais próximos da reta de tendência linear do que 
em (b). Nesses casos, como a reta tem inclinação negativa, o valor de 𝑟𝑥𝑦 estará mais próximo 
de -1 em (a) do que em (b) e quanto mais próximos os pontos estiverem da reta de regressão 
também mais próximo 𝑟𝑥𝑦 estará de -1. Analogamente, se a inclinação fosse positiva, quanto 
mais próximos os pontos estivessem da reta de regressão mais próximo 𝑟𝑥𝑦 estará de +1. Por 
fim, pontos muito dispersos aproximam o valor de 𝑟𝑥𝑦 para 0. 
Como o coeficiente de correlação não é muito resistente, um valor nulo para 𝑟𝑥𝑦, ou muito 
pequeno, em módulo, não implica a inexistência de algum tipo de relação entre X e Y. 
Igualmente, um valor relativamente alto de |rxy| não significa que há, necessariamente, uma 
relação de causa e efeito entre X e Y. Cabe ao pesquisador, determinar, conforme o seu 
conhecimento da natureza do problema, se o valor observado corresponde ou não à existência 
de uma efetiva relação entre as duas variáveis. 
Podemos utilizar o chamado método dos mínimos quadrados para achar a expressão 
matemática da reta de regressão. Encontra-la é útil caso queiramos saber algum (x,y) que não 
temos conhecimento por não fazer parte da amostra. Se considerarmos que a reta tem a 
seguinte aparência: 
• Y= a + bX + (erro) 
• E que para cada componente temos: 
• yi= a + bxi + (erro)i 
• Então o método dos mínimos quadrados consiste em achar a,b tal que minimize: 
• ∑ (𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖))
2𝑛
𝑖=1 
Assim, temos: 
𝒀 = 𝒃𝑿 + 𝒂
𝒃 =
𝒔𝒙𝒚
(𝒔𝒙)𝟐
𝒂 = 
∑ 𝒚𝒊
𝒏
𝒊=𝟏 − 𝒃 ∑ 𝒙𝒊
𝒏
𝒊=𝟏
𝒏
 
Se usarmos essa fórmula, acharemos a seguinte equação pra reta de regressão do exemplo da 
difusividade térmica por temperatura: 
 
y = 0,4987 – 0,00064x 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Amostragem e estimação pontual 
Imagine uma variável aleatória X, distribuída conforme determinado modelo probabilístico. 
Faz-se “n” medições de X, de forma que cada medição seja independente uma da outra e 
tenha igual distribuição probabilística à X. Chamamos então essas medições (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) 
de amostra aleatória. Cuidado! A letra maiúscula está sendo usada para representar a variável 
aleatória. Quandoquisermos representar os valores que elas assumem, usaremos minúsculas 
(𝑥1, 𝑥2, 𝑥3 … 𝑥𝑛). 
OBS: Veja que se as medições são independentes, vale: 
• 𝑓(𝑥1, 𝑥2, 𝑥3 … 𝑥𝑛) = ∏ 𝑓𝑖(𝑥𝑖)
𝑛
𝑖=1  V.A.Contínua 
• 𝑃(𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) = ∏ 𝑃(𝑋 = 𝑥𝑖)
𝑛
𝑖=1 = ∏ 𝑝(𝑥𝑖)
𝑛
𝑖=1  V.A.Discreta 
Vimos na parte anterior da matéria medidas de centralidade e dispersão para um conjunto de 
dados. Podemos interpretar esse conjunto de dados como valores possíveis assumidos por 
uma amostra aleatória. 
Chamamos de estatística toda variável aleatória Y que é uma função real de uma amostra 
aleatória: 
• (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛)  Amostra aleatória 
• (𝑥1, 𝑥2, 𝑥3 … 𝑥𝑛)  Valores assumidos por cada variável da amostra 
• Y  estatística 
• f  função real 
Logo: 
• 𝑌 = 𝑓(𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛)  Estatística como uma função real da amostra aleatória 
• 𝑦 = 𝑓(𝑥1, 𝑥2, 𝑥3 … 𝑥𝑛)  Valor particular de y 
Como Y é uma variável aleatória, podemos falar sobre a distribuição amostral de Y. É comum 
representar as estatísticas, como são variáveis aleatórias, com a letra maiúscula. Mas cuidado, 
pois média aritmética e média amostral são coisas diferentes que podem ser representados 
com a mesma letra (�̅�). É conveniente, portanto, representar a média aritmética com a letra 
minúscula. 
Média, variância e desvio padrão amostral 
Seja uma amostra aleatória (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛), a média amostral é dada por: 
�̅� =
∑ 𝑿𝒊
𝒏
𝒊
𝒏
 
Fácil não? Mas e quanto à distribuição de �̅� ? Mesmo que não seja conhecida, podemos usar o 
teorema central do limite para determinar uma aproximação. 
Imagine que (X1, X2, X3 … Xn) seja uma amostra aleatória de uma variável aleatória X que, 
independentemente de sua distribuição, tem esperança μ e variância σ2. Se Y = ∑ Xi
n
i com 
“n” muito grande, já vimos que Y tenderá à distribuição normal Y~Nor[nμ, nσ2]. Como X̅ =
1
n
Y, temos: 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 𝐸(�̅�) = 𝐸 (
𝑌
𝑛
) =
1
𝑛
𝐸(𝑌) =
𝑛𝜇
𝑛
= 𝜇 
• 𝑉𝑎𝑟(�̅�) = 𝑉𝑎𝑟 (
𝑌
𝑛
) =
1
𝑛2
𝑉𝑎𝑟(𝑌) =
𝑛𝜎2
𝑛2
=
𝜎2
𝑛
 
Enunciamos então: 
𝑿 → {
𝑬(𝑿) = 𝝁
𝑽𝒂𝒓 (𝑿) = 𝝈𝟐
 ; (𝑿𝟏, 𝑿𝟐, 𝑿𝟑 … 𝑿𝒏) 
�̅�~ 𝑵𝒐𝒓 [𝝁,
𝝈𝟐
𝒏
] 
Exemplo: 
As especificações de uma característica de qualidade estabelecem um limite máximo de 150,6 
unidades. A medição desta característica comporta-se como uma v.a. X Normalmente 
distribuída com média 150 e desvio-padrão 2,1. Determine a probabilidade de que a média 
amostral, baseada em uma amostra aleatória de tamanho 49 ultrapasse a especificação limite 
de 150,6? 
• 𝑋 → {
𝐸(𝑋) = 𝜇
𝑉𝑎𝑟 (𝑋) = 𝜎2
 ; (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) 
• �̅�~ 𝑁𝑜𝑟 [𝜇,
𝜎2
𝑛
] 
Logo: 
• 𝑋 → {
𝐸(𝑋) = 150
𝑉𝑎𝑟 (𝑋) = 2,12
 ; 𝑛 = 49 
• �̅�~ 𝑁𝑜𝑟 [150,
2,12
49
] 
Normalizando �̅�, temos: 
• 𝑍 =
�̅�−𝐸(�̅�)
𝐷𝑃(�̅�)
=
�̅�−150
2,1
√49
=
�̅�−150
0,3
 
A questão pede: 
• 𝑃(�̅� > 150,6) 
Pela normalização, isso é o mesmo que: 
• 𝑃(�̅� − 150 > 150,6 − 150) 
• 𝑃 (
�̅�−150
0,3
>
150,6−150
0,3
) = 𝑃(𝑍 > 2) = 1 − 𝑃(𝑍 ≤ 2) 
Como, pela tabela, 𝑃(𝑍 ≤ 2) = 0,9772, temos: 
• 𝑃(�̅� > 150,6) = 0,0228 
O que quer dizer que aproximadamente 2,3% da amostra apresentarão uma média aritmética 
da característica de qualidade acima da especificação máxima. OBS: Chamamos o desvio 
padrão de uma estatística de erro padrão. É evidente que, se a distribuição de X é uma normal, 
�̅� converge para uma normal mais rapidamente (com “n” menor). Caso contrário, um “n” 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
maior será necessário para a convergência. Usualmente 𝒏 ≥ 𝟑𝟎 já é o bastante para a 
aproximação de �̅� por uma distribuição normal ser suficientemente acurada. 
A variância e o desvio padrão amostrais são definidos, respectivamente, da seguinte forma: 
𝑺𝟐 =
∑ (𝑿𝒊 − �̅� )
𝟐𝒏
𝒊
𝒏 − 𝟏
 
𝑺 = √
∑ (𝑿𝒊 − �̅� )𝟐
𝒏
𝒊
𝒏 − 𝟏
 
Ambos são também estatísticas e possuem também distribuições, mas não entraremos em 
detalhes. 
Proporção amostral 
Considere uma amostra aleatória (X1, X2, X3 … Xn) com “n” elementos extraída de uma 
determinada população e suponha que, entre eles, Y elementos possuam uma determinada 
característica de interesse. A proporção amostral a ela correspondente é dada por: 
�̂� =
𝒀
𝒏
 
Como Y é uma v.a., �̂� também será. Vale ressaltar que a proporção nada mais é do que um 
caso particular da média, em que a variável considerada é do tipo 0 ou 1. Podemos assim, 
montar a distribuição amostral de �̂�: 
• (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) 
• {
𝑋𝑖 = 0 ; 𝑛ã𝑜 𝑝𝑜𝑠𝑠𝑢í 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒
𝑋𝑖 = 1 ; 𝑝𝑜𝑠𝑠𝑢í 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒
 
• 𝑖 = 1,2, … 𝑛 
Sendo assim, 𝑋𝑖 é uma distribuição de Bernoulli e seu somatório segue uma distribuição 
Binomial. Logo, se �̂� =
𝑌
𝑛
 e Y = ∑ Xi
n
i , sendo que Y tem distribuição Binomial, temos: 
• 𝐸(�̂�) = 𝐸 (
𝑌
𝑛
) =
1
𝑛
𝐸(𝑌) =
1
𝑛
𝑛𝑝 = 𝑝 
• 𝑉𝑎𝑟(�̂�) = 𝑉𝑎𝑟 (
𝑌
𝑛
) =
1
𝑛2
𝑉𝑎𝑟(𝑌) =
1
𝑛2
𝑛𝑝(1 − 𝑝) =
𝑝(1−𝑝)
𝑛
 
Se 𝑛𝑝(1 − 𝑝) ≥ 3, como visto anteriormente, a aproximação de �̂� por uma distribuição 
normal é suficientemente boa. Assim, exprimimos: 
𝑿~ 𝑩𝒆𝒓[𝒑] → {
𝑬(𝑿) = 𝒑
𝑽𝒂𝒓 (𝑿) = 𝒑(𝟏 − 𝒑)
 ; (𝑿𝟏, 𝑿𝟐, 𝑿𝟑 … 𝑿𝒏) 
𝒀~ 𝑩𝒊𝒏[𝒏, 𝒑] → {
𝑬(𝑿) = 𝒏𝒑
𝑽𝒂𝒓 (𝑿) = 𝒏𝒑(𝟏 − 𝒑)
 ; �̂� =
𝒀
𝒏
 
�̂� ~ 𝑵𝒐𝒓 [𝒑 , 
𝒑(𝟏 − 𝒑)
𝒏
] 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Estimação pontual de parâmetros 
Suponha uma variável aleatória X e sua amostra aleatória de tamanho “n” (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛). 
Não sabemos a distribuição de X e, portanto, nem sua esperança ou variância. Mas, no 
entanto, desejamos encontrar e temos conhecimento dos valores que a sua amostra aleatória 
pode assumir. Vamos consider que X segue uma distribuição desconhecida especificada por 
um parâmetro 𝜃. Assim: 
𝑋 ~ 𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜[𝜃] 
Conhecer o parâmetro é, portanto, conhecer a distribuição de X e, por sua vez, conhecer a 
distribuição de X é conhecer, por exemplo, sua esperança. Desejamos, então, estimar o 
parâmetro com as informações que temos. Selecionemos então uma estatística 𝜃 =
𝑓(𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) com valor particular 𝜃 = 𝑓(𝑥1, 𝑥2, 𝑥3 … 𝑥𝑛). Nesse caso, 𝜃 é chamado de 
estimador pontual do parâmetro 𝜃. Um possível valor assumido por 𝜃 é dito uma estimativa 
de 𝜃. 
Vários conceitos (medidas) estudados anteriormente são usados como estimadores pontuais 
dos seus correspondentes conceitos populacionais: 
• Média amostral é um estimador da média populacional E(X) 
• Proporção amostral é um estimador da proporção populacional 
• Mediana amostral é um estimador da mediana populacional 
• Moda amostral é um estimador da moda populacional 
• Variância amostral é um estimador da variância populacional 
• Desvio Padrão amostral é um estimador do desvio padrão populacional 
• Distância interquartil amostral é um estimador da distância interquartil populacional 
• Coeficiente de correlação amostral é um estimador do coeficiente de correlação 
populacional 
• Covariância amostral é um estimador da covariância populacional 
Uma das propriedades desejáveis dos estimadores é que 𝜃 seja o mais próximo possível de seu 
valor real 𝜃. Quando é esse o caso, dizemos que o estimador é não tendencioso. Um estimador 
é não tendencioso, então, quando: 
𝑬(�̂�) = 𝜽
𝑩(�̂�) = 𝑬(�̂�) − 𝜽 = 𝟎 
 
Sendo que 𝐵(𝜃) é o víes de 𝜃. Vamos analisar o estimador variânciaamostral e ver se ele é ou 
não tendencioso: 
• 𝑆2 =
∑ (𝑋𝑖−�̅� )
2𝑛
𝑖
𝑛−1
=
∑ 𝑋𝑖
2−2𝑋𝑖�̅�+�̅�
2𝑛
𝑖
𝑛−1
=
∑ 𝑋𝑖
2𝑛
𝑖 −2 ∑ 𝑋𝑖�̅�
𝑛
𝑖 +∑ �̅�
2𝑛
𝑖
𝑛−1 
 
• 𝑆2 = 
∑ 𝑋𝑖
2𝑛
𝑖 −2�̅� ∑ 𝑋𝑖
𝑛
𝑖 +𝑛�̅�
2
𝑛−1 
= 
∑ 𝑋𝑖
2𝑛
𝑖 −2�̅�𝑛�̅�+𝑛�̅�
2
𝑛−1 
= 
∑ 𝑋𝑖
2𝑛
𝑖 +(−2𝑛+1)�̅�
2
𝑛−1 
 
• 𝑆2 = 
∑ 𝑋𝑖
2𝑛
𝑖 −𝑛�̅�
2
𝑛−1 
 
• 𝐸(𝑆2) = 𝐸 (
∑ 𝑋𝑖
2𝑛
𝑖 −𝑛�̅�
2
𝑛−1 
) =
1
𝑛−1
𝐸(∑ 𝑋𝑖
2𝑛
𝑖 − 𝑛�̅�
2) =
1
𝑛−1
[𝐸(∑ 𝑋𝑖
2𝑛
𝑖 ) + 𝐸(−𝑛�̅�
2)] 
• 𝐸(𝑆2) =
1
𝑛−1
[∑ 𝐸(𝑋𝑖
2)𝑛𝑖 − 𝑛 𝐸(�̅�
2)] 
• 𝐸(𝑆2) =
1
𝑛−1
[∑ 𝑉𝑎𝑟(𝑋𝑖) + 𝐸(𝑋𝑖)
2𝑛
𝑖 − 𝑛[𝑉𝑎𝑟(�̅�) + 𝐸(�̅�)
2] ] 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 𝐸(𝑆2) =
1
𝑛−1
[∑ 𝜎2 + (𝜇)2𝑛𝑖 − 𝑛 [
𝜎2
𝑛
+ (𝜇)2] ] 
• 𝐸(𝑆2) =
1
𝑛−1
[𝑛𝜎2 + 𝑛𝜇2 − 𝜎2 − 𝑛𝜇2 ] =
1
𝑛−1
[𝑛𝜎2 − 𝜎2] =
𝜎2
𝑛−1
[𝑛 − 1] = 𝜎2 
Como 𝐸(𝑆2) = 𝜎2 , o estimador variância amostral é não tendencioso. Com mais contas, 
conseguiríamos ver que o estimado desvio padrão amostral é tendencioso. Um estimador será 
tão preciso quanto menor for o seu erro quadrático médio, definido por: 
𝑬𝑸𝑴[�̂�] = 𝑬[(�̂� − 𝜽)²] 
𝑬𝑸𝑴[�̂�] = 𝑽𝒂𝒓[�̂�] + 𝑩[�̂�] 
Exemplo: Obter o erro quadrático médio para a estimativa da diferença de médias 𝜃 = 𝜇1 −
𝜇2 usando o estimador natural 𝜃 = �̅� − �̅� de modo que 𝜃 tenha a menor variância possível e 
temos um total de médias coletadas de 40. A variância das duas médias é, respectivamente, 3 
e 2. 
Sendo 
• �̅� =
∑ 𝑋𝑖
𝑛
𝑖
𝑛
 e �̅� =
∑ 𝑌𝑖
𝑛
𝑖
𝑚
, temos: 
• 𝑉𝑎𝑟(𝜃) = 𝑉𝑎𝑟(�̅� − �̅�) = 𝑉𝑎𝑟(�̅�) + 𝑉𝑎𝑟(�̅�) =
𝜎1
2
𝑛
+
𝜎1
2
𝑚
= 
32
𝑛
+
22
𝑚
= 
9
𝑛
+
4
𝑚
=
9
𝑛
+
4
40−𝑛
 
• 𝑉𝑎𝑟(𝜃) = 𝑓(𝑛) =
9
𝑛
+
4
40−𝑛
 
• 
𝑑𝑓(𝑛)
𝑑𝑛
= −
9
𝑛2
+
4
(40−𝑛)2
 = 0 → 𝑛 = 24 𝑒 𝑚 = 16 𝑗á 𝑞𝑢𝑒 𝑛 + 𝑚 = 40 
• Checar se é tendencioso: 
• 𝐸(𝜃) = 𝐸(�̅� − �̅�) = 𝐸(�̅�) + 𝐸(�̅�) = 𝜇1 − 𝜇2 = 𝜃 
• Sendo não tendencioso, temos: 
• 𝐸𝑄𝑀[𝜃] = 𝑉𝑎𝑟[𝜃] = 
𝜎1
2
𝑛
+
𝜎1
2
𝑚
= 
9
24
+
4
16
= 0,625 
Erro absoluto 
O erro absoluto pode ser escrito como: 
• 𝐸𝐴 = 𝜃 − 𝜃 
• 𝐸𝐴 = 𝜃 − 𝐸(𝜃) 
Ou seja, o erro absoluto é a diferença entre o resultado particular de um estimador e seu valor 
real 𝜃. Vamos considerar o estimador média amostral, por exemplo: 
• 𝐸𝐴 = �̅� − 𝜇 
Por vezes, podemos não ter 𝜇, a média populacional, conhecida, mas termos o desvio padrão 
populacional conhecido (𝜎). Queremos que, para que um estimador como a média amostral, 
seja suficientemente bom de se usar, o erro seja pequeno demais. Portanto, estipulamos que: 
• |�̅� − 𝜇| ≤ 𝜀 
Dividindo os dois lados pela informação conhecida, temos: 
• 
|�̅�− 𝜇|
𝐷𝑃(�̅�)
≤
𝜀
𝐷𝑃(�̅�)
 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• |𝑍| ≤
𝜀
𝐷𝑃(�̅�)
 
Portanto, apesar de não conhecermos a média populacional e não podermos garantir que 
|�̅� − 𝜇| ≤ 𝜀, podemos calcular, com o teorema central do limite, a probabilidade do erro 
absoluto de estimação ser menor ou igual à 𝜀. Podemos então calcular 𝑃 (|𝑍| ≤
𝜀√𝑛
𝜎
). 
Podemos reescrever: 
• 𝑃 (|𝑍| ≤
𝜀√𝑛
𝜎
) = 𝑃 (𝑍 ≤
𝜀√𝑛
𝜎
) − 𝑃 (𝑍 ≤ −
𝜀√𝑛
𝜎
) 
• 𝑃 (𝑍 ≤ −
𝜀√𝑛
𝜎
) = 1 − 𝑃 (𝑍 ≤
𝜀√𝑛
𝜎
) 
• 𝑃 (|𝑍| ≤
𝜀√𝑛
𝜎
) = 𝑃 (𝑍 ≤
𝜀√𝑛
𝜎
) − [1 − 𝑃 (𝑍 ≤
𝜀√𝑛
𝜎
)] 
• 𝑃 (|𝑍| ≤
𝜀√𝑛
𝜎
) = 2𝑃 (𝑍 ≤
𝜀√𝑛
𝜎
) − 1 
De forma geral, temos: 
Seja �̂� = 𝒇(𝑿𝟏, 𝑿𝟐, 𝑿𝟑 … 𝑿𝒏) 
𝒁 =
�̂�−𝑬(𝜽)
𝑫𝑷(𝜽)
 tal que 𝒁~𝑵𝒐𝒓[𝟎, 𝟏] 
Conhecendo 𝑫𝑷(𝜽), o desvio padrão populacional, podemos calcular: 
𝑷 (|𝒁| ≤
𝜺
𝑫𝑷(𝜽)
) = 𝟐. 𝑷 (𝒁 ≤
𝜺
𝑫𝑷(𝜽)
) − 𝟏 
Onde 𝑷 (|𝒁| ≤
𝜺
𝑫𝑷(𝜽)
) é a probabilidade do erro absoluto de estimação ser 
menor ou igual à 𝜺, um valor pré-definido como limite de acurácia da 
estimação. 
Para o estimador média amostral, temos: 
• �̅�~ 𝑁𝑜𝑟 [𝜇,
𝜎2
𝑛
] 𝑒 𝑍~𝑁𝑜𝑟[0,1] 
• 𝑍 =
�̅�−𝐸(�̅�)
𝐷𝑃(�̅�)
 
• Calcular 𝑷 (|𝒁| ≤
𝜺√𝒏
𝝈
) 
Para o estimador proporção amostral, temos: 
• �̂� ~ 𝑁𝑜𝑟 [𝑝 , 
𝑝(1−𝑝)
𝑛
] 𝑒 𝑍~𝑁𝑜𝑟[0,1] 
• 𝑍 =
𝑝−𝐸(𝑝 )
𝐷𝑃(𝑉)
 
• Calcular 𝑷(|𝒁| ≤ 𝟐𝜺√𝒏) 
Dimensionamento da amostra 
Uma das principais dúvidas é: qual deve ser o tamanho da minha amostra? Supondo que os 
elementos da amostra garantam boa representatividade da população, se formos capazes de 
especificar o nível de precisão desejado no processo de estimação, poderemos 
matematicamente obter um número adequado para o tamanho da amostra. Para 
dimensionarmos a amostra devemos fixar duas constantes: 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
 
• 𝜀  distância máxima considerada tolerável entre estimativa e parâmetro 
• 𝛼  Probabilidade de essa distância ultrapassar 𝜀 
Dimensionando a amostra para podermos estimar a média populacional, com σ conhecido, 
temos: 
• 𝑷(|�̅� − 𝝁| > 𝜺) = 𝜶 
• 𝟏 − 𝑷(|�̅� − 𝝁| ≤ 𝜺) = 𝜶 
• 𝑷(|�̅� − 𝝁| ≤ 𝜺) = 𝟏 − 𝜶 
• 𝑷 (|𝒁| ≤
𝜺√𝒏
𝝈
) = 𝟏 − 𝜶 
Pode-se mostrar que neste caso o tamanho da amostra deve ser 
𝒏 = (
𝒛
𝟏−
𝜶
𝟐
∙ 𝝈
𝜺
)
𝟐
 
 Onde “𝑧1−𝛼
2
” é o “z” que tem correlação, na tabela de distribuição normal padrão acumulada, 
com o valor “1 −
𝛼
2
”. 
Exemplo: Se 1 − 𝛼 = 0,9281, temos que 𝛼 = 0,0719, 
𝛼
2
= 0,03595 e 1 −
𝛼
2
= 0,96405. 
Arredondando pra 0,9641 temos 𝑧0,9641 cujo valor, na tabela, é 1,80. Assim, temos: 
𝑛 = (
𝑧
1−
𝛼
2
∙ 𝜎
𝜀
)
2
= (
𝑧0,9641 ∙ 𝜎
𝜀
)
2
= (
1,8 ∙ 𝜎
𝜀
)
2
= 3,24 (
𝜎
𝜀
)
2
 
Dimensionando a amostra para podermos estimar a média populacional, com σ 
desconhecido, temos: 
𝒏 = (
𝒛
𝟏−
𝜶
𝟐
∙ 𝒔𝟏
𝜺
)
𝟐
 
𝑺𝟏 = √
∑ (𝑿𝒊 − �̅� )𝟐
𝒏𝟏
𝒊
𝒏 − 𝟏
 
Tal que: 
• 𝒏𝟏  Tamanho de uma amostra piloto, usada para obter uma 
estimativa preliminar do desvio padrão 
• 𝒔𝟏  Desvio padrão preliminar, obtido pelo valor calculado de 𝑺𝟏 
Dimensionando a amostra para podermos estimar a proporção populacional, temos: 
• 𝑷(|�̂� − 𝒑| > 𝜺) = 𝜶 
• 𝟏 − 𝑷(|�̂� − 𝒑| ≤ 𝜺) = 𝜶 
• 𝑷(|�̂� − 𝒑| ≤ 𝜺) = 𝟏 − 𝜶 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 𝑷(|𝒁| ≤ 𝟐𝜺√𝒏) = 𝟏 − 𝜶 
Pode-se mostrar que neste caso o tamanho da amostra deve ser 
𝒏 = 𝒑. (𝟏 − 𝒑). (
𝒛
𝟏−
𝜶
𝟐
𝜺
)
𝟐
 
Pelo gráfico abaixo: 
 
É nítido ver que quanto mais próximo p estiver de 0,5, maior deverá ser a amostra para que 
seja atendida a especificação de precisão. Como o valor de “n” requer o próprio valor de “p”, 
desconhecido, devemos substituir “p” por uma estimativa prévia, assim como fizemos no caso 
anterior para o desvio padrão. Duas situações possíveis: 
• Se nada sabemos acerca do valor verdadeiro de p, ou se sabemos que o intervalo de 
valores possíveis de p inclui o valor 0,5, usaremos como estimativa prévia p = 0,5. 
 
• Se a informação que temos sobre p é de que 0,5 não está entre os valores possíveis, 
devemos usar como estimativa prévia o valor possível de p mais próximo de 0,5. Por 
exemplo, se a informação é de que p está entre 0,2 e 0,3, usamos o valor p = 0,3. Se, 
por outro lado, a informação é de que o verdadeiro valor de p é um número entre 
0,6 e 0,8, a estimativa prévia a ser usada é p = 0,6 . 
 
OBS: Todo arredondamento deve ser feito para cima 
Estimação porintervalo 
Vimos que 𝜃 é uma variável aleatória, chamada estimador do parâmetro 𝜃. No entanto, como 
se trata de uma estimativa, usar essa v.a. traz consigo uma considerável dose de incerteza, já 
que o estimador muda de amostra pra amostra. 
Portanto, como as vezes não podemos estimar pontualmente, já que isso traria consigo uma 
boa dose de incerteza do resultado, iremos agora estimar por intervalo. Isto é, iremos definir 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
um intervalo, com base nos dados amostrais, no qual possamos garantir que existe uma alta 
probabilidade do real valor de 𝜃 estar. 
𝑷(𝑳𝒊𝒏𝒇 ≤ 𝜽 ≤ 𝑳𝒔𝒖𝒑) = 𝟏 − 𝜶 ; 𝟎 ≤ 𝜶 ≤ 𝟏 
Onde “𝐿𝑖𝑛𝑓” e “𝐿𝑠𝑢𝑝” são estatísticas cos os respectivos valores de “𝑙𝑖𝑛𝑓” e “𝑙𝑠𝑢𝑝” e são, 
respectivamente, os limites inferior e superior. Portanto, o intervalo “(𝑙𝑖𝑛𝑓 , 𝑙𝑠𝑢𝑝)” para “𝜃” é 
dito “intervalo de confiança de 100 (𝟏 − 𝜶) % para 𝜽 “. Para simplificar, por vezes iremos 
escrever “IC” para dizer “intervalo de confiança”. O valor de “𝛼” deve ser bem pequeno e, 
obviamente, quanto mais próximos os limites forem um dos outros maior será a “força” dessa 
afirmação. 
Quando vimos erro absoluto, vimos: 
• 𝐸𝐴 = 𝜃 − 𝐸(𝜃) 
• 𝑬𝒙𝒆𝒎𝒑𝒍𝒐: 𝐸𝐴 = �̅� − 𝜇 
E quando fomos dimensionar a amostra, vimos essas duas regras: 
• 𝜀  distância máxima considerada tolerável entre estimativa e parâmetro 
• 𝛼  Probabilidade de essa distância ultrapassar 𝜀 
Dela, tiramos, pro exemplo acima: 
• 𝑃(|�̅� − 𝜇| > 𝜀) = 𝛼 
• 1 − 𝑃(|�̅� − 𝜇| ≤ 𝜀) = 𝛼 
• 𝑃(|�̅� − 𝜇| ≤ 𝜀) = 1 − 𝛼 
Para construir o IC, a lógica é semelhante. Da última fórmula acima, vamos abrir o módulo: 
• 𝑃(−𝜀 ≤ �̅� − 𝜇 ≤ 𝜀) = 1 − 𝛼 
Intervalo de confiança da média populacional com DP conhecido 
Agora, vamos estimar o intervalo de confiança para a média populacional, primeiro, 
conhecendo o desvio padrão. 
Vimos que, para uma amostra muito grande, é válido: 
• 𝑋 → {
𝐸(𝑋) = 𝜇
𝑉𝑎𝑟 (𝑋) = 𝜎2
 ; (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) 
• �̅�~ 𝑁𝑜𝑟 [𝜇,
𝜎2
𝑛
] 
Se a normalização é feita por: 
• 𝑍 =
𝑌−𝐸(𝑌)
𝐷𝑃(𝑌)
 
Reescrevemos 
• 𝑃(−𝜀 ≤ �̅� − 𝜇 ≤ 𝜀) = 1 − 𝛼 
Para: 
• 𝑃 (−
𝜀
𝐷𝑃(�̅�)
≤
�̅�−𝜇
𝐷𝑃(�̅�)
≤
𝜀
𝐷𝑃(�̅�)
) = 1 − 𝛼 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 𝑃 (−
𝜀
𝜎/√𝑛
≤
�̅�−𝜇
𝜎/√𝑛
≤
𝜀
𝜎/√𝑛
) = 1 − 𝛼 
Isso implica que 
• 𝑧1−𝛼
2
=
𝜀
𝜎/√𝑛
→ 𝜀 =
𝜎.𝑧
1−
𝛼
2
√𝑛
 
Portanto, reescrevemos: 
• 𝑃(−𝜀 ≤ �̅� − 𝜇 ≤ 𝜀) = 1 − 𝛼 
Para: 
• 𝑃 (−
𝜎.𝑧
1−
𝛼
2
√𝑛
≤ �̅� − 𝜇 ≤ 
𝜎.𝑧
1−
𝛼
2
√𝑛
) = 1 − 𝛼 
Subtraindo os dois lados por �̅�, ficamos com: 
• 𝑃 (−
𝜎.𝑧
1−
𝛼
2
√𝑛
− �̅� ≤ − 𝜇 ≤ 
𝜎.𝑧
1−
𝛼
2
√𝑛
− �̅�) = 1 − 𝛼 
Multiplicando os dois lados por -1, temos: 
• 𝑃 (
𝜎.𝑧
1−
𝛼
2
√𝑛
+ �̅� ≥ 𝜇 ≥ −
𝜎.𝑧
1−
𝛼
2
√𝑛
+ �̅�) = 1 − 𝛼 
Ou ainda: 
• 𝑃 ( �̅� −
𝜎.𝑧
1−
𝛼
2
√𝑛
≤ 𝜇 ≤ �̅� + 
𝜎.𝑧
1−
𝛼
2
√𝑛
) = 1 − 𝛼 
Portanto, se: 
• 𝑃(𝐿𝑖𝑛𝑓 ≤ 𝜇 ≤ 𝐿𝑠𝑢𝑝) = 1 − 𝛼 ; 0 ≤ 𝛼 ≤ 1 
Temos que, para a média populacional com desvio padrão conhecido: 
𝑳𝒊𝒏𝒇 = �̅� −
𝝈. 𝒛
𝟏−
𝜶
𝟐
√𝒏
 
𝑳𝒔𝒖𝒑 = �̅� + 
𝝈. 𝒛
𝟏−
𝜶
𝟐
√𝒏
 
𝒍𝒊𝒏𝒇 = �̅� −
𝝈. 𝒛
𝟏−
𝜶
𝟐
√𝒏
 
𝒍𝒔𝒖𝒑 = �̅� + 
𝝈. 𝒛
𝟏−
𝜶
𝟐
√𝒏
 
𝑰𝑪 = [�̅� − 𝒛
𝟏−
𝜶
𝟐
𝝈
√𝒏
 , �̅� + 𝒛
𝟏−
𝜶
𝟐
𝝈
√𝒏
] 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Vale notar que “𝐿𝑖𝑛𝑓 , 𝐿𝑠𝑢𝑝” são v.a.s com valores particulares “𝑙𝑖𝑛𝑓 , 𝑙𝑠𝑢𝑝” respectivamente. Se 
são v.a.’s podemos falar da distribuição delas: 
• 𝐸(𝐿𝑖𝑛𝑓) = 𝐸(�̅�) −
𝜎.𝑧
1−
𝛼
2
√𝑛
= 𝜇 −
𝜎.𝑧
1−
𝛼
2
√𝑛
 
• 𝐸(𝐿𝑠𝑢𝑝) = 𝐸(�̅�) +
𝜎.𝑧
1−
𝛼
2
√𝑛
= 𝜇 +
𝜎.𝑧
1−
𝛼
2
√𝑛
 
• 𝑉𝑎𝑟(𝐿𝑖𝑛𝑓) = 𝑉𝑎𝑟(�̅�) =
𝜎2
𝑛
 
• 𝑉𝑎𝑟(𝐿𝑠𝑢𝑝) = 𝑉𝑎𝑟(�̅�) =
𝜎2
𝑛
 
Logo: 
• 𝐿𝑖𝑛𝑓 ~ 𝑁𝑜𝑟 [𝜇 −
𝜎.𝑧
1−
𝛼
2
√𝑛
,
𝜎2
𝑛
] 
• 𝐿𝑠𝑢𝑝 ~ 𝑁𝑜𝑟 [𝜇 +
𝜎.𝑧
1−
𝛼
2
√𝑛
,
𝜎2
𝑛
] 
De forma genérica: 
𝑷 ( �̂� − 𝒛
𝟏−
𝜶
𝟐
. 𝑫𝑷(�̂�) ≤ 𝑬(�̂�) ≤ �̂� + 𝒛
𝟏−
𝜶
𝟐
. 𝑫𝑷(�̂�)) = 𝟏 − 𝜶 
𝑰𝑪 = [�̂� − 𝒛
𝟏−
𝜶
𝟐
. 𝑫𝑷(�̂�) , �̂� + 𝒛
𝟏−
𝜶
𝟐
. 𝑫𝑷(�̂�)] 
UM CUIDADO! 𝑷(𝟏 ≤ 𝝁 ≤ 𝟐) = 𝟎, 𝟗𝟓𝟏 é algo possível? A resposta é não. A probabilidade de 
a média populacional estar entre 1 e 2 nunca vai poder ser algo diferente de 0 ou 1, pois 𝝁 é 
uma constante e ou ela está dentro de um intervalo ou não. Portanto a interpretação correta 
pra 𝟏 − 𝜶 não é a probabilidade de um 𝝁 qualquer estar dentro de dado intervalo e sim a 
probabilidade de um intervalo conter dentro dele o valor real de 𝝁. 
Intervalo de confiança da média populacional com DP desconhecido 
Quando o DP é desconhecido, podemos, caso a amostra seja grande (n>30), simplesmente 
substituir o desvio padrão “𝜎” por uma estimativa pontual, calculada pelo desvio padrão 
amostral. Já fizemos isso anteriormente. Logo: 
𝒁 =
�̅� − 𝝁
𝝈/√𝒏
 ≅
�̅� − 𝝁
𝑺
√𝒏
= 𝒇(�̅�, 𝑺) 
𝑺 = √
∑ (𝑿𝒊 − �̅� )𝟐
𝒏𝟏
𝒊
𝒏 − 𝟏
 
𝒏 ≥ 𝟑𝟎 
Fizemos essa mesma consideração para a parte de dimensionamento da amostra 
dessa matéria. Veja que ao fazer essa substituição, escrevemos Z como uma função de 
duas v.a.’s. Se n for maior ou igual a 30, Z permanecerá com distribuição normal 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
padrão. Caso contrário, fica mais complicado. Se n < 30) o erro cometido ao usarmos a 
distribuição Normal padrão é muito grande e será necessário alterar a metodologia 
aqui apresentada. Nesse caso, trocamos a letra Z pela letra T: 
𝑻 =
�̅� − 𝝁
𝑺/√𝒏
 
Onde T tem a distribuição t de Student. Algumas observações sobre essa distribuição: 
• Derivada da normal 
• Dependente de um parâmetro "ν", um número inteiro, chamado número de 
graus de liberdade. À medida que o número de graus de liberdade tende a 
infinito, a curva de t de Student se aproxima cada vez mais da Normal Padrão 
• A função de densidade dessa distribuição é também uma curva simétrica 
centrada em zero, porém ela é mais dispersa em torno de zero que a normal 
padrão 
• O cálculo de probabilidades associadas à essa distribuição pode ser feito com 
uma segunda tabela de probabilidades 
 
Vamos aprender a usar a tabela da t de Student. Imagine uma v.a. T que siga essa 
distribuição com "ν" graus de liberdade. Vamos usar a seguinte notação: 
• "p"  área sob a curva e à esquerda de tP,ν 
• "tP,ν"  representa um valor da variável T, também chamada de quantil de T 
Logo: 
𝑷(𝑻 ≤ 𝒕𝑷,𝝂) = 𝒑 
 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Uma parte da tabela: 
 
A tabela da valores de 𝑡𝑃,𝜈 para 𝑝 e 𝜈 especificados. 
OBS: Para um certo ν fixado, se p<0,5, então 𝒕𝒑,𝝂= -𝒕𝟏−𝒑,𝝂 
• Exemplo: qual a probabilidade de 𝑡𝑃,10 = 2,31? 
• Olhar na linha de 𝜈 = 10 para os números mais próximos de 2,31. Da pra ver que esse 
número está entre os valores 0,975 e 0,98 de P, logo: 
0,975 ≤ 𝑃(𝑇 ≤ 𝑡𝑃,10 = 2,31) ≤ 0,98 
• Exemplo: qual é 𝑡0,05,7? 
• Se 𝑡𝑝,𝜈= -𝑡1−𝑝,𝜈, então 𝑡0,05,7= -𝑡1−0,05,7= -𝑡0,95,7=-1,895 
Agora que sabemos usar a tabela e conhecemos a distribuição, vamos construir o intervalo de 
confiança. O intervalo de confiança terá uma configuração semelhante. Para a média 
populacional ele será: 
𝑰𝑪 = [�̅� − 𝒕
𝟏−
𝜶
𝟐
𝒔
√𝒏
 , �̅� + 𝒕
𝟏−
𝜶
𝟐
𝒔
√𝒏
] 
Onde “s”é o desvio padrão calculado pela fórmula abaixo e “𝒕𝟏−𝜶𝟐
” é o quantil da distribuição 
t de Student. 
• 𝑆 = √
∑ (𝑋𝑖−�̅� )2
𝑛1
𝑖
𝑛−1
 
Lembra dos números do nosso diagrama ramo folha? 
• 56,56,56,58,59,60,60,60,61,78,79,88,88,89,89,91,93,95,97,97,97,103,105,158 
Para ele, tínhamos: 
• 𝑛 = 24 
• 𝜇 = 82,2 
• 𝑠 = 23,78 
Vamos supor um intervalo de confiança de 90%, logo: 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 1 − 𝛼 = 0,9 → 𝛼 = 0,1 →
𝛼
2
= 0,05 → 1 −
𝛼
2
= 0,95 
Se o número de graus de liberdade é 
• 𝜈 = 𝑛 − 1 
• 𝜈 = 23 
Basta olhar na tabela o valor de 𝑡𝑝,𝜈 = 𝑡0,95,23 
 
Logo: 
• 𝑡1−𝛼
2
= 1,714 
Assim: 
• 𝐼𝐶 = [�̅� − 𝑡1−𝛼
2
𝑠
√𝑛
 , �̅� + 𝑡1−𝛼
2
𝑠
√𝑛
] 
• 𝐼𝐶 = [82,2 − 1,714
23,78
√24
 , 82,2 + 1,714
23,78
√24
] 
• 𝐼𝐶 = [73,88 ; 90,52] 
Intervalo de confiança para a proporção populacional 
Da fórmula geral para intervalos de confiança: 
• 𝑃 ( 𝜃 − 𝑧1−𝛼
2
. 𝐷𝑃(𝜃) ≤ 𝐸(𝜃) ≤ 𝜃 + 𝑧1−𝛼
2
. 𝐷𝑃(𝜃)) = 1 − 𝛼 
• 𝐼𝐶 = [𝜃 − 𝑧1−𝛼
2
. 𝐷𝑃(𝜃) , 𝜃 + 𝑧1−𝛼
2
. 𝐷𝑃(𝜃)] 
E sabendo que a proporção populacional tem a seguinte distribuição: 
• �̂� ~ 𝑁𝑜𝑟 [𝑝 , 
𝑝(1−𝑝)
𝑛
] 
Se 𝜃 = �̂�, a fórmula geral fica da forma: 
• 𝑃 ( �̂� − 𝑧1−𝛼
2
. √
𝑝(1−𝑝)
𝑛
≤ 𝑝 ≤ �̂� + 𝑧1−𝛼
2
. √
𝑝(1−𝑝)
𝑛
) = 1 − 𝛼 
• 𝐼𝐶 = [�̂� − 𝑧1−𝛼
2
. √
𝑝(1−𝑝)
𝑛
 , �̂� + 𝑧1−𝛼
2
. √
𝑝(1−𝑝)
𝑛
] 
Temos, agora, um problema. O intervalo de confiança contém em sua fórmula o próprio “p”, 
que é exatamente o que estamos querendo determinar (no caso, não pontualmente, mas por 
intervalo). Como proceder? Dois caminhos são possíveis: 
𝑰𝑪 = [�̂� − 𝒛
𝟏−
𝜶
𝟐
.
𝟏
√𝟒𝒏 
 , �̂� + 𝒛
𝟏−
𝜶
𝟐
.
𝟏
√𝟒𝒏 
] 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
𝑰𝑪 = [�̂� − 𝒛
𝟏−
𝜶
𝟐
. √
�̂�(𝟏 − �̂�)
𝒏
 , �̂� + 𝒛
𝟏−
𝜶
𝟐
. √
�̂�(𝟏 − �̂�)
𝒏
] 
No primeiro caso, consideremos a propriedade de que, pra qualquer “p”, “𝑝(1 − 𝑝)” é menor 
que ¼ ou igual. No segundo, fizemos uma opção conservativa (que, portanto, vai dar intervalos 
maiores) na qual substituímos a proporção populacional por sua estimativa. 
Exemplo: Um fabricante de pentes de memória RAM para computadores, que produz em 
grandes quantidades, deseja estimar a fração p de unidades defeituosas elaboradas por sua 
indústria. Para isso ele selecionou uma amostra aleatória de 200 unidades e verificou que, 
entre elas, 5 eram defeituosas. Construa um intervalo de confiança de 95% para p . 
Resolução: 
Da definição de proporção: 
• 𝑋~ 𝐵𝑒𝑟[𝑝] → {
𝐸(𝑋) = 𝑝
𝑉𝑎𝑟 (𝑋) = 𝑝(1 − 𝑝)
 ; (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) 
• 𝑌~ 𝐵𝑖𝑛[𝑛, 𝑝] → {
𝐸(𝑋) = 𝑛𝑝
𝑉𝑎𝑟 (𝑋) = 𝑛𝑝(1 − 𝑝)
 ; �̂� =
𝑌
𝑛
 
• �̂� ~ 𝑁𝑜𝑟 [𝑝 , 
𝑝(1−𝑝)
𝑛
] 
Se em 200 peças, 5 são defeituosas, a probabilidade de uma peça sair defeituosa é 5/200 = 
0,025. Logo p=0,025. Como são 200 peças, n=200. Assim: 
• 𝑋~ 𝐵𝑒𝑟[𝑝] → {
𝐸(𝑋) = 0,025
𝑉𝑎𝑟 (𝑋) = 0,024375
 ; (𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) 
• 𝑌~ 𝐵𝑖𝑛[𝑛, 𝑝] → {
𝐸(𝑋) = 5
𝑉𝑎𝑟 (𝑋) = 4,875
 ; �̂� =
𝑌
200
 
• �̂� ~ 𝑁𝑜𝑟 [0,025 , 0,000121875] 
Seja: 
• 1 − 𝛼 = 0,95 → 𝛼 = 0,05 →
𝛼
2
= 0,025 → 1 −
𝛼
2
= 0,975 
• 𝑧1−𝛼
2
= 𝑧0,975 = 1,96 
Construindo os intervalos, temos, para o primeiro modelo: 
• 𝐼𝐶 = [�̂� − 𝑧1−𝛼
2
.
1
√4𝑛 
 , �̂� + 𝑧1−𝛼
2
.
1
√4𝑛 
] 
• 𝐼𝐶 = [0,025 − 1,96.
1
√800 
 , 0,025 + 1,96.
1
√800 
] 
• 𝐼𝐶 = [−0,044296 , 0,094296] 
Para o segundo modelo: 
• 𝐼𝐶 = [�̂� − 𝑧1−𝛼
2
. √
𝑝(1−�̂�)
𝑛
 , �̂� + 𝑧1−𝛼
2
. √
𝑝(1−�̂�)
𝑛
] 
• 𝐼𝐶 = [0,025 − 1,96. √
0,025(0,975)
200
 , 0,025 + 1,96. √
0,025(0,975)
200
] 
• 𝐼𝐶 = [0,003362 , 0,046638] 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
A proporção populacional n pode estar em números negativos porque o IC é um intervalo de 
probabilidades! E não existe nem probabilidade maior que 1 e nem menor que 0. O segundo 
modelo de conta da um resultado real. A interpretação é: 
A real proporção de pentes defeituosos tem 95% de probabilidade de estar entre 0,33% e 
4,66%. 
Introdução à teoria dos testes de 
hipóteses 
No presente Capítulo também lidamos com amostras aleatórias e parâmetros populacionais. 
Porém, agora formularemos uma hipótese sobre o valor do parâmetro de interesse e a 
informação obtida a partir dos dados amostrais será usada para confirmar ou refutar essa 
hipótese. 
Um bom exemplo pra teste de hipóteses é a venda de algum produto com determinada 
especificação. Posso decidir compra-lo ou não, dependendo disso. Se for feito um ensaio para 
verificar determinada especificação e constatar que ela não se aplica, eu posso acabar por não 
comprar o produto. No entanto, como existe erro na medida da especificação e erro associado 
ao meu ensaio, há a possibilidade tanto de eu estar errado e o produto atender ao que eu 
necessito quanto do vendedor estar errado e ele realmente estar vendendo um produto cuja 
especificação nominal difere da real. 
Um procedimento de teste de hipótese permite avaliar a validade (ou não) de uma afirmação 
sobre uma determinada característica da população, usando para isso os dados de uma 
amostra dessa população. 
Vamos supor que essa característica é descrita por uma variável aleatória 
𝑿 → 𝒗. 𝒂. 𝒄𝒐𝒏𝒕í𝒏𝒖𝒂 𝒅𝒆 𝒅𝒂𝒅𝒐𝒔 𝒂𝒎𝒐𝒔𝒕𝒓𝒂𝒊𝒔 (𝑿𝟏, 𝑿𝟐, 𝑿𝟑 … 𝑿𝒏) 
Se X é uma v.a. contínua, então ela possui uma função de densidade. Imagine que essa função 
de densidade seja dependente de um parâmetro θ. Vamos então fazer uma hipótese sobre 
esse parâmetro? Afinal, se a hipótese se mostrar correta, temos conhecimento do parâmetro, 
logo da função de densidade, logo da distribuição de X e logo da característica em questão. As 
hipóteses serão: 
𝑯𝟎 → 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒆 𝒏𝒖𝒍𝒂 
𝑯𝟏 → 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒆 𝒂𝒍𝒕𝒆𝒓𝒏𝒂𝒕𝒊𝒗𝒂 
Exemplo: 
• População = alunos de probest 
• Característica = idade 
• Sendo X a distribuição de idades dos alunos de probest, minha hipótese é de que 
E(X)=23. Logo, minhas hipóteses serão: 
• 𝐻0 = 23 𝑎𝑛𝑜𝑠 
• 𝐻1 ≠ 23 𝑎𝑛𝑜𝑠 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Perceba que a hipótese alternativa é bilateral, ou seja, a alternativa é não ser a nula, logo pode 
ser tanto maior quanto menor. Dada a minha hipótese, podemos nos decidir entre aceitar ela 
ou rejeitar ela. 
É importante ressaltar que as hipóteses serão sempre sobre a população e não sobre a 
amostra. Contudo, vamos sempre utilizar as informações das amostras pra testar a hipótese. 
Note que existe sempre também um erro associado à nossa decisão, e vamos querer calculá-lo 
também. Erros podem ser realmente cometidos, simplesmente pelo fato de que a decisão é 
tomada com base em apenas um nível de informação parcial e incompleto sobre a população 
em estudo: aquele que está na amostra. E é justamente por não dispormos de informação total 
e completa que podemos ser traídos pelos dados e levados a uma decisão incorreta. 
Nossa decisão, geralmente, deve ser baseada em um critério. Usualmente, a escolha desse 
critério é o uso de uma estatística de teste, que nada mais é do que uma estatística, ou seja, 
uma função real 𝑓(𝑋1, 𝑋2, 𝑋3 … 𝑋𝑛) com possíveis valores (𝑥1, 𝑥2, 𝑥3 … 𝑥𝑛). 
Esses possíveis valores são organizados em dois conjuntos, ou melhor, regiões: 
Região de Aceitação (A) 
Região de Rejeição ou Crítica (R) 
Assim, conforme o valor dessa função é calculado, a partir de uma amostra, aceita-se ou 
rejeita-se a hipótese dependendode qual região os dados coletados pertencem. A mesma 
formulação se aplica também ao caso discreto. Para isso basta substituirmos a função de 
densidade f por uma função de probabilidade p. 
Os erros relacionados a nossa decisão são classificados em dois tipos: 
Erro I  Rejeitar 𝑯𝟎 quando 𝑯𝟎 é verdadeira 
Erro II  Aceitar 𝑯𝟎 quando 𝑯𝟎 é falsa 
E cada erro tem sua probabilidade de ocorrer: 
𝑷(𝑬𝒓𝒓𝒐 𝑰) = 𝜶 
𝑷(𝑬𝒓𝒓𝒐 𝑰𝑰) = 𝜷 
Esses foram os conceitos iniciais. Nos falta estudar os critérios de decisão e de elaboração da 
estatística de teste. 
Informações sobre as hipóteses 
Na hora de olhar as hipóteses possíveis, devemos especificar qual é a nula e qual é a 
alternativa. É usual que na formulação do teste de hipótese, a hipótese nula seja a mais 
conservadora, enquanto a alternativa é a hipótese mais inovadora. No caso da compra de um 
produto, a hipótese de que ele realmente atende. Às especificações nominais é usualmente a 
hipótese nula pois, se se mostrar verdadeira, não causa problema a ninguém. Cliente e 
vendedor saem satisfeitos. Mas, dependendo do produto, sua utilização, quando ele é de má 
qualidade, pode ser deletério para os usuários. Nesse caso, a hipótese de que o produto não 
atende às especificações nominais de venda é a hipótese alternativa por ser mais inovadora. 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Inovador e Conservador, nesse exemplo, estão no sentido de ser ou não ser prejudicial. Outras 
interpretações são cabíveis 
Dizemos que uma hipótese é simples se ela corresponde à um único valor do parâmetro θ. 
Analogamente, a hipótese é dita composta se ela diz respeito a mais de um valor para o 
parâmetro (desigualdades, por exemplo, expressam esse comportamento). É comum 
entendermos a hipótese nula como uma hipótese simples e a alternativa como uma 
composta. Hipóteses compostas possuem mais de uma distribuição de probabilidade e, 
usualmente, são infinitas distribuições. 
Informações sobre os erros e suas probabilidades 
Vimos que: 
• Erro I  Rejeitar 𝐻0 quando 𝐻0 é verdadeira 
• Erro II  Aceitar 𝐻0 quando 𝐻0 é falsa 
• 𝑃(𝐸𝑟𝑟𝑜 𝐼) = 𝛼 
• 𝑃(𝐸𝑟𝑟𝑜 𝐼𝐼) = 𝛽 
Como se trata de probabilidades de erros, o ideal seria que 𝜶 e 𝜷 fossem simultaneamente 
pequenos. Seja o erro II a probabilidade de aceitar a hipótese nula quando ela é falsa, se 
quisermos que o erro II tenha probabilidade menor, a região de aceitação (A) teria que ser 
menor. E diminuir essa região é aumentar a outra, tornando a probabilidade do erro I maior. 
Perceba, no entanto, que isso só é verdade para um “n” fixo. Então para os erros terem suas 
probabilidades diminuídas simultaneamente, devemos aumentar o tamanho da amostra. 
Por definição, o erro I é calculado considerando 𝐻0 como verdadeira, enquanto o erro II é 
calculado considerando 𝐻1 como verdadeiro. Como 𝐻1 tem infinitas distribuições, existem 
infinitos valores de 𝛽. Assim, é mais importante calcular 𝛼. O erro I é tratado como o erro mais 
importante de ser rejeitado. Existe subjetividade na escolha do erro mais importante, mas 
vamos aqui considerar que ele é o Erro I mesmo e que a hipótese 𝐻0 foi corretamente 
formulada sempre. 
Exemplo: 
• Imagine 
• Baterias originais  𝑋~𝑁𝑜𝑟[180,402] 
• Baterias falsificadas  𝑌~𝑁𝑜𝑟[150,402] 
Conhecemos a distribuição de duração, em minutos, do tempo de baterias originais de certa 
marca e de baterias falsas. Queremos saber se compramos ou não essa bateria a partir de 
dados obtidos de um ensaio. Recebemos 25 baterias para esse ensaio. Chegamos a conclusão 
que a média amostral é de 167,4 minutos (�̅� = 167,4). Como concluir se as baterias são falsas 
ou não com essa informação? 
Como a situação em jogo é a reputação de quem vende a bateria, é normal assumir que: 
• 𝐻0 = 𝑏𝑎𝑡𝑒𝑟𝑖𝑎𝑠 𝑠ã𝑜 𝑜𝑟𝑖𝑔𝑖𝑛𝑎𝑖𝑠 
• 𝐻1 = 𝑏𝑎𝑡𝑒𝑟𝑖𝑎𝑠 𝑠ã𝑜 𝑓𝑎𝑙𝑠𝑎𝑠 
E o que define verdadeiro e falso é a média de duração da bateria, que é diferente pra cada 
um, logo: 
• 𝐻0 → 𝜇 = 180 𝑚𝑖𝑛 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 𝐻1 → 𝜇 = 150 𝑚𝑖𝑛 
Logo a média populacional será nossa estatística de teste. 
Perceba que nossa média obtida no ensaio não é nem uma das acima, logo não podemos 
afirmar, só pelo número, que qualquer uma dessas hipóteses está correta. Mas aceitando uma 
delas como correta, podemos estabelecer os erros dessa suposição e construir a região de 
aceitação e de rejeição. 
Como queremos comprar a bateria, queremos que elas não sejam falsas. O erro que 
queremos minimizar é o Erro I, isto é, o erro de rejeitar a hipótese nula quando ela é 
verdadeira. Ou seja, queremos que a probabilidade de concluir que a bateria é falsificada 
quando na realidade ela não é seja mínima. 
No presente exemplo, qual seria o critério de decisão a ser adotado se quisermos fixar o valor 
de α em 0,05? 
Seja �̅�𝐶 a fronteira das regiões de aceitação e rejeição, chamado de valor crítico ou ponto de 
corte, de forma que: 
• �̅� ≥ �̅�𝐶 → 𝑎𝑐𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0 
• �̅� ≤ �̅�𝐶 → 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0 
Vamos aceitar 𝐻0 como correta. Se é esse o caso, queremos que a probabilidade de 
aceitarmos o 𝐻0 visto que ele é correto seja alta e a probabilidade de rejeitar 𝐻0 sabendo que 
ele é verdadeiro seja baixa. No segundo caso, temos exatamente a definição do Erro I. 
• 𝑃(�̅� ≥ �̅�𝐶) → 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝑑𝑒 𝑎𝑐𝑒𝑖𝑡𝑎𝑟 𝐻0 
• 𝑃(�̅� ≤ �̅�𝐶) → 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝑑𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 
• 𝑃(�̅� ≤ �̅�𝐶) = 𝑃(𝐸𝑟𝑟𝑜 𝐼) = 𝛼 
Fazendo as contas: 
�̅�~ 𝑵𝒐𝒓 [𝝁,
𝝈𝟐
𝒏
] → �̅�~ 𝑵𝒐𝒓 [𝟏𝟖𝟎,
𝟒𝟎𝟐
𝟐𝟓
] → �̅�~ 𝑵𝒐𝒓 [𝟏𝟖𝟎, 𝟔𝟒] 
• 𝑃(�̅� ≤ �̅�𝐶) = 𝛼 
• 𝑃(�̅� − 180 ≤ �̅�𝐶 − 180) = 0,05 
• 𝑃 (
�̅�−180
8
≤
�̅�𝐶−180
8
) = 0,05 
• 1 − 𝑃 (𝑍 ≤
�̅�𝐶−180
8
) = 1 − 0,05 
• 𝑃 (𝑍 ≤
180−�̅�𝐶
8
) = 0,95 
• 𝑧 = 1,64 
• 
180−�̅�𝐶
8
= 1,64 
• �̅�𝐶 = 166,88 𝑚𝑖𝑛 
Por fim, temos: 
• �̅� ≥ 166,88 → 𝑎𝑐𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0 
• �̅� ≤ 166,88 → 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
Como nossa média populacional deu 167,4 minutos, que é maior que o ponto de corte, temos 
informações o suficiente para concluir que a hipótese nula é real e, portanto, as baterias são 
verdadeiras. Decidimos então por compra-las. 
Vamos agora aceitar 𝐻1 como correta. Se é esse o caso, queremos que a probabilidade de 
aceitarmos o 𝐻0 visto que ele é incorreto (já que o correto é 𝐻1) seja baixa e a probabilidade 
de rejeitar 𝐻0 sabendo que ele é falso seja baixa. No primeiro caso, temos exatamente a 
definição do Erro II. 
Podemos reescrever: 
• �̅� ≥ 166,88 → 𝑎𝑐𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0 
• �̅� ≤ 166,88 → 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0 
Para 
• �̅� ≥ 166,88 → 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻1 
• �̅� ≤ 166,88 → 𝑎𝑐𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻1 
Então: 
• 𝑃(�̅� ≥ 166,88) → 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝑑𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻1 
• 𝑃(�̅� ≤ 166,88) → 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝑑𝑒 𝑎𝑐𝑒𝑖𝑡𝑎𝑟 𝐻1 
• 𝑃(�̅� ≤ 166,88) = 𝑃(𝐸𝑟𝑟𝑜 𝐼𝐼) = 𝛽 
Fazendo as contas: 
�̅�~ 𝑵𝒐𝒓 [𝝁,
𝝈𝟐
𝒏
] → �̅�~ 𝑵𝒐𝒓 [𝟏𝟓𝟎,
𝟒𝟎𝟐
𝟐𝟓
] → �̅�~ 𝑵𝒐𝒓 [𝟏𝟓𝟎, 𝟔𝟒] 
• 𝑃(�̅� ≤ 166,88) = 𝛽 
• 𝑃(�̅� − 180 ≤ −16,88) = 𝛽 
• 𝑃 (
�̅�−180
8
≤ −2,11) = 𝛽 
• 1 − 𝑃(𝑍 ≤ 2,11) = 𝛽 
• 𝑃(𝑍 ≤ 2,11) = 1 − 𝛽 
• 1 − 𝛽 = 0,9826 
• 𝛽 = 0,0174 
A hipótese H1 do exemplo acima está baseada em uma única distribuição de probabilidade, ou 
seja, é uma hipótese simples. Esta condição tornou fácil o cálculo do erro tipo II. Entretanto 
este não é o caso usual nos testes de hipóteses, já que geralmente H1 é uma hipótese 
composta. 
Podemos generalizar: 
• 𝑃(�̅� ≤ �̅�𝐶) = {
𝛼, 𝑠𝑒 𝑎𝑠𝑠𝑢𝑚𝑖𝑟𝑚𝑜𝑠𝐻0 𝑐𝑜𝑚𝑜 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜
𝛽, 𝑠𝑒 𝑎𝑠𝑠𝑢𝑚𝑖𝑟𝑚𝑜𝑠 𝐻1 𝑐𝑜𝑚𝑜 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜
 
• �̅� ≤ �̅�𝐶 → Zona de Rejeição de 𝐻0 
Rotina para obtenção do critério de decisão 
1. Especificar H0 e H1, onde H0 deverá conter sempre a igualdade (ou seja, deve conter o 
valor do parâmetro θ que está exatamente na fronteira entre as regiões 
correspondentes a H0 e a H1.). 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
2. Escolher um valor para α = P[Erro I], também chamado nível de significância do teste 
(usualmente escolhe-se α igual a 0,01 ou 0,05). 
3. Eleger a estatística de teste T(X1, X2, ..., Xn), uma variável aleatória que depende de X1, 
X2, ..., Xn e que, supostamente, “resume toda a informação relevante” para que se 
decida por H0 ou por H1. 
4. Determinar a distribuição de probabilidade de t correspondente a H0, lembrando que 
H0 será sempre considerada como uma hipótese simples. 
5. Especificar a região de rejeição R, ou seja, o conjunto de valores de t que nos levarão a 
rejeitar H0, de tal forma a que o nível de significância do teste seja igual ao α escolhido 
no 2º passo e trabalhando com a distribuição de T determinada no 4º passo. 
Automaticamente estará também especificada a Região de Aceitação A, 
complementar de R dentro do conjunto dos valores possíveis de t. 
6. Coletar os dados x1, x2, ..., xn, calcular valor de T(x1, x2, ..., xn) e decidir pela rejeição ou 
pela aceitação de H0, conforme o critério especificado no 5º passo. 
 
Obs.: Recomenda-se que a coleta da amostra só seja feita no último passo, para que o 
pesquisador não sofra uma possível influência proveniente do conhecimento prematuro dos 
dados, comprometendo assim a postura de neutralidade que dele se espera. 
Teste para média populacional 
Aqui, elegeremos como estatística de teste a média populacional, cuja distribuição é 
aproximadamente normal, conforme já visto. 
Seja μ0 uma constante conhecida. O roteiro para se construir um teste de hipótese para μ, 
quando σ é conhecido, é o seguinte: 
 
1) Especificar o tipo de teste a partir da especificação das hipóteses 
 
Como 𝜇 = 𝜇𝑜 é uma situação limite nos dois testes unilaterais, iremos considerar essa 
igualdade para 𝐻0 unilateral. 
2) Escolher o nível de significância 𝛼 
3) Usar como estatística de teste a normalização 𝑍 = 
�̅�−𝜇𝑜
𝜎
√𝑛
⁄
 tal que 𝑍~𝑁𝑜𝑟[0,1] 
4) Obter a região de rejeição considerando os passos anteriores (R=conjunto de valores 
de Z que nos levam a rejeitar 𝐻0). 
5) Coletar os dados e decidir pela aceitação ou rejeição de 𝐻0. 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
 
Caso 𝜎 não seja conhecido, usamos a distribuição T de Student: 
𝑻 = 
�̅� − 𝝁𝒐
𝒔
√𝒏
⁄
 
Com “n-1” graus de liberdade e região de rejeição igual ao dos gráficos, porém trocando “Z” 
por “T” e “z” por “t”. 
O conceito de p-valor 
Vamos agora definir o conceito de nível crítico ou p-valor associado a uma certa metodologia 
de Teste de Hipótese e a uma determinada amostra. O nível crítico ou p-valor é o menor valor 
de α (nível de significância do teste) para o qual, ao usar essa metodologia (ou seja, esse 
procedimento de teste) e trabalhar com os valores observados x1, x2, ..., xn, ainda 
rejeitaríamos H0. O p-valor costuma ser representado pelo símbolo �̃�. 
Imagine uma situação onde um nível de significância α é utilizado e com os números do 
problema, concluímos que devemos rejeitar H0. Imagine agora que o nível de significância α’, 
menor que α, nos fornece como resultado a aceitação de H0. Portanto, entre α e α’ existe um 
valor de nível de significância que é o limite da inversão de rejeição e aceitação. Esse valor será 
o p-valor. 
Encontrar o p-valor é fácil. Veja um exemplo: 
Um produto químico tem seu teor de pureza distribuído conforme uma Normal com média 
0,72 e desvio padrão 0,02. A fim de aumentar a pureza, o produto é submetido a um 
tratamento. Dezesseis unidades amostrais do produto são selecionadas de forma aleatória e 
submetidas a esse tratamento. Em seguida, a pureza de cada unidade é determinada obtendo-
se, para elas, uma média aritmética de 0,73. Podemos dizer que o tratamento contribuiu para 
o aumento da pureza? Considere nível de significância = 0,05. 
Resolução: 
• {
𝐻𝑜: 𝑛ã𝑜 𝑎𝑢𝑚𝑒𝑛𝑡𝑜 𝑑𝑒 𝑝𝑢𝑟𝑒𝑧𝑎 → 𝜇 ≤ 0,72
𝐻1: 𝑎𝑢𝑚𝑒𝑛𝑡𝑜 𝑑𝑒 𝑝𝑢𝑟𝑒𝑧𝑎 → 𝜇 > 0,72
 
A zona de rejeição: 
• 𝑍 > 𝑧1−𝛼 
• 
�̅�−𝜇𝑜
𝜎
√𝑛
> 𝑧1−𝛼 
• 
�̅�−0,72
0,02
√16
> 𝑧1−0,05 
• 
�̅�−0,72
0,005
> 𝑧0,95 
[EQ-UFRJ 2017.1] Probest [P2] [por Rafael Ratier] 
• 
�̅�−0,72
0,005
> 1,64 • �̅� − 0,72 > 0,0082 
• �̅� > 0,7282 
Vemos claramente que 0,73 está na zona de rejeição. Rejeitar H0 é dizer que houve sim 
aumento de pureza. Mas se mudarmos o nível de significância pra 0,01? Veja: 
A zona de rejeição: 
• 𝑍 > 𝑧1−𝛼 
• 
�̅�−𝜇𝑜
𝜎
√𝑛
> 𝑧1−𝛼 
• 
�̅�−0,72
0,02
√16
> 𝑧1−0,01 
• 
�̅�−0,72
0,005
> 𝑧0,99 
• 
�̅�−0,72
0,005
> 2,33 
• �̅� − 0,72 > 0,01165 
• �̅� > 0,73165 
Agora, a zona é de aceitação já que nossa média populacional é 0,73. Existe portanto um valor 
de significância que é exatamente o limite entre aceitação e rejeição de H0. Para encontrar ele, 
basta considerar nível de significância desconhecido e usar o valor da média populacional no 
cálculo de probabilidades: 
• 𝑃(�̅� > 0,73) = 𝛼 
• 𝑃(�̅� − 0,72 > 0,01) = 𝛼 
• 𝑃 (
�̅�−0,72
0,005
> 2) = 𝛼 
• 𝑃(𝑍 > 2) = 𝛼 
• 1 − 𝑃(𝑍 ≤ 2) = 𝛼 
• 1 − 0,9772 = 𝛼 
• 𝛼 = 0,0228 
Portanto, o p valor é calculado por: 
�̃� = 𝑷(�̅� > �̅�𝒂𝒎𝒐𝒔𝒕𝒓𝒂𝒍) 
Teste para proporções 
Possui o mesmo passo a passo, sem peculiaridades. As zonas de rejeição são, pulando o 
desenvolvimento matemático: 
 
𝝈𝒐 = √
𝒑𝒐(𝟏 − 𝒑𝒐)
𝒏

Continue navegando