Bioestatística

•

UDESC

1

0

1

0

Descomplica Vet

16/11/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.102 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Bioestatístic�
O que é?
É a metodologia estatística aplicada às
ciências biológicas, com a finalidade de
planejar, coletar, organizar, resumir,
analisar e interpretar os dados, permitindo
tirar conclusão biológicas sobre
populações a partir do estudo de
amostras.
Estatística Descritiva:
Utilizada para descrever, resumir e
apresentar um conteúdo de dados por
meio de:
Métodos Gráficos
● Tabelas
● Gráficos
Métodos Numéricos
● Média
● Moda
● Mediana
Variáveis:
Qualitativas/Categórica:
● Nominal: não possui ordem,
representação por gráfico de
setor/pizza.
● Ordinal: possuem ordem, como
baixo, médio e alto, e são melhor
representadas por gráficos de
barras.
Quantitativas/Numéricas:
● Contínua: qualquer valor dentro
de um intervalo. Obtida por uma
medição e, geralmente, possuem
números fracionários, como a
altura e demais medidas.
● Discreta: é possível listar os
valores. Obtida por contagem,
como idade, horas, número de…
Tab. 1.4 (pag. 25). Número de irmãos
relatados por 115 estudantes
universitários da UFRGS:
n° de
irmão
s
f fr F
(acum
ulado)
Fr
(acumul
ado
relativo
0 8 0,07 8 0,07
1 20 0,17 28 0,24
2 40 0,35 68 0,59
3 26 0,23 94 0,82
4 9 0,08 103 0,90
5 7 0,06 110 0,96
6 4 0,03 114 0,99
7 0 0,00 114 0,99
8 0 0,00 114 0,99
9 1 0,01 115 1,00
f= frequência em que determinado
dado aparece
fr= frequência relativa ao n° total de
dados, f/n° total (100%)
F= acumulado do f (soma, um por um,
do f)
Fr = acumulado do fr (soma um por um
do fr)
1
N° DE
RESIDE
NTES
f.
Absol
uta
f.
Relati
va
F. acum.
absoluta
F. acum.
Relativa
1 2 0,05 2 0,05
2 4 0,1 6 0,15
3 21 0,5 27 0,65
4 13 0,31 40 0,96
5 0 0 40 0,96
6 1 0,02 41 0,98
7 0 0 41 0,98
8 1 0,02 42 1
Cálculos de Média
𝑥 = 
𝑖
𝑛
∑ 𝑋𝑖 =
 𝑥1 + 𝑥2 + 𝑥3...+𝑥𝑛
𝑁
Média com intervalos:
Tabela 1:
ALTURA
(m) PM
f
abs
f
relat
F
abs.
acum
.
F rel.
acum.
1,52 |-1,59 1,555 7 0,17 7 0,17
1,59 |- 1,66 1,625 11 0,26 18 0,43
1,66 |- 1,73 1,695 10 0,24 28 0,67
1,73 |- 1,80 1,765 7 0,17 35 0,84
1,80 |- 1,87 1,835 6 0,14 41 0,98
1,87 |- 1,94 1,905 1 0,02 42 1
1°: Quantas classes?
k = 𝑛
k = = 6 ,4842 
2°: Amplitude do intervalo (classe):
C = = = 0,0632 = 0,07𝐴𝑇𝐾
1,93 − 1,52
6,48
Portanto, o número aproximado de
classes é 7
3°: Definir os intervalos:
Com 0,07 unidades, como na coluna
1 da tabela 1.
4° : Calcular a média do Intervalo
(PM):
Como na coluna 2 da tabela 1.
PM = = 1,551,59 + 1,522
5°: Calcular a média total:
=𝑋 7 · 1, 555( ) + 11 · 1, 625( ).. ÷ 42 
𝑋 = 70, 98 ÷ 42 = 1, 69
Dados agrupados :
➔ Média simples
➔ Meda de intervalos
Medida de tendência central
(média)
➔ De posição
➔ Resumo
➔ Típicas
Mediana:
Valor que ocupa a posição central
dos dados ordenados (ordem
crescente);
Divide os dados em duas partes,
50% em cada lado.
Não sofre interferência por valores
extremos.
1° - colocar os números em ordem
2° - observar se é par ou ímpar
Para ímpares:
𝑀𝑑 = ( 𝑛 +1 ÷ 2)
2
Para pares:
𝑀𝑑 = 𝑋( 𝑛2 ) + 𝑋(
𝑛
2 + 1) ÷ 2
(porque terei dois números como
mediana)
X = o n° das duas medianas
Moda:
A moda é aquele valor que mais se
repete em um conjunto de dados.
Boa para representar os estados de
origem de um grupo de pessoas.
Pode ser determinada com base em
uma tabela de frequência de uma
estatística descritiva.
Estado de origem %
SC 80%
RS 15%
SP 5%
A moda é SP com 80% da
população.
Não é usada para fazer
comparações.
Medidas de dispersão
Completam a informação sobre um
conjunto de dados.
A variância é baseada no desvio em
relação a média e mede a
dispersão/variabilidade.
Portanto, também sofre com valores
extremos.
A variância não pode ser negativa,
pois é elevada ao quadrado.
Variância amostral
= =𝑆2
Σ 𝑋2 − (Σ𝑋)
2
𝑛
𝑛−1
𝑆𝑄𝐷
𝑛−1
A unidade de medida da variância
é m²
=𝑆2 𝑆 = 𝐷𝑒𝑠𝑣𝑖𝑜 𝑃𝑎𝑑𝑟ã𝑜
Desvio Padrão:
Média dos desvios dos valores em
relação a média.
Serve como medida de variabilidade,
quanto mais o desvio padrão maior a
variabilidade.
Observe os seguintes Conjuntos
Xi Yi Zi Wi
4 4 7 10
4 6 8 10
4 8 9 10
10 10 10 10
16 12 11 10
16 14 12 10
16 16 13 10
Média
(X) 10 10 10 10
Md 10 10 10 10
3
Determine a variância do conjunto Xi:
Observe os seguintes
Conjuntos
Xi Yi Zi Wi
4 4 7 10
4 6 8 10
4 8 9 10
10 10 10 10
16 12 11 10
16 14 12 10
16 16 13 10
Média (X) 10 10 10 10
Md 10 10 10 10
Σ(𝑋𝑖−𝑋)²
𝑛−1 = 
216
6 = 36
Determine a variância do conjunto Yi:
Yi Média (X) di = (Yi-X) di² = (Yi-X)²
4 10 -6 36
6 10 -4 16
8 10 -2 4
10 10 0 0
12 10 2 4
14 10 4 16
16 10 6 36
Σ(𝑌𝑖−𝑌)²
𝑛−1 = 
112
6 = 18, 7
Calcule a Variância:
OBS Altura
1 1,67
2 1,74
3 1,7
4 1,79
)² + (1,74-1,70)² +𝑆2 = (1, 67 − 1, 70
(1,70-1,70)² + (1,79-1,70)²
𝑆2 = (−0,03)² + (0,004)² + (−0,01)² 3
𝑆2 = 1, 70
Ou você pode utilizar uma fórmula
reduzida:
𝑆2 = Σ(𝑋𝑖−𝑋)²𝑛−1 = 
Σ𝑋𝑖² − ( Σ(𝑋𝑖)²𝑛 )
𝑛−1
Xi Média Desvios D^2
1,67 1,7 -0,03 0,00039
1,74 1,7 0,04 0,0016
1,7 1,7 0 0
1,69 1,7 -0,01 0,001
Σ𝑋𝑖² = (1, 67² + 1, 74² + 1, 70² + 1, 69²)
Σ𝑋𝑖² = 11, 5626
(Σ𝑋)² = (1, 67 + 1, 74 + 1, 70 + 1, 69)²
(Σ𝑋)²= 46, 24
𝑆2 =
11,5626 × 460244
3
𝑆² = 0,00263 = 0, 000866
Coeficiente de variação:
Medida de relação relativa, usada
para comparar unidades de
medidas diferentes.
𝐶𝑉 = 𝑆
𝑋
× 100
4
MODOS DA CALCULADORA
● Cálculos aritméticos básicos
MODE 1 (COMP)
● Desvio Padrão
MODE 2 (SD)
● Cálculos de regressão
MODE 3 (REG)
● Somatório
1° SHIFT
2° S-SUM, tecla 1
3°Escolher uma das funções:
- 1: soma dos
quadrados dos valores
(Σ𝑥2)
- 2: soma dos valores
(Σ𝑥)
- 3: número de dados(𝑛)
● Variância
1° SHIFT
2° S-VAR, tecla 2
3°Escolher uma das funções:
- 1: média aritmética (𝑥)
- 2: desvio padrão
populacional (σ𝑛)
- 3: desvio padrão da
amostra (σ𝑛 − 1)
5
CORRELAÇÃO LINEAR SIMPLES
Não estabelece relação de
dependência nem causalidade
Análise de dados amostrais para
saber se duas variáveis estão
associadas uma com a outra.
Existe uma correlação positiva
quando as variações estão no mesmo
sentido (como no exemplo de
conversão alimentar e ganho de
peso).
Já na correlação negativa há
variações distintas, como a
temperatura do abrigo (MAIOR) e o
ganho de peso (MENOR).
Por exemplo, o desempenho de um
atleta melhora com o treinamento, e o
número de cáries diminui à medida
que se faz uma higiene bucal bem
feita, portanto, ambas às variáveis
possuem relações.
Usa-se para representar os dados um
gráfico de dispersão (nuvem de
pontos).
Onde a correlação será tanto maior
quanto menos for a dispersão dos
pontos.
➔ Na correlação positiva o gráfico
é crescente
➔ Na correlação negativa o
gráfico é decrescente.
Resume o grau de relacionamento
entre duas variáveis.
“X” e “Y’’ são variáveis independentes
➔ Aqui trabalharemos com
variáveis quantitativas.
Exemplo:
Número de horas de estudo e nota obtida
por 8 alunos em uma prova (dados
fictícios)
HORAS NOTA
8 10
7 8
6 4
3 8
3 6
6 9
5 7
2 4
Correlação entre X e Y
Coeficiente de correlação linear de
Pearson ( r ), mede apenas a
correlação linear das variáveis
numéricas.
𝑟 = 𝑆𝑃𝐷𝑥𝑦
𝑆𝑄𝐷𝑥 ·𝑆𝑄𝐷𝑦
6
Primeiro Calculamos o SPDxy:
𝑆𝑃𝐷𝑥𝑦 = Σ𝑥𝑦 − (Σ𝑥)(Σ𝑦)𝑛
𝑆𝑃𝐷𝑥𝑦 = 299 − 40 · 568
= 19𝑆𝑃𝐷𝑥𝑦
Depois calculamos o SQD de x e de y:
SQD = Σ𝑋𝑖² − ( Σ(𝑋𝑖)²𝑛 )
𝑆𝑄𝐷𝑥 · 𝑆𝑄𝐷𝑦
Σ𝑥2 − (Σ𝑥)
2
𝑛
⎡⎢⎣
⎤⎥⎦
· Σ𝑦2 − (Σ𝑦)
2
𝑛
⎡⎢⎣
⎤⎥⎦
232 − (40)
2
8
⎡⎢⎣
⎤⎥⎦
· 426 − (56)
2
8
⎡⎢⎣
⎤⎥⎦
32 · 34
Por fim juntamos os valores:
𝑟 = 19
32·34
𝑟 = 0, 58
Esta correlação é positiva regular
Grau de correlação entre duas
variáveis
Varia de -1 a 1, da seguinte forma:
0 : Nula
0 - 0,3: Fraca
0,3 |- 0,6: Regular
0,6 |- 0,9: Forte
0,9 |- 1 : Muito forte
1: Perfeita
REGRESSÃO LINEAR SIMPLES
Análise de dados amostrais para
saber como duas variáveis estão
relacionadas
Equação/modelo matemático que
descreve a relação entre as variáveis.
“X” (independente)
“Y” (dependente)
Y = f(x)
Y = a (x) + b
Y = β
0
+ β
1
+ ε
: caso haja algum erro, deve serε 
contabilizado nesta variável
Modelo linear de 1°grau:
Regressão linear simples
O modelo estatístico para situação
seria:
𝑦
𝑖
= 𝐵
0
+ 𝐵
1
𝑋
1
+ 𝑒
𝑖
: valor observado para a variável𝑦
𝑖
dependente no 1-ésimo nível da
variável independente X
constante de regressão representa𝐵
0
:
o intercepto da reta com o eixo Y
coeficiente de regressão.𝐵
1
:
Representa a variação de Y em
função da variação de uma unidade da
variável X
I-ésimo nível da variável𝑋
𝑖
=
independente X(i=1,2,..,n)
7
erro que está associado a distância𝑒
𝑖
: 
entre o valor observado e o ponto𝑉
𝑖
 
na curva do modelo proposto para o
mesmo nível i de X.
𝑌 = 𝐵
0
 + 𝐵
1
 · 𝑋
𝐵
1
 = 𝑆𝑃𝐷𝑥𝑦𝑆𝑄𝐷𝑥 =
19
32 = 0, 59
𝐵
0
 = 𝑦 − 𝐵
1
 · 𝑋
𝐵
0
 = 7 − 0, 59 · 5
= 4,05𝐵
0
𝑌 = 4, 05 + 0, 59 · 𝑋
= 4,05 + 0,59X𝑌 
No teremos o valor do ponto 0 de𝐵
0
X.
𝑅2 =
β
1
·𝑆𝑃𝐷𝑥𝑦
𝑆𝑄𝐷𝑦
𝑅2 = 0,5937·1934
𝑅2 = 0, 3318
Este valor indica a proporção (%) da
variação em Y que é explicada pela
variação de X.
% de Y que é explicada pela
regressão.
Neste caso, faltam 67%, este é o valor
de erro ( ).ε
Coeficiente de Regressão/Linear:
Auxilia no ajuste da reta, indicando a
altura na qual a reta corta o eixo das
ordenadas (y)
Sendo a um valor:
Positivo: a reta corta o eixo y acima da
origem
Negativo: a reta corta o eixo y abaixo
da origem
Zero: a reta corta o eixo y na origem
dos eixos.
Coeficiente de Determinação ( ):𝑅2
É a proporção da variação de Y
explicada pela variação de X.
Varia entre 0 e 1, e para melhor
representá-lo, deve-se transformar em
porcentagem.
𝑅2 =
β
1
·𝑆𝑃𝐷𝑥𝑦
𝑆𝑄𝐷𝑦
PROBABILIDADE BÁSICA
Teve seu início com o objetivo de
estudar o estudo de jogos de azar.
Probabilidade objetiva de um evento
qualquer acontecer.
𝑃(𝐴) = 𝑛° 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠𝑛° 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠
Quando não consigo determinar a
probabilidade de casos possíveis.
Probabilidade condicional:
Em algumas situações, o
acontecimento de certos eventos
influencia outros através de suas
probabilidades;
8
Ex.: a probabilidade de uma pessoa
ser hipertensa varia segundo o estado
nutricional dela.
P (A | B)
| significa que o evento seguinte já
ocorreu.
Qual a probabilidade de A acontecer
sabendo que B já ocorreu.
Relação entre dois sintomas que
costumam aparecer em pessoas com
uma determinada doença.
Sintoma A
Sintoma B SIM NÃO TOTAL
SIM 212 24 236
NÃO 8 22 30
TOTAL 220 46 266
Qual a probabilidade de um paciente
ter o sintoma A?
𝑃(𝐴) = 220266 = 0, 83
Qual a probabilidade de um paciente,
que tem o sintoma B, ter o sintoma A?
𝑃 (𝐴|𝐵) = 212:266236:266 =
212
236 = 0, 90
Doença
Fator SIM NÃO
SIM 70 20 90
NÃO 8 92 100
78 112 190
𝑃(𝐷 | 𝐹) = 7090 = 0, 77
𝑃(𝐷 | 𝐹) = 8100 = 0, 08
𝑃 (𝐷 | 𝐹) = 2090 = 0, 22
𝑃 (𝐷 | 𝐹) = 92100 = 0, 93
𝑅𝑅 = 0,770,08 = 9, 62
RR : Risco Relativo
Significa que os indivíduos expostos
têm risco de x vezes maior de
desenvolver algo.
Precisão
Quantidade de casos iguais e
repetidos
Exatidão e Acurácia
Proximidade de acerto.
Falso Negativo
Não é capaz de decapitar que a
amostra é positiva, possuindo baixa
Teste Padrão-Ouro
Teste que possui certeza do resultado
da amostra, sendo ela positiva ou
negativa.
9
Usada para duas medidas:
sensibilidade (quão bem consegue
de identificação de positividade) e
especificidade.
Novo
teste
Padrão
+
Ouro
-
+ 107 8 115
- 13 72 85
120 80 200
Sensibilidade:
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑝 + 𝑓𝑎𝑙𝑠𝑜 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜
1 = 100%, indicando alta sensibilidade
É possível dar um falso positivo,
portanto é mais duvidoso.
Especificidade:
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜
𝐹𝑎𝑙𝑠𝑜 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜 + 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑁.
P(A) =
𝑛° 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠
𝑛° 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠
Necessitamos de dados como média e
desvio padrão.
Distribuição normal ou de Gauss
A maior parte dos valores fica em
torno da média e os extremos ficam
cada vez mais raros.
Para uma variável aleatória contínua
● A área abaixo da curva equivale
a 100%
● A curva nunca toda o eixo x,
fica sempre entre o
+ ∞ , − ∞
Parâmetros que caracterizam um
distribuição normal:
● Média
● Desvio Padrão (raiz da
variância)
Variável Z / Score Z
É uma medida relativa de observação
em relação ao grupo em que se
encontra;
Transformação linear da variável
normal X, obtendo-se uma escala
relativa de valores
A média é a tomada como ponto de
referência
O desvio padrão como medida de
afastamento da média
𝑍 = 𝑋 − µσ
Z = n° desvio padrão a contar da
média
X = variável na unidade original
= é a medida de populaçãoµ
= é o desvio padrão da populaçãoσ
10
População com 170 cm de altura
média e desvio padrão de 10cm
P(X>190)
2 desvios padrões acima da média
Logo, Z = 2
Portanto, a probabilidade de encontrar
uma pessoa acima de 190 cm é a
probabilidade de Z ser maior de 2
Acima de 190 cm terei de Z até α
Para determinar uma área, pego o
valor correspondente a Z na tabela e
subtraio de 0,5 (o total)
Neste caso, 0,5 - 0,4772 = 0,0228
= 2,28% de encontrar uma pessoa
com mais de 190 cm.
EXEMPLOS
O tempo de espera em um ponto de
ônibus é uma variável normalmente
distribuída com média de 5 min e
variância de 16 min2 . Em um horário
qualquer, qual a probabilidade de um
passageiro esperar:
a) Menos de 3 min? R.: 0,3085
b) Mais de 10 min? R.: 0,1056
c) Entre 8 a 12 min? R.: 0,1865
Resolução letra A
Tempo de espera é uma variável
aleatória, depende de vários fatores
ao acaso.
Z =
3−5
4
Z = 0,5
Na tabela, 0,5 = 0,1915
Para calcular a probabilidade de
espera de menos de 3min devo tirar
essa porcentagem do total.
0,5-0,1915 = 0,3085
30,85%
Resolução letra C
P (8<X>12)
Z =
8−5
4
Z = 0,75
Z =
12 − 5
4
Z = 1,75
De 0 a 1,75 na tabela
Z total = 0,4599
Z = 0,2734
0,4599 - 0,2734 = 0,18
18% de ficar esperando entre 8 e 12
minutos.
11
INFERÊNCIA ESTATÍSTICA
Inferir é conclusão baseada em fatos
incompletos por meio de informação
obtida em apenas uma parte, sendo
esta generalizada por meio da
informação obtida por estimação e
teste de hipótese.
Exemplo de estimação:
Utilizada quando o todo é muito
grande e não há tempo ou dinheiro
suficiente para realizar a coleta de
dados de um todo.
Utiliza-se
Margem de Erro
Tamanho da Amostra
Confiabilidade dos Dados
A estimação está relacionada com a
média e proporção (%), que(µ) (λ)
geralmente é medido em termos de
número de dados de interesse em
razão ao total
𝑝 = 𝑛° 𝑑𝑒 𝑑𝑎𝑑𝑜𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑛° 𝑡𝑜𝑡𝑎𝑙
INFERÊNCIA ESTATÍSTICA:
ESTIMAÇÃO
A inferência estatística é o estudo de
técnicas que possibilitam a
extrapolação, a um grande conjunto
de dados (população), das
informações obtidas pela análise de
parte (subconjunto) dos dados.
A estimação é um dos métodos para
realizar inferências a respeito dos
parâmetros populacionais.
Parâmetro: medida ou característica
da população geralmente
desconhecido e constante.
Podemos chamá-lo de valor
verdadeiro.
Estatística: qualquer valor obtido com
base nos elementos de uma amostra.
Às estatísticas veriam de uma amostra
para outra.
Quando estamos interessados em um
determinado parâmetro da população,
extraímos uma amostra e buscamos
estimar o parâmetro populacional.
Parâmetro Estatística
π (proporção)ρ
µ 𝑥
σ s
σ2 𝑠2
População: conjunto total de pessoas
analisadas.
Variabilidade Amostral: por fatores
aleatórios, dependendo da amostra,
você terá uma maior variabilidade de
resultados.
A variabilidade varia em torno da
média da amostra, que é o parâmetro,
e esta pode ser estudada por meio do
desvio padrão das médias ( , ouσ
𝑥
)
também chamado de erro padrão.
E o gráfico terá uma distribuição
amostral de médias, onde no centro
encontra-se a média verdadeira.
12
Por isso iremos obter uma única
amostra e realizamos um intervalo.
Duas vezes o desvio padrão para mais
e dois pra menos, terei um intervalo de
confiança de 95%
Em caso de apenas um desvio
padrão, tanto para mais quanto para
menos, o intervalo de confiança é de
68%.
Erro PadrãoÉ a razão do desvio padrão com a raiz
quadrada do número de elementos da
amostra.
Intervalo de Confiança:
Não é possível saber se a média
amostral (estimativa) está próxima ou
não da média populacional
(parâmetro), mas podemos construir
um intervalo de confiança, dentro do
qual esperamos que o verdadeiro
valor da média populacional se
encontre, com um certo grau de
confiança.
A confiança de acertar é de 1 − α( )%
Em que:
probabilidade de erro ou nívelα =
de significância.
Na prática não extraímos infinitas
amostras, mas apenas uma. Sabendo
que essa média é uma observação da
distribuição das infinitas médias,
podemos avaliar a precisão com que
essa única média estima o parâmetro
de referência.
Para tal, usamos o erro padrão da
média, dado por:
σ
𝑥
= σ
𝑛
Intervalo de confiança para média
quando a variância ou desvio
padrão é:
Conhecida:
𝐼. 𝐶 (1 − α)% = 𝑋 ± 𝑍 α
2
· α
𝑛
Em caso de confiança de 90%, uso
um valor de Z=1,96
Exemplo:
A distribuição dos pesos de pacotes
de sal mineral enchidos
automaticamente por certa máquina é
normal, com desvio padrão igual a
0,20kg. Uma amostra de 15 pacotes
retirada ao acaso apresentou os
seguintes pesos, em kg:
20,05 20,1 20,25 19,78 19,69 19,9 20,2
19,7 20,3 19,93 20,25 20,18 20,01 20,09
19,89
Construa o intervalo de confiança de
95% para o peso médio dos pacotes
de sal, usando 1,96 de valor de
confiança.
𝑥 = 20, 02
n= 15
𝐼. 𝐶 (1 − α)% = 20, 02 ± 1, 96 · 0,2
15
20, 02± 0, 1012
19, 92; 20, 12[ ]
13
INTERVALO DE CONFIANÇA
PARA A MÉDIA
Quando a variância é desconhecida
populacional
𝑋 ± 𝑡 α
2
· 𝑆
2
a
𝑋 − 𝑡 α
2
· 𝑆
𝑛
≤ µ ≤+ 𝑋 − 𝑡 α
2
· 𝑆
𝑛
Nível de Significânciaα =
Devemos olhar na tabela de t
Graus de Liberdade:
Número de elementos de sua
amostra - 1
𝐺𝐿 = 𝑛 − 1
Exemplo:
O peso médio ao nascer e o desvio
padrão de bezerros de raça ibagé,
examinada uma amostra de 20
partos, foram de 26 kg e 2kg,
respectivamente. Construa o
intervalo de confiança de 95% do
verdadeiro peso médio.
Neste caso, o nível de significância
seria observado na linha 19 (GL) e
na coluna 5%, que seria o restante
de 95%
Neste caso, o desvio padrão é
amostral, referente a uma amostra,
e não populacional, indicando se
devo usar t ou Z no cálculo.
26 ± 2, 09 · 2
20
,26 ± 0, 9346
25, 06 ≤ µ ≤ 26, 93
Onde o valor varia entre 25,06 e 26,93
com 95% de confiança.
Podemos afirmar, com 95% de
confiança que o verdadeiro peso
médio ao nascer de bezerros da raça
Ibagé é um valor entre 25,06 e 26,93
Como o intervalo é pequeno, indica
que a estimativa possui uma boa
precisão.
14
INTERVALO DE CONFIANÇA PARA
A PROPORÇÃO
𝐼. 𝐶(1 − α)% = 𝑃 ± 𝑍 α
2
· 𝑝· (1−𝑝)𝑛
Exemplo:
Em certo lago, uma amostra aleatória
de 1000 peixes acusou 290 tilápias.
Construa um intervalo de 95% de
confiança para a verdadeira proporção
de tilápias na população piscosa do
lago. Interprete o intervalo.
𝑝 = 291000 = 29%
0, 29 ± 1, 96 0,29·0,711000 = 0, 29 ± 0, 028
26, 2 ; 31, 8[ ]
Podemos afirmar, que com 95% de
confiança, que a verdadeira
proporção de tilápias neste lago é um
valor entre 26,2% e 31,8%.
INFERÊNCIA ESTATÍSTICA: TESTES
DE HIPÓTESES
O teste de hipóteses é uma regra
decisória que nos permite rejeitar ou
não uma hipótese estatística com
base nos resultados de uma amostra.
Estas hipóteses são, em geral, sobre
parâmetros.
Para realizar um teste de hipóteses e
divulgar as conclusões, é necessário
seguir um procedimento aceito pela
comunidade científica.
Neste procedimento, o pesquisador
deve deixar claro qual a hipótese que
ele deseja testar.
Para isso ele precisa escrever em
termos estatísticos a sua hipótese
científica.
A construção de um teste de hipóteses
requer:
1. A especificação de duas
hipóteses.
2. A especificação de um critério
para a rejeição da hipótese
considerada verdadeira.
15