Buscar

[bioestatística] conteúdo da 1ª prova

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Bioestatística 
Aula 1 –25 de Fevereiro de 2014 
Elementos Essenciais 
Pesquisa Científica Baseada em Evidências 
Cada fase apresenta objetivos específicos com questões objetivas de pesquisa. 
 Fase Pré-Clínica (cobaias): Qual a taxa de absorção de uma determinada droga? 
 Fase Clínica (Indivíduos: população geral; população paciente): risco de infecção é o 
mesmo para dois diferentes antibióticos? 
Questões de pesquisa são baseadas em situações de Incerteza. 
A Incerteza gera Variabilidade. O que afeta a incerteza? 
A Estatística estuda a Variabilidade. 
Este estudo é baseado em dados passados na Probabilidade dos acontecimentos Incertos. 
Indeterminístico: o que não varia “certeza”. 
Definições 
Unidade de Pesquisa: unidade da qual o resultado de uma situação de incerteza será 
observado. Ex: rato, indivíduo, hospital... 
As unidades de pesquisa podem ser: 
•Experimental: o pesquisador interfere no processo de pesquisa. Pesquisa de intervenção. 
•Observação: o pesquisador não interfere no processo de pesquisa. 
O tratamento estatístico é o mesmo para ambas as pesquisas. 
Variável: é toda característica da incerteza que, observada em uma unidade de pesquisa, 
apresenta resultado incerto, ou seja, pode variar de uma unidade para outra. 
Variáveis e seus Níveis de Medida 
• Quantitativas: 
Discretas: números inteiros. Ex: número de filhos 
Contínuas: números no intervalo de dois. Ex: colesterol total 
•Qualitativas ou categóricas: 
Dicotômicas ou Binárias (gênero, do tipo sim/não) 
Politômicas Nominal (grupo sangüíneo) 
Politômica Ordinal (grau de dor) 
3 ou mais resultados 
A análise estatística adequada depende do nível de medida da variável estudada. 
A Estatística pode ser dividida em três grandes áreas: 
1. Amostragem e Planejamento de Experimentos: mecanismo da coleta de dados. 
2. Estatística Descritiva: organização, apresentação e resumo de dados. 
3. Estatística Inferencial: métodos para auxiliar a tomada de decisões onde existe incerteza e 
variação. As inferências para uma população são baseadas em dados amostrais. 
OBS: o conhecimento de probabilidade é essencial para amostragem e inferência estatística. 
Aula 2 – 27 de Fevereiro de 2014 
Elementos Essenciais 
A probabilidade analisa dados estatísticos que variam, provenientes de pesquisas. 
População: unidade total de pesquisa. 
Amostra: parte da população. 
N: nº população 
 
 
Parâmetro e Estatística 
Parâmetro: quantidade que resume a informação relativa a uma variável, em uma população. 
O valor de um parâmetro é, geralmente, desconhecido. 
Parâmetros são fixos. 
Ex: Média para a glicemia na população de POA (μ) 
Estatística: Quantidade que resume a informação relativa a uma variável, em uma amostra. 
São calculadas com base nos dados de uma amostra e estes valores são utilizados para inferir 
sobre o respectivo parâmetro na população. 
O valor de uma estatística é conhecido (calculável). 
Estatísticas são variáveis. 
Saber como selecionar a amostra! 
Ex: Média para a glicemia em uma amostra de 80 porto-alegrenses 𝑋 . 
 Organização e Apresentação de dados quantitativos 
Dados de Variáveis Quantitativa Contínuas 
Exemplo: quantidade de albumina no plasma de indivíduos (g/100ml) 
5,1 4,9 4,9 5,1 4,7 
5,0 5,0 5,0 5,1 5,4 
5,2 5,2 4,9 5,3 5,0 
4,5 5,4 5,1 4,7 5,5 
4,8 5,1 5,3 5,3 5,0 
 
 
 
 
 
 
 
 
 
Tabela de Freqüência: apresenta as freqüências observadas de uma variável quantitativa 
discreta ou contínua. 
1. Tabela de grupamento simples 
 
Categoria: f = frequência absoluta 
 fr = freqüência absoluta (% ou notação científica) 
Acumulada: F = freqüência absoluta acumulada 
 Fr = freqüência relativa 
(Algo incerto) 
*Escolher variável de interesse 
X = taxa de albumina 
n = tamanho da amostra 
i = índice 
 𝑋𝑖𝑛𝑖=1 = somatório das taxas de albumina variando do indivíduo 1 até o último da amostra 
(X1+X2+X3+ ... Xn) 
𝑋 = 𝑋𝑖𝑛𝑖=1 /𝑛 = média 
2. Tabela de grupamento por intervalo de classe 
∑ = nº total de indivíduos ∑fr = 1 
Inclusive 
Arredondamento: <5 deixa 
 =5 depende do próximo nº 
 >5 aumenta 
Título da tabela: curto e auto-explicativo 
Gráficos 
1. Histograma (quantitativas contínuas) - Frequência por categoria 
 
2. Ogiva (quantitativas discretas ou contínuas) – freqüência acumulada
 
 
Categoria 
Nome da variável 
3. Diagrama de bastões (quantitativas discretas) 
 
Aula 3 – 06 de Março de 2014 
Estatística Descritiva: Descrição de Dados Quantitativos 
Medidas de Tendência Central 
1. Média (aritmética simples): 
 𝑋 = 𝑓𝑖.𝑋𝑖𝑘𝑖=1 /𝑛 
• Se todos tivessem o mesmo valor seria a média, distribuição igualitária entre todos. 
• A média está entre o menor e maior observado. 
2. Moda: valor mais frequente 
 • Número que temos que observar = inteiro 
3. Mediana: µe 
 • Ordena as taxas, crescente ou decrescente, e identifica a posição da minha mediana (valor 
do meio). E só importa saber este valor. 
Ex: em 25 pessoas a 13ª é a mediana, aproximadamente 50%, são 13 em 25. 
4. Quartis: Qn 
• Dividi o conjunto de dados em 4, faz a mediana de cada parte, que representa 
aproximadamente 25%. 
• Quando a mediana é quantitativa (nº par), onde a média fica entre dois números, fazemos a 
média destes dois números. 
• Temos também decil, percentil... 
Ex: o percentil 24 de albumina é 1.2, cada percentil é 1%, quer dizer que eu tenho 24% 
1.2 e restam 66%. 
 
 
 
 
A Distribuição é Simétrica 
 
Distribuição simétrica ou aproximadamente 
simétrica: Apresentar média e DP. 
 
 
 Para conjuntos de dados simétricos eu 
tenho a media, moda, mediana todos mesmo valor. 
 
 
 
Distribuição assimétrica 
Apresentar mediana e distância entre quartis. 
 
 
 
Aula 4 – 11 de Março de 2014 
Estatística Descritiva: 
Descrição de Dados Quantitativos 
Exemplo: X: número anual de visitas ao dentista 
Dados: 2,3,4,5 
Mediana = 3,5 
Média = 3,5 (só pode ser entre o menor e maior valor! Soma tudo e divide pelo n) 
Medidas de Variabilidade 
Possibilita ver a diferença entre distribuição de freqüências, podem ser: 
Parâmetro: em relação a uma amostra 
Variância: em relação à população 
 
1. Amplitude de Variação: diferença entre o extremo superior e inferior (maior e menor). 
 = pop ou a = amostra 
2. Variância: desvios em relação à média. 
Observe que a unidade de medida da variância não tem interpretação prática. 
σ2= pop ou S2=amostra 
Serve para calcular o desvio padrão: 
S
2= (𝑥𝑖 − 𝑥)𝑛𝑖=1
2/n-1 fórmula alternativa: S2= (∑ Xi
2- (∑x2)/n)/n-1 
σ2= ∑ (Xi-µ)/N 
A soma dos desvios sempre vai ser zero, devido à média ser o ponto de equilíbrio! 
O sinal do desvio (+ou-) indica se ele está acima ou abaixo da média. 
Soma dos desvios padrão ao quadrado, quanto maior o número maior variância. 
4. Desvio Padrão (S): raiz quadrada da variância. Note que a unidade de medida é a mesma 
que a unidade dos dados observados. Significa o quanto desvia da média. 
Para calcular a mesma variável em diferentes bancos de dados. 
5. Coeficiente de variação: utilizado para comparar variabilidade de variáveis diferentes ou com 
grandezas muito distintas. 
CV= S/X = desvio/média 
Para calcular diferentes variáveis em um mesmo conjunto de dados. 
6. Amplitude entre quartis, Desvio entre quartis ou Distância Interquartílica. 
Distância entre quartis: DQ= Q3- Q1 
Teoria das Probabilidades 
Probabilidade: medida utilizada para expressar incerteza em relação ao acontecimento de um 
evento aleatório. 
Por definição é um número entre 0 e 1 onde:• O valor 0 representa que o evento é impossível. 
• O valor 1 representa que é certo que o evento aconteça. 
Exemplo: 
P(morte) = 1 
P(nascer com 1 metro) = 0 
P(sucesso na cirurgia com procedimento A) = 0,40 
P(sucesso na cirurgia com procedimento B) = 0,80 
Exemplo: 
Fenômeno Aleatório: nascimento de bebês 
Variável X: sexo do recém-nascido (qualitativa nominal) 
Eventos 0=ser do sexo masculino 
1=ser do sexo feminino 
P(X=0)=0,57 representa que a probabilidade de nascer um bebê do sexo masculino é igual a 
0,57. 
Como consequência, a probabilidade de nascer um bebê do sexo feminino é igual a 0,43. 
Ou seja, espera-se que 57% dos nascimentos sejam de bebês do sexo masculino. 
Probabilidade x Frequência Relativa 
Probabilidade Antes de observar 
Frequência Relativa Depois de observar 
Distribuição de Probabilidades Variável Discreta 
A Distribuição de probabilidades de uma variável discreta pode ser representada de três 
maneiras diferentes: tabela, gráfico ou função matemática. 
 
No caso de variáveis discretas a função matemática P(X=x) é chamada de Função de 
Probabilidade (fp). 
Os valores da fp são probabilidades. 
Por exemplo: 
 
Aula 5 – 13 de Março de 2014 
 Média e Variância de Distribuição de Probabilidades 
 
Toda distribuição de probabilidade (discreta ou contínua) possui Média (𝑋 ), variância e desvio 
padrão (σ). 
 
Exemplo: X: número de irmãos 
 
Idéia de probabilidade: o quanto eu sou incerto no que vai acontecer! 
Parte da idéia de que conhece a população a ser estudada. 
Interpretação 
X: número de irmãos 
 
A média de uma distribuição de probabilidade é chamada de Esperança. 
 
Interpretação: se uma amostra de indivíduos for selecionada desta população espera-se que a 
média de X (número de irmãos) entre os indivíduos da amostra seja 0,20. 
 
O desvio padrão de uma distribuição de probabilidade também é chamado de desvio padrão. 
 
Interpretação: se uma amostra de indivíduos for selecionada desta população espera-se que o 
desvio padrão de X (número de irmãos) entre os indivíduos da amostra seja 0,18. 
 
Distribuição de Probabilidades Variável Contínua 
 
Exemplo: X: concentração da droga A (pode assumir valores entre 0 e 2). 
 
Tabela: não é possível, pois não podemos listar todos os resultados possíveis da variável. 
 
No caso de variáveis contínuas a função matemática f(X=x) é chamada de Função Densidade 
de Probabilidade (fdp). 
 
A probabilidade é a área abaixo da curva do gráfico! 
A área total do gráfico tem que ser igual a 1, a maior probabilidade = 100%. 
Por definição: IP (X-x) =0 
 
No caso de variáveis contínuas o valor da função matemática f(X=x) representa a altura da 
curva no gráfico. Não é probabilidade. 
 
Probabilidade será áreas abaixo da curva. Desta forma para a curva do gráfico abaixo ser uma 
fdp a área abaixo da curva deve ser igual a 1. 
 
Exemplo: P(0<X<1)=0 
 
Note que o gráfico de uma fdp é uma generalização de um histograma, ou seja, é pensar que a 
amplitude de cada classe é apenas um valor. 
 
 
 
A Distribuição de Gauss 
(Distribuição Normal) 
 
 
A Distribuição Normal depende de dois parâmetros: 
Média C e desvio-padrão σ. 
 
A média indica onde estão localizados os dados e o desvio o quanto achatadada é a curva. 
 
 
 
Para: µ=0 σ=1 
F(x)= 1/ 2𝜋 exp (-(x)
2
/2) = 1/ 2𝜋 exp (-1/2) 
 
 
 
 
 
 
 
 
Desloca o eixo x em direção a média, onde 
fica o pico. Curvas mais bicudas, variância 
menor. 
 
 
 
 
Características Básicas da Curva Normal 
 
• Curva com formato de sino. Com ponto 2 pontos de Inflexão (onde muda o 
sentido da curva). 
• Simétrica em torno da média. 
• Média = Moda = Mediana 
 
Curva Normal Padronizada 
 
Curva Normal com média = 0 e desvio padrão = 1 
 
Calculando Probabilidades da Curva Normal Padronizada 
 
Calculando: 
 
Exemplos: 
|P (-0,6 <Z>0,6) = 0,2257+ 0,2257 = 0,4514 
|P (Z> 0,6) = 0,2257 + 0,5 = 0,7257 
 
Calculando Valores Críticos da Distribuição Normal Padrão 
P (Z>z)=0.025. Qual o valor de z? 
P (Z<z)=0.10. Qual o valor de z? 
 
 
 
 
 
 
 
 
 
0,5 0,5 
z 
 
0,10 0,025 
Aula 6 – 18 de Março de 2014 
Algumas Probabilidades da Curva Normal Padrão 
P (-1<Z<1) = 0,3413 + 0,3413 = 0,6826 
P(-2<Z<2) = 0,4772 + 0,4772 = 0,9544 
P(-3<Z<3) = 0,4987 + 0,4987 = 0,9974 
P(-4<Z<4) = 0,4999 + 0,4999 = 0,9998 
Calculando Probabilidades da Curva Normal 
Exemplo: X=peso de cobaias. X~N(100,400) 
1º número nos parênteses é a média e o 2º é a variância. 
Se a variância é 400 o desvio é 20. 
 
Não consigo integrar analiticamente! 
O que é padronizar um conjunto de dados? Transformar a variável em outro com a média = 0 e 
o desvio padrão = 1. 
Resultado 
 
 
Este resultado permite que se utilizem os valores tabelados da Curva Normal Padronizada para 
calcular probabilidades de qualquer curva normal. 
 
Note que os valores Z são os valores da variável X padronizados. 
 
Exemplo: X= peso de cobaias. X~N (100,400) 
 
1º eu transformo x em z: 
Z= x – media/ desvio neste caso: Z= x-100/20 
Desvio= 𝑚é𝑑𝑖𝑎 
 
Se for abaixo da média é negativo e feito por subtração qnd pedido menor e se for acima é 
positivo e feito por soma qnd pedido maior. 
 
P(X<80) = |P (x-100/20 < 80-100/20) = |P (Z<-1) = 0,5 – 0,3415 = 0,1587 
É a mesma coisa que o nº de desvios da média. 80 é um desvio abaixo da média, ou seja -1. 
Isso significa que 15,87% dos ratinhos tem peso abaixo de 80g. É a incerteza de que 0,1587 
dos ratinhos de ter menos de 80g. 
 
P(X<120) = 1 desvio = 0,5 + 0,3415 = 0,8415 
 
P(X>90) = 0,5 desvio = 0,5 + 0,1925 = 0,6925 
 
P(X>130) = Z> 1,5 = 0,5 – 0,4332 = 0,0668 
 
P(95<X<110) = - 0,25 <Z> 0,5 = 0,0987 + 0,1915 = 0,2902 
 
P (80<X<120) = -1 <z> 1= 0,68 
 
P(60<X<140) = -2 <z> 2 = 0,95 DECORAR!!! 
 
P(40<X<160) = -3<Z>3 = 0,99 
 
P(20<X<180) = -4<Z>4 = 0,99 
 
Exemplo: X=peso de comprimidos. 
 
Se X~N(10,0.25) média 10, variância 0,25 e desvio 0,5. 
 
• 68,26% dos comprimidos pesam entre 9,5 e 10,5. 
 
• 95,44% dos comprimidos pesam entre 9 e 11. 
 
• 99,74% dos comprimidos pesam entre 8,5 e 11,5. 
 
• 99,99% dos comprimidos pesam entre 8 e 12. 
 
• 80,00% dos comprimidos pesam entre 9,36 e 10,64. 
40% positivo e 40% negativo 
Procuro na tabelo uma área próxima 0,40 que é Z=1,28 
1,28 x 0,5 = 0,64 acima da média, ou seja, média + desvio= 10 + 0,64= 10,64 e 0,64 abaixo da 
média: 10 – 0,64 = 9,36. 
Isso terá amplitude de 1,28. 
 
OBS: note que existem outras opções para cada percentual 
 
Também tem a probabilidade de 80% de estar entre 9,18 e 10,52 sendo 45% abaixo da média 
e 35% acima da média, com amplitude de 1,34. 
 
Então, para distribuições simétricas o intervalo de menor amplitude para uma mesma 
probabilidade é intervalo central. 
Predomina a probabilidade de menor amplitude. 
 
 
 
 
 
 
 
 
 
A Distribuição t de Student 
 
µ 
• É simétrica e tem forma de sino como a normal. 
• Mas, para uma mesma média, é sempre mais achatada. O que significa que atribui 
maiores probabilidades para valores mais afastados da média. 
 Possui outro parâmetro: o grau de liberdade que diz o quão achatado é a curva. 
Quanto maior este número, mais bicuda, menor variância; mas nunca tão bicuda 
quanto a normal. Não conseguimos padronizar o parâmetro t, temos várias tabelas. 
Não temos tantas probabilidades, por exemplo: a área 0,0005 corresponde ao t=4,075 
com gl=15. 
 
 0 
• Depende de dois parâmetros: média (μ) e graus de liberdade (gl). 
• Usaremos apenas a Distribuição t de média 0. Neste caso, o único parâmetro a ser 
considerado será os graus de liberdade (gl). 
 
Aula 7 – 20/03/14 
Calculando Probabilidades da Distribuição t de média zero: 
*os valores que são apresentadossão o da cauda 
 
P (t5>1,476)= 0,10 
 
P (t10<2,228)= 1- 0,025 = 0,975 
 
P (t12> -3,055)= 1-0,005= 0,995 
 
P (1,753<t15<2,602)= 0,05-0,01= 0,04 
 
P (t20>2,6)= a probabilidade de ser maior de 2,528 = 0,01 e de ser menor que 2,845 = 0,005, 
então, 0,005 < |P (t20>2,6) > 0,01. 
 
P (t20<2,0)= maior que a probabilidade em 1,7 que tem área total = 1-0,05=0,95 e menor do 
que em 2,08 = 1-0,025 = 0,975, então, 0,95< |P (t20<2) < 0,975 
Calculando Valores Críticos da Distribuição t de média zero: 
 
P (t5>t)=0.05. Qual o valor de t? t=2,015 
 
P(t5<t)=0.10. Qual o valor de t? como é menor u uso o valor negativo, t=-1,476 
 
P(t5<-t) + P(t5>t) = 0,05. Qual o valor de t? quando for soma eu posso ver no bilateral ou somar 
as duas caldas no unilateral, onde t e –t é o mesmo valor metade do que eu quero pq é 
simétrico,então o valor é t=2,571. 
*para a Z: |P(-0,025<z<0,025)= na tabela Z tem o valor da área e não da cauda então eu 
diminuo o valor que ele dá da área total, então 0,5 – 0,025= 0,475 que eu procuro na tabela e 
acho Z=1,96. 
*a t nunca encosta na z, logo o ponto crítico da t sempre será maior, e qnt maior o grau de 
liberdade a curva é mais achatada. Ou seja, quanto maior o grau de liberdade menor o ponto 
Crítico. 
Distribuições Amostrais 
 
Por definição uma Estatística é uma variável. Sendo uma 
variável é natural determinar probabilidades para ela. 
 
A distribuição de probabilidades de uma estatística é chamada 
de Distribuição Amostral. 
 
Por exemplo, a DAM (Distribuição amostral da média): é a 
distribuição de probabilidade associada a média de uma 
variável X em uma amostra de tamanho n especificada. 
 
A Média de uma distribuição amostral é chamada de Média. 
 
O Desvio-Padrão de uma distribuição amostral é chamado de Erro Padrão (EP). 
 
Distribuição Amostral de Médias (DAM) 
• amostras aleatórias 
 n igual em todas as amostras 
 Para amostrar grandes um inivíduo sair ou votar para amostra não afeta em nada! 
 
 
 
 
 
Exemplo errado, tenho que fazer com reposição: 
Amostra Média as amostra 
10 e 8 9 
10 e 12 11 
10 e 10 10 
8 e 8 8 
8 e 10 9 
8 e 12 10 
12 e 8 10 
12 e 10 11 
12 e 12 12 
 
 
 
 
 
 
 
 A média das médias é sempre o que quero saber 
 E a variância diminui quanto maior o tamanho da amostra 
 
X é uma variável que têm média µ e desvio-padrão σ 
 
Resultados: 
 Cada média amostral 𝑋 é uma estimativa de µ 
• Média de todas as 𝑋 é sempre igual a µ 
• O erro padrão da DAM σ 𝑋 é sempre igual a µ 
• Erro padrão: mede o quanto os valores de 𝑋 variam em relação a µ 
 
OBS: note que estes resultados valem para qualquer distribuição de probabilidade que X possa 
ter 
Var (𝑋 ) = var (x)/n 
DP (𝑋 ) = 𝑣𝑎𝑟(𝑥/𝑛) 
 
Teorema Central do Limite 
 
• Se a distribuição de x é uma curva normal e a variância desta curva for conhecida então a 
Distribuição Amostral de Médias (DAM) também será uma normal. 
• Se a distribuição de x não for normal, mas a variância for conhecida a DAM tende a uma 
normal a medida que o “n” aumenta. 
 
Note que este resultado é válido somente se a variância de X é conhecida. 
 
• No caso da variância de X não ser conhecida ela é estimada utilizando dados de uma 
amostra de tamanho n. 
• Neste caso a DAM será uma Distribuição t com n-1 graus de liberdade. 
 
O teorema central do limite é a base para muitos métodos de inferência estatística. 
 
Exemplo: Exemplo: X=peso de cobaias. X~N(100,400) 
 
Usando o resultado: se X~N(100,400) então 𝑋 10 ~ N (100,40) e 𝑋 20 ~N(100,20) 
 
|P (x<90) = |P (z< 90-100/20) = |P (z<-0,5) = 0,2085 
𝑋 8 9 10 11 12 
 1/9 2/9 3/9 2/9 1/9 
 
|P(𝑋 10 <90) = onde o EP = 40= 6,32, |P (Z < 90-100/6,32) = |P (Z < -1,58) = 0,0571 
 
Interpretação: Considere que X=peso de cobaias X~N(100,400) então: 
 
• 30,85% das cobaias desta população pesam menos de 90 gramas. Logo, se 1 cobaia for 
selecionada desta população, a probabilidade de selecionar uma cobaia com menos de 90 
gramas é 0,3085. 
 
• 5,71% das amostras de tamanho 20 possíveis de serem selecionadas desta população terão 
média de peso menor que 90 gramas. Logo, se uma amostra se tamanho 20 for selecionada 
desta população, a probabilidade de selecionar uma amostra cuja média seja menor que 90 
é 0,0571. 
 
• 1,25% das amostras de tamanho 40 possíveis de serem selecionadas desta população terão 
média de peso menor que 90 gramas. Logo, se uma amostra se tamanho 40 for selecionada 
desta população, a probabilidade de selecionar uma amostra cuja média seja menor que 90 
é 0,0125. 
 
Aula 8 – 24 de Marco de 2014 
Inferência Estatística 
A idéia básica da inferência estatística e utilizar resultados observados em uma amostra 
(conhecidos) para inferir sobre o valor dos parâmetros na população (desconhecidos). 
 
O resultado da inferência apresenta possibilidade de erro e este erro e medido com 
probabilidades. 
Tipos de Inferência Estatística 
1. Estimação Pontual 
2. Estimação por Intervalo de Confiança (IC) 
3. Teste de Hipóteses 
Estimação Pontual 
Fornecer apenas um valor como estimativa para o parâmetro desconhecido. 
 
Estimador: função matemática que depende apenas de dados amostrais e será utilizada para 
estimar o parâmetro. 
Note que um Estimador e uma Estatística e, portanto, tem uma distribuição de probabilidade 
associada chamada de distribuição amostral. 
 
Exemplo - População: Pacientes Cardíacos 
Variável: idade 
Parâmetro: Media 
Possíveis Estimadores: 
 
1. Como avaliar um estimador? 
Propriedades dos Estimadores 
 
2. Como encontrar um estimador com boas propriedades? 
Métodos de Estimação 
 
Propriedades dos Estimadores 
 
θ = parâmetro, o que eu quero acertar. Para cada θ uma fórmula. 
 
Estimador Noviciado: a média dos possíveis valores do estimador e igual ao parâmetro. 
Vício estatístico: sempre errado, mas conhecido o quanto. 
 
Estimador de Variância Mínima: a variância entre os possíveis valores do estimador e pequena. 
 
Outras Propriedades: Consistência, Suficiência... 
Métodos de Estimação 
1. Método dos Momentos 
2. Método de Máxima Verossimilhança 
3. Métodos dos Mínimos Quadrados 
4. Métodos Bayesianos 
 
OBS: neste curso são trabalharemos com resultados da teoria de estimação pontual. 
 
Exemplo 
População: Pacientes Cardíacos 
 
 
Estimação Pontual de uma Media 
Resultado: o estimador de máxima verossimilhança para a média de uma população e 
 𝑋 =∑valores/n. Ele é não-viciado e de variância mínima entre os não-viciados. E conhecido por 
media amostral. 
 
No exemplo: 
Estima-se que a media de idade da população de cardíacos seja de 46,5 anos. Ou seja, 
. 
Estimação Pontual de uma Variância 
 
Resultado: um estimador para a variância de uma população e S
2
= ∑(x- 𝑋 )2/n-1. Ele é não-
viciado e de variância mínima entre os não-viciados. E conhecido por variância amostral. 
 
No exemplo: Estima-se que a variância da idade na população de cardíacos seja de 8,3 anos2 
(desvio padrão de 2,88 anos). Ou seja, . 
Preciso saber: fórmula, aplicação e frase “estima-se...” 
 Quando é µ ou 𝜇 ? A 1ª é a média verdadeira e a 2ª é estimada. 
Problema da Estimação Pontual 
Sabe-se que estimar a media de uma população utilizando a media amostral e a melhor 
maneira de estimar pontualmente a media. Porem e uma atitude simplista visto que sabemos 
que nem sempre a media amostral e igual a media populacional (pelo contrario!). Ou seja, o 
grande problema da estimação pontual e a ausência de uma medida de erro. 
 
No exemplo, quão errado podemos estar quando estimamos que a verdadeira media de idade 
e 46,5? 
 
A maneira mais utilizada de incluir uma medida de erro na estimativa e a estimação por 
Intervalo de Confiança (IC). 
 
Intervalo de Confiança (IC)Estimar um parâmetro por IC e fornecer um intervalo de valores como estimativa para o 
parâmetro desconhecido. 
 
Devido às características das distribuições amostrais o intervalo de confiança será sempre ao 
redor da estimativa pontual. 
 
No caso do parâmetro media populacional o IC será centrado na estimativa pontual que e a 
media amostral. Mas, cuidado, nem sempre o IC será centrado na estimativa pontual do 
parâmetro. 
 
O IC e calculado com base em uma medida chamada de Confiança. 
 
Confiança NÃO é probabilidade. 
Lembrando alguns resultados: 
• Se X tem media O então a media da DAM será O. 
 
• Se a distribuição de X e uma curva normal e a variância desta curva for conhecida então a 
Distribuição Amostral de Medias (DAM) também será uma normal. 
 
• Se a distribuição de x não for normal, mas a variância for conhecida a DAM tende a uma 
normal à medida que o “n” aumenta. 
 
• Ou seja, se a amostra e grande e a variância populacional e conhecida então se pode utilizar 
a normal como DAM. 
 
 
Média desconhecida, variância conhecida e N padrão. 
(média, variância) 
 
|P (𝑋 - 1,64 σ/ 𝑛 < µ < 𝑋 + 1,64 σ/ 𝑛) = 0,90 
 
 
Z 5% = 1,64 
Z 25% = 1,96 
Z 90% = ? 
 
 
 
Z 
 
Amplitude = (𝑋 + 2,19) – (𝑋 - 2,19) = 2x 2,19 = 4,36 
 
Exemplo: 
𝑋 = 50 (47,81; 52,19) 
A verdadeira média µ vai estar entre estes valores. 
 
2,19 = erro máximo Z α/2= σ/ 𝑛 
Quanto maior o intervalo de confiança, maior o erro máximo. 
 
Aula 9 – 27/03/14 
Intervalo de confiança para µ quando a variância da população é conhecida e n grande: 
 
Nunca uso esta fórmula porque eu nunca sei o σ! 
α = número geralmente pequeno (1%, 5% ou 10%) onde 1-α é a confiança. 
Quanto maior o valor de α menor a confiança! 
A única coisa aleatória é o 𝑋 , que pode assumir qualquer valor. 
(𝑋 - 2,19; 𝑋 +2,19) 
Fórmula para limite inferior e para limite superior, duas fórmulas diferentes 
diferenciadas pelo sinal. 
Uso esta fórmula para calcular a 
média de uma variável 
quantitativa 
𝑋 +ou- Zα/2 σ/ 𝑛 erro máximo de estimação, onde Z depende da confiança. 
Interpretação do Intervalo de Confiança 
O Intervalo de Confiança calculado e um entre vários IC que poderiam ser calculados (em geral 
um IC para cada possível resultado de amostra). 
 
O IC calculado contém ou não a verdadeira media populacional. 
 
O que sabemos é que: 
• Antes de observar a amostra, tínhamos 0,95 de probabilidade de calcular um IC que 
contivesse o valor da verdadeira media. 
• Depois de observar a amostra, acreditamos (com 95% de confianca) que o IC 
calculado contenha o valor da verdadeira media. 
 
O intervalo e de confiança e não de probabilidade. 
 
É ERRADO interpretar: 
Com 95% de probabilidade o IC calculado contem a verdadeira media. 
 
O CORRETO é: 
Com 95% de confianca o IC calculado contem a verdadeira media. 
 
Probabilidade e confiança não são sinônimos. 
Importante: TODOS os valores no IC possuem a mesma confiança de ser o verdadeiro valor do 
parâmetro!!!! Qualquer número do intervalo é candidato. 
 
 
A “T” é mais rabuda! Tem cauda e rabo maior! Aumenta a probabilidade. O gráfico é mais 
achatado. 
n>20 é considerado grande, então eu uso a Z, se o σ é conhecido! 
 
Note: 
• Todas as ideias para construcao e interpretacao do intervalo sao as mesmas. 
• A grande diferenca e que estaremos utilizando s no lugar de σ. Lembre que s e uma 
estimativa de σ. O “preco” de se utilizar uma estimativa e deixar o intervalo mais impreciso 
(maior amplitude). 
 
Se o n é grande a t fica parecida com a normal, mas se intervalo for pequeno a cauda é maior, 
maior probabilidade, pq é n-1. 
Aula 10 – 1 de Abril de 2014 
 
Teste de Hipóteses (TH) 
 
Quando hipóteses sobre os parâmetros desconhecidos existem podemos testá-las através de 
Testes de Hipóteses. 
 
 
Exemplo Didático 
X: comprimento do crânio 
 
Sabe-se que X na população A possui média 190 mm e na população B a média é 196 mm. O 
desvio padrão é de 8 mm nas duas populações. 
 
Uma amostra de 36 crânios apresentou média 194 mm. Esta amostra pertence à população B? 
 
Hipóteses 
• Hipótese Científica: afirmação na área da pesquisa. 
Exemplo: a população que gerou a amostra é a população B. 
 
• Hipótese Estatísticas: afirmação sobre parâmetros. Avaliar o tipo de parâmetro que ajuda a 
avaliar a questão. 
Exemplo: µx = 196. 
 
Um Teste de Hipóteses (TH) é composto de duas hipóteses: 
 
Hipótese nula: onde eu acho que valor não entra. 
Hipótese alternativa: onde eu tenho prova pra inserir meu valor. 
 
Em geral a Hipótese alternativa é a hipótese que o pesquisador deseja provar. 
 
Por convenção, a resposta de um TH será Rejeitar (acredito no H1) ou Não Rejeitar a H0 (não 
tenho provas suficientes para acreditar no H1). 
 
Erros de Decisão dos TH (e respectivas probabilidades) 
 
 
 
Probabilidade total de envolver um evento = 1 
Não tem como medir se H0 é errada ou certa. 
α e β = 0 ideal! 
 
No exemplo: 
 
Erro I (Erro alfa) = Dizer que é da pop B qd é da A. PIOR ERRO! 
 
Na prática: concluir que um medicamento tem efeito qd não tem. Ou seja, colocar no mercado 
um medicamento sem efeito. 
 
Erro II (Erro Beta) = Dizer que é da pop A qd é da B. 
 
Na prática: não concluir que o medicamento tem efeito qd ele tem. Ou seja, não colocar no 
mercado um medicamento que tem efeito. 
 
Raciocínio dos TH 
Estatística do teste: função matemática que será utilizada para decidir se a Ho será ou não 
rejeitada. 
 
Importante: é necessário saber a distribuição de probabilidade da ET. 
 
 
Estatística do teste: equação matemática apropriada pra provar cada teste. 
 
TCL = teorema central do limite, diz que se a amostra é grande (n>20) que não importa 
distribuição de X, 𝑋 é distribuição normal com média de X e variância = desvio padrão2. 
 
X: comprimento do crânio 
Cálculos na população e não na amostra: 
µx ? não sei mas sei que µx = 190 ou µx = 196 
σx
2
 = 8
2
 = 64 
TCL: 𝑋 ~ N (µx, σx
2
/n) 
 
|P (𝑋 < 1,93/ H0 é F) µx = 190 σx
2 
=1,78 
 
|P (Z < 1,93 – 190/ 1,78) = |P (Z < 0,022) = 0,0119 
 
Para diminuir o erro α (tipo 1) eu mudo o teste, mas diminuindo o α eu aumento o erro tipo β. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Conclusão: se diminuir o erro alfa o erro beta aumenta. 
 
Ho é F Ho é V 
Var = 1,78 
curvas iguais 
1,90 1,96 1,93 
𝑋 < 1,93 
Região de aceitação 
𝑋 > 1,93 
Região de rejeição ou crítica 
 
𝑋 
Solução utilizada: definir as hipóteses de modo que o erro alfa seja o pior erro e construir o 
teste de modo que o erro alfa seja tão pequeno quanto se queira. 
 
Para α = 0,01 
Rejeita H0 se 𝑋 = 193,10 ou se Zcal.= 𝑋 - 190/1,33 > 2,33 
|P (𝑋 > ?) = 0,01 𝑋 - 190/1,33 = 2,33 𝑋 = 193,10 
β = |P (𝑋 < 193,10 / H0 é F) 
No exemplo: 
E se o tamanho da amostra fosse maior? 
Variância maior, curva mais achatada. Para continuar α =1%, o β aumenta. 
Repetir para n=20. Qual seria o teste para α=0,0119? 
Conclusão: determina-se o tamanho da amostra para que o erro beta seja tão pequeno quanto 
se queira. 
 
Aula 11 – 3 de Abril de 2014 
 
Exemplo Didático (Continuação) 
X: comprimento do crânio 
 
Sabe-se que X na população A possui média 190mm e na população B a média é 
196mm. O desvio padrão é de 8mm nas duas populações. 
 
1.Determine o teste para tamanho amostral de n=36 e nível de significância 
E=0,01. 
 
O teste será: Rejeita Ho: 𝑋 >193,11 
 
2.Repita trocando o tamanho amostral para n=20 
 
Erro 2: calcular a probabilidade de não rejeitar quando é falsa! 
 
Teste Z para uma média 
Teste estatístico adequado para testar hipóteses sobre uma média quando o tamanho amostral 
for grande e a variância populacional for conhecida. 
 
HipótesesEstatísticas: 
 
Estatística do Teste: 
 
 
 
 
Teste = Região de Rejeição (Dependerá do nível de significância E) 
 
1. Teste Bilateral: rejeita se Zcalc > Zα/2 ou Zcalc < -Zα/2, onde µ0 é o valor de referência. 
 
2. Teste Unilateral a direita: rejeita se Zcalc > Zα 
 
3. Teste Unilateral a esquerda: rejeita se Zcalc < - Zα 
 
Exemplo 
X: PAS (pressão arterial sistólica) 
Sabe-se que X na população em geral tem média de 128 com dp=24. 
Uma amostra de n=60 de indivíduos tratados com medicamento M resultou média de 135. 
 
Baseado nesta amostra é possível dizer que o medicamento M altera a PAS? Use α=0,05. 
 
Antes de Observar a amostra: 
 
A hipótese do autor está como altera a PAS. O valor de referência é 128. 
Hipóteses Estatísticas: 
 
 
 
Nível de significância do teste: E=0,05 
Teste adequado = Teste Z para uma média porque n=60 é grande e a variância populacional é 
conhecida σ
2 = 
24
2 
= 576 
 
Região Crítica: 
Estatística do Teste Z: 
 
 
Rejeita se Z cal > Zα/2=0,025=1,96 ou Z cal < - Zα/2=0,025= - 1,96 
Ou seja, 𝑋 - 128/3,1 >1,96 = 𝑋 > 134,076 ou 𝑋 - 128/3,1 < -1,96 = 𝑋 < 121,924 
 
Poder do Teste: o que é Ho falsa? 
Existe infinitos erros do tipo 2, poderes, para cada verdade absoluta; exceto para o 128. 
 
Erro Alfa e Erro Beta 
 
 
 
 
• O erro alfa é àquele associado a igualdade da hipótese nula. Portanto, existe apenas um erro 
alfa e este deve ser fixado pelo pesquisador 
 
• O erro beta é àquele associado a falsidade da hipótese nula. Portanto, existem infinitos erros 
betas. O erro beta depende de quão diferente a verdadeira média é do valor de referência. Mas 
lembre-se, esta diferença é desconhecida! 
 
Poder = 1- erro II = |P (rej. H0 é F) 
 
|P (𝑋 > 134,076 quando µ =129) + |P (𝑋 < 121,924 quando µ = 129) 
 
Padronizar: 𝑋 ~N (µx, 24/ 60 = 3,1
2
) 
 
|P (𝑋 > 134,076 qnd µ = 129) = |P (Z > 134,076 -129/3,1)= |P (Z> 1,64) = 0,0505 
 
|P (𝑋 < 121,924 qnd µ= 129) = |P (Z < 121,924 – 129/3,1) = |P (Z< -2,28) = 0,0113 
 
Então: 
|P (𝑋 > 134,076 quando µ =129) + |P (𝑋 < 121,924 quando µ = 129) = 0,0505 + 0,0113 = 0,0618 
= quando a verdadeira média é 129. 
 
Função Poder 
 
Quanto maior o desvio real, mais fácil eu detectar essa diferença, então meu poder cresce. 
Devido a simetria da normal tanto faz se o desvio está acima ou abaixo da média, o valor 
correspondente será o mesmo. 
 
Depois de observar a amostra 
Calcula o valor da estatística de teste: 
 
 
Calcula o valor-p do teste: 
 
Valor-p: é uma probabilidade e mede a força com que Ho foi rejeitada. É uma medida de 
evidência estatística: quanto maior o valor-p mais os dados evidenciam de que Ho deve ser 
rejeitada. 
 
Valor-p = 2 x 0,0119 = 0,0238. 
 
Depois de observar a amostra 
 
Decisão Estatística: Rejeita Ho pois 2,26 está na região de rejeição. 
Se a Decisão for Rejeitar Ho calcular IC para a diferença (S-128): 
 
 
|C 95%: (135 – 128) – 1,96 24/ 60 = 0,924 
 
Conclusão Experimental: a média amostral de 135 observada é significativamente (valor-p = 
0,0238) diferente de 128. Portanto, há evidências estatísticas de que indivíduos tratados com M 
tem PAS mais elevada. Com 95% de confiança estima-se que indivíduos tratados com M 
apresentam em média (0,92;13,08) unidades (mmHg) mais elevado de pressão. 
 
Exemplo 
X: nível de colesterol 
 
População com nível médio de 262 mg/mL e dp=70. 
 
Desta população é selecionada uma amostra de n=20 de indivíduos que foram submetidos a 
uma dieta que visa reduzir o nível de colesterol. 
 
Depois de um período sob a nova dieta o nível médio de colesterol na amostra foi de 233. 
 
Determine o teste adequado para E=0,05. 
Calcule poder considerando desvio de 10 e tb de 20 e 29. 
Baseado nesta amostra é possível dizer que a dieta reduz o nível de colesterol? 
 
 
Teste Z (N=20 grande, e variância conhecida) unilateral de região crítica na esquerda. 
 
Em resumo: 
Antes de observar a amostra 
• Determina-se o valor do erro alfa e o valor do erro beta. 
• Busca-se na literatura estimativas para as variâncias. 
• Determina-se a diferença clinicamente relevante. 
• Com base nos dados anteriores calcula-se o tamanho da amostra. 
ex: qual o n que garante poder de pelo menor 80% quando a diferença clinicamente relevante 
são 2 unidades de mmHg? 
• Com base no tamanho das amostras define-se a Região Crítica do teste. 
 
262

Outros materiais