Buscar

Medidas de variabilidade desvio padrao erro padrao e erro amostral

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Curso de Análise Estatística - Ângela 
T. Paes 1
Curso de Análise Estatística -
Ângela T. Paes 
1. Exercício de identificação e classificação de variáveis 1. Exercício de identificação e classificação de variáveis --
exemplos de estudos.exemplos de estudos.
2. Exercício sobre organização do banco de dados. 2. Exercício sobre organização do banco de dados. 
3. Exercício sobre 3. Exercício sobre BoxBox--plotplot..
Exercícios da aula anteriorExercícios da aula anterior
Revisão das aulas anterioresRevisão das aulas anteriores
••Introdução à Estatística, organização do banco de dados, Introdução à Estatística, organização do banco de dados, tipos tipos 
de variáveisde variáveis, descrição de um conjunto de dados., descrição de um conjunto de dados.
Análise DescritivaAnálise Descritiva
••Variáveis qualitativas: Variáveis qualitativas: frequênciasfrequências, gráficos de barras e , gráficos de barras e 
setores.setores.
•• Variáveis quantitativas: medidas de posição (média, Variáveis quantitativas: medidas de posição (média, 
mediana, mediana, quartisquartis, , percentispercentis),gráficos (histograma, ),gráficos (histograma, boxbox--plotplot, , 
dotdot plotplot). Faltou falar sobre ). Faltou falar sobre medidas de dispersãomedidas de dispersão..
Curso de Análise Estatística -
Ângela T. Paes 
Exemplo 1: Duas amostras de 20 indivíduos
Amostra 1:
Estatura mínima: 140 cm
Estatura máxima: 180 cm
Amostra 2:
Estatura mínima: 150 cm
Estatura máxima: 170 cm
Em qual das duas amostras os indivíduos variam mais em relação à estatura?
CONCEITOS: amplitudeCONCEITOS: amplitude
Medidas de dispersão (variabilidade)Medidas de dispersão (variabilidade)
��Distância entre os valores máximo e mínimo: Distância entre os valores máximo e mínimo: 
amplitude = valor máximo amplitude = valor máximo –– valor mínimovalor mínimo
�� Desvantagem: considera apenas os extremos, ignora a Desvantagem: considera apenas os extremos, ignora a 
distribuição dos dadosdistribuição dos dados
Curso de Análise Estatística -
Ângela T. Paes 
Exemplo 2: Duas amostras de 6 indivíduos
(os valores abaixo representam a estatura, em cm)
Amostra 1: 150, 151, 153, 155, 158, 160
Amostra 2: 150, 155, 155, 155, 155, 160
Questão 1: Em qual das duas amostras os indivíduos variam mais em 
relação à estatura?
Medidas de dispersão (variabilidade)Medidas de dispersão (variabilidade)
Conclusão: nem sempre a amplitude é uma boa medida de variabilidade 
pois considera apenas os extremos.
Problema: encontrar uma medida de variabilidade que leve em conta 
todos os valores. (Exemplo dos salários)
Curso de Análise Estatística -
Ângela T. Paes 
Medidas de dispersão (variabilidade)Medidas de dispersão (variabilidade)
�� No exemplo dos salários, verificamos que amostras com a No exemplo dos salários, verificamos que amostras com a 
mesma média podem ter variabilidades muito diferentes.mesma média podem ter variabilidades muito diferentes.
��Como medir a variabilidade de um conjunto de dados?Como medir a variabilidade de um conjunto de dados?
�� A forma mais comum de medir a variabilidade é quantificáA forma mais comum de medir a variabilidade é quantificá--la la 
pelas distâncias das observações com relação à média.pelas distâncias das observações com relação à média.
�� Para qualquer conjunto de dados, a soma dos desvios em Para qualquer conjunto de dados, a soma dos desvios em 
relação á média é zero. relação á média é zero. 
��Proposta: Distâncias quadráticas em relação à média Proposta: Distâncias quadráticas em relação à média 
(variância).(variância).
Curso de Análise Estatística -
Ângela T. Paes 
Variância PopulacionalVariância Populacional
�� Média das distância quadráticas:Média das distância quadráticas:
µµ: : médiamédia populacionalpopulacional σσ: : desvio padrão populacionaldesvio padrão populacional
�� Sua unidade de medida é igual ao quadrado da unidade de Sua unidade de medida é igual ao quadrado da unidade de 
medida dos dados.medida dos dados.
N
X
XVar
N
i
i
2
12
)(
)(
∑
=
−
==
µ
σ
Curso de Análise Estatística -
Ângela T. Paes 
Variância e desvio padrão amostralVariância e desvio padrão amostral
�� Variância amostral:Variância amostral:
�� Desvio padrão amostral:Desvio padrão amostral:
1
)(
)(
2
1
−
−
==
∑
=
n
Xx
XDP
n
i
i
σ
1
)(
)(
2
12
−
−
==
∑
=
n
Xx
XVar
n
i
i
σ
Curso de Análise Estatística - Ângela 
T. Paes 2
Curso de Análise Estatística -
Ângela T. Paes 
Coeficiente de variação (CV)Coeficiente de variação (CV)
�� Representa a variabilidade como uma fração em relação à Representa a variabilidade como uma fração em relação à 
média. média. 
�� É comum apresentar o CV em porcentagem (CV x 100)É comum apresentar o CV em porcentagem (CV x 100)
�� Pode ser usado para comparar a dispersão de dois conjuntos Pode ser usado para comparar a dispersão de dois conjuntos 
de dados, sem que eles estejam necessariamente na mesma de dados, sem que eles estejam necessariamente na mesma 
unidade de medida.unidade de medida.
X
DP)X(CV)X(CV =⇒=
µ
σ
Curso de Análise Estatística -
Ângela T. Paes 
Coeficiente de variação (CV) Coeficiente de variação (CV) -- exemploexemplo
Idade de alunos de graduação (2º ano de Medicina) e pós Idade de alunos de graduação (2º ano de Medicina) e pós 
graduação da graduação da UnifespUnifesp..
O grupo de alunos de graduação é muito mais homogêneo em O grupo de alunos de graduação é muito mais homogêneo em 
relçãorelção á idade do que o grupo de alunos de pós graduação.á idade do que o grupo de alunos de pós graduação.
Os desvios padrão de variáveis diferentes (ou de grupos com Os desvios padrão de variáveis diferentes (ou de grupos com 
tamanhos muito diferentes) não são comparáveis, mas os CVtamanhos muito diferentes) não são comparáveis, mas os CV´´s s 
são.são.
Graduação
(n=109)
Pós graduação
(n=101)
Média 20,4 33,5
DP 1,9 9,5
CV 0,09 = 9% 0,28 = 30%
Curso de Análise Estatística -
Ângela T. Paes 
Distribuição das idades dos alunos de graduação e Distribuição das idades dos alunos de graduação e 
pós da pós da UnifespUnifesp
Curso de Análise Estatística -
Ângela T. Paes
Exemplo: Duas amostras de 20 indivíduos
Em qual das duas amostras os indivíduos variam mais em relação 
ao sexo?
Variabilidade para uma proporçãoVariabilidade para uma proporção
Seja p a proporção de homens e (1-p) a proporção de mulheres.
Variância = p.(1-p) DP = Var = p.(1-p)
Var(amostra 1)=0,50.(1-0,50)=0,25
Var(amostra 2)=0,75.(1-0,75)=0,1875
Curso de Análise Estatística -
Ângela T. Paes 
Variabilidade entre amostrasVariabilidade entre amostras
�� VVimos que o imos que o desvio padrãodesvio padrão é uma medida de é uma medida de 
variabilidade individualvariabilidade individual, pois avalia na amostra , pois avalia na amostra 
o quanto os indivíduos se distanciam da média.o quanto os indivíduos se distanciam da média.
�� Se tivermos várias amostras, é interessante Se tivermos várias amostras, é interessante 
avaliar a variabilidade avaliar a variabilidade de uma amostra para de uma amostra para 
outraoutra em relação a suas estimativas (médias e em relação a suas estimativas (médias e 
proporções).proporções).
��Note que diferentes amostras produzem Note que diferentes amostras produzem 
diferentes médias amostrais.diferentes médias amostrais.
Amostras
1.70
1.65
1.83
1.72
1.68
1.56
População
1.64,...,1.79 701x .=
1.68,...,1.72 711x .=
1.70,...,1.84 761x .=
M M
Amostras diferentes produzem médias diferentesAmostras diferentes produzem médias diferentes
Curso de Análise Estatística - Ângela 
T. Paes 3
Variabilidade das médias amostraisVariabilidade das médias amostrais
Cada amostra produziu uma média diferente, ou seja, amédia amostral também tem sua variabilidade.
Então, como saber se a média da amostra que 
selecionamos é uma boa estimativa da média populacional?
Como cada amostra resulta em uma média diferente, é Como cada amostra resulta em uma média diferente, é 
interessante ter uma interessante ter uma medida de precisãomedida de precisão da média da média 
amostral baseada em sua variabilidade.amostral baseada em sua variabilidade.
Para isso é preciso conhecer um pouco mais sobre a 
distribuição das médias das amostras que podem ser 
retiradas de uma mesma população.
Índice de Massa Corpórea - IMC (Kg/m2)
Fr
eq
u
ên
ci
a
20 25 30 35
0
5
10
15
20
25
30
Distribuição da população dos 109 alunos quanto ao IMCDistribuição da população dos 109 alunos quanto ao IMC
MÉDIA = 22,715 kg/mMÉDIA = 22,715 kg/m2 2 
DP = 3,314 kg/m2 DP = 3,314 kg/m2 
n = 109n = 109
COMANDO NO Rcmdr: GRÁFICOS – HISTOGRAMA
Hist(DADOS_ALUNOS$imc, scale="frequency",breaks="Sturges", 
col="darkgray",xlab="Índice de Massa Corpórea - IMC (Kg/m2)",ylab="Frequência")
Como se Como se 
distribuem as distribuem as 
médias das médias das 
amostras retiradas amostras retiradas 
desta população?desta população?
Como se distribuem as médias de amostras de Como se distribuem as médias de amostras de 
uma mesma população?uma mesma população?
Fr
e
qu
ên
c
ia
20 25 30 35
0
15
Am
o
st
ra
s
 
n
=
5
20 25 30 35
0
30
Am
o
s
tra
s
 
n
=
20
20 25 30 35
0
30
Índice de Massa Corpórea - IMC (Kg/m2)
Am
o
s
tra
s
 
n
=
50
20 25 30 35
0
20
Distribuição das médias amostraisDistribuição das médias amostrais
População (N=109)
Médias amostrais
200 amostras de tamanho 5
Médias amostrais
200 amostras de tamanho 50
média populacional
Médias amostrais
200 amostras de tamanho 20
COMANDO NO Rcmdr: Distribuições – Distribuições contínuas –
Distribuição Normal – Amostragem da distribuição Normal
Fr
eq
u
ên
cia
20 25 30 35
0
5
15
25
Am
o
s
tra
s 
n
=
5
20 25 30 35
0
20
40
Índice de Massa Corpórea - IMC (Kg/m2)
Am
o
s
tra
s
 
n
=
50
20 25 30 35
0
10
20
30
Distribuição das médias amostraisDistribuição das médias amostrais
População
Médias amostrais
200 amostras de tamanho 5
Médias amostrais
200 amostras de tamanho 50
média populacional
Teorema do Limite CentralTeorema do Limite Central
Na prática, não se pode calcular a variabilidade da
média, pois em geral o pesquisador dispõe de uma única
amostra para estimar a verdadeira média µ e não de
todas as amostras possíveis.
No entanto, pode-se mostrar matematicamente
que se extrairmos muitas amostras de tamanho n
de uma mesma população com média µ e desvio
padrão σ, a distribuição das médias amostrais vai
se aproximando de uma DISTRIBUIÇÃO NORMAL
com média igual à verdadeira média µ e desvio
padrão σ/√n . Este resultado é conhecido como
Teorema do Limite Central (TLC).
Distribuição da média amostral Distribuição da média amostral –– ERRO PADRÃOERRO PADRÃO
Segundo o TLC, a média amostral tem distribuição Segundo o TLC, a média amostral tem distribuição 
aproximadamente Normal com média aproximadamente Normal com média com média µµ e 
desvio padrão σσ/√n/√n onde onde µ µ é a média populacional, é a média populacional, σσ é o é o 
desvio padrão populacional e desvio padrão populacional e nn é o tamanho da amostraé o tamanho da amostra.
O desvio padrão das médias amostrais σ/√n é 
conhecido como erro padrão e pode ser estimado 
por:
n
DPEP = DP: desvio padrão amostral
n: tamanho da amostra
Curso de Análise Estatística - Ângela 
T. Paes 4
Curso de Análise Estatística -
Ângela T. Paes 
Recapitulando:Recapitulando:
•• Desvio Padrão:Desvio Padrão: variabilidade dos valores variabilidade dos valores 
individuais em torno da médiaindividuais em torno da média
•• Erro Padrão:Erro Padrão: variabilidade das estimativasvariabilidade das estimativas
•• variabilidade entre as médias (ou proporções) variabilidade entre as médias (ou proporções) 
amostrais que podem ser retiradas da populaçãoamostrais que podem ser retiradas da população
•• mede a mede a incertezaincerteza da média (ou proporção) de da média (ou proporção) de 
uma única amostra como uma estimativa da uma única amostra como uma estimativa da 
média (proporção) da populaçãomédia (proporção) da população
•• quanto maior a amostra, menor a incertezaquanto maior a amostra, menor a incerteza
n
DPEP =
Curso de Análise Estatística -
Ângela T. Paes 
Observações sobre o erro padrãoObservações sobre o erro padrão
Note que o erro padrão é Note que o erro padrão é diretamente proporcionaldiretamente proporcional
ao desvio padrão da variável e ao desvio padrão da variável e inversamente inversamente 
proporcionalproporcional ao tamanho da amostra.ao tamanho da amostra.
Portanto Portanto medidas com alta variabilidademedidas com alta variabilidade e e amostras amostras 
pequenaspequenas resultam em um erro padrão grande, o resultam em um erro padrão grande, o 
que implica que implica baixa precisãobaixa precisão da média amostral como da média amostral como 
uma estimativa da média populacional.uma estimativa da média populacional.
Como medir essa precisão?Como medir essa precisão?
Para qualquer tamanho de amostra n, a média da 
amostra é “sempre” diferente da média µ da 
população .
A distância entre a média da amostra e a média da 
população é chamada de Erro Amostral (EA).
Não é possível calcular diretamente o erro amostral, pois a 
média populacional não é conhecida, mas intuitivamente sabemos 
algumas de suas propriedades.
Erro AmostralErro Amostral
• Para uma determinada população com um determinado desvio-
padrão, quanto maior for o tamanho da amostra menor será o EA
• Para um determinado tamanho de amostra quanto mais espalhada 
for a população em torno da média (desvio-padrão), maior será o EA 
• Portanto podemos escrever que o erro amostral (EA) é
proporcional ao erro padrão
Erro Amostral (fatos intuitivos)Erro Amostral (fatos intuitivos)
Erro amostral ( EA ) : medida de precisão da 
estimativa associada a um certo nível de confiança
EPCEA ⋅=
EP é o erro padrão da estimativa
C é o coeficiente de confiança, que pode ser obtido 
a partir da distribuição Normal padrão. 
Curso de Análise Estatística -
Ângela T. Paes
Dimensionamento de amostrasDimensionamento de amostras
•• Para estudos nos quais o objetivo principal é Para estudos nos quais o objetivo principal é 
estimar uma média ou uma proporção na população, estimar uma média ou uma proporção na população, 
o cálculo do tamanho da amostra pode ser baseado o cálculo do tamanho da amostra pode ser baseado 
no erro amostral, no coeficiente de confiança e em no erro amostral, no coeficiente de confiança e em 
uma estimativa da variabilidade.uma estimativa da variabilidade.
2
..
....






=⇒=⇒
=⇒==
EA
DPc
n
EA
DPc
n
DPcnEA
n
DP
cEPcEA
Curso de Análise Estatística - Ângela 
T. Paes 5
Curso de Análise Estatística -
Ângela T. Paes
2
2
2
EA
DP
cn =
Dimensionamento de amostras Dimensionamento de amostras ––
estimação de uma médiaestimação de uma média
Exemplo: Um médico de um determinado hospital está interessado 
em saber qual a idade média das mulheres que morrem devido à 
problemas cardíacos. Com base em estudos anteriores, estima-se 
que o desvio padrão é em torno de 10 anos. Considerando um um
erro de 2 anos e um nível de confiança de 95%, qual deve ser o 
tamanho da amostra?
pacientesn 96
2
1096,1 2
2
2 ≅=
Curso de Análise Estatística -
Ângela T. Paes
2
2 )1.(
EA
pp
cn
−
=
Dimensionamento de amostras Dimensionamento de amostras ––
estimação de uma proporçãoestimação de uma proporçãoExemplo: Um pesquisador deseja estimar a prevalência de 
tuberculose em sua cidade entre crianças até 5 anos de idade. 
Ele supõe que a verdadeira taxa dificilmente excede 20% e 
deseja que a diferença entre a prevalência real e estimada seja 
de até 5%. Qual deveria ser o tamanho de amostra para um nível 
de confiança de 95%?
criançasn 246
05,0
)20,01.(20,096,1 22 ≅
−
=
Curso de Análise Estatística -
Ângela T. Paes 
ExercíciosExercícios
Perguntas para reflexão:Perguntas para reflexão:
1. O que é distribuição Normal? 1. O que é distribuição Normal? 
2. Por quê a distribuição Normal é tão importante?2. Por quê a distribuição Normal é tão importante?
3. Na prática, como verificamos se a distribuição do dados é Normal?3. Na prática, como verificamos se a distribuição do dados é Normal?
4. Quais as consequências de uma distribuição não Normal?4. Quais as consequências de uma distribuição não Normal?
5. Quais as alternativas de análise quando a distribuição não é Normal?5. Quais as alternativas de análise quando a distribuição não é Normal?
PROBLEMA 1:PROBLEMA 1: SabeSabe--se que, entre indivíduos normais, a média de Glicemia se que, entre indivíduos normais, a média de Glicemia 
em jejum é de 80 em jejum é de 80 mgmg/dl. Em uma pesquisa realizada com 49 pacientes /dl. Em uma pesquisa realizada com 49 pacientes 
hipertensos, encontrouhipertensos, encontrou--se uma glicemia média de 86 se uma glicemia média de 86 mgmg/dl e desvio /dl e desvio 
padrão de 12 padrão de 12 mgmg/dl. Existe evidência estatística de que a glicemia /dl. Existe evidência estatística de que a glicemia 
entre os hipertensos difere da glicemia de indivíduos normais?entre os hipertensos difere da glicemia de indivíduos normais?
PROBLEMA 2:PROBLEMA 2: Um estudo registrou o tempo (em meses) entre a remissão de Um estudo registrou o tempo (em meses) entre a remissão de 
uma doença e a recidiva de 25 pacientes, sendo 12 homens e 13 uma doença e a recidiva de 25 pacientes, sendo 12 homens e 13 
mulheres. Sabendo que o tempo médio nos homens foi de 10 (mulheres. Sabendo que o tempo médio nos homens foi de 10 (dpdp=6,55) =6,55) 
e nas mulheres foi de 7,8 (e nas mulheres foi de 7,8 (dpdp=4,3), você acha que existe evidência =4,3), você acha que existe evidência 
estatística para concluir que as mulheres retornam mais cedo ao estatística para concluir que as mulheres retornam mais cedo ao 
hospital?hospital?

Continue navegando