Buscar

Amostragem e Distribuição de Dados em R

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Probabilidade e 
Estatística para 
análise e dados
Amostragem e Distribuição dos 
Dados
Profª. Drª. Hallynnee Rossetto
• Unidade de Ensino: 3
• Competência da Unidade: Conhecer e ser capaz de 
avançar um pouco mais nos tópicos de amostragem e de 
distribuição de dados, especialmente a amostral. 
• Resumo: Nesta aula abordaremos conceitos referentes à 
amostragem; a Distribuição de Dados e a Análise de 
Distribuição de Dados em R e ideias de reamostragem.
• Palavras-chave: Amostragem; Distribuição de Dados; 
Análise de Distribuição de Dados em R.
• Título da Teleaula: Amostragem e Distribuição dos Dados
• Teleaula nº: 3
Contextualização
Amostragem 
Bootstrap
Jackknife
Fonte: https://www.shutterstock.com/pt/image-photo/close-scientist-takes-soil-sample-
medical-1915132291
https://www.shutterstock.com/pt/image-photo/web-developer-php-code-close-
collection-588086828
https://www.shutterstock.com/pt/image-photo/close-scientist-takes-soil-sample-medical-1915132291
Amostragem
Amostragem 
A amostragem é um processo para composição de uma amostra e, 
também, criterioso e que deve considerar uma série de requisitos para 
que seja bem-sucedido.
Fonte: Ribeiro, 2015.
Como compor uma amostra?
Cada elemento da 
população possui a 
mesma probabilidade de 
ser selecionado para 
compor a amostra.
A seleção da amostra 
pode ser interferida pelo 
julgamento do 
pesquisador. 
Probabilística
Não 
Probabilística
▪ Aleatória Simples
▪ Aleatória Sistemática
▪ Aleatória estratificada
▪ Conglomerados 
Probabilística
▪ Acidental ou Esmo
▪ Intencional
▪ Cotas
Não 
Probabilística
Amostragem Aleatória Simples
AAS é possivelmente o método mais utilizado tanto no 
mercado, quanto na área acadêmica. 
▪ A AAS opera em um processo semelhante a um 
sorteio. 
▪ Após o conhecimento de todos os elementos 
populacionais, é associado a um número ou outra 
característica única e individual, realizando um sorteio 
com base nestes critérios estabelecidos. 
Existem dois tipos gerais de AAS: a com reposição e a 
sem reposição (BUSSAB & MORETTIN, 2010). 
Na amostragem com reposição, é possível sortear 
uma mesma pessoa mais de uma vez, o que pode não 
ser interessante a depender do interesse por trás da 
amostragem. 
Na amostragem sem repetição, cada indivíduo, uma 
vez sorteado, não poderá ser incluído na amostra 
novamente.
Fonte: Silva (2021) 
Tamanho amostral
Em alguns estudos é possível fazer a suposição que o 
tamanho da amostra, n, era conhecido e fixo. Podemos, 
em certas ocasiões, querer determinar o tamanho da
amostra a ser escolhida de uma população, de modo a 
obter um erro de estimação previamente estipulado, com 
determinado grau de confiança (BUSSAB & MORETTIN, 
2010). 
Tamanho da amostra
𝑛 =
𝜎2 ⋅ 𝑍𝛾
2
𝜀2
𝑛 =
𝑁 ⋅ 𝜎2 ⋅ 𝑍𝛾
2
𝑁 − 1 ⋅ 𝜀2 + 𝜎2 ⋅ 𝑍𝛾
2
População Infinita
População Finita
▪ 𝜀 refere-se ao erro amostral, ou seja, até qual valor 
está disposto a aceitar um desvio em relação à 
população.
▪ 𝑍𝛾 é obtido através da tabela de Distribuição Normal 
Padrão, ou somente Distribuição Z. O símbolo 𝛾 refere-
se à margem de confiança que está sendo utilizada. 
Geralmente, utiliza-se uma margem de 95% - 𝑍0,95 =
1,96. 
▪ O termo 𝜎2refere-se à variância populacional. No 
entanto, dificilmente possui a variância populacional 
disponível. Neste caso, há duas saídas. Ou obter uma 
aproximação de um estudo prévio.
Tamanho da amostra 
Um engenheiro de produção deseja estimar o número 
médio de peças defeituosas produzidas por uma máquina 
em cada turno. Estudo preliminar mostra que o número 
de peças defeituosas produzidas pela máquina varia de 
turno para turno, com desvio-padrão de 12.
Qual deve ser o tamanho da amostra a ser extraída de 
modo que, com 95% de probabilidade, a estimativa do 
número médio de peças defeituosas produzidas pela 
máquina esteja a até três peças do verdadeiro valor de 𝜇.
Fonte: adaptada de Gupta e Guttman (2016, p. 249)
Temos que:
𝜎 = 12 𝑍0,95 = 1,96 𝜀 = 3
𝑛 =
𝜎2 ⋅ 𝑍𝛾
2
𝜀2
𝑛 =
122 ⋅ 1,962
32
𝑛 =
144 ⋅ 3,8416
9
≅ 61,47
Portanto, o engenheiro deve extrair uma amostra de 
tamanho 62 para alcançar seu objetivo. 
Selecionando uma 
amostra
Imagine que 500 clientes estão cadastrados em sua 
empresa e que você precisa obter uma amostra simples 
de 2% dos cadastros. O que você faria?
Fonte: https://www.shutterstock.com/pt/image-photo/raffle-game-different-colored-balls-bingo-1846980349
https://www.shutterstock.com/pt/image-photo/woman-taking-paper-piece-glass-vase-1224230149
https://www.shutterstock.com/pt/image-photo/raffle-game-different-colored-balls-bingo-1846980349
https://www.shutterstock.com/pt/image-photo/woman-taking-paper-piece-glass-vase-1224230149
Uma amostra de 2% de 500 cadastros, você precisa sortear dez. 
• Comece dando um número para cada cadastro → 1 a 500.
• Coloque, em uma urna, bolas numeradas de 0 a 9, misture 
bem e retire uma. 
• Anote o número dessa bola, que será o primeiro dígito do 
número do cadastro que será amostrado.
• Volte a bola retirada à urna, misture bem e retire outra.
• O número dessa segunda bola será o segundo dígito do 
número do cadastro que será amostrado. 
• Repita o procedimento mais uma vez, para completar os
três dígitos da numeração utilizada. 
Como a população é constituída por 500 cadastros, devem ser 
desprezados os números maiores do que 500, assim como os 
números que já foram sorteados e o número 000. 
O sorteio deve ser repetido até se conseguir a amostra de dez 
cadastros.
Teorema do Limite 
Central
Teorema do Limite Central
▪O mais importante teorema da probabilidade e da 
estatística.
Se uma variável aleatória 𝑌 é a soma de 𝑛 variáveis 
aleatórias independentes que satisfazem certas condições 
gerais, então, para 𝑛 suficientemente grande, 𝑌 segue 
aproximadamente uma distribuição normal. 
24
Teorema do Limite Central
O TLC diz que para 𝑛 amostras aleatórias simples, 
retiradas de uma população com média 𝜇 e variância 𝜎2
finita, a distribuição amostral da média aproxima-se, para 
𝑛 grande, de uma distribuição normal, com média 𝜇 e 
variância 𝜎2/𝑛.
25
𝑋~𝑁 𝜇
𝜎
𝑛
Teorema do Limite Central
De acordo com o TCL, quando n for grande e queremos 
calcular uma probabilidade, tal como
𝑃(𝑎 ≤ ത𝑋 ≤ 𝑏),
precisamos somente “admitir” que ത𝑋 é normal, 
padronizá-lo e usar a tabela normal. 
𝑧 =
ҧ𝑥 − 𝜇
𝜎
𝑛
→ 𝑧 =
𝑛( ҧ𝑥 − 𝜇)
𝜎
26
Lote de um produto 
químico
A quantidade de uma determinada impureza em um lote 
de um produto químico é uma variável aleatória com um 
valor médio de 4,0 𝑔 e desvio padrão de 1,5 𝑔. Se 50
lotes são preparados de maneira independente, qual é a 
probabilidade (aproximada) de a média amostral da 
quantidade de impureza ത𝑋 estar entre 3,5 e 3,8 g?
28
De acordo com a regra prática, dita em poucas palavras, 
𝑛 = 50 é grande o suficiente para que o TCL seja 
aplicável.
𝑍 =
ҧ𝑥 − 𝜇
𝜎
𝑛
→
𝑛( ҧ𝑥 − 𝜇)
𝜎
ത𝑋, então, tem uma distribuição aproximadamente normal 
com o valor médio de 𝜇 ҧ𝑥 = 4,0 e 𝜎 ҧ𝑥 1,5/ 50 = 0,2121.
29
𝑃 3,5 ≤ ത𝑋 ≤ 3,8 ≈ 𝑃
ҧ𝑥 − 𝜇
𝜎
≤ 𝑍 ≤
ҧ𝑥 − 𝜇
𝜎
= 𝑃
3,5 − 4,0
0,2121
≤ 𝑍 ≤
3,8 − 4,0
0,2121
= 𝑃 −2,36 ≤ 𝑍 ≤ −0,94
= 𝑃 𝑍 = −0,94 − 𝑃(𝑍 = −2,36)
30
= 𝑃 𝑍 = −0,94 − 𝑃(𝑍 = −2,36)
0,1736 − 0,0091 = 0,1645
31
Distribuições de 
Probabilidade
Distribuições de probabilidades 
Há dois tipos de distribuições teóricas que correspondem 
a diferentes tipos de dados ou variáveis aleatórias: 
▪ a distribuição discreta
▪ a distribuição contínua.
Variáveis discretas
Uma variável aleatória é discreta se o número
de resultados possíveis é finito ou pode ser
contado.
Variáveis aleatórias discretas são determinadas
por uma contagem.
Variáveis contínuas
Uma variável aleatória é contínua se pode assumir
qualquer valor dentro de determinado intervalo.
O número de resultados possíveis não pode ser listado.
Variáveisaleatórias contínuas são determinadas por uma
medição.
Distribuições de probabilidades 
Além de identificar os valores de uma variável aleatória
→ podemos atribuir uma probabilidade a cada um
desses valores.
Quando temos os valores de uma variável aleatória
e suas probabilidades → temos uma distribuição de
probabilidades.
Distribuição de probabilidade
Distribuição de probabilidades é um modelo matemático
que estabelece a relação entre o valor da variável
aleatória e a probabilidade de ocorrência desse valor na
população.
Retirar um produto ao acaso numa linha de 
produção para inspeção
Não é possível antecipar se esse produto será conforme 
ou não conforme.
(Vieira, 2012)
Distribuições de probabilidades 
A distribuição de probabilidades associa uma
probabilidade a cada resultado numérico de um
experimento, ou seja, dá a probabilidade de cada valor
de uma variável aleatória.
𝑷[𝑿] 𝒐𝒖 𝑷[𝑿 = 𝒙]
Distribuição normal 
padrão - Z
Distribuição normal padrão - Z
▪ A mais importante distribuição de probabilidade contínua em todo o 
domínio da estatística é a distribuição normal.
▪ Seu gráfico, chamado de curva normal, é a curva em
forma de sino que aproximadamente descreve muitos
fenômenos que ocorrem na natureza, indústria e
pesquisa.
(LARSON E FARBER, 2010)
Uma distribuição normal é uma distribuição de probabilidade 
contínua para uma variável aleatória x. 
1. A média, a mediana e a moda são iguais. 
2. Uma curva normal tem forma de sino e é simétrica em 
torno da média.
3. A área total soba curva normal é igual a um.
(LARSON E FARBER, 2010)
Distribuição normal
Sabendo-se que 𝑋 tem uma distribuição normal 
com média  e variância ², ou seja, 𝑋: 𝑁(, 
²), define-se:
𝒛 =
𝑽𝒂𝒍𝒐𝒓 −𝑴é𝒅𝒊𝒂
𝑫𝒆𝒔𝒗𝒊𝒐 𝒑𝒂𝒅𝒓ã𝒐
42
𝑍 =
𝑋 − 𝜇
𝜎
𝑋 = 𝜇 + 𝜎 𝑍
Fonte: Silva (2021).
Distribuições de 
probabilidade no 
RStudio
Vamos diferenciar três distribuições de dados: normal, 
exponencial e uniforme e binomial e elaborar os 
histogramas, com auxílio do RStudio. 
• Distribuição Normal: proveniente de variáveis 
aleatórias contínuas.
• Distribuição Exponencial: proveniente de variáveis 
aleatórias contínuas. 
• Distribuição Uniforme: proveniente de variáveis 
aleatórias contínuas.
Bootstrap e Jackknife
É muito comum distribuições que não obedecem a uma 
regra de parametrização normal, ou seja, não possuem a 
tendência à normalidade, com parâmetros 𝜇 e 𝜎2. 
Nestes casos, uma alternativa é proceder com métodos 
de reamostragem, que permitirão obter, a partir de 
uma amostra inicial, algumas informações de precisão e 
intervalo de confiança. 
Bootstrap e Jackknife. 
O Bootstrap
É um método que consiste da reamostragem com reposição de 
uma amostra inicial, com um objetivo de se avaliar o desempenho 
da estimativa de um parâmetro 𝜃, que pode ser, por exemplo, a 
média, desvio padrão, variância, entre outros parâmetros. 
𝑋, com 𝑥𝑗 observações independentes
t conjuntos de dados - amostras Bootstrap
Fonte: Silva (2021) 
O Jackknife
Canivete, traduzido para o português, também conhecido 
por leave-one-out - deixar um de fora.
É um método que cria novas amostras deixando-se 
sempre ao menos um elemento de fora. 
Observação 1 2 3 4 5
Média 
Geométrica
Amostra 
Inicial
12 15 13 11 15 13,10
Aplicação do método de Jackknife
Observação 1 2 3 4 5
Média 
Geométrica
Amostra Inicial 12 15 13 11 15 13,10
Jackknife 1 NA 15 13 11 15 13,39
Jackknife 2 12 NA 13 11 15 12,67
Jackknife 3 12 15 NA 11 15 13,13
Jackknife 4 12 15 13 NA 15 13,69
Jackknife 5 12 15 13 11 NA 12,67
Média Aritmética (5 amostras Jackknife) 13,11
Fonte: Silva (2021) 
Recapitulando
Recapitulando... 
Nesta aula aprendemos sobre:
• Amostragem
• Tamanho amostral
• Teorema do Limite Central
• Distribuições de Probabilidade
• Distribuição normal padrão – Z
• Bootstrap e Jackknife

Continue navegando