Amostragem e Distribuição de Dados em R

•

UNIP

0

Faceinativo Naouso

27/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 53 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.583 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Probabilidade e
Estatística para
análise e dados
Amostragem e Distribuição dos
Dados
Profª. Drª. Hallynnee Rossetto
• Unidade de Ensino: 3
• Competência da Unidade: Conhecer e ser capaz de
avançar um pouco mais nos tópicos de amostragem e de
distribuição de dados, especialmente a amostral.
• Resumo: Nesta aula abordaremos conceitos referentes à
amostragem; a Distribuição de Dados e a Análise de
Distribuição de Dados em R e ideias de reamostragem.
• Palavras-chave: Amostragem; Distribuição de Dados;
Análise de Distribuição de Dados em R.
• Título da Teleaula: Amostragem e Distribuição dos Dados
• Teleaula nº: 3
Contextualização
Amostragem
Bootstrap
Jackknife
Fonte: https://www.shutterstock.com/pt/image-photo/close-scientist-takes-soil-sample-
medical-1915132291
https://www.shutterstock.com/pt/image-photo/web-developer-php-code-close-
collection-588086828
https://www.shutterstock.com/pt/image-photo/close-scientist-takes-soil-sample-medical-1915132291
Amostragem
Amostragem
A amostragem é um processo para composição de uma amostra e,
também, criterioso e que deve considerar uma série de requisitos para
que seja bem-sucedido.
Fonte: Ribeiro, 2015.
Como compor uma amostra?
Cada elemento da
população possui a
mesma probabilidade de
ser selecionado para
compor a amostra.
A seleção da amostra
pode ser interferida pelo
julgamento do
pesquisador.
Probabilística
Não
Probabilística
▪ Aleatória Simples
▪ Aleatória Sistemática
▪ Aleatória estratificada
▪ Conglomerados
Probabilística
▪ Acidental ou Esmo
▪ Intencional
▪ Cotas
Não
Probabilística
Amostragem Aleatória Simples
AAS é possivelmente o método mais utilizado tanto no
mercado, quanto na área acadêmica.
▪ A AAS opera em um processo semelhante a um
sorteio.
▪ Após o conhecimento de todos os elementos
populacionais, é associado a um número ou outra
característica única e individual, realizando um sorteio
com base nestes critérios estabelecidos.
Existem dois tipos gerais de AAS: a com reposição e a
sem reposição (BUSSAB & MORETTIN, 2010).
Na amostragem com reposição, é possível sortear
uma mesma pessoa mais de uma vez, o que pode não
ser interessante a depender do interesse por trás da
amostragem.
Na amostragem sem repetição, cada indivíduo, uma
vez sorteado, não poderá ser incluído na amostra
novamente.
Fonte: Silva (2021)
Tamanho amostral
Em alguns estudos é possível fazer a suposição que o
tamanho da amostra, n, era conhecido e fixo. Podemos,
em certas ocasiões, querer determinar o tamanho da
amostra a ser escolhida de uma população, de modo a
obter um erro de estimação previamente estipulado, com
determinado grau de confiança (BUSSAB & MORETTIN,
2010).
Tamanho da amostra
𝑛 =
𝜎2 ⋅ 𝑍𝛾
2
𝜀2
𝑛 =
𝑁 ⋅ 𝜎2 ⋅ 𝑍𝛾
2
𝑁 − 1 ⋅ 𝜀2 + 𝜎2 ⋅ 𝑍𝛾
2
População Infinita
População Finita
▪ 𝜀 refere-se ao erro amostral, ou seja, até qual valor
está disposto a aceitar um desvio em relação à
população.
▪ 𝑍𝛾 é obtido através da tabela de Distribuição Normal
Padrão, ou somente Distribuição Z. O símbolo 𝛾 refere-
se à margem de confiança que está sendo utilizada.
Geralmente, utiliza-se uma margem de 95% - 𝑍0,95 =
1,96.
▪ O termo 𝜎2refere-se à variância populacional. No
entanto, dificilmente possui a variância populacional
disponível. Neste caso, há duas saídas. Ou obter uma
aproximação de um estudo prévio.
Tamanho da amostra
Um engenheiro de produção deseja estimar o número
médio de peças defeituosas produzidas por uma máquina
em cada turno. Estudo preliminar mostra que o número
de peças defeituosas produzidas pela máquina varia de
turno para turno, com desvio-padrão de 12.
Qual deve ser o tamanho da amostra a ser extraída de
modo que, com 95% de probabilidade, a estimativa do
número médio de peças defeituosas produzidas pela
máquina esteja a até três peças do verdadeiro valor de 𝜇.
Fonte: adaptada de Gupta e Guttman (2016, p. 249)
Temos que:
𝜎 = 12 𝑍0,95 = 1,96 𝜀 = 3
𝑛 =
𝜎2 ⋅ 𝑍𝛾
2
𝜀2
𝑛 =
122 ⋅ 1,962
32
𝑛 =
144 ⋅ 3,8416
9
≅ 61,47
Portanto, o engenheiro deve extrair uma amostra de
tamanho 62 para alcançar seu objetivo.
Selecionando uma
amostra
Imagine que 500 clientes estão cadastrados em sua
empresa e que você precisa obter uma amostra simples
de 2% dos cadastros. O que você faria?
Fonte: https://www.shutterstock.com/pt/image-photo/raffle-game-different-colored-balls-bingo-1846980349
https://www.shutterstock.com/pt/image-photo/woman-taking-paper-piece-glass-vase-1224230149
https://www.shutterstock.com/pt/image-photo/raffle-game-different-colored-balls-bingo-1846980349
https://www.shutterstock.com/pt/image-photo/woman-taking-paper-piece-glass-vase-1224230149
Uma amostra de 2% de 500 cadastros, você precisa sortear dez.
• Comece dando um número para cada cadastro → 1 a 500.
• Coloque, em uma urna, bolas numeradas de 0 a 9, misture
bem e retire uma.
• Anote o número dessa bola, que será o primeiro dígito do
número do cadastro que será amostrado.
• Volte a bola retirada à urna, misture bem e retire outra.
• O número dessa segunda bola será o segundo dígito do
número do cadastro que será amostrado.
• Repita o procedimento mais uma vez, para completar os
três dígitos da numeração utilizada.
Como a população é constituída por 500 cadastros, devem ser
desprezados os números maiores do que 500, assim como os
números que já foram sorteados e o número 000.
O sorteio deve ser repetido até se conseguir a amostra de dez
cadastros.
Teorema do Limite
Central
Teorema do Limite Central
▪O mais importante teorema da probabilidade e da
estatística.
Se uma variável aleatória 𝑌 é a soma de 𝑛 variáveis
aleatórias independentes que satisfazem certas condições
gerais, então, para 𝑛 suficientemente grande, 𝑌 segue
aproximadamente uma distribuição normal.
24
Teorema do Limite Central
O TLC diz que para 𝑛 amostras aleatórias simples,
retiradas de uma população com média 𝜇 e variância 𝜎2
finita, a distribuição amostral da média aproxima-se, para
𝑛 grande, de uma distribuição normal, com média 𝜇 e
variância 𝜎2/𝑛.
25
𝑋~𝑁 𝜇
𝜎
𝑛
Teorema do Limite Central
De acordo com o TCL, quando n for grande e queremos
calcular uma probabilidade, tal como
𝑃(𝑎 ≤ ത𝑋 ≤ 𝑏),
precisamos somente “admitir” que ത𝑋 é normal,
padronizá-lo e usar a tabela normal.
𝑧 =
ҧ𝑥 − 𝜇
𝜎
𝑛
→ 𝑧 =
𝑛( ҧ𝑥 − 𝜇)
𝜎
26
Lote de um produto
químico
A quantidade de uma determinada impureza em um lote
de um produto químico é uma variável aleatória com um
valor médio de 4,0 𝑔 e desvio padrão de 1,5 𝑔. Se 50
lotes são preparados de maneira independente, qual é a
probabilidade (aproximada) de a média amostral da
quantidade de impureza ത𝑋 estar entre 3,5 e 3,8 g?
28
De acordo com a regra prática, dita em poucas palavras,
𝑛 = 50 é grande o suficiente para que o TCL seja
aplicável.
𝑍 =
ҧ𝑥 − 𝜇
𝜎
𝑛
→
𝑛( ҧ𝑥 − 𝜇)
𝜎
ത𝑋, então, tem uma distribuição aproximadamente normal
com o valor médio de 𝜇 ҧ𝑥 = 4,0 e 𝜎 ҧ𝑥 1,5/ 50 = 0,2121.
29
𝑃 3,5 ≤ ത𝑋 ≤ 3,8 ≈ 𝑃
ҧ𝑥 − 𝜇
𝜎
≤ 𝑍 ≤
ҧ𝑥 − 𝜇
𝜎
= 𝑃
3,5 − 4,0
0,2121
≤ 𝑍 ≤
3,8 − 4,0
0,2121
= 𝑃 −2,36 ≤ 𝑍 ≤ −0,94
= 𝑃 𝑍 = −0,94 − 𝑃(𝑍 = −2,36)
30
= 𝑃 𝑍 = −0,94 − 𝑃(𝑍 = −2,36)
0,1736 − 0,0091 = 0,1645
31
Distribuições de
Probabilidade
Distribuições de probabilidades
Há dois tipos de distribuições teóricas que correspondem
a diferentes tipos de dados ou variáveis aleatórias:
▪ a distribuição discreta
▪ a distribuição contínua.
Variáveis discretas
Uma variável aleatória é discreta se o número
de resultados possíveis é finito ou pode ser
contado.
Variáveis aleatórias discretas são determinadas
por uma contagem.
Variáveis contínuas
Uma variável aleatória é contínua se pode assumir
qualquer valor dentro de determinado intervalo.
O número de resultados possíveis não pode ser listado.
Variáveisaleatórias contínuas são determinadas por uma
medição.
Distribuições de probabilidades
Além de identificar os valores de uma variável aleatória
→ podemos atribuir uma probabilidade a cada um
desses valores.
Quando temos os valores de uma variável aleatória
e suas probabilidades → temos uma distribuição de
probabilidades.
Distribuição de probabilidade
Distribuição de probabilidades é um modelo matemático
que estabelece a relação entre o valor da variável
aleatória e a probabilidade de ocorrência desse valor na
população.
Retirar um produto ao acaso numa linha de
produção para inspeção
Não é possível antecipar se esse produto será conforme
ou não conforme.
(Vieira, 2012)
Distribuições de probabilidades
A distribuição de probabilidades associa uma
probabilidade a cada resultado numérico de um
experimento, ou seja, dá a probabilidade de cada valor
de uma variável aleatória.
𝑷[𝑿] 𝒐𝒖 𝑷[𝑿 = 𝒙]
Distribuição normal
padrão - Z
Distribuição normal padrão - Z
▪ A mais importante distribuição de probabilidade contínua em todo o
domínio da estatística é a distribuição normal.
▪ Seu gráfico, chamado de curva normal, é a curva em
forma de sino que aproximadamente descreve muitos
fenômenos que ocorrem na natureza, indústria e
pesquisa.
(LARSON E FARBER, 2010)
Uma distribuição normal é uma distribuição de probabilidade
contínua para uma variável aleatória x.
1. A média, a mediana e a moda são iguais.
2. Uma curva normal tem forma de sino e é simétrica em
torno da média.
3. A área total soba curva normal é igual a um.
(LARSON E FARBER, 2010)
Distribuição normal
Sabendo-se que 𝑋 tem uma distribuição normal
com média  e variância ², ou seja, 𝑋: 𝑁(,
²), define-se:
𝒛 =
𝑽𝒂𝒍𝒐𝒓 −𝑴é𝒅𝒊𝒂
𝑫𝒆𝒔𝒗𝒊𝒐 𝒑𝒂𝒅𝒓ã𝒐
42
𝑍 =
𝑋 − 𝜇
𝜎
𝑋 = 𝜇 + 𝜎 𝑍
Fonte: Silva (2021).
Distribuições de
probabilidade no
RStudio
Vamos diferenciar três distribuições de dados: normal,
exponencial e uniforme e binomial e elaborar os
histogramas, com auxílio do RStudio.
• Distribuição Normal: proveniente de variáveis
aleatórias contínuas.
• Distribuição Exponencial: proveniente de variáveis
aleatórias contínuas.
• Distribuição Uniforme: proveniente de variáveis
aleatórias contínuas.
Bootstrap e Jackknife
É muito comum distribuições que não obedecem a uma
regra de parametrização normal, ou seja, não possuem a
tendência à normalidade, com parâmetros 𝜇 e 𝜎2.
Nestes casos, uma alternativa é proceder com métodos
de reamostragem, que permitirão obter, a partir de
uma amostra inicial, algumas informações de precisão e
intervalo de confiança.
Bootstrap e Jackknife.
O Bootstrap
É um método que consiste da reamostragem com reposição de
uma amostra inicial, com um objetivo de se avaliar o desempenho
da estimativa de um parâmetro 𝜃, que pode ser, por exemplo, a
média, desvio padrão, variância, entre outros parâmetros.
𝑋, com 𝑥𝑗 observações independentes
t conjuntos de dados - amostras Bootstrap
Fonte: Silva (2021)
O Jackknife
Canivete, traduzido para o português, também conhecido
por leave-one-out - deixar um de fora.
É um método que cria novas amostras deixando-se
sempre ao menos um elemento de fora.
Observação 1 2 3 4 5
Média
Geométrica
Amostra
Inicial
12 15 13 11 15 13,10
Aplicação do método de Jackknife
Observação 1 2 3 4 5
Média
Geométrica
Amostra Inicial 12 15 13 11 15 13,10
Jackknife 1 NA 15 13 11 15 13,39
Jackknife 2 12 NA 13 11 15 12,67
Jackknife 3 12 15 NA 11 15 13,13
Jackknife 4 12 15 13 NA 15 13,69
Jackknife 5 12 15 13 11 NA 12,67
Média Aritmética (5 amostras Jackknife) 13,11
Fonte: Silva (2021)
Recapitulando
Recapitulando...
Nesta aula aprendemos sobre:
• Amostragem
• Tamanho amostral
• Teorema do Limite Central
• Distribuições de Probabilidade
• Distribuição normal padrão – Z
• Bootstrap e Jackknife