Baixe o app para aproveitar ainda mais
Prévia do material em texto
Probabilidade e Estatística para análise e dados Amostragem e Distribuição dos Dados Profª. Drª. Hallynnee Rossetto • Unidade de Ensino: 3 • Competência da Unidade: Conhecer e ser capaz de avançar um pouco mais nos tópicos de amostragem e de distribuição de dados, especialmente a amostral. • Resumo: Nesta aula abordaremos conceitos referentes à amostragem; a Distribuição de Dados e a Análise de Distribuição de Dados em R e ideias de reamostragem. • Palavras-chave: Amostragem; Distribuição de Dados; Análise de Distribuição de Dados em R. • Título da Teleaula: Amostragem e Distribuição dos Dados • Teleaula nº: 3 Contextualização Amostragem Bootstrap Jackknife Fonte: https://www.shutterstock.com/pt/image-photo/close-scientist-takes-soil-sample- medical-1915132291 https://www.shutterstock.com/pt/image-photo/web-developer-php-code-close- collection-588086828 https://www.shutterstock.com/pt/image-photo/close-scientist-takes-soil-sample-medical-1915132291 Amostragem Amostragem A amostragem é um processo para composição de uma amostra e, também, criterioso e que deve considerar uma série de requisitos para que seja bem-sucedido. Fonte: Ribeiro, 2015. Como compor uma amostra? Cada elemento da população possui a mesma probabilidade de ser selecionado para compor a amostra. A seleção da amostra pode ser interferida pelo julgamento do pesquisador. Probabilística Não Probabilística ▪ Aleatória Simples ▪ Aleatória Sistemática ▪ Aleatória estratificada ▪ Conglomerados Probabilística ▪ Acidental ou Esmo ▪ Intencional ▪ Cotas Não Probabilística Amostragem Aleatória Simples AAS é possivelmente o método mais utilizado tanto no mercado, quanto na área acadêmica. ▪ A AAS opera em um processo semelhante a um sorteio. ▪ Após o conhecimento de todos os elementos populacionais, é associado a um número ou outra característica única e individual, realizando um sorteio com base nestes critérios estabelecidos. Existem dois tipos gerais de AAS: a com reposição e a sem reposição (BUSSAB & MORETTIN, 2010). Na amostragem com reposição, é possível sortear uma mesma pessoa mais de uma vez, o que pode não ser interessante a depender do interesse por trás da amostragem. Na amostragem sem repetição, cada indivíduo, uma vez sorteado, não poderá ser incluído na amostra novamente. Fonte: Silva (2021) Tamanho amostral Em alguns estudos é possível fazer a suposição que o tamanho da amostra, n, era conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com determinado grau de confiança (BUSSAB & MORETTIN, 2010). Tamanho da amostra 𝑛 = 𝜎2 ⋅ 𝑍𝛾 2 𝜀2 𝑛 = 𝑁 ⋅ 𝜎2 ⋅ 𝑍𝛾 2 𝑁 − 1 ⋅ 𝜀2 + 𝜎2 ⋅ 𝑍𝛾 2 População Infinita População Finita ▪ 𝜀 refere-se ao erro amostral, ou seja, até qual valor está disposto a aceitar um desvio em relação à população. ▪ 𝑍𝛾 é obtido através da tabela de Distribuição Normal Padrão, ou somente Distribuição Z. O símbolo 𝛾 refere- se à margem de confiança que está sendo utilizada. Geralmente, utiliza-se uma margem de 95% - 𝑍0,95 = 1,96. ▪ O termo 𝜎2refere-se à variância populacional. No entanto, dificilmente possui a variância populacional disponível. Neste caso, há duas saídas. Ou obter uma aproximação de um estudo prévio. Tamanho da amostra Um engenheiro de produção deseja estimar o número médio de peças defeituosas produzidas por uma máquina em cada turno. Estudo preliminar mostra que o número de peças defeituosas produzidas pela máquina varia de turno para turno, com desvio-padrão de 12. Qual deve ser o tamanho da amostra a ser extraída de modo que, com 95% de probabilidade, a estimativa do número médio de peças defeituosas produzidas pela máquina esteja a até três peças do verdadeiro valor de 𝜇. Fonte: adaptada de Gupta e Guttman (2016, p. 249) Temos que: 𝜎 = 12 𝑍0,95 = 1,96 𝜀 = 3 𝑛 = 𝜎2 ⋅ 𝑍𝛾 2 𝜀2 𝑛 = 122 ⋅ 1,962 32 𝑛 = 144 ⋅ 3,8416 9 ≅ 61,47 Portanto, o engenheiro deve extrair uma amostra de tamanho 62 para alcançar seu objetivo. Selecionando uma amostra Imagine que 500 clientes estão cadastrados em sua empresa e que você precisa obter uma amostra simples de 2% dos cadastros. O que você faria? Fonte: https://www.shutterstock.com/pt/image-photo/raffle-game-different-colored-balls-bingo-1846980349 https://www.shutterstock.com/pt/image-photo/woman-taking-paper-piece-glass-vase-1224230149 https://www.shutterstock.com/pt/image-photo/raffle-game-different-colored-balls-bingo-1846980349 https://www.shutterstock.com/pt/image-photo/woman-taking-paper-piece-glass-vase-1224230149 Uma amostra de 2% de 500 cadastros, você precisa sortear dez. • Comece dando um número para cada cadastro → 1 a 500. • Coloque, em uma urna, bolas numeradas de 0 a 9, misture bem e retire uma. • Anote o número dessa bola, que será o primeiro dígito do número do cadastro que será amostrado. • Volte a bola retirada à urna, misture bem e retire outra. • O número dessa segunda bola será o segundo dígito do número do cadastro que será amostrado. • Repita o procedimento mais uma vez, para completar os três dígitos da numeração utilizada. Como a população é constituída por 500 cadastros, devem ser desprezados os números maiores do que 500, assim como os números que já foram sorteados e o número 000. O sorteio deve ser repetido até se conseguir a amostra de dez cadastros. Teorema do Limite Central Teorema do Limite Central ▪O mais importante teorema da probabilidade e da estatística. Se uma variável aleatória 𝑌 é a soma de 𝑛 variáveis aleatórias independentes que satisfazem certas condições gerais, então, para 𝑛 suficientemente grande, 𝑌 segue aproximadamente uma distribuição normal. 24 Teorema do Limite Central O TLC diz que para 𝑛 amostras aleatórias simples, retiradas de uma população com média 𝜇 e variância 𝜎2 finita, a distribuição amostral da média aproxima-se, para 𝑛 grande, de uma distribuição normal, com média 𝜇 e variância 𝜎2/𝑛. 25 𝑋~𝑁 𝜇 𝜎 𝑛 Teorema do Limite Central De acordo com o TCL, quando n for grande e queremos calcular uma probabilidade, tal como 𝑃(𝑎 ≤ ത𝑋 ≤ 𝑏), precisamos somente “admitir” que ത𝑋 é normal, padronizá-lo e usar a tabela normal. 𝑧 = ҧ𝑥 − 𝜇 𝜎 𝑛 → 𝑧 = 𝑛( ҧ𝑥 − 𝜇) 𝜎 26 Lote de um produto químico A quantidade de uma determinada impureza em um lote de um produto químico é uma variável aleatória com um valor médio de 4,0 𝑔 e desvio padrão de 1,5 𝑔. Se 50 lotes são preparados de maneira independente, qual é a probabilidade (aproximada) de a média amostral da quantidade de impureza ത𝑋 estar entre 3,5 e 3,8 g? 28 De acordo com a regra prática, dita em poucas palavras, 𝑛 = 50 é grande o suficiente para que o TCL seja aplicável. 𝑍 = ҧ𝑥 − 𝜇 𝜎 𝑛 → 𝑛( ҧ𝑥 − 𝜇) 𝜎 ത𝑋, então, tem uma distribuição aproximadamente normal com o valor médio de 𝜇 ҧ𝑥 = 4,0 e 𝜎 ҧ𝑥 1,5/ 50 = 0,2121. 29 𝑃 3,5 ≤ ത𝑋 ≤ 3,8 ≈ 𝑃 ҧ𝑥 − 𝜇 𝜎 ≤ 𝑍 ≤ ҧ𝑥 − 𝜇 𝜎 = 𝑃 3,5 − 4,0 0,2121 ≤ 𝑍 ≤ 3,8 − 4,0 0,2121 = 𝑃 −2,36 ≤ 𝑍 ≤ −0,94 = 𝑃 𝑍 = −0,94 − 𝑃(𝑍 = −2,36) 30 = 𝑃 𝑍 = −0,94 − 𝑃(𝑍 = −2,36) 0,1736 − 0,0091 = 0,1645 31 Distribuições de Probabilidade Distribuições de probabilidades Há dois tipos de distribuições teóricas que correspondem a diferentes tipos de dados ou variáveis aleatórias: ▪ a distribuição discreta ▪ a distribuição contínua. Variáveis discretas Uma variável aleatória é discreta se o número de resultados possíveis é finito ou pode ser contado. Variáveis aleatórias discretas são determinadas por uma contagem. Variáveis contínuas Uma variável aleatória é contínua se pode assumir qualquer valor dentro de determinado intervalo. O número de resultados possíveis não pode ser listado. Variáveisaleatórias contínuas são determinadas por uma medição. Distribuições de probabilidades Além de identificar os valores de uma variável aleatória → podemos atribuir uma probabilidade a cada um desses valores. Quando temos os valores de uma variável aleatória e suas probabilidades → temos uma distribuição de probabilidades. Distribuição de probabilidade Distribuição de probabilidades é um modelo matemático que estabelece a relação entre o valor da variável aleatória e a probabilidade de ocorrência desse valor na população. Retirar um produto ao acaso numa linha de produção para inspeção Não é possível antecipar se esse produto será conforme ou não conforme. (Vieira, 2012) Distribuições de probabilidades A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. 𝑷[𝑿] 𝒐𝒖 𝑷[𝑿 = 𝒙] Distribuição normal padrão - Z Distribuição normal padrão - Z ▪ A mais importante distribuição de probabilidade contínua em todo o domínio da estatística é a distribuição normal. ▪ Seu gráfico, chamado de curva normal, é a curva em forma de sino que aproximadamente descreve muitos fenômenos que ocorrem na natureza, indústria e pesquisa. (LARSON E FARBER, 2010) Uma distribuição normal é uma distribuição de probabilidade contínua para uma variável aleatória x. 1. A média, a mediana e a moda são iguais. 2. Uma curva normal tem forma de sino e é simétrica em torno da média. 3. A área total soba curva normal é igual a um. (LARSON E FARBER, 2010) Distribuição normal Sabendo-se que 𝑋 tem uma distribuição normal com média e variância ², ou seja, 𝑋: 𝑁(, ²), define-se: 𝒛 = 𝑽𝒂𝒍𝒐𝒓 −𝑴é𝒅𝒊𝒂 𝑫𝒆𝒔𝒗𝒊𝒐 𝒑𝒂𝒅𝒓ã𝒐 42 𝑍 = 𝑋 − 𝜇 𝜎 𝑋 = 𝜇 + 𝜎 𝑍 Fonte: Silva (2021). Distribuições de probabilidade no RStudio Vamos diferenciar três distribuições de dados: normal, exponencial e uniforme e binomial e elaborar os histogramas, com auxílio do RStudio. • Distribuição Normal: proveniente de variáveis aleatórias contínuas. • Distribuição Exponencial: proveniente de variáveis aleatórias contínuas. • Distribuição Uniforme: proveniente de variáveis aleatórias contínuas. Bootstrap e Jackknife É muito comum distribuições que não obedecem a uma regra de parametrização normal, ou seja, não possuem a tendência à normalidade, com parâmetros 𝜇 e 𝜎2. Nestes casos, uma alternativa é proceder com métodos de reamostragem, que permitirão obter, a partir de uma amostra inicial, algumas informações de precisão e intervalo de confiança. Bootstrap e Jackknife. O Bootstrap É um método que consiste da reamostragem com reposição de uma amostra inicial, com um objetivo de se avaliar o desempenho da estimativa de um parâmetro 𝜃, que pode ser, por exemplo, a média, desvio padrão, variância, entre outros parâmetros. 𝑋, com 𝑥𝑗 observações independentes t conjuntos de dados - amostras Bootstrap Fonte: Silva (2021) O Jackknife Canivete, traduzido para o português, também conhecido por leave-one-out - deixar um de fora. É um método que cria novas amostras deixando-se sempre ao menos um elemento de fora. Observação 1 2 3 4 5 Média Geométrica Amostra Inicial 12 15 13 11 15 13,10 Aplicação do método de Jackknife Observação 1 2 3 4 5 Média Geométrica Amostra Inicial 12 15 13 11 15 13,10 Jackknife 1 NA 15 13 11 15 13,39 Jackknife 2 12 NA 13 11 15 12,67 Jackknife 3 12 15 NA 11 15 13,13 Jackknife 4 12 15 13 NA 15 13,69 Jackknife 5 12 15 13 11 NA 12,67 Média Aritmética (5 amostras Jackknife) 13,11 Fonte: Silva (2021) Recapitulando Recapitulando... Nesta aula aprendemos sobre: • Amostragem • Tamanho amostral • Teorema do Limite Central • Distribuições de Probabilidade • Distribuição normal padrão – Z • Bootstrap e Jackknife
Compartilhar