Buscar

Estatística - Produção de dados: Amostragem

Prévia do material em texto

Estatística - ciência do aprendizado a partir de dados 
Dados são números inseridos em um contexto . Para obter uma ideia sobre os dados, 
construímos gráficos e fazemos cálculos. “Mas gráficos e cálculos são guiados pelos modos 
de pensar que resultam de um senso comum refinado.”  
 
0.1 A procedência dos dados é importante 
- Estudos observacionais e experimentais são as duas formas mais comuns de coleta 
de dados 
 
“(Amostras estatisticamente planejadas, mesmo pesquisas de opinião, não deixam que as 
pessoas sejam voluntárias para a amostra. Elas entrevistam pessoas selecionadas de forma 
impessoal ao acaso, de modo que todas as pessoas têm igual oportunidade de estar na 
amostra. Pesquisa com essa característica mostrou que 91% dos pais teriam filhos de novo, 
A procedência dos dados importam muito. Se você for descuidado na obtenção dos dados, 
você pode anunciar 70% de “Não” quando na verdade é próximo de 90% de “Sim”. 
Compreender a importância da origem dos dados e sua relação com as possíveis conclusões 
é uma parte importante do aprendizado do pensamentos estatístico.”  
 
0.2 Sempre olhe os dados 
- Alguns poucos gráficos cuidadosamente escolhidos são mais instrutivos do que 
grandes pilhas de números 
 
As coisas variam. Quase tudo varia com o tempo 
“Umas das razões pelas quais precisamos saber alguma estatística é que ela nos ajuda a 
lidar com a variação e descrever a incerteza em nossas conclusões.”  
 
A ​análise de dados ​se refere aos métodos e estratégias para olhar, explorar, organizar e 
descrever dados com auxílio de gráficos e resumos numéricos. Suas exploração 
conscienciosa permite que os dados iluminem a realidade.  
 
A​ produção de dados​ fornece métodos para gerar dados que deem respostas claras a 
questões específicas. A origem dos dados é realmente importante e frequentemente é o 
mais importante limitador de sua utilidade. Os conceitos básicos sobre como selecionar 
amostras e planejar experimentos são as ideias mais importantes da estatística. 
 
A inferência estatística vai além dos dados disponíveis para tirar conclusões sobre um 
universo maior. As conclusões estatística não são respostas tipo sim-ou-não elas devem 
levar em conta que a variação está em toda parte e também a variabilidade entre pessoas, 
animais ou objetos e a incerteza nos dados. Para descrever a variação e incerteza, a 
inferência usa a linguagem da probabilidade.  
 
“Pelo fato de os dados serem números inseridos em um contexto, fazer estatística significa 
mais do que a manipulação de números. Você deve estabelecer um problema em seu 
contexto no mundo real, planejar seu trabalho estatístico específico em detalhes, resolver 
o problema por meio dos gráficos e cálculos necessários, e concluir, explicando o que suas 
descobertas dizem sobre o contexto do mundo real. Faremos uso regular desse processo de 
quatro passos para encorajar bons hábitos que vão além de gráficos e cálculos e incluem 
perguntar “O que os dados me dizem?”.   
 
Capítulo 8  
 
Estatística - Ciência dos dados  
até dados que descrevem um grupo de indivíduos 
Para chegarmos a dados sólidos - devemos produzir dados de maneira planejada.   
 
Escolha de uma amostra que escolha a opinião de toda uma população 
● é necessário um planejamento estatístico sólido se queremos confiar nos dados de 
uma amostra para extração de conclusões também sólidas sobre a população  
● na amostragem de grandes populações humanas, no entanto, “problemas de ordem 
prática” podem prejudicar mesmo planejamentos sólidos 
● o impacto da tecnologia (particularmente, telefones, celulares e internet) está 
tomando cada vez mais difícil a produção, por amostragens, de dados nacionais 
confiáveis 
 
8.1 População versus amostra  
População, Amostra, Planejamento Amostral 
 
População​ - em um estudo estatístico é o grupo inteiro de indivíduos sobre os quais 
queremos obter informações.  
Anotações​: Para tirar conclusões sobre a população, pois mais que possa parecer fácil, não 
é uma tarefa tranquila nem rápida. É recomendado que seja feita por um grupo 
multidisciplinar, com pessoas de diferentes e visões. Quanto mais precisa for a definição 
da população mais acuradas serão as conclusões do trabalho.  
 
Exemplo: Para um estudo observacionais ou pesquisa que tenha como objetivo verifica o que 
pensa a juventude brasileira a respeito de um dado assunto. Este tipo de pesquisa também 
pode ser denominada de Survey ou Enquete ou Sondagem  
Para definir qual é a nossa população alvo, devemos determinar o que é juventude brasileira. 
Quem é brasileiro? É quem nasceu no Brasil? É quem vive no Brasil? Quem tem 17 anos 
pertence à juventude? E quem tem 12 ou 19? Ou ainda 25? 
Em 1985 dizíamos que jovem era quem nunca tinha votado para presidente, então, incluía 
quem tinham até 41 anos 
 
Amostra - é uma parte da população da qual realmente coletamos informações. Usamos uma 
amostra para tirar conclusões sobre toda a população 
➔ é tirado conclusões sobre tudo através de uma amostra 
 
Planejamento amostral - descreve exatamente como escolher uma amostra de uma 
população  
➔ O primeiro passo no planejamento de uma pesquisa por amostragem é dizer 
exatamente qual população devemos escrever 
➔ O segundo passo é dizer exatamente o que desejamos medir, isto e, dar definições 
exatas de nossas variáveis 
 
8.2 Como planejar amostras ruins 
Como se pode escolher uma amostra confiável? 
Exemplo: questionário com pessoas em shopping - porém, a maioria, geralmente, são pessoas 
jovens e idosas, são mais prósperas que o cidadão típico. E, se caso o entrevistador não 
seja muito bem treinado, ele tende a pegar pessoas muito bem vestidas, com aspecto 
respeitável, e evitar pessoas mal vestidas e com um aspecto mais rude.  
Logo, entrevistas em shopping não abordarão uma amostra representativa de toda a 
população.  
 
Amostra de conveniência - ​Amostra selecionada tomando-se os membros da população 
mais fáceis de serem encontrados. Em geral, não produzem dados representativos.  
 
Viés - ​O planejamento de um estudo estatístico é ​viesado​ se, sistematicamente, favorece 
determinados resultados.  
 
8.3 Sondagens Online 
● Pessoas que se dão o trabalho de responder a um convite aberto não são, em geral, 
representantes de nenhuma população definida - ​Isso é verdade em relação às 
pessoas que respondem a sondagens por escrito, por telefone ou pela internet, em 
geral.  
 
Amostra de Resposta Voluntária 
Uma amostra de resposta voluntária consiste em pessoas que escolhem a si próprias, 
respondendo a um atrativo geral. Amostras de resposta voluntária são viesadas, porque 
pessoas com opiniões fortes têm maior chance de responder 
 
8.3 Amostras aleatórias simples 
 
Amostras aleatórias simples 
Uma amostra aleatória simples (AAS) de tamanho n consiste em n indivíduos da população 
escolhidos de maneiras que todos os conjuntos de n indivíduos têm a mesma chance de ser a 
amostra realmente selecionada  
➔ Uma AAS não apenas concede a cada indivíduo a mesma chance de ser escolhido, mas 
também dá a cada amostra possível a mesma chance de ser escolhida.  
➔ Na prática, amostras se fazem por programas de computador 
 
applet Amostra Aleatória Simples torna bem rápida a escola de uma AAS.  
 
Dígitos Aleatórios 
Uma tabela de dígitos aleatórios é uma longa série de dígitos 0,1,2,3,4,5,6,7,8,9 com estas 
duas propriedades: 
1. Cada entrada da tabela tem a mesma probabilidade de ser qualquer um dos 10 dígitos 
de 0 até 9 
2. As entradas são independentes umas das outras. Ou seja, o conhecimento de uma 
parte da tabela não fornece informações sobre nenhuma outra parte.  
 
Esses dígitos aleatórios são realmente aleatórios?  
Sem a menor chance. Os dígitos aleatórios na Tabela B foram gerados por um programa de 
computador. Programas de computador fazem exatamente o que mandamos. Dê ao programa 
a mesma entrada de dados e ele gerará exatamenteos mesmos dígitos “aleatórios”.  
➔ Obviamente, pessoas inteligentes desenvolveram programas de computador que 
geram resultados que parecem dígitos aleatórios. Estes são chamados de “números 
pseudoaleatórios”. 
➔ Números pseudoaleatórios funcionam bem para aleatorização estatística, mas 
escondem padrões não aleatórios que podem atrapalhar em usos mais apurados.  
 
A primeira pergunta a se fazer sobre qualquer amostra é se foi escolhida de maneira 
aleatória 
 
Exemplo 8.5 
Discagem de dígitos aleatórios - ​seleção de números de telefones fixos  
 
8.4 Inferência sobre a população  
 
I​nferência​ - processo de extração de conclusões sobre a população com base na amostra  
➔ porque inferimos informação sobre a população a partir do que sabemos sobre a 
amostra 
➔ A primeira razão para nos apoiarmos em amostragem aleatória é a eliminação do viés 
na seleção de amostras de uma lista de indivíduos disponíveis 
➔ A segunda razão para o uso de amostragem aleatória é que as leis da probabilidade 
permitem inferência confiável sobre a população. Resultados de uma amostra 
aleatória vêm com uma margem de erro que delimita o tamanho do erro provável 
 
Um ponto merece nota: ​amostras aleatórias maiores fornecem resultados mais precisos 
do que amostras menores.  
8.5 Outros planejamentos amostrais  
 
Amostra Aleatória estratificada 
Para selecionar uma amostra aleatória estratificada, primeiro divida a população em grupos 
de indivíduos similares, chamados de estratos. Em segunda, escola AAS separada em cada 
estrato e combine essas AASs para formar a amostra completa.  
 
 8.6 Cuidados com as pesquisas amostrais 
 
Subcobertura e Não Resposta 
Subcobertura ocorre quando alguns grupos da população são deixados fora do processo de 
escolha da amostra. Não resposta ocorre quando um indivíduo escolhido para a amostra não 
pode ser contatado ou se recusa a participar.  
 
As ordem de perguntas feitas podem muito o resultado final das respostas; Então é 
importante ter formulações de perguntas precisas.  
“Não confie em resultados de uma pesquisa amostral até que tenha lido as questões exatas 
que foram feitas. A quantidade de não resposta e a data da pesquisa também são 
importantes.” 
 
Resumo do capítulo 8 
Especificidades do capítulo  
- Uma pesquisa amostral seleciona uma amostra de uma população de todos os 
indivíduos sobre os quais queremos informação. As conclusões sobre a população se 
baseiam nos dados da amostra. É importante que se especifique exatamente qual a 
população de interesse e quais variáveis estão sendo medidas 
- O planejamento de um amostra descreve o método usado para a seleção da amostra 
da população. Planejamentos amostrais aleatórios usam o acaso para selecionar uma 
amostra 
- O planejamento básico de uma amostragem aleatória é o de uma amostra aleatória 
simples (AAS). Uma AAS atribui a cada amostra possível de um dado tamanho a 
mesma chance de ser escolhida 
- Escolha uma AAS rotulando os membros da população e usando uma tabela de dígitos 
aleatórios para selecionar a amostra. Um software pode automatizar esse processo.  
- Para escolher uma amostra aleatória estratificada, dividida a população em estratos, 
grupos de indivíduos que são similares de alguma forma importante para a resposta. 
Escolha, então, uma ASS separada de cada estrato 
- Deixar de usar amostragem aleatória frequentemente resulta em viés, ou erros 
sistemáticos na maneira como a amostra representa a população. Amostras de 
resposta voluntária, nas quais os informantes escolhem-se a si próprios, tendem, em 
particular, a gerar grandes vieses.  
- Em populações humanas, mesmo amostras aleatórias pode sofrer de viés devido à 
subcobertura ou não resposta, a viés de resposta, ou a resultados enganadores 
devidos a perguntas mal formuladas. Pesquisas amostrais devem lidar habilmente com 
esses problemas potenciais, além de utilizar planejamentos de amostragem aleatória.  
- A maioria das pesquisas amostrais nacionais (nos Estados Unidos) é feita por 
telefone, usando a discagem de dígitos aleatórios para a escola aleatória de números 
de telefones residencias. Como a proteção de chamadas telefônicas está aumentando 
a não resposta em tais pesquisas, e o aumento de número de residências com apenas 
telefones celulares aumenta a subcobertura, muitas pesquisas incluem uma conta 
mínima de usuários de telefone celular em suas amostras para ajustar o viés.  
- Pesquisas na rede estão se tornando mais frequentes mas muitas sofrem dos 
problemas de resposta voluntária, subcobertura ou não resposta

Continue navegando