Buscar

Analista de Dados - GoogleCoursera - CURSO 4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 103 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 103 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 103 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
SEMANA 1 - A IMPORTÂNCIA DA INTEGRIDADE
Enquanto você começa a pensar em como preparar seus dados para serem explorados, esta parte do explicará por que a
integridade deles é tão essencial para tomar as decisões certas. Você aprenderá sobre como os dados são gerados e as
técnicas que os analistas usam para decidir quais dados devem ser coletados para análise. Além disso, você aprenderá
sobre dados estruturados e não estruturados, tipos de dados e formatos de dados.
Objetivos de aprendizagem
● Descrever as medidas estatísticas associadas à integridade dos dados, como potência estatística, testagem de
hipótese e margem de erro
● Descrever estratégias que podem ser usadas para enfrentar a insufiCiência de Dados
● Falar sobre a importância do tamanho das amostras fazendo referência ao viés de amostra e a amostras
aleatórias
● Descrever a relação entre os dados e objetivos de negócios relacionados
● Definir a integridade dos dados, fazendo referência aos tipos de dados e aos riscos associados
● Falar sobre a importância das atividades de preparo para a limpeza
1.1 - FOCO NA INTEGRIDADE
VÍDEO - INTRODUÇÃO AO FOCO NA INTEGRIDADE - Olá! Bom te ver! Meu nome é Sally e estou aqui para ensinar tudo sobre
processamento de dados. Sou líder de medição e análise no Google. Meu trabalho é ajudar agências de publicidade e empresas a
medir o sucesso e analisar seus dados, então encontro muitas pessoas diferentes para mostrar a elas como a análise de dados ajuda
na publicidade. Falando em análise, você se saiu muito bem aprendendo a coletar e organizar dados para análise. É definitivamente
um passo importante no processo de análise de dados, portanto, bom trabalho! Agora vamos falar sobre como garantir que seus dados
organizados sejam completos e precisos. Os dados limpos são o segredo para garantir que seus dados tenham integridade antes de
analisá-los. Mostraremos como garantir que seus dados estejam limpos e organizados. A limpeza e o processamento de dados são
uma parte do processo geral de análise de dados. Como um lembrete rápido, esse processo é perguntar, preparar, processar,
analisar, compartilhar e agir. Isso significa que é hora de explorarmos a fase do Processo, e estou aqui para guiá-lo durante todo o
caminho. Estou muito familiarizado com onde você está agora. Eu nunca tinha ouvido falar de análise de dados até passar por um
programa semelhante a este. Assim que comecei a progredir, percebi o quanto gostava de análise de dados e as portas que ela
poderia abrir. E agora estou animada para ajudá-lo a abrir essas mesmas portas! Uma coisa que percebi enquanto trabalhava para
diferentes empresas é que dados limpos são importantes em todos os setores. Por exemplo, aprendi no início da minha carreira a
ficar atento a dados duplicados, um problema comum que os analistas encontram durante a limpeza. Eu costumava trabalhar para uma
empresa que tinha diferentes tipos de assinaturas. Em nosso conjunto de dados, cada usuário teria uma nova linha para cada tipo de
assinatura comprada, o que significava que os usuários apareceriam mais de uma vez em meus dados. Portanto, se eu tivesse
contado o número de usuários em uma tabela sem contabilizar duplicatas como essa, teria contado alguns usuários duas vezes em
vez de uma. Como resultado, minha análise estaria errada, o que levaria a problemas em meus relatórios e para as partes
interessadas que confiavam em minha análise. Imagine se eu dissesse ao CEO que tínhamos o dobro de clientes do que realmente
tínhamos? É por isso que dados limpos são tão importantes. Portanto, o primeiro passo no processamento de dados é aprender
sobre a integridade dos dados. Você descobrirá o que é integridade de dados e por que é importante mantê-la durante todo o
processo de análise de dados. Às vezes, você pode nem ter os dados de que precisa, então terá que criá-los você mesmo. Isso lhe
ajudará a aprender como o tamanho da amostra e a amostragem aleatória podem economizar tempo e esforço. Testar dados é outra
etapa importante a ser tomada ao processar dados. Compartilharemos algumas orientações sobre como testar dados antes que sua
análise comece oficialmente. Assim como você limpa suas roupas e seus pratos no dia a dia, os analistas também limpam seus dados
o tempo todo. A importância de dados limpos definitivamente será o foco aqui. Você aprenderá técnicas de limpeza de dados para
todos os cenários, além de algumas armadilhas a serem observadas durante a limpeza. Você explorará a limpeza de dados em
planilhas e bancos de dados, baseando-se no que já aprendeu sobre planilhas. Falaremos mais sobre SQL e como você pode usá-lo
para limpar dados e fazer outras coisas úteis também. Quando os analistas limpam seus dados, eles fazem muito mais do que uma
verificação pontual para garantir que tudo foi feito corretamente. Você aprenderá maneiras de verificar e relatar seus resultados de
limpeza. Isso inclui documentar seu processo de limpeza, que tem muitos benefícios que exploraremos. É importante lembrar que o
processamento de dados é apenas uma das tarefas que você realizará como analista de dados. Na verdade, suas habilidades com
dados de limpeza podem acabar sendo algo que você destaca em seu currículo quando começa a procurar emprego. Falando em
currículos, você poderá começar a pensar em como criar o seu próprio da perspectiva de um analista de dados. Quando terminar aqui,
você terá uma forte apreciação por dados limpos e quão importante eles são no processo de análise de dados. Então, vamos começar.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Plano de estudos do curso
1. Fundamentos: Dados, dados, em todos os lugares
2. Fazer perguntas para tomar decisões com base em dados
3. Preparar os dados para exploração
4. Processar os Dados para limpá-los (este curso)
5. Analisar os dados para responder às perguntas
6. Compartilhar os dados com a arte da visualização
7. Análise de dados com programação em R
8. Conclusão do Análise de Dados do Google: Conclua um Estudo de Caso.
Bem-vindo ao quarto curso do programa! Conforme você avança no certificado, este curso e outros que se seguem
começarão a concentrar mais atenção em tarefas e projetos práticos e colocar a mão na massa. Isso aumenta
progressivamente a quantidade de tempo que você tem para desenvolver habilidades profissionais importantes.No último
curso, você aprendeu algumas habilidades básicas necessárias como analista de dados de nível básico. Você aprendeu
sobre estruturas de dados e descobriu como obter, aplicar, organizar e proteger dados.
Neste curso, você aprenderá a garantir que seus dados estejam limpos, verificando a integridade e exatidão. Você
analisará uma variedade de abordagens para limpar dados em planilhas e bancos de dados. Também aprenderá como
verificar se seus dados estão limpos e como criar relatórios para comunicar essas informações a outras pessoas. Garantir
a precisão e a confiabilidade dos dados é uma parte crítica do trabalho de um analista de dados.
Conteúdo do curso
Curso 4 – Processar os dados para limpá-los
1. Garantir a integridade dos dados. A integridade dos dados é necessária para garantir uma análise
bem-sucedida. Nesta parte do curso, você explorará métodos e etapas que os analistas seguem para verificar a
integridade dos dados. Isso inclui saber o que fazer quando você tem uma quantidade insuficiente de dados.
Também aprenderá sobre o tamanho da amostra, evitando viés de amostra e usando amostras aleatórias. Todas
essas medidas também ajudam a garantir uma análise de dados bem-sucedida.
2. Compreender dados limpos. Todos os analistas de dados querem trabalhar com dados limpos ao fazer uma
análise. Nesta parte do curso, você aprenderá a diferença entre dados limpos e sujos. Você praticará técnicas de
limpeza de dados em planilhas e outras ferramentas.
3. Limpeza de dados usando SQL. Conhecer diversas formas de limpar dados pode tornar o trabalho de um
analista muito mais fácil. Nesta parte do curso, você usará SQL para limpar dados de bancosde dados. Você
explorará como as consultas e funções SQL podem ser usadas para limpar e transformar seus dados antes de
uma análise.
4. Verificar e relatar os resultados da limpeza. Os dados de limpeza são uma etapa importante do processo de
análise de dados. Nesta parte do curso, você verificará se os dados estão limpos e relatará os resultados da
limpeza de dados. Com dados limpos verificados, você estará pronto para a próxima etapa do processo de
análise de dados.
5. Como adicionar dados ao seu currículo. Criar um currículo eficaz ajudará você na carreira de Data Analytics.
Nesta parte do curso, você aprenderá tudo sobre o processo de solicitação de emprego. Seu foco estará na
construção de um currículo que destaque seus pontos fortes e experiência relevante.
6. Conclusão do Desafio do Curso. Ao final deste curso, você poderá aplicar o que aprendeu no Desafio do Curso.
O Desafio do Curso fará perguntas sobre os conceitos-chave e, em seguida, dará a você a oportunidade de
colocá-los em prática conforme você passa por dois cenários.
O que esperar
Você pode planejar terminar este programa em cerca de quatro a cinco semanas. Você ganhará crédito do curso após
concluir todas as atividades prescritas, que incluem:
● Vídeos de instrutores ensinando novos conceitos e demonstrando o uso de ferramentas
● Perguntas em vídeo que surgem durante ou no final de um vídeo para verificar o seu aprendizado
● Textos para apresentar novas ideias e desenvolver os conceitos dos vídeos.
● Fóruns de discussões para discutir, explorar e reforçar novas ideias para uma melhor aprendizagem
● Sugestões de discussão para promover o pensamento e o envolvimento nos fóruns de discussão.
https://www.coursera.org/learn/fundamentos-dados-dados-em-todos-os-lugares/home/week/1
https://www.coursera.org/learn/fazer-perguntas-para-tomar-decisoes-com-base-em-dados/home/welcome
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/home/welcome
https://www.coursera.org/learn/analisar-os-dados-para-responder-as-perguntas/home/welcome
https://www.coursera.org/learn/compartilhar-os-dados-com-a-arte-da-visualizacao/home/welcome
https://www.coursera.org/learn/analise-de-dados-com-programacao-em-r/home/welcome
https://www.coursera.org/learn/projeto-final-conclua-um-estudo-de-caso/home/welcome
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/discussions
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
● Qwiklabs para apresentar situações do mundo real no trabalho e as ferramentas e tarefas para concluir seus
trabalhos
● Simulados para servir como preparação para os testes que valem nota.
● Atividades práticas para reforçar as habilidades aprendidas para os questionários classificados
● Testes que valem nota para medir seu progresso e oferecer um feedback valioso.
Atividades práticas que promovem mais oportunidades para desenvolver suas habilidades. Tente fazer o máximo possível
delas. As avaliações se baseiam na abordagem do curso para oferecer uma ampla variedade de materiais de aprendizado
e atividades que reforçam habilidades importantes. Os testes (com e sem nota) ajudarão a absorver o conteúdo. Os
simulados sem nota são uma oportunidade para você se preparar para os testes que valem nota. Ambos os tipos de testes
podem ser respondidos várias vezes.
Voltando a lembrar, este curso é projetado para todos os tipos de alunos, sem necessidade de graduação ou experiência
anterior. Todo mundo aprende de maneira diferente, então o Certificado de Análise de Dados do Google foi desenvolvido
com isso em mente. Os prazos personalizados são apenas um guia, portanto, fique à vontade para trabalhar no seu
próprio ritmo. Se preferir, você pode estender seus prazos voltando para Visão geral no painel de navegação e clicando
em Alternar sessões. Se você já perdeu os prazos anteriores, clique em Redefinir meus prazos.
Se quiser revisar o conteúdo anterior ou dar uma olhada no conteúdo que está por vir, você pode usar os links de
navegação no topo desta página para ir para outro curso do programa. Quando você passar em todos os trabalhos
obrigatórios, estará no caminho certo para ganhar seu certificado. Este curso também contém informações práticas para
prepará-lo para o mercado de trabalho como analista de dados. Use as recomendações para adicionar ao seu currículo o
que você aprendeu sobre limpeza de dados.
Dicas
● Faça o seu melhor para completar todos os itens em ordem. Todas as novas informações baseiam-se no
aprendizado anterior.
● Trate cada tarefa como se fosse uma experiência do mundo real. Tenha a mente de que você está trabalhando em
uma empresa ou em uma organização como analista de dados. Isso o ajudará a aplicar o que aprendeu neste
programa ao mundo real.
● Repita as tarefas demonstradas por conta própria para prática extra e velocidade.
● Mesmo que elas não sejam avaliadas, participe e complete todos os itens de prática. Eles o ajudarão a construir
uma base sólida como analista de dados e a prepará-lo melhor para as avaliações graduadas.
● Aproveite todos os recursos adicionais fornecidos, incluindo fóruns de discussão e links para conteúdo de
aprendizagem.
● Quando você encontrar links úteis no curso, marque-os como favoritos para consultar as informações para estudo
ou revisão.
● Os recursos adicionais são gratuitos, mas alguns sites estabelecem limites para o número de artigos que podem
ser acessados gratuitamente por mês. Às vezes, é possível se registrar no site para receber acesso total, mas
você pode sempre marcar um recurso como favorito e voltar para visualizá-lo mais tarde.
Agora que você sabe como proceder, pode dar os primeiros passos para trabalhar com todos os tipos de dados e aprender
a manter a integridade dos dados como prioridade em todos os seus projetos. Mantenha-se no curso (trocadilho
intencional)!
Conhecer os colegas
Recentemente, você aprendeu sobre tipos de dados, estruturas de dados e bancos de dados. Como analista de dados,
você terá a chance de explorar muitos conjuntos de dados diferentes. Mas antes de começar, há algumas questões
importantes a serem consideradas:
● Quais etapas você pode executar ao abrir um conjunto de dados pela primeira vez?
● O que você aprendeu neste curso que pode aplicar ao explorar o conjunto de dados?
Escreva dois ou mais parágrafos (100-150 palavras) descrevendo o que você pode fazer com um novo conjunto de dados.
Você pode incluir todas as etapas ou processos sobre os quais já aprendeu em sua descrição. Por fim, acesse o fórum de
discussão para ler o que outros alunos escreveram e participe da discussão com, pelo menos, duas de suas publicações.
A participação é opcional
Com um novo conjunto de dados, sou capaz de realizar várias etapas e processos para obter insights e conhecimentos
valiosos. Primeiramente, posso realizar uma análise exploratória dos dados, que envolve examinar e visualizar os padrões e
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
tendências presentes nos dados. Usando técnicas estatísticas e gráficas, posso identificar relações entre variáveis, detectar
outliers e compreender a distribuição dos dados.
Além disso, posso realizar a limpeza e pré-processamento dos dados, que envolvem tratar valores ausentes, remover
duplicatas e padronizar formatos. Também posso aplicar técnicas de transformação, como normalização e codificação, para
melhorar a qualidade e a evolução dos dados aos algoritmos de análise. Posteriormente, posso aplicar uma ampla variedade
de técnicas de modelagem, como processamento de máquina, para prever tendências, classificar dados e identificar padrões
ocultos. Isso pode ser útil em várias áreas, como previsão de demanda, detecção de fraudes, recomendação de produtos,
entre outros. Além disso, posso utilizar técnicas de mineração de dados para descobrir padrões, associações e insights que
podem ser relevantes para a tomada de decisões. Essas informações podem ser simplificadas em relatório, gráficos ou
painéis interativos, facilitando a compreensão e a interpretação dos resultados.
Em suma, com um novo conjuntode dados, posso explorar, limpar, analisar e extrair conhecimentos valiosos, confiantes para
a tomada de decisões controladas e orientadas por dados.
1.2 - INTEGRIDADE DOS DADOS E OBJETIVOS ANALÍTICOS
VÍDEO - POR QUE A INTEGRIDADE DOS DADOS É IMPORTANTE - Olá mais uma vez! Neste vídeo, abordaremos a integridade dos
dados e alguns riscos que talvez enfrente como analista de dados. Uma análise forte depende da integridade dos dados. Se os
dados que você está usando forem comprometidos de alguma forma, sua análise não será tão forte quanto deveria. A integridade dos
dados é a precisão, integridade, consistência e confiabilidade dos dados durante o ciclo de vida deles. Isso pode soar como
muitas qualidades para que os dados estejam à altura. Mas confie em mim, vale a pena verificar todos eles antes de prosseguir com
sua análise. Caso contrário, sua análise poderá estar errada. Não porque você fez algo errado, mas porque os dados com os quais
você estava trabalhando estavam errados no início. Quando a integridade dos dados é baixa, pode causar desde a perda de um único
pixel em uma imagem até uma decisão médica incorreta. Em alguns casos, uma peça que falta pode tornar todos os seus dados
inúteis. A integridade dos dados pode ser comprometida de várias maneiras diferentes. Há uma chance de os dados serem
comprometidos toda vez que são replicados, transferidos ou manipulados de alguma forma. A replicação de dados é o processo
de armazenamento de dados em vários locais. Se você estiver replicando dados em momentos diferentes e em lugares diferentes,
há uma chance de seus dados ficarem fora de sincronia. Esses dados carecem de integridade porque pessoas diferentes podem
não estar usando os mesmos dados para suas descobertas, o que pode causar inconsistências. Há também a questão da
transferência de dados, que é o processo de copiar dados de um dispositivo de armazenamento para a memória, ou de um
computador para o outro. Se a sua transferência de dados for interrompida, você pode acabar com um conjunto de dados incompleto,
o que pode não ser útil para suas necessidades. O processo de manipulação de dados envolve a alteração dos dados para
torná-los mais organizados e fáceis de ler. A manipulação de dados visa tornar o processo de análise de dados mais eficiente,
mas um erro durante o processo pode comprometer a eficiência. Por fim, os dados também podem ser comprometidos por erro
humano, vírus, malware, hackers e falhas do sistema, o que pode causar ainda mais dores de cabeça. Vou parar por aqui. São
notícias potencialmente ruins o suficiente para digerir. Vamos passar para algumas notícias potencialmente boas. Em muitas
empresas, o armazenamento de dados ou a equipe de engenharia de dados se encarrega de garantir a integridade dos dados. A
seguir, aprenderemos a verificar a integridade dos dados como analista de dados. Mas fique tranquilo, outra pessoa também irá lhe
ajudar bastante. Depois de descobrir com quais dados você está trabalhando, é importante verificar novamente se seus dados estão
completos e válidos antes da análise. Isso ajudará a garantir que sua análise e eventuais conclusões sejam precisas. A verificação da
integridade dos dados é uma etapa vital no processamento de seus dados para prepará-los para análise, seja você ou outra
pessoa de sua empresa que esteja fazendo isso. A seguir, você aprenderá ainda mais sobre integridade de dados. Vejo você em
breve.
Mais sobre integridade dos dados e conformidade
Esta leitura ilustra a importância da integridade dos dados usando um exemplo de dados de uma empresa global. As
definições dos termos relevantes para a integridade dos dados serão fornecidas no final.
Cenário: datas do calendário para uma empresa global
As datas do calendário são representadas em muitas formas curtas diferentes. Dependendo de onde você mora, um
formato diferente pode ser usado.
● Em alguns países, 12/10/20 (DD/MM/AA) significa 12 de outubro de 2020.
● Em outros países, o padrão nacional é YYYY-MM-DD, então 12 de outubro de 2020 se torna 2020-10-12.
● Nos Estados Unidos, (MM/DD/AA) é o formato aceito, então 12 de outubro de 2020 será 12/10/20.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Agora, pense no que aconteceria se você estivesse trabalhando como analista de dados para uma empresa global e não
verificasse os formatos de data. Bem, sua integridade de dados provavelmente seria questionável. Qualquer análise dos
dados seria imprecisa. Imagine encomendar estoque extra para dezembro, quando na verdade era necessário em outubro!
Uma boa análise depende da integridade dos dados, e a integridade dos dados geralmente depende do uso de um formato
comum. Portanto, é importante verificar novamente como as datas são formatadas para garantir que o que você acha que
é 10 de dezembro de 2020 não seja realmente 12 de outubro de 2020 e vice-versa.
Aqui estão algumas outras coisas a serem observadas:
● Replicação de dados comprometendo a integridade dos dados: Continuando com o exemplo, imagine que
você peça aos seus colegas internacionais para verificar as datas e manter um formato. Um analista copia um
grande conjunto de dados para verificar as datas. Mas por causa de problemas de memória, apenas parte do
conjunto de dados é realmente copiado. O analista estaria verificando e padronizando dados incompletos. Esse
conjunto de dados parcial seria certificado como compatível, mas o conjunto de dados completo ainda conteria
datas que não foram verificadas. Duas versões de um conjunto de dados podem apresentar resultados
inconsistentes. Uma auditoria final dos resultados seria essencial para revelar o que aconteceu e corrigir todas as
datas.
● Transferência de dados comprometendo a integridade dos dados: Outro analista verifica as datas em uma
planilha e opta por importar os dados validados e padronizados de volta para o banco de dados. Mas suponha
que o campo de data da planilha foi classificado incorretamente como um campo de texto durante o processo de
importação (transferência) de dados. Agora, algumas das datas no banco de dados são armazenadas como
sequências de texto. Neste ponto, os dados precisam ser limpos para restaurar sua integridade.
● Manipulação de dados comprometendo a integridade dos dados: Ao verificar as datas, outro analista percebe
o que parece ser um registro duplicado no banco de dados e o remove. Mas acontece que o analista removeu um
registro exclusivo da subsidiária de uma empresa e não um registro duplicado da empresa. Seu conjunto de
dados agora está com dados ausentes e os dados devem ser restaurados para que estejam completos.
Conclusão
Felizmente, com um formato de data padrão e conformidade de todas as pessoas e sistemas que trabalham com os dados,
a integridade dos dados pode ser mantida. Mas não importa de onde vêm seus dados, certifique-se sempre de verificar se
eles são válidos, completos e limpos antes de iniciar qualquer análise.
Referência: Restrições de dados e exemplos
Conforme você progride em sua jornada de dados, você encontrará muitos tipos de restrições de dados (ou critérios que
determinam a validade). A tabela abaixo oferece definições e exemplos de termos de restrição de dados que você pode
encontrar.
Restrição de dados Definição Exemplos
Tipo de dado
Os valores devem ser de um
determinado tipo: data, número,
porcentagem, booleano, etc.
Se o tipo de dados for uma data, um único número como 30
falharia na restrição e seria inválido.
Intervalo de dados Os valores devem estar entre osvalores máximo e mínimo predefinidos
Se o intervalo de dados for de 10 a 20, um valor de 30 falharia na
restrição e seria inválido.
Obrigatório Os valores não podem ser deixadosem branco ou vazios Se a idade for obrigatória, esse valor deve ser preenchido.
Único Os valores não podem ter umduplicado
Duas pessoas não podem ter o mesmo número de celular na
mesma área de serviço.
Padrões de expressão regular
(regex)
Os valores devem corresponder a um
padrão prescrito
Um número de telefone deve corresponder a ###-###-####
(nenhum outro caractereé permitido).
Validação de campo cruzado Certas condições para vários camposdevem ser atendidas
Os valores são porcentagens e os valores de vários campos devem
somar 100%.
Chave primária (Somente bancos de dados) o valordeve ser exclusivo por coluna
Uma tabela de banco de dados não pode ter duas linhas com o
mesmo valor de chave primária. Uma chave primária é um
identificador em um banco de dados que faz referência a uma
coluna na qual cada valor é exclusivo. Mais informações sobre
chaves primárias e estrangeiras são fornecidas posteriormente no
programa.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Conjunto de membros
(Somente bancos de dados) os valores
de uma coluna devem vir de um
conjunto de valores discretos
O valor de uma coluna deve ser definido como Sim, Não ou Não
aplicável.
Chave estrangeira
(Somente bancos de dados) os valores
de uma coluna devem ser valores
exclusivos provenientes de uma coluna
em outra tabela
Em um banco de dados de contribuintes dos EUA, a coluna Estado
deve ser um estado ou território válido com o conjunto de valores
aceitáveis definidos em uma tabela de estados separada.
Precisão
O grau em que os dados estão de
acordo com a entidade real que está
sendo medida ou descrita
Se os valores dos códigos postais forem validados pela localização
da rua, a precisão dos dados aumenta.
Integridade
O grau em que os dados contêm todos
os componentes ou medidas
desejados
Se os dados de perfis pessoais exigirem a cor do cabelo e dos
olhos, e ambos forem coletados, os dados estarão completos.
Consistência
O grau em que os dados são repetíveis
de diferentes pontos de entrada ou
coleta
Se um cliente tiver o mesmo endereço nos bancos de dados de
vendas e reparos, os dados serão consistentes.
VÍDEO - COMO EQUILIBRAR OS OBJETIVOS E A INTEGRIDADE DOS DADOS- Olá, é bom lembrar de verificar a integridade dos
dados. Também é importante verificar se os dados que você usa estão alinhados com o objetivo de negócios. Isso adiciona
outra camada à manutenção da integridade dos dados porque os dados que você está usando podem ter limitações com as quais você
precisará lidar. O processo de correspondência de dados com objetivos de negócios pode ser bastante simples. Aqui está um
exemplo rápido. Digamos que você seja um analista de uma empresa que produz e vende autopeças. Se você precisar responder a
uma pergunta sobre a receita gerada pela venda de uma determinada peça, você poderá obter a tabela de receita do conjunto de
dados. Se a pergunta for sobre avaliações de clientes, você abrirá a tabela de avaliações para analisar as classificações médias. Mas
antes de se aprofundar em qualquer análise, você precisa considerar algumas limitações que podem afetá-la. Se os dados não forem
limpos corretamente, você ainda não poderá usá-los. Você precisaria esperar até que uma limpeza completa seja feita. Agora,
digamos que você esteja tentando descobrir quanto um cliente médio gasta. Você percebe que os dados do mesmo cliente aparecem
em mais de uma linha. Isso é chamado de dados duplicados. Para corrigir isso, talvez seja necessário alterar o formato dos dados ou
talvez alterar a maneira de calcular a média. Caso contrário, parecerá que os dados são para duas pessoas diferentes e você ficará
preso a cálculos enganosos. Você também pode perceber que não há dados suficientes para concluir uma análise precisa. Talvez você
tenha apenas alguns meses de dados de vendas. Há uma pequena chance de você esperar por mais dados, mas é mais provável que
você precise alterar seu processo ou encontrar fontes alternativas de dados enquanto ainda cumpre seu objetivo. Eu gosto de pensar
em um conjunto de dados como uma imagem. Tire esta foto. O que estamos olhando? A menos que você seja um viajante experiente
ou conheça a área, pode ser difícil escolher apenas entre estas duas imagens. Visualmente, é muito claro quando não estamos vendo
a imagem inteira. Quando você tem uma visão completa, percebe... que está em Londres! Com dados incompletos, é difícil ver o
quadro completo para ter uma noção real do que está acontecendo. Às vezes, confiamos nos dados porque, se eles chegam até
nós em linhas e colunas, parece que tudo o que precisamos está lá se apenas consultarmos. Mas isso não é verdade. Me lembro de
uma vez em que descobri que não tinha dados suficientes e tive que encontrar uma solução. Eu estava trabalhando para uma empresa
de varejo online e me pediram para descobrir como reduzir o tempo de entrega da compra do cliente. Prazos de entrega mais rápidos
geralmente levam a clientes mais felizes. Quando verifiquei o conjunto de dados, encontrei informações de rastreamento muito
limitadas. Estávamos perdendo alguns detalhes importantes. Então, os engenheiros de dados e eu criamos novos processos para
rastrear informações adicionais, como o número de paradas em uma viagem. Usando esses dados, reduzimos o tempo entre a compra
e a entrega, e observamos uma melhora na satisfação do cliente. Isso foi ótimo! Aprender a lidar com problemas de dados
mantendo o foco em seu objetivo o ajudará a ter sucesso em sua carreira como analista de dados. E seu caminho para o
sucesso continua. Na próxima etapa, você aprenderá mais sobre como alinhar dados a objetivos. Continue assim!
Dados e objetivos bem alinhados
Você pode obter insights poderosos e tirar conclusões precisas quando os dados estão bem alinhados aos objetivos de
negócios. Como analista de dados, o alinhamento é algo que você precisará julgar. Um bom alinhamento significa que os
dados são relevantes e podem ajudá-lo a resolver um problema de negócios ou determinar um curso de ação para atingir
um determinado objetivo de negócios. Nesta leitura, você revisará os objetivos de negócios associados a três cenários.
Você explorará como dados limpos e objetivos de negócios bem alinhados podem ajudá-lo a chegar a conclusões
precisas. Além disso, você aprenderá como novas variáveis descobertas durante a análise de dados podem fazer com que
você configure restrições de dados para manter os dados alinhados a um objetivo de negócios.
Dados limpos + alinhamento ao objetivo de negócios = conclusões precisas
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Objetivo de negócios
Os gerentes de contas do Impress Me, um serviço de assinatura de conteúdo online, querem saber quando os usuários
visualizam o conteúdo depois que suas assinaturas são ativadas. Para começar, o analista de dados verifica se os dados
exportados para planilhas estão limpos e confirma se os dados necessários (quando os usuários acessam o conteúdo)
estão disponíveis. Sabendo disso, o analista decide que há um bom alinhamento dos dados com o objetivo do negócio.
Tudo o que falta é descobrir exatamente quanto tempo cada usuário leva para visualizar o conteúdo após a ativação da
assinatura. Aqui estão as etapas de processamento de dados que o analista executa para um usuário de uma conta
chamada V&L Consulting. (Essas etapas seriam repetidas para cada conta assinante e para cada usuário associado a
essa conta.)
Etapa 1
Etapa de processamento de dados Fonte de dados
Procure a data de ativação da V&L
Consulting
Planilha da conta
Dados relevantes na planilha:
Resultado: 21 de outubro de 2019
Etapa 2
Etapa de processamento de dados Fonte de dados
Procure o nome de um usuário
pertencente à conta da V&L Consulting
Planilha da conta (guia de
usuários)
Dados relevantes na planilha:
Resultado: Maria Ballantyne
Etapa 3
Etapa de processamento de dados Fonte de dados
Encontre a primeira data de acesso ao
conteúdo de Maria B.
Planilha de uso de
conteúdo
Dados relevantes na planilha:
Resultado: 31 de outubro de 2019
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Etapa 4
Etapa de processamento de dados Fonte de dados
Calcule o tempo entre a ativação e o
primeiro uso de conteúdo para Maria B. Cálculo da nova planilha
Dados relevantes na planilha:
Resultado: 10 dias
Dica profissional 1
No processo acima, o analista pode usar VLOOKUP para pesquisar os dados nas Etapas 1, 2 e 3 para preencher osvalores na planilha na Etapa 4. VLOOKUP é uma função de planilha que procura um determinado valor em uma coluna
para retornar uma informação relacionada. Usar VLOOKUP pode economizar muito tempo; sem ele, você precisa procurar
datas e nomes manualmente. Consulte a página VLOOKUP na Central de Ajuda do Google para saber como usar a função
no Planilhas Google.
Dica profissional 2
Na Etapa 4 do processo acima, o analista pode usar a função DATEDIF para calcular automaticamente a diferença entre
as datas na coluna C e na coluna D. A função pode calcular o número de dias entre duas datas. Consulte a página do
Microsoft Support DATEDIF para saber como usar a função no Excel. A função DAYS360 faz a mesma coisa em planilhas
contábeis que usam um ano de 360 dias (doze meses de 30 dias). Consulte a página DATEDIF na Central de Ajuda do
Google para saber como usar a função no Planilhas Google.
Alinhamento ao objetivo de negócios + limpeza de dados adicional = conclusões precisas
Objetivo de negócios
A Cloud Gate, uma empresa de software, organizou recentemente uma série de webinars públicos como apresentações
gratuitas de produtos. O analista de dados e o gerente de programa de webinar desejam identificar empresas que tiveram
cinco ou mais pessoas participando dessas sessões. Eles querem dar essa lista de empresas aos gerentes de vendas que
podem acompanhar as vendas em potencial.
Os dados de participação no webinar incluem os campos e dados mostrados abaixo.
Nome <Nome> <Sobrenome> Esta era a informação necessária que os participantestinham que enviar
Endereços de e-mail xxxxx@company.com Esta era a informação necessária que os participantestinham que enviar
Empresa <Nome da empresa> Esta era uma informação opcional que os participantespoderiam fornecer
Limpeza de dados
Os dados de participação no webinar parecem estar alinhados com o objetivo de negócios. Mas o analista de dados e o
gerente de programa decidem que alguma limpeza de dados é necessária antes da análise. Eles acham que a limpeza de
dados é necessária porque:
● O nome da empresa não era um campo obrigatório. Se o nome da empresa estiver em branco, pode ser
encontrado no endereço de e-mail. Por exemplo, se o endereço de e-mail for username@google.com, o campo da
empresa pode ser preenchido com o Google para a análise dos dados. Essa etapa de limpeza de dados
pressupõe que as pessoas com endereços de e-mail atribuídos à empresa participaram de um webinar para fins
comerciais.
● Os participantes podiam digitar qualquer nome. Como a participação em uma série de webinars está sendo
analisada, eles precisam validar nomes em relação a endereços de e-mail exclusivos. Por exemplo, se Joe Cox
participasse de dois webinars, mas assinasse como Joe Cox para um e Joseph Cox para o outro, ele seria
contado como duas pessoas diferentes. Para evitar isso, eles precisam verificar o endereço de e-mail exclusivo
https://support.microsoft.com/en-us/office/vlookup-function-0bbc8083-26fe-4963-8ab8-93a18ad188a1
https://support.google.com/docs/answer/3093318?hl=en
https://support.microsoft.com/en-us/office/datedif-function-25dba1a4-2812-480b-84dd-8b32a451b35c
https://support.microsoft.com/en-us/office/days360-function-b9a509fd-49ef-407e-94df-0cbda5718c2a
https://support.google.com/docs/answer/6055612?hl=en
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
dele para determinar que ele era a mesma pessoa. Após a validação, Joseph Cox pode ser alterado para Joe Cox
para corresponder à outra instância.
Alinhamento ao objetivo de negócios + variáveis recém-descobertas + restrições = conclusões precisas
Objetivo de negócios
Uma empresa de tutoria extra curricular, A+ Education, quer saber se há um número mínimo de horas de tutoria
necessárias antes que os alunos tenham pelo menos 10% de melhoria em suas notas de avaliação. O analista de dados
acredita que há um bom alinhamento entre os dados disponíveis e o objetivo dos negócios porque:
● Os alunos entram e saem de um sistema para cada sessão de tutoria e o número de horas é rastreado
● As pontuações da avaliação são registradas regularmente
Restrições de dados para novas variáveis
Depois de analisar os dados, o analista de dados descobre que existem outras variáveis a serem consideradas. Alguns
alunos tiveram sessões semanais consistentes, enquanto outros alunos agendaram sessões de forma mais aleatória,
embora o número total de horas de tutoria fosse o mesmo. Os dados não se alinham tão bem com o objetivo de negócios
original como se pensava inicialmente, então o analista adiciona uma restrição de dados para se concentrar apenas nos
alunos com sessões semanais consistentes. Essa modificação ajuda a obter uma imagem mais precisa sobre o tempo de
inscrição necessário para obter uma melhoria de 10% nas pontuações da avaliação.
Principais conclusões
Esperamos que esses exemplos lhe deem uma noção do que procurar para saber se seus dados estão alinhados com seu
objetivo de negócios.
● Quando há dados limpos e um bom alinhamento, você pode obter insights precisos e tirar conclusões que os
dados suportam.
● Se houver um bom alinhamento, mas os dados precisarem ser limpos, limpe os dados antes de realizar sua
análise.
● Se os dados estiverem apenas parcialmente alinhados com um objetivo, pense em como você pode modificar o
objetivo ou use restrições de dados para garantir que o subconjunto de dados se alinhe melhor ao objetivo de
negócios.
Teste seu conhecimento sobre a integridade dos dados e objetivos analíticos
Pergunta 1 - Quais dos seguintes princípios são os principais elementos da integridade dos dados? Selecione
todas as opções válidas.
Precisão
Confiabilidade
Seletividade
Consistência
Correto - A integridade dos dados é a precisão, integridade, consistência e confiabilidade dos dados ao longo de seu ciclo de vida.
Pergunta 2 - Qual processo os analistas de dados usam para tornar os dados mais organizados e fáceis de ler?
Replicação de dados
Uniformidade de dados
Manipulação de dados
Transferência de dados
Correto - Para tornar os dados mais organizados e fáceis de ler, os analistas de dados usam a manipulação de dados.
Pergunta 3 - Antes da análise, uma empresa coleta dados de países que usam diferentes formatos de data. Qual
das seguintes atualizações melhoraria a integridade dos dados?
Remover dados em um formato de data desconhecido
Alterar todas as datas para o mesmo formato
Deixe as datas em seus formatos atuais
Organizar os dados por país
Correto - Alterar todas as datas para o mesmo formato melhoraria a integridade dos dados.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
1.3 - COMO SUPERAR O DESAFIO DA INSUFICIÊNCIA DE DADOS
VÍDEO - COMO LIDAR COM A INSUFICIÊNCIA DE DADOS - Todo analista já esteve em uma situação em que não há dados
suficientes para ajudar em seu objetivo de negócios. Considerando a quantidade de dados gerados todos os dias, pode ser difícil de
acreditar, mas é verdade. Então, vamos abordar o que você pode fazer quando tiver dados insuficientes. Abordaremos como definir
limites para o escopo de sua análise e quais dados você deve incluir. A certo momento, eu era analista de dados em um centro de
suporte. Todos os dias, recebíamos perguntas de clientes, que eram registradas como tickets de suporte. Pediram-me para prever o
número de tickets de suporte recebidos por mês para descobrir quantas pessoas adicionais precisávamos contratar. Era muito
importante que tivéssemos dados suficientes de pelo menos alguns anos atrás, porque eu teria que levar em conta as mudanças
anuais e periódicas. Se eu tivesse apenas os dados do ano atual disponíveis, não saberia que um pico em janeiro é comum e tem a
ver com pessoas pedindo reembolsos após os feriados. Como eu tinha dados suficientes, pude sugerir que contratássemos mais
pessoas em janeiro para nos prepararmos. Os desafios certamente surgirão, mas a boa notícia é que, assim que conhecer seu objetivo
de negócios, conseguirá reconhecer se possui dados suficientes. E se não o fizer, poderá passar por isso antes de iniciar sua análise.Agora, vamos verificar algumas dessas limitações que você possa encontrar e como lidar com diferentes tipos de dados
insuficientes. Digamos que você esteja trabalhando no setor de turismo e precise descobrir quais planos de viagem são pesquisados
 com mais frequência. Se você usar apenas dados de um site de reservas, estará se limitando a dados de apenas uma fonte. Outros
sites de reservas podem mostrar tendências diferentes que você gostaria de considerar para sua análise. Se uma limitação como essa
afetar sua análise, você pode parar e voltar as suas partes interessadas para elaborar um plano. Se seu conjunto de dados continuar
atualizando, isso significa que os dados ainda estão sendo recebidos e podem não estar completos. Portanto, se houver uma
atração turística totalmente nova para a qual esteja analisando o interesse e a participação, provavelmente não há dados suficientes
para determinar as tendências. Por exemplo, você pode esperar um mês para coletar dados. Ou você pode entrar em contato com as
partes interessadas e perguntar sobre como ajustar o objetivo. Por exemplo, você pode analisar tendências semanalmente em vez de
mensalmente. Você também pode basear sua análise nas tendências dos últimos três meses e dizer “Eis como pode ser a participação
à atração no quarto mês”. Você pode não ter dados suficientes para saber se esse número é muito baixo ou alto. Mas você diria às
partes interessadas que é sua melhor estimativa com base nos dados que você possui atualmente. Por outro lado, seus dados podem
ser mais antigos e não serem mais relevantes. Dados desatualizados sobre a satisfação do cliente não incluirão as respostas mais
recentes. Portanto, você dependerá das classificações de hotéis ou aluguéis de temporada que podem não ser mais precisas. Nesse
caso, sua melhor aposta pode ser encontrar um novo conjunto de dados para trabalhar. Dados que são geograficamente limitados
também podem não ser confiáveis. Se sua empresa for global, você não gostaria de usar dados limitados a viagens em apenas um
país. Você preferiria um conjunto de dados que incluísse todos os países. Então, essas são apenas algumas das limitações mais
comuns que você encontrará e algumas maneiras de resolvê-las. Você pode identificar tendências com os dados disponíveis ou
aguardar mais dados se o tempo permitir, você pode conversar com as partes interessadas e ajustar seu objetivo ou procurar
um novo conjunto de dados. A necessidade de tomar essas medidas dependerá de sua função em sua empresa e, possivelmente,
das necessidades do setor em geral. Mas aprender a lidar com dados insuficientes é sempre uma ótima maneira de se preparar para o
sucesso. Seus poderes de analista de dados estão se fortalecendo. E bem na hora. Depois de aprender mais sobre limitações e
soluções, você aprenderá sobre poder estatístico, outra ferramenta fantástica para você usar. Vejo você em breve.
O que fazer ao encontrar um problema com os dados
Quando você está se preparando para a análise de dados, pode perceber que não tem os dados de que precisa ou não
tem o suficiente. Em alguns casos, você pode usar o que é conhecido como dados de proxy no lugar dos dados reais.
Pense nisso como substituir óleo por manteiga em uma receita quando você não tem manteiga. Em outros casos, não há
substituto razoável e sua única opção é coletar mais dados.
Considere os seguintes problemas de dados e sugestões sobre como contorná-los.
Problema de dados 1: falta de dados
Soluções possíveis Exemplos de soluções na vida real
Colete os dados em pequena escala para realizar uma
análise preliminar e, em seguida, solicite mais tempo
para concluir a análise depois de coletar mais dados.
Se você estiver pesquisando funcionários sobre o que eles pensam sobre um
novo plano de desempenho e bônus, use uma amostra para uma análise
preliminar. Em seguida, peça mais 3 semanas para coletar os dados de todos os
funcionários.
Se não houver tempo para coletar dados, realize a
análise usando dados de proxy de outros conjuntos de
dados. Esta é a solução mais comum.
Se você estiver analisando os horários de pico de viagens para usuários de
transporte público, mas não tiver os dados de uma cidade específica, use os
dados de outra cidade com tamanho e demografia semelhantes.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Problema de dados 2: muito poucos dados
Soluções possíveis Exemplos de soluções na vida real
Faça a análise usando dados de proxy
junto com dados reais.
Se você estiver analisando tendências para donos de golden retrievers, aumente seu conjunto
de dados incluindo os dados de donos de labradores.
Ajuste sua análise para alinhar com os
dados que você já possui.
Se faltarem dados para jovens de 18 a 24 anos, faça a análise, mas observe a seguinte
limitação em seu relatório: esta conclusão se aplica apenas a adultos com 25 anos ou mais.
Problema de dados 3: dados errados, incluindo dados com erros*
Soluções possíveis Exemplos de soluções na vida real
Se você tiver os dados errados porque os requisitos foram mal
compreendidos, comunique os requisitos novamente.
Se você precisa dos dados de eleitores do sexo feminino e recebeu
os dados de eleitores do sexo masculino, reafirme suas
necessidades.
Identifique erros nos dados e, se possível, corrija-os na origem,
procurando um padrão nos erros.
Se seus dados estiverem em uma planilha e houver uma
declaração condicional ou booleana fazendo com que os cálculos
estejam errados, altere a declaração condicional em vez de apenas
corrigir os valores calculados.
Se você não puder corrigir os erros de dados sozinho, poderá ignorar
os dados errados e prosseguir com a análise se o tamanho da
amostra ainda for grande o suficiente e ignorar os dados não causará
viés sistemático.
Se seu conjunto de dados foi traduzido de um idioma diferente e
algumas das traduções não fazem sentido, ignore os dados com
tradução ruim e prossiga com a análise dos outros dados.
** Observação importante: às vezes, dados com erros podem ser um sinal de alerta de que os dados não são confiáveis.
Use seu melhor julgamento.
Use a seguinte árvore de decisão como um lembrete sobre como lidar com erros de dados ou dados insuficientes:
VÍDEO - A IMPORTÂNCIA DO TAMANHO DA AMOSTRA - Certo, anteriormente falamos sobre ter o tipo certo de dados para atender
seu objetivo de negócios e a importância de ter a quantidade certa de dados para garantir que sua análise seja a mais precisa
possível. Você deve se lembrar que, para analistas de dados, uma população são todos os valores de dados possíveis em um
determinado conjunto de dados. Se você puder usar 100% de uma população em sua análise, será ótimo. Mas às vezes coletar
informações sobre uma população inteira simplesmente não é possível. Demanda muito tempo ou é caro. Por exemplo, digamos que
uma organização global queira saber mais sobre donos de animais de estimação que têm gatos. Você tem a tarefa de descobrir quais
tipos de brinquedos os donos de gatos no Canadá preferem. Mas há milhões de donos de gatos no Canadá, então obter dados de
todos eles seria um grande desafio. Sem problemas! Permita-me apresentar-lhe o tamanho da amostra! Ao usar o tamanho da
amostra ou uma amostra, você usa uma parte de uma população que é representativa da população. O objetivo é obter
informações suficientes de um pequeno grupo dentro de uma população para fazer previsões ou conclusões sobre toda a população. O
tamanho da amostra ajuda a garantir o grau em que você pode ter certeza de que suas conclusões representam com precisão
a população. Para os dados sobre donos de gatos, um tamanho da amostra pode conter dados sobre centenas ou milhares de
pessoas em vez de milhões. Usar uma amostra para análise é mais econômico e leva menos tempo. Se feito com cuidado e
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
ponderação, você pode conseguir os mesmos resultados usando um tamanho da amostra em vez de tentar procurar todos os donos de
gatos para descobrir os brinquedos favoritos para gatos. No entanto, há uma desvantagempotencial. Quando você usa apenas uma
pequena amostra de uma população, isso pode levar à incerteza. Você não pode ter 100% de certeza de que suas estatísticas são
uma representação completa e precisa da população. Isso leva a um viés de amostragem, que abordamos anteriormente no
programa. O viés de amostragem ocorre quando uma amostra não é representativa da população como um todo. Isso significa
que alguns membros da população estão sendo super-representados ou sub-representados. Por exemplo, se a pesquisa usada
para coletar dados de donos de gatos incluísse apenas pessoas com smartphones, os donos de gatos que não possuem um
smartphone não seriam representados nos dados. O uso de amostragem aleatória pode ajudar a resolver alguns desses problemas
com viés de amostragem. A amostragem aleatória é uma maneira de selecionar uma amostra de uma população de modo que
todos os tipos possíveis de amostra tenham a mesma chance de serem escolhidos. Voltando novamente aos nossos donos de
gatos, usar uma amostra aleatória dos donos de gatos significa que donos de gatos de todos os tipos têm a mesma chance de serem
escolhidos. Os donos de gatos que moram em apartamentos em Ontário teriam a mesma chance de serem representados como
aqueles que moram em casas em Alberta. Como analista de dados, você descobrirá que a criação de tamanhos da amostra geralmente
ocorre antes mesmo de você acessar os dados. Mas ainda é bom você saber que os dados que você vai analisar são representativos
da população e funcionam com o seu objetivo. Também é bom saber o que está por vir em sua jornada de dados. No próximo vídeo,
você terá a opção de ficar ainda mais confortável com os tamanhos das amostras. Vejo você lá.
Como calcular o tamanho da amostra
Antes de se aprofundar no tamanho da amostra, familiarize-se com estes termos e definições:
Terminologia Definições
População Todo o grupo em que você está interessado para o seu estudo. Por exemplo, se você estiverpesquisando pessoas em sua empresa, a população seria todos os funcionários de sua empresa.
Amostra
Um subconjunto de sua população. Assim como uma amostra de comida, é chamada de amostra
porque é apenas um gosto. Portanto, se sua empresa for grande demais para pesquisar todos os
indivíduos, você poderá pesquisar uma amostra representativa de sua população.
Margem de erro
Como uma amostra é usada para representar uma população, é esperado que os resultados da
amostra sejam diferentes do que teria sido se você tivesse pesquisado toda a população. Essa
diferença é chamada de margem de erro. Quanto menor a margem de erro, mais próximos os
resultados da amostra estarão do resultado se você tivesse pesquisado toda a população.
Nível de confiança
Quão confiante você se sente nos resultados da pesquisa. Por exemplo, um nível de confiança de
95% significa que se você executar a mesma pesquisa 100 vezes, obterá resultados semelhantes
95 dessas 100 vezes. O nível de confiança é direcionado antes de você iniciar seu estudo porque
afetará o tamanho da sua margem de erro no final do seu estudo.
Intervalo de confiança O intervalo de valores possíveis que o resultado da população estaria no nível de confiança doestudo. Este intervalo é o resultado da amostra +/- a margem de erro.
Significância estatística A determinação de se o seu resultado pode ser devido ao acaso ou não. Quanto maior osignificado, menos devido ao acaso.
Coisas para lembrar ao determinar o tamanho da sua amostra
Ao descobrir um tamanho da amostra, aqui estão algumas coisas a serem lembradas:
● Não use um tamanho da amostra menor que 30. Está estatisticamente comprovado que 30 é o menor tamanho
da amostra onde um resultado médio de uma amostra passa a representar o resultado médio de uma população.
● O nível de confiança mais usado é 95%, mas 90% pode funcionar em alguns casos.
Aumente o tamanho da amostra para atender às necessidades específicas do seu projeto:
● Para um nível de confiança mais alto, use um tamanho da amostra maior
● Para diminuir a margem de erro, use um tamanho da amostra maior
● Para maior significância estatística, use um tamanho da amostra maior
Observação: As calculadoras de tamanho da amostra usam fórmulas estatísticas para determinar um tamanho da
amostra. Mais informações sobre isso surgirão no decorrer do curso! Então, prepare-se.
Por que uma amostra mínima de 30?
Esta recomendação é baseada no Teorema do Limite Central (CLT) no campo da probabilidade e estatística. Conforme o
tamanho da amostra aumenta, os resultados se assemelham mais à distribuição normal (em forma de sino) de um grande
número de amostras. Uma amostra de 30 é o menor tamanho da amostra para o qual o CLT ainda é válido. Pesquisadores
que confiam na análise de regressão – métodos estatísticos para determinar as relações entre variáveis controladas e
dependentes – também preferem uma amostra mínima de 30.
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Ainda curioso? Sem entrar muito em matemática, confira estes artigos:
● Teorema do Limite Central (CLT) Este artigo da Investopedia explica o Teorema do Limite Central e descreve
brevemente como ele pode ser aplicado a uma análise de um índice de ações.
● Fórmula do tamanho da amostra: Este artigo da Statistics Solutions fornece um pouco mais de detalhes sobre por
que alguns pesquisadores usam 30 como tamanho da amostra mínimo.
Os tamanhos das amostras variam de acordo com o problema de negócios
O tamanho da amostra varia de acordo com o tipo de problema de negócios que você está tentando resolver. Por exemplo,
se você mora em uma cidade com uma população de 200 mil habitantes e recebe 180 mil pessoas para responder a uma
pesquisa, essa é uma amostra grande. Mas sem realmente fazer isso, como seria um tamanho da amostra aceitável e
menor?
Os 200 habitantes seria bom se as pessoas pesquisadas representassem todos os distritos da cidade?
Resposta: Depende do que está em jogo.
● Um tamanho da amostra de 200 pode ser grande o suficiente se o seu problema de negócios for descobrir como
os moradores se sentiram em relação à nova biblioteca
● Um tamanho da amostra de 200 pode não ser grande o suficiente se o seu problema comercial for determinar
como os moradores votariam para financiar a biblioteca
Você provavelmente poderia aceitar uma margem de erro maior pesquisando como os moradores se sentem sobre a nova
biblioteca versus pesquisando os moradores sobre como eles votariam para financiá-la. Por esse motivo, você
provavelmente usaria um tamanho de amostra maior para a pesquisa de eleitores.
Tamanhos de amostra maiores têm um custo mais alto
Você também deve pesar o custo em relação aos benefícios de resultados mais precisos com um tamanho da amostra
maior. Alguém que está tentando entender as preferências do consumidor por uma nova linha de produtos não precisaria
de um tamanho de amostra tão grande quanto alguém que está tentando entender os efeitos de um novo medicamento.
Para a segurança dos medicamentos, os benefícios superam o custo de usar um tamanho de amostra maior. Mas para as
preferências do consumidor, um tamanho de amostra menor a um custo menor pode fornecer resultados bons o suficiente.
Conhecer o básico é útil
Conhecer o básico ajudará você a fazer as escolhas certas quando se trata do tamanho da amostra. Você sempre pode
apresentar preocupações se encontrar um tamanho de amostra muito pequeno. Uma calculadora de tamanho da amostra
também é uma ótima ferramenta para isso. As calculadoras de tamanho da amostra permitem que você insira um nível de
confiança e margem de erro desejados para um determinado tamanho de população. Eles então calculam o tamanho da
amostra necessário para alcançar estatisticamente esses resultados. Consulte o vídeo Determine o melhor tamanho da
amostra para obter uma demonstração de uma calculadora de tamanho da amostra ou consulte a leitura da Calculadora de
Tamanho da Amostra para obter informações adicionais.
Autorreflexão: Por que as atividades de preparo para a limpeza são importantes
Visão geral
Agora que vocêaprendeu sobre como se preparar para a limpeza de dados, poderá fazer uma pausa, por enquanto, para
refletir sobre essas etapas. Nesta autorreflexão, você considerará seus pensamentos sobre a importância das atividades
de pré-limpeza e responderá a perguntas breves. Essa autorreflexão o ajudará a desenvolver percepções sobre seu
próprio aprendizado e irá prepará-lo para aplicar seu conhecimento de atividades de pré-limpeza e dados insuficientes ao
seu próprio trabalho de limpeza de dados. Ao responder a perguntas (e fazer suas próprias perguntas), você considerará
conceitos, práticas e princípios úteis para refinar sua compreensão e reforçar seu aprendizado. Você trabalhou duro, então
não deixe de aproveitar isso ao máximo: essa reflexão ajudará a fixar o seu conhecimento!
Revise a integridade dos dados
https://www.statisticssolutions.com/dissertation-resources/sample-size-calculation-and-sample-size-justification/sample-size-formula/
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/lecture/mSj5A/como-determinar-o-melhor-tamanho-da-amostra
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/lecture/mSj5A/como-determinar-o-melhor-tamanho-da-amostra
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/supplement/ZqcDw/calculadora-de-tamanho-da-amostra
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/supplement/ZqcDw/calculadora-de-tamanho-da-amostra
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Antes que os analistas de dados possam analisar dados, primeiro precisam pensar e entender os dados com os quais
estão trabalhando. A avaliação da integridade dos dados é uma etapa fundamental nesse processo. Como você
aprendeu nas lições anteriores, você deve concluir as seguintes tarefas antes de analisar os dados:
1. Determine a integridade dos dados avaliando a precisão geral, consistência e integridade dos dados.
2. Conecte objetivos a dados entendendo como seus objetivos de negócios podem ser atendidos por uma investigação
dos dados.
3. Saiba quando parar de coletar dados.
Os analistas de dados realizam atividades de pré-limpeza para concluir essas etapas. As atividades de pré-limpeza
ajudam a determinar e manter a integridade dos dados, o que é essencial para a função de um analista de dados júnior.
O que torna os dados insuficientes
Um dos objetivos das atividades de pré-limpeza é lidar com dados insuficientes. Lembre-se de lições anteriores em que os
dados podem ser insuficientes por várias razões. Dados insuficientes têm um ou mais dos seguintes problemas:
● Vêm apenas de uma fonte
● Atualizam continuamente e estão incompletos
● Estão desatualizados
● Estão geograficamente limitados
Para lidar com dados insuficientes, você pode:
● Identificar tendências nos dados disponíveis
● Esperar por mais dados se o tempo permitir
● Discutir com as partes interessadas e ajustar seu objetivo
● Pesquisar um novo conjunto de dados
Reflexão
Considere o que você aprendeu sobre insufiCiência de Dados e as etapas para evitá-la:
Por que é importante concluir as etapas de pré-limpeza antes da limpeza de dados?
Concluir as etapas de pré-limpeza antes da limpeza de dados é importante porque ajuda a identificar e corrigir erros, valores
ausentes e inconsistências nos dados. Isso garante que os dados estejam corretos, coerentes e prontos para análise. A
pré-limpeza também ajuda a evitar resultados imprecisos e decisões erradas registradas em dados incorretos ou incompletos.
Que problemas podem ocorrer se você não seguir essas etapas?
Sem etapas de pré-limpeza, os erros incluem análises imprecisas, viés nos resultados, decisões tomadas, perda de confiança
nos dados e ineficiência na análise. É fundamental realizar a pré-limpeza para garantir dados aguardados e resultados
precisos.
Agora, responda cada uma dessas perguntas com duas ou três frases (40 a 60 palavras).
Teste seu conhecimento sobre insufiCiência de Dados
Pergunta 1 - O que um analista deve fazer se não tiver os dados necessários para atender a um objetivo de
negócios? Selecione todas as opções válidas.
Criar e usar dados hipotéticos alinhados às previsões de análise.
Realizar a análise localizando e usando dados de proxy de outros conjuntos de dados.
Coletar dados relacionados em pequena escala e solicitar mais tempo para encontrar dados mais
completos.
Continuar com a análise usando dados de fontes menos confiáveis.
Correto - Se um analista não tiver os dados necessários para atender a um objetivo de negócios, ele deverá coletar dados relacionados em
pequena escala e solicitar mais tempo. Em seguida, ele pode encontrar dados mais completos ou realizar a análise localizando e usando
dados de proxy de outros conjuntos de dados.
Pergunta 2 - Quais das seguintes alternativas são limitações que podem levar a dados insuficientes? Selecione
todas as opções válidas.
Dados que são atualizados continuamente
Dados desatualizados
Dados de uma única fonte
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
Dados duplicados
Correto - As limitações que podem levar a dados insuficientes incluem dados que são atualizados continuamente, dados desatualizados e
dados de uma única fonte.
Pergunta 3 - Um analista de dados quer descobrir quantas pessoas em Utah têm piscinas. É improvável que ele
possa pesquisar todos os residentes de Utah. Em vez disso, ele pesquisa pessoas suficientes para serem
representativas da população. Isso descreve qual conceito de análise de dados?
Significado estatístico
Margem de erro
Amostra
Nível de confiança
Correto - Isso descreve uma amostra, que é uma parte de uma população que é representativa do todo.
1.4 - TESTAGEM DE DADOS
VÍDEO - COMO USAR A POTÊNCIA ESTATÍSTICA - Olá. Todos nós provavelmente já sonhamos em ter um superpoder pelo menos
uma vez na vida. Eu sei que sim. Eu adoraria poder voar. Mas há outro superpoder do qual você pode não ter ouvido falar: o poder
estatístico. O poder estatístico é a probabilidade de obter resultados significativos de um teste. Suponho que este é um
superpoder com o qual nenhum de vocês tenha sonhado. Ainda assim, é um superpoder de dados muito bom. Para analistas de dados,
seus projetos podem começar com o teste ou estudo. O teste de hipóteses é uma maneira de ver se uma pesquisa ou experimento
tem resultados significativos. Aqui está um exemplo. Digamos que você trabalhe para uma rede de restaurantes que está planejando
uma campanha de marketing para os novos milkshakes. Você precisa testar o anúncio em um grupo de clientes antes de transformá-lo
em uma campanha publicitária nacional. No teste, você deseja verificar se os clientes gostam ou não da campanha. Você também quer
descartar quaisquer fatores fora do anúncio que possam levá-los a dizer que não gostam. Usar todos os seus clientes levaria muito
tempo e seria caro. Portanto, você precisará descobrir quantos clientes precisará para mostrar que o anúncio é eficaz. Provavelmente
cinquenta clientes não seriam o suficiente. Mesmo se você escolher aleatoriamente 50 clientes, pode acabar com clientes que não
gostam de milk shakes. E se isso acontecer, você não poderá medir a eficácia do seu anúncio em obter mais pedidos de milkshake,
pois ninguém no tamanho da amostra os pediria. É por isso que você precisa de um tamanho de amostra maior: para ter certeza de
obter um bom número de todos os tipos de pessoas para o seu teste. Normalmente, quanto maior o tamanho da amostra, maior a
chance de você obter resultados estatisticamente significativos com seu teste. E isso é o poder estatístico. Nesse caso, usar o
maior número possível de clientes mostrará as diferenças reais entre os grupos que gostam ou não do anúncio contra as pessoas cuja
decisão não foi baseada no anúncio. Existem maneiras de calcular com precisão o poder estatístico, mas não vamos abordá-las aqui.
Talvez seja necessário calculá-lo por conta própria como analista de dados. Por enquanto, você deve saber que o poder estatístico
geralmente é mostrado como um valor de um. Então, se seu poder estatístico for 0,6, é a mesma coisa quedizer 60%. No teste de
anúncio de milk shake, se você encontrou um poder estatístico de 60%, isso significa que há 60% de chance de você obter um
resultado estatisticamente significativo na eficácia do anúncio. O termo “estatisticamente significativo” é usado em estatísticas. Se
você quiser saber mais sobre o significado técnico, você pode pesquisar online. Mas, em termos básicos, se um teste é
estatisticamente significativo, significa que os resultados do teste são reais e não um erro causado por acaso. Portanto, há
60% de chance de que os resultados do teste de anúncio de milkshake sejam confiáveis e reais e 40% de chance de que o resultado
do teste esteja errado. Normalmente, você precisa de um poder estatístico de pelo menos 0,8 ou 80% para considerar seus
resultados estatisticamente significativos. Vejamos mais um cenário. Vamos manter o exemplo com milk shakes, pois bem, eu
gosto de milk shakes. Imagine que você trabalha para uma rede de restaurantes que quer lançar um milk shake com sabor de bolo de
aniversário completamente novo. Este milkshake será mais caro para produzir do que seus outros milkshakes. Sua empresa espera
que a agitação em torno do novo sabor traga mais clientes e dinheiro para compensar esse custo. Eles querem testar isso em alguns
restaurantes primeiro. Então, vamos descobrir quantos locais você precisaria usar para ter confiança em seus resultados. Primeiro,
você teria que pensar sobre o que poderia impedi-lo de obter resultados estatisticamente significativos. Existem restaurantes com
outras promoções que possam atrair novos clientes? Alguns restaurantes têm clientes que sempre compram o produto recém lançado,
não importa qual seja? Algum local tem obras que começaram recentemente, que impediriam os clientes de irem até o restaurante?
Para obter um poder estatístico mais alto, você deve considerar todos esses fatores antes de decidir quantos locais incluir no tamanho
da amostra para o seu estudo. Você quer ter certeza de que qualquer efeito é provavelmente devido ao novo sabor do milk shake, não
a outro fator. Os efeitos mensuráveis seriam um aumento nas vendas ou no número de clientes nos locais do tamanho da amostra. Por
enquanto é isso. A seguir, exploraremos os tamanhos das amostras com mais detalhes, para que você possa ter uma ideia melhor de
como eles afetam seus testes e estudos. Enquanto isso, você conheceu um pouco mais sobre milkshakes e superpoderes. E, claro, o
poder estatístico. Infelizmente, apenas o poder estatístico pode ser realmente útil para analistas de dados, embora colocar minha capa
e voar para pegar um milkshake agora mesmo seja uma ótima ideia.
Uma introdução tranquila ao poder estatístico e a análise de poder em Python resume bem:
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
"O poder estatístico pode ser calculado e relatado para um experimento completo para comentar sobre a confiança que se pode ter nas
conclusões extraídas dos resultados do estudo. Também pode ser usado como uma ferramenta para estimar o número de observações
ou o tamanho da amostra necessários para detectar um efeito em um experimento."
O que fazer quando não há dados
Anteriormente, você aprendeu como ainda pode fazer uma análise usando dados de proxy se não tiver dados. Você pode
ter algumas dúvidas sobre dados de proxy, portanto, esta leitura fornecerá mais alguns exemplos dos tipos de conjuntos de
dados que podem servir como fontes de dados alternativas.
Exemplos de dados de proxy
Às vezes, os dados para apoiar um objetivo de negócios não estão prontamente disponíveis. É quando os dados de proxy
são úteis. Dê uma olhada nos seguintes cenários e onde os dados de proxy entram para cada exemplo:
Cenário de negócios Como os dados de proxy podem ser usados
Um novo modelo de carro foi lançado há alguns dias e a concessionária
mal pode esperar até o final do mês para que os dados de vendas
cheguem. Eles querem projeções de vendas agora.
O analista aproxima o número de cliques nas especificações do
carro no site da concessionária como uma estimativa de vendas
potenciais na concessionária.
Um novo produto de carne à base de plantas foi recentemente estocado
em mercearias e o fornecedor precisa estimar a demanda nos próximos
quatro anos.
O analista procura os dados de vendas de um substituto de peru
feito de tofu que está no mercado há vários anos.
A Câmara de Comércio quer saber como uma campanha de turismo
afetará as viagens para sua cidade, mas os resultados da campanha
ainda não estão disponíveis publicamente.
O analista procura os dados históricos de reservas aéreas para a
cidade de um a três meses depois que uma campanha
semelhante foi realizada seis meses antes.
Conjuntos de dados públicos examinados
Se você faz parte de uma grande organização, pode ter acesso a muitas fontes de dados. Mas se você estiver procurando
por algo específico ou um pouco fora de sua linha de negócios, também poderá usar conjuntos de dados abertos ou
públicos. (Você pode consultar este artigo da Towards Data Science para uma breve explicação da diferença entre dados
abertos e públicos.). Aqui está um exemplo. Uma versão nasal de uma vacina foi recentemente disponibilizada. Uma
clínica quer saber o que esperar das contraindicações, mas acabou de começar a coletar dados primários de seus
pacientes. Uma contraindicação é uma condição que pode fazer com que um paciente não tome uma vacina devido aos
danos que ela causaria se fosse tomada. Para estimar o número de possíveis contraindicações, um analista de dados
aproxima um conjunto de dados aberto de um teste da versão de injeção da vacina. O analista seleciona um subconjunto
de dados com perfis de pacientes que mais se aproximam da composição dos pacientes na clínica. Há muitas maneiras
de compartilhar e colaborar em dados dentro de uma comunidade. A Kaggle (kaggle.com), que apresentamos
anteriormente, possui conjuntos de dados em vários formatos, incluindo o tipo mais básico, arquivos com valores
separados por vírgula (CSV).
CSV, JConjuntos de dados SON, SQLite e BigQuery
● CSV: Confira este conjunto de dados de clientes de cartão de crédito, que tem informações de 10.000 clientes,
incluindo idade, salário, estado civil, limite do cartão de crédito, categoria do cartão de crédito etc. (CC0: Domínio
Público, Sakshi Goyal).
● JSON: Confira este conjunto de dados do JSON para vídeos de tendências do YouTube (CC0: Domínio Público,
Mitchell J).
● SQLite: Confira este conjunto de dados da SQLite para 24 anos de dados de incêndios florestais nos EUA (CC0:
Domínio Público, Rachael Tatman).
● BigQuery: Confira este conjunto de dados de amostra do Google Analytics 360 da Google Merchandise Store
(CC0 Public Domain, Google BigQuery).
Consulte a documentação para conjuntos do Kaggle de dados para obter mais informações e pesquise e explore conjuntos
de dados por conta própria em kaggle.com/datasets. Tal como acontece com todos os outros tipos de conjuntos de dados,
fique atento a dados duplicados e 'Nulo' em conjuntos de dados abertos. Nulo na maioria das vezes significa que um
campo de dados não foi atribuído (deixado em branco), mas às vezes Nulo pode ser interpretado como o valor 0. É
importante entender como o Nulo foi usado antes de começar a analisar um conjunto de dados com dados Nulo.
https://towardsdatascience.com/is-there-a-difference-between-open-data-and-public-data-6261cd7b5389
https://www.kaggle.com/
https://www.kaggle.com/sakshigoyal7/credit-card-customers
https://www.kaggle.com/datasnaek/youtube-new
https://www.kaggle.com/rtatman/188-million-us-wildfires
https://www.kaggle.com/bigquery/google-analytics-sample
https://www.kaggle.com/docs/datasets
https://www.kaggle.com/datasets
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
VÍDEO - COMO USAR A POTÊNCIA ESTATÍSTICA - Que bom ver você de novo. Neste vídeo, entraremos em mais detalhes sobre
tamanhos da amostra e integridade de dados. Se você já foi a uma loja que distribui amostras, sabe que é um dos pequenos prazeres
da vida. Para mim, de qualquer maneira, essas pequenasamostras também são uma maneira muito inteligente de as empresas
aprenderem mais sobre seus produtos com os clientes sem precisar dar a todos uma amostra grátis. Muitas organizações usam
o tamanho da amostra de maneira semelhante. Elas fazem parte de algo maior. Neste caso, uma amostra de uma população. Às vezes,
eles realizam testes complexos em seus dados para ver se atendem aos objetivos de negócios. Não vamos entrar em todos os cálculos
necessários para fazer isso de forma eficaz. Em vez disso, vamos nos concentrar em um “quadro geral” do processo e do que ele
envolve. Como um lembrete rápido, o tamanho da amostra é uma parte de uma população que é representativa da população.
Para as empresas, é uma ferramenta muito importante. Pode tanto ser caro como levar muito tempo para analisar uma população
inteira de dados. Usar o tamanho da amostra geralmente faz mais sentido e ainda pode levar a descobertas válidas e úteis. Existem
calculadoras úteis online que podem ajudá-lo a encontrar o tamanho da amostra. Você precisa inserir o nível de confiança, o tamanho
da população e a margem de erro. Já falamos sobre o tamanho da população antes. Para desenvolver isso, aprenderemos sobre o
nível de confiança e a margem de erro. Conhecer esses conceitos o ajudará a entender por que você precisa deles para calcular o
tamanho da amostra. O nível de confiança é a probabilidade de que sua amostra reflita com precisão a população maior. Você
pode pensar nisso da mesma forma que a confiança em qualquer outra coisa. É o quão forte você sente que pode confiar em algo ou
alguém. Ter um nível de confiança de 99% é o ideal. Mas a maioria das indústrias espera um nível de confiança de pelo menos 90 ou
95%. Setores como os farmacêuticos geralmente querem um nível de confiança o mais alto possível quando estão usando um
tamanho da amostra. Isso faz sentido porque eles estão testando medicamentos e precisam ter certeza de que funcionam e são
seguros para todos. Em outros estudos, as organizações podem precisar apenas saber que os resultados do teste ou da pesquisa os
levam na direção certa. Por exemplo, se uma empresa de tintas estiver testando novas cores, um nível de confiança mais baixo é
suficiente. Você também deseja considerar a margem de erro para seu estudo. Você aprenderá mais sobre isso adiante, mas
basicamente informa o quão próximos os resultados do tamanho da amostra estão do que seus resultados seriam se você
usasse toda a população que o tamanho da amostra representa. Pense assim. Digamos que o diretor de uma escola de ensino
médio se aproxime de você com um estudo sobre as preferências de doces dos alunos. Eles precisam saber um tamanho da amostra
adequado e precisam disso agora. A escola tem uma população de 500 alunos, e eles estão pedindo um nível de confiança de 95% e
uma margem de erro de 5%. Configuramos uma calculadora em uma planilha, mas você também pode encontrar facilmente esse tipo
de calculadora pesquisando “calculadora de tamanho da amostra” na internet. Assim como essas calculadoras, nossa calculadora de
planilha não mostra nenhum dos cálculos mais complexos para descobrir o tamanho da amostra. Tudo o que precisamos fazer é inserir
os números para nossa população, nível de confiança e margem de erro. E quando digitamos 500 para o tamanho da nossa população,
95 para nossa porcentagem de nível de confiança, 5 para nossa porcentagem de margem de erro, o resultado é cerca de 218. Isso
significa que para este estudo, um tamanho da amostra apropriado seria 218. Se fizermos uma pesquisa com 218 alunos e
descobrirmos que 55% deles preferem chocolate, poderíamos estar bastante confiantes de que isso seria verdade para todos os 500
alunos. 218 é o número mínimo de pessoas que precisamos pesquisar com base em nossos critérios de nível de confiança de 95% e
margem de erro de 5%. Caso você esteja se perguntando, o nível de confiança e a margem de erro não precisam corresponder a
100%. Eles são independentes um do outro. Então, digamos que mudamos nossa margem de erro de 5% para 3%. Então
descobrimos que nosso tamanho da amostra precisaria ser maior, cerca de 341 em vez de 218, para tornar os resultados do estudo
mais representativos da população. Fique à vontade para praticar com uma calculadora online. Saber o tamanho da amostra e como
encontrá-la o ajudará quando você trabalhar com dados. Temos mais conhecimentos úteis a caminho, incluindo aprender sobre a
margem de erro. Vejo você em breve.
Calculadora de tamanho da amostra
Nesta leitura, você aprenderá o básico sobre calculadoras de tamanho da amostra, como usá-las e como entender os
resultados. Uma calculadora de tamanho da amostra informa quantas pessoas você precisa entrevistar (ou coisas que
você precisa testar) para obter resultados que representem a população-alvo. Vamos revisar alguns termos que você
encontrará ao usar uma calculadora de tamanho da amostra:
● Nível de confiança: a probabilidade de que o tamanho da amostra reflita com precisão a população maior.
● Margem de erro: a quantidade máxima que se espera que os resultados da amostra sejam diferentes dos da
população real.
● População: este é o número total do qual você espera extrair sua amostra.
● Amostra: uma parte de uma população que é representativa da população.
● Taxa de resposta estimada: se você estiver realizando uma pesquisa com indivíduos, essa é a porcentagem de
pessoas que você espera que preencham sua pesquisa entre aquelas que receberam a pesquisa.
Como usar uma calculadora de tamanho da amostra
Para usar uma calculadora de tamanho da amostra, você precisa ter o tamanho da população, o nível de confiança e a
margem de erro aceitável já decididos para que você possa inseri-los na ferramenta. Se essas informações estiverem
prontas, confira estas calculadoras de tamanho da amostra abaixo:
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS
● Calculadora de tamanho da amostra em surveymonkey.com
● Calculadora de tamanho da amostra em raosoft.com
O que fazer com os resultados
Depois de inserir suas informações em uma dessas calculadoras, ela fornecerá um tamanho da amostra recomendado.
Lembre-se que o tamanho da amostra calculado é o número mínimo para atingir o que você inseriu para nível de
confiança e margem de erro. Se você estiver trabalhando com uma pesquisa, também precisará pensar na taxa de
resposta estimada para descobrir quantas pesquisas precisará enviar. Por exemplo, se você precisar de um tamanho da
amostra de 100 indivíduos e sua taxa de resposta estimada for de 10%, será necessário enviar sua pesquisa para 1.000
indivíduos para obter as 100 respostas necessárias para sua análise. Agora que você tem o básico, tente alguns cálculos
usando as calculadoras de tamanho da amostra e consulte esta leitura se precisar de uma atualização sobre as definições.
Teste seu conhecimento sobre como testar seus dados
Pergunta 1 - Uma equipe de pesquisa realiza um experimento para determinar se um novo sistema de segurança é
mais eficaz do que a versão anterior. Que tipo de resultados são necessários para que o experimento seja
estatisticamente significativo?
Resultados que são imprecisos e devem ser ignorados
Resultados que são hipotéticos e precisam de mais testes
Resultados que são reais e não causados por acaso
Resultados que dificilmente ocorrerão novamente
Correto - Para que um experimento seja estatisticamente significativo, os resultados devem ser reais e não causados por acaso.
Pergunta 2 - Para ter um alto nível de confiança em uma pesquisa com clientes, o que o tamanho da amostra deve
refletir com precisão?
Os membros mais valiosos da população
As previsões das partes interessadas
As tendências de outras pesquisas com clientes
Toda a população
Correto - Para ter um alto nível de confiança em uma pesquisa com clientes, o tamanho da amostra deve refletir com precisão toda a
população.
Pergunta 3 - Um analista de dados determina um tamanho de amostra apropriado para uma pesquisa. Eles podem
verificar seu trabalho certificando-se de que a porcentagem do nível

Continue navegando