Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS SEMANA 1 - A IMPORTÂNCIA DA INTEGRIDADE Enquanto você começa a pensar em como preparar seus dados para serem explorados, esta parte do explicará por que a integridade deles é tão essencial para tomar as decisões certas. Você aprenderá sobre como os dados são gerados e as técnicas que os analistas usam para decidir quais dados devem ser coletados para análise. Além disso, você aprenderá sobre dados estruturados e não estruturados, tipos de dados e formatos de dados. Objetivos de aprendizagem ● Descrever as medidas estatísticas associadas à integridade dos dados, como potência estatística, testagem de hipótese e margem de erro ● Descrever estratégias que podem ser usadas para enfrentar a insufiCiência de Dados ● Falar sobre a importância do tamanho das amostras fazendo referência ao viés de amostra e a amostras aleatórias ● Descrever a relação entre os dados e objetivos de negócios relacionados ● Definir a integridade dos dados, fazendo referência aos tipos de dados e aos riscos associados ● Falar sobre a importância das atividades de preparo para a limpeza 1.1 - FOCO NA INTEGRIDADE VÍDEO - INTRODUÇÃO AO FOCO NA INTEGRIDADE - Olá! Bom te ver! Meu nome é Sally e estou aqui para ensinar tudo sobre processamento de dados. Sou líder de medição e análise no Google. Meu trabalho é ajudar agências de publicidade e empresas a medir o sucesso e analisar seus dados, então encontro muitas pessoas diferentes para mostrar a elas como a análise de dados ajuda na publicidade. Falando em análise, você se saiu muito bem aprendendo a coletar e organizar dados para análise. É definitivamente um passo importante no processo de análise de dados, portanto, bom trabalho! Agora vamos falar sobre como garantir que seus dados organizados sejam completos e precisos. Os dados limpos são o segredo para garantir que seus dados tenham integridade antes de analisá-los. Mostraremos como garantir que seus dados estejam limpos e organizados. A limpeza e o processamento de dados são uma parte do processo geral de análise de dados. Como um lembrete rápido, esse processo é perguntar, preparar, processar, analisar, compartilhar e agir. Isso significa que é hora de explorarmos a fase do Processo, e estou aqui para guiá-lo durante todo o caminho. Estou muito familiarizado com onde você está agora. Eu nunca tinha ouvido falar de análise de dados até passar por um programa semelhante a este. Assim que comecei a progredir, percebi o quanto gostava de análise de dados e as portas que ela poderia abrir. E agora estou animada para ajudá-lo a abrir essas mesmas portas! Uma coisa que percebi enquanto trabalhava para diferentes empresas é que dados limpos são importantes em todos os setores. Por exemplo, aprendi no início da minha carreira a ficar atento a dados duplicados, um problema comum que os analistas encontram durante a limpeza. Eu costumava trabalhar para uma empresa que tinha diferentes tipos de assinaturas. Em nosso conjunto de dados, cada usuário teria uma nova linha para cada tipo de assinatura comprada, o que significava que os usuários apareceriam mais de uma vez em meus dados. Portanto, se eu tivesse contado o número de usuários em uma tabela sem contabilizar duplicatas como essa, teria contado alguns usuários duas vezes em vez de uma. Como resultado, minha análise estaria errada, o que levaria a problemas em meus relatórios e para as partes interessadas que confiavam em minha análise. Imagine se eu dissesse ao CEO que tínhamos o dobro de clientes do que realmente tínhamos? É por isso que dados limpos são tão importantes. Portanto, o primeiro passo no processamento de dados é aprender sobre a integridade dos dados. Você descobrirá o que é integridade de dados e por que é importante mantê-la durante todo o processo de análise de dados. Às vezes, você pode nem ter os dados de que precisa, então terá que criá-los você mesmo. Isso lhe ajudará a aprender como o tamanho da amostra e a amostragem aleatória podem economizar tempo e esforço. Testar dados é outra etapa importante a ser tomada ao processar dados. Compartilharemos algumas orientações sobre como testar dados antes que sua análise comece oficialmente. Assim como você limpa suas roupas e seus pratos no dia a dia, os analistas também limpam seus dados o tempo todo. A importância de dados limpos definitivamente será o foco aqui. Você aprenderá técnicas de limpeza de dados para todos os cenários, além de algumas armadilhas a serem observadas durante a limpeza. Você explorará a limpeza de dados em planilhas e bancos de dados, baseando-se no que já aprendeu sobre planilhas. Falaremos mais sobre SQL e como você pode usá-lo para limpar dados e fazer outras coisas úteis também. Quando os analistas limpam seus dados, eles fazem muito mais do que uma verificação pontual para garantir que tudo foi feito corretamente. Você aprenderá maneiras de verificar e relatar seus resultados de limpeza. Isso inclui documentar seu processo de limpeza, que tem muitos benefícios que exploraremos. É importante lembrar que o processamento de dados é apenas uma das tarefas que você realizará como analista de dados. Na verdade, suas habilidades com dados de limpeza podem acabar sendo algo que você destaca em seu currículo quando começa a procurar emprego. Falando em currículos, você poderá começar a pensar em como criar o seu próprio da perspectiva de um analista de dados. Quando terminar aqui, você terá uma forte apreciação por dados limpos e quão importante eles são no processo de análise de dados. Então, vamos começar. Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Plano de estudos do curso 1. Fundamentos: Dados, dados, em todos os lugares 2. Fazer perguntas para tomar decisões com base em dados 3. Preparar os dados para exploração 4. Processar os Dados para limpá-los (este curso) 5. Analisar os dados para responder às perguntas 6. Compartilhar os dados com a arte da visualização 7. Análise de dados com programação em R 8. Conclusão do Análise de Dados do Google: Conclua um Estudo de Caso. Bem-vindo ao quarto curso do programa! Conforme você avança no certificado, este curso e outros que se seguem começarão a concentrar mais atenção em tarefas e projetos práticos e colocar a mão na massa. Isso aumenta progressivamente a quantidade de tempo que você tem para desenvolver habilidades profissionais importantes.No último curso, você aprendeu algumas habilidades básicas necessárias como analista de dados de nível básico. Você aprendeu sobre estruturas de dados e descobriu como obter, aplicar, organizar e proteger dados. Neste curso, você aprenderá a garantir que seus dados estejam limpos, verificando a integridade e exatidão. Você analisará uma variedade de abordagens para limpar dados em planilhas e bancos de dados. Também aprenderá como verificar se seus dados estão limpos e como criar relatórios para comunicar essas informações a outras pessoas. Garantir a precisão e a confiabilidade dos dados é uma parte crítica do trabalho de um analista de dados. Conteúdo do curso Curso 4 – Processar os dados para limpá-los 1. Garantir a integridade dos dados. A integridade dos dados é necessária para garantir uma análise bem-sucedida. Nesta parte do curso, você explorará métodos e etapas que os analistas seguem para verificar a integridade dos dados. Isso inclui saber o que fazer quando você tem uma quantidade insuficiente de dados. Também aprenderá sobre o tamanho da amostra, evitando viés de amostra e usando amostras aleatórias. Todas essas medidas também ajudam a garantir uma análise de dados bem-sucedida. 2. Compreender dados limpos. Todos os analistas de dados querem trabalhar com dados limpos ao fazer uma análise. Nesta parte do curso, você aprenderá a diferença entre dados limpos e sujos. Você praticará técnicas de limpeza de dados em planilhas e outras ferramentas. 3. Limpeza de dados usando SQL. Conhecer diversas formas de limpar dados pode tornar o trabalho de um analista muito mais fácil. Nesta parte do curso, você usará SQL para limpar dados de bancosde dados. Você explorará como as consultas e funções SQL podem ser usadas para limpar e transformar seus dados antes de uma análise. 4. Verificar e relatar os resultados da limpeza. Os dados de limpeza são uma etapa importante do processo de análise de dados. Nesta parte do curso, você verificará se os dados estão limpos e relatará os resultados da limpeza de dados. Com dados limpos verificados, você estará pronto para a próxima etapa do processo de análise de dados. 5. Como adicionar dados ao seu currículo. Criar um currículo eficaz ajudará você na carreira de Data Analytics. Nesta parte do curso, você aprenderá tudo sobre o processo de solicitação de emprego. Seu foco estará na construção de um currículo que destaque seus pontos fortes e experiência relevante. 6. Conclusão do Desafio do Curso. Ao final deste curso, você poderá aplicar o que aprendeu no Desafio do Curso. O Desafio do Curso fará perguntas sobre os conceitos-chave e, em seguida, dará a você a oportunidade de colocá-los em prática conforme você passa por dois cenários. O que esperar Você pode planejar terminar este programa em cerca de quatro a cinco semanas. Você ganhará crédito do curso após concluir todas as atividades prescritas, que incluem: ● Vídeos de instrutores ensinando novos conceitos e demonstrando o uso de ferramentas ● Perguntas em vídeo que surgem durante ou no final de um vídeo para verificar o seu aprendizado ● Textos para apresentar novas ideias e desenvolver os conceitos dos vídeos. ● Fóruns de discussões para discutir, explorar e reforçar novas ideias para uma melhor aprendizagem ● Sugestões de discussão para promover o pensamento e o envolvimento nos fóruns de discussão. https://www.coursera.org/learn/fundamentos-dados-dados-em-todos-os-lugares/home/week/1 https://www.coursera.org/learn/fazer-perguntas-para-tomar-decisoes-com-base-em-dados/home/welcome https://www.coursera.org/learn/preparar-os-dados-para-exploracao/home/welcome https://www.coursera.org/learn/analisar-os-dados-para-responder-as-perguntas/home/welcome https://www.coursera.org/learn/compartilhar-os-dados-com-a-arte-da-visualizacao/home/welcome https://www.coursera.org/learn/analise-de-dados-com-programacao-em-r/home/welcome https://www.coursera.org/learn/projeto-final-conclua-um-estudo-de-caso/home/welcome https://www.coursera.org/learn/processar-os-dados-para-limpa-los/discussions Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS ● Qwiklabs para apresentar situações do mundo real no trabalho e as ferramentas e tarefas para concluir seus trabalhos ● Simulados para servir como preparação para os testes que valem nota. ● Atividades práticas para reforçar as habilidades aprendidas para os questionários classificados ● Testes que valem nota para medir seu progresso e oferecer um feedback valioso. Atividades práticas que promovem mais oportunidades para desenvolver suas habilidades. Tente fazer o máximo possível delas. As avaliações se baseiam na abordagem do curso para oferecer uma ampla variedade de materiais de aprendizado e atividades que reforçam habilidades importantes. Os testes (com e sem nota) ajudarão a absorver o conteúdo. Os simulados sem nota são uma oportunidade para você se preparar para os testes que valem nota. Ambos os tipos de testes podem ser respondidos várias vezes. Voltando a lembrar, este curso é projetado para todos os tipos de alunos, sem necessidade de graduação ou experiência anterior. Todo mundo aprende de maneira diferente, então o Certificado de Análise de Dados do Google foi desenvolvido com isso em mente. Os prazos personalizados são apenas um guia, portanto, fique à vontade para trabalhar no seu próprio ritmo. Se preferir, você pode estender seus prazos voltando para Visão geral no painel de navegação e clicando em Alternar sessões. Se você já perdeu os prazos anteriores, clique em Redefinir meus prazos. Se quiser revisar o conteúdo anterior ou dar uma olhada no conteúdo que está por vir, você pode usar os links de navegação no topo desta página para ir para outro curso do programa. Quando você passar em todos os trabalhos obrigatórios, estará no caminho certo para ganhar seu certificado. Este curso também contém informações práticas para prepará-lo para o mercado de trabalho como analista de dados. Use as recomendações para adicionar ao seu currículo o que você aprendeu sobre limpeza de dados. Dicas ● Faça o seu melhor para completar todos os itens em ordem. Todas as novas informações baseiam-se no aprendizado anterior. ● Trate cada tarefa como se fosse uma experiência do mundo real. Tenha a mente de que você está trabalhando em uma empresa ou em uma organização como analista de dados. Isso o ajudará a aplicar o que aprendeu neste programa ao mundo real. ● Repita as tarefas demonstradas por conta própria para prática extra e velocidade. ● Mesmo que elas não sejam avaliadas, participe e complete todos os itens de prática. Eles o ajudarão a construir uma base sólida como analista de dados e a prepará-lo melhor para as avaliações graduadas. ● Aproveite todos os recursos adicionais fornecidos, incluindo fóruns de discussão e links para conteúdo de aprendizagem. ● Quando você encontrar links úteis no curso, marque-os como favoritos para consultar as informações para estudo ou revisão. ● Os recursos adicionais são gratuitos, mas alguns sites estabelecem limites para o número de artigos que podem ser acessados gratuitamente por mês. Às vezes, é possível se registrar no site para receber acesso total, mas você pode sempre marcar um recurso como favorito e voltar para visualizá-lo mais tarde. Agora que você sabe como proceder, pode dar os primeiros passos para trabalhar com todos os tipos de dados e aprender a manter a integridade dos dados como prioridade em todos os seus projetos. Mantenha-se no curso (trocadilho intencional)! Conhecer os colegas Recentemente, você aprendeu sobre tipos de dados, estruturas de dados e bancos de dados. Como analista de dados, você terá a chance de explorar muitos conjuntos de dados diferentes. Mas antes de começar, há algumas questões importantes a serem consideradas: ● Quais etapas você pode executar ao abrir um conjunto de dados pela primeira vez? ● O que você aprendeu neste curso que pode aplicar ao explorar o conjunto de dados? Escreva dois ou mais parágrafos (100-150 palavras) descrevendo o que você pode fazer com um novo conjunto de dados. Você pode incluir todas as etapas ou processos sobre os quais já aprendeu em sua descrição. Por fim, acesse o fórum de discussão para ler o que outros alunos escreveram e participe da discussão com, pelo menos, duas de suas publicações. A participação é opcional Com um novo conjunto de dados, sou capaz de realizar várias etapas e processos para obter insights e conhecimentos valiosos. Primeiramente, posso realizar uma análise exploratória dos dados, que envolve examinar e visualizar os padrões e Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS tendências presentes nos dados. Usando técnicas estatísticas e gráficas, posso identificar relações entre variáveis, detectar outliers e compreender a distribuição dos dados. Além disso, posso realizar a limpeza e pré-processamento dos dados, que envolvem tratar valores ausentes, remover duplicatas e padronizar formatos. Também posso aplicar técnicas de transformação, como normalização e codificação, para melhorar a qualidade e a evolução dos dados aos algoritmos de análise. Posteriormente, posso aplicar uma ampla variedade de técnicas de modelagem, como processamento de máquina, para prever tendências, classificar dados e identificar padrões ocultos. Isso pode ser útil em várias áreas, como previsão de demanda, detecção de fraudes, recomendação de produtos, entre outros. Além disso, posso utilizar técnicas de mineração de dados para descobrir padrões, associações e insights que podem ser relevantes para a tomada de decisões. Essas informações podem ser simplificadas em relatório, gráficos ou painéis interativos, facilitando a compreensão e a interpretação dos resultados. Em suma, com um novo conjuntode dados, posso explorar, limpar, analisar e extrair conhecimentos valiosos, confiantes para a tomada de decisões controladas e orientadas por dados. 1.2 - INTEGRIDADE DOS DADOS E OBJETIVOS ANALÍTICOS VÍDEO - POR QUE A INTEGRIDADE DOS DADOS É IMPORTANTE - Olá mais uma vez! Neste vídeo, abordaremos a integridade dos dados e alguns riscos que talvez enfrente como analista de dados. Uma análise forte depende da integridade dos dados. Se os dados que você está usando forem comprometidos de alguma forma, sua análise não será tão forte quanto deveria. A integridade dos dados é a precisão, integridade, consistência e confiabilidade dos dados durante o ciclo de vida deles. Isso pode soar como muitas qualidades para que os dados estejam à altura. Mas confie em mim, vale a pena verificar todos eles antes de prosseguir com sua análise. Caso contrário, sua análise poderá estar errada. Não porque você fez algo errado, mas porque os dados com os quais você estava trabalhando estavam errados no início. Quando a integridade dos dados é baixa, pode causar desde a perda de um único pixel em uma imagem até uma decisão médica incorreta. Em alguns casos, uma peça que falta pode tornar todos os seus dados inúteis. A integridade dos dados pode ser comprometida de várias maneiras diferentes. Há uma chance de os dados serem comprometidos toda vez que são replicados, transferidos ou manipulados de alguma forma. A replicação de dados é o processo de armazenamento de dados em vários locais. Se você estiver replicando dados em momentos diferentes e em lugares diferentes, há uma chance de seus dados ficarem fora de sincronia. Esses dados carecem de integridade porque pessoas diferentes podem não estar usando os mesmos dados para suas descobertas, o que pode causar inconsistências. Há também a questão da transferência de dados, que é o processo de copiar dados de um dispositivo de armazenamento para a memória, ou de um computador para o outro. Se a sua transferência de dados for interrompida, você pode acabar com um conjunto de dados incompleto, o que pode não ser útil para suas necessidades. O processo de manipulação de dados envolve a alteração dos dados para torná-los mais organizados e fáceis de ler. A manipulação de dados visa tornar o processo de análise de dados mais eficiente, mas um erro durante o processo pode comprometer a eficiência. Por fim, os dados também podem ser comprometidos por erro humano, vírus, malware, hackers e falhas do sistema, o que pode causar ainda mais dores de cabeça. Vou parar por aqui. São notícias potencialmente ruins o suficiente para digerir. Vamos passar para algumas notícias potencialmente boas. Em muitas empresas, o armazenamento de dados ou a equipe de engenharia de dados se encarrega de garantir a integridade dos dados. A seguir, aprenderemos a verificar a integridade dos dados como analista de dados. Mas fique tranquilo, outra pessoa também irá lhe ajudar bastante. Depois de descobrir com quais dados você está trabalhando, é importante verificar novamente se seus dados estão completos e válidos antes da análise. Isso ajudará a garantir que sua análise e eventuais conclusões sejam precisas. A verificação da integridade dos dados é uma etapa vital no processamento de seus dados para prepará-los para análise, seja você ou outra pessoa de sua empresa que esteja fazendo isso. A seguir, você aprenderá ainda mais sobre integridade de dados. Vejo você em breve. Mais sobre integridade dos dados e conformidade Esta leitura ilustra a importância da integridade dos dados usando um exemplo de dados de uma empresa global. As definições dos termos relevantes para a integridade dos dados serão fornecidas no final. Cenário: datas do calendário para uma empresa global As datas do calendário são representadas em muitas formas curtas diferentes. Dependendo de onde você mora, um formato diferente pode ser usado. ● Em alguns países, 12/10/20 (DD/MM/AA) significa 12 de outubro de 2020. ● Em outros países, o padrão nacional é YYYY-MM-DD, então 12 de outubro de 2020 se torna 2020-10-12. ● Nos Estados Unidos, (MM/DD/AA) é o formato aceito, então 12 de outubro de 2020 será 12/10/20. Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Agora, pense no que aconteceria se você estivesse trabalhando como analista de dados para uma empresa global e não verificasse os formatos de data. Bem, sua integridade de dados provavelmente seria questionável. Qualquer análise dos dados seria imprecisa. Imagine encomendar estoque extra para dezembro, quando na verdade era necessário em outubro! Uma boa análise depende da integridade dos dados, e a integridade dos dados geralmente depende do uso de um formato comum. Portanto, é importante verificar novamente como as datas são formatadas para garantir que o que você acha que é 10 de dezembro de 2020 não seja realmente 12 de outubro de 2020 e vice-versa. Aqui estão algumas outras coisas a serem observadas: ● Replicação de dados comprometendo a integridade dos dados: Continuando com o exemplo, imagine que você peça aos seus colegas internacionais para verificar as datas e manter um formato. Um analista copia um grande conjunto de dados para verificar as datas. Mas por causa de problemas de memória, apenas parte do conjunto de dados é realmente copiado. O analista estaria verificando e padronizando dados incompletos. Esse conjunto de dados parcial seria certificado como compatível, mas o conjunto de dados completo ainda conteria datas que não foram verificadas. Duas versões de um conjunto de dados podem apresentar resultados inconsistentes. Uma auditoria final dos resultados seria essencial para revelar o que aconteceu e corrigir todas as datas. ● Transferência de dados comprometendo a integridade dos dados: Outro analista verifica as datas em uma planilha e opta por importar os dados validados e padronizados de volta para o banco de dados. Mas suponha que o campo de data da planilha foi classificado incorretamente como um campo de texto durante o processo de importação (transferência) de dados. Agora, algumas das datas no banco de dados são armazenadas como sequências de texto. Neste ponto, os dados precisam ser limpos para restaurar sua integridade. ● Manipulação de dados comprometendo a integridade dos dados: Ao verificar as datas, outro analista percebe o que parece ser um registro duplicado no banco de dados e o remove. Mas acontece que o analista removeu um registro exclusivo da subsidiária de uma empresa e não um registro duplicado da empresa. Seu conjunto de dados agora está com dados ausentes e os dados devem ser restaurados para que estejam completos. Conclusão Felizmente, com um formato de data padrão e conformidade de todas as pessoas e sistemas que trabalham com os dados, a integridade dos dados pode ser mantida. Mas não importa de onde vêm seus dados, certifique-se sempre de verificar se eles são válidos, completos e limpos antes de iniciar qualquer análise. Referência: Restrições de dados e exemplos Conforme você progride em sua jornada de dados, você encontrará muitos tipos de restrições de dados (ou critérios que determinam a validade). A tabela abaixo oferece definições e exemplos de termos de restrição de dados que você pode encontrar. Restrição de dados Definição Exemplos Tipo de dado Os valores devem ser de um determinado tipo: data, número, porcentagem, booleano, etc. Se o tipo de dados for uma data, um único número como 30 falharia na restrição e seria inválido. Intervalo de dados Os valores devem estar entre osvalores máximo e mínimo predefinidos Se o intervalo de dados for de 10 a 20, um valor de 30 falharia na restrição e seria inválido. Obrigatório Os valores não podem ser deixadosem branco ou vazios Se a idade for obrigatória, esse valor deve ser preenchido. Único Os valores não podem ter umduplicado Duas pessoas não podem ter o mesmo número de celular na mesma área de serviço. Padrões de expressão regular (regex) Os valores devem corresponder a um padrão prescrito Um número de telefone deve corresponder a ###-###-#### (nenhum outro caractereé permitido). Validação de campo cruzado Certas condições para vários camposdevem ser atendidas Os valores são porcentagens e os valores de vários campos devem somar 100%. Chave primária (Somente bancos de dados) o valordeve ser exclusivo por coluna Uma tabela de banco de dados não pode ter duas linhas com o mesmo valor de chave primária. Uma chave primária é um identificador em um banco de dados que faz referência a uma coluna na qual cada valor é exclusivo. Mais informações sobre chaves primárias e estrangeiras são fornecidas posteriormente no programa. Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Conjunto de membros (Somente bancos de dados) os valores de uma coluna devem vir de um conjunto de valores discretos O valor de uma coluna deve ser definido como Sim, Não ou Não aplicável. Chave estrangeira (Somente bancos de dados) os valores de uma coluna devem ser valores exclusivos provenientes de uma coluna em outra tabela Em um banco de dados de contribuintes dos EUA, a coluna Estado deve ser um estado ou território válido com o conjunto de valores aceitáveis definidos em uma tabela de estados separada. Precisão O grau em que os dados estão de acordo com a entidade real que está sendo medida ou descrita Se os valores dos códigos postais forem validados pela localização da rua, a precisão dos dados aumenta. Integridade O grau em que os dados contêm todos os componentes ou medidas desejados Se os dados de perfis pessoais exigirem a cor do cabelo e dos olhos, e ambos forem coletados, os dados estarão completos. Consistência O grau em que os dados são repetíveis de diferentes pontos de entrada ou coleta Se um cliente tiver o mesmo endereço nos bancos de dados de vendas e reparos, os dados serão consistentes. VÍDEO - COMO EQUILIBRAR OS OBJETIVOS E A INTEGRIDADE DOS DADOS- Olá, é bom lembrar de verificar a integridade dos dados. Também é importante verificar se os dados que você usa estão alinhados com o objetivo de negócios. Isso adiciona outra camada à manutenção da integridade dos dados porque os dados que você está usando podem ter limitações com as quais você precisará lidar. O processo de correspondência de dados com objetivos de negócios pode ser bastante simples. Aqui está um exemplo rápido. Digamos que você seja um analista de uma empresa que produz e vende autopeças. Se você precisar responder a uma pergunta sobre a receita gerada pela venda de uma determinada peça, você poderá obter a tabela de receita do conjunto de dados. Se a pergunta for sobre avaliações de clientes, você abrirá a tabela de avaliações para analisar as classificações médias. Mas antes de se aprofundar em qualquer análise, você precisa considerar algumas limitações que podem afetá-la. Se os dados não forem limpos corretamente, você ainda não poderá usá-los. Você precisaria esperar até que uma limpeza completa seja feita. Agora, digamos que você esteja tentando descobrir quanto um cliente médio gasta. Você percebe que os dados do mesmo cliente aparecem em mais de uma linha. Isso é chamado de dados duplicados. Para corrigir isso, talvez seja necessário alterar o formato dos dados ou talvez alterar a maneira de calcular a média. Caso contrário, parecerá que os dados são para duas pessoas diferentes e você ficará preso a cálculos enganosos. Você também pode perceber que não há dados suficientes para concluir uma análise precisa. Talvez você tenha apenas alguns meses de dados de vendas. Há uma pequena chance de você esperar por mais dados, mas é mais provável que você precise alterar seu processo ou encontrar fontes alternativas de dados enquanto ainda cumpre seu objetivo. Eu gosto de pensar em um conjunto de dados como uma imagem. Tire esta foto. O que estamos olhando? A menos que você seja um viajante experiente ou conheça a área, pode ser difícil escolher apenas entre estas duas imagens. Visualmente, é muito claro quando não estamos vendo a imagem inteira. Quando você tem uma visão completa, percebe... que está em Londres! Com dados incompletos, é difícil ver o quadro completo para ter uma noção real do que está acontecendo. Às vezes, confiamos nos dados porque, se eles chegam até nós em linhas e colunas, parece que tudo o que precisamos está lá se apenas consultarmos. Mas isso não é verdade. Me lembro de uma vez em que descobri que não tinha dados suficientes e tive que encontrar uma solução. Eu estava trabalhando para uma empresa de varejo online e me pediram para descobrir como reduzir o tempo de entrega da compra do cliente. Prazos de entrega mais rápidos geralmente levam a clientes mais felizes. Quando verifiquei o conjunto de dados, encontrei informações de rastreamento muito limitadas. Estávamos perdendo alguns detalhes importantes. Então, os engenheiros de dados e eu criamos novos processos para rastrear informações adicionais, como o número de paradas em uma viagem. Usando esses dados, reduzimos o tempo entre a compra e a entrega, e observamos uma melhora na satisfação do cliente. Isso foi ótimo! Aprender a lidar com problemas de dados mantendo o foco em seu objetivo o ajudará a ter sucesso em sua carreira como analista de dados. E seu caminho para o sucesso continua. Na próxima etapa, você aprenderá mais sobre como alinhar dados a objetivos. Continue assim! Dados e objetivos bem alinhados Você pode obter insights poderosos e tirar conclusões precisas quando os dados estão bem alinhados aos objetivos de negócios. Como analista de dados, o alinhamento é algo que você precisará julgar. Um bom alinhamento significa que os dados são relevantes e podem ajudá-lo a resolver um problema de negócios ou determinar um curso de ação para atingir um determinado objetivo de negócios. Nesta leitura, você revisará os objetivos de negócios associados a três cenários. Você explorará como dados limpos e objetivos de negócios bem alinhados podem ajudá-lo a chegar a conclusões precisas. Além disso, você aprenderá como novas variáveis descobertas durante a análise de dados podem fazer com que você configure restrições de dados para manter os dados alinhados a um objetivo de negócios. Dados limpos + alinhamento ao objetivo de negócios = conclusões precisas Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Objetivo de negócios Os gerentes de contas do Impress Me, um serviço de assinatura de conteúdo online, querem saber quando os usuários visualizam o conteúdo depois que suas assinaturas são ativadas. Para começar, o analista de dados verifica se os dados exportados para planilhas estão limpos e confirma se os dados necessários (quando os usuários acessam o conteúdo) estão disponíveis. Sabendo disso, o analista decide que há um bom alinhamento dos dados com o objetivo do negócio. Tudo o que falta é descobrir exatamente quanto tempo cada usuário leva para visualizar o conteúdo após a ativação da assinatura. Aqui estão as etapas de processamento de dados que o analista executa para um usuário de uma conta chamada V&L Consulting. (Essas etapas seriam repetidas para cada conta assinante e para cada usuário associado a essa conta.) Etapa 1 Etapa de processamento de dados Fonte de dados Procure a data de ativação da V&L Consulting Planilha da conta Dados relevantes na planilha: Resultado: 21 de outubro de 2019 Etapa 2 Etapa de processamento de dados Fonte de dados Procure o nome de um usuário pertencente à conta da V&L Consulting Planilha da conta (guia de usuários) Dados relevantes na planilha: Resultado: Maria Ballantyne Etapa 3 Etapa de processamento de dados Fonte de dados Encontre a primeira data de acesso ao conteúdo de Maria B. Planilha de uso de conteúdo Dados relevantes na planilha: Resultado: 31 de outubro de 2019 Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Etapa 4 Etapa de processamento de dados Fonte de dados Calcule o tempo entre a ativação e o primeiro uso de conteúdo para Maria B. Cálculo da nova planilha Dados relevantes na planilha: Resultado: 10 dias Dica profissional 1 No processo acima, o analista pode usar VLOOKUP para pesquisar os dados nas Etapas 1, 2 e 3 para preencher osvalores na planilha na Etapa 4. VLOOKUP é uma função de planilha que procura um determinado valor em uma coluna para retornar uma informação relacionada. Usar VLOOKUP pode economizar muito tempo; sem ele, você precisa procurar datas e nomes manualmente. Consulte a página VLOOKUP na Central de Ajuda do Google para saber como usar a função no Planilhas Google. Dica profissional 2 Na Etapa 4 do processo acima, o analista pode usar a função DATEDIF para calcular automaticamente a diferença entre as datas na coluna C e na coluna D. A função pode calcular o número de dias entre duas datas. Consulte a página do Microsoft Support DATEDIF para saber como usar a função no Excel. A função DAYS360 faz a mesma coisa em planilhas contábeis que usam um ano de 360 dias (doze meses de 30 dias). Consulte a página DATEDIF na Central de Ajuda do Google para saber como usar a função no Planilhas Google. Alinhamento ao objetivo de negócios + limpeza de dados adicional = conclusões precisas Objetivo de negócios A Cloud Gate, uma empresa de software, organizou recentemente uma série de webinars públicos como apresentações gratuitas de produtos. O analista de dados e o gerente de programa de webinar desejam identificar empresas que tiveram cinco ou mais pessoas participando dessas sessões. Eles querem dar essa lista de empresas aos gerentes de vendas que podem acompanhar as vendas em potencial. Os dados de participação no webinar incluem os campos e dados mostrados abaixo. Nome <Nome> <Sobrenome> Esta era a informação necessária que os participantestinham que enviar Endereços de e-mail xxxxx@company.com Esta era a informação necessária que os participantestinham que enviar Empresa <Nome da empresa> Esta era uma informação opcional que os participantespoderiam fornecer Limpeza de dados Os dados de participação no webinar parecem estar alinhados com o objetivo de negócios. Mas o analista de dados e o gerente de programa decidem que alguma limpeza de dados é necessária antes da análise. Eles acham que a limpeza de dados é necessária porque: ● O nome da empresa não era um campo obrigatório. Se o nome da empresa estiver em branco, pode ser encontrado no endereço de e-mail. Por exemplo, se o endereço de e-mail for username@google.com, o campo da empresa pode ser preenchido com o Google para a análise dos dados. Essa etapa de limpeza de dados pressupõe que as pessoas com endereços de e-mail atribuídos à empresa participaram de um webinar para fins comerciais. ● Os participantes podiam digitar qualquer nome. Como a participação em uma série de webinars está sendo analisada, eles precisam validar nomes em relação a endereços de e-mail exclusivos. Por exemplo, se Joe Cox participasse de dois webinars, mas assinasse como Joe Cox para um e Joseph Cox para o outro, ele seria contado como duas pessoas diferentes. Para evitar isso, eles precisam verificar o endereço de e-mail exclusivo https://support.microsoft.com/en-us/office/vlookup-function-0bbc8083-26fe-4963-8ab8-93a18ad188a1 https://support.google.com/docs/answer/3093318?hl=en https://support.microsoft.com/en-us/office/datedif-function-25dba1a4-2812-480b-84dd-8b32a451b35c https://support.microsoft.com/en-us/office/days360-function-b9a509fd-49ef-407e-94df-0cbda5718c2a https://support.google.com/docs/answer/6055612?hl=en Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS dele para determinar que ele era a mesma pessoa. Após a validação, Joseph Cox pode ser alterado para Joe Cox para corresponder à outra instância. Alinhamento ao objetivo de negócios + variáveis recém-descobertas + restrições = conclusões precisas Objetivo de negócios Uma empresa de tutoria extra curricular, A+ Education, quer saber se há um número mínimo de horas de tutoria necessárias antes que os alunos tenham pelo menos 10% de melhoria em suas notas de avaliação. O analista de dados acredita que há um bom alinhamento entre os dados disponíveis e o objetivo dos negócios porque: ● Os alunos entram e saem de um sistema para cada sessão de tutoria e o número de horas é rastreado ● As pontuações da avaliação são registradas regularmente Restrições de dados para novas variáveis Depois de analisar os dados, o analista de dados descobre que existem outras variáveis a serem consideradas. Alguns alunos tiveram sessões semanais consistentes, enquanto outros alunos agendaram sessões de forma mais aleatória, embora o número total de horas de tutoria fosse o mesmo. Os dados não se alinham tão bem com o objetivo de negócios original como se pensava inicialmente, então o analista adiciona uma restrição de dados para se concentrar apenas nos alunos com sessões semanais consistentes. Essa modificação ajuda a obter uma imagem mais precisa sobre o tempo de inscrição necessário para obter uma melhoria de 10% nas pontuações da avaliação. Principais conclusões Esperamos que esses exemplos lhe deem uma noção do que procurar para saber se seus dados estão alinhados com seu objetivo de negócios. ● Quando há dados limpos e um bom alinhamento, você pode obter insights precisos e tirar conclusões que os dados suportam. ● Se houver um bom alinhamento, mas os dados precisarem ser limpos, limpe os dados antes de realizar sua análise. ● Se os dados estiverem apenas parcialmente alinhados com um objetivo, pense em como você pode modificar o objetivo ou use restrições de dados para garantir que o subconjunto de dados se alinhe melhor ao objetivo de negócios. Teste seu conhecimento sobre a integridade dos dados e objetivos analíticos Pergunta 1 - Quais dos seguintes princípios são os principais elementos da integridade dos dados? Selecione todas as opções válidas. Precisão Confiabilidade Seletividade Consistência Correto - A integridade dos dados é a precisão, integridade, consistência e confiabilidade dos dados ao longo de seu ciclo de vida. Pergunta 2 - Qual processo os analistas de dados usam para tornar os dados mais organizados e fáceis de ler? Replicação de dados Uniformidade de dados Manipulação de dados Transferência de dados Correto - Para tornar os dados mais organizados e fáceis de ler, os analistas de dados usam a manipulação de dados. Pergunta 3 - Antes da análise, uma empresa coleta dados de países que usam diferentes formatos de data. Qual das seguintes atualizações melhoraria a integridade dos dados? Remover dados em um formato de data desconhecido Alterar todas as datas para o mesmo formato Deixe as datas em seus formatos atuais Organizar os dados por país Correto - Alterar todas as datas para o mesmo formato melhoraria a integridade dos dados. Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS 1.3 - COMO SUPERAR O DESAFIO DA INSUFICIÊNCIA DE DADOS VÍDEO - COMO LIDAR COM A INSUFICIÊNCIA DE DADOS - Todo analista já esteve em uma situação em que não há dados suficientes para ajudar em seu objetivo de negócios. Considerando a quantidade de dados gerados todos os dias, pode ser difícil de acreditar, mas é verdade. Então, vamos abordar o que você pode fazer quando tiver dados insuficientes. Abordaremos como definir limites para o escopo de sua análise e quais dados você deve incluir. A certo momento, eu era analista de dados em um centro de suporte. Todos os dias, recebíamos perguntas de clientes, que eram registradas como tickets de suporte. Pediram-me para prever o número de tickets de suporte recebidos por mês para descobrir quantas pessoas adicionais precisávamos contratar. Era muito importante que tivéssemos dados suficientes de pelo menos alguns anos atrás, porque eu teria que levar em conta as mudanças anuais e periódicas. Se eu tivesse apenas os dados do ano atual disponíveis, não saberia que um pico em janeiro é comum e tem a ver com pessoas pedindo reembolsos após os feriados. Como eu tinha dados suficientes, pude sugerir que contratássemos mais pessoas em janeiro para nos prepararmos. Os desafios certamente surgirão, mas a boa notícia é que, assim que conhecer seu objetivo de negócios, conseguirá reconhecer se possui dados suficientes. E se não o fizer, poderá passar por isso antes de iniciar sua análise.Agora, vamos verificar algumas dessas limitações que você possa encontrar e como lidar com diferentes tipos de dados insuficientes. Digamos que você esteja trabalhando no setor de turismo e precise descobrir quais planos de viagem são pesquisados com mais frequência. Se você usar apenas dados de um site de reservas, estará se limitando a dados de apenas uma fonte. Outros sites de reservas podem mostrar tendências diferentes que você gostaria de considerar para sua análise. Se uma limitação como essa afetar sua análise, você pode parar e voltar as suas partes interessadas para elaborar um plano. Se seu conjunto de dados continuar atualizando, isso significa que os dados ainda estão sendo recebidos e podem não estar completos. Portanto, se houver uma atração turística totalmente nova para a qual esteja analisando o interesse e a participação, provavelmente não há dados suficientes para determinar as tendências. Por exemplo, você pode esperar um mês para coletar dados. Ou você pode entrar em contato com as partes interessadas e perguntar sobre como ajustar o objetivo. Por exemplo, você pode analisar tendências semanalmente em vez de mensalmente. Você também pode basear sua análise nas tendências dos últimos três meses e dizer “Eis como pode ser a participação à atração no quarto mês”. Você pode não ter dados suficientes para saber se esse número é muito baixo ou alto. Mas você diria às partes interessadas que é sua melhor estimativa com base nos dados que você possui atualmente. Por outro lado, seus dados podem ser mais antigos e não serem mais relevantes. Dados desatualizados sobre a satisfação do cliente não incluirão as respostas mais recentes. Portanto, você dependerá das classificações de hotéis ou aluguéis de temporada que podem não ser mais precisas. Nesse caso, sua melhor aposta pode ser encontrar um novo conjunto de dados para trabalhar. Dados que são geograficamente limitados também podem não ser confiáveis. Se sua empresa for global, você não gostaria de usar dados limitados a viagens em apenas um país. Você preferiria um conjunto de dados que incluísse todos os países. Então, essas são apenas algumas das limitações mais comuns que você encontrará e algumas maneiras de resolvê-las. Você pode identificar tendências com os dados disponíveis ou aguardar mais dados se o tempo permitir, você pode conversar com as partes interessadas e ajustar seu objetivo ou procurar um novo conjunto de dados. A necessidade de tomar essas medidas dependerá de sua função em sua empresa e, possivelmente, das necessidades do setor em geral. Mas aprender a lidar com dados insuficientes é sempre uma ótima maneira de se preparar para o sucesso. Seus poderes de analista de dados estão se fortalecendo. E bem na hora. Depois de aprender mais sobre limitações e soluções, você aprenderá sobre poder estatístico, outra ferramenta fantástica para você usar. Vejo você em breve. O que fazer ao encontrar um problema com os dados Quando você está se preparando para a análise de dados, pode perceber que não tem os dados de que precisa ou não tem o suficiente. Em alguns casos, você pode usar o que é conhecido como dados de proxy no lugar dos dados reais. Pense nisso como substituir óleo por manteiga em uma receita quando você não tem manteiga. Em outros casos, não há substituto razoável e sua única opção é coletar mais dados. Considere os seguintes problemas de dados e sugestões sobre como contorná-los. Problema de dados 1: falta de dados Soluções possíveis Exemplos de soluções na vida real Colete os dados em pequena escala para realizar uma análise preliminar e, em seguida, solicite mais tempo para concluir a análise depois de coletar mais dados. Se você estiver pesquisando funcionários sobre o que eles pensam sobre um novo plano de desempenho e bônus, use uma amostra para uma análise preliminar. Em seguida, peça mais 3 semanas para coletar os dados de todos os funcionários. Se não houver tempo para coletar dados, realize a análise usando dados de proxy de outros conjuntos de dados. Esta é a solução mais comum. Se você estiver analisando os horários de pico de viagens para usuários de transporte público, mas não tiver os dados de uma cidade específica, use os dados de outra cidade com tamanho e demografia semelhantes. Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Problema de dados 2: muito poucos dados Soluções possíveis Exemplos de soluções na vida real Faça a análise usando dados de proxy junto com dados reais. Se você estiver analisando tendências para donos de golden retrievers, aumente seu conjunto de dados incluindo os dados de donos de labradores. Ajuste sua análise para alinhar com os dados que você já possui. Se faltarem dados para jovens de 18 a 24 anos, faça a análise, mas observe a seguinte limitação em seu relatório: esta conclusão se aplica apenas a adultos com 25 anos ou mais. Problema de dados 3: dados errados, incluindo dados com erros* Soluções possíveis Exemplos de soluções na vida real Se você tiver os dados errados porque os requisitos foram mal compreendidos, comunique os requisitos novamente. Se você precisa dos dados de eleitores do sexo feminino e recebeu os dados de eleitores do sexo masculino, reafirme suas necessidades. Identifique erros nos dados e, se possível, corrija-os na origem, procurando um padrão nos erros. Se seus dados estiverem em uma planilha e houver uma declaração condicional ou booleana fazendo com que os cálculos estejam errados, altere a declaração condicional em vez de apenas corrigir os valores calculados. Se você não puder corrigir os erros de dados sozinho, poderá ignorar os dados errados e prosseguir com a análise se o tamanho da amostra ainda for grande o suficiente e ignorar os dados não causará viés sistemático. Se seu conjunto de dados foi traduzido de um idioma diferente e algumas das traduções não fazem sentido, ignore os dados com tradução ruim e prossiga com a análise dos outros dados. ** Observação importante: às vezes, dados com erros podem ser um sinal de alerta de que os dados não são confiáveis. Use seu melhor julgamento. Use a seguinte árvore de decisão como um lembrete sobre como lidar com erros de dados ou dados insuficientes: VÍDEO - A IMPORTÂNCIA DO TAMANHO DA AMOSTRA - Certo, anteriormente falamos sobre ter o tipo certo de dados para atender seu objetivo de negócios e a importância de ter a quantidade certa de dados para garantir que sua análise seja a mais precisa possível. Você deve se lembrar que, para analistas de dados, uma população são todos os valores de dados possíveis em um determinado conjunto de dados. Se você puder usar 100% de uma população em sua análise, será ótimo. Mas às vezes coletar informações sobre uma população inteira simplesmente não é possível. Demanda muito tempo ou é caro. Por exemplo, digamos que uma organização global queira saber mais sobre donos de animais de estimação que têm gatos. Você tem a tarefa de descobrir quais tipos de brinquedos os donos de gatos no Canadá preferem. Mas há milhões de donos de gatos no Canadá, então obter dados de todos eles seria um grande desafio. Sem problemas! Permita-me apresentar-lhe o tamanho da amostra! Ao usar o tamanho da amostra ou uma amostra, você usa uma parte de uma população que é representativa da população. O objetivo é obter informações suficientes de um pequeno grupo dentro de uma população para fazer previsões ou conclusões sobre toda a população. O tamanho da amostra ajuda a garantir o grau em que você pode ter certeza de que suas conclusões representam com precisão a população. Para os dados sobre donos de gatos, um tamanho da amostra pode conter dados sobre centenas ou milhares de pessoas em vez de milhões. Usar uma amostra para análise é mais econômico e leva menos tempo. Se feito com cuidado e Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS ponderação, você pode conseguir os mesmos resultados usando um tamanho da amostra em vez de tentar procurar todos os donos de gatos para descobrir os brinquedos favoritos para gatos. No entanto, há uma desvantagempotencial. Quando você usa apenas uma pequena amostra de uma população, isso pode levar à incerteza. Você não pode ter 100% de certeza de que suas estatísticas são uma representação completa e precisa da população. Isso leva a um viés de amostragem, que abordamos anteriormente no programa. O viés de amostragem ocorre quando uma amostra não é representativa da população como um todo. Isso significa que alguns membros da população estão sendo super-representados ou sub-representados. Por exemplo, se a pesquisa usada para coletar dados de donos de gatos incluísse apenas pessoas com smartphones, os donos de gatos que não possuem um smartphone não seriam representados nos dados. O uso de amostragem aleatória pode ajudar a resolver alguns desses problemas com viés de amostragem. A amostragem aleatória é uma maneira de selecionar uma amostra de uma população de modo que todos os tipos possíveis de amostra tenham a mesma chance de serem escolhidos. Voltando novamente aos nossos donos de gatos, usar uma amostra aleatória dos donos de gatos significa que donos de gatos de todos os tipos têm a mesma chance de serem escolhidos. Os donos de gatos que moram em apartamentos em Ontário teriam a mesma chance de serem representados como aqueles que moram em casas em Alberta. Como analista de dados, você descobrirá que a criação de tamanhos da amostra geralmente ocorre antes mesmo de você acessar os dados. Mas ainda é bom você saber que os dados que você vai analisar são representativos da população e funcionam com o seu objetivo. Também é bom saber o que está por vir em sua jornada de dados. No próximo vídeo, você terá a opção de ficar ainda mais confortável com os tamanhos das amostras. Vejo você lá. Como calcular o tamanho da amostra Antes de se aprofundar no tamanho da amostra, familiarize-se com estes termos e definições: Terminologia Definições População Todo o grupo em que você está interessado para o seu estudo. Por exemplo, se você estiverpesquisando pessoas em sua empresa, a população seria todos os funcionários de sua empresa. Amostra Um subconjunto de sua população. Assim como uma amostra de comida, é chamada de amostra porque é apenas um gosto. Portanto, se sua empresa for grande demais para pesquisar todos os indivíduos, você poderá pesquisar uma amostra representativa de sua população. Margem de erro Como uma amostra é usada para representar uma população, é esperado que os resultados da amostra sejam diferentes do que teria sido se você tivesse pesquisado toda a população. Essa diferença é chamada de margem de erro. Quanto menor a margem de erro, mais próximos os resultados da amostra estarão do resultado se você tivesse pesquisado toda a população. Nível de confiança Quão confiante você se sente nos resultados da pesquisa. Por exemplo, um nível de confiança de 95% significa que se você executar a mesma pesquisa 100 vezes, obterá resultados semelhantes 95 dessas 100 vezes. O nível de confiança é direcionado antes de você iniciar seu estudo porque afetará o tamanho da sua margem de erro no final do seu estudo. Intervalo de confiança O intervalo de valores possíveis que o resultado da população estaria no nível de confiança doestudo. Este intervalo é o resultado da amostra +/- a margem de erro. Significância estatística A determinação de se o seu resultado pode ser devido ao acaso ou não. Quanto maior osignificado, menos devido ao acaso. Coisas para lembrar ao determinar o tamanho da sua amostra Ao descobrir um tamanho da amostra, aqui estão algumas coisas a serem lembradas: ● Não use um tamanho da amostra menor que 30. Está estatisticamente comprovado que 30 é o menor tamanho da amostra onde um resultado médio de uma amostra passa a representar o resultado médio de uma população. ● O nível de confiança mais usado é 95%, mas 90% pode funcionar em alguns casos. Aumente o tamanho da amostra para atender às necessidades específicas do seu projeto: ● Para um nível de confiança mais alto, use um tamanho da amostra maior ● Para diminuir a margem de erro, use um tamanho da amostra maior ● Para maior significância estatística, use um tamanho da amostra maior Observação: As calculadoras de tamanho da amostra usam fórmulas estatísticas para determinar um tamanho da amostra. Mais informações sobre isso surgirão no decorrer do curso! Então, prepare-se. Por que uma amostra mínima de 30? Esta recomendação é baseada no Teorema do Limite Central (CLT) no campo da probabilidade e estatística. Conforme o tamanho da amostra aumenta, os resultados se assemelham mais à distribuição normal (em forma de sino) de um grande número de amostras. Uma amostra de 30 é o menor tamanho da amostra para o qual o CLT ainda é válido. Pesquisadores que confiam na análise de regressão – métodos estatísticos para determinar as relações entre variáveis controladas e dependentes – também preferem uma amostra mínima de 30. Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Ainda curioso? Sem entrar muito em matemática, confira estes artigos: ● Teorema do Limite Central (CLT) Este artigo da Investopedia explica o Teorema do Limite Central e descreve brevemente como ele pode ser aplicado a uma análise de um índice de ações. ● Fórmula do tamanho da amostra: Este artigo da Statistics Solutions fornece um pouco mais de detalhes sobre por que alguns pesquisadores usam 30 como tamanho da amostra mínimo. Os tamanhos das amostras variam de acordo com o problema de negócios O tamanho da amostra varia de acordo com o tipo de problema de negócios que você está tentando resolver. Por exemplo, se você mora em uma cidade com uma população de 200 mil habitantes e recebe 180 mil pessoas para responder a uma pesquisa, essa é uma amostra grande. Mas sem realmente fazer isso, como seria um tamanho da amostra aceitável e menor? Os 200 habitantes seria bom se as pessoas pesquisadas representassem todos os distritos da cidade? Resposta: Depende do que está em jogo. ● Um tamanho da amostra de 200 pode ser grande o suficiente se o seu problema de negócios for descobrir como os moradores se sentiram em relação à nova biblioteca ● Um tamanho da amostra de 200 pode não ser grande o suficiente se o seu problema comercial for determinar como os moradores votariam para financiar a biblioteca Você provavelmente poderia aceitar uma margem de erro maior pesquisando como os moradores se sentem sobre a nova biblioteca versus pesquisando os moradores sobre como eles votariam para financiá-la. Por esse motivo, você provavelmente usaria um tamanho de amostra maior para a pesquisa de eleitores. Tamanhos de amostra maiores têm um custo mais alto Você também deve pesar o custo em relação aos benefícios de resultados mais precisos com um tamanho da amostra maior. Alguém que está tentando entender as preferências do consumidor por uma nova linha de produtos não precisaria de um tamanho de amostra tão grande quanto alguém que está tentando entender os efeitos de um novo medicamento. Para a segurança dos medicamentos, os benefícios superam o custo de usar um tamanho de amostra maior. Mas para as preferências do consumidor, um tamanho de amostra menor a um custo menor pode fornecer resultados bons o suficiente. Conhecer o básico é útil Conhecer o básico ajudará você a fazer as escolhas certas quando se trata do tamanho da amostra. Você sempre pode apresentar preocupações se encontrar um tamanho de amostra muito pequeno. Uma calculadora de tamanho da amostra também é uma ótima ferramenta para isso. As calculadoras de tamanho da amostra permitem que você insira um nível de confiança e margem de erro desejados para um determinado tamanho de população. Eles então calculam o tamanho da amostra necessário para alcançar estatisticamente esses resultados. Consulte o vídeo Determine o melhor tamanho da amostra para obter uma demonstração de uma calculadora de tamanho da amostra ou consulte a leitura da Calculadora de Tamanho da Amostra para obter informações adicionais. Autorreflexão: Por que as atividades de preparo para a limpeza são importantes Visão geral Agora que vocêaprendeu sobre como se preparar para a limpeza de dados, poderá fazer uma pausa, por enquanto, para refletir sobre essas etapas. Nesta autorreflexão, você considerará seus pensamentos sobre a importância das atividades de pré-limpeza e responderá a perguntas breves. Essa autorreflexão o ajudará a desenvolver percepções sobre seu próprio aprendizado e irá prepará-lo para aplicar seu conhecimento de atividades de pré-limpeza e dados insuficientes ao seu próprio trabalho de limpeza de dados. Ao responder a perguntas (e fazer suas próprias perguntas), você considerará conceitos, práticas e princípios úteis para refinar sua compreensão e reforçar seu aprendizado. Você trabalhou duro, então não deixe de aproveitar isso ao máximo: essa reflexão ajudará a fixar o seu conhecimento! Revise a integridade dos dados https://www.statisticssolutions.com/dissertation-resources/sample-size-calculation-and-sample-size-justification/sample-size-formula/ https://www.coursera.org/learn/processar-os-dados-para-limpa-los/lecture/mSj5A/como-determinar-o-melhor-tamanho-da-amostra https://www.coursera.org/learn/processar-os-dados-para-limpa-los/lecture/mSj5A/como-determinar-o-melhor-tamanho-da-amostra https://www.coursera.org/learn/processar-os-dados-para-limpa-los/supplement/ZqcDw/calculadora-de-tamanho-da-amostra https://www.coursera.org/learn/processar-os-dados-para-limpa-los/supplement/ZqcDw/calculadora-de-tamanho-da-amostra Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Antes que os analistas de dados possam analisar dados, primeiro precisam pensar e entender os dados com os quais estão trabalhando. A avaliação da integridade dos dados é uma etapa fundamental nesse processo. Como você aprendeu nas lições anteriores, você deve concluir as seguintes tarefas antes de analisar os dados: 1. Determine a integridade dos dados avaliando a precisão geral, consistência e integridade dos dados. 2. Conecte objetivos a dados entendendo como seus objetivos de negócios podem ser atendidos por uma investigação dos dados. 3. Saiba quando parar de coletar dados. Os analistas de dados realizam atividades de pré-limpeza para concluir essas etapas. As atividades de pré-limpeza ajudam a determinar e manter a integridade dos dados, o que é essencial para a função de um analista de dados júnior. O que torna os dados insuficientes Um dos objetivos das atividades de pré-limpeza é lidar com dados insuficientes. Lembre-se de lições anteriores em que os dados podem ser insuficientes por várias razões. Dados insuficientes têm um ou mais dos seguintes problemas: ● Vêm apenas de uma fonte ● Atualizam continuamente e estão incompletos ● Estão desatualizados ● Estão geograficamente limitados Para lidar com dados insuficientes, você pode: ● Identificar tendências nos dados disponíveis ● Esperar por mais dados se o tempo permitir ● Discutir com as partes interessadas e ajustar seu objetivo ● Pesquisar um novo conjunto de dados Reflexão Considere o que você aprendeu sobre insufiCiência de Dados e as etapas para evitá-la: Por que é importante concluir as etapas de pré-limpeza antes da limpeza de dados? Concluir as etapas de pré-limpeza antes da limpeza de dados é importante porque ajuda a identificar e corrigir erros, valores ausentes e inconsistências nos dados. Isso garante que os dados estejam corretos, coerentes e prontos para análise. A pré-limpeza também ajuda a evitar resultados imprecisos e decisões erradas registradas em dados incorretos ou incompletos. Que problemas podem ocorrer se você não seguir essas etapas? Sem etapas de pré-limpeza, os erros incluem análises imprecisas, viés nos resultados, decisões tomadas, perda de confiança nos dados e ineficiência na análise. É fundamental realizar a pré-limpeza para garantir dados aguardados e resultados precisos. Agora, responda cada uma dessas perguntas com duas ou três frases (40 a 60 palavras). Teste seu conhecimento sobre insufiCiência de Dados Pergunta 1 - O que um analista deve fazer se não tiver os dados necessários para atender a um objetivo de negócios? Selecione todas as opções válidas. Criar e usar dados hipotéticos alinhados às previsões de análise. Realizar a análise localizando e usando dados de proxy de outros conjuntos de dados. Coletar dados relacionados em pequena escala e solicitar mais tempo para encontrar dados mais completos. Continuar com a análise usando dados de fontes menos confiáveis. Correto - Se um analista não tiver os dados necessários para atender a um objetivo de negócios, ele deverá coletar dados relacionados em pequena escala e solicitar mais tempo. Em seguida, ele pode encontrar dados mais completos ou realizar a análise localizando e usando dados de proxy de outros conjuntos de dados. Pergunta 2 - Quais das seguintes alternativas são limitações que podem levar a dados insuficientes? Selecione todas as opções válidas. Dados que são atualizados continuamente Dados desatualizados Dados de uma única fonte Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS Dados duplicados Correto - As limitações que podem levar a dados insuficientes incluem dados que são atualizados continuamente, dados desatualizados e dados de uma única fonte. Pergunta 3 - Um analista de dados quer descobrir quantas pessoas em Utah têm piscinas. É improvável que ele possa pesquisar todos os residentes de Utah. Em vez disso, ele pesquisa pessoas suficientes para serem representativas da população. Isso descreve qual conceito de análise de dados? Significado estatístico Margem de erro Amostra Nível de confiança Correto - Isso descreve uma amostra, que é uma parte de uma população que é representativa do todo. 1.4 - TESTAGEM DE DADOS VÍDEO - COMO USAR A POTÊNCIA ESTATÍSTICA - Olá. Todos nós provavelmente já sonhamos em ter um superpoder pelo menos uma vez na vida. Eu sei que sim. Eu adoraria poder voar. Mas há outro superpoder do qual você pode não ter ouvido falar: o poder estatístico. O poder estatístico é a probabilidade de obter resultados significativos de um teste. Suponho que este é um superpoder com o qual nenhum de vocês tenha sonhado. Ainda assim, é um superpoder de dados muito bom. Para analistas de dados, seus projetos podem começar com o teste ou estudo. O teste de hipóteses é uma maneira de ver se uma pesquisa ou experimento tem resultados significativos. Aqui está um exemplo. Digamos que você trabalhe para uma rede de restaurantes que está planejando uma campanha de marketing para os novos milkshakes. Você precisa testar o anúncio em um grupo de clientes antes de transformá-lo em uma campanha publicitária nacional. No teste, você deseja verificar se os clientes gostam ou não da campanha. Você também quer descartar quaisquer fatores fora do anúncio que possam levá-los a dizer que não gostam. Usar todos os seus clientes levaria muito tempo e seria caro. Portanto, você precisará descobrir quantos clientes precisará para mostrar que o anúncio é eficaz. Provavelmente cinquenta clientes não seriam o suficiente. Mesmo se você escolher aleatoriamente 50 clientes, pode acabar com clientes que não gostam de milk shakes. E se isso acontecer, você não poderá medir a eficácia do seu anúncio em obter mais pedidos de milkshake, pois ninguém no tamanho da amostra os pediria. É por isso que você precisa de um tamanho de amostra maior: para ter certeza de obter um bom número de todos os tipos de pessoas para o seu teste. Normalmente, quanto maior o tamanho da amostra, maior a chance de você obter resultados estatisticamente significativos com seu teste. E isso é o poder estatístico. Nesse caso, usar o maior número possível de clientes mostrará as diferenças reais entre os grupos que gostam ou não do anúncio contra as pessoas cuja decisão não foi baseada no anúncio. Existem maneiras de calcular com precisão o poder estatístico, mas não vamos abordá-las aqui. Talvez seja necessário calculá-lo por conta própria como analista de dados. Por enquanto, você deve saber que o poder estatístico geralmente é mostrado como um valor de um. Então, se seu poder estatístico for 0,6, é a mesma coisa quedizer 60%. No teste de anúncio de milk shake, se você encontrou um poder estatístico de 60%, isso significa que há 60% de chance de você obter um resultado estatisticamente significativo na eficácia do anúncio. O termo “estatisticamente significativo” é usado em estatísticas. Se você quiser saber mais sobre o significado técnico, você pode pesquisar online. Mas, em termos básicos, se um teste é estatisticamente significativo, significa que os resultados do teste são reais e não um erro causado por acaso. Portanto, há 60% de chance de que os resultados do teste de anúncio de milkshake sejam confiáveis e reais e 40% de chance de que o resultado do teste esteja errado. Normalmente, você precisa de um poder estatístico de pelo menos 0,8 ou 80% para considerar seus resultados estatisticamente significativos. Vejamos mais um cenário. Vamos manter o exemplo com milk shakes, pois bem, eu gosto de milk shakes. Imagine que você trabalha para uma rede de restaurantes que quer lançar um milk shake com sabor de bolo de aniversário completamente novo. Este milkshake será mais caro para produzir do que seus outros milkshakes. Sua empresa espera que a agitação em torno do novo sabor traga mais clientes e dinheiro para compensar esse custo. Eles querem testar isso em alguns restaurantes primeiro. Então, vamos descobrir quantos locais você precisaria usar para ter confiança em seus resultados. Primeiro, você teria que pensar sobre o que poderia impedi-lo de obter resultados estatisticamente significativos. Existem restaurantes com outras promoções que possam atrair novos clientes? Alguns restaurantes têm clientes que sempre compram o produto recém lançado, não importa qual seja? Algum local tem obras que começaram recentemente, que impediriam os clientes de irem até o restaurante? Para obter um poder estatístico mais alto, você deve considerar todos esses fatores antes de decidir quantos locais incluir no tamanho da amostra para o seu estudo. Você quer ter certeza de que qualquer efeito é provavelmente devido ao novo sabor do milk shake, não a outro fator. Os efeitos mensuráveis seriam um aumento nas vendas ou no número de clientes nos locais do tamanho da amostra. Por enquanto é isso. A seguir, exploraremos os tamanhos das amostras com mais detalhes, para que você possa ter uma ideia melhor de como eles afetam seus testes e estudos. Enquanto isso, você conheceu um pouco mais sobre milkshakes e superpoderes. E, claro, o poder estatístico. Infelizmente, apenas o poder estatístico pode ser realmente útil para analistas de dados, embora colocar minha capa e voar para pegar um milkshake agora mesmo seja uma ótima ideia. Uma introdução tranquila ao poder estatístico e a análise de poder em Python resume bem: Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS "O poder estatístico pode ser calculado e relatado para um experimento completo para comentar sobre a confiança que se pode ter nas conclusões extraídas dos resultados do estudo. Também pode ser usado como uma ferramenta para estimar o número de observações ou o tamanho da amostra necessários para detectar um efeito em um experimento." O que fazer quando não há dados Anteriormente, você aprendeu como ainda pode fazer uma análise usando dados de proxy se não tiver dados. Você pode ter algumas dúvidas sobre dados de proxy, portanto, esta leitura fornecerá mais alguns exemplos dos tipos de conjuntos de dados que podem servir como fontes de dados alternativas. Exemplos de dados de proxy Às vezes, os dados para apoiar um objetivo de negócios não estão prontamente disponíveis. É quando os dados de proxy são úteis. Dê uma olhada nos seguintes cenários e onde os dados de proxy entram para cada exemplo: Cenário de negócios Como os dados de proxy podem ser usados Um novo modelo de carro foi lançado há alguns dias e a concessionária mal pode esperar até o final do mês para que os dados de vendas cheguem. Eles querem projeções de vendas agora. O analista aproxima o número de cliques nas especificações do carro no site da concessionária como uma estimativa de vendas potenciais na concessionária. Um novo produto de carne à base de plantas foi recentemente estocado em mercearias e o fornecedor precisa estimar a demanda nos próximos quatro anos. O analista procura os dados de vendas de um substituto de peru feito de tofu que está no mercado há vários anos. A Câmara de Comércio quer saber como uma campanha de turismo afetará as viagens para sua cidade, mas os resultados da campanha ainda não estão disponíveis publicamente. O analista procura os dados históricos de reservas aéreas para a cidade de um a três meses depois que uma campanha semelhante foi realizada seis meses antes. Conjuntos de dados públicos examinados Se você faz parte de uma grande organização, pode ter acesso a muitas fontes de dados. Mas se você estiver procurando por algo específico ou um pouco fora de sua linha de negócios, também poderá usar conjuntos de dados abertos ou públicos. (Você pode consultar este artigo da Towards Data Science para uma breve explicação da diferença entre dados abertos e públicos.). Aqui está um exemplo. Uma versão nasal de uma vacina foi recentemente disponibilizada. Uma clínica quer saber o que esperar das contraindicações, mas acabou de começar a coletar dados primários de seus pacientes. Uma contraindicação é uma condição que pode fazer com que um paciente não tome uma vacina devido aos danos que ela causaria se fosse tomada. Para estimar o número de possíveis contraindicações, um analista de dados aproxima um conjunto de dados aberto de um teste da versão de injeção da vacina. O analista seleciona um subconjunto de dados com perfis de pacientes que mais se aproximam da composição dos pacientes na clínica. Há muitas maneiras de compartilhar e colaborar em dados dentro de uma comunidade. A Kaggle (kaggle.com), que apresentamos anteriormente, possui conjuntos de dados em vários formatos, incluindo o tipo mais básico, arquivos com valores separados por vírgula (CSV). CSV, JConjuntos de dados SON, SQLite e BigQuery ● CSV: Confira este conjunto de dados de clientes de cartão de crédito, que tem informações de 10.000 clientes, incluindo idade, salário, estado civil, limite do cartão de crédito, categoria do cartão de crédito etc. (CC0: Domínio Público, Sakshi Goyal). ● JSON: Confira este conjunto de dados do JSON para vídeos de tendências do YouTube (CC0: Domínio Público, Mitchell J). ● SQLite: Confira este conjunto de dados da SQLite para 24 anos de dados de incêndios florestais nos EUA (CC0: Domínio Público, Rachael Tatman). ● BigQuery: Confira este conjunto de dados de amostra do Google Analytics 360 da Google Merchandise Store (CC0 Public Domain, Google BigQuery). Consulte a documentação para conjuntos do Kaggle de dados para obter mais informações e pesquise e explore conjuntos de dados por conta própria em kaggle.com/datasets. Tal como acontece com todos os outros tipos de conjuntos de dados, fique atento a dados duplicados e 'Nulo' em conjuntos de dados abertos. Nulo na maioria das vezes significa que um campo de dados não foi atribuído (deixado em branco), mas às vezes Nulo pode ser interpretado como o valor 0. É importante entender como o Nulo foi usado antes de começar a analisar um conjunto de dados com dados Nulo. https://towardsdatascience.com/is-there-a-difference-between-open-data-and-public-data-6261cd7b5389 https://www.kaggle.com/ https://www.kaggle.com/sakshigoyal7/credit-card-customers https://www.kaggle.com/datasnaek/youtube-new https://www.kaggle.com/rtatman/188-million-us-wildfires https://www.kaggle.com/bigquery/google-analytics-sample https://www.kaggle.com/docs/datasets https://www.kaggle.com/datasets Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS VÍDEO - COMO USAR A POTÊNCIA ESTATÍSTICA - Que bom ver você de novo. Neste vídeo, entraremos em mais detalhes sobre tamanhos da amostra e integridade de dados. Se você já foi a uma loja que distribui amostras, sabe que é um dos pequenos prazeres da vida. Para mim, de qualquer maneira, essas pequenasamostras também são uma maneira muito inteligente de as empresas aprenderem mais sobre seus produtos com os clientes sem precisar dar a todos uma amostra grátis. Muitas organizações usam o tamanho da amostra de maneira semelhante. Elas fazem parte de algo maior. Neste caso, uma amostra de uma população. Às vezes, eles realizam testes complexos em seus dados para ver se atendem aos objetivos de negócios. Não vamos entrar em todos os cálculos necessários para fazer isso de forma eficaz. Em vez disso, vamos nos concentrar em um “quadro geral” do processo e do que ele envolve. Como um lembrete rápido, o tamanho da amostra é uma parte de uma população que é representativa da população. Para as empresas, é uma ferramenta muito importante. Pode tanto ser caro como levar muito tempo para analisar uma população inteira de dados. Usar o tamanho da amostra geralmente faz mais sentido e ainda pode levar a descobertas válidas e úteis. Existem calculadoras úteis online que podem ajudá-lo a encontrar o tamanho da amostra. Você precisa inserir o nível de confiança, o tamanho da população e a margem de erro. Já falamos sobre o tamanho da população antes. Para desenvolver isso, aprenderemos sobre o nível de confiança e a margem de erro. Conhecer esses conceitos o ajudará a entender por que você precisa deles para calcular o tamanho da amostra. O nível de confiança é a probabilidade de que sua amostra reflita com precisão a população maior. Você pode pensar nisso da mesma forma que a confiança em qualquer outra coisa. É o quão forte você sente que pode confiar em algo ou alguém. Ter um nível de confiança de 99% é o ideal. Mas a maioria das indústrias espera um nível de confiança de pelo menos 90 ou 95%. Setores como os farmacêuticos geralmente querem um nível de confiança o mais alto possível quando estão usando um tamanho da amostra. Isso faz sentido porque eles estão testando medicamentos e precisam ter certeza de que funcionam e são seguros para todos. Em outros estudos, as organizações podem precisar apenas saber que os resultados do teste ou da pesquisa os levam na direção certa. Por exemplo, se uma empresa de tintas estiver testando novas cores, um nível de confiança mais baixo é suficiente. Você também deseja considerar a margem de erro para seu estudo. Você aprenderá mais sobre isso adiante, mas basicamente informa o quão próximos os resultados do tamanho da amostra estão do que seus resultados seriam se você usasse toda a população que o tamanho da amostra representa. Pense assim. Digamos que o diretor de uma escola de ensino médio se aproxime de você com um estudo sobre as preferências de doces dos alunos. Eles precisam saber um tamanho da amostra adequado e precisam disso agora. A escola tem uma população de 500 alunos, e eles estão pedindo um nível de confiança de 95% e uma margem de erro de 5%. Configuramos uma calculadora em uma planilha, mas você também pode encontrar facilmente esse tipo de calculadora pesquisando “calculadora de tamanho da amostra” na internet. Assim como essas calculadoras, nossa calculadora de planilha não mostra nenhum dos cálculos mais complexos para descobrir o tamanho da amostra. Tudo o que precisamos fazer é inserir os números para nossa população, nível de confiança e margem de erro. E quando digitamos 500 para o tamanho da nossa população, 95 para nossa porcentagem de nível de confiança, 5 para nossa porcentagem de margem de erro, o resultado é cerca de 218. Isso significa que para este estudo, um tamanho da amostra apropriado seria 218. Se fizermos uma pesquisa com 218 alunos e descobrirmos que 55% deles preferem chocolate, poderíamos estar bastante confiantes de que isso seria verdade para todos os 500 alunos. 218 é o número mínimo de pessoas que precisamos pesquisar com base em nossos critérios de nível de confiança de 95% e margem de erro de 5%. Caso você esteja se perguntando, o nível de confiança e a margem de erro não precisam corresponder a 100%. Eles são independentes um do outro. Então, digamos que mudamos nossa margem de erro de 5% para 3%. Então descobrimos que nosso tamanho da amostra precisaria ser maior, cerca de 341 em vez de 218, para tornar os resultados do estudo mais representativos da população. Fique à vontade para praticar com uma calculadora online. Saber o tamanho da amostra e como encontrá-la o ajudará quando você trabalhar com dados. Temos mais conhecimentos úteis a caminho, incluindo aprender sobre a margem de erro. Vejo você em breve. Calculadora de tamanho da amostra Nesta leitura, você aprenderá o básico sobre calculadoras de tamanho da amostra, como usá-las e como entender os resultados. Uma calculadora de tamanho da amostra informa quantas pessoas você precisa entrevistar (ou coisas que você precisa testar) para obter resultados que representem a população-alvo. Vamos revisar alguns termos que você encontrará ao usar uma calculadora de tamanho da amostra: ● Nível de confiança: a probabilidade de que o tamanho da amostra reflita com precisão a população maior. ● Margem de erro: a quantidade máxima que se espera que os resultados da amostra sejam diferentes dos da população real. ● População: este é o número total do qual você espera extrair sua amostra. ● Amostra: uma parte de uma população que é representativa da população. ● Taxa de resposta estimada: se você estiver realizando uma pesquisa com indivíduos, essa é a porcentagem de pessoas que você espera que preencham sua pesquisa entre aquelas que receberam a pesquisa. Como usar uma calculadora de tamanho da amostra Para usar uma calculadora de tamanho da amostra, você precisa ter o tamanho da população, o nível de confiança e a margem de erro aceitável já decididos para que você possa inseri-los na ferramenta. Se essas informações estiverem prontas, confira estas calculadoras de tamanho da amostra abaixo: Curso 4 - PROCESSAR OS DADOS PARA LIMPÁ-LOS ● Calculadora de tamanho da amostra em surveymonkey.com ● Calculadora de tamanho da amostra em raosoft.com O que fazer com os resultados Depois de inserir suas informações em uma dessas calculadoras, ela fornecerá um tamanho da amostra recomendado. Lembre-se que o tamanho da amostra calculado é o número mínimo para atingir o que você inseriu para nível de confiança e margem de erro. Se você estiver trabalhando com uma pesquisa, também precisará pensar na taxa de resposta estimada para descobrir quantas pesquisas precisará enviar. Por exemplo, se você precisar de um tamanho da amostra de 100 indivíduos e sua taxa de resposta estimada for de 10%, será necessário enviar sua pesquisa para 1.000 indivíduos para obter as 100 respostas necessárias para sua análise. Agora que você tem o básico, tente alguns cálculos usando as calculadoras de tamanho da amostra e consulte esta leitura se precisar de uma atualização sobre as definições. Teste seu conhecimento sobre como testar seus dados Pergunta 1 - Uma equipe de pesquisa realiza um experimento para determinar se um novo sistema de segurança é mais eficaz do que a versão anterior. Que tipo de resultados são necessários para que o experimento seja estatisticamente significativo? Resultados que são imprecisos e devem ser ignorados Resultados que são hipotéticos e precisam de mais testes Resultados que são reais e não causados por acaso Resultados que dificilmente ocorrerão novamente Correto - Para que um experimento seja estatisticamente significativo, os resultados devem ser reais e não causados por acaso. Pergunta 2 - Para ter um alto nível de confiança em uma pesquisa com clientes, o que o tamanho da amostra deve refletir com precisão? Os membros mais valiosos da população As previsões das partes interessadas As tendências de outras pesquisas com clientes Toda a população Correto - Para ter um alto nível de confiança em uma pesquisa com clientes, o tamanho da amostra deve refletir com precisão toda a população. Pergunta 3 - Um analista de dados determina um tamanho de amostra apropriado para uma pesquisa. Eles podem verificar seu trabalho certificando-se de que a porcentagem do nível
Compartilhar