Buscar

Analista de Dados - GoogleCoursera - CURSO 3

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 101 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 101 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 101 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
SEMANA 1 - TIPOS E ESTRUTURAS DE DADOS
EXPLORAÇÃO DE DADOS
VÍDEO - INTRODUÇÃO A EXPLORAÇÃO DE DADOS - Imagine isso: quando você trabalha em um produto, você fez todas as
perguntas certas, aplicou o pensamento estruturado e você está totalmente em sincronia com suas partes interessadas. Você começou
muito bem. Mas há outra etapa no processo: preparar os dados corretamente. É aqui que se compreende os diferentes tipos de dados
e as estruturas de dados entram. Saber disso permite que você descubra que tipo de dados é certo para a pergunta que você está
respondendo. Além disso, você ganhará habilidades práticas sobre como extrair, usar, organizar e proteger seus dados. Ei, meu nome
é Hallie e sou um líder analítico no Google. Eu trabalho com empresas do setor de saúde. Estou muito feliz em recebê-lo neste curso.
Você tem aprimorado suas habilidades de analista de dados de várias maneiras diferentes até agora. Você aprendeu como fazer as
perguntas certas, definir o problema e apresentar sua análise de uma forma que corresponda às necessidades das partes
interessadas. Em outras palavras, você aprendeu como contar uma história usando dados. Agora aprenderemos mais sobre os dados
que você precisará para contar a melhor história possível. Mas antes de fazermos isso, adoraria contar minha história. Eu uso análises
para ajudar empresas de saúde a desenvolver soluções de marketing digital que fortalecem seus negócios e suas marcas. Minha
equipe e eu encontramos negócios e oportunidades de mídia com base nas informações mais recentes do setor e de dados. Trabalho
na área da saúde há cerca de cinco anos e é ótimo. Eu realmente gosto de poder usar dados para ajudar a desencadear mudanças em
uma indústria tão importante. Como você descobrirá neste curso, os dados podem ser o personagem principal em uma história muito
poderosa. Eu absolutamente amo usar a análise para contar essa história de uma maneira que seja atraente e informativa. Aqui está
um exemplo da vida real de como usei dados para contar uma história. Em meu trabalho, analisamos os dados de inscrição do
Medicare ao longo do tempo e fazemos conexões com a forma como as pessoas pesquisam os planos do Medicare no Google. À
medida que pessoas com 65 anos ou mais se tornam tomadores de decisão mais informados sobre sua saúde, Eu uso os dados para
saber se há um aumento nas inscrições do Medicare e que papel as buscas do Google desempenham se houver um aumento na
demanda. Agora é muito importante ter certeza de que os dados são relevantes e válidos. Eu também tenho que prestar atenção às
perguntas sobre acesso e equidade, mantendo a privacidade daqueles que conduzem as pesquisas. O final feliz da minha história é
que os dados das minhas descobertas são úteis para profissionais médicos e seus pacientes. Existem tantos dados úteis por aí, e
você está desenvolvendo as habilidades de que precisa para encontrar e usar os dados certos da melhor maneira. Neste curso, você
continuará aprimorando essas habilidades. Então, você já ouviu muito sobre as etapas do processo de análise de dados: Pergunta,
preparação, processamento, análise, compartilhamento e ação. Agora é hora de aprender como preparar os dados. Você aprenderá a
identificar como os dados são gerados e coletados, e você explorará diferentes formatos, tipos e estruturas de dados. Garantiremos
que você saiba como escolher e usar dados que o ajudarão a compreender e responder a um problema de negócios. E como nem
todos os dados atendem a cada necessidade, você aprenderá como analisar dados para viés e credibilidade. Também exploraremos o
que significa dados limpos. Mas espere, tem mais. Você também ficará mais próximo dos bancos de dados. Abordaremos o que são e
como os analistas os usam. Você ainda poderá extrair seus próprios dados de um banco de dados usando algumas ferramentas com
as quais você já está familiarizado: planilhas e SQL. A chave aqui é paciência. Como qualquer coisa que valha a pena fazer, isso
exigirá tempo e prática. E estarei com você em cada passo do caminho. Ainda comigo? Ótimo. As últimas coisas que abordaremos
são os fundamentos da organização de dados e o processo de proteção de seus dados. Os dados funcionam melhor quando estão
organizados. E se você estiver organizando seus dados, você também vai querer protegê-los. Vou mostrar como fazer os dois e
aplicá-los à sua própria análise. Estou muito animado para ajudá-lo a escrever sua própria história pessoal enquanto você continua
explorando o mundo da análise de dados. Então, vamos começar.
Plano de estudos do curso
1. Fundamentos: Dados, dados, em todos os lugares
2. Fazer perguntas para tomar decisões com base em dados
3. Preparar os Dados para Exploração (este curso)
4. Processar os dados para limpá-los
5. Analisar os dados para responder às perguntas
6. Compartilhar os dados com a arte da visualização
7. Análise de dados com programação em R
8. Google Data Analytics Capstone:Conclua um Estudo de Caso.
Seja bem-vindo ao segundo curso de
Certificado de Análise de Dados do Google! Até agora, você foi apresentado ao campo da análise de dados e descobriu
como os analistas de dados podem usar suas habilidades para responder a perguntas de negócios. Como analista de
dados, você precisa ser um especialista em estruturar, extrair e certificar-se de que os dados com os quais está
https://www.coursera.org/learn/fundamentos-dados-dados-em-todos-os-lugares/home/week/1
https://www.coursera.org/learn/fazer-perguntas-para-tomar-decisoes-com-base-em-dados/home/welcome
https://www.coursera.org/learn/processar-os-dados-para-limpa-los/home/welcome
https://www.coursera.org/learn/analisar-os-dados-para-responder-as-perguntas/home/welcome
https://www.coursera.org/learn/compartilhar-os-dados-com-a-arte-da-visualizacao/home/welcome
https://www.coursera.org/learn/analise-de-dados-com-programacao-em-r/home/welcome
https://www.coursera.org/learn/projeto-final-conclua-um-estudo-de-caso/home/welcome
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
trabalhando são confiáveis. Para fazer isso, é sempre melhor desenvolver uma ideia geral de como todos os dados são
gerados e coletados, uma vez que cada organização estrutura os dados de maneira diferente. Então, não importa a
estrutura de dados com a qual você se depara em sua nova função, você se sentirá confiante para trabalhar com ela.
Você logo descobrirá que, quando os dados são extraídos, eles não são perfeitos. Pode ser tendencioso em vez de
verdadeiro, ou sujo em vez de limpo. Seu objetivo é aprender como analisar os dados quanto para preconceitos e
credibilidade e para entender o que significa dados limpos. Você também ficará mais próximo dos bancos de dados e
poderá até mesmo extrair seus próprios dados de um banco de dados usando planilhas e SQL. Os últimos tópicos
abordados são os fundamentos da organização de dados e o processo de proteção de seus dados.
E você aprenderá como identificar diferentes tipos de dados que podem ser usados para entender e responder a um
problema de negócios. Nesta parte do programa, você explorará diferentes tipos de dados e estruturas de dados. E o
melhor de tudo, você continuará adicionando itens à sua caixa de ferramentas de analista de dados! Da extração e uso de
dados à organização e proteção, essas habilidades-chave serão úteis, não importa o que você esteja fazendo em sua
carreira como analista de dados.
Conteúdo do curso
Curso 3 – Preparar os Dados para Exploração
1. Entendendo tipos de dados e estruturas: Todos nós geramos muitos dados em nossas vidas diárias. Nesta
parte do curso, você verá como geramos dados e como os analistas decidem quais dados coletar para análise.
Você também aprenderá sobre dados estruturados e não estruturados, tipos e formatos de dados conforme
começa a pensar sobre como preparar seus dados para exploração.
2. Entendendo preconceitos, credibilidade, privacidade, ética e acesso: Quando os analistas de dados
trabalham com dados, eles sempre verificam se os dados são imparciais e confiáveis.Nesta parte do curso, você
aprenderá como identificar diferentes tipos de distorção nos dados e como garantir a credibilidade dos seus
dados. Você também explorará os dados abertos e a relação e a importância da ética dos dados e da privacidade
dos dados.
3. Bancos de dados: Onde os dados moram: Ao analisar dados, você acessa muitos dos dados de um banco de
dados. É onde vivem os dados. Nesta parte do curso, você aprenderá tudo sobre bancos de dados, incluindo
como acessá-los e extraí-los, filtrar e classificar os dados que eles contêm. Você também verificará os metadados
para descobrir os diferentes tipos e como os analistas os usam.
4. Organizando e protegendo seus dados: Excelentes habilidades de organização representam grande parte da
maioria dos tipos de trabalho, e com o data analytics isso não é diferente. Nessa parte do curso, falaremos sobre
as melhores práticas de organização de dados e como mantê-los seguros. Você também aprenderá como os
analistas usam convenções de nomenclatura de arquivo para ajudá-los a manter seu trabalho organizado.
5. Envolvimento na comunidade de dados (opcional): Ter uma forte presença online pode ser uma grande ajuda
para todos os tipos de candidatos a emprego. Nesta parte do curso, você explorará como gerenciar sua presença
online. Você também descobrirá os benefícios de trabalhar em rede com outros profissionais de análise de dados.
6. Conclusão do Desafio do Curso: Ao final deste curso, você poderá aplicar o que aprendeu no Desafio do Curso.
O Desafio do Curso fará perguntas sobre os conceitos-chave e, em seguida, dará a você a oportunidade de
colocá-los em prática conforme você passa por dois cenários.
O que esperar
Esta parte do programa foi projetada para familiarizá-lo com diferentes estruturas de dados e mostrar como coletar, aplicar,
organizar e proteger dados. Todas essas habilidades farão parte de suas tarefas diárias como analista de dados de nível
básico. Você trabalhará em uma ampla gama de atividades semelhantes às tarefas da vida real que os analistas de dados
enfrentam diariamente.
Este curso tem cinco módulos ou semanas, e cada um tem várias lições incluídas. Em cada lição, você encontrará
conteúdo como:
● Vídeos de instrutores ensinando novos conceitos e demonstrando o uso de ferramentas
● Perguntas em vídeo que surgem durante ou no final de um vídeo para verificar o seu aprendizado
● Textos para apresentar novas ideias e desenvolver os conceitos dos vídeos.
● Fóruns de discussões para discutir, explorar e reforçar novas ideias para uma melhor aprendizagem.
● Sugestões de discussão para promover o pensamento e o envolvimento nos fóruns de discussão.
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/discussions
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
● Atividades práticas para apresentar situações do mundo real no trabalho e as ferramentas e tarefas para concluir
seus trabalhos
● Simulados para servir como preparação para os testes que valem nota.
● Testes que valem nota para medir seu progresso e oferecer um feedback valioso.
Atividades práticas que promovem mais oportunidades para desenvolver suas habilidades. Tente fazer o máximo possível
delas. As avaliações se baseiam na abordagem do curso para oferecer uma ampla variedade de materiais de aprendizado
e atividades que reforçam habilidades importantes. Os testes (com e sem nota) ajudarão a absorver o conteúdo. Os
simulados sem nota são uma oportunidade para você se preparar para os testes que valem nota. Os dois tipos de teste
podem ser feitos mais de uma vez. Como um rápido lembrete, este curso é projetado para todos os tipos de alunos, sem
necessidade de graduação ou experiência anterior. Todo mundo aprende de maneira diferente, então o Certificado de
Análise de Dados do Google foi desenvolvido com isso em mente. Os prazos personalizados são apenas um guia,
portanto, fique à vontade para trabalhar no seu próprio ritmo. Não há penalidade para os trabalhos atrasados. Se preferir,
você pode estender seus prazos voltando para Visão geral no painel de navegação e clicando em Alternar sessões. Se
você já perdeu os prazos anteriores, clique em Redefinir meus prazos. Se quiser revisar o conteúdo anterior ou dar uma
olhada no conteúdo que está por vir, você pode usar os links de navegação no topo desta página para ir para outro curso
do programa. Quando você passar em todos os trabalhos obrigatórios, estará no caminho certo para ganhar seu
certificado.
Atalho opcional para quem tem experiência em análise de dados
O Certificado de Análise de Dados do Google oferece instruções e feedback para alunos que querem conseguir uma
posição como analista de dados de nível básico. Muitos alunos são novos no mundo da análise de dados, mas outros
podem já estar familiarizados com a área e só quererem aperfeiçoar certas habilidades.
Se você acredita que este curso será principalmente uma atualização para você, recomendamos que você faça o teste de
diagnóstico prático (encontre-o no conteúdo desta semana). Isso permitirá que você determine se deve seguir o atalho,
que é uma oportunidade de prosseguir para o Curso 4 depois de ter realizado cada um dos Desafios Semanais do Curso 3
e o Desafio do Curso Geral. Os alunos que conseguirem 100% de pontuação no teste de diagnóstico poderão tratar os
vídeos, os textos e as atividades do Curso 3 como opcionais. Os alunos que seguirem o atalho ainda poderão receber o
certificado.
Dicas
● Faça o seu melhor para completar todos os itens em ordem. Todas as novas informações baseiam-se no
aprendizado anterior.
● Trate cada tarefa como se fosse uma experiência do mundo real. Tenha a mente de que você está trabalhando em
uma empresa ou em uma organização como analista de dados. Isso o ajudará a aplicar o que aprendeu neste
programa ao mundo real.
● Mesmo que eles não sejam avaliados, é importante completar todos os itens de prática. Eles o ajudarão a
construir uma base sólida como analista de dados e a prepará-lo melhor para as avaliações graduadas.
● Aproveite todos os recursos adicionais fornecidos.
● Quando você encontrar links úteis no curso, marque-os como favoritos para consultar as informações para estudo
ou revisão.
VÍDEO - IDÉIAS DE DADOS FASCINANTES - A saúde é um lugar realmente fascinante nos Estados Unidos. É uma indústria
realmente incrível para se trabalhar porque é tão historicamente tradicional, e empresas de saúde, ao contrário de outras empresas de
tecnologia, realmente não usaram dados para informar as decisões. Quando eu estava na faculdade, eu tive um professor que não
queria que tivéssemos livros porque ele disse que o setor de saúde estava mudando tão rapidamente, e não faria sentido ter um livro,
que é apenas um pedaço de texto estático quando as coisas estavam realmente evoluindo. Então, eu diria que saúde e dados e os
dois juntos são um conceito mais novo usando big data, usando aprendizado de máquina e inteligência artificial para ajudar as
indústrias de saúde. Comecei a analisar grandes somas de dados de pacientes. Essa foi a primeira vez que eu realmente trabalhei
com conjuntos de dados tão grandes, e eu achei realmente fascinante que nos podemos levar todos esses conjuntos de dados e
sintetizá-los e nos permitir realmente entregar alguns insights legais e tendências para nossos sistemas hospitalares. Essa foi a
primeira vez que comecei pensando sobre a análise dos dados, análise de dados, como uma carreira possível para mim. Isso é o que
realmente me trouxe a esta função analítica de liderança no Google, onde eu poderia assumir esse conhecimento e esse conjunto de
habilidades de analisar conjuntos de dados e fazer isso diariamente, então, realmente, todas as conversas que tive com o cliente era
uma conversa informada por dados. Eu trabalho na vertical de saúde. Temos empresas que comercializam em nossas plataformas,
como Google Search e YouTube. Nós os ajudamos a entender o setor de saúde para que eles possam melhor comercializar para o
público o que eles estão tentando alcançar. Quer você seja um segurador desaúde ou um provedor de cuidados de saúde, talvez um
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
sistema hospitalar, todos eles têm necessidades diferentes sobre como desejam alcançar seu público usando as plataformas do
Google. Nós os ajudamos a otimizar seus gastos com marketing, mas nós também fazemos muita pesquisa no setor de saúde.
Algumas pesquisas de usuários, alguns entendimentos de como os usuários são realmente apenas pesquisando no Google para lhes
dar uma noção do que realmente está acontecendo na indústria e como eles podem comercializar com eficácia. Eu diria que minhas
habilidades técnicas com análise de dados vieram com o tempo. A habilidade mais importante que encontrei, que também veio com o
tempo e cresceu comigo, é apenas o lado criativo da análise de dados. Quer dizer, você pode realmente aprender muitas das
habilidades de SQL e R, e sei que parte disso está dentro do curso. Mas, realmente, o lado da criatividade é algo que só vem com a
experiência. Quando você está olhando para um conjunto de dados, você pode olhar para isso e analisá-lo de uma maneira e então
pedir a outra pessoa para olhar ou você olhar para isso uma semana depois, e então, de repente, a tendência vista será
completamente diferente. Você tem que pegar muitas dessas peças de informações, essas pepitas, Eu gosto de chamá-los, e apenas
juntar uma narrativa muito boa usando dados. Esse conjunto de habilidades é algo que eu aprendi quando estava trabalhando em
consultoria, e eu levei isso para o Google e realmente fui capaz de polir muitas dessas habilidades e algumas das habilidades mais
técnicas. Lado técnico e criativo são o que aprendi a amar. Meu nome é Hallie. Sou um líder analítico no Google trabalhando
especificamente no setor de saúde.
Conhecer os colegas
Ao resolver um mistério, um detetive às vezes faz uma pergunta grande e crítica no início de sua investigação, depois
prossegue com perguntas menores. Outras vezes, o detetive começa com perguntas menores, que levam a uma pergunta
grande e crítica no final. De qualquer forma, o mistério está resolvido!
Para esta discussão, considere o seguinte:
Que tipo de detetive de dados você é?
Você tende a fazer uma grande pergunta primeiro?
Você prefere fazer pequenas perguntas e deixar que elas o levem à grande pergunta?
Escreva um pequeno parágrafo (50-100 palavras) descrevendo seus pensamentos sobre ser um detetive de dados. Em
sua resposta, inclua seu estilo preferido de questionamento. Por fim, acesse o fórum de discussão para ler o que outros
alunos escreveram e participe da discussão com, pelo menos, duas publicações.
Gosto bastante de pesquisar dados, então acho que sou um bom detetive de dados. Gosto de começar pela pergunta maior
primeiro e depois ir quebrando ela em perguntas menores e mais fáceis de responder.
Decidindo se você precisa pegar o atalho
Este texto fornece uma visão geral de um atalho que oferecemos para quem está familiarizado com análise de dados.
Se você é novo em análise de dados, pode pular o teste de diagnóstico após este texto e seguir diretamente para a
próxima atividade: Coleta de dados em nosso mundo.
O Certificado de Análise de Dados do Google é um programa para qualquer pessoa. Não é necessário ter experiência em
análise de dados. Mas pode ser que você já tenha alguma experiência. Se este é o seu caso, projetamos um atalho para
este curso. Os alunos que optarem pelo atalho poderão se atualizar sobre os tópicos básicos e superar cada um dos
desafios semanais e o Desafio do Curso em um ritmo mais rápido.
Para ajudar você a decidir se é uma boa opção usar o atalho deste curso, siga estas etapas:
1. Faça o teste de diagnóstico opcional.
2. Consulte o guia de pontuação para determinar se o atalho é uma boa opção para você. Uma pontuação de 90%
ou mais é a meta para usar o atalho.
3. Com base em sua pontuação individual, siga as recomendações do guia de pontuação para ver as próximas
etapas.
Lembrete importante: Se você tiver qualificação para usar o atalho, ainda será responsável pela conclusão de todas as
atividades que valerem nota. Para receber um certificado, você precisará de uma pontuação geral de 80% ou mais em
todos os materiais que valem nota no programa.
COLETA DE DADOS
VÍDEO - IDÉIAS DE DADOS FASCINANTES - No momento, os dados estão sendo gerados em todos os lugares do mundo e estamos
falando de toneladas de dados. A cada minuto de cada dia, milhões de textos e centenas de milhões de e-mails são enviados. Além
disso, milhões de pesquisas online são feitas e vídeos assistidos e esses números só estão crescendo. São muitos dados. Vamos
aprender mais sobre como ele é feito e usado. Neste vídeo, falaremos sobre como os dados podem ser gerados e como as próprias
indústrias coletam dados. Cada informação é um dado. Todos esses dados são geralmente gerados como resultado de nossa
atividade no mundo. Atualmente, passamos muito tempo online. Com mídia social e dispositivos móveis, milhões e milhões de
pessoas estão adicionando uma enorme quantidade de dados lá fora, todos os dias. Pense nisso desta maneira. Cada foto digital
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/lecture/QCPVt/coleta-de-dados-em-nosso-mundo
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/quiz/lV0eb/opcional-ja-conhece-analise-de-dados-faca-nosso-teste-de-diagnostico
https://www.coursera.org/learn/preparar-os-dados-para-exploracao/supplement/EfmvJ/opcional-sua-pontuacao-no-teste-de-diagnostico-e-o-que-ela-significa
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
online é um dado. Cada foto contém ainda mais dados, do número de pixels para as cores contidas em cada um desses pixels. Mas
essa não é a única maneira pela qual os dados são produzidos. Também podemos gerar dados por meio da coleta de informações.
Esta geração de dados e a coleção vem com mais algumas coisas para se pensar. É necessário que seja feita levando em
consideração a ética para que possamos manter os direitos e a privacidade das pessoas. Aprenderemos mais sobre isso depois. Por
enquanto, vamos dar uma olhada em um exemplo do mundo real. O United States Census Bureau usa formulários de coleta de dados
sobre a população do país. Esses dados são usados por vários motivos, como financiamento para escolas, hospitais e bombeiros. O
Bureau também coleta informações sobre coisas como negócios nos EUA, criando seus próprios dados no processo. A melhor coisa
sobre isso é que outros podem usar os dados para suas próprias necessidades, incluindo análises. A pesquisa anual de negócios é
usada para descobrir as necessidades de negócios e como fornecer com recursos para ajudá-los a ter sucesso. Na verdade, eu gero
dados nas análises que faço para o setor de saúde. Realizamos muitas pesquisas para saber como os pacientes se sentem sobre
certas coisas relacionadas aos seus cuidados de saúde. Por exemplo, uma pesquisa perguntou como os pacientes se sentem sobre
telemedicina versus visitas ao médico em pessoa. Os dados que coletamos ajudam as empresas com quem trabalhamos a melhorar o
atendimento que seus pacientes recebem. Os dados da pesquisa são apenas um exemplo. Existem todos os tipos de dados sendo
gerados o tempo todo, e há muitas maneiras diferentes de coletá-los. Algo tão simples como uma entrevista pode ajudar alguém a
coletar dados. Imagine que você está em uma entrevista de emprego. Para impressionar o gerente de contratação, você deseja
compartilhar informações sobre você. O gerente de contratação coleta esses dados e analisa para ajudá-los a decidir se deve
contratá-lo ou não. Mas é para os dois lados. Você também pode coletar seus próprios dados sobre a empresa para ajudá-lo a decidir
se a empresa é uma boa opção para você. Ou você pode usar os dados que coletou para chegar com perguntas bem pensadas para
fazer ao entrevistador. Os cientistas também geram dados. Eles usam muitas observações em seu trabalho. Por exemplo, eles podem
coletar dados estudando comportamento animal ou olhar em bactérias sob um microscópio. Anteriormente, falamos sobreos
formulários que os E.U.A O Census Bureau usa para coletar dados. Formulários, questionários e pesquisas são formas
comumente usadas para coletar e gerar dados. Uma coisa a observar: dados que são gerados online nem sempre acontecem
diretamente. Você já se perguntou por que alguns anúncios online parecem fazer sugestões realmente precisas ou como alguns sites
lembram suas preferências? Isso é feito usando cookies, que são pequenos arquivos armazenados em computadores que
contêm informações sobre os usuários. Os cookies podem ajudar a informar os anunciantes sobre seus interesses pessoais e
hábitos baseados em sua navegação online, sem identificá-lo pessoalmente. Como analista do mundo real, você terá todos os tipos de
dados diretamente na ponta dos dedos e muito também. Saber como ele foi gerado pode ajudar a adicionar contexto aos dados, e
saber como coletá-lo pode tornar o processo de análise de dados mais eficiente. A seguir, você aprenderá como decidir quais dados
coletar para sua análise. Então, prepare-se.
VÍDEO - IDÉIAS DE DADOS FASCINANTES - Olá mais uma vez. Conversamos muito sobre todos os dados que existem no mundo.
Mas como analista de dados, você precisará decidir que tipo de dados deve-se coletar e usar para cada projeto. Com uma quantidade
quase infinita de dados lá fora, isso pode ser um pouco próximo de um dilema de dados, mas há boas notícias. Neste vídeo, você
aprenderá quais fatores considerar ao coletar dados. Normalmente, você terá uma vantagem em descobrir os dados certos para o
trabalho, porque os dados de que você precisa serão fornecidos a você, ou sua tarefa ou problema de negócios irá restringir suas
escolhas. Vamos começar com uma pergunta como, o que está causando o aumento do tráfego na hora do rush em sua cidade?
Primeiro, você precisa saber como os dados serão coletados. Você pode usar observações de padrões de tráfego para contar o
número de carros nas ruas da cidade durante momentos específicos. Você percebe que os carros estão recebendo backup em uma rua
específica. Isso nos leva às fontes de dados. Em nosso exemplo de tráfego, suas observações seriam dados primários. Estes são
os dados coletados por um indivíduo ou grupo usando seus próprios recursos. A coleta de dados primários é normalmente o
método preferido porque você sabe exatamente de onde veio. Você também pode ter dados de terceiros, que são dados coletados
por um grupo diretamente de seu público e depois vendidos. Em nosso exemplo, se você não for capaz de coletar seus próprios dados,
você pode comprá-los de uma organização que está conduzindo estudos de padrões de tráfego em sua cidade. Esses dados não
começaram com você, mas ainda é confiável porque veio de uma fonte com experiência em análise de tráfego. O mesmo nem sempre
pode ser dito sobre dados de terceiros ou dados coletados de fontes externas que não coletaram diretamente. Esses dados podem ter
vindo de várias fontes diferentes antes de você investigá-lo. Pode não ser tão confiável, mas isso não significa que não possa ser útil.
Você só vai querer ter certeza de verificar se há precisão, parcialidade e credibilidade. Na verdade, não importa que tipo de dados
você usa, eles precisam ser inspecionados com precisão e confiabilidade. Aprenderemos mais sobre isso depois. Por enquanto,
lembre-se de que os dados que você escolher devem se aplicar às suas necessidades e devem ser aprovados para uso. Como analista
de dados, é sua função decidir quais dados usar, e isso significa escolher os dados que podem ajudá-lo a encontrar respostas e
resolver problemas e não se distrair com outros dados. Em nosso exemplo de tráfego, dados financeiros provavelmente não seriam tão
úteis, mas os dados existentes sobre tempos de tráfego de alto volume seriam. Ok. Agora vamos falar sobre quantos dados coletar. Na
análise de dados, uma população se refere a todos os valores de dados possíveis em um determinado conjunto de dados. Se você
estiver analisando dados sobre o tráfego de carros em uma cidade, sua população seria todos os carros daquela área. Mas a coleta de
dados de toda a população pode ser bastante desafiadora. É por isso que uma amostra pode ser útil. Uma amostra é parte de uma
população que é representativa da população. Você pode coletar uma amostra de dados sobre um ponto na cidade e analisar o trânsito
lá, ou você pode puxar uma amostra aleatória de todos os dados existentes na população. A forma que você escolhe sua amostra
dependerá do seu projeto. Conforme você coleta dados, você também vai querer certificar-se de selecionar o tipo de dados correto.
Para dados de tráfego, um tipo de dados apropriado poderia ser as datas dos registros de tráfego armazenados em um formato date.
As datas podem ajudá-lo a descobrir que dias da semana tem provavelmente será um grande volume de tráfego no futuro.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Exploraremos este tópico com mais detalhes em breve. Finalmente, você precisa determinar o prazo para a coleta de dados. Em nosso
exemplo, se você precisasse de uma resposta imediatamente, você teria que usar dados históricos, que são dados que já existem.
Mas digamos que você precise rastrear padrões de tráfego durante um longo período de tempo. Isso pode afetar as outras decisões
que você faz durante a coleta de dados. Agora que você sabe mais sobre as diferentes considerações de coleta de dados que você
usará como analista de dados. Por causa disso, você será capaz de encontrar os dados corretos quando você começar a coletá-los
sozinho. Ainda há mais para aprender sobre coleta de dados, portanto, fique atento.
Selecionando os dados certos
A seguir estão algumas considerações de coleta de dados a serem lembradas para sua análise:
Como os dados serão coletados
Decida se você coletará os dados usando seus próprios recursos ou se os receberá (e possivelmente os comprará) de
outra parte. Os dados que você mesmo coleta são chamados de dados primários.
Fontes de dados
Se você não coletar os dados usando seus próprios recursos, poderá obter dados de provedores de dados terceirizados.
Os dados de terceiros são coletados diretamente por outro grupo e, em seguida, vendidos. Os dados de terceiros são
vendidos por um provedor que não os coletou. Os dados de terceiros podem vir de várias fontes diferentes.
Resolvendo seu problema de negócios
Os conjuntos de dados podem mostrar muitas informações interessantes. Porém certifique-se de escolher dados que
possam realmente ajudar a resolver sua dúvida do problema. Por exemplo, se você estiver analisando tendências ao longo
do tempo, certifique-se de usar dados de série temporal — em outras palavras, dados que incluem datas.
Quantos dados coletar
Se você estiver coletando seus próprios dados, tome
decisões razoáveis sobre o tamanho da amostra. Uma
amostra aleatória de dados existentes pode ser adequada
para alguns projetos. Outros projetos podem precisar de
coleta de dados mais estratégicos para se concentrar em
determinados critérios. Cada projeto tem suas próprias
necessidades.
Prazo
Se você estiver coletando seus próprios dados, decida
quanto tempo precisará coletá-los, especialmente se estiver
acompanhando tendências por um longo período. Se
precisar de uma resposta imediata, você pode não ter
tempo para coletar novos dados. Nesse caso, você
precisaria usar dados históricos já existentes.
Use o fluxograma abaixo se a coleta de dados depende
muito de quanto tempo você tem:
Teste seus conhecimentos sobre a coleta de dados
Pergunta 1: Qual método de coleta de dados é mais comumente usado pelos cientistas?
Observações
Pesquisas
Questionários
Entrevistas
Correto
A observação é o método de coleta de dados mais usado pelos cientistas.
Pergunta 2 : Organizações como os EUA Os Centros de Controle de Doenças (CDC) costumam usar dados coletados em
hospitais. Que tipo de dados o CDC está usando se forem coletados por hospitais e depois vendidos ao CDC para sua própria
análise?
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Dados de terceiros
Dados primários
Dados de secundáriosDados de várias partes
Correto
Os dados coletados por hospitais e, em seguida, coletados pelo CDC, são um exemplo de dados secundários.
.
Pergunta 3: Preencha a lacuna: Na análise de dados, um(a) _____ se refere a todos os valores de dados possíveis em um
determinado conjunto de dados.
fonte
amostra
população
representação
Correto
Na análise de dados, uma população se refere a todos os valores de dados possíveis em um determinado conjunto de dados.
DIFERENCIE FORMATOS E ESTRUTURAS DE DADOS
VÍDEO - DESCUBRA FORMATOS DE DADOS - Eu não sei sobre você, mas quando estou escolhendo um filme para assistir, às vezes
fico preso entre algumas opções. se eu estiver com vontade de excitação ou suspense, Eu escolheria um thriller, mas se eu precisar de
uma boa risada, Eu escolho uma comédia. Se eu realmente não consigo decidir entre dois filmes, eu posso até usar algumas minhas
habilidades de análise de dados para compará-los e contrastá-los. Pensando nisso, realmente precisa haver mais filmes sobre
analistas de dados. Eu assistiria isso, mas desde que não podemos assistir a um filme sobre dados, pelo menos ainda não, vamos
fazer a próxima melhor coisa: assistir a dados sobre filmes! Vamos dar uma olhada nessa esta planilha com dados do filme. Sabemos
que podemos comparar diferentes filmes e gêneros de filmes. Acontece que você pode fazer o mesmo com formatos de dados e
dados. Vamos usar nosso filme planilha de dados para entender como isso funciona. Começaremos com dados quantitativos e
qualitativos. Se verificarmos a coluna A, encontramos títulos dos filmes. Isso é um dado qualitativo porque não pode ser contado,
medido ou facilmente expresso usando números. Os dados qualitativos são geralmente listados como um nome, categoria ou
descrição. Em nossa planilha, os títulos dos filmes e os membros do elenco são dados qualitativos. O próximo passo são os dados
quantitativos, que podem ser medidos ou contados e depois expressos como um número. Esses são dados com uma certa quantidade,
tanto ou intervalo. Em nossa planilha aqui, as duas últimas colunas mostram os filmes, orçamento e receita de revenda. Os dados
nessas colunas estão listados em dólares, que pode ser contado, para que saibamos que os dados são quantitativos. Podemos ir ainda
mais fundo em dados quantitativos e divida-o em dados discretos ou contínuos. Vamos conferir dados discretos primeiro. Esses
são os dados que são contados e tem um número limitado de valores. Voltando à nossa planilha, encontraremos o orçamento de
cada filme e devoluções de bilheteria nas colunas M e N. Estes são exemplos de dados discretos que podem ser contados e têm um
número limitado de valores. Por exemplo, a quantidade de dinheiro que um filme faz que só pode ser representado com exatamente
dois dígitos depois do decimal para representar centavos. Não pode haver nada entre um e dois centavos. Os dados contínuos
podem ser medidos usando um temporizador e seus valores podem ser exibidos como um decimal com várias casas. Vamos
imaginar um filme sobre analistas de dados que eu definitivamente vou estrelar algum dia. Você poderia expressar esse tempo de
execução do filme como 110.0356 minutos. Você pode até adicionar dados fracionários depois do ponto decimal se você precisasse.
Também há dados nominais e ordinais. Os dados nominais são um tipo de dados qualitativos que são categorizados sem uma
ordem definida. Em outras palavras, esses dados não tem uma sequência. Aqui está um exemplo rápido. Digamos que você
esteja coletando dados sobre filmes. Você pergunta às pessoas se elas assistem a um determinado filme. Suas respostas estariam na
forma dos dados nominais. Eles poderiam responder “Sim” “Não” ou “Não tenho certeza.” Essas opções não têm um pedido específico.
Os dados ordinais, por outro lado, é um tipo de dados qualitativos com uma ordem ou escala definida. Se você perguntasse a
um grupo de pessoas para classificar um filme de 1 a 5, alguns podem classificá-lo como um 2, outros um 4, e assim por diante. Essas
classificações estão em ordem de quanto cada um gostou do filme. Agora vamos falar sobre dados internos, que são os dados que
residem os próprios sistemas de uma empresa. Por exemplo, se um estúdio de cinema tivesse compilado todos os dados na
planilha usando só o seu próprio métodos de coleta, então seria seus dados internos. A grande coisa sobre dados internos é que eles
são geralmente mais confiáveis e mais fáceis de coletar, mas nesta planilha, é mais provável que o estúdio de cinema teve que usar
dados próprios ou compartilhados por outros estúdios e recursos porque inclui filmes que eles não fizeram. Isso significa que eles
estariam coletando dados externos. Os dados externos são, você adivinhou, dados que existem e são gerados fora de uma
organização. Os dados externos se tornam particularmente valiosos quando sua análise depende de tantas fontes quanto possível.
Uma ótima coisa sobre esses dados é que eles estão estruturados. Dados estruturados são dados que estão organizados em um
determinado formato, tais como linhas e colunas. Planilhas e bancos de dados relacionais são dois exemplos de software que
podem armazenar dados de forma estruturada. Você deve se lembrar da nossa exploração anterior de pensamento estruturado, o qual
ajuda você a adicionar uma estrutura para um problema para que você possa resolvê-lo de uma forma organizada e lógica. Você pode
pensar em estruturar dados da mesma forma. Ter uma estrutura para os dados torna-os facilmente pesquisáveis e mais prontos para
análise. Como analista de dados, você trabalhará com diversos dados estruturados, que normalmente estarão na forma de uma tabela,
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
planilha ou banco de dados relacional, mas às vezes você irá se deparar com dados não estruturados. Esses são dados que não
estão organizados em qualquer forma facilmente identificável. Os arquivos de áudio e vídeo são exemplos de dados não
estruturados porque não há uma maneira clara de identificar ou organizar o conteúdo deles. Dados não estruturados podem ter
estrutura interna, mas os dados não se encaixam perfeitamente em linhas e colunas da mesma forma que os dados
estruturados. Então, aí está! Espero que você esteja mais familiarizado com os formatos de dados e a forma que você pode usá-los
em seu trabalho. Em pouco tempo, você continuará explorando dados estruturados e aprender ainda mais sobre os dados que você
usará com mais frequência como analista. Em breve, uma tela perto de você.
Formatos de dados na prática
Quando você pensa sobre a palavra "formato", muitas coisas podem vir à sua mente. Pense em um anúncio de sua loja
favorita. Você pode encontrá-lo na forma de um anúncio impresso, um outdoor ou até mesmo um comercial. As
informações são apresentadas no formato que funciona melhor para você. O formato de um conjunto de dados é muito
parecido com isso, e escolher o formato certo o ajudará a gerenciar e usar seus dados da melhor maneira possível.
Exemplos de formato de dados
Como acontece com a maioria das coisas, é mais fácil clicar nas definições quando podemos combiná-las com exemplos
da vida real. Revise cada definição primeiro e, em seguida, use os exemplos para fixar sua compreensão de cada formato
de dados.
Primário vs. Secundário
A tabela a seguir destaca as diferenças entre os dados primários e secundários e exemplos de cada
Classificação do Formato de Dados Definição Exemplos
Dados primários Coletados por um pesquisador emfontes de primeira mão
- Dados de uma entrevista que você
conduziu
- Dados de uma pesquisa retornada de
20 participantes
- Dados de questionários que você
recebeu de um grupo de trabalhadores
Dados secundários
Recolhido por outras pessoas ou de
outra pesquisa
- Dados que você comprou dos perfis
de clientes de uma empresa de análise
de dados local
- Dados demográficos coletados por
uma universidade
- Dados do censo coletados pelo
governo federal
Interno vs. Externo
A tabela a seguir destaca as diferenças entre os dados internos e externos e exemplos decada
Classificação do Formato de Dados Definição Exemplos
Dados internos Dados que residem nos própriossistemas da empresa
- Salários de funcionários em diferentes
unidades de negócios monitorados pelo
RH
- Dados de vendas por localização da
loja
- Níveis de estoque de produtos nos
centros de distribuição
Dados externos Dados que residem fora de umaempresa ou organização
- Salários médios nacionais para os
vários cargos em sua organização
- Relatórios de crédito para clientes de
uma concessionária de automóveis
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Contínuo vs. Discreto
A tabela a seguir destaca as diferenças entre dados contínuos e discretos e exemplos de cada
Classificação do Formato de Dados Definição Exemplos
Dados contínuos Dados que são medidos e que podemter quase qualquer valor numérico
- Altura das crianças na terceira série
(52,5 polegadas, 65,7 polegadas)
- Marcadores de tempo de execução em
um vídeo
- Temperatura
Dados discretos Dados contados e que têm um númerolimitado de valores
- Número de pessoas que visitam um
hospital diariamente (10, 20, 200)
- Capacidade máxima permitida da sala
- Ingressos vendidos no mês atual
Qualitativo vs. Quantitativo
A tabela a seguir destaca as diferenças entre dados qualitativos e quantitativos e exemplos de cada
Classificação do Formato de
Dados Definição Exemplos
Qualitativos Medidas subjetivas e explicativas dequalidades e características
- Atividade de exercício mais apreciada
- Marcas favoritas dos clientes mais fiéis
- Preferências de moda de jovens adultos
Quantitativos Medidas específicas e objetivas de fatosnuméricos
- Porcentagem de médicos certificados
que são mulheres
- População de elefantes na África -
Distância da Terra a Marte
Nominais vs. Ordinais
A tabela a seguir destaca as diferenças entre os dados nominais e ordinais e exemplos de cada
Classificação do Formato de
Dados Definição Exemplos
Nominals Um tipo de dado qualitativo que não écategorizado com uma ordem definida
- Cliente pela primeira vez, cliente
recorrente, cliente regular
- Novo candidato a emprego, candidato
existente, candidato interno
- Nova lista, lista de preço reduzido,
encerramento
Ordinais Um tipo de dado qualitativo com uma ordemou escala definida
- Avaliações de filmes (número de estrelas: 1
estrela, 2 estrelas, 3 estrelas)
- Seleções de votação de escolha
classificada (1ª, 2ª, 3ª)
- Nível de renda (baixa renda, média renda,
alta renda)
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Estruturados vs. Não estruturados
A tabela a seguir destaca as diferenças entre dados estruturados e não estruturados e exemplos de cada
Classificação do Formato de
Dados Definição Exemplos
Dados estruturados Dados organizados em um determinado formato, comolinhas e colunas
- Relatórios de despesas
- Declarações de impostos
- Estoque da loja
Dados não estruturados Dados que não são organizados de maneira facilmenteidentificável
- Postagens em mídias
sociais
- E-mails
- Vídeos
Autorreflexão: Dados não estruturados
Visão geral
Agora que você aprendeu sobre os dados não estruturados, pode fazer uma pausa por um momento e aplicar o que está
aprendendo. Nesta autorreflexão, você completará tarefas com uma rede neural, considerará seus pensamentos sobre a
estruturação de dados e responderá a breves perguntas.
A autorreflexão ajudará você a desenvolver insights sobre o próprio aprendizado e a se preparar para aplicar o seu
conhecimento de estruturas de dados às suas interações com dados desestruturados. Ao concluir tarefas com um site de
rede neural, você explorará conceitos, práticas e princípios para ajudar a refinar sua compreensão e reforçar seu
aprendizado. Você fez o trabalho duro, então não deixe de aproveitá-lo ao máximo: Essa reflexão ajudará a fixar o seu
conhecimento!
Estruturação de dados com Quick, Draw!
Nesta autorreflexão, você explorará a natureza dos dados não estruturados por meio de um conjunto de dados de origem
coletiva.
Quick, Draw! é um conjunto de dados de rede neural que possui milhões de imagens desenhadas por pessoas separadas
em categorias como plantas, animais ou veículos. No site do Quick, Draw! você pode visualizar um grande conjunto de
dados de centenas de milhares de doodles reais feitos por pessoas na internet. Você também pode desenhar o seu. Por
meio desse processo, você pode treinar uma rede neural para reconhecer objetos e aprender mais sobre a importância
dos dados estruturados.
1. Visite o site do Quick, Draw!.
2. No canto superior esquerdo, você notará um menu suspenso como este:
Selecione um tipo de doodle para começar.
3. Clique em diferentes imagens para ver os detalhes sobre
as imagens em sua tela. Por exemplo, existem mais de cem
mil desenhos diferentes de elefantes. Percorra a lista e veja
se há algum que não pertence. Se você encontrar um que não
corresponda ao objeto pretendido, clique nele e selecione
Sinalizar como impróprio.
4. Explore outras categorias de desenhos. Selecione três
categorias de seu interesse e confira seus doodles.
5. Opcional: Explore mais. Clique em Obter os dados para visitar a página GitHub que contém todo o conjunto de dados.
Conforme você se familiariza com os projetos de dados e começa a criar o seu próprio, pode retornar a este conjunto de
https://quickdraw.withgoogle.com/data/cloud
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
dados e a analisá-lo você mesmo. Clique em Jogar para desenhar seus próprios doodles e contribuir com o conjunto de
dados do Quick, Draw!.
6. Quando terminar, responda às perguntas de reflexão abaixo.
Reflexão
Pergunta 1
Considere os doodles que você encontrou no Quick, Draw! Conjunto de dados:
● O que você nota ao explorar desenhos em diferentes categorias? Existem temas consistentes entre as imagens
em uma categoria?
● Se você não conhecesse os rótulos das categorias, como distinguiria as imagens umas das outras? O que você
procuraria?
Agora, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma dessas perguntas. Digite sua resposta na
caixa de texto abaixo.
A diversidade de formas como as pessoas veêm o mesmo objeto/animal.
Se não existisse a categorização teríamos que imaginar o seria cas desenho. Eu particularmente ia começar a procurar por
padrões entre eles.
Pergunta 2
Considere o que você sabe sobre dados estruturados e não estruturados e como eles se conectam no site do Quick,
Draw!:
● Como você descreveria os doodles do Quick, Draw! que você explorou do ponto de vista dos dados?
● Como esses doodles são diferentes ou semelhantes a outros tipos de dados que você encontrou anteriormente?
● O que sobre esses dados os tornam desestruturados?
Agora, escreva de duas a três frases (40 a 60 palavras) em resposta a cada uma dessas perguntas. Digite sua resposta na
caixa de texto abaixo.
Eu os descreveria como mistos, pois podem ser estruturados e ao mesmo tempo não estruturados.
Eles são diferentes na medida que apesar de serem únicos em cada desenho podem ser estruturados e classificados por
representarem o mesmo objeto.
Não existe um desenho igual ou outro, mesmo representado o mesmo objeto
VÍDEO - COMPREENDER DADOS ESTRUTURADOS - Olá, que bom ver você de novo! Anteriormente, comparamos alguns formatos
de dados, incluindo dados estruturados e não estruturados. A maioria dos dados gerados agora são, na verdade, não
estruturados. Arquivos de áudio, arquivos de vídeo, e-mails, fotos e mídias sociais são exemplos de dados não estruturados.
Isso pode ser mais difícil de analisar em seu formato não estruturado. Mas, aqui estão as boas notícias. Você trabalhará com dados
estruturados na maioria das vezes. Por exemplo, se você precisar analisar dados sobre os dados não estruturados em e-mails, fotos e
sites de mídia social, provavelmente eles serão estruturados para análise antes mesmo de você chegar a eles. Por isso, eu quero
explorar um pouco mais dados estruturados. Como uma rápida recapitulação, os dados estruturados são dados organizados em um
formato como linhas e colunas. Mas definitivamente há mais doque isso. Os dados estruturados funcionam bem em um modelo de
dados, que é um modelo usado para organização de elementos de dados e como eles se relacionam uns com os outros. O que
são elementos de dados? São informações, como nomes de pessoas, números de conta e endereços. Os modelos de dados
ajudam a manter os dados consistentes e fornecem um mapa de como os dados estão organizados. Para analistas e outras
partes interessadas, isso torna mais fácil darem sentido aos seus dados e usá-los para fins comerciais. Além de funcionar bem com os
modelos de dados, os dados estruturados também são úteis para bancos de dados. Isso torna mais fácil para os analistas inserir,
consultar e analisar os dados sempre que precisarem. Isso também ajuda a tornar a visualização de dados bem fácil, porque os dados
estruturados podem ser aplicados diretamente em tabelas, gráficos, mapas de calor, painéis e a maioria das outras representações
visuais de dados. Certo, agora sabemos que planilhas e bancos de dados que armazenam conjuntos de dados, são fontes de dados
estruturados amplamente usadas. Depois de explorar algumas outras estruturas de dados, você verificará mais tipos de dados usando
uma planilha. A aventura continua!
A estrutura de dados
Os dados estão em todos os lugares e podem ser armazenados de várias maneiras. Duas categorias gerais de dados são:
● Dados estruturados: organizado em um determinado formato, como linhas e colunas.
● Dados não estruturados: não organizados de forma fácil de identificar.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Por exemplo, ao avaliar seu restaurante favorito online, você está criando dados estruturados. Mas quando você usa o
Google Earth para verificar uma imagem de satélite da localização de um restaurante, está usando dados não
estruturados.
Aqui está uma atualização sobre as características de dados estruturados e não estruturados:
Dados Estruturados Dados Não Estruturados
Tipos de dados definidos Tipos de dados variados
Na maioria das vezes, dados quantitativos Na maioria das vezes, dados qualitativos
Fácil de organizar Difícil de pesquisar
Fácil de pesquisar Oferece mais liberdade para análise
Fácil de analisar Armazenado em data lakes, data warehouses e bancos de dadosNoSQL
Armazenado em bancos de dados relacionais e data
warehouses Não pode ser colocado em linhas e colunas
Contido em linhas e colunas
Exemplos: mensagens de texto, comentários de mídia social,
transcrições de chamadas telefônicas, vários arquivos de registro,
imagens, áudio, vídeo
Exemplos: Excel, Planilhas Google, SQL, dados do
cliente, registros telefônicos, histórico de transações
Dados estruturados
Conforme descrito anteriormente, os dados estruturados são organizados em um determinado formato. Isso torna mais
fácil armazenar e consultar as necessidades de negócios. Se os dados são exportados, a estrutura acompanha os dados.
Dados não estruturados
Os dados não estruturados não podem ser organizados de nenhuma maneira facilmente identificável. E há muito mais
dados não estruturados do que estruturados no mundo. Arquivos de vídeo e áudio, arquivos de texto, conteúdo de mídia
social, imagens de satélite, apresentações, arquivos PDF, respostas de pesquisas abertas e sites da Web são todos
qualificados como tipos de dados não estruturados.
A questão da justiça
A falta de estrutura torna os dados não estruturados difíceis de pesquisar, gerenciar e analisar. Porém os avanços recentes
em inteligência artificial e algoritmos de aprendizado de máquina estão começando a mudar isso. Agora, o novo desafio
que os cientistas de dados enfrentam é garantir que essas ferramentas sejam inclusivas e imparciais. Caso contrário,
certos elementos de um conjunto de dados serão mais ponderados e / ou representados do que outros. E, de acordo com o
que você está aprendendo, um conjunto de dados injusto não representa com precisão a população, causando resultados
distorcidos, baixos níveis de precisão e análises não confiáveis.
Níveis e técnicas de modelagem de dados
Esta leitura apresenta a modelagem de dados e diferentes tipos de modelos de dados. Os modelos de dados ajudam a
manter os dados consistentes e permitem às pessoas mapear como os dados são organizados. Um entendimento básico
torna mais fácil para analistas e outras partes interessadas entender seus dados e usá-los da maneira certa.
Nota importante: como analista de dados júnior, você não precisará projetar um modelo de dados. Mas você pode se
deparar com modelos de dados existentes que sua organização já possui.
O que é modelagem de dados?
A modelagem de dados é o processo de criação de diagramas que representam visualmente como os dados são
organizados e estruturados. Essas representações visuais são chamadas de modelos de dados. Você pode pensar na
modelagem de dados como a planta de uma casa. A qualquer momento, pode haver eletricistas, carpinteiros e
encanadores usando essa planta. Cada um desses construtores têm um relacionamento diferente com o projeto, mas
todos precisam entender a estrutura geral da casa. Os modelos de dados são semelhantes. Usuários diferentes podem ter
necessidades de dados diferentes, mas o modelo de dados fornece a eles uma compreensão da estrutura como um todo.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Níveis de modelagem de dados
Cada nível de modelagem de dados possui um nível diferente de detalhe.
Os três tipos mais comuns de modelagem de dados
1. A modelagem de dados conceituais oferece uma visão
de alto nível da estrutura de dados, por exemplo, como os dados
interagem em uma organização. Por exemplo, um modelo de dados
conceituais pode ser usado para definir os requisitos de negócios
para um novo banco de dados. Um modelo de dados conceituais não
contém detalhes técnicos.
2. A modelagem de dados lógicos concentra-se nos
detalhes técnicos de um banco de dados, como relacionamentos,
atributos e entidades. Por exemplo, um modelo de dados lógico
define como os registros individuais são identificados
exclusivamente em um banco de dados, mas não especifica os
nomes reais das tabelas do banco de dados. Esse é o trabalho de
um modelo de dados físico.
3. A modelagem de dados físicos descreve como um banco
de dados opera. Um modelo de dados físicos define todas as
entidades e atributos usados; por exemplo, inclui nomes de tabelas,
nomes de colunas e tipos de dados para o banco de dados.
Mais informações podem ser encontradas nesta comparação de modelos de dados.
Projeto de Modelo Conceitual Projeto de Modelo Lógico Projeto de Modelo Físico
Podemos ver que a complexidade aumenta de conceitual para lógico para físico. É por isso que sempre começamos primeiro com o
modelo de dados conceitual (para entendermos em alto nível quais são as diferentes entidades em nossos dados e como elas se
relacionam umas com as outras), depois passamos para o modelo de dados lógico (para entendermos os detalhes dos nossos dados
sem nos preocuparmos em como eles serão realmente implementados) e, finalmente, o modelo de dados físico (para sabermos
exatamente como implementar nosso modelo de dados no banco de dados escolhido). Em um projeto de armazenamento de dados, às
vezes, o modelo de dados conceitual e o modelo de dados lógicos são considerados como uma única entrega.
Técnicas de modelagem de dados
Existem muitas abordagens quando se trata de desenvolver modelos de dados, mas dois métodos comuns são o
Diagrama de Relacionamento de Entidade (ERD) e o Diagrama de Linguagem de Modelagem Unificada (UML). ERDs
são uma forma visual de compreender a relação entre entidades no modelo de dados. Os diagramas UML são diagramas
muito mais detalhados que descrevem a estrutura de um sistema, mostrando as entidades, atributos, operações e
relacionamentos do sistema. Como analista de dados júnior, você precisará entender que existem diferentes técnicas de
modelagem de dados, mas, na prática, você provavelmente usará a técnica existente em sua organização.
https://www.1keydata.com/datawarehousing/data-modeling-levels.html
Curso 3 - PREPARAROS DADOS PARA EXPORTAÇÃO
Você pode ler mais sobre ERD, UML e dicionários de dados neste artigo de técnicas de modelagem de dados.
1. Diagramas de Entidade Relacionamento
Também chamados de diagramas ER ou ERDs . A modelagem
Entidade-Relacionamento é uma técnica padrão para modelagem
e design de bancos de dados relacionais (tradicionais). Nesta
notação, o arquiteto identifica:
1. Entidades que representam objetos (ou tabelas em
banco de dados relacional),
2. Atributos de entidades, incluindo tipo de dados ,
3. Relacionamentos entre entidades/objetos (ou chaves
estrangeiras em um banco de dados).
Os ERDs funcionam bem se você deseja criar um banco de dados
relacional (clássico), bancos de dados do Excel ou arquivos CSV.
Basicamente, qualquer tipo de dados tabulares. Eles funcionam
bem para visualização de esquemas de banco de dados e
comunicação de visão de nível superior de dados.
ERD criado com Dataedo .
Se você deseja criar e compartilhar um diagrama ER para o banco
de dados existente, consulte este tutorial .
2. Diagramas de classes UML
UML (Unified Modeling Language) é uma família padronizada de notações para modelagem e projeto de sistemas de informação. Foi
derivado de várias notações existentes para fornecer um padrão para engenharia de software. É composto por vários diagramas
diferentes que representam diferentes aspectos do sistema, sendo um deles um diagrama de classes que pode ser usado para
modelagem de dados. Diagramas de classe são equivalentes a ERDs no mundo relacional e são usados principalmente para projetar
classes em linguagens de programação orientadas a objetos (como Java ou C#).
Nos diagramas de classe, os arquitetos definem:
1. Classes (equivalente a entidade no mundo relacional),
2. Atributos de uma classe (o mesmo que em um ERD),
incluindo tipo de dados ,
3. Métodos associados a uma classe específica,
representando seu comportamento (no mundo
relacional seriam stored procedures),
4. Relacionamentos agrupados em duas categorias:
○ Relacionamentos entre objetos (instâncias de
Classes) diferenciados em Dependência,
Associação, Agregação e Composição
(equivalentes aos relacionamentos em um ERD),
○ Relacionamentos entre classes de dois tipos
Generalização/Herança e Realização
/Implementação (isso não tem equivalente no
mundo relacional).
Você pode usar diagramas de classes para projetar dados
tabulares (como em RDBMS), mas foram projetados e são
usados principalmente para programas orientados a objetos
(como Java ou C#).
Diagrama de classe UML criado com Visual Paradigm .
3. Dicionário de dados
A última técnica que gostaria de compartilhar com você é um dicionário de dados. As técnicas mencionadas acima eram visuais e
baseadas em diagramas, e os dicionários de dados são uma definição/representação tabular de ativos de dados. O dicionário de
dados é um inventário de conjuntos de dados/tabelas com a lista de seus atributos/colunas.
Elementos principais do dicionário de dados:
1. Lista de conjuntos de dados/tabelas,
2. Lista de atributos/colunas de cada tabela com tipo de dados.
Elementos opcionais do dicionário de dados:
1. descrições de itens,
https://dataedo.com/blog/basic-data-modeling-techniques
https://dataedo.com/
https://dataedo.com/tutorials/create-database-diagram
https://www.visual-paradigm.com/
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
2. Relações entre tabelas/colunas,
3. Restrições adicionais, como exclusividade, valores padrão, restrições de valor ou colunas calculadas.
O dicionário de dados é adequado como especificação detalhada de ativos de dados e pode ser complementado com diagramas ER,
pois ambos servem a propósitos ligeiramente diferentes.
Análise de dados e modelagem de dados
A modelagem de dados pode ajudá-lo a explorar os detalhes de alto nível de seus dados e como eles estão relacionados
nos sistemas de informação da organização. A modelagem de dados às vezes requer análise de dados para entender
como os dados são reunidos, permitindo que você saiba como mapeá-los. E, finalmente, os modelos de dados tornam
mais fácil para todos em sua organização entender e colaborar com você em seus dados. Isso é importante para você e
todos em sua equipe!
Teste seus conhecimentos sobre formatos e estruturas de dados
Pergunta 1 - Preencha a lacuna: o tempo de execução de um filme é um exemplo de dado _________________ .
discreto
qualitativo
contínuo
nominal
Correto
Os tempos de execução dos filmes são um exemplo de dados contínuos, que são medidos e podem ter quase qualquer valor numérico.
Pergunta 2 - Quais são as características dos dados não estruturados? Selecione todas as opções aplicáveis.
Tem uma estrutura claramente identificável
Se encaixam perfeitamente em linhas e colunas
Não são organizados
Correto
Os dados não estruturados não são organizados, embora possam ter uma estrutura interna.
Podem ter uma estrutura interna
Correto
Os dados não estruturados não são organizados, embora possam ter uma estrutura interna.
Pergunta 3 - Os dados estruturados permitem que os dados sejam agrupados para formar relações. Isso torna mais fácil para os
analistas fazerem o que com os dados? Selecione todas as opções aplicáveis.
Pesquisar
Correto
Os dados estruturados agrupados para formar relações permitem que os analistas armazenem, pesquisem e analisem os dados com mais facilidade.
Analisar
Correto
Os dados estruturados agrupados para formar relações permitem que os analistas armazenem, pesquisem e analisem os dados com mais facilidade.
Armazenar
Reescrever
Você não selecionou todas as respostas corretas
Pergunta 4 - Qual das alternativas a seguir é um exemplo de dados não estruturados?
Contato salvo em um telefone
Localização de GPS
Mensagem de e-mail
Classificação de um restaurante favorito local
Correto
Um exemplo de dados não estruturados é uma mensagem de e-mail. Outros exemplos de dados não estruturados são arquivos de vídeo e conteúdo de mídia social.
EXPLORE TIPOS DE DADOS, CAMPOS E VALORES
VÍDEO - CONHEÇA OS TIPOS DE DADOS COM OS QUAIS VOCÊ ESTÁ TRABALHANDO - Até agora você aprendeu muito sobre
dados. Desde dados gerados a dados coletados, até formatos de dados, é bom saber tanto quanto você puder sobre os dados que
você usa para análise. Neste vídeo, vamos falar sobre outra forma que você pode descrever os dados: o tipo de dados. Um tipo de
dados é um tipo específico de atributo de dados que diz qual tipo de valor que os dados são. Em outras palavras, um tipo de
dados informa que tipo de dados você está trabalhando. Os tipos de dados podem ser diferentes dependendo da consulta de
idioma que você está usando. Por exemplo, o SQL permite diferentes tipos de dados dependendo em qual banco de dados você está
usando. Por enquanto, vamos nos concentrar nos tipos de dados que você usará nas planilhas. Para nos ajudar, usaremos uma
planilha que já está preenchida com dados. Vamos chamá-la de “Interesses Mundiais no Sweets por meio das pesquisas do Google”.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Agora, um tipo de dados em uma planilha pode ser uma das três coisas: um number (número), um text (texto) ou string, ou um
Boolean (Booleano). Você pode encontrar uma planilha de programas que os classificam um pouco diferente ou incluir outros tipos,
mas esses tipos cobrem praticamente todos os dados que você encontrará nas planilhas. Veremos tudo sobre eles daqui a pouco.
Olhando para as colunas B, D, e F, encontramos tipos de dados numéricos. Cada número representa o interesse de pesquisa para os
termos “cupcakes”, “ice cream (sorvete)” e “candy (doces)” durante uma semana específica. Quanto mais próximo um número estiver
de 100, mais popular o termo dessa pesquisa foi durante aquela semana. Cem representa o pico de popularidade. Tenha em mente
que, nesse caso, 100 é um valor relativo, e não o real número de pesquisas. Ele representa o número máximo de pesquisas durante
um certo tempo. Pense nisso como uma porcentagem em um teste. Todas as outras pesquisas também estão sendo avaliadas em 100.
Você pode notar isso em outros conjuntos de dadostambém. Estrela de ouro para 100! Se você precisasse, você poderia alterar os
números para porcentagens ou outros formatos, como moeda. Todos esses são exemplos de tipos de dados numéricos. Na coluna H,
os dados mostram o tratamento mais popular para cada semana, com base nos dados da pesquisa. Então, como encontraremos na
célula H4 para a semana que começa 28 de julho de 2019, a guloseima mais popular foi sorvete. Esse é um exemplo de um tipo de
dados text (de texto), ou um tipo de dados string, que é uma sequência de caracteres e pontuações que contêm informações
textuais. Neste exemplo, essas informações seriam as guloseimas e os nomes das pessoas. Eles também podem incluir números,
como números de telefone ou números nos endereços das ruas. Mas esses números não são usados para cálculos. Nesse caso, eles
são tratados como texto, não números. Nas colunas C, E, e G, parece que temos algum texto. Mas o texto aqui não é um tipo de dados
text (de texto) ou string. Em vez disso, é um Tipo de dados boolean (Booleanos). Um tipo de dados Booleano é um tipo de dados
com apenas dois valores possíveis: verdadeiro ou falso. As colunas C, E e G mostram dados booleanos para saber se o interesse
de pesquisa para cada semana é pelo menos 50 de 100. Aqui está a forma como ele funciona Para obter esses dados, criamos uma
fórmula que calcula se os dados de interesse da pesquisa nas colunas B, D e F são 50 ou maior. Na célula B4, o interesse da pesquisa
é 14. Na célula C4, encontramos a palavra false porque, para esta semana de dados, o interesse de pesquisa é inferior a 50. Para
cada célula nas colunas C, E, e G, os dois únicos possíveis os valores são true ou false (verdadeiros ou falsos). Poderíamos mudar a
fórmula para outras palavras aparecerem nessas células em vez disso, mas ainda são dados Booleanos. Você terá a chance de ler
mais sobre o tipo de dados Booleanos em breve. Vamos falar sobre um problema comum que as pessoas encontram em planilhas:
confundir os tipos de dados com valores de célula. Por exemplo, na célula B57, podemos criar uma fórmula para calcular dados em
outras células. Isso nos dará a média dos interesses de pesquisa em cupcakes em todos semanas no conjunto de dados, que é cerca
de 15. A fórmula funciona porque nós calculamos usando um tipo de dados numéricos. Mas se tentássemos com um tipo de dados de
texto ou string, como os dados na coluna C, obteríamos um erro. Valores de erro geralmente acontecem se um erro for feito ao
inserir os valores nas células. Quanto mais você conhece seus tipos de dados e quais usar, menos erros você encontrará. Aí está,
um tipo de dados para todos. Ainda não terminamos. A seguir, vamos nos aprofundar na relação entre tipos de dados, campos e
valores. Vejo você em breve.
Compreendendo a lógica Booleana
Nesta leitura, você explorará os fundamentos da lógica booleana e aprenderá como usar várias condições em uma
instrução Booleana. Essas condições são criadas com operadores Booleanos, incluindo AND, OR e NOT. Esses
operadores são semelhantes aos operadores matemáticos e podem ser usados para criar declarações lógicas que filtram
seus resultados. Os analistas de dados usam declarações Booleanas para fazer uma ampla gama de tarefas de análise de
dados, como criar consultas para pesquisas e verificar as condições ao escrever o código de programação.
Exemplo de lógica Booleana
Imagine que você está comprando sapatos e está considerando certas
preferências:
● Você vai comprar os sapatos apenas se eles forem rosa e cinza
● Você vai comprar os sapatos se eles forem totalmente rosa ou
cinza, ou se eles forem rosa e cinza
● Você vai comprar os sapatos se forem cinza, mas não se forem
rosa
Abaixo estão os diagramas de Venn que ilustram essas preferências. AND
(E) é o centro do diagrama de Venn, onde duas condições se sobrepõem.
OR (OU) inclui qualquer uma das condições. NOT (NÃO) inclui apenas a
parte do diagrama de Venn que não contém a exceção.
O operador AND (E)
Sua condição é “Se a cor do sapato tiver qualquer combinação de cinza e rosa, você os comprará”. A declaração Booleana
quebraria a lógica dessa declaração para filtrar seus resultados por ambas as cores. Ele diria “IF (SE) (Cor=“Cinza”) AND
(E) (Cor=“Rosa”) então compre-os”. O operador AND permite empilhar várias condições.
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Abaixo está uma tabela verdade simples que descreve a lógica booleana em ação nesta declaração. Na coluna Cor é
Cinza, existem dois pares de sapatos que atendem à condição de cor. E na coluna Cor é Rosa, há dois pares que
atendem a essa condição. Mas na coluna Se Cinza e Rosa, há apenas um par de sapatos que atende às duas condições.
Então, de acordo com a lógica Booleana do enunciado, há apenas um par marcado como verdadeiro. Em outras palavras,
existe um par de sapatos que você pode comprar.
Cor é Cinza Cor é Rosa Se Cinza E Rosa, então Compre Lógica Booleana
Cinza/Verdadeiro Rosa/Verdadeiro Verdadeiro/Compre Verdadeiro E Verdadeiro =Verdadeiro
Cinza/Verdadeiro Preto/Falso Falso/Não compre Verdadeiro E falso = Falso
Vermelho/Falso Rosa/Verdadeiro Falso/Não compre Falso E falso = Falso
Vermelho/Falso Verde/Falso Falso/Não compre Falso E falso = Falso
O operador OR
O operador OR permite que você siga em frente se uma das duas condições for atendida. Sua condição é “Se os sapatos
forem cinza ou rosa, você os comprará”. A declaração Booleana seria “IF (SE) (Cor=“Cinza”) OR (OU) (Cor=“Rosa”) e
compre-os”. Observe que qualquer sapato que atenda à condição Cor é Cinza ou Cor é Rosa é marcado como
verdadeiro pela lógica Booleana. De acordo com a tabela de verdade abaixo, existem três pares de sapatos que você pode
comprar.
Cor é Cinza Cor é Rosa If (Se) Cinza OR (OU) Rosa, entãoCompre Lógica Booleana
Vermelho/Falso Preto/Falso Falso/Não compre Falso OU Falso = Falso
Preto/Falso Rosa/Verdadeiro Verdadeiro/Compre Falso OU Verdadeiro =Verdadeiro
Cinza/Verdadeiro Verde / Falso Verdadeiro/Compre Verdadeiro OU Falso =Verdadeiro
Cinza/Verdadeiro Rosa/Verdadeiro Verdadeiro/Compre Verdadeiro OU Verdadeiro =Verdadeiro
O operador NOT
Finalmente, o operador NOT permite filtrar subtraindo condições específicas dos resultados. Sua condição é "Você
comprará qualquer sapato cinza, exceto aqueles com vestígios de rosa". Sua declaração booleana seria “IF (SE)
(Cor=“Cinza") AND (E) (Cor = NÃO “Rosa”) então compre-os”. Agora, todos os sapatos cinza que não são rosa são
marcados como verdadeiros pela lógica booleana para a condição NÃO Rosa. Os sapatos rosa são marcados como falsos
pela lógica Booleana para a condição NÃO Rosa Apenas um par de sapatos foi excluído da tabela de verdade abaixo.
Cor é Cinza Cor é Rosa Lógica Booleana
para NOT Pink
Se Cinza AND (E) (NÃO Rosa),
então Compre
Lógica Booleana
Cinza/Verdadeiro Vermelho/Falso Não Falso =
Verdadeiro
Verdadeiro/Compre Verdadeiro E
Verdadeiro =
Verdadeiro
Cinza/Verdadeiro Preto/Falso Não Falso =
Verdadeiro
Verdadeiro/Compre Verdadeiro E
Verdadeiro =
Verdadeiro
Cinza/Verdadeiro Verde / Falso Não Falso =
Verdadeiro
Verdadeiro/Compre Verdadeiro E
Verdadeiro =
Verdadeiro
Cinza/Verdadeiro Rosa/Verdadeiro Não Verdadeiro =
Falso
Falso/Não compre Verdadeiro E falso =
Falso
O poder de múltiplas condições
Para analistas de dados, o verdadeiro poder da lógica Booleana vem de ser capaz de combinar várias condições em uma
única instrução. Por exemplo, se você deseja filtrar sapatos cinza ou rosa e à prova d'água, pode construir uma declaração
Booleana como: “SE ((Cor = “Cinza”) OU (Cor = “Rosa”)) E (À prova d'água = “Verdadeiro”).” Observe que você pode
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
usar parênteses para agrupar suas condições juntas. Esteja você fazendo uma pesquisa por novos sapatos ou aplicando
essa lógica às suas consultas de banco de dados, a lógica booleana permite criar várias condições para filtrar seus
resultados. E agora que você sabe um pouco mais sobre como a lógica booleana é usada, você pode começar a usá-la!
Leitura adicional/recursos
● Saiba mais sobre quem foio pioneiro da lógica Booleana neste artigo histórico: Origens da Álgebra Booleana na
Lógica das Classes.
● Encontre mais informações sobre o uso de AND, OR e NOT nestas dicas para pesquisa com operadores
booleanos.
O que procurar
Os operadores booleanos formam a base dos conjuntos matemáticos e da lógica do banco de dados.
● Eles conectam suas palavras de pesquisa para restringir ou ampliar seu conjunto de resultados.
● Os três operadores booleanos básicos são: AND , OR e NOT .
Por que usar operadores booleanos?
● Para focar em uma pesquisa, especialmente quando seu tópico contém vários termos de pesquisa.
● Para conectar várias informações para encontrar exatamente o que você está procurando.
● Exemplo:
segunda criação (título) E wilmut e campbell (autor) E 2000 (ano)
Usando E
Use AND em uma pesquisa para:
● restrinja seus resultados
● diga ao banco de dados que TODOS os termos de pesquisa
devem estar presentes nos registros resultantes
● exemplo: clonagem AND humanos AND ética
O triângulo roxo no meio do diagrama de Venn abaixo representa o
conjunto de resultados para esta pesquisa. É um pequeno conjunto usando
AND, a combinação de todas as três palavras de pesquisa.
Esteja ciente: em muitos, mas não em todos os bancos de dados, o AND
está implícito.
● Por exemplo, o Google coloca automaticamente um AND entre
seus termos de pesquisa.
● Embora todos os seus termos de pesquisa estejam incluídos nos
resultados, eles podem não estar conectados da maneira que
você deseja.
● Por exemplo, esta pesquisa: ansiedade de teste de estudantes
universitários é traduzida para: faculdade AND alunos AND teste
AND ansiedade. As palavras podem aparecer individualmente ao
longo dos registros resultantes.
● Você pode pesquisar usando frases para tornar seus resultados
mais específicos.
● Por exemplo: "estudantes universitários" E "teste de ansiedade".
Dessa forma, as frases aparecem nos resultados como você espera que sejam.
Usando OU
Use OR em uma pesquisa para:
● conectar dois ou mais conceitos semelhantes (sinônimos)
● amplie seus resultados, informando ao banco de dados que QUALQUER um de seus
termos de pesquisa pode estar presente nos registros resultantes
● exemplo: clonagem OU genética OU reprodução
Todos os três círculos representam o conjunto de resultados para esta pesquisa. É um conjunto
grande porque qualquer uma dessas palavras é válida usando o operador OR.
https://www.maa.org/press/periodicals/convergence/origins-of-boolean-algebra-in-the-logic-of-classes-george-boole-john-venn-and-c-s-peirce
https://www.maa.org/press/periodicals/convergence/origins-of-boolean-algebra-in-the-logic-of-classes-george-boole-john-venn-and-c-s-peirce
https://libguides.mit.edu/c.php?g=175963&p=1158594
https://libguides.mit.edu/c.php?g=175963&p=1158594
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Usando NÃO
Use NOT em uma pesquisa para:
● Excluir palavras da sua pesquisa
● restrinja sua pesquisa, informando ao banco de dados para ignorar conceitos que possam estar implícitos em seus termos de
pesquisa
● exemplo: clonar NÃO ovelhas
Ordem de pesquisa
Os bancos de dados seguem os comandos que você digita e retornam resultados com base nesses comandos. Esteja ciente da ordem
lógica em que as palavras são conectadas ao usar operadores booleanos:
● Os bancos de dados geralmente reconhecem AND como o operador principal e conectam os conceitos com AND primeiro.
● Se você usar uma combinação de operadores AND e OR em uma pesquisa, coloque as palavras a serem "ORed" juntas
entre parênteses.
Exemplos:
● ética E (clonagem OU técnicas reprodutivas)
● (ética* OU moral*) E (bioengenharia OU clonagem)
VÍDEO - COMPONENTES DA TABELA DE DADOS - Aqui está um enigma para você. O que uma lista de reprodução de música, uma
agenda, e uma caixa de entrada de e-mail têm em comum? Vou dar uma dica. Não é uma jam session semanal. A resposta é que eles
são arranjados todos em tabelas. Vá em frente e confira sua caixa de entrada de e-mail ou uma lista de reprodução favorita ou veja a
agenda do seu calendário. Há tabelas em cada um! Uma tabela de dados ou dados tabulares tem uma estrutura muito simples.
Está organizado em linhas e colunas. Você pode chamar as linhas de “registros” e as colunas de “campos”. Eles basicamente
significam a mesma coisa, mas registros e campos podem ser usados para qualquer tipo de tabela de dados, enquanto as linhas e as
colunas geralmente são reservadas para as planilhas. Ao falar sobre bancos de dados estruturados, as pessoas na análise de dados
geralmente vão com “registros” e “campos”. Às vezes, um campo também pode referir-se a uma única peça de dados, como o valor em
uma célula. Em qualquer caso, você ouvirá as duas versões desses termos usado em todo este programa e em seu trabalho. Vamos
voltar ao nosso exemplo de lista de reprodução. Usaremos os novos termos que acabamos de apresentar. Então, cada música é uma
gravação. Cada registro tem os mesmos campos que os outros registros na mesma ordem. Em outras palavras, a lista de reprodução
tem as mesmas informações sobre cada música. Cada característica da música, como o título e o artista, é um campo. Cada campo
separado tem o mesmo tipo de dados, mas campos diferentes podem ter tipos diferentes. Vou mostrar o que quero dizer. Para a lista
de músicas, os títulos das músicas são um tipo de texto ou string, enquanto a duração da música pode ser um tipo de número se você
o estiver usando para cálculos. Ou pode ser um tipo de data e hora. A coluna para favoritos é Booleana já que tem dois valores
possíveis: favorito ou não favorito. Podemos ver as planilhas da mesma forma. Os registros em uma planilha podem seja sobre todos
os tipos de coisas: clientes, produtos, faturas, ou qualquer outra coisa. Cada registro tem vários campos, que revelam mais sobre os
produtos ou faturas do cliente. O valor em cada célula contém uma parte específica de dados, como o endereço de um cliente ou o
valor em dólares de uma fatura. Como analista de dados, muitos dados vêm em seu caminho, e registros, campos, e valores nas
tabelas de dados que irão ajudá-lo a navegar pela análise. Entender as estruturas das tabelas com quem você está trabalhando é uma
parte disso. E espero que, enquanto você está trabalhando duro em sua análise e nessas tabelas, você pode ter um pouco de diversão
com uma tabela de dados diferente: aquela com sua lista de reprodução favorita!
Atividade prática: Aplicando uma função
Visão geral da atividade
Nas lições anteriores, você se familiarizou com planilhas e estruturas de dados. Nesta atividade, você escreverá funções
em planilhas. Como lembrete, uma função é um comando pré-definido que executa automaticamente um processo ou
tarefa especificada usando os dados em uma planilha. Ao concluir esta atividade, você poderá aplicar a função SUM em
softwares de planilhas, como o Planilhas Google e o Microsoft Excel. Isso permitirá que você crie planilhas dinâmicas, que
são importantes para organizar e entender os dados em sua carreira como analista de dados.
O que você vai precisar
Para começar, primeiro acesse a planilha de exemplo de alguém acompanhando suas despesas de entretenimento.
Para usar o glossário deste item do curso, clique no link abaixo e selecione “Usar modelo”.
Link para o exemplo de planilha: Despesas de Entretenimento
https://docs.google.com/spreadsheets/d/1IJbiEEA2XIhkPctssmblodZkPWLzUgxzmjh0s1P6pv8/template/preview
Curso 3 - PREPARAR OS DADOS PARA EXPORTAÇÃO
Aplique a função SUM
Primeiro, abra a planilha de exemplo. Você encontrará a tabela abaixo que contém dados sobre as despesas mensais de
entretenimento para janeiro e fevereiro:
Agora, trabalhando na planilha de exemplo, você escreverá funções nas
células para realizar determinadas tarefas. Seu primeiro objetivo é preencher
as células B7 e C7. Cada uma dessas células deve ser a soma dos números
nas células acima dela. Por exemplo, B7 deve ser a soma total dos números
nas células B2 a B6. Para alcançar esse resultado:
1. Clique na célula B7. A célula deve ter sua borda

Outros materiais