Revisão Introdução à Ciência de Dados

•

FGV

51

2

51

2

Luiz Fernando Pereira

07.07.2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.436 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Questão 01.
O que significa tomada de decisão baseada em dados (DDD)?
A Tomada de decisão baseada em dados é uma abordagem à gestão de negócios que valoriza as decisões que podem ser tomadas apenas com dados verificáveis e confiáveis, em vez de tomar decisões intuitivas ou baseadas apenas na observação, dando suporte à vantagem competitiva.
Questão 02.
Quais são os dois tipos de decisões mencionados na leitura da seção Data science, engineering, and data-driven decision making?
Os dois tipos de decisões mencionados são as decisões baseadas em descobertas, como o caso dos modelos de previsão do Walmart, e as decisões que repetem certos resultados em grande escala, como o caso da MegaTelCo, cujo objetivo é aplicar certos incentivos a um cliente, ver se é possível mantê-lo fidelizado à empresa e, caso o resultado seja positivo, repetir o processo para outros clientes.
Questão 03.
Ainda sobre a seção Data science, engineering, and data-driven decision making, no exemplo mencionado sobre o WalMart e a Target, que problema ético eles veem nas suas ações?
A Target tinha dados sobre os hábitos de compra dos clientes, mas não achava que as suas práticas pudessem afetar as pessoas. No entanto, uma garota não contou aos seus pais que estava grávida, mas o WalMart a expôs, revelando o seu segredo.
Questão 04.
Na seção Data science, engineering, and data-driven decision making, os autores afirmam que, atualmente, estamos vendo uma revolução de propagandas e anúncios. Por que esse fenômeno está ocorrendo?
Em grande parte, esse fenômeno ocorre devido ao imenso aumento no tempo que os consumidores gastam on-line e à capacidade de tomar decisões de publicidade em frações de segundo.
Questão 05.
Uma das linguagens de programação amplamente utilizadas na ciência de dados é o Python, e alguns dos seus módulos são muito úteis, como Pandas, Scikit-learn e Numpy. Pesquise sobre cada um deles na internet e descreva-os brevemente.
· Pandas: usado para manipulação e análise de dados – em particular, fornece estruturas e operações para manipular tabelas numéricas e séries temporais;
· Scikit-learn: biblioteca que contém muitos algoritmos de aprendizado de máquina – existem algoritmos para classificação, regressão, agrupamento, etc. e
· Numpy: uma das bibliotecas básicas de Python que nos permite manipular matrizes multidimensionais e também possui um grande número de operações matemáticas que nelas operam.
Questão 06.
A Ciência de Dados está na interseção de três áreas. Qual(is) delas nos permite(m) movimentar entre diferentes domínios?
Tanto a Matemática quanto a Computação nos permitem transitar em diferentes domínios, uma vez que as técnicas e os métodos apreendidos em cada uma dessas áreas são aplicáveis a diversas outras. O mesmo não acontece com a Biologia, por exemplo.
Questão 07.
Um modelo de dados é uma relação organizada e formal de dados que geralmente finge simular um fenômeno do mundo real. No exemplo spawer-recruit models, descrito na leitura obrigatória (Ozdemir 2016), quais são os elementos ou as variáveis dos dados que estão sendo relacionados?
O modelo mede a saúde biológica da espécie. É uma relação básica entre o número de unidades parentais saudáveis de uma espécie e o número de novas unidades no grupo de animais. Formalmente, são as variáveis recruits e spawners, encontradas por meio da equação a seguir:
recruits = 0,5 * spawner + 60
Questão 08.
Em muitos casos, não é possível ter um cientista de dados com todas as habilidades desejáveis da área. Se você fosse o dono de uma empresa com esse problema, o que faria?
Esse problema é muito frequente, pois dominar todo conhecimento necessário ou exigido é difícil. Por esse motivo, geralmente, são formados grupos de Ciência de Dados, nos quais cada pessoa tem uma habilidade diferente. Nesse caso, no entanto, é muito importante que todos saibam trabalhar em grupo. Podemos ter os melhores colaboradores, mas nada funcionará se eles não se comunicarem.
Questão 09.
Ter todos os dados seria o ideal, mas isso nunca é possível. Que alternativa nós temos?
Como é impossível ter todos os dados, devemos obter dados com a melhor qualidade possível.
Questão 10.
No texto, vimos que fazer uma pergunta muito ampla é um problema muito comum. Analise a pergunta a seguir e informe que modificações você faria para torná-la mais precisa.
Por que as nossas vendas caíram?
· A mudança na nossa campanha de marketing fez as vendas caírem?
· Qual é a porcentagem de redução nas vendas devido à empresa X?
Questão11.
De acordo com o autor, por que fazer a pergunta certa é a parte mais difícil da Ciência de Dados?
Ao contrário de outras áreas, como a Matemática, que é uma ciência madura, fazer perguntas na Ciência de Dados é algo novo, e não há uma receita específica que ensine como fazer isso. Além disso, elaborar uma pergunta é o primeiro passo de qualquer projeto em Ciência de Dados. Sendo assim, não elaborar a pergunta corretamente gerará problemas futuros.
Questão 12.
De acordo com o primeiro estudo de caso automating government paper pushing (Ozdemir, 2016, p. 16), o computador só conseguiu processar 20% das reclamações. Mencione duas razões pelas quais o computador pode ter falhado nos outros 80%.?
· o formulário pode ter mudado de formato;
· o formulário pode ter sido escrito a mão, levando a uma leitura pouco legível;
· no momento da digitalização, a imagem pode ter sido importada com erros de iluminação ou
· a imagem do formulário pode ter ficado muito pequena, não podendo ser lida em detalhes.
Questão 13.
No segundo estudo de caso marketing dollars, qual dos três meios de comunicação parece ter um comportamento linear melhor e pior?
Segundo o autor, o meio publicitário que melhor se adequaria ao modelo linear seria a TV. De acordo com o gráfico de dispersão do estudo de caso, o meio que pior se adequaria ao modelo linear seria o jornal, já que apresenta um grau de dispersão muito maior que o dos outros dois. Poderíamos aplicar alguma medida para justificar essa resposta, mas, visualmente, ela já é válida para essa questão.
Questão 14.
O código descrito no terceiro estudo de caso, que está em uma descrição de trabalho, usa uma classe em Python chamada CountVectorizer. Pesquise sobre essa função na internet e descreva-a brevemente.?
Essa função converte uma coleção de documentos em uma matriz cujas linhas são documentos, cujas colunas são tokens dos documentos e cujos valores referem-se ao número de tokens por documento.
Questão 15.
Liste, no mínimo, quatro fatores que podem levar a falhas em um projeto de Ciência de Dados.
Alguns fatores que podem levar a falhas em um projeto de Ciência de Dados são: foco, dados, pessoas, modelos, integração com o negócio, gerentes que não acreditam no projeto e falta de interação no processo.
Um cientista de dados deve estar sempre atento, em especial, às perguntas básicas que precisa aprender a fazer. Começar com as perguntas erradas é jogar boa possibilidade de ter tudo a perder.
Questão 16.
Algumas vezes, os dados são mencionados como fatores que podem afetar o sucesso de um projeto. Por que razões os nossos dados podem ser de baixa qualidade?
Existem muitas razões, mas as mais importantes são o fato de o aplicativo de captura de dados ter sido mal projetado e a possibilidade de as pessoas responsáveis por verificar a sua qualidade não serem bem treinadas.
Questão 17.
Indique que tipos de pessoa podem, normalmente, fazer parte de uma equipe de Ciência de Dados, marcando V para as que podem e F para as que não podem.
tipos de pessoas
V
F
gerente de projetos

analista de negócios

gerente de marketing

pessoas que integram dados

O gerente de marketing não se encaixa nos perfis requeridos. A sua atuação é importante em uma empresa, mas não na equipe de Ciência de Dados – a menos que ele seja um especialista em domínio, no caso de um problema relacionado ao marketing.
Questão 18.
Uma das técnicas que está sendo usada com ênfase suficiente nos últimos cinco a oito anos, especificamente no contexto da aprendizagemprofunda, envolve o conceito de redes neurais. Um cientista de dados deve, portanto, dominar esse conceito. Pesquise na internet e explique, brevemente, o que é uma rede neural.?
Uma rede neural é um modelo computacional baseado em um grande conjunto de unidades neuronais simples (neurônios artificiais) cujo comportamento se aproxima ao observado nos axônios de neurônios de cérebros biológicos. A informação de entrada atravessa a rede neural, produzindo valores de saída.
Questão 19.
Descreva duas tarefas que os computadores fazem melhor que os humanos.?
Existem muitas, como realizar cálculos numéricos, lembrar certos fatos sem erro ou dificuldade, repetir as operações sem ficar cansado ou entediado e jogar certos jogos.