Buscar

GABARITO Curso gratuito FGV INTRODUÇÃO À CIÊNCIA DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

GABARITO Curso gratuito FGV INTRODUÇÃO À CIÊNCIA DE DADOS 
 
 
Qual é a diferença entre ​Big Data​ e ​Data Science? 
Big Data está mais relacionado à tecnologia. Ele fornece um ambiente computacional não 
apenas para análise como também para outros tipos de tarefas de processamento. A Ciência 
de Dados, por sua vez, está mais relacionada à criação de modelos capazes de extrair 
padrões de dados complexos e o seu uso em problemas da vida real. 
 
Qual é a definição de ​Small Data​? Cite um exemplo. 
É um conjunto de dados cujos volume e formato permitem que o seu processamento e análise 
sejam realizados por uma pessoa ou uma pequena organização. Por exemplo, todos nós 
geramos pequenos dados por meio do uso dos nossos telefones celulares, e esses dados são 
armazenados localmente no dispositivo. No entanto, quando esses dados são enviados aos 
servidores para serem processados, eles se tornam Big Data. 
O Small Data se refere a uma pequena quantidade de dados apreendida por 
ferramentas de análises. Esse pequeno conjunto de informações é capaz de ajudar 
pessoas na tomada de decisões. Ambos os conceitos são importante para as 
empresas que possuem uma cultura de gestão de dados. 
o Small Data atua focado naquelas informações que respondem a perguntas 
específicas e contextos singulares e explora detalhes por meio de uma mineração 
muito estreita. 
 
Nesta unidade, falamos sobre dados tabulares, que são representados como tabelas, e também 
mencionamos alguns dados que não podem ser apresentados dessa forma. Um deles é o 
documento de texto. No entanto, após o processamento, um texto pode ser representado como 
um vetor de características. 
Pesquise brevemente na internet algumas técnicas que permitem a realização dessa tarefa. 
 
Existem muitas técnicas para realizar essa tarefa. Algumas delas são: 
 
Word2vec; 
 
TF-IDF e 
 
Bag-of-Words. 
 
Tabular é organizar. A tabulação de dados, então, é a transformação de todas as 
informações coletadas em material que possa ser analisado para, assim, ter 
potencial de se tornar um suporte importante nas tomadas de decisão. 
 
Esse processo envolve quatro passos: 
 
pesquisa de campo com base em uma técnica; 
organização dos dados coletados para serem tabulados; 
elaboração de relatórios; 
análise dos relatórios. 
O procedimento usado na tabulação é o que vai garantir a qualidade dos dados e 
evitar a necessidade de reestruturações quando chegar o momento de fazer a 
análise dessas informações. Por isso, é essencial fazê-lo de forma organizada. 
 
COMO FAZER A TABULAÇÃO DE DADOS? 
O primeiro passo é escolher o software a ser utilizado.Tabular é organizar. A 
tabulação de dados, então, é a transformação de todas as informações coletadas 
em material que possa ser analisado para, assim, ter potencial de se tornar um 
suporte importante nas tomadas de decisão. 
 
Esse processo envolve quatro passos: 
 
pesquisa de campo com base em uma técnica; 
organização dos dados coletados para serem tabulados; 
elaboração de relatórios; 
análise dos relatórios. 
O procedimento usado na tabulação é o que vai garantir a qualidade dos dados e 
evitar a necessidade de reestruturações quando chegar o momento de fazer a 
análise dessas informações. Por isso, é essencial fazê-lo de forma organizada. 
 
COMO FAZER A TABULAÇÃO DE DADOS? 
O primeiro passo é escolher o software a ser utilizado. 
 
Rich Morin​ descreve um problema existente em estudos com grandes amostras. Explique que 
problema é esse. 
Esses estudos podem produzir resultados estatisticamente significativos que, ao mesmo 
tempo, são essencialmente triviais. 
 
Rich Morin afirma que esses estudos podem produzir resultados estatisticamente 
significativos que, ao mesmo tempo, são essencialmente triviais. 
Explicação: 
Quanto maior o tamanho da amostra, menores serão as diferenças para serem 
estatisticamente significativas, ou seja, é altamente provável que sejam 
verdadeiramente diferentes umas das outras. 
 
Inicialmente, o ​Big Data​ foi definido pelos três Vs: velocidade, volume e variedade. No 
entanto, com o passar dos anos, outros Vs foram atribuídos a essa área do conhecimento. Cite 
alguns deles e descreva-os brevemente. 
 Os Vs mais comuns são: 
http://nc-www5.fgv.br/cursosgratuitos/cg/OCWICDEAD/base_rede/pag/1545_unidade-1-a-revolucao-dos-dados.html#
● veracidade (​veracity​) – refere-se à confiabilidade dos dados e 
● valor (​value​) – refere-se ao fato de os dados terem valor ou não dentro do nosso 
projeto ou negócio. Armazenar dados é importante, mas esses dados podem ter pouca 
utilidade se deles não puder ser extraído conhecimento. 
- Volume, velocidade, variedade, veracidade e valor 
Explicação: 
- Volume: é uma grande quantidade de dados gerada a cada segundo, 
- Velocidade: Se refere à velocidade com que os dados são criado. 
- Variedade: Com o Big Data, mensagens, fotos, vídeos e sons, que são dados 
não-estruturados, podem ser administrados juntamente com dados tradicionais. 
- Veracidade: Com o Big Data não é possível controlar cada hashtag do Twitter ou 
notícia falsa na internet, mas com análises e estatísticas de grandes volumes de dados é 
possível compensar as informações incorretas 
- Valor: O último V é o que torna Big Data relevante: tudo bem ter acesso a uma 
quantidade massiva de informação a cada segundo, mas isso não adianta nada se não 
puder gerar valor. 
 
A alternativa correta é a letra D) da programação orientada a objetos à 
mineração dos dados. 
O ​KDD ​é descrito como um método em que há extração de informações 
de uma base de dados, sem conhecimento prévio mas com grande 
potencial de utilizada, sendo extraídos de um banco de dados. 
 
7)​ A alternativa correta é a letra​ D) obter um supercomputador que 
permita trabalhar com big data. 
Não necessariamente é adotado a técnica Big Data, apesar de ser uma 
técnica que permite descrever um volume imenso de dados, com 
velocidade e variedade. 
8) A alternativa correta é a letra A)I, II e III​. 
Os dados brutos (raw data) são valores que não foram tratados no primeiro 
momento, foram apenas inseridos adquiridos, extraídos, sem nenhuma 
interferência. 
9)​ A alternativa correta é a letra ​D) é robusta, possibilitando a 
localização de outliers e atributos irrelevantes​. 
10​) A alternativa correta é a letra ​B) transformar os valores de um 
atributo para facilitar a identificação de outliers. 
Qual o principal objetivo da Ciência de Dados? 
O principal objetivo é a extração de conhecimento, aplicando-o posteriormente em situações 
reais. 
 
 
diferença entre dados estruturados e não estruturados? 
Observe na Figura 2 uma ​diferença​ visual para reforçar os conceitos explicados. Os 
dados estruturados​ são organizados ​em​ um padrão fixo e constante, seguem uma 
estrutura mais rígida. Os ​dados não​-​estruturados​, como o próprio nome já diz, 
não​ possuem estrutura ​de​ organização, sendo totalmente desestruturados. 
1) Dados Estruturados 
São os dados que estão armazenados dentro de uma estruturada que podemos entender “a 
olho nu”, pois estão armazenados de forma organizada. Esta organização é geralmente feita por 
colunas e linhas (parecidos com as planilhas do Excel), mas pode variar de acordo com a fonte 
de dados. Alguns exemplos de dados estruturados: 
● Planilhas eletrônicas (Excel) 
● Bancos de dados 
● Arquivos XML 
● Arquivos CSV 
2) Dados Não Estruturados 
Quando não conseguimos identificar uma organização clara dos dados lá armazenados, 
concluímos que esta é um dado não estruturado. Como identificar as todas as palavras de um 
documento texto (bloco de notas, Word, e-mails, entre outros) e relacioná-las a um contexto? 
Como tirar insights de uma imagem e enquadrá-la em um cenário? É praticamente impossível, 
não é? Quando nos deparamos com esta situação desorganizada, estamos lidando dados não 
estruturados. 
Abaixo alguns exemplos: 
● Arquivos de texto​: documentos words, apresentações (PowerPoint), e-mail, logs, 
anotações. 
● Dados de Redes Sociais​: posts, likes dofacebook, tweets do twitter, posts do linkedIn. 
● Website​: vídeos do YouTube, imagens do instagram, … 
● Dados móveis​: mensagens de texto (SMS), dados sobre geolocalização. 
● Comunicações​: conversas de Chat, gravações telefônicas, … 
● Mídia​: arquivos de MP3, fotos digitais, arquivos de áudio e vídeo. 
z-value tem como objetivo? ​transformar os valores de um atributo para facilitar a 
identificação de outliers. 
 
Segundo (Gorrie, 2016), o objetivo do Z-score é remover os efeitos da localização e 
escala do dado, permitindo a comparação direta entre diferentes bases de dados. 
Como os dados são centralizados e re-escalados, qualquer ponto que está muito 
distante do zero pode ser considerado um outlier. 
 
QUESTÃO 1 
Suponha que um cientista de dados que atua no departamento de tecnologia da informação de 
determinada empresa precise trabalhar, diretamente, com um profissional da área comercial. No 
entanto, eles falam idiomas diferentes. 
A ​soft-skill​ a ser utilizada nesse caso envolve: 
flexibilidade de comunicação. 
Todas são ​soft-skills​ necessárias a um cientista de dados, mas a flexibilidade de comunicação é a 
mais apropriada nesse caso, uma vez que permite entender e saber usar as palavras certas com 
cada tipo de trabalhador. Em alguns casos, é necessário usar tanto palavras técnicas (área de TI) 
quanto não técnicas (área de negócios). 
QUESTÃO 2 
Existe uma tarefa na Ciência de Dados à qual dedicamos grande parte do nosso tempo (de 
acordo com a leitura, quase 90%). Que tarefa é essa? 
 
Quase 90% do nosso tempo é gasto na atividade de limpeza, formatação e colocação dos nossos 
dados de maneira adequada para os nossos algoritmos de aprendizado de máquina. 
QUESTÃO 3 
Em várias partes das leituras, abordamos os conceitos de correlação e causalidade. Explique, 
brevemente, a diferença entre esses conceitos. 
Correlação é uma medida estatística, expressa com um número, que descreve o tamanho e a 
direção de um relacionamento entre duas ou mais variáveis. Já a causalidade indica que um evento 
é o resultado da ocorrência de outro evento – isto é, existe uma relação causal entre os dois 
eventos. O exemplo clássico de causalidade ​versus​ correlação frequentemente usado é que o 
tabagismo está relacionado ao alcoolismo, mas não causa alcoolismo, enquanto fumar provoca um 
aumento no risco de desenvolver câncer de pulmão.

Continue navegando