TESTE DE CONHECIMENTO TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

11

0

11

0

Allan Barbieri Rauchstadt

26/02/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.903 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

26/02/2022 10:20 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/4
Teste de
Conhecimento
avalie sua aprendizagem
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de
Big Data.
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações
bancárias.
TÓPICOS DE BIG DATA EM PYTHON
Lupa Calc.

EEX0174_202102503371_TEMAS

Aluno: ALLAN BARBIERI RAUCHSTADT Matr.: 202102503371
Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX

Prezado (a) Aluno(a),

Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua
avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se
familiarizar com este modelo de questões que será usado na sua AV e AVS.

1.
Zetabytes
Terabytes
Exabytes
Petabytes
Gigabytes
Data Resp.: 26/02/2022 10:18:24

Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data.
As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.

2.
dados de Internet das Coisas
dados semiestruturados
dados estruturados
dados de Big Data
dados não estruturados
Data Resp.: 26/02/2022 10:18:40

Explicação:
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que
são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de
dados não convencionais que não são armazenados em bancos de dados tradicionais.

javascript:voltar();
javascript:voltar();
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();
26/02/2022 10:20 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/4
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional
de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop.
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione
a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina.
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do
componente que pode ser tratado com o Spark SQL.

3.
Mrjob
Task manager
MapReduce
HDFS
Camada de ingestão
Data Resp.: 26/02/2022 10:18:50

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de
tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o
Hadoop, não possuem a funcionalidade de rastreamento de tarefas.

4.
A estrutura de desenvolvimento no Hadoop é sequencial.
Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.
O Hadoop não funciona com pequenos volumes de dados.
O Hadoop tem apenas uma única distribuição.
O Hadoop utiliza o HDFS para armazenar dados.
Data Resp.: 26/02/2022 10:18:59

Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File
System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos
sistemas gerenciadores de bancos de dados relacionais (RDBMS).

5.
RDDs
MLlib
GraphX Learning
Spark Learning
MLSpark
Data Resp.: 26/02/2022 10:19:09

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos
estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big
data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs
são componentes para conjunto de dados resilientes.

6.
RDD
DAG
26/02/2022 10:20 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/4
A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que
faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto?
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Executor
Tasks
Work Node
Data Resp.: 26/02/2022 10:19:18

Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para
manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável
pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam
as tarefas que são as Tasks, ou seja, subdivisões do processo.

7.
shuffle
iloc
loc
reset_index
sum
Data Resp.: 26/02/2022 10:18:12

Explicação:
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação
de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à
projeção do DataFrame.

8.
Apenas a opção III está correta.
Apenas as opções I e III estão corretas.
Apenas a opção II está correta.
Apenas as opções II e III estão corretas.
Apenas a opção I está correta.
Data Resp.: 26/02/2022 10:19:31

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas
dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma
boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção
sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos
falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a
entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.

26/02/2022 10:20 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/4
Quais os métodos de aprendizado de máquina que existem?
Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina?

9.
Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
Data Resp.: 26/02/2022 10:19:42

Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a
partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair
padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente;
e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.

10.
Melhorar a capacidade de processamento de dados do sistema.
Viabilizara computação paralela.
Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados.
Incrementar o uso da memória de longa duração do sistema.
Fazer com que computadores acessem a internet mais rápido.
Data Resp.: 26/02/2022 10:19:48

Explicação:
A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptar a novas
situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos
similares.

Não Respondida Não Gravada Gravada

Exercício inciado em 26/02/2022 10:14:00.