TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

8

0

8

0

FABIO JUNIOR DE LIMA

12/03/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.972 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

12/03/2022 11:40 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/4
Teste de
Conhecimento
avalie sua aprendizagem
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de
Big Data.
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações
bancárias.
TÓPICOS DE BIG DATA EM PYTHON
Lupa Calc.

EEX0174_202001058737_TEMAS

Aluno: FABIO JUNIOR DE LIMA Matr.: 202001058737
Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX

Prezado (a) Aluno(a),

Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua
avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se
familiarizar com este modelo de questões que será usado na sua AV e AVS.

1.
Terabytes
Petabytes
Gigabytes
Zetabytes
Exabytes
Data Resp.: 12/03/2022 11:35:22

Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data.
As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.

2.
dados semiestruturados
dados não estruturados
dados de Big Data
dados estruturados
dados de Internet das Coisas
Data Resp.: 12/03/2022 11:35:41

Explicação:
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que
são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de
dados não convencionais que não são armazenados em bancos de dados tradicionais.

javascript:voltar();
javascript:voltar();
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();
12/03/2022 11:40 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/4
Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker.
Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares
intermediários de valor e chave.
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione
a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina.
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do
componente que pode ser tratado com o Spark SQL.

3.
MapReduce
Job Tracker Slave
MapJob
Task Tracker
MapTracker
Data Resp.: 12/03/2022 11:36:09

Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua
vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento.

4.
Gravação da saída
Combinação
Redução
Agrupamento
Embaralhamento
Data Resp.: 12/03/2022 11:36:35

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo
MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o
que é realizado em paralelo com outras tarefas da fase de mapeamento.

5.
Spark Learning
GraphX Learning
MLlib
RDDs
MLSpark
Data Resp.: 12/03/2022 11:37:04

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos
estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big
data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs
são componentes para conjunto de dados resilientes.

6.
Tasks
Work Node
Executor
12/03/2022 11:40 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/4
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços
condicionais e instruções de repetição.
for i in range(10):
if (i%2==0):
print(i)
Qual a saída esperada após a execução do programa?
RDD
DAG

7.
Apenas as opções I e III estão corretas.
Apenas a opção III está correta.
Apenas as opções II e III estão corretas.
Apenas a opção I está correta.
Apenas a opção II está correta.
Data Resp.: 12/03/2022 11:38:19

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas
dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma
boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção
sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos
falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a
entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.

8.
Serão impressos no console os números ímpares entre 0 e 9.
Serão impressos no console os números pares entre 0 e 9.
Serão impressos no console os números racionais entre 0 e 9.
Serão impressos no console os números pares entre 1 e 10.
Serão impressos no console os números ímpares entre 0 e 10.
Data Resp.: 12/03/2022 11:39:12

Explicação:
O constructo de laço que itera sobre uma sequência dos números reais de 0 a 9, e cujo condicional dentro do laço
escolhe apenas os números cujo resto de sua divisão por 2 seja 0, condição lógica que define se um número é par
ou não.

12/03/2022 11:40 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/4
Quais os métodos de aprendizado de máquina que existem?
Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a relação entre
trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo principalmente de modelos de redes
neurais recorrentes. Com qual tipo de IA Alfredo está lidando?
9.
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Data Resp.: 12/03/2022 11:39:50

Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a
partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair
padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente;
e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.

10.
IA Quântica
IA Pura
IA SubSimbólica
IA Biológica
IA Simbólica
Data Resp.: 12/03/2022 11:40:33

Explicação:
As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos dados a partir de
inferências estatísticas sem requerer regras pré-definidas,sendo essa a sua maior diferença dos modelos
simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores predições por exatidão.

Não Respondida Não Gravada Gravada

Exercício inciado em 12/03/2022 11:35:13.