Tópicos de Big data em Python - Simulado AV2

Big Data

•

ESTÁCIO

0

Fabricio Costa

29/08/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.972 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

8/24/23, 10:23 PM Estácio: Alunos
https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado.asp?cod_hist_prova=314920019&cod_prova=6583871228&f_cod_disc= 1/5

Meus
Simulados
Teste seu conhecimento acumulado
Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): FABRÍCIO MATHEUS DA COSTA 202105177759
Acertos: 8,0 de 10,0 24/08/2023
Acerto: 1,0 / 1,0
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
É um protocolo de internet das coisas
É um ecossistema que envolve software e hardware
É um programa
É uma placa de hardware
É o outro nome para Raspberry PI
Respondido em 24/08/2023 22:16:48
Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um
programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que
Arduino, pois se trata de uma outra tecnologia para internet das coisas.
Acerto: 1,0 / 1,0
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações
bancárias.
dados não estruturados
dados de Big Data
dados estruturados
dados de Internet das Coisas
dados semiestruturados
Respondido em 24/08/2023 22:17:04
Explicação:
Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
8/24/23, 10:23 PM Estácio: Alunos
https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado.asp?cod_hist_prova=314920019&cod_prova=6583871228&f_cod_disc= 2/5
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que são típicos
de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de dados não
convencionais que não são armazenados em bancos de dados tradicionais.
Acerto: 1,0 / 1,0
O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que
contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop.
Python
Java Script
Java
Lua
Perl
Respondido em 24/08/2023 22:17:27
Explicação:
O Hadoop foi desenvolvido usando, originalmente, a linguagem de programação Java na distribuição livre da Apache
Foundation. Atualmente, diferentes distribuições do framework estão implementadas em diversas linguagens, entre as
quais o Python.
Acerto: 1,0 / 1,0
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
MapReduce
Camada de ingestão
Task manager
HDFS
Mrjob
Respondido em 24/08/2023 22:17:35
Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas
(Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem
a funcionalidade de rastreamento de tarefas.
Acerto: 1,0 / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do
Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do
PySpark.
Python e Escala
Questão3
a
Questão4
a
Questão5
a
8/24/23, 10:23 PM Estácio: Alunos
https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado.asp?cod_hist_prova=314920019&cod_prova=6583871228&f_cod_disc= 3/5
Java e Python
Hadoop e Spark
Casandra e Spark
Java e R
Respondido em 24/08/2023 22:17:53
Explicação:
Gabarito: Java e Python
Justi�cativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e con�guração do Java,
Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do
Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
Acerto: 1,0 / 1,0
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark,
por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
Foi substituída no Spark por acesso direto à memória
Consiste em uma técnica de programação sequencial
É uma técnica de computação distribuída
Só pode ser aplicada para grandes volumes de dados
É uma técnica lenta para processamento de grandes volumes de dados
Respondido em 24/08/2023 22:18:44
Explicação:
Gabarito: É uma técnica de computação distribuída
Justi�cativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito
e�ciente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela
também pode ser utilizada para menores volumes, mas não é apropriada para esses casos.
Acerto: 0,0 / 1,0
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
Questão6
a
Questão7
a
8/24/23, 10:23 PM Estácio: Alunos
https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado.asp?cod_hist_prova=314920019&cod_prova=6583871228&f_cod_disc= 4/5
II ¿ O código não executará, pois Filipe não de�niu os su�xos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Apenas a opção II está correta.
Apenas a opção III está correta.
Apenas as opções I e III estão corretas.
Apenas a opção I está correta.
Apenas as opções II e III estão corretas.
Respondido em 24/08/2023 22:20:11
Explicação:
A a�rmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos su�xos
padrões, porquanto não há declaração explícita. A a�rmativa II é incorreta, por mais que seja uma boa prática de�nir os
nomes dos su�xos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A a�rmativa III é
incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim
como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída
obrigatoriamente também tem que ser de DataFrames.
Acerto: 1,0 / 1,0
A função de agrupamento do Pandas é o groupby, responsável por in�uenciar a indexação das colunas. O que
acontece ao aplicarmos o método reset_index() no resultado de uma agregação?
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
O DataFrame é indexado pelas suas colunas.
Nada, o DataFrame �ca imutável.
O DataFrame é embaralhado.
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
Respondido em 24/08/2023 22:20:31
Explicação:
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de então, o
index das agregações passa a ser o agrupamento. Com o reset_index() após a agregação, os índices originais das colunas
são preservados.
Acerto: 0,0 / 1,0
O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas?
I - Agrupamento
II - Classi�cação
III - Regressão
Apenas a opção II está correta
Questão8
a
Questão9
a
8/24/23, 10:23 PM Estácio: Alunos
https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado.asp?cod_hist_prova=314920019&cod_prova=6583871228&f_cod_disc= 5/5
Apenas a opção III está correta
Apenas as opções II e III estão corretas
Apenas a opção I está correta
Apenas as opções I e III estão corretas
Respondido em 24/08/2023 22:21:09
Explicação:
O aprendizado supervisionado se caracteriza pelo aprendizado autodidata que é caracterizado pelo agrupamento. Já a
classi�cação e a regressão sãotécnicas oriundas do aprendizado supervisionado.
Acerto: 1,0 / 1,0
As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em
paralelo baseada em grafos. Qual o nome desta biblioteca?
Numpy
Tensor�ow
Pandas
Scipy
Plotly
Respondido em 24/08/2023 22:21:21
Explicação:
A biblioteca TensorFlow foi criada com a �nalidade de processar cálculos de forma paralela, em estruturas de grafos a �m
de otimizar estes tipos de processamento, mas, devido à natureza dos modelos conexionistas, tal biblioteca foi rede�nida
como a principal biblioteca para implementação de redes neurais.
Questão10
a