Topicos de Big Data Python

Gestão da Tecnologia da Informação

•

ESTÁCIO

0

Fernando Almeida Melo

11/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Gestão da Tecnologia da Informação

12.755 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

11/10/2023, 17:29 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5
Avaliando
Aprendizado
 
Teste seu conhecimento acumulado
Disc.: TÓPICOS DE BIG DATA EM PYTHON   
Aluno(a): FERNANDO ALMEIDA MELO 202109261771
Acertos: 2,0 de 2,0 11/10/2023
Acerto: 0,2  / 0,2
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.
HTTP
TCP
CoAP
MQTT
 UDP
Respondido em 11/10/2023 17:15:33
Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido.
O protocolo TCP é orientado à con�abilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a
aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.
Acerto: 0,2  / 0,2
O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta
que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop.
Lua
Perl
 Java
Java Script
Python
Respondido em 11/10/2023 17:16:23
Explicação:
O Hadoop foi desenvolvido usando, originalmente, a linguagem de programação Java na distribuição livre da Apache
Foundation. Atualmente, diferentes distribuições do framework estão implementadas em diversas linguagens, entre
as quais o Python.
 Questão1
a
 Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
javascript:voltar();
11/10/2023, 17:29 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5
Acerto: 0,2  / 0,2
Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que
contenha apenas funções que podem ser categorizadas como transformações no Spark.
 map, �lter e union.
reduce, �rst e map.
map, sample e collect.
count, collect e take.
map, take e reduce.
Respondido em 11/10/2023 17:16:53
Explicação:
Gabarito: map, �lter e union.
Justi�cativa: Algumas das funções de transformação no Spark são: map, �lter, union, �atMap, mapPartitions e sample.
As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de
mapeamento e de �ltragem, sendo que os dados se originam de uma única partição.
Acerto: 0,2  / 0,2
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o
método utilizado para fazer a junção entre DataFrames no pandas?
sum
 merge
reset_index
values
set_index
Respondido em 11/10/2023 17:17:36
Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de
indexes pré-de�nidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre
DataFrames.
Acerto: 0,2  / 0,2
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um
classi�cador de imagem, mas, não sabe se decidir com relação à con�guração das camadas de sua rede neural. É
muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
IRIS; Processamento de Imagens
 MNIST; Processamento de Imagens
IRIS; Processamento da Linguagem Natural
Pizzas; Categorias
MNIST; Processamento de Linguagem Natural
Respondido em 11/10/2023 17:18:49
 Questão3
a
 Questão4
a
 Questão5
a
11/10/2023, 17:29 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5
Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de
máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de
imagens, uma vez que uma boa con�guração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do
MNIST.
Acerto: 0,2  / 0,2
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como
referência para as outras plataformas.
IBM Cloud
Microsft Azure
Oracle Cloud
 Amazon AWS
Google Cloud
Respondido em 11/10/2023 17:23:51
Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do
mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.
Acerto: 0,2  / 0,2
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
Camada de ingestão
Mrjob
 MapReduce
Task manager
HDFS
Respondido em 11/10/2023 17:25:27
Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de
tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop,
não possuem a funcionalidade de rastreamento de tarefas.
Acerto: 0,2  / 0,2
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de
dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é
responsável por consolidar os resultados produzidos ao longo do processamento.
 Questão6
a
 Questão7
a
 Questão8
a
11/10/2023, 17:29 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5
 Redução
Mapeamento
Separação
Processamento
Agregação
Respondido em 11/10/2023 17:26:13
Explicação:
Gabarito: Redução
Justi�cativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos
dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos
frameworks como o Spark, por exemplo.
Acerto: 0,2  / 0,2
A função de agrupamento do Pandas é o groupby, responsável por in�uenciar a indexação das colunas. O que
acontece ao aplicarmos o método reset_index() no resultado de uma agregação?
Nada, o DataFrame �ca imutável.
 Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
O DataFrame é indexado pelas suas colunas.
O DataFrame é embaralhado.
Respondido em 11/10/2023 17:26:44
Explicação:
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de
então, o index das agregações passa a ser o agrupamento.  Com o reset_index() após a agregação, os índices originais
das colunas são preservados.
Acerto: 0,2  / 0,2
As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em
paralelo baseada em grafos. Qual o nome desta biblioteca?
 Tensor�ow
Numpy
Pandas
Scipy
Plotly
Respondido em 11/10/2023 17:28:12
Explicação:
A biblioteca TensorFlow foi criada com a �nalidade de processar cálculos de forma paralela, em estruturas de grafos a
�m de otimizar estes tipos de processamento, mas, devido à natureza dos modelos conexionistas, tal biblioteca foi
rede�nida como a principal biblioteca para implementação de redes neurais.
 Questão9
a
 Questão10
a
11/10/2023, 17:29 Estácio: Alunos
https://simulado.estacio.br/alunos/ 5/5