TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

0

Giovanni

09/03/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.837 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Meus Simulados
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a):

Acertos: 10,0 de 10,0
08/03/2023
1a
Questão
Acerto: 1,0 / 1,0

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.

HTTP

MQTT
UDP

CoAP

TCP
Respondido em 08/03/2023 15:47:57

Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.

2a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas.

Google Cloud
Amazon AWS

IBM Cloud

Microsft Azure

Oracle Cloud
Respondido em 08/03/2023 15:48:57

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.

3a
Questão
Acerto: 1,0 / 1,0

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.

Redução

Combinação

Gravação da saída
Embaralhamento

Agrupamento
Respondido em 08/03/2023 15:49:57

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.

4a
Questão
Acerto: 1,0 / 1,0

Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake.

É uma tecnologia de armazenamento e processamento de dados.
É um repositório centralizado para armazenamento de dados.

Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.

É um ambiente para tratamento e armazenamento apenas de dados relacionais.

É um repositório para tratamento dos dados.
Respondido em 08/03/2023 15:52:57

Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.

5a
Questão
Acerto: 1,0 / 1,0

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina.

GraphX Learning

RDDs

Spark Learning

MLSpark
MLlib
Respondido em 08/03/2023 15:54:04

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes.

6a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.

filter

random

mapRandom

distinct
sample
Respondido em 08/03/2023 15:57:29

Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.

7a
Questão
Acerto: 1,0 / 1,0

A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto?

loc

reset_index

sum

iloc

shuffle
Respondido em 08/03/2023 16:01:28

Explicação:
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do DataFrame.

8a
Questão
Acerto: 1,0 / 1,0

Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.

Apenas as opções II, III.

Apenas as opções I, II, III.
Apenas as opções I, II, IV.

Todas as opções I, II, III, IV.

Apenas a opção III.
Respondido em 08/03/2023 16:02:53

Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.

9a
Questão
Acerto: 1,0 / 1,0

As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?

Numpy

Pandas

Plotly
Tensorflow

Scipy
Respondido em 08/03/2023 16:04:15

Explicação:
A biblioteca TensorFlow foi criada com a finalidade de processar cálculos de forma paralela, em estruturas de grafos a fim de otimizar estes tipos de processamento, mas, devido à natureza dos modelos conexionistas, tal biblioteca foi redefinida como a principal biblioteca para implementação de redes neurais.

10a
Questão
Acerto: 1,0 / 1,0

Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:

IRIS; Processamento da Linguagem Natural

IRIS; Processamento de Imagens

Pizzas; Categorias
MNIST; Processamento de Imagens

MNIST; Processamento de Linguagem Natural
Respondido em 08/03/2023 16:06:00

Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de imagens, uma vez que uma boa configuração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST.