Simulado AV TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

1

0

1

0

Douglas Serafim

16/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Desenvolvimento de Software

6.079 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Acertos: 8,0 de 10,0 21/04/2022

1a
Questão
Acerto: 1,0 / 1,0

Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.

Garantir a consistência da informação através da ordenação dos dados.

Dimensionar o projeto logo no início para evitar a necessidade de expansão
posteriormente.

Garantir a qualidade dos dados através de ferramentas de controle que não aceitem
qualquer inconsistência.

Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.

Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Respondido em 21/04/2022 17:28:15

Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois,
normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os
dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas
sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de
qualidade pré-estabelecido.

2a
Questão
Acerto: 1,0 / 1,0

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a
opção correta.

UDP

CoAP

HTTP

MQTT

TCP
Respondido em 21/04/2022 17:28:25

Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por
ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming,
ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no
transporte de dados.

3a
Questão
Acerto: 1,0 / 1,0

A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento
de tarefas.

HDFS

Camada de ingestão
MapReduce

Task manager

Mrjob
Respondido em 21/04/2022 17:30:05

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de
rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas,
embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas.

4a
Questão
Acerto: 1,0 / 1,0

Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é
fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção
correta sobre o Hadoop.

Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.

A estrutura de desenvolvimento no Hadoop é sequencial.
O Hadoop utiliza o HDFS para armazenar dados.

O Hadoop não funciona com pequenos volumes de dados.

O Hadoop tem apenas uma única distribuição.
Respondido em 21/04/2022 17:31:16

Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop
Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de
dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS).

5a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto
aleatório dos dados de entrada.

filter
sample

mapRandom

random

distinct
Respondido em 21/04/2022 17:32:18

Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É
uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois
pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um
subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random
e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos
diferentes de um RDD de entrada.

6a
Questão
Acerto: 1,0 / 1,0

Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a
opção correta que contenha apenas funções que podem ser categorizadas como transformações
no Spark.

map, filter e union.

count, collect e take.

map, take e reduce.

reduce, first e map.

map, sample e collect.
Respondido em 21/04/2022 17:32:28

Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap,
mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas,
resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de
uma única partição.

7a
Questão
Acerto: 1,0 / 1,0

A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de
visualização de dados mais indicada para dados temporais?

Gráfico de Linha.

Gráfico de Estrela.

Gráfico de Faces de Chernoff.

Gráfico de Matriz de Dispersão.

Gráfico de Barra.
Respondido em 21/04/2022 17:33:03

Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado,
mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais
alternativas indicam tipos de visualização inadequados para dados temporais.

8a
Questão
Acerto: 0,0 / 1,0

Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e
rkey.

Apenas a opção III está correta.

Apenas as opções II e III estão corretas.
Apenas a opção I está correta.

Apenas as opções I e III estão corretas.

Apenas a opção II está correta.
Respondido em 21/04/2022 17:34:57

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores
acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por
mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à
biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é
um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que
rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída
obrigatoriamente também tem que ser de DataFrames.

9a
Questão
Acerto: 0,0 / 1,0

Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este
laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa
de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo
de IA Alfredo está lidando?

IA Pura

IA Simbólica
IA Quântica

IA Biológica
IA SubSimbólica
Respondido em 21/04/2022 17:38:33

Explicação:
As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos
dados a partir de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior
diferença dos modelos simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores
predições por exatidão.

10a
Questão
Acerto: 1,0 / 1,0

O termo mineração de dados é amplamente usado na comunidade técnicaa esmo, mas, na
realidade ele se refere ao processo de:

DNN

RNN
KDD

CNN

LSTM
Respondido em 21/04/2022 17:38:49

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de
coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e
avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em
Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do
processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A
alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿
CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo
conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais
recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A
alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais
ou temporais.