Buscar

Simulado AV TÓPICOS DE BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON 
Acertos: 8,0 de 10,0 21/04/2022 
 
 
 
1a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. 
 
 Garantir a consistência da informação através da ordenação dos dados. 
 
Dimensionar o projeto logo no início para evitar a necessidade de expansão 
posteriormente. 
 
Garantir a qualidade dos dados através de ferramentas de controle que não aceitem 
qualquer inconsistência. 
 
Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. 
 
Usar algoritmos de criptografia nos dados para evitar o acesso indevido. 
Respondido em 21/04/2022 17:28:15 
 
Explicação: 
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, 
normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os 
dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas 
sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de 
qualidade pré-estabelecido. 
 
 
2a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a 
opção correta. 
 
 UDP 
 
CoAP 
 
HTTP 
 
MQTT 
 
TCP 
Respondido em 21/04/2022 17:28:25 
 
Explicação: 
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por 
ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, 
ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no 
transporte de dados. 
 
 
3a 
 Questão 
Acerto: 1,0 / 1,0 
 
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento 
de tarefas. 
 
 
HDFS 
 
Camada de ingestão 
 MapReduce 
 
Task manager 
 
Mrjob 
Respondido em 21/04/2022 17:30:05 
 
Explicação: 
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de 
rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, 
embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é 
fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção 
correta sobre o Hadoop. 
 
 
Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. 
 
A estrutura de desenvolvimento no Hadoop é sequencial. 
 O Hadoop utiliza o HDFS para armazenar dados. 
 
O Hadoop não funciona com pequenos volumes de dados. 
 
O Hadoop tem apenas uma única distribuição. 
Respondido em 21/04/2022 17:31:16 
 
Explicação: 
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop 
Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de 
dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). 
 
 
5a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto 
aleatório dos dados de entrada. 
 
 
filter 
 sample 
 
mapRandom 
 
random 
 
distinct 
Respondido em 21/04/2022 17:32:18 
 
Explicação: 
Gabarito: sample 
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É 
uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois 
pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um 
subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random 
e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos 
diferentes de um RDD de entrada. 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a 
opção correta que contenha apenas funções que podem ser categorizadas como transformações 
no Spark. 
 
 map, filter e union. 
 
count, collect e take. 
 
map, take e reduce. 
 
reduce, first e map. 
 
map, sample e collect. 
Respondido em 21/04/2022 17:32:28 
 
Explicação: 
Gabarito: map, filter e union. 
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, 
mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, 
resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de 
uma única partição. 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de 
visualização de dados mais indicada para dados temporais? 
 
 Gráfico de Linha. 
 
Gráfico de Estrela. 
 
Gráfico de Faces de Chernoff. 
 
Gráfico de Matriz de Dispersão. 
 
Gráfico de Barra. 
Respondido em 21/04/2022 17:33:03 
 
Explicação: 
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, 
mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais 
alternativas indicam tipos de visualização inadequados para dados temporais. 
 
 
 
8a 
 Questão 
Acerto: 0,0 / 1,0 
 
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: 
import pandas as pd 
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) 
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) 
df1.merge(df2, left_on='lkey', right_on='rkey') 
Qual destas alternativas descreve as saídas do código? 
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y 
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna 
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e 
rkey. 
 
 Apenas a opção III está correta. 
 
Apenas as opções II e III estão corretas. 
 Apenas a opção I está correta. 
 
Apenas as opções I e III estão corretas. 
 
Apenas a opção II está correta. 
Respondido em 21/04/2022 17:34:57 
 
Explicação: 
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores 
acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por 
mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à 
biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é 
um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que 
rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída 
obrigatoriamente também tem que ser de DataFrames. 
 
 
9a 
 Questão 
Acerto: 0,0 / 1,0 
 
Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este 
laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa 
de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo 
de IA Alfredo está lidando? 
 
 
IA Pura 
 
IA Simbólica 
 IA Quântica 
 
IA Biológica 
 IA SubSimbólica 
Respondido em 21/04/2022 17:38:33 
 
Explicação: 
As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos 
dados a partir de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior 
diferença dos modelos simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores 
predições por exatidão. 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
O termo mineração de dados é amplamente usado na comunidade técnicaa esmo, mas, na 
realidade ele se refere ao processo de: 
 
 
DNN 
 
RNN 
 KDD 
 
CNN 
 
LSTM 
Respondido em 21/04/2022 17:38:49 
 
Explicação: 
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de 
coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e 
avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em 
Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do 
processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A 
alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ 
CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo 
conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais 
recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A 
alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais 
ou temporais.

Continue navegando