TÓPICOS DE BIG DATA EM PYTHON SIMULADO

•

ESTÁCIO EAD

5

0

5

0

Lucas Angelo

04/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.841 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1a
Questão
Acerto: 0,0 / 1,0

Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.

Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência.

Usar algoritmos de criptografia nos dados para evitar o acesso indevido.

Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.

Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.
Garantir a consistência da informação através da ordenação dos dados.
Respondido em 04/04/2022 17:56:23

Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido.

2a
Questão
Acerto: 1,0 / 1,0

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.

UDP

HTTP

TCP

MQTT

CoAP
Respondido em 04/04/2022 17:56:29

Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.

3a
Questão
Acerto: 0,0 / 1,0

Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker.

Task Tracker

Job Tracker Slave

MapTracker
MapReduce

MapJob
Respondido em 04/04/2022 17:58:23

Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento.

4a
Questão
Acerto: 0,0 / 1,0

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.

Combinação

Redução
Embaralhamento
Agrupamento

Gravação da saída
Respondido em 04/04/2022 18:02:52

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.

5a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.

mapRandom

filter

random
sample

distinct
Respondido em 04/04/2022 17:57:48

Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.

6a
Questão
Acerto: 1,0 / 1,0

Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark.

count, collect e take.

map, sample e collect.

reduce, first e map.

map, take e reduce.
map, filter e union.
Respondido em 04/04/2022 17:57:34

Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição.

7a
Questão
Acerto: 1,0 / 1,0

Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.

Apenas a opção II está correta.
Apenas a opção I está correta.

Apenas a opção III está correta.

Apenas as opções II e III estão corretas.

Apenas as opções I e III estão corretas.
Respondido em 24/03/2022 14:29:34

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.

8a
Questão
Acerto: 0,0 / 1,0

A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.

Apenas I e II

Apenas I e III

Apenas III

Apenas II e III
As alternativas I, II e III
Respondido em 04/04/2022 18:02:46

Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis.

9a
Questão
Acerto: 0,0 / 1,0

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de:

DNN
RNN

LSTM

CNN
KDD
Respondido em 04/04/2022 17:59:47

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.10a
Questão
Acerto: 1,0 / 1,0

Quais os métodos de aprendizado de máquina que existem?

Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado

Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado

Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório

Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
Respondido em 24/03/2022 14:30:00

Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.