Big Data 2022 - Compilado de questões_

•

ESTÁCIO

73

2

73

2

20

Gabriel Ferreira

07/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.744 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1/1
O programa ficará sintaticamente correto se for acrescentado o "SparkContext" para
O programa vai gerar e imprimir [2 10 2 12 8 14 14].
O programa produz a saída 31.
O programa vai gerar um erro.
executar o MapReduce.
A saída do programa é [2].
1/1
O gerenciador de cluster do Spark faz o gerenciamento da execução das tarefas.
O gerenciador de cluster do Spark oferece suporte a Hadoop YARN.
O Executor e os Worker Nodes desempenham papeis equivalentes na arquitetura do
Spark.
Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das
maquinas que executarão como escravos.
O Executor corresponde ao conjunto de maquinas que executam como escravos.
Observe o trecho de código abaixo
O Spark é um framework de alto desempenho usado para aplicações de
Big Data. Em relação à arquitetura selecione a opção correta.
1/1
sequrança
disponibilidade
produtividade
abstração
confiabilidade
1/1
As fases de processamento do MapReduce podem variar de acordo com a
aplicação.
Pode ser aplicada para projetos que envolvam grandes volumes e variedade de
dados.
A principal característica do MapReduce é a utilização eficiente da memória.
Projetos de big data só podem ser tratados por MapReduce.
Só é possível utilizar o MapReduce no Spark através do PySpark.
Existem diversos motivos que justificam o uso da computação em
nuvem, apesar disso, existe um conceito que é essencial para
computação em nuvem. Selecione a opção correta que contenha esse
conceito.
O MapReduce é uma técnica de computação distribuída considerada
extremamente eficiente para o processamento de dados,
desempenhando papel fundamental no Spark. Em relação ao
MapReduce, selecione a opção correta.
1/1
Distribuído e distribuído.
Centralizado e distribuído.
Centralizado e centralizado.
Mestre e escravo.
Distribuído e centralizado.
1/1
A sua baixa qualidade
O fato de terem sido obtidos a partir de terceiros.
O fato de virem de uma fonte alternativa não convencional.
O fato de ocuparem menos espaço de memoria.
O fato de requererem muito mais pré-processamento.
O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS,
foi idealizado para trabalhar com grandes volumes de dados. Selecione a
opção correta que apresenta o paradigma como o HDFS funciona.
A coleta e a preparação dos dados para analise no Python são de
extrema importância. Os dados secundários são assim definidos devido:
1/1
É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet
das coisas
Com projetos de Big Data é sempre possível detectar fraudes em operações
financeiras
Grandes volumes de dados são uteis para testar a capacidade dos servidores de
gerenciamento de dados.
O volume e diversidade dos dados podem dar uma visão realística do que está
sendo observado
Projetos de Big Data são uma forma de organizar tabelas normalizadas com
grandes volumes de dados
1/1
Se baseiam em lógica e regras de inferência para aprender e raciocinar
Se baseiam estritamente em dados e inferências estatísticas em cima deles
São aqueles que lidam apenas com problemas numéricos
Se baseiam em táticas de agrupamento por similaridade
São aqueles que só lidam com problemas categóricos
Selecione a opção correta sobre o uso de Big Data:
Os modelos simbólicos são aqueles que:
1/1
São um conjunto de sinais
São interconectados entre si
É uma conexão rede a rede
São um relacionamento máquina a máquina
São redes locais
1/1
Avaliação.
Transformação de Dados.
Pré-Processamento .
Coleta de Dados.
Descoberta de Padrões.
Em relação às redes de Internet das coisas, selecione a opção correta
que relaciona os dispositivos entre si.
Luís foi contratado recentemente para trabalhar em uma empresa de
consultoria de análise de dados. O projeto no qual foi alocado já havia
começado, e os colegas de Luís lhe disseram que estavam preparando o
conjunto de dados para poder passar os mesmos por um modelo de
árvore de decisão. Já que especificamente os colegas de Luís estão
removendo dados faltantes, em qual etapa do processo de KDD, Luís se
encontra:
1/1
Scipy
Plotly
Numpy
Tensorflow
Pandas
1/1
5
4
3
6
2
As redes neurais são implementadas em Python através de uma
biblioteca de processamento de cálculos em paralelo baseada em
grafos. Qual o nome desta biblioteca?
Em relação aos formatos que os dados de Big Data, selecione à opção
que corresponde a quantidade de formas que podem ser encontrados:
1/1
Leitor de registros.
Mapeador.
Particionador.
Redutor.
Combinador.
1/1
As opções I, II, e III estão corretas.
Apenas a opção I.
Apenas a opção II.
Apenas as opções II e III.
6
Em relação à fase de mapeamento do Hadoop, selecione a opção
correta que apresenta o responsável pela geração de fragmento para os
componentes da fase de redução.
No contexto de Coleta de Dados, o que podemos afirmar sobre dados
Primarios: I - São dados obtidos em primeira mão pelo cientista de
dados ou pelo analista de dados II - São dados que precisam ser pré-
processados para análise, e serão feitos exclusivamente no primeiro
momento pelo dono dos dados, o analista em questão III - São obtidos
através de softwares de monitoramento de logs, surveys, e bancos de
dados. Analise as frases listadas e assinale a alternativa correta.
1/1
Spark SQL
Spark Core
Spark Hadoop
RDDs
Spark Streaming
1/1
printf
plot_tree
cout
console.log
print
Compreender os conceitos e princípios do framework Apache Spark é
fundamental para o cientista de dados. Selecione a opção correta que
contém o componente do ecossistema Spark responsável por dar
suporte para tratar fluxo de dados típicos de aplicações de tempo real.
Qual o tipo de método nos permite visualizar a árvore de decisão na
biblioteca Scikit-Learn?
1/1
Durabilidade.
Consistência.
Isolamento.
Atomicidade.
Indivisibilidade.
1/1
Mapeamento e partição
Separação e finalização
Mapeamento e redução
Estreitas e amplas
Embaralhamento e redução
Em relação aos RDBMS, selecione a opção que apresenta a característica
que trata as transações em um banco de dados como uma unidade
indivisível.
Selecione a opção correta que contenha as categorias em que
transformações podem ser classificadas.
1/1
if
for
else
while
with
1/1
Apenas I e III.
Apenas II e III.
Apenas I e II.
Apenas I.
Apenas II.
O seguinte constructo da linguagem Python representa o condicional
simples:
A biblioteca pandas é poderosa e de grande valia para a vida de um
cientista de dados.Sobre ela podemos afirmar que: I - O nome Pandas
se refere a dados em painel ou panel data II - O DataFrame é o
coletivo de listas (lists) III - É possível criarmos DataFrames a partir de
praticamente qualquer estrutura dedados, principalmente CSVs, Excels,
e JSONs. Analise as frases listadas e assinale a alternativa correta.
1/1
Dispositivos de recepção
Nuvem
Tecnologia proprietária
Redes locais
Servidores de banco de dados
1/1
Informações
Big Data
Dados Faltantes.
Conhecimento
Observações
Em relação à Internet das coisas, selecione a opção correta que relaciona
os dispositivos com aos servidores de aplicação.
O boom da IA se deve ao surgimento de novas tecnologias e dispositivos
que por estarem sempre conectados produzem uma quantidade enorme
de dados. Estes dados que alimentam os modelos de aprendizado de
maquina são conhecidos como:
1/1
Aumentar a complexidade do processo de gestão dos dados.
Aumentar a diversidade dos dados.
Ampliar o volume de dados da aplicação.
Obter dados que sirvam como base na tomada de decisão.
Melhorar a interatividade com o usuário.
1/1
join
reduce
coalesce
take
collect
Em relação às aplicações de Internet das coisas, selecione a opção
correta sobre os seus objetivos.
Selecione à opção correta que contenha a ação responsável por retornar
os elementos de um conjunto de dados como vetor.
1/1
RDD
DataFrame
numpy.array
SQL
PySpark
0/1
trata-se da utilização de aplicaçõescom finalidades específicas.
é uma forma de abstrair serviços da internet das coisas em redes locais
distribuídas.
é um conjunto de tecnologias que disponibilizam sistemas e recursos na internet.
é a definição para aplicações de Big Data que utilizam os protocolos de internet.
é uma outra forma de denominar a internet das coisas.
Resposta correta
é um conjunto de tecnologias que disponibilizam sistemas e recursos na internet.
A biblioteca Pandas é amplamente utilizada para manipular dados
heterogêneos, situação recorrente para aplicações de Big Data. Nesse
sentido, selecione a opção que contém a estrutura de dados que
possibilita o Cientista de dados atribuir nome para as colunas.
Selecione a opção a respeito da computação em nuvem.
1/1
first, take e reduce.
count, collect e map.
take, filter e sample.
reduce, map e filter.
collect, flatMap e sample.
1/1
RDDs
Graphx
Spark Core
Spark Streaming
MUIb
O Apache Spark é um framework de código aberto aplicado para
projetos de Big Data. Selecione a opção correta que contenha apenas
funções que podem ser categorizadas como ações no Spark.
As bibliotecas são coleções de subprogramas utilizados no
desenvolvimento de softwares. Selecione a opção correta que contém o
componente do ecossistema do Spark responsável por realizar
operações paralelas em grafos.
1/1
Replicador
Bloco de dados
NameNode
HServerMap
DataNode
1/1
IaaS
CaaS
HaaS
MaaS
PaaS
Ser capaz de gerenciar uma infraestrutura complexa é uma habilidade
fundamental para o profissional de Tecnologia da Informação, Sendo
assim, analise as alternativas e selecione a opção que apresenta o
componente responsável por desempenhar o papel de mestre na
arquitetura do Hadoop.
Em relação aos modelos de serviço de nuvem, selecione a opção correta
com o modelo de serviço focado no hardware.
1/1
Java
Scala
Python
R
JavaScript
1/1
Embaralhados.
Enviesados.
Faltantes.
Corrompidos.
Nulos.
Este conteúdo não foi criado nem aprovado pelo Google. - Termos de Serviço - Política de Privacidade
A escolha adequada de uma linguagem de programação é fundamental
para a maximização dos resultados almejados. Nesse sentido, selecione
a opção que contém a linguagem de programação mais adequada para
desenvolver aplicações para o Spark.
Os dados que, por alguma razão, normalmente interferência humana,
não chegam com todos os atributos esperados durante a coleta de
dados, são conhecidos como:
Formulários
https://policies.google.com/terms
https://policies.google.com/privacy
https://www.google.com/forms/about/?utm_source=product&utm_medium=forms_logo&utm_campaign=forms