PROVA BIGDATA

•

ESTÁCIO

5

1

5

1

0

Leno

26/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 43 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Gestão da Tecnologia da Informação

12.423 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: EEX0174 - TÓP BIG EM PYT Período: 2022.1 EAD (GT) / AV

Prezado(a) Aluno(a),
Responda a todas as questões com atenção. Somente clique no botão FINALIZAR PROVA ao ter
certeza de que respondeu a todas as questões e que não precisará mais alterá-las.

A prova será SEM consulta. O aluno poderá fazer uso, durante a prova, de uma folha em branco,
para rascunho. Nesta folha não será permitido qualquer tipo de anotação prévia, cabendo ao aplicador,
nestes casos, recolher a folha de rascunho do aluno.
Valor da prova: 10 pontos.

1 ponto

1.

Existem diversos motivos que justificam o uso da computação em nuvem, apesar disso,
existe um conceito que é essencial para computação em nuvem. Selecione a opção
correta que contenha esse conceito.

confiabilidade

abstração

disponibilidade

produtividade

segurança

1 ponto

2.

Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo
de serviço focado no hardware.

MaaS

CaaS

HaaS

IaaS

PaaS

1 ponto

3.

Em relação aos RDBMS, selecione a opção que apresenta a característica que trata as
transações em um banco de dados como uma unidade indivisível.

Atomicidade.

Durabilidade.

Indivisibilidade.

Consistência.

Isolamento.

1 ponto

4.

O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi idealizado
para trabalhar com grandes volumes de dados. Selecione a opção correta que
apresenta o paradigma como o HDFS funciona.

Distribuído e distribuído.

Centralizado e distribuído.

Centralizado e centralizado.

Mestre e escravo.

Distribuído e centralizado.

1 ponto

5.

Observe o trecho de código abaixo
import numpy as np
x = np.array([1, 5, 1, 6, 4, 7, 7])
função_teste = lambda x: x+x
print(função_teste(x))
Selecione a opção correta a respeito dele.

O programa produz a saída 31.

A saída do programa é [2].

O programa vai gerar e imprimir [2 10 2 12 8 14 14].

O programa ficará sintaticamente correto se for acrescentado o "SparkContext" para
executar o MapReduce.

O programa vai gerar um erro.

1 ponto

6.

O Apache Spark é um framework de código aberto aplicado para projetos de Big Data.
Selecione a opção correta que contenha apenas funções que podem ser categorizadas
como ações no Spark.

count, collect e map.

first, take e reduce.

reduce, map e filter.

take, filter e sample.

collect, flatMap e sample.

1 ponto

7.

A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados.
Sobre ela podemos afirmar que:
I - O nome Pandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)

III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de
dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a
alternativa correta.

Apenas II.

Apenas I e II.

Apenas I.

Apenas I e III.

Apenas II e III.

1 ponto

8.

Os dados que, por alguma razão, normalmente interferência humana, não chegam com
todos os atributos esperados durante a coleta de dados, são conhecidos como:

Embaralhados.

Nulos.

Faltantes.

Corrompidos.

Enviesados.

1 ponto

9.

Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de
análise de dados. O projeto no qual foi alocado já havia começado, e os colegas de Luís
lhe disseram que estavam preparando o conjunto de dados para poder passar os mesmos
por um modelo de árvore de decisão. Já que especificamente os colegas de Luís estão
removendo dados faltantes, em qual etapa do processo de KDD, Luís se encontra:

Transformação de Dados.

Coleta de Dados.

Pré-Processamento .

Descoberta de Padrões.

Avaliação.

1 ponto

10.

Os modelos simbólicos são aqueles que:

Se baseiam em lógica e regras de inferência para aprender e raciocinar

Se baseiam em táticas de agrupamento por similaridade

São aqueles que lidam apenas com problemas numéricos

Se baseiam estritamente em dados e inferências estatísticas em cima deles

São aqueles que só lidam com problemas categóricos

Highlight
1a Questão (Ref.: 202009328895)
Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que
podem ser encontrados.
2
4
6
3
5
2a Questão (Ref.: 202009328712)
Selecione a opção correta sobre o uso de Big Data.
Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados.
O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.
Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados.
Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras.
É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas.
3a Questão (Ref.: 202009337370)
Ser capaz de gerenciar uma infraestrutura complexa é uma habilidade fundamental para o profissional de Tecnologia
da Informação. Sendo assim, analise as alternativas e selecione a opção que apresenta o componente responsável
por desempenhar o papel de mestre na arquitetura do Hadoop.
HServerMap
NameNode
Bloco de dados
Replicador
DataNode
4a Questão (Ref.: 202009337708)
O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi idealizado para trabalhar com grandes
volumes de dados. Selecione a opção correta que apresenta o paradigma como o HDFS funciona.
Mestre e escravo.
Centralizado e centralizado.
Distribuído e distribuído.
Centralizado e distribuído.
Distribuído e centralizado.
5a Questão (Ref.: 202009337420)
O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação à arquitetura do Spark,
selecione a opção correta.
O Executor e os Worker Nodes desempenham papeis equivalentes na arquitetura do Spark.
Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das máquinas que executarão como
escravos.
O Executor corresponde ao conjunto de máquina que executam como escravos.
O gerenciador de cluster do Spark faz o gerenciamento da execução das tarefas.
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6067203\n\nStatus da quest%C3%A3o: Liberada para Uso.');
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6075861\n\nStatus da quest%C3%A3o: Liberada para Uso.');
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6076199\n\nStatus da quest%C3%A3o: Liberada para Uso.');
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6075911\n\nStatus da quest%C3%A3o: Liberada para Uso.');
O gerenciador de cluster do Spark oferece suporte a Hadoop YARN.
6a Questão (Ref.: 202009337512)
Compreender os conceitos e princípios do framework Apache Spark é fundamental para o cientista de dados. Selecione
a opção correta que contém o componente do ecossistema Spark responsável por dar suporte para tratar fluxo de
dados típicos de aplicações de tempo real.
Spark SQL
Spark Core
RDDs
Spark Streaming
Spark Hadoop
7a Questão (Ref.: 202009338422)
A coleta e preparação dos dados para análise no Python são de extrema importância. Os dados secundários são assim
definidos devido:
A sua baixa qualidade.
O fato de virem de uma fonte alternativa não convencional.
O fato de requererem muito mais pré-processamento.
O fato de terem sido obtidos a partir de terceiros.
O fato de ocuparem menos espaço de memória.
8a Questão (Ref.: 202009338273)
A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar
que:
I - O nomePandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs,
Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta.
Apenas II.
Apenas I.
Apenas I e II.
Apenas II e III.
Apenas I e III.
9a Questão (Ref.: 202009337339)
O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados
produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de aprendizado de máquina
também são conhecidos como:
Conhecimento.
Big Data.
Observações.
Dados Faltantes.
Informações.
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6076003\n\nStatus da quest%C3%A3o: Liberada para Uso.');
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6076913\n\nStatus da quest%C3%A3o: Liberada para Uso.');
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6076764\n\nStatus da quest%C3%A3o: Liberada para Uso.');
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6075830\n\nStatus da quest%C3%A3o: Liberada para Uso.');
10a Questão (Ref.: 202009337337)
Os modelos simbólicos são aqueles que:
Se baseiam em táticas de agrupamento por similaridade
Se baseiam estritamente em dados e inferências estatísticas em cima deles
São aqueles que lidam apenas com problemas numéricos
Se baseiam em lógica e regras de inferência para aprender e raciocinar
São aqueles que só lidam com problemas categóricos
javascript:alert('C%C3%B3digo da quest%C3%A3o: 6075828\n\nStatus da quest%C3%A3o: Liberada para Uso.');
1 - Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo
de serviço focado no hardware.
MaaS
CaaS
HaaS
IaaS
PaaS
2 - Em relação aos RDBMS, selecione a opção que apresenta a característica que trata as
transações em um banco de dados como uma unidade indivisível.
Atomicidade.
Durabilidade.
Indivisibilidade.
Consistência.
Isolamento.

3 - O Apache Spark é um framework de código aberto aplicado para projetos de Big Data.
Selecione a opção correta que contenha apenas funções que podem ser categorizadas
como ações no Spark.
count, collect e map.
first, take e reduce. // conforme pessoal informou era essa, acabei colocando outra
reduce, map e filter.
take, filter e sample.
collect, flatMap e sample.

4 - A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados.
Sobre ela podemos afirmar que:
I - O nome Pandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)

III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de
dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a
Highlight
alternativa correta.
Apenas II.
Apenas I e II.
Apenas I.
Apenas I e III.
Apenas II e III.

5 - Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
plot_tree
printf
print
cout
console.log

6 – 3m relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o
responsável pela geração de fragmento para os componentes da fase de redução.
Particionador.
Mapeador.
Combinador.
Leitor de registros.
Redutor.

7 - Os dados que, por alguma razão, normalmente interferência humana, não chegam com
todos os atributos esperados durante a coleta de dados, são conhecidos como:

Embaralhados.
Nulos.
Faltantes.
Corrompidos.
Enviesados.

8 – Selecione a opção correta sobre o uso de big data:

O grande volumes de dados são uteis para testar a capacidade dos servidores de
gerenciamento de dados

O volume e diversidade dos dados podem dar uma visão realística que esta sendo observado.

É impossível não utilizar aplicações de big data para gerenciar projetos de internet das coisas

Projetos de big de big data são uma forma de organizar tabelas normalizadas com grande
volume de dados.

Com projetos de big data é sempre possível detectar fraudes em operações financeiras.

9 – O boom de ia se deve ao surgimento de novas tecnologias e dispositivos que por estarem
sempre conectados produzem uma quantidade enorme de daods. Estes dados que alimentam
os modelos de aprendizado de máquina também são conhecidos como:

Dados Faltantes
Big data
Observações
Conhecimento
Informações

10 – Ser capaz de gerenciar uma infraestrutura complexa é uma habilidade fundamental para o
profissional de tecnologia da informação. Sendo assim, analise as alternativas e selecione a
opção que apresenta o componente responsável por desempenhar o papel de mestre na
arquitetura do Hadoop.
DataNode
HServerMao
NameNode
Bloco de dados
Replicador