Questões de Tópicos de Big Data em Python

•

ESTÁCIO

5

0

5

0

Kim Seokjin

16/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.873 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1. Selecione a opção correta sobre o uso de Big Data.
Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados.
O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.
E impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas.
Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados.
Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras.
2. Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que podem ser encontrados.
5
2
4
6
3
3. Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela aeração de fragmento para os componentes da fase de redução.
Leitor de registros.
Particionador.
Redutor.
Combinador.
Mapeador.
4. Ser capaz de gerenciar uma infraestrutura complexa é uma habilidade fundamental para o profissional de Tecnologia da Informação. Sendo assim, analise as alternativas e selecione a opção que apresenta o componente responsável por desempenhar o papel de mestre na arquitetura do Hadoop.
DataNode
NameNode
Bloco de dados
Replicador
HServerMap
5. O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação à arquitetura do Spark, selecione a opção correta.
O gerenciador de cluster do Spark oferece suporte a Hadoop YARN.
O Executor e os Worker Nodes desempenham papeis equivalentes na arquitetura do Spark.
Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das máquinas que executarão como escravos.
O gerenciador de cluster do Spark faz o gerenciamento dê execução das tarefas.
O Executor corresponde ao conjunto de máquina que executam como escravos.
6. Compreender os conceitos e princípios do framework Apache Spark é fundamental para o cientista de dados. Selecione opção correta que contém o componente do ecossistema Spark responsável por dar suporte para tratar fluxo de dados típicos de aplicações de tempo real.
Spark Core
Spark SQL
Spark Hadoop
Spark Streaming
RDDs
7. O seguinte constructo da linguagem Python representa o condicional simples:
if
for
with
while
else
8. A biblioteca Pandas é poderosa e de grande valia para a vida de um cientista de dados.
Sobre ela podemos afirmar que:
I - O nome Pandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)
III - E possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale e alternativa correta.
Apenas I e II.
Apenas I e III.
Apenas II e III.
Apenas II.
Apenas I.
9. Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. O projeto no qual foi alocado já havia começado, e os colegas de Luís lhe disseram que estavam preparando o conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Que especificamente os colegas de Luís estão removendo dados faltantes, em qual etapa do processo de KDD, Luís se encontra:
Descoberta de Padrões.
Coleta de Dados.
Transformação de Dados.
Pré-processamento
Avaliação.
10. Os modelos simbólicos são aqueles que:
São aqueles que lidam apenas com problemas numéricos
São aqueles que só lidem com problemas categóricos
Se baseiam estritamente em dados e inferências estatísticas em cima deles
Se baseiam em lógica e regras de inferência para aprender e raciocinar
Se baseiam em táticas de agrupamento por similaridade
11. Selecione a opção a respeito da computação em nuvem.
é uma forma de abstrair serviços da internet das coisas em redes locais distribuídas
trata-se da utilização de aplicações com finalidades específicas
é um conjunto de tecnologias que disponibilizam sistemas e recursos na internet
é a definição para aplicações de Big Data que utilizam os protocolos de internet
é uma outra forma de denominar a internet das coisas
12. Em relação às aplicações de Internet das coisas, selecione a opção correta sobre os seus objetivos.
Ampliar o volume de dados da aplicação
Aumentar a diversidade dos dados
Aumentar a complexidade do processo de gestão dos dados
Melhorar a interatividade com o usuário
Obter dados que sirvam como base na tomada de decisão
13. A respeito dos componentes do ecossistema do Hadoop, selecione a opção correta que apresenta o componente responsável pelo gerenciamento dos clusters.
Zookeeper
HBase
Spark
Flume
HCluster
14. O MapReduce é uma técnica de computação distribuída considerada extremamente eficiente para o processamento dedados, desempenhando papel fundamental no Spark. Em relação ao MapReduce, selecione a opção correta.
A principal característica do MapReduce é a utilização eficiente da memória.
Pode ser aplicada para projetos que envolvam grandes volumes e variedade de dados.
Só é possível utilizar o MapReduce no Spark através do PySpark.
Projetos de big data só podem ser tratados por MapReduce.
As fases de processamento do MapReduce podem variar de acordo com a aplicação.
15. A escolha adequada de uma linguagem de programação é fundamental para a maximização dos resultados almejados.
Nesse sentido, selecione a opção que contém a linguagem de programação mais adequada para desenvolver aplicações para o Spark.
Python
Scala
R
Java Script
Java
16. O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de aprendizado de máquina também são conhecidos como:
Observações.
Dados Faltantes.
Conhecimento.
Informações.
Big Data
17. O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi idealizado para trabalhar com grandes volumes de dados. Selecione a opção correta que apresenta o paradigma como o HDFS funciona.
Distribuído e centralizado.
Mestre e escravo.
Centralizado e distribuído.
Distribuído e distribuído.
Centralizado e centralizado.
18. As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?
Numpy
Scipy
Plotly
Tensorflow
Pandas
19. Selecione a opção correta a respeito do processamento e streaming de dados.
Os dados sempre são provenientes de aplicações transacionais
Caracterizam-se pelo envio do mesmo dado por várias fontes
Os dados são caracterizados também são denominados de lotes estéticos.
Os dados podem vir de várias fontes
Os dados sempre estão no mesmo formato
20. em relação às características do processamento de fluxo de dados selecione a opção correta
Representam o estado de um sistema em um dado momento
São relacionados à aplicações de internet das coisas
Sempre são do mesmo tipo
O fluxo de dados é intermitente
São invariáveis no tempo
21. Selecione a opção correta que contenha ação responsável por retornar os elementos de um conjunto de dados como vetor.
Reduce
Coalesce
Collect
Take
Join
22. Selecione a opção correta que contenha as categorias em que transformações podem ser classificadas.
Embaralhamento e redução
Mapeamento e partição
Estreitas e amplas
Separação e finalização
Mapeamento e redução
23. A coleta e preparação das dadas para análise no Python são de extrema importância. Os dados secundários são assim definidos devido:
O fato de ocuparem menos espaço de memória.
O fato de virem de uma fonte alternativa não convencional.
A sua baixa qualidade.
O fato de requererem muito mais pré-processamento.
O fato de terem sido obtidos a partir de terceiros.
24. Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como:
Nulos.
Corrompidos.
Faltantes.
Enviesados.
Embaralhados.
25. Em relação ao HDBMS, selecione a opção que apresenta a característica que trata as transações em um bancode dados como unidade indivisível

Durabilidade
Atomicidade
Isolamento
Consistência
Indivisibilidade
26. Observe o trecho de código abaixo
• import numpy as np
x=np.array([1,5,1,6,4,7,7])
função_teste=lambda x: x+x
print (função_teste (x) )
O programa ficará sintaticamente correto se for acrescentado o "SparkContext" para
O programa vai gerar e imprimir [2 10 2 12 8 14 14]
O programa produz a saída 31.
O programa vai gerar um erro.
Executar o MapReduce.
A saída do programa é [2].
27. Existem diversos motivos que justificam o uso da computação em nuvem, apesar disso, existe um conceito que é essencial para computação em nuvem. Selecione a opção correta que contenha esse conceito.
segurança
Disponibilidade
produtividade
abstração
confiabilidade
28. Em relação às redes de Internet das coisas, selecione a opção correta que relaciona os dispositivos entre si.
São um conjunto de sinais
São interconectados entre si
É uma conexão rede a rede
São um relacionamento máquina a máquina
São redes locais
29. No contexto de Coleta de Dados, o que podemos afirmar sobre dados Primarios: I - São dados obtidos em primeira mão pelo cientista de dados ou pelo analista de dados II - São dados que precisam ser pré-processados para análise, e serão feitos exclusivamente no primeiro momento pelo dono dos dados, o analista em questão III - São obtidos através de softwares de monitoramento de Iogs, surveys, e bancos de dados. Analise as frases listadas e assinale a alternativa correta.
As opções l, II, e III estão corretas.
Apenas a opção l.
Apenas a opção II.
Apenas as opções II e III.
6
30. Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
printf
plot_tree
cout
console. log
print
31. Em relação à Internet das coisas, selecione a opção correta que relacional os dispositivos com aos servidores de aplicação.
Dispositivos de recepção
Nuvem
Tecnologia proprietária
Redes locais
Servidores de banco de dados
32. A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione a opção que contém a estrutura de dados que possibilita o Cientista de dados atribuir nome para as colunas.
RDD
DataFrame
numpy.array
SQL
PYSpark
33. O Apache Spark é um framework de código aberto aplicado para projetos de Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como ações no Spark.
first, take e reduce.
count, collect e map.
take, filter e sample.
reduce, map e filter.
collect, flatMap e sample.
34. As bibliotecas são coleções de subprogramas utilizados no desenvolvimento de softwares. Selecione a opção correta que contém o componente do ecossistema do Spark responsável por realizar operações paralelas em grafos.
RDDs
Graphx
Spark Core
Spark Streaming
MUIb
35. Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo de serviço focado no hardware.
laaS
CaaS
HaaS
Maas
PaaS