SIMULADO AV - TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

2

0

2

0

Larissa Salvadé

19/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.796 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Acertos: 10,0 de 10,0 27/09/2022
Acerto: 1,0 / 1,0
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar
a projetos de Big Data.
Petabytes
Zetabytes
Gigabytes
Exabytes
Terabytes
Respondido em 27/09/2022 22:05:37
Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big
Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida
de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.
Acerto: 1,0 / 1,0
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
É um protocolo de internet das coisas
É um programa
É uma placa de hardware
É um ecossistema que envolve software e hardware
É o outro nome para Raspberry PI
Respondido em 27/09/2022 22:08:32
Questão11a
Questão22a
Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto,
não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry
PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas.
Acerto: 1,0 / 1,0
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na
forma de blocos de dados.
Replicação
YARN
Bloco de dados
DataNode
NameNode
Respondido em 27/09/2022 22:09:05
Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de
blocos de dados.
Acerto: 1,0 / 1,0
Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m)
ser armazenado(s) nele.
apenas tabelas relacionais
apenas não estruturado
estruturado e semiestruturado
apenas estruturado
estruturado, não estruturado e semiestruturado
Respondido em 27/09/2022 22:09:31
Explicação:
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a
característica de variedade dos dados que é bem típica de aplicações de Big Data.
Acerto: 1,0 / 1,0
Questão33a
Questão44a
Questão55a
Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta
que contenha apenas funções que podem ser categorizadas como transformações no Spark.
count, collect e take.
map, take e reduce.
map, sample e collect.
reduce, first e map.
map, filter e union.
Respondido em 27/09/2022 22:10:13
Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap,
mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da
aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição.
Acerto: 1,0 / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos
do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para
utilização do PySpark.
Java e Python
Hadoop e Spark
Casandra e Spark
Java e R
Python e Escala
Respondido em 27/09/2022 22:10:46
Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e
configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual
o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
Acerto: 1,0 / 1,0
Luis planeja começar um projeto particular visando construir um módulo de análise de dados.
Primeiramente ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão
organizado de criação de projeto, qual a sequência desejável de passos que esperamos que Luis siga?
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as
dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar
Questão66a
Questão77a
um para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer
trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze;
criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e
outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer
trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um
arquivo __init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as
dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar
um arquivo __init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as
dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar
um arquivo __init__.py com a lógica do módulo.
Respondido em 27/09/2022 22:12:13
Explicação:
O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as
dependências e guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um
arquivo __init__.py em branco e outro para o módulo. As opções que não descrevem todos esses passos
estão incompletas ou na ordem incorreta.
Acerto: 1,0 / 1,0
A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento.
Dentre as visualizações mais adequadas para dados numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.
Apenas I e II
Apenas II e III
Apenas III
Apenas I e III
As alternativas I, II e III
Respondido em 27/09/2022 22:12:55
Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua
correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando
queremos mostrar proporção e valores distintos de categorias possíveis.
Questão88a
Acerto: 1,0 / 1,0
Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
cout
print
console.log
printf
plot_tree
Respondido em 27/09/2022 22:13:24
Explicação:
Através do método plot_tree do módulo scikit-learn.DecisionTreeClassifier, podemos importar o plot_tree para
visualizar a árvore de decisão gerada pelo algoritmo homônimo.
Acerto: 1,0 / 1,0
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um
classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede
neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de
______________:
IRIS; Processamento da Linguagem Natural
MNIST; Processamento de Linguagem Natural
Pizzas; Categorias
IRIS; Processamento de Imagens
MNIST; Processamento de Imagens
Respondido em 27/09/2022 22:14:10
Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de
aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos
de processamento de imagens, uma vez que uma boa configuração de rede neural deve ser capaz de
reconhecer os dígitos escritos a mão do MNIST.
Questão99aQuestão1010a