Buscar

TÓPICOS DE BIG DATA EM PYTHON simulado AV

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON 
Aluno(a): 
Acertos: 10,0 de 10,0 28/04/2022 
 
 
 
1a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção em que a computação se refere à execução de aplicações e serviços 
em uma rede distribuída usando recursos virtualizados. 
 
 
Computação de banco de dados 
 Computação em Nuvem 
 
Computação Paralela 
 
Computação centralizada 
 
Computação de Big Data 
Respondido em 28/04/2022 11:33:40 
 
Explicação: 
As aplicações de computação em nuvem são acessadas por protocolos de Internet e 
padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha 
obrigatoriamente com protocolos de internet. 
 
 
2a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações 
de internet das coisas. 
 
 
Camada de aplicação 
 
Camada lógica 
 
Camada de sessão 
 
Camada de enlace de dados 
 Camada de transporte 
Respondido em 28/04/2022 11:34:01 
 
Explicação: 
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações 
e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma 
que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não 
existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A 
camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a 
camada de aplicação é responsável pela comunicação fim-a-fim entre processos. 
 
 
3a Acerto: 1,0 / 1,0 
 Questão 
 
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia 
da Informação. Selecione a opção correta a respeito do Data Lake. 
 
 
São exclusivos da distribuição Hadoop Apache. 
 
Demandam por equipamentos especiais. 
 Armazenam os dados de modo eficiente. 
 
Possui alta latência para acesso dos dados. 
 
Aplicam processos de tratamento nos dados. 
Respondido em 28/04/2022 11:37:07 
 
Explicação: 
O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. 
Dessa forma ele possui baixa latência para acessar os dados. Além disso, o Data Lake não 
demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop 
Apache. 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia 
da Informação. Selecione a opção correta que define resumidamente o que é o Data 
Lake. 
 
 
É uma tecnologia de armazenamento e processamento de dados. 
 
É um repositório para tratamento dos dados. 
 
Trata-se de um componente do HDFS responsável pela implementação do 
mecanismo MapReduce para fazer o gerenciamento dos dados. 
 É um repositório centralizado para armazenamento de dados. 
 
É um ambiente para tratamento e armazenamento apenas de dados relacionais. 
Respondido em 28/04/2022 11:37:48 
 
Explicação: 
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos 
formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar 
nenhum tratamento. 
 
 
5a 
 Questão 
Acerto: 1,0 / 1,0 
 
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos 
frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a 
opção correta. 
 
 É uma técnica de computação distribuída 
 
Foi substituída no Spark por acesso direto à memória 
 
É uma técnica lenta para processamento de grandes volumes de dados 
 
Consiste em uma técnica de programação sequencial 
 
Só pode ser aplicada para grandes volumes de dados 
Respondido em 28/04/2022 11:35:05 
 
Explicação: 
Gabarito: É uma técnica de computação distribuída 
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de 
clássica ainda é considerada muito eficiente para processamento de grandes volumes de 
dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada 
para menores volumes, mas não é apropriada para esses casos. 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos 
com finalidades específicas. Nesse sentido, selecione a opção que contém o componente 
responsável por estabelecer uma conexão com o Cluster. 
 
 
DataFrame 
 SparkContext 
 
SparkSession 
 
Spark.Catalog 
 
RDD 
Respondido em 28/04/2022 11:35:36 
 
Explicação: 
Gabarito: SparkContext 
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o 
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão 
nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa 
trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar 
um catálogo de metadados de entidades relacionais. 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
Luis planeja começar um projeto particular visando construir um módulo de análise de 
dados. Primeiramente ele deseja começar por um módulo de coleta de dados. Para que 
ele possa obter um padrão organizado de criação de projeto, qual a sequência 
desejável de passos que esperamos que Luis siga? 
 
 
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as 
quais ele quer trabalhar através do pip install; congelar as mesmas no 
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta 
e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do 
módulo. 
 Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do 
venv; Instalar as dependências com as quais ele quer trabalhar através do pip 
install; congelar as mesmas no requirements.txt através do pip freeze; criar uma 
pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em 
branco e outro para a lógica do módulo. 
 
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do 
venv; Instalar as dependências com as quais ele quer trabalhar através do pip 
install; congelar as mesmas no requirements.txt através do pip freeze; criar uma 
pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a 
lógica do módulo. 
 
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as 
quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de 
coleta e dentro dela criar um arquivo __init__.py em branco e outro para a 
lógica do módulo. 
 
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do 
venv; Instalar as dependências com as quais ele quer trabalhar através do pip 
install; congelar as mesmas no requirements.txt através do pip freeze; criar uma 
pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo. 
Respondido em 28/04/2022 11:41:27 
 
Explicação: 
O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente 
virtual; instalar as dependências e guardá-las no arquivo requirements.txt; criar uma pasta 
para o módulo de coleta e criar um arquivo __init__.py em branco e outro para o módulo. 
As opções que não descrevem todos esses passos estão incompletas ou na ordem incorreta. 
 
 
8a 
 Questão 
Acerto: 1,0 / 1,0 
 
A visualização dos dados é fundamental no processo de análise e interpretação. Qual o 
tipo de visualização de dados mais indicada para dados temporais? 
 
 
Gráfico de Barra. 
 
Gráfico de Matriz de Dispersão. 
 
Gráfico de Faces de Chernoff. 
 
Gráfico de Estrela. 
 Gráfico de Linha. 
Respondido em 28/04/2022 11:42:40 
 
Explicação: 
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do 
dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do 
dado. As demais alternativas indicam tipos de visualização inadequados para dadostemporais. 
 
 
9a 
 Questão 
Acerto: 1,0 / 1,0 
 
A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão 
Classificadora pertence? 
 
 
Agrupamento 
 Classificação 
 
Modelos Generativos 
 
Regressão 
 
Q-Learning 
Respondido em 28/04/2022 11:46:36 
 
Explicação: 
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de 
aprendizado de máquina que pode ser utilizado tanto para regressão quanto para 
classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, 
para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama 
Árvore Regressora, ou Árvore de Decisão Regressora. 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, 
na realidade ele se refere ao processo de: 
 
 KDD 
 
CNN 
 
DNN 
 
LSTM 
 
RNN 
Respondido em 28/04/2022 11:45:28 
 
Explicação: 
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto 
de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, 
descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou 
Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in 
Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD 
comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes 
neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito 
utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não 
foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais 
recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou 
temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em 
problemas sequenciais ou temporais.

Continue navegando