Topicos_Big_Data_Em_Python_AV1

•

ESTÁCIO

5

0

5

0

Luiz Araujo

29/03/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Gestão da Tecnologia da Informação

12.453 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

isc.: TÓPICOS DE BIG DATA EM PYTHON

9,0 de 10,0 de 10,0
29/03/2022
1a
Acerto: 1,0 / 1,0
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
Computação em Nuvem

Computação centralizada

Computação de Big Data

Computação Paralela

Computação de banco de dados
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.
2a
Acerto: 1,0 / 1,0
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.

Camada de aplicação

Camada de sessão

Camada lógica

Camada de enlace de dados
Camada de transporte
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos.
3a
Acerto: 1,0 / 1,0
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.

NameNode

YARN

Replicação

Bloco de dados
DataNode
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados.

4a
Acerto: 1,0 / 1,0
Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.

apenas tabelas relacionais
estruturado, não estruturado e semiestruturado

apenas estruturado

apenas não estruturado

estruturado e semiestruturado
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data.
5a
Acerto: 1,0 / 1,0
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.

Consiste em uma técnica de programação sequencial

Só pode ser aplicada para grandes volumes de dados

É uma técnica lenta para processamento de grandes volumes de dados

Foi substituída no Spark por acesso direto à memória
É uma técnica de computação distribuída
Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos.
6a
Acerto: 1,0 / 1,0
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.

DataFrame
SparkContext

SparkSession

Spark.Catalog

RDD
Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais.
7a
Acerto: 1,0 / 1,0
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python?

Motor de Busca da IDE do Python.
Gerenciador de Pacotes do Python.

Gerenciador de espaços virtuais do Python.

Biblioteca de Processamento de Linguagem Natural.

Gerenciador de memória do Python.
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes.
8a
Acerto: 1,0 / 1,0
Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos:

Secundária; Terciária.
Secundária; Primária.

Primária; Primária.

Secundária; Secundária.

Primária; Secundária.
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles.
9a
Acerto: 0,0 / 1,0
Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?
I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML

Apenas a opção I

Apenas as opções II e III

Apenas as opções I e III
As opções I, II, e III estão corretas
Apenas a opção II
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML.
10a
Acerto: 1,0 / 1,0
Quais os métodos de aprendizado de máquina que existem?

Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado

Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório

Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado

Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.