Baixe o app para aproveitar ainda mais
Prévia do material em texto
isc.: TÓPICOS DE BIG DATA EM PYTHON 9,0 de 10,0 de 10,0 29/03/2022 1a Acerto: 1,0 / 1,0 Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. Computação em Nuvem Computação centralizada Computação de Big Data Computação Paralela Computação de banco de dados As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet. 2a Acerto: 1,0 / 1,0 Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas. Camada de aplicação Camada de sessão Camada lógica Camada de enlace de dados Camada de transporte A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos. 3a Acerto: 1,0 / 1,0 A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. NameNode YARN Replicação Bloco de dados DataNode O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. 4a Acerto: 1,0 / 1,0 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas tabelas relacionais estruturado, não estruturado e semiestruturado apenas estruturado apenas não estruturado estruturado e semiestruturado O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. 5a Acerto: 1,0 / 1,0 O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. Consiste em uma técnica de programação sequencial Só pode ser aplicada para grandes volumes de dados É uma técnica lenta para processamento de grandes volumes de dados Foi substituída no Spark por acesso direto à memória É uma técnica de computação distribuída Gabarito: É uma técnica de computação distribuída Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos. 6a Acerto: 1,0 / 1,0 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. DataFrame SparkContext SparkSession Spark.Catalog RDD Gabarito: SparkContext Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais. 7a Acerto: 1,0 / 1,0 Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python? Motor de Busca da IDE do Python. Gerenciador de Pacotes do Python. Gerenciador de espaços virtuais do Python. Biblioteca de Processamento de Linguagem Natural. Gerenciador de memória do Python. O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes. 8a Acerto: 1,0 / 1,0 Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Secundária; Terciária. Secundária; Primária. Primária; Primária. Secundária; Secundária. Primária; Secundária. Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles. 9a Acerto: 0,0 / 1,0 Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados III - A obrigatoriedade da entrega de um artefato de ML Apenas a opção I Apenas as opções II e III Apenas as opções I e III As opções I, II, e III estão corretas Apenas a opção II O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML. 10a Acerto: 1,0 / 1,0 Quais os métodos de aprendizado de máquina que existem? Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.
Compartilhar