Prévia do material em texto
SIMULADO TÓPICOS DE BIG DATA EM PYTHON 1a Questão Acerto: 1,0 / 1,0 Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. Computação Paralela Computação centralizada Computação de banco de dados Computação de Big Data Computação em Nuvem Respondido em 27/03/2022 10:15:53 Explicação: As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet. 2a Questão Acerto: 1,0 / 1,0 Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas. Camada de enlace de dados Camada de aplicação Camada de sessão Camada lógica Camada de transporte Respondido em 27/03/2022 10:15:09 Explicação: A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos. 3a Questão Acerto: 1,0 / 1,0 O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake. Camada de Metadados Camada de gerenciamento de dados Camada de gerenciamento do ciclo de vida da informação Camada de segurança Camada de governança Respondido em 27/03/2022 10:31:37 Explicação: O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados, da marcação e identificação dos dados e das regras de armazenamento. 4a Questão Acerto: 1,0 / 1,0 Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de Metadados Nível de gerenciamento Nível de admissão Nível de governança Nível de consumo Respondido em 27/03/2022 10:32:29 Explicação: O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços de aquisição de dados, da identificação e localização dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de decisão. 5a Questão Acerto: 1,0 / 1,0 O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. Consiste em uma técnica de programação sequencial É uma técnica de computação distribuída Foi substituída no Spark por acesso direto à memória Só pode ser aplicada para grandes volumes de dados É uma técnica lenta para processamento de grandes volumes de dados Respondido em 27/03/2022 10:17:34 Explicação: Gabarito: É uma técnica de computação distribuída Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos. 6a Questão Acerto: 1,0 / 1,0 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. SparkContext SparkSession Spark.Catalog DataFrame RDD Respondido em 27/03/2022 10:34:18 Explicação: Gabarito: SparkContext Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais. 7a Questão Acerto: 1,0 / 1,0 Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python? Gerenciador de Pacotes do Python. Gerenciador de memória do Python. Gerenciador de espaços virtuais do Python. Motor de Busca da IDE do Python. Biblioteca de Processamento de Linguagem Natural. Respondido em 27/03/2022 10:19:24 Explicação: O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes. 8a Questão Acerto: 0,0 / 1,0 A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: I - Histograma II - Gráfico de Dispersão III - Gráfico de Pizza Analise as alternativas listadas e assinale a correta. Apenas I e II As alternativas I, II e III Apenas II e III Apenas I e III Apenas III Respondido em 27/03/2022 10:38:57 Explicação: Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis. 9a Questão Acerto: 0,0 / 1,0 Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré- Processamento e Transformação de Dados III - A obrigatoriedade da entrega de um artefato de ML Apenas a opção I As opções I, II, e III estão corretas Apenas a opção II Apenas as opções I e III Apenas as opções II e III Respondido em 27/03/2022 10:43:01 Explicação: O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML. 10a Questão Acerto: 1,0 / 1,0 Quais os métodos de aprendizado de máquina que existem? Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Respondido em 27/03/2022 10:23:21 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões deforma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.