Baixe o app para aproveitar ainda mais
Prévia do material em texto
TESTE DE CONHECIMENTO- TÓPICOS DE BIG DATA EM PYTHON 1- Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o - Arduino. É um protocolo de internet das coisas É um programa É um ecossistema que envolve software e hardware É o outro nome para Raspberry PI É uma placa de hardware 2- Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. velocidade variedade valor veracidade volume 3- A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. Bloco de dados YARN NameNode DataNode Replicação 4 - Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. estruturado e semiestruturado apenas não estruturado estruturado, não estruturado e semiestruturado apenas estruturado apenas tabelas relacionais 5 - Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. SparkSession RDD SparkContext DataFrame Spark.Catalog 6- Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. A implementação do trecho de código está errada. É um exemplo de aplicação de GraphX. A execução do trecho de código vai funcionar corretamente. É possível afirmar que a tabela_teste existe. Trata-se de um exemplo de utilização do Spark SQL 7 - Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python? Gerenciador de espaços virtuais do Python. Gerenciador de Pacotes do Python. Motor de Busca da IDE do Python. Biblioteca de Processamento de Linguagem Natural. Gerenciador de memória do Python. 8 - Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Apenas as opções II, III. Apenas a opção III. Apenas as opções I, II, IV. Todas as opções I, II, III, IV Apenas as opções I, II, III. 9- Qual destes modelos é adequado para um problema de classificação? I - SVM II - Árvore de Decisão III - K-Médias Apenas as opções I e III Apenas as opções II e III Apenas as opções I e II Todas as opções I, II e III Apenas a opção III 10 - Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? Classification Report Plotly Gráfico de Matriz de Dispersão Gráfico de Histograma Regressão Linear
Compartilhar