Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Acertos: 10,0 de 10,0 17/05/2022 1a Questão Acerto: 1,0 / 1,0 Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. É uma placa de hardware É um ecossistema que envolve software e hardware É o outro nome para Raspberry PI É um protocolo de internet das coisas É um programa Respondido em 17/05/2022 10:51:01 Explicação: O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas. 2a Questão Acerto: 1,0 / 1,0 Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. CoAP HTTP TCP UDP MQTT Respondido em 17/05/2022 10:52:05 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. 3a Questão Acerto: 1,0 / 1,0 Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que contém o arquivo que trata das configurações do HDFS. hdfs-site.xml mapred-site.xml core-site.xml yarn-site.xml hadoop-env.cmd Respondido em 17/05/2022 10:59:23 Explicação: O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para processos do HDFS. Ele também é responsável por fazer a especificação da replicação de bloco padrão e verificação de permissão no HDFS. 4a Questão Acerto: 1,0 / 1,0 Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Redução Gravação da saída Embaralhamento Combinação Agrupamento Respondido em 17/05/2022 10:54:22 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 5a Questão Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. map, take e reduce. count, collect e take. reduce, first e map. map, sample e collect. map, filter e union. Respondido em 17/05/2022 10:54:58 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. 6a Questão Acerto: 1,0 / 1,0 Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A execução do trecho de código vai gerar um erro. A utilização do SparkContext é opcional. O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". A variável "teste" corresponde a um RDD. Respondido em 17/05/2022 11:44:12 Explicação: Gabarito: A variável "teste" corresponde a um RDD. Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". 7a Questão Acerto: 1,0 / 1,0 Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Apenas a opção III. Todas as opções I, II, III, IV. Apenas as opções II, III. Apenas as opções I, II, IV. Apenas as opções I, II, III. Respondido em 17/05/2022 11:42:09 Explicação: A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina. 8a Questão Acerto: 1,0 / 1,0 A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços condicionais e instruções de repetição. for i in range(10): if (i%2==0): print(i) Qual a saída esperada após a execução do programa? Serão impressos no console os números racionais entre 0 e 9. Serão impressos no console os números ímpares entre 0 e 10. Serão impressos no console os números ímpares entre 0 e 9. Serão impressos no console os números pares entre 1 e 10. Serão impressos no console os números pares entre 0 e 9. Respondido em 17/05/2022 11:10:44 Explicação: O constructo de laço que itera sobre uma sequência dos números reais de 0 a 9, e cujo condicional dentro do laço escolhe apenas os números cujo resto de sua divisão por 2 seja 0, condição lógica que define se um número é par ou não. 9a Questão Acerto: 1,0 / 1,0 As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) Camadas Escondidas Pesos Camada de Saída Função de Ativação Vieses Respondido em 17/05/2022 11:41:16 Explicação: O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados. 10a Questão Acerto: 1,0 / 1,0 A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence? Agrupamento Regressão Q-Learning Modelos Generativos Classificação Respondido em 17/05/2022 11:10:47 Explicação: O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.
Compartilhar