Baixe o app para aproveitar ainda mais
Prévia do material em texto
Meus Simulados Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): Acertos: 10,0 de 10,0 08/03/2023 1a Questão Acerto: 1,0 / 1,0 Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. HTTP MQTT UDP CoAP TCP Respondido em 08/03/2023 15:47:57 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. 2a Questão Acerto: 1,0 / 1,0 Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Google Cloud Amazon AWS IBM Cloud Microsft Azure Oracle Cloud Respondido em 08/03/2023 15:48:57 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. 3a Questão Acerto: 1,0 / 1,0 Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Redução Combinação Gravação da saída Embaralhamento Agrupamento Respondido em 08/03/2023 15:49:57 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 4a Questão Acerto: 1,0 / 1,0 Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. É um repositório para tratamento dos dados. Respondido em 08/03/2023 15:52:57 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 5a Questão Acerto: 1,0 / 1,0 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. GraphX Learning RDDs Spark Learning MLSpark MLlib Respondido em 08/03/2023 15:54:04 Explicação: Gabarito: MLlib Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. 6a Questão Acerto: 1,0 / 1,0 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. filter random mapRandom distinct sample Respondido em 08/03/2023 15:57:29 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 7a Questão Acerto: 1,0 / 1,0 A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto? loc reset_index sum iloc shuffle Respondido em 08/03/2023 16:01:28 Explicação: Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do DataFrame. 8a Questão Acerto: 1,0 / 1,0 Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Apenas as opções II, III. Apenas as opções I, II, III. Apenas as opções I, II, IV. Todas as opções I, II, III, IV. Apenas a opção III. Respondido em 08/03/2023 16:02:53 Explicação: A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina. 9a Questão Acerto: 1,0 / 1,0 As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca? Numpy Pandas Plotly Tensorflow Scipy Respondido em 08/03/2023 16:04:15 Explicação: A biblioteca TensorFlow foi criada com a finalidade de processar cálculos de forma paralela, em estruturas de grafos a fim de otimizar estes tipos de processamento, mas, devido à natureza dos modelos conexionistas, tal biblioteca foi redefinida como a principal biblioteca para implementação de redes neurais. 10a Questão Acerto: 1,0 / 1,0 Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________: IRIS; Processamento da Linguagem Natural IRIS; Processamento de Imagens Pizzas; Categorias MNIST; Processamento de Imagens MNIST; Processamento de Linguagem Natural Respondido em 08/03/2023 16:06:00 Explicação: O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de imagens, uma vez que uma boa configuração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST.
Compartilhar