Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Acertos: 8,0 de 10,0 21/04/2022 1a Questão Acerto: 1,0 / 1,0 Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. Garantir a consistência da informação através da ordenação dos dados. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Usar algoritmos de criptografia nos dados para evitar o acesso indevido. Respondido em 21/04/2022 17:28:15 Explicação: Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido. 2a Questão Acerto: 1,0 / 1,0 Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. UDP CoAP HTTP MQTT TCP Respondido em 21/04/2022 17:28:25 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. 3a Questão Acerto: 1,0 / 1,0 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. HDFS Camada de ingestão MapReduce Task manager Mrjob Respondido em 21/04/2022 17:30:05 Explicação: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. 4a Questão Acerto: 1,0 / 1,0 Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop. Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. A estrutura de desenvolvimento no Hadoop é sequencial. O Hadoop utiliza o HDFS para armazenar dados. O Hadoop não funciona com pequenos volumes de dados. O Hadoop tem apenas uma única distribuição. Respondido em 21/04/2022 17:31:16 Explicação: O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). 5a Questão Acerto: 1,0 / 1,0 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. filter sample mapRandom random distinct Respondido em 21/04/2022 17:32:18 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 6a Questão Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. map, filter e union. count, collect e take. map, take e reduce. reduce, first e map. map, sample e collect. Respondido em 21/04/2022 17:32:28 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. 7a Questão Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais? Gráfico de Linha. Gráfico de Estrela. Gráfico de Faces de Chernoff. Gráfico de Matriz de Dispersão. Gráfico de Barra. Respondido em 21/04/2022 17:33:03 Explicação: O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais. 8a Questão Acerto: 0,0 / 1,0 Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey. Apenas a opção III está correta. Apenas as opções II e III estão corretas. Apenas a opção I está correta. Apenas as opções I e III estão corretas. Apenas a opção II está correta. Respondido em 21/04/2022 17:34:57 Explicação: A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames. 9a Questão Acerto: 0,0 / 1,0 Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está lidando? IA Pura IA Simbólica IA Quântica IA Biológica IA SubSimbólica Respondido em 21/04/2022 17:38:33 Explicação: As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos dados a partir de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior diferença dos modelos simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores predições por exatidão. 10a Questão Acerto: 1,0 / 1,0 O termo mineração de dados é amplamente usado na comunidade técnicaa esmo, mas, na realidade ele se refere ao processo de: DNN RNN KDD CNN LSTM Respondido em 21/04/2022 17:38:49 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.
Compartilhar