Baixe o app para aproveitar ainda mais
Prévia do material em texto
1a Questão Acerto: 0,0 / 1,0 Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Usar algoritmos de criptografia nos dados para evitar o acesso indevido. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Garantir a consistência da informação através da ordenação dos dados. Respondido em 04/04/2022 17:56:23 Explicação: Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido. 2a Questão Acerto: 1,0 / 1,0 Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. UDP HTTP TCP MQTT CoAP Respondido em 04/04/2022 17:56:29 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. 3a Questão Acerto: 0,0 / 1,0 Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker. Task Tracker Job Tracker Slave MapTracker MapReduce MapJob Respondido em 04/04/2022 17:58:23 Explicação: O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento. 4a Questão Acerto: 0,0 / 1,0 Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Combinação Redução Embaralhamento Agrupamento Gravação da saída Respondido em 04/04/2022 18:02:52 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 5a Questão Acerto: 1,0 / 1,0 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. mapRandom filter random sample distinct Respondido em 04/04/2022 17:57:48 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 6a Questão Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. count, collect e take. map, sample e collect. reduce, first e map. map, take e reduce. map, filter e union. Respondido em 04/04/2022 17:57:34 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. 7a Questão Acerto: 1,0 / 1,0 Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey. Apenas a opção II está correta. Apenas a opção I está correta. Apenas a opção III está correta. Apenas as opções II e III estão corretas. Apenas as opções I e III estão corretas. Respondido em 24/03/2022 14:29:34 Explicação: A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames. 8a Questão Acerto: 0,0 / 1,0 A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: I - Histograma II - Gráfico de Dispersão III - Gráfico de Pizza Analise as alternativas listadas e assinale a correta. Apenas I e II Apenas I e III Apenas III Apenas II e III As alternativas I, II e III Respondido em 04/04/2022 18:02:46 Explicação: Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis. 9a Questão Acerto: 0,0 / 1,0 O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de: DNN RNN LSTM CNN KDD Respondido em 04/04/2022 17:59:47 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.10a Questão Acerto: 1,0 / 1,0 Quais os métodos de aprendizado de máquina que existem? Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Respondido em 24/03/2022 14:30:00 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.
Compartilhar