Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Acerto: 1,0 / 1,0 Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. Usar algoritmos de criptografia nos dados para evitar o acesso indevido. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Garantir a consistência da informação através da ordenação dos dados. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Respondido em 05/04/2022 17:44:28 Explicação: Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido. Acerto: 1,0 / 1,0 Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. UDP CoAP MQTT HTTP TCP Respondido em 05/04/2022 17:44:33 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. Acerto: 1,0 / 1,0 Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É um repositório para tratamento dos dados. Respondido em 05/04/2022 17:46:06 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. Acerto: 1,0 / 1,0 Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. Armazenam os dados de modo eficiente. Demandam por equipamentos especiais. Possui alta latência para acesso dos dados. Aplicam processos de tratamento nos dados. São exclusivos da distribuição Hadoop Apache. Respondido em 05/04/2022 17:45:59 Explicação: O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache. Acerto: 1,0 / 1,0 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. mapRandom distinct random sample filter Respondido em 05/04/2022 17:47:44 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. map, sample e collect. count, collect e take. map, filter e union. map, take e reduce. reduce, first e map. Respondido em 05/04/2022 17:47:52 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: I - Histograma II - Gráfico de Dispersão III - Gráfico de Pizza Analise as alternativas listadas e assinale a correta. Apenas III Apenas I e III Apenas I e II Apenas II e III As alternativas I, II e III Respondido em 05/04/2022 17:51:17 Explicação: Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis. Acerto: 1,0 / 1,0 No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Categóricos Numéricos Atemporais Semi-Estruturados Temporais Respondido em 05/04/2022 17:53:09 Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. Acerto: 1,0 / 1,0 As técnicas de aprendizado de máquina para aprendizado supervisionado são: I - Classificação II - Agrupamento III - Regressão Apenas I Apenas II e III Apenas I e II Apenas II Apenas I e III Respondido em 05/04/2022 17:54:00 Explicação: O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros, baseado no registro histórico e suas características. Acerto: 1,0 / 1,0 Qual destes modelos é adequado para um problema de classificação? I - SVM II - Árvore de Decisão III - K-Médias Apenas as opções I e III Apenas as opções II e III Apenas as opções I e II Apenas a opção III Todas as opções I, II e III Respondido em 05/04/2022 17:57:21 Explicação: O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.
Compartilhar