Baixe o app para aproveitar ainda mais
Prévia do material em texto
Simulado AV Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): ULYSSES FERREIRA SERRA 202101172442 Acertos: 10,0 de 10,0 31/05/2022 Acerto: 1,0 / 1,0 Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data. Petabytes Gigabytes Zetabytes Exabytes Terabytes Respondido em 31/05/2022 13:32:46 Explicação: As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes. Acerto: 1,0 / 1,0 Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. É um protocolo de internet das coisas É um programa É uma placa de hardware É o outro nome para Raspberry PI É um ecossistema que envolve software e hardware Respondido em 31/05/2022 13:33:36 Explicação: O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas. Questão1 a Questão2 a https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); Acerto: 1,0 / 1,0 Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Redução Combinação Agrupamento Gravação da saída Embaralhamento Respondido em 31/05/2022 13:34:16 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. Acerto: 1,0 / 1,0 Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que contém o arquivo que trata das configurações do HDFS. yarn-site.xml mapred-site.xml hdfs-site.xml core-site.xml hadoop-env.cmd Respondido em 31/05/2022 13:34:48 Explicação: O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para processos do HDFS. Ele também é responsável por fazer a especificação da replicação de bloco padrão e verificação de permissão no HDFS. Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. reduce, first e map. map, sample e collect. count, collect e take. map, filter e union. map, take e reduce. Respondido em 31/05/2022 13:35:18 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções Questão3 a Questão4 a Questão5 a de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. Acerto: 1,0 / 1,0 O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL. RDD DAG Tasks Executor Work Node Respondido em 31/05/2022 13:35:59 Explicação: Gabarito: RDD Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo. Acerto: 1,0 / 1,0 A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto? sum shuffle loc reset_index iloc Respondido em 31/05/2022 13:36:38 Explicação: Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do DataFrame. Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: I - Histograma II - Gráfico de Dispersão III - Gráfico de Pizza Analise as alternativas listadas e assinale a correta. Apenas III Apenas I e III Questão6 a Questão7 a Questão8 a As alternativas I, II e III Apenas I e II Apenas II e III Respondido em 31/05/2022 13:40:10 Explicação: Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis. Acerto: 1,0 / 1,0 O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de: LSTM CNN DNN KDD RNN Respondido em 31/05/2022 13:39:27 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais. Acerto: 1,0 / 1,0 Qual destes modelos é adequado para um problema de classificação? I - SVM II - Árvore de Decisão III - K-Médias Apenas as opções I e II Todas as opções I, II e III Apenas a opção III Apenas as opções I e III Apenas as opções II e III Respondido em 31/05/2022 13:39:58 Explicação: O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado. Questão9 a Questão10 a javascript:abre_colabore('38403','286090042','5442466081');
Compartilhar