Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): Acertos: 9,0 de 10,0 24/05/2023 1a Questão Acerto: 1,0 / 1,0 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. volume velocidade valor veracidade variedade Respondido em 24/05/2023 17:23:32 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 2a Questão Acerto: 1,0 / 1,0 Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Garantir a consistência da informação através da ordenação dos dados. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Usar algoritmos de criptografia nos dados para evitar o acesso indevido. Respondido em 24/05/2023 17:24:05 Explicação: Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido. 3a Questão Acerto: 1,0 / 1,0 Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Embaralhamento Combinação Gravação da saída Redução Agrupamento Respondido em 24/05/2023 17:43:34 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 4a Questão Acerto: 0,0 / 1,0 A respeito dos arquivos de configuração do Hadoop, selecione a opção correta com as tags que fornecem acesso aos parâmetros de configuração. Respondido em 24/05/2023 17:46:28 Explicação: As configurações dos arquivos do Hadoop são especificadas entre as tags configurations. As demais opções não representam tags corretas para parâmetros de configurações do Hadoop. 5a Questão Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. map, filter e union. map, take e reduce. count, collect e take. map, sample e collect. reduce, first e map. Respondido em 24/05/2023 17:46:48 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. 6a Questão Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. É possível afirmar que a tabela_teste existe. Trata-se de um exemplo de utilização do Spark SQL A implementação do trecho de código está errada. A execução do trecho de código vai funcionar corretamente. É um exemplo de aplicação de GraphX. Respondido em 24/05/2023 17:50:11 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. 7a Questão Acerto: 1,0 / 1,0 Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Apenas as opções I, II, III. Todas as opções I, II, III, IV. Apenas as opções II, III. Apenas as opções I, II, IV. Apenas a opção III. Respondido em 24/05/2023 17:51:33 Explicação: A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina. 8a Questão Acerto: 1,0 / 1,0 Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos? Gráfico de Matriz de Dispersão. Gráficos de Linha. Gráfico de Estrela. Gráfico de Faces de Chernoff. Gráficos de Barra. Respondido em 24/05/2023 17:53:53 Explicação: O gráfico de barras mostra as proporções dos dados categóricos assim evidenciando os extratos da amostra. Lembrando que os dados categóricos não se encaixam nos gráficos de dados numéricos, como o de dispersão causando confusão na função de visualização ou quebrando a mesma dependendo da biblioteca escolhida. 9a Questão Acerto: 1,0 / 1,0 As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca? Tensorflow Scipy Plotly Pandas Numpy Respondido em 24/05/2023 17:54:06 Explicação: A biblioteca TensorFlow foi criada com a finalidade de processar cálculos de forma paralela, em estruturas de grafos a fim de otimizar estes tipos de processamento, mas, devido à natureza dos modelos conexionistas, tal biblioteca foi redefinida como a principal biblioteca para implementação de redes neurais. 10a Questão Acerto: 1,0 / 1,0 Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina? Fazer com que computadores acessem a internet mais rápido. Melhorar a capacidade de processamento de dados do sistema. Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. Viabilizar a computação paralela. Incrementar o uso da memória de longa duração do sistema. Respondido em 24/05/2023 17:55:05 Explicação: A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptara novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos similares.
Compartilhar