Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): RICHADSON DOS SANTOS JUNIOR 202001042105 Acertos: 8,0 de 10,0 31/05/2022 1a Questão Acerto: 1,0 / 1,0 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. veracidade valor velocidade variedade volume Respondido em 31/05/2022 09:14:30 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 2a Questão Acerto: 0,0 / 1,0 Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. Computação de Big Data Computação de banco de dados Computação em Nuvem Computação Paralela Computação centralizada Respondido em 31/05/2022 09:14:55 Explicação: As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet. 3a Questão Acerto: 1,0 / 1,0 A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. Replicação NameNode DataNode Bloco de dados YARN Respondido em 31/05/2022 09:18:27 Explicação: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. 4a Questão Acerto: 1,0 / 1,0 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas estruturado estruturado e semiestruturado estruturado, não estruturado e semiestruturado apenas tabelas relacionais apenas não estruturado Respondido em 31/05/2022 09:27:27 Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. 5a Questão Acerto: 0,0 / 1,0 O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Java e Python Java e R Casandra e Spark Python e Escala Hadoop e Spark Respondido em 31/05/2022 09:31:30 Explicação: Gabarito: Java e Python Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. 6a Questão Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. É possível afirmar que a tabela_teste existe. A execução do trecho de código vai funcionar corretamente. É um exemplo de aplicação de GraphX. Trata-se de um exemplo de utilização do Spark SQL A implementação do trecho de código está errada. Respondido em 31/05/2022 09:32:14 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. 7a Questão Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: I - Histograma II - Gráfico de Dispersão III - Gráfico de Pizza Analise as alternativas listadas e assinale a correta. As alternativas I, II e III Apenas II e III Apenas III Apenas I e II Apenas I e III Respondido em 31/05/2022 09:36:42 Explicação: Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis. 8a Questão Acerto: 1,0 / 1,0 Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Secundária; Primária. Secundária; Terciária. Primária; Primária. Secundária; Secundária. Primária; Secundária. Respondido em 31/05/2022 09:37:25 Explicação: Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles. 9a Questão Acerto: 1,0 / 1,0 Qual destes modelos é adequado para um problema de classificação? I - SVM II - Árvore de Decisão III - K-Médias Apenas as opções I e II Todas as opções I, II e III Apenas as opções II e III Apenas as opções I e III Apenas a opção III Respondido em 31/05/2022 09:43:07 Explicação: O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado. 10a Questão Acerto: 1,0 / 1,0 Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina? Fazer com que computadores acessem a internet mais rápido. Viabilizar a computação paralela. Incrementar o uso da memória de longa duração do sistema. Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. Melhorar a capacidade de processamento de dados do sistema. Respondido em 31/05/2022 09:43:25 Explicação: A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptar a novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos similares.
Compartilhar