Buscar

Simulado TÓPICOS DE BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON 
Aluno(a): RICHADSON DOS SANTOS JUNIOR 202001042105 
Acertos: 8,0 de 10,0 31/05/2022 
 
 
 
1a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que 
trata do processamento dos dados. 
 
 
veracidade 
 
valor 
 velocidade 
 
variedade 
 
volume 
Respondido em 31/05/2022 09:14:30 
 
Explicação: 
A característica velocidade trata da rapidez de geração e processamento dos dados. 
Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da 
análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a 
veracidade diz respeito à confiabilidade da origem dos dados. 
 
 
 
2a 
 Questão 
Acerto: 0,0 / 1,0 
 
Selecione a opção em que a computação se refere à execução de aplicações e serviços 
em uma rede distribuída usando recursos virtualizados. 
 
 Computação de Big Data 
 
Computação de banco de dados 
 Computação em Nuvem 
 
Computação Paralela 
 
Computação centralizada 
Respondido em 31/05/2022 09:14:55 
 
Explicação: 
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões 
de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente 
com protocolos de internet. 
 
 
 
 
3a 
 Questão 
Acerto: 1,0 / 1,0 
 
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados 
do usuário na forma de blocos de dados. 
 
 
Replicação 
 
NameNode 
 DataNode 
 
Bloco de dados 
 
YARN 
Respondido em 31/05/2022 09:18:27 
 
Explicação: 
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos 
dados na forma de blocos de dados. 
 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de 
dados que pode(m) ser armazenado(s) nele. 
 
 
apenas estruturado 
 
estruturado e semiestruturado 
 estruturado, não estruturado e semiestruturado 
 
apenas tabelas relacionais 
 
apenas não estruturado 
Respondido em 31/05/2022 09:27:27 
 
Explicação: 
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que 
correspondem a característica de variedade dos dados que é bem típica de aplicações de Big 
Data. 
 
 
 
5a 
 Questão 
Acerto: 0,0 / 1,0 
 
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar 
programas usando recursos do Apache Spark. Selecione a opção correta que contenha 
itens que são pré-requisitos de instalação para utilização do PySpark. 
 
 Java e Python 
 
Java e R 
 Casandra e Spark 
 
Python e Escala 
 
Hadoop e Spark 
Respondido em 31/05/2022 09:31:30 
 
Explicação: 
Gabarito: Java e Python 
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: 
instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar 
detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é 
necessário instalar o FindSpark e o próprio PySpark também. 
 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
Observe o trecho de código abaixo 
query = "SELECT * FROM tabela_teste WHERE valor = 
"+str(str_valor) 
registros = spark.sql(query) 
Selecione a opção correta a respeito dele. 
 
 
É possível afirmar que a tabela_teste existe. 
 
A execução do trecho de código vai funcionar corretamente. 
 
É um exemplo de aplicação de GraphX. 
 Trata-se de um exemplo de utilização do Spark SQL 
 
A implementação do trecho de código está errada. 
Respondido em 31/05/2022 09:32:14 
 
Explicação: 
Gabarito: Trata-se de um exemplo de utilização do Spark SQL 
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse 
componente viabiliza a utilização de código SQL que facilita bastante a manipulação de 
dados estruturados. A implementação está codificada corretamente, apesar de não ser 
possível afirmar se vai executar sem erros, pois no código não aparecem informações que 
permitam fazer afirmações sobre a execução. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
A visualização dos dados é fundamental no processo de análise, interpretação e 
obtenção de conhecimento. Dentre as visualizações mais adequadas para dados 
numéricos estão: 
I - Histograma 
II - Gráfico de Dispersão 
III - Gráfico de Pizza 
Analise as alternativas listadas e assinale a correta. 
 
 
As alternativas I, II e III 
 
Apenas II e III 
 
Apenas III 
 Apenas I e II 
 
Apenas I e III 
Respondido em 31/05/2022 09:36:42 
 
Explicação: 
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das 
variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para 
dados categóricos, quando queremos mostrar proporção e valores distintos de categorias 
possíveis. 
 
 
 
8a 
 Questão 
Acerto: 1,0 / 1,0 
 
Gabriel entrou recentemente em uma empresa de gestão de fundos de 
investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os 
relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O 
departamento de contabilidade extrai os dados de seus relatórios de um SAP que 
retorna valores brutos de compras, quantidades de produtos etc. Então os 
contadores organizam, por agregação, informação relevante no relatório em 
planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só 
pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos 
Contadores é respectivamente dos tipos: 
 
 Secundária; Primária. 
 
Secundária; Terciária. 
 
Primária; Primária. 
 
Secundária; Secundária. 
 
Primária; Secundária. 
Respondido em 31/05/2022 09:37:25 
 
Explicação: 
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo 
uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está 
funcionando como um repositório de dados para eles. 
 
 
 
9a 
 Questão 
Acerto: 1,0 / 1,0 
 
Qual destes modelos é adequado para um problema de classificação? 
I - SVM 
II - Árvore de Decisão 
III - K-Médias 
 
 Apenas as opções I e II 
 
Todas as opções I, II e III 
 
Apenas as opções II e III 
 
Apenas as opções I e III 
 
Apenas a opção III 
Respondido em 31/05/2022 09:43:07 
 
Explicação: 
O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a 
regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, 
o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de 
aprendizado não supervisionado. 
 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
Qual o objetivo da inteligência artificial ao simular comportamentos humanos na 
máquina? 
 
 
Fazer com que computadores acessem a internet mais rápido. 
 
Viabilizar a computação paralela. 
 
Incrementar o uso da memória de longa duração do sistema. 
 Otimizar algoritmos para que eles se adaptem a contextos não previamente 
codificados. 
 
Melhorar a capacidade de processamento de dados do sistema. 
Respondido em 31/05/2022 09:43:25 
 
Explicação: 
A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes 
de se adaptar a novas situações que não necessariamente foram pré-programadas, mas se 
adapte pela experiência passada com casos similares.

Continue navegando

Outros materiais