Buscar

SIMU BIG DATA 10

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

Meus 
Simulad
os 
Teste seu conhecimento 
acumulado 
 
 
 
 
Disc.: TÓPICOS DE BIG DATA EM PYTHON 
Aluno(a): ASDASD ASDASD 
Acertos: 10,0 de 10,0 06/09/2022 
 
 
1a 
 Questão 
Acerto: 1,0 / 1,0 
 
A respeito das aplicações de fluxos de dados, selecione a opção correta. 
 
 
 
Serviço de correio eletrônico 
 Serviços sob demanda, como serviços de filme online. 
 
Reapresentação de programas de televisão. 
 
Transações bancárias, como o serviço de PIX. 
 
Serviços de compras online 
Respondido em 06/09/2022 11:26:12 
 
Explicação: 
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados 
em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As 
demais opções estão erradas, pois são exemplos de serviços em que os dados já foram 
gerados, ou que são usados apenas esporadicamente. 
 
 
 
2a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem 
que é usada como referência para as outras plataformas. 
 
 
 
Oracle Cloud 
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
 
IBM Cloud 
 Amazon AWS 
 
Microsft Azure 
 
Google Cloud 
Respondido em 06/09/2022 11:48:20 
 
Explicação: 
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como 
principal referência do mercado. As outras plataformas também são muito importantes e, 
junto com a Amazon, detém boa fatia do mercado. 
 
 
 
3a 
 Questão 
Acerto: 1,0 / 1,0 
 
A respeito do Hadoop, selecione a opção correta com o componente que faz o 
rastreamento de tarefas. 
 
 
 
Mrjob 
 
HDFS 
 MapReduce 
 
Camada de ingestão 
 
Task manager 
Respondido em 06/09/2022 19:12:00 
 
Explicação: 
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através 
de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais 
alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de 
rastreamento de tarefas. 
 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação 
custo e benefício a respeito da expansão de uma infraestrutura. 
 
 
 
Tempo de resposta 
 
Volume de dados 
 
Variedade dos dados 
 
Flexibilidade 
 Escalabilidade 
Respondido em 06/09/2022 11:48:01 
 
Explicação: 
A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em 
projetos de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como 
computadores pessoais formando clusters de escalabilidade horizontal. 
 
 
 
5a 
 Questão 
Acerto: 1,0 / 1,0 
 
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos 
com finalidades específicas. Selecione a opção que contém o componente do 
ecossistema do Spark especializado em aplicações de aprendizado de máquina. 
 
 
 
GraphX Learning 
 MLlib 
 
MLSpark 
 
RDDs 
 
Spark Learning 
Respondido em 06/09/2022 11:27:58 
 
Explicação: 
Gabarito: MLlib 
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para 
implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines 
de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX 
Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes 
para conjunto de dados resilientes. 
 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
Observe o trecho de código abaixo 
query = "SELECT * FROM tabela_teste WHERE valor = 
"+str(str_valor) 
registros = spark.sql(query) 
Selecione a opção correta a respeito dele. 
 
 
 
É possível afirmar que a tabela_teste existe. 
 
É um exemplo de aplicação de GraphX. 
 
A execução do trecho de código vai funcionar corretamente. 
 Trata-se de um exemplo de utilização do Spark SQL 
 
A implementação do trecho de código está errada. 
Respondido em 06/09/2022 11:27:33 
 
Explicação: 
Gabarito: Trata-se de um exemplo de utilização do Spark SQL 
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse 
componente viabiliza a utilização de código SQL que facilita bastante a manipulação de 
dados estruturados. A implementação está codificada corretamente, apesar de não ser 
possível afirmar se vai executar sem erros, pois no código não aparecem informações que 
permitam fazer afirmações sobre a execução. 
 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o 
seguinte código: 
import pandas as pd 
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) 
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) 
df1.merge(df2, left_on='lkey', right_on='rkey') 
Qual destas alternativas descreve as saídas do código? 
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y 
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna 
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos 
pela lkey e rkey. 
 
 
 
Apenas as opções I e III estão corretas. 
 
Apenas a opção III está correta. 
 
Apenas as opções II e III estão corretas. 
 
Apenas a opção II está correta. 
 Apenas a opção I está correta. 
Respondido em 06/09/2022 21:44:33 
 
Explicação: 
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as 
colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A 
afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos 
de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A 
afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez 
que estamos falando de operações fechadas assim como a álgebra que rege o bom 
funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída 
obrigatoriamente também tem que ser de DataFrames. 
 
 
 
8a 
 Questão 
Acerto: 1,0 / 1,0 
 
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a 
linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no 
pandas? 
 
 
 
sum 
 merge 
 
reset_index 
 
values 
 
set_index 
Respondido em 06/09/2022 21:27:57 
 
Explicação: 
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de 
indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais 
alternativas não dizem respeito à operação de junção entre DataFrames. 
 
 
 
9a 
 Questão 
Acerto: 1,0 / 1,0 
 
Como podemos checar as métricas de classificação do modelo neural da biblioteca 
Scikit-Learn? 
 
 
 
Plotly 
 Classification Report 
 
Gráfico de Matriz de Dispersão 
 
Regressão Linear 
 
Gráfico de Histograma 
Respondido em 06/09/2022 21:44:02 
 
Explicação: 
O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar 
um conjunto ground truth para comparar contra as predições de um modelo e este 
calculará as métricas de acurácia, precisão e medida F de cada classe possível e também as 
mesmas métricas em um nível macro. 
 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
As técnicas de aprendizado de máquina para aprendizado supervisionado são: 
 
I - Classificação 
II - Agrupamento 
III - Regressão 
 
 
 
Apenas I e II 
 Apenas I e III 
 
Apenas II e III 
 
Apenas II 
 
Apenas I 
Respondido em 06/09/2022 21:44:09 
 
Explicação: 
O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que 
o modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um 
valor numérico para novos registros, baseado no registro histórico e suas características. 
 
 
 
 
 
 
 
 
 
 
 
 
 
javascript:abre_colabore('38403','292421456','5619397840');

Continue navegando

Outros materiais