SIMU BIG DATA 10

7

0

7

0

Jordania Luz

07/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise e Desenvolvimento de Sistemas

51.485 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Meus
Simulad
os
Teste seu conhecimento
acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): ASDASD ASDASD
Acertos: 10,0 de 10,0 06/09/2022

1a
Questão
Acerto: 1,0 / 1,0

A respeito das aplicações de fluxos de dados, selecione a opção correta.

Serviço de correio eletrônico
Serviços sob demanda, como serviços de filme online.

Reapresentação de programas de televisão.

Transações bancárias, como o serviço de PIX.

Serviços de compras online
Respondido em 06/09/2022 11:26:12

Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados
em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As
demais opções estão erradas, pois são exemplos de serviços em que os dados já foram
gerados, ou que são usados apenas esporadicamente.

2a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem
que é usada como referência para as outras plataformas.

Oracle Cloud
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();

IBM Cloud
Amazon AWS

Microsft Azure

Google Cloud
Respondido em 06/09/2022 11:48:20

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como
principal referência do mercado. As outras plataformas também são muito importantes e,
junto com a Amazon, detém boa fatia do mercado.

3a
Questão
Acerto: 1,0 / 1,0

A respeito do Hadoop, selecione a opção correta com o componente que faz o
rastreamento de tarefas.

Mrjob

HDFS
MapReduce

Camada de ingestão

Task manager
Respondido em 06/09/2022 19:12:00

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através
de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais
alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de
rastreamento de tarefas.

4a
Questão
Acerto: 1,0 / 1,0

Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação
custo e benefício a respeito da expansão de uma infraestrutura.

Tempo de resposta

Volume de dados

Variedade dos dados

Flexibilidade
Escalabilidade
Respondido em 06/09/2022 11:48:01

Explicação:
A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em
projetos de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como
computadores pessoais formando clusters de escalabilidade horizontal.

5a
Questão
Acerto: 1,0 / 1,0

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos
com finalidades específicas. Selecione a opção que contém o componente do
ecossistema do Spark especializado em aplicações de aprendizado de máquina.

GraphX Learning
MLlib

MLSpark

RDDs

Spark Learning
Respondido em 06/09/2022 11:27:58

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para
implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines
de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX
Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes
para conjunto de dados resilientes.

6a
Questão
Acerto: 1,0 / 1,0

Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor =
"+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.

É possível afirmar que a tabela_teste existe.

É um exemplo de aplicação de GraphX.

A execução do trecho de código vai funcionar corretamente.
Trata-se de um exemplo de utilização do Spark SQL

A implementação do trecho de código está errada.
Respondido em 06/09/2022 11:27:33

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse
componente viabiliza a utilização de código SQL que facilita bastante a manipulação de
dados estruturados. A implementação está codificada corretamente, apesar de não ser
possível afirmar se vai executar sem erros, pois no código não aparecem informações que
permitam fazer afirmações sobre a execução.

7a
Questão
Acerto: 1,0 / 1,0

Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o
seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos
pela lkey e rkey.

Apenas as opções I e III estão corretas.

Apenas a opção III está correta.

Apenas as opções II e III estão corretas.

Apenas a opção II está correta.
Apenas a opção I está correta.
Respondido em 06/09/2022 21:44:33

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as
colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A
afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos
de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A
afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez
que estamos falando de operações fechadas assim como a álgebra que rege o bom
funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída
obrigatoriamente também tem que ser de DataFrames.

8a
Questão
Acerto: 1,0 / 1,0

Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a
linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no
pandas?

sum
merge

reset_index

values

set_index
Respondido em 06/09/2022 21:27:57

Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de
indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais
alternativas não dizem respeito à operação de junção entre DataFrames.

9a
Questão
Acerto: 1,0 / 1,0

Como podemos checar as métricas de classificação do modelo neural da biblioteca
Scikit-Learn?

Plotly
Classification Report

Gráfico de Matriz de Dispersão

Regressão Linear

Gráfico de Histograma
Respondido em 06/09/2022 21:44:02

Explicação:
O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar
um conjunto ground truth para comparar contra as predições de um modelo e este
calculará as métricas de acurácia, precisão e medida F de cada classe possível e também as
mesmas métricas em um nível macro.

10a
Questão
Acerto: 1,0 / 1,0

As técnicas de aprendizado de máquina para aprendizado supervisionado são:

I - Classificação
II - Agrupamento
III - Regressão

Apenas I e II
Apenas I e III

Apenas II e III

Apenas II

Apenas I
Respondido em 06/09/2022 21:44:09

Explicação:
O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que
o modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um
valor numérico para novos registros, baseado no registro histórico e suas características.

javascript:abre_colabore('38403','292421456','5619397840');