Simulado - TÓPICOS DE BIG DATA EM PYTHON pdf

•

ESTÁCIO

VXS

21/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

15/10/2022 15:04 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/4

15/10/2022 15:04 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/4

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela
geração de pares intermediários de valor e chave.
Agrupamento
Redução
Gravação da saída
Combinação
Embaralhamento
Respondido em 15/10/2022 13:59:35

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo
MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução,
o que é realizado em paralelo com outras tarefas da fase de mapeamento.

O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável
por fazer a marcação dos dados do Data Lake.
Camada de gerenciamento do ciclo de vida da informação
Camada de segurança
Camada de governança
Camada de Metadados
Camada de gerenciamento de dados
Respondido em 15/10/2022 14:04:06

Explicação:
O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de
gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados,
da marcação e identificação dos dados e das regras de armazenamento.

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos
dados de entrada.
sample
random
mapRandom
distinct filter
Respondido em 15/10/2022 14:03:04

Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de
dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são
funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.

Observe o trecho de código abaixo

Acerto: 0 , 0 / 1 , 0

Acerto: 1 , 0 / 1 , 0

Acerto: 0 , 0 / 1 , 0

Explicação:
Gabarito: sample

Acerto: 1 , 0 / 1 , 0

15/10/2022 15:04 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/4
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.
Trata-se de um exemplo de utilização do Spark
SQL É um exemplo de aplicação de GraphX.
A implementação do trecho de código está errada.
A execução do trecho de código vai funcionar corretamente.
É possível afirmar que a tabela_teste existe.
Respondido em 15/10/2022 14:02:29

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a
utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está
codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não
aparecem informações que permitam fazer afirmações sobre a execução.

Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python.
Qual o método utilizado para fazer a junção entre DataFrames no pandas?
set_index
merge
reset_index
sum
values
Respondido em 15/10/2022 14:02:03

A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização
de dados mais indicada para dados temporais?
Gráfico de Matriz de Dispersão.
Gráfico de Faces de Chernoff.
Gráfico de Estrela.
Gráfico de Linha.
Gráfico de Barra.
Respondido em 15/10/2022 14:00:44

Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando
através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam
tipos de visualização inadequados para dados temporais.

Acerto: 1 , 0 / 1 , 0

Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome,
ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de
junção entre DataFrames.

Acerto: 1 , 0 / 1 , 0

15/10/2022 15:04 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/4

Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia
de aprendizado de máquina e implementa modelos de ML?
Scikit-Learn
BeautifulSoup
Pandas
OS
Numpy
Respondido em 15/10/2022 13:59:55

Acerto: 1 , 0 / 1 , 0
Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina?
Melhorar a capacidade de processamento de dados do sistema.
Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados.
Incrementar o uso da memória de longa duração do sistema.
Fazer com que computadores acessem a internet mais rápido.
Viabilizar a computação paralela.
Respondido em 15/10/2022 14:01:17

Explicação:
A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptar a
novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada
com casos similares.

Acerto: 1 , 0 / 1 , 0

Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer
problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de
machine learning de forma facilitada.