AV TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

2

0

2

0

Victor Amadeu Santos

01/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Fundamentos e Projeto de Big Data

805 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

01/06/2022 13:34 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5

Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): VICTOR AMADEU OLIVEIRA PIRES DOS SANTOS 202107296313
Acertos: 10,0 de 10,0 01/06/2022

Acerto: 1,0 / 1,0
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede
distribuída usando recursos virtualizados.
Computação de banco de dados
Computação de Big Data
Computação Paralela
Computação em Nuvem
Computação centralizada
Respondido em 01/06/2022 13:16:28

Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais
opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.

Acerto: 1,0 / 1,0
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como
referência para as outras plataformas.
IBM Cloud
Microsft Azure
Google Cloud
Oracle Cloud
Amazon AWS
Respondido em 01/06/2022 13:27:54

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência
do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do
mercado.

Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
01/06/2022 13:34 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5

Acerto: 1,0 / 1,0
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione
a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do
Hadoop.
Aplicar políticas de segurança.
Gerenciamento do armazenamento de dados.
Tratar dados não-estruturados.
Processos de extração, transformação e carregamento dos dados.
Mecanismo para melhorar o processamento dos dados.
Respondido em 01/06/2022 13:28:28

Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável
por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa
complexa.

Acerto: 1,0 / 1,0
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por
fazer a marcação dos dados do Data Lake.
Camada de governança
Camada de gerenciamento do ciclo de vida da informação
Camada de gerenciamento de dados
Camada de segurança
Camada de Metadados
Respondido em 01/06/2022 13:29:21

Explicação:
O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de
gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados,
da marcação e identificação dos dados e das regras de armazenamento.

Acerto: 1,0 / 1,0
Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.
É um exemplo de aplicação de GraphX.
A execução do trecho de código vai funcionar corretamente.
A implementação do trecho de código está errada.
É possível afirmar que a tabela_teste existe.
Trata-se de um exemplo de utilização do Spark SQL
Respondido em 01/06/2022 13:30:21

Explicação:
Questão3
a
Questão4
a
Questão5
a
01/06/2022 13:34 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a
utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está
codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não
aparecem informações que permitam fazer afirmações sobre a execução.

Acerto: 1,0 / 1,0
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades
específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma
conexão com o Cluster.
Spark.Catalog
SparkSession
RDD
SparkContext
DataFrame
Respondido em 01/06/2022 13:30:55

Explicação:
Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode
ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua
vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog
é uma interface para gerenciar um catálogo de metadados de entidades relacionais.

Acerto: 1,0 / 1,0
Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que
ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo
construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as
recomendações geradas por seu time estão evoluindo.
Respectivamente a resposta que completa as duas lacunas é:
Linha; Categóricos
Pizza; Categóricos
Linha; Numéricos
Pizza; Numéricos
Linha; Temporais
Respondido em 01/06/2022 13:31:23

Explicação:
O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer mostrar cronologia
para os acionistas e o gráfico de linha representa muito bem isto, e os dados em questão variam ao longo de
meses ou anos. Gráficos de pizza não se aplicam a dados temporais. Os dados não são simplesmente numéricos
pois, em essência, estamos lidando com a cronologia, logo são dados temporais. O tipo de dados em que
números variam no tempo não pode ser classificado como tipo categórico.

Acerto: 1,0 / 1,0
A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento.
Dentre as visualizações mais adequadas para dados numéricos estão:
Questão6
a
Questão7
a
Questão8
a
01/06/2022 13:34 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.
Apenas I e II
As alternativas I, II e III
Apenas I e III
Apenas III
Apenas II e III
Respondido em 01/06/2022 13:31:50

Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua
correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos
mostrar proporção e valores distintos de categorias possíveis.

Acerto: 1,0 / 1,0
Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?

I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e
Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML
Apenas as opções II e III
Apenas as opções I e III
Apenas a opção I
Apenas a opção II
As opções I, II, e III estão corretas
Respondido em 01/06/2022 13:33:05

Explicação:
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de
entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de
dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML.

Acerto: 1,0 / 1,0
Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a
relação entre trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo
principalmente de modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está lidando?
IA Biológica
IA SubSimbólica
IA Quântica
IA Simbólica
IA Pura
Respondido em 01/06/2022 13:33:47
Questão9
a
Questão10
a01/06/2022 13:34 Estácio: Alunos
https://simulado.estacio.br/alunos/ 5/5

Explicação:
As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos dados a partir
de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior diferença dos modelos
simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores predições por exatidão.

javascript:abre_colabore('38403','286287946','5451985326');