TUDO python big data

•

ESTÁCIO

diegocampp .

18/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.837 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Acertos: 9,0 de 10,0 27/04/2022
Acerto: 1,0 / 1,0
A respeito das aplicações de fluxos de dados, selecione a opção correta.
Transações bancárias, como o serviço de PIX.
Serviços sob demanda, como serviços de filme online.
Serviços de compras online
Serviço de correio eletrônico
Reapresentação de programas de televisão.
Respondido em 27/04/2022 21:06:37
Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos
por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados
já foram gerados, ou que são usados apenas esporadicamente.
Acerto: 1,0 / 1,0
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as
outras plataformas.
Microsft Azure
Oracle Cloud
Amazon AWS
IBM Cloud
Google Cloud
Respondido em 27/04/2022 21:08:38
Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As
outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.
Acerto: 1,0 / 1,0
Questão1a
Questão2a
Questão3a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a
marcação dos dados do Data Lake.
Camada de governança
Camada de segurança
Camada de gerenciamento de dados
Camada de gerenciamento do ciclo de vida da informação
Camada de Metadados
Respondido em 27/04/2022 21:15:51
Explicação:
O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de gerenciamento do ciclo de
vida da informação que tratam, respectivamente, da política de segurança de dados, da marcação e identificação dos dados e
das regras de armazenamento.
Acerto: 1,0 / 1,0
Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
Nível de gerenciamento
Nível de Metadados
Nível de governança
Nível de admissão
Nível de consumo
Respondido em 27/04/2022 21:17:27
Explicação:
O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços
de aquisição de dados, da identificação e localização dos dados e que fornecem dados para ser consumidos por aplicações de
apoio à tomada de decisão.
Acerto: 1,0 / 1,0
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A utilização do SparkContext é opcional.
A variável "teste" corresponde a um RDD.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
A execução do trecho de código vai gerar um erro.
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
Respondido em 27/04/2022 21:21:01
Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Questão4a
Questão5a
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela
variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a".
Acerto: 1,0 / 1,0
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de
maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por
consolidar os resultados produzidos ao longo do processamento.
Processamento
Mapeamento
Separação
Redução
Agregação
Respondido em 27/04/2022 21:22:32
Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O
MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark,
por exemplo.
Acerto: 1,0 / 1,0
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Apenas as opções II e III estão corretas.
Apenas as opções I e III estão corretas.
Apenas a opção III está correta.
Apenas a opção I está correta.
Apenas a opção II está correta.
Respondido em 27/04/2022 21:45:45
Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos
padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes
dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o
resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que
rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser
de DataFrames.
Questão6a
Questão7a
Acerto: 1,0 / 1,0
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de
dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados?
Temporais
Categóricos
Numéricos
Semi-Estruturados
Atemporais
Respondido em 27/04/2022 21:28:58
Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma,
média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o
aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não
tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados.
Acerto: 0,0 / 1,0
Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de
máquina e implementa modelos de ML?
Numpy
OS
Pandas
Scikit-Learn
BeautifulSoup
Respondido em 27/04/2022 21:39:07
Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de
ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma
facilitada.
Acerto: 1,0 / 1,0
Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?
SIGKDD.
SIGM.
KDM.
KDD-DM.
CRISP-DM.
Respondido em 27/04/2022 21:34:57
Explicação:
O processo de tamanho similar ao KDD cujo âmbito industrial se beneficia mais devido à suas etapas de entendimento do
negócio é o CRISP-DM, processo esse que, diferentemente do KDD, contempla a entrega do artefato de aprendizado de
máquina.
Questão8a
Questão9a
Questão10a
javascript:abre_colabore('38403','281977925','5272794797');
29/04/2022 17:43 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/4
Acerto: 1,0 / 1,0
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos
dados.
velocidade
volume
valor
variedade
veracidade
Respondido em 29/04/2022 18:11:50

Explicação:
A característica velocidade trata da rapidez de geraçãoe processamento dos dados. Variedade diz respeito ao
formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade
de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.

Acerto: 1,0 / 1,0
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
É um programa
É um protocolo de internet das coisas
É o outro nome para Raspberry PI
É um ecossistema que envolve software e hardware
É uma placa de hardware
Respondido em 29/04/2022 18:12:01

Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto,
não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI
não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas.

Acerto: 1,0 / 1,0
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma
de blocos de dados.
YARN
Replicação
Bloco de dados
NameNode
DataNode
Respondido em 29/04/2022 18:13:33

Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de
blocos de dados.

Questão1a
Questão2a
Questão3a
29/04/2022 17:43 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/4
Acerto: 1,0 / 1,0
Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser
armazenado(s) nele.
apenas estruturado
apenas tabelas relacionais
apenas não estruturado
estruturado e semiestruturado
estruturado, não estruturado e semiestruturado
Respondido em 29/04/2022 18:14:09

Explicação:
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a
característica de variedade dos dados que é bem típica de aplicações de Big Data.

Acerto: 1,0 / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do
Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização
do PySpark.
Casandra e Spark
Hadoop e Spark
Python e Escala
Java e Python
Java e R
Respondido em 29/04/2022 18:14:38

Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração
do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai
rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.

Acerto: 1,0 / 1,0
Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.
Trata-se de um exemplo de utilização do Spark SQL
É possível afirmar que a tabela_teste existe.
A implementação do trecho de código está errada.
A execução do trecho de código vai funcionar corretamente.
É um exemplo de aplicação de GraphX.
Respondido em 29/04/2022 18:14:51
Questão4a
Questão5a
Questão6a
29/04/2022 17:43 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/4

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a
utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está
codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não
aparecem informações que permitam fazer afirmações sobre a execução.

Acerto: 1,0 / 1,0
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o
método utilizado para fazer a junção entre DataFrames no pandas?
values
reset_index
merge
set_index
sum
Respondido em 29/04/2022 18:15:11

Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome,
ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de
junção entre DataFrames.

Acerto: 1,0 / 1,0
Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia
de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas
análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que
retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por
agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e
segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos
Contadores é respectivamente dos tipos:
Primária; Primária.
Secundária; Secundária.
Primária; Secundária.
Secundária; Primária.
Secundária; Terciária.
Respondido em 29/04/2022 18:16:45

Explicação:
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária
direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados
para eles.

Acerto: 1,0 / 1,0
Questão7a
Questão8a
Questão
9a
29/04/2022 17:43 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/4
Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn?
Gráfico de Histograma
Classification Report
Plotly
Gráfico de Matriz de Dispersão
Regressão Linear
Respondido em 29/04/2022 18:18:19

Explicação:
O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar um conjunto ground
truth para comparar contra as predições de um modelo e este calculará as métricas de acurácia, precisão e
medida F de cada classe possível e também as mesmas métricas em um nível macro.

Acerto: 1,0 / 1,0
Quais os métodos de aprendizado de máquina que existem?
Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
Respondido em 29/04/2022 18:17:51

Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a
partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair
padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente;
e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.
Questão10a
18/11/2021 19:33 EPS
https://simulado.estacio.br/alunos/ 1/4
NEILA TEIXEIRA LOPES
Avaliação AV

202001023267 POLO JOÃO UCHÔA - RIO DE JANEIRO - RJ
avalie seus conhecimentos
RETORNAR À AVALIAÇÃO
Disciplina: CCT0854 - BIG DATA Período: 2021.3 EAD (GT) / AV
Aluno: NEILA TEIXEIRA LOPES Matrícula: 202001023267
Data: 18/11/2021 19:33:08 Turma: 9001

ATENÇÃO
1. Veja abaixo, todas as suas respostas gravadas no nosso banco de dados.
2. Caso você queira voltar à prova clique no botão "Retornar à Avaliação".

1a Questão (Ref.: 202006201025)
(FCC - 2020 AL - AP - Analista Legislativo - Desenvolver de Banco de Dados) Atualmente, diversos dados são
coletados pelos sistemas digitais de empresas na internet para constituir Big Data com conteúdo sobre os
resultados alcançados por seus produtos e serviços, prestígio da imagem da organização e seus
representantes. Porém, parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos
dados, a fimde qualificá-los antes de disponibilizá-los para a tomada de decisão na empresa, segundo o
conceito das cinco dimensões "V" de avaliação de um Big Data, se refere:
Ao volume.
Variedade.
Ao valor.
À velocidade.
À veracidade.

2a Questão (Ref.: 202006209851)
Os projetos de Big Data envolvem muitos riscos. Os riscos devem ser gerenciados através de atividades com
objetivos identificá-los, analisá-los e respondê-los, eliminando ou minimizando o seu impacto no projeto.
Marque a opção que representa estratégias para tratar os riscos.
Transformar, amenizar, transferir e aceitar
Predizer, mitigar, transferir e aceitar
Analisar, mitigar, corrigir e aceitar
Prevenir, mitigar, transferir e aceitar
Eliminar, mitigar e aceitar

3a Questão (Ref.: 202006219033)
(FGV ¿ 2017 ¿ IBGE - Analista de Censitário - Área Análise de Sistemas - Desenvolvimento de Aplicações - Web
18/11/2021 19:33 EPS
https://simulado.estacio.br/alunos/ 2/4
Designer)
O tipo de Banco de Dados NoSQL, não relacional, que armazena tais informações, utilizando estruturas de
vértices e arestas, com propriedades associadas, é o:
Chave-valor

Documento
Tabular
Grafo
Colunar

4a Questão (Ref.: 202006221931)
Os projetos de Big Data têm a característica de aumentar exponencialmente da quantidade de dados. Prever,
adquirir e manter a infraestrutura necessária o funcionando do Big Data com um bom desempenho ao longo do
tempo torna-se um fator determinante para o sucesso do projeto. A computação em nuvem tem se mostrado
uma boa alternativa por apresentar inúmeros benefícios, exceto:
Uso da internet para acesso aos seus recursos.
Estimar os recursos necessários desde o início do projeto de Big Data de forma precisa e segura.
Flexibilidade para alocação de recursos sob demanda.
Uma vez identificada a necessidade de maior ou menor capacidade de processamento, esse requisito pode
ser atendido.

Contratação de serviço de um provedor para atender as suas necessidades.

5a Questão (Ref.: 202006213328)
Assinale a opção que NÃO representa uma estratégia para lidar com dados incompletos.
Empregar algoritmos de AM que lidam internamente com valores ausentes.
Substituir os valores ausentes por alguma constante.
Atribuir um peso maior para balancear esses dados.
Realizar cálculos para completar os valores ausentes.
Eliminar os objetos com valores ausentes.

6a Questão (Ref.: 202006221935)
O volume e variedade dos dados de Big Data trouxe uma maior complexidade para o processo de compreensão
dos dados analisados, tornando a visualização uma abordagem cada vez mais essencial em um projeto de Big
Data. Assinale a opção que melhor representa a importância da visualização dos dados.
Facilitar a apresentação dos resultados obtidos nas análises.

Ganhar credibilidade para realização de novas análises.
Manter o projeto de Big Data em constante mudança.
Identificar pontos de melhoria no processo.
Prover uma interface bonita para apresentar os dados.

7a Questão (Ref.: 202006221940)
(ANAC 2016 ¿ Analista Administrativo ¿ Análise de Sistemas) Para o processamento de grandes massas de
dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação
distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é o(a)
18/11/2021 19:33 EPS
https://simulado.estacio.br/alunos/ 3/4
EMRx
Yam Common
MapFix
GoogleCrush
Hadoop

8a Questão (Ref.: 202006219046)
O sistema Apache Hive acessa diretamente os arquivos armazenados no HDFS e os consulta através de uma
interface semelhante ao SQL. Isso tem possibilitado aos desenvolvedores fluentes em SQL tirar proveito dos
benefícios do Hadoop sem exigir que eles aprendam Java ou conheçam a API nativa do MapReduce. O nome
dessa interface é:
Simple Hive Language
Hive Query Language
Hive Analise Language
Complex Query Language
Hive Manipulation Language

9a Questão (Ref.: 202006216388)
Qual dos comandos abaixo permite a inclusão de um arquivo no sistema HDFS?
hadoop fs -rmdir;
hadoop fs -cp.
hadoop fs - copyToLocal;

hadoop fs -copyFromLocal;
hadoop fs -rm;

10a Questão (Ref.: 202006219056)
A biblioteca MLlib oferece:
Utilitários de persistência, recursos para preparação de dados e manipulação de dados estruturados;
Recursos para preparação de dados, vários tipos de algoritmos de aprendizado de máquina e utilitários de
persistência;
Algoritmos de aprendizado de máquina e para processamento em tempo real;
Exclusivamente recursos para extração, transformação e carga de dados
Algoritmos de aprendizado de máquina e recursos de processamento de grafo;

Autenticação para a Prova On-line
Caso queira FINALIZAR a avaliação, digite o código de 4 carateres impresso abaixo.
ATENÇÃO: Caso finalize esta avaliação você não poderá mais modificar as suas respostas.
6KRE Cód.: FINALIZAR

Obs.: Os caracteres da imagem ajudam a Instituição a evitar fraudes, que dificultam a gravação das
respostas.
18/11/2021 19:33 EPS
https://simulado.estacio.br/alunos/ 4/4

Período de não visualização da avaliação: desde 28/09/2021 até 23/11/2021.

23/04/2022 16:13 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5

Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): JOÃO FRANCISCO RAMOS JUNIOR 202001365397
Acertos: 10,0 de 10,0 23/04/2022

Acerto: 1,0 / 1,0
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a
projetos de Big Data.
Petabytes
Terabytes
Gigabytes
Zetabytes
Exabytes
Respondido em 23/04/2022 15:54:15

Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data.
As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.

Acerto: 1,0 / 1,0
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de
transações bancárias.
dados de Big Data
dados semiestruturados
dados estruturados
dados de Internet das Coisas
dados não estruturados
Respondido em 23/04/2022 15:54:23

Explicação:
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que
são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam
de dados não convencionais que não são armazenados em bancos de dados tradicionais.

Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
23/04/2022 16:13 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5

Acerto: 1,0 / 1,0
O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta
que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop.
Java Script
Java
Python
Lua
Perl
Respondido em 23/04/2022 15:54:31

Explicação:
O Hadoop foi desenvolvido usando, originalmente, a linguagem de programação Java na distribuição livre da
Apache Foundation. Atualmente, diferentes distribuições do framework estão implementadas em diversas
linguagens, entre as quais o Python.

Acerto: 1,0 / 1,0
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione
a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do
Hadoop.
Tratar dados não-estruturados.
Mecanismo para melhorar o processamento dos dados.
Aplicar políticas de segurança.
Processos de extração, transformação e carregamento dos dados.
Gerenciamento do armazenamento de dados.
Respondido em 23/04/2022 15:54:42

Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável
por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa
complexa.

Acerto: 1,0 / 1,0
Os componentes doSpark têm como objetivo facilitar o desenvolvimento de projetos com finalidades
específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em
aplicações de aprendizado de máquina.
MLlib
GraphX Learning
MLSpark
Spark Learning
RDDs
Respondido em 23/04/2022 15:54:49

Explicação:
Gabarito: MLlib
Questão3
a
Questão4
a
Questão5
a
23/04/2022 16:13 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar
algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em
projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do
Spark. Os RDDs são componentes para conjunto de dados resilientes.

Acerto: 1,0 / 1,0
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a
respeito do componente que pode ser tratado com o Spark SQL.
Tasks
RDD
Executor
Work Node
DAG
Respondido em 23/04/2022 15:54:53

Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para
manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável
pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que
executam as tarefas que são as Tasks, ou seja, subdivisões do processo.

Acerto: 1,0 / 1,0
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Apenas a opção II está correta.
Apenas as opções II e III estão corretas.
Apenas a opção III está correta.
Apenas as opções I e III estão corretas.
Apenas a opção I está correta.
Respondido em 23/04/2022 15:56:38

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas
dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma
boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção
sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que
estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema,
i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.
Questão6
a
Questão7
a
23/04/2022 16:13 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5

Acerto: 1,0 / 1,0
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do
sistema pip da linguagem Python?
Gerenciador de Pacotes do Python.
Biblioteca de Processamento de Linguagem Natural.
Motor de Busca da IDE do Python.
Gerenciador de espaços virtuais do Python.
Gerenciador de memória do Python.
Respondido em 23/04/2022 16:01:13

Explicação:
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via
comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar
espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de
programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de
pacotes.

Acerto: 1,0 / 1,0
No modelo de aprendizado profundo, as camadas internas ocultas representam:

I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses

Apenas II e III

As alternativas I, II e III

Apenas I

Apenas I e III

Apenas III

Respondido em 23/04/2022 16:04:55

Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair
automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até
mesmo combinações de aspectos descobertos em camadas anteriores.

alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado
profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente
Questão8
a
Questão9
a
23/04/2022 16:13 Estácio: Alunos
https://simulado.estacio.br/alunos/ 5/5
abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de
aspectos descobertos em camadas anteriores.

A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o
conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os
por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final.

A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto
nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas
mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes.

Acerto: 1,0 / 1,0
A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
Regressão
Classificação
Q-Learning
Agrupamento
Modelos Generativos
Respondido em 23/04/2022 15:55:29

Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina
que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo
da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para
regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.

Questão10
a
javascript:abre_colabore('38403','281215056','5242968286');
12/10/2021 20:22 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/4

Simulado AV
Teste seu conhecimento acumulado

Disc.: BIG DATA
Aluno(a): NEILA TEIXEIRA LOPES 202001023267
Acertos: 10,0 de 10,0 12/10/2021

Acerto: 1,0 / 1,0
(IADES - 2018 - APEX Brasil - Analista - Prospecção de Projetos) Assinale a alternativa que apresenta o
conceito de Big Data.
São apenas grandes volumes de dados que precisam ainda ser mais bem aproveitados pelo mundo
corporativo.
Conjuntos de dados de grande volume que se utilizam de ferramentas especiais de processamento,
pesquisa e análise, e que podem ser aproveitados no tempo necessário, com precisão e grande
velocidade.
Refere-se a um grande número de computadores pessoais (PC) interligados entre si em uma grande
rede de infor
São bancos de dados de fácil acesso e rápida velocidade, operados como computadores pessoais.
Manuseio de informações necessárias às empresas e aos negócios do mundo moderno, que podem ser
armazenadas em computadores pessoais, utilizando-se a técnica de nuvem de dados.
Respondido em 12/10/2021 20:09:43

Explicação:
Embora não tenha uma tradução exata, Big Data é um termo que se refere a uma grande quantidade de dados
e também à coleta e interpretação dos mesmos para então terem aplicação prática.

Acerto: 1,0 / 1,0
(INSTITUTO AOCP - 2018 - PRODEB - Especialista de TIC - B.I) Big Data requer clusters de servidores de
apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nessesentido, é correto afirmar que Hadoop refere-se a:

Um equipamento de hardware que permite que sistemas administrem crescentes cargas de
processamento.

Um banco de dados com capacidade melhorada.
Um banco de dados com tecnologia de virtualização.
Um sistema de armazenamento e processamento de dados massivamente escalável - não é um banco
de dados.
Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes
dos clientes, parceiros e sobre o negócio.
Respondido em 12/10/2021 20:11:20
Questão1
a
Questão2
a
12/10/2021 20:22 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/4

Explicação:
Na verdade, ele complementa seu sistema existente ao administrar dados que geralmente são problemáticos
para eles.

Acerto: 1,0 / 1,0
(INSTITUTO AOCP - 2018 - PRODEB - Analista de TIC I - Construção de Software)
Sobre Banco de Dados Relacional, é correto afirmar que
uma chave primária pode ser nula, desde que sua chave secundária esteja preenchida.
cada tabela do banco de dados terá um nome, que pode se repetir, desde que suas tuplas sejam
diferentes.
em sua terminologia, uma tabela é chamada de atributo.
todos os valores de uma coluna não precisam ser do mesmo tipo de dados.
os dados são representados como uma coleção de tabelas.
Respondido em 12/10/2021 20:12:01

Explicação:
os dados são representados como uma coleção de tabelas.

Acerto: 1,0 / 1,0
Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta
velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a
Um equipamento de hardware que permite que sistemas administrem crescentes cargas de
processamento
Um sistema de armazenamento e processamento de dados massivamente escalável ¿ não é um banco
de dados
Um banco de dados com tecnologia de virtualização
Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes
dos clientes, parceiros e sobre o negócio
Um banco de dados com capacidade melhorada
Respondido em 12/10/2021 20:13:13

Acerto: 1,0 / 1,0
Com relação a análise de dados marque a alternativa INCORRETA.
O foco principal das tarefas da categoria descritiva é caracterizar e apresentar as propriedades de um
conjunto de dados de maneira concisa e informativa.
O objetivo das atividades preditivas é construir um modelo para prever as propriedades e/ou
tendências de um conjunto de dados desconhecido.
As ferramentas de análise de dados disponíveis atualmente facilitam a construção de inúmeros
algoritmos utilizando uma diversidade de dados. Os excelentes resultados nas análises geralmente
vêm de dados brutos sem nenhum tipo de tratamento.
A detecção de anomalias nos ajuda a perceber a existência de valores extremos que influenciarão
alguns métodos baseados em estatística, mesmo em casos em que as anomalias correspondam a
dados válidos.
Após a captura, armazenamento e processamento dos dados, iniciamos a fase de análise. Nessa fase
temos inúmeras possibilidades de converter dados brutos em conhecimento.
Respondido em 12/10/2021 20:14:29
Questão3
a
Questão4
a
Questão5
a
12/10/2021 20:22 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/4

Acerto: 1,0 / 1,0
Existem diversas ferramentas de visualização de dados. Assinale a ferramenta utilizada no Apache Spark.
GraphX
Apache accumulo
Spark Mllib
Apache mahout
Apache storm
Respondido em 12/10/2021 20:15:38

Explicação:
GraphX

Acerto: 1,0 / 1,0
Assinale a opção correta sobre MapReduce, de acordo com Hurwitz (2015)
No MapReduce, a função Map coloca um valor inicial em uma variável acumuladora e, então, processa
cada elemento de uma lista passada pela função Reduce e, ao final, retorna um resultado do
acumulador.
A técnica MapReduce é utilizada pelos SGBD para a criação de gatilhos nas tabelas no banco de dados
relacionais.
Apesar da utilização da técnica MapReduce para tratar grandes volumes de dados no contexto de Big
Data, não é recomendável a sua utilização em uma arquitetura distribuída, virtualizada ou
multiprocessada.
MapReduce é uma estrutura de software que permite que desenvolvedores escrevam programas que
possam processar quantidades massivas de dados desestruturados em paralelo, por meio de um grupo
distribuído de processadores.
No contexto de Big Data, a técnica MapReduce não é utilizada por ser pouco eficiente quando o volume
de dados é muito alto.
Respondido em 12/10/2021 20:16:52

Acerto: 1,0 / 1,0
(INSTITUTO AOCP - 2018 - PRODEB - Especialista de TIC - B.I.) Big Data requer clusters de servidores de
apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse
sentido, é correto afirmar que o Hadoop refere-se a:
um equipamento de hardware que permite que sistemas administrem crescentes cargas de
processamento.
um sistema de armazenamento e processamento de dados massivamente escalável - não é um banco
de dados.
um banco de dados com capacidade melhorada.
um banco de dados com tecnologia de virtualização.
uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes
dos clientes, parceiros e sobre o negócio.
Respondido em 12/10/2021 20:17:29

Explicação:
um sistema de armazenamento e processamento de dados massivamente escalável - não é um banco de
dados.

Questão6
a
Questão7
a
Questão8
a
12/10/2021 20:22 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/4

Acerto: 1,0 / 1,0
(FUNCAB 2008) A técnica RAID (Redundant Arrays of Inexpensive Disk) é usada:

na alocação dinâmica de memória RAM;
no armazenamento de informação ECC (error correcting code), que é a informação de controle de
erros;
na otimização das interfaces IDE.
em gerenciamento de disco para otimizar as operações de E/S e implementar redundância e proteção
de dados;
na conexão à rede padrão ethernet;
Respondido em 12/10/2021 20:18:44

Explicação:
Em gerenciamento de disco para otimizar as operações de E/S e implementar redundância e proteção de dados;

Acerto: 1,0 / 1,0
O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com
várias vantagens. Marque a opção que NÃO representa uma dessas vantagens.
No Spark as aplicações têm possibilidade de serem escritas em Java, Scala, Python ou R
O Spark tem um rico conjunto de bibliotecas para implementar processamentos em estilo SQL,
processamento de streaming, algoritmos de grafos e aprendizado de máquina
O Spark é tem a flexibilidade para processar dados em HDFS, HBase, Cassandra, Hive e qualquer
outro formato de entrada aceito pelo Hadoop
O Spark tem um gerenciador de recursos do cluster próprio responsável por alocar e monitorar os
recursos disponíveis no cluster para todas as aplicações
A combinação de DAG e RDD ajudam ao Spark realizar o processamento paralelo extremamente
rápido, em particular quando o cluster é grande o suficiente para armazenar todos os dados em
memória
Respondido em 12/10/2021 20:20:09

Questão9
a
Questão10
a
Disc.: TÓPICOS DE BIG DATA EM PYTHON
Acertos: 8,0 de 10,0 21/04/2022

1a
Questão
Acerto: 1,0 / 1,0

Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.

Garantir a consistência da informação através da ordenação dos dados.

Dimensionar o projeto logo no início para evitar a necessidade de expansão
posteriormente.

Garantir a qualidade dos dados através de ferramentas de controle que não aceitem
qualquer inconsistência.

Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.

Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Respondido em 21/04/2022 17:28:15

Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois,
normalmente,elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os
dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas
sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de
qualidade pré-estabelecido.

2a
Questão
Acerto: 1,0 / 1,0

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a
opção correta.

UDP

CoAP

HTTP

MQTT

TCP
Respondido em 21/04/2022 17:28:25

Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por
ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming,
ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no
transporte de dados.

3a
Questão
Acerto: 1,0 / 1,0

A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento
de tarefas.

HDFS

Camada de ingestão
MapReduce

Task manager

Mrjob
Respondido em 21/04/2022 17:30:05

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de
rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas,
embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas.

4a
Questão
Acerto: 1,0 / 1,0

Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é
fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção
correta sobre o Hadoop.

Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.

A estrutura de desenvolvimento no Hadoop é sequencial.
O Hadoop utiliza o HDFS para armazenar dados.

O Hadoop não funciona com pequenos volumes de dados.

O Hadoop tem apenas uma única distribuição.
Respondido em 21/04/2022 17:31:16

Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop
Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de
dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS).

5a
Questão
Acerto: 1,0 / 1,0

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto
aleatório dos dados de entrada.

filter
sample

mapRandom

random

distinct
Respondido em 21/04/2022 17:32:18

Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É
uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois
pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um
subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random
e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos
diferentes de um RDD de entrada.

6a
Questão
Acerto: 1,0 / 1,0

Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a
opção correta que contenha apenas funções que podem ser categorizadas como transformações
no Spark.

map, filter e union.

count, collect e take.

map, take e reduce.

reduce, first e map.

map, sample e collect.
Respondido em 21/04/2022 17:32:28

Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap,
mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas,
resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de
uma única partição.

7a
Questão
Acerto: 1,0 / 1,0

A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de
visualização de dados mais indicada para dados temporais?

Gráfico de Linha.

Gráfico de Estrela.

Gráfico de Faces de Chernoff.

Gráfico de Matriz de Dispersão.

Gráfico de Barra.
Respondido em 21/04/2022 17:33:03

Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado,
mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais
alternativas indicam tipos de visualização inadequados para dados temporais.

8a
Questão
Acerto: 0,0 / 1,0

Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e
rkey.

Apenas a opção III está correta.

Apenas as opções II e III estão corretas.
Apenas a opção I está correta.

Apenas as opções I e III estão corretas.

Apenas a opção II está correta.
Respondido em 21/04/2022 17:34:57

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores
acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por
mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à
biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é
um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que
rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída
obrigatoriamente também tem que ser de DataFrames.

9a
Questão
Acerto: 0,0 / 1,0

Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este
laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa
de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo
de IA Alfredo está lidando?

IA Pura

IA Simbólica
IA Quântica

IA Biológica
IA SubSimbólica
Respondido em 21/04/2022 17:38:33

Explicação:
As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos
dados a partir de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior
diferença dos modelos simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores
predições por exatidão.

10a
Questão
Acerto: 1,0 / 1,0

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na
realidade ele se refere ao processo de:

DNN

RNN
KDD

CNN

LSTM
Respondido em 21/04/2022 17:38:49

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de
coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e
avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em
Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do
processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A
alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿
CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo
conceitonão foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais
recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A
alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais
ou temporais.

Acerto: 1,0 / 1,0
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do
processamento dos dados.
volume
variedade
veracidade
velocidade
valor
Respondido em 16/05/2022 20:30:32
Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao
formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade
de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.
Acerto: 0,0 / 1,0
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede
distribuída usando recursos virtualizados.
Computação de banco de dados
Computação de Big Data
Computação centralizada
Computação Paralela
Computação em Nuvem
Respondido em 16/05/2022 20:31:26
Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As
demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.
Acerto: 1,0 / 1,0
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na
forma de blocos de dados.
Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado...
1 of 5 16/05/2022 20:39
DataNode
NameNode
Replicação
YARN
Bloco de dados
Respondido em 16/05/2022 20:31:49
Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de
blocos de dados.
Acerto: 1,0 / 1,0
Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que
pode(m) ser armazenado(s) nele.
apenas estruturado
apenas tabelas relacionais
apenas não estruturado
estruturado, não estruturado e semiestruturado
estruturado e semiestruturado
Respondido em 16/05/2022 20:32:07
Explicação:
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a
característica de variedade dos dados que é bem típica de aplicações de Big Data.
Acerto: 1,0 / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando
recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de
instalação para utilização do PySpark.
Java e Python
Python e Escala
Hadoop e Spark
Java e R
Casandra e Spark
Respondido em 16/05/2022 20:32:36
Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração
do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai
rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado...
2 of 5 16/05/2022 20:39
Acerto: 1,0 / 1,0
Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.
É possível afirmar que a tabela_teste existe.
A implementação do trecho de código está errada.
Trata-se de um exemplo de utilização do Spark SQL
É um exemplo de aplicação de GraphX.
A execução do trecho de código vai funcionar corretamente.
Respondido em 16/05/2022 20:33:51
Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a
utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está
codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não
aparecem informações que permitam fazer afirmações sobre a execução.
Acerto: 0,0 / 1,0
A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que
apresenta laços condicionais e instruções de repetição.
for i in range(10):
if (i%2==0):
print(i)
Qual a saída esperada após a execução do programa?
Serão impressos no console os números pares entre 1 e 10.
Serão impressos no console os números ímpares entre 0 e 10.
Serão impressos no console os números ímpares entre 0 e 9.
Serão impressos no console os números racionais entre 0 e 9.
Serão impressos no console os números pares entre 0 e 9.
Respondido em 16/05/2022 20:35:29
Explicação:
O constructo de laço que itera sobre uma sequência dos números reais de 0 a 9, e cujo condicional dentro do
laço escolhe apenas os números cujo resto de sua divisão por 2 seja 0, condição lógica que define se um
número é par ou não.
Acerto: 1,0 / 1,0
Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu
Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado...
3 of 5 16/05/2022 20:39
primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade
para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus
relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os
contadores organizam, por agregação, informação relevante no relatório em planilhas por eles
desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este
tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos:
Secundária; Terciária.
Secundária; Secundária.
Primária; Secundária.
Secundária; Primária.
Primária; Primária.
Respondido em 16/05/2022 20:36:05
Explicação:
Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta
primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um
repositório de dados para eles.
Acerto: 1,0 / 1,0
Quais os métodos de aprendizado de máquina que existem?
Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
Respondido em 16/05/2022 20:37:18
Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a
partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair
padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o
ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.
Acerto: 1,0 / 1,0
Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de
engenharia de aprendizado de máquina e implementa modelos de ML?
OS
BeautifulSoup
Pandas
Numpy
Scikit-Learn
Respondido em 16/05/2022 20:37:57
Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer
Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado...
4 of 5 16/05/2022 20:39
problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de
machine learning de forma facilitada.
Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado...
5 of 5 16/05/2022 20:39