TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

9

0

9

0

1

Anderson Freitas

12/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.960 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): ANDERSON RAFAEL DE FREITAS 202002774126
Acertos: 10,0 de 10,0 04/05/2022

Acerto: 1,0 / 1,0
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.
velocidade
volume
veracidade
valor
variedade
Respondido em 04/05/2022 15:48:30

Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos
dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para
tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.

Acerto: 1,0 / 1,0
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando
recursos virtualizados.
Computação centralizada
Computação de banco de dados
Computação Paralela
Computação em Nuvem
Computação de Big Data
Respondido em 04/05/2022 15:59:54

Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão
erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.

Acerto: 1,0 / 1,0
Questão1
a
Questão2
a
Questão
3a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção
correta que define resumidamente o que é o Data Lake.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o
gerenciamento dos dados.
É um repositório centralizado para armazenamento de dados.
É uma tecnologia de armazenamento e processamento de dados.
É um repositório para tratamento dos dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
Respondido em 04/05/2022 15:49:53

Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e
semiestruturados sem a necessidade de aplicar nenhum tratamento.

Acerto: 1,0 / 1,0
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção
correta a respeito do Data Lake.
Demandam por equipamentos especiais.
Possui alta latência para acesso dos dados.
São exclusivos da distribuição Hadoop Apache.
Armazenam os dados de modo eficiente.
Aplicam processos de tratamento nos dados.
Respondido em 04/05/2022 15:49:42

Explicação:
O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui baixa latência
para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da
distribuição Hadoop Apache.

Acerto: 1,0 / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache
Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.
Python e Escala
Java e R
Hadoop e Spark
Casandra e Spark
Java e Python
Respondido em 04/05/2022 15:50:13

Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java,
Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google
Colab, é necessário instalar o FindSpark e o próprio PySpark também.

Acerto: 1,0 / 1,0
Questão4
a
Questão5
a
6a
Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.
É possível afirmar que a tabela_teste existe.
É um exemplo de aplicação de GraphX.
Trata-se de um exemplo de utilização do Spark SQL
A implementação do trecho de código está errada.
A execução do trecho de código vai funcionar corretamente.
Respondido em 04/05/2022 15:50:39

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de
código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar
de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer
afirmações sobre a execução.

Acerto: 1,0 / 1,0
Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele deseja
começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual a
sequência desejável de passos que esperamos que Luis siga?
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com
as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar
uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com
as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar
uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip
install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e
dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com
as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar
uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do
módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip
install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a
lógica do módulo.
Respondido em 04/05/2022 15:58:44

Explicação:
O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as dependências e
guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um arquivo __init__.py em branco e
outro para o módulo. As opções que não descrevem todos esses passos estão incompletas ou na ordem incorreta.

Acerto: 1,0 / 1,0
Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de
visualização de dados abaixo é recomendado para dados categóricos?
Gráfico de Faces de Chernoff.
Gráficos de Linha.
Gráfico de Estrela.
Questão
Questão7
a
Questão8
a
Gráficos de Barra.
Gráfico de Matriz de Dispersão.
Respondido em 04/05/2022 15:53:54

Explicação:
O gráfico de barras mostra as proporções dos dados categóricos assim evidenciando os extratos da amostra. Lembrando que
os dados categóricos não se encaixam nos gráficos de dados numéricos, como o de dispersão causando confusão na função
de visualização ou quebrando a mesma dependendo da biblioteca escolhida.

Acerto: 1,0 / 1,0
As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são)
Camadas Escondidas
Vieses
Função de Ativação
Pesos
Camada de Saída
Respondido em 04/05/2022 15:52:24

Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadasinternas ocultas ou escondidas (hidden), pois é lá
que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento
necessário para discriminar novas observações com base em registros passados.

Acerto: 1,0 / 1,0
Qual destes modelos é adequado para um problema de classificação?
I - SVM
II - Árvore de Decisão
III - K-Médias
Apenas as opções I e II
Apenas as opções II e III
Todas as opções I, II e III
Apenas a opção III
Apenas as opções I e III
Respondido em 04/05/2022 15:51:44

Explicação:
O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a classificação. Da
classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é
uma técnica de aprendizado não supervisionado.

Questão9
a
Questão10
a
javascript:abre_colabore('38403','283222432','5332484484');