Buscar

TOPICOS EM BIG DATA EM PYT

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Teste deTeste de
ConhecimentoConhecimento
 avalie sua aprendizagemavalie sua aprendizagem
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
TÓPICOS DE BIG DATA EM PYTHON Lupa Calc.
 
 EEX0174_202002290081_TEMAS 
Aluno: ANDRE LUIS MARTINS COELHO Matr.: 202002290081
Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX
Prezado (a) Aluno(a),
Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para
sua avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se
familiarizar com este modelo de questões que será usado na sua AV e AVS.
 
1.
variedade
valor
velocidade
volume
veracidade
Data Resp.: 06/04/2022 13:37:31
Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao
formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade
de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.
 
2.
É um protocolo de internet das coisas
É o outro nome para Raspberry PI
É um ecossistema que envolve software e hardware
É uma placa de hardware
É um programa
Data Resp.: 06/04/2022 13:34:48
javascript:voltar();
javascript:voltar();
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção
correta a respeito do Data Lake.
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção
correta que define resumidamente o que é o Data Lake.
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache
Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.
Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto,
não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI
não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas.
 
3.
Armazenam os dados de modo eficiente.
São exclusivos da distribuição Hadoop Apache.
Aplicam processos de tratamento nos dados.
Possui alta latência para acesso dos dados.
Demandam por equipamentos especiais.
Data Resp.: 06/04/2022 13:28:41
Explicação:
O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui
baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não
é de uso exclusivo da distribuição Hadoop Apache.
 
4.
É um repositório centralizado para armazenamento de dados.
É um repositório para tratamento dos dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o
gerenciamento dos dados.
É uma tecnologia de armazenamento e processamento de dados.
Data Resp.: 06/04/2022 13:28:18
Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não
estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.
 
5.
Python e Escala
Casandra e Spark
Java e R
Hadoop e Spark
Java e Python
Data Resp.: 06/04/2022 13:27:59
Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.
Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele deseja
começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual
 a sequência desejável de passos que esperamos que Luis siga?
Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na
mesma escala?
do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai
rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
 
6.
A execução do trecho de código vai funcionar corretamente.
É um exemplo de aplicação de GraphX.
A implementação do trecho de código está errada.
Trata-se de um exemplo de utilização do Spark SQL
É possível afirmar que a tabela_teste existe.
Data Resp.: 06/04/2022 13:38:33
Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a
utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está
codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não
aparecem informações que permitam fazer afirmações sobre a execução.
 
7.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com
as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze;
criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do
pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta
e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com
as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze;
criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com
as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze;
criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica
do módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do
pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro
para a lógica do módulo.
Data Resp.: 06/04/2022 13:38:44
Explicação:
O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as
dependências e guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um
arquivo __init__.py em branco e outro para o módulo. As opções que não descrevem todos esses passos estão
incompletas ou na ordem incorreta.
 
8.
Shuffle
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
As redes neurais são modelos poderosos cujo principal componente onde estão armazenadosseus conhecimentos
é(são) 
Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn?
Splice
Map & Reduce
MinMax
Divide
Data Resp.: 06/04/2022 13:30:42
Explicação:
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e
enquadramos o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na
mesma escala.
 
9.
Camadas Escondidas
Camada de Saída
Vieses
Pesos
Função de Ativação
Data Resp.: 06/04/2022 13:31:18
Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas
(hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem
juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros
passados.
 
10.
Plotly
Gráfico de Histograma
Gráfico de Matriz de Dispersão
Classification Report
Regressão Linear
Data Resp.: 06/04/2022 13:26:00
Explicação:
O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar um conjunto ground
truth para comparar contra as predições de um modelo e este calculará as métricas de acurácia, precisão e
medida F de cada classe possível e também as mesmas métricas em um nível macro.
 Não Respondida Não Gravada Gravada
Exercício inciado em 06/04/2022 13:21:42. 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#

Continue navegando