TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

32

0

32

0

luciany sabino dos anjos

13/03/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

6.080 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

TÓPICOS DE BIG DATA EM PYTHON

Lupa
Calc.

EEX0174_202003135461_TEMAS

Prezado (a) Aluno(a),
Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS.

1.
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.

Camada de enlace de dados

Camada de sessão

Camada de transporte

Camada de aplicação

Camada lógica
Data Resp.: 13/03/2022 15:37:50
Explicação:
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos.

2.
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.

Computação centralizada

Computação Paralela

Computação em Nuvem

Computação de Big Data

Computação de banco de dados
Data Resp.: 13/03/2022 15:37:55
Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.

3.
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake.

Aplicam processos de tratamento nos dados.

Demandam por equipamentos especiais.

São exclusivos da distribuição Hadoop Apache.

Possui alta latência para acesso dos dados.

Armazenam os dados de modo eficiente.
Data Resp.: 13/03/2022 15:37:59
Explicação:
O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache.

4.
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake.

É um ambiente para tratamento e armazenamento apenas de dados relacionais.

Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.

É um repositório para tratamento dos dados.

É um repositório centralizado para armazenamento de dados.

É uma tecnologia de armazenamento e processamento de dados.
Data Resp.: 13/03/2022 15:38:04
Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.

5.
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.

Java e Python

Casandra e Spark

Hadoop e Spark

Java e R

Python e Escala
Data Resp.: 13/03/2022 15:38:07
Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.

6.
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.

Só pode ser aplicada para grandes volumes de dados

Consiste em uma técnica de programação sequencial

É uma técnica lenta para processamento de grandes volumes de dados

Foi substituída no Spark por acesso direto à memória

É uma técnica de computação distribuída
Data Resp.: 13/03/2022 15:38:12
Explicação:
Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos.

7.
Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.

Apenas as opções I, II, III.

Todas as opções I, II, III, IV.

Apenas as opções II, III.

Apenas as opções I, II, IV.

Apenas a opção III.
Data Resp.: 13/03/2022 15:38:17
Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.

8.
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python?

Gerenciador de memória do Python.

Gerenciador de espaços virtuais do Python.

Motor de Busca da IDE do Python.

Biblioteca de Processamento de Linguagem Natural.

Gerenciador de Pacotes do Python.
Data Resp.: 13/03/2022 15:38:23
Explicação:
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes.

9.
Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?

SIGKDD.

SIGM.

KDD-DM.

CRISP-DM.

KDM.
Data Resp.: 13/03/2022 15:38:28
Explicação:
O processo de tamanho similar ao KDD cujo âmbito industrial se beneficia mais devido à suas etapas de entendimento do negócio é o CRISP-DM, processo esse que, diferentemente do KDD, contempla a entrega do artefato de aprendizado de máquina.

10.
Qual destes modelos é adequado paraum problema de classificação?
I - SVM
II - Árvore de Decisão
III - K-Médias

Apenas as opções II e III

Apenas as opções I e II

Apenas as opções I e III

Todas as opções I, II e III

Apenas a opção III
Data Resp.: 13/03/2022 15:38:33
Explicação:
O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.