TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

20

0

20

0

Gabriel Ferreira

05/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Fundamentos e Projeto de Big Data

785 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Acerto: 1,0 / 1,0
Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.
Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.
Garantir a consistência da informação através da ordenação dos dados.
Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer
inconsistência.
Respondido em 05/04/2022 17:44:28
Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente,
elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a
consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda
que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido.
Acerto: 1,0 / 1,0
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.
UDP
CoAP
MQTT
HTTP
TCP
Respondido em 05/04/2022 17:44:33
Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais
rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento
inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.
Acerto: 1,0 / 1,0
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação.
Selecione a opção correta que define resumidamente o que é o Data Lake.
É uma tecnologia de armazenamento e processamento de dados.
É um repositório centralizado para armazenamento de dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para
fazer o gerenciamento dos dados.
É um repositório para tratamento dos dados.
Respondido em 05/04/2022 17:46:06
Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não
estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.
Acerto: 1,0 / 1,0
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação.
Selecione a opção correta a respeito do Data Lake.
Armazenam os dados de modo eficiente.
Demandam por equipamentos especiais.
Possui alta latência para acesso dos dados.
Aplicam processos de tratamento nos dados.
São exclusivos da distribuição Hadoop Apache.
Respondido em 05/04/2022 17:45:59
Explicação:
O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui
baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não
é de uso exclusivo da distribuição Hadoop Apache.
Acerto: 1,0 / 1,0
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos
dados de entrada.
mapRandom
distinct
random
sample
filter
Respondido em 05/04/2022 17:47:44
Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de
dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são
funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
Acerto: 1,0 / 1,0
Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que
contenha apenas funções que podem ser categorizadas como transformações no Spark.
map, sample e collect.
count, collect e take.
map, filter e union.
map, take e reduce.
reduce, first e map.
Respondido em 05/04/2022 17:47:52
Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e
sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções
de mapeamento e de filtragem, sendo que os dados se originam de uma única partição.
Acerto: 1,0 / 1,0
A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento.
Dentre as visualizações mais adequadas para dados numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.
Apenas III
Apenas I e III
Apenas I e II
Apenas II e III
As alternativas I, II e III
Respondido em 05/04/2022 17:51:17
Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua
correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos
mostrar proporção e valores distintos de categorias possíveis.
Acerto: 1,0 / 1,0
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um
cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de
dados?
Categóricos
Numéricos
Atemporais
Semi-Estruturados
Temporais
Respondido em 05/04/2022 17:53:09
Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por
funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8
muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto,
ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos
ter cuidado ao modelarmos nossos dados.
Acerto: 1,0 / 1,0
As técnicas de aprendizado de máquina para aprendizado supervisionado são:
I - Classificação
II - Agrupamento
III - Regressão
Apenas I
Apenas II e III
Apenas I e II
Apenas II
Apenas I e III
Respondido em 05/04/2022 17:54:00
Explicação:
O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o modelo tenta
aprender a categorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros,
baseado no registro histórico e suas características.
Acerto: 1,0 / 1,0
Qual destes modelos é adequado para um problema de classificação?
I - SVM
II - Árvore de Decisão
III - K-Médias
Apenas as opções I e III
Apenas as opções II e III
Apenas as opções I e II
Apenas a opção III
Todas as opções I, II e III
Respondido em 05/04/2022 17:57:21
Explicação:
O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a
classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre
outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.