Apol 05

•

UNIP

4

0

4

0

1

femifec179

18/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Gestão de Processos

31.613 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1. AVALIAÇÃO
2. NOVO
Parte superior do formulário
Parte inferior do formulário
MARCELO LUIZ BRUDER - RU: 1331240
Nota: 10
PROTOCOLO: 20220905133124053333B2
Disciplina(s):
Big Data
Data de início:
05/09/2022 21:23
Prazo máximo entrega:
-
Data de entrega:
05/09/2022 21:31
Atenção. Este gabarito é para uso exclusivo do aluno e não deve ser publicado ou compartilhado em redes sociais ou grupo de mensagens.
O seu compartilhamento infringe as políticas do Centro Universitário UNINTER e poderá implicar sanções disciplinares, com possibilidade de desligamento do quadro de alunos do Centro Universitário, bem como responder ações judiciais no âmbito cível e criminal.
Questão 1/10 - Big Data
O Spark Streaming oferece uma abstração de alto nível conhecida como DStreams (ou Discretized Streams) que representa um fluxo contínuo de dados.
Avalie as seguintes afirmações sobre os DStreams:
I – DStreams são representados em Spark como uma sequência de RDD.
II – Toda operação aplicada a um DStream é traduzida em operações em seus respectivos RDDs.
III – DStreams podem possuir como fontes de dados tanto arquivos e conexões de socket quanto fontes externas como Kafka, Kinesis, Flume e outros.
IV – Operações de saída permitem que os dados de um DStream sejam direcionados a sistemas externos como um banco de dados ou um sistema de arquivos.
V – DStreams não armazenam estados. Dessa forma não é possível armazenar informações entre o processamento de cada RDD.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0

A
Todas

B
I, II e V

C
I, IV e V

D
Todas, exceto V
Justificativa: Diferentemente do que diz INCORRETAMENTE afirmação V, é possível manter o estado dos dados em um DStream. Isso é muito útil para realizar operações que dependem de informações entre um RDDs. Todas as outras afirmações (I, II, III e IV) estão corretas.

E
Apenas IV
Questão 2/10 - Big Data
Recomendações se baseiam nas previsões de preenchimento das avaliações desconhecidas. Existem duas principais abordagens para isso: recomendações baseadas em conteúdo (content-based recommendations) e filtragem colaborativa (collaborative filtering).
Avalie as seguintes avaliações sobre as duas principais abordagens de recomendações:
I – O sistema de recomendações baseadas em conteúdo possuem como estratégia a recomendação de itens mais parecidos aos que o usuário avaliou.
II – Antes de recomendar um novo item, o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item.
III – O cálculo de similaridade entre os usuários é utilizado por sistemas de filtragem colaborativa para medir a chance de um par de usuários avaliar determinado item de forma parecida.
IV – Métodos de filtragem colaborativa pode ser aplicado apenas para medir a semelhança entre usuários.
V – É possível utilizar métodos de diferentes abordagens de recomendação de uma forma híbrida para tentar melhorar a qualidade das predições.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
Todas, exceto V

B
I e III

C
Nenhuma

D
Apenas IV
Justificativa: A afirmação IV diz que os métodos de filtragem colaborativa podem ser aplicados apenas para medir a semelhança entre usuários, porém podemos aplicar o mesmo princípio para as avaliações entre itens (ou Item-Item Collaborative Filtering). Portanto tal afirmação está INCORRETA. As demais afirmações (I, II, III e V) estão corretas.

E
II e V
Questão 3/10 - Big Data
O Spark Streaming oferece a capacidade de realizar transformações em janelas, o que permite aplicar transformações em um conjunto de RDDs para computar os resultados de um intervalo maior.
I – Transformações de janela acumulam RDDs em intervalos de tempo maior e os processa conjuntamente produzindo um resultado acumulado.
II – O intervalo de slide é a quantidade de tempo entre cada captura de dados, ou seja, a sua frequência.
III – O intervalo de batch é a quantidade de tempo entre cada aplicação das transformações à janela. Ou seja, é a frequência em que estas são aplicadas e geram resultados.
IV – O intervalo de janela, ou comprimento da janela, é a duração da janela.
V – O intervalo de batch a frequência em que os dados são capturados do fluxo pelo DStream.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
Todas, exceto V

B
II, IV e V

C
Todas

D
I, III e V

E
II e III
Justificativa: O intervalo de slide é a quantidade de tempo que define a frequência em que as transformações são aplicadas à janela e não a frequência de captura dos dados como alega INCORRETAMENTE a afirmação II. No entanto o intervalo de batch é a quantidade de tempo que define a frequência em que os dados são capturados do fluxo pelo DStream. Ou seja, a quantidade de tempo entre cada captura de dados. Diferentemente do que diz ERRONEAMENTE a afirmação III. As demais afirmações (I, IV e V) estão CORRETAS.
Questão 4/10 - Big Data
Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de RDDs do Spark, a interface fornecida pelo Spark SQL oferece mais informações sobre a estrutura tanto dos dados quanto da computação a ser realizada. Internamente essa informação extra é utilizada para otimizações adicionais.
Sobre os diferentes formatos de dados suportados pelo Spark SQL avalie as seguintes afirmações:
I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de arquivos que armazena texto em formato tabular que utiliza vírgulas para separar valores.
II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e é considerado uma forma altamente eficiente de armazenamento.
III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de compressão muito eficientes.
IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é muito utilizado em modelos de aprendizagem.
V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um motor de consultas distribuídas a tabelas de dados externas.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, IV e V
Você acertou!
Justificativa: A fonte de dados padrão utilizada pelo Spark para todas as operações são arquivos parquet, a não ser que sejam configurados de outra forma. Diferentemente do que INCORRETAMENTE diz a afirmação I. O Parquet é um formato de armazenamento colunar, não é baseado em chave-valor como diz ERRONEAMENTE a afirmação III. As afirmações II, IV e V estão CORRETAS.

B
I, II e IV

C
Todas, exceto I

D
II, III e IV

E
Todas
Questão 5/10 - Big Data
Analisar os requisitos de um projeto é um dos pontos mais importantes no desenvolvimento de aplicações, uma vez que tais requisitos devem refletir todas as necessidades e críticas dos usuários.
A respeito dos requisitos de aplicações de Big Data, avalie as seguintes afirmações:
I – Deve-se utilizar uma solução com tecnologias de Big Data para qualquer tamanho de dados, uma vez que as vantagens da aplicação de tais tecnologias são vantajosas em diversos cenários.
II – Pode ser muito caro mover os dados armazenado em um determinado sistema de armazenamento para outro lugar, uma vez que o local de armazenamento foi definido. Por isso deve-se tentar prever cenários futuros da melhor forma possível.
III – Escalar a complexidade de um sistema para atender uma demanda além do previsto é uma boa estratégia que pode auxiliar na antecipação de custos de manutenção futuros. É sempre uma boa estratégia, avaliar qual é o máximo de infraestrutura necessária para operar a aplicação.
IV – Em muitos casos pode ser necessário manter os dados armazenados por um tempo maior por motivos de auditoria ou por necessidades jurídicas. Por isso é importante a definição de uma política de retenção de dados.
V – É importante avaliar a relação do sistema com o teorema CAP. É sempre necessário saber se devemos priorizara disponibilidade ou a consistência dos dados.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
I, II e V

B
I e III
Justificativa: Não devemos utilizar uma tecnologia de big data, como o armazenamento distribuído se o volume de dados previsto não é grande o suficiente. Pois corre-se o risco de ter uma solução demasiadamente complexa desnecessariamente. Assim a afirmação I está INCORRETA. Escalar a complexidade de um sistema para atender uma demanda além do previsto não é uma boa estratégia. Você pode aumentar os custos de manutenção sem que haja demanda para tal. Além disso, várias das tecnologias em big data são intercambiáveis e, dessa forma, podem ser substituídas facilmente. Tente sempre avaliar qual é o mínimo de infraestrutura necessária para operar a aplicação. Portanto a afirmação III é INCORRETA. As demais afirmações (II, IV e V) estão CORRETAS.

C
Nenhuma

D
II, III e IV

E
II, IV e V
Questão 6/10 - Big Data
O funcionamento estrutural de um fluxo de aprendizado de máquina pode ser descrito através das seguintes etapas: Utilizamos um conjunto de dados de teste e de treino para escolher os modelos de aprendizado de máquina mais adequados, treiná-los, e avaliá-los com o objetivo de alcançar um modelo que seja capaz de realizar predições úteis a partir de dados do mundo real.
Avalie as seguintes afirmações a respeito do fluxo de aprendizado de máquina:
I – Na etapa de obtenção de dados são adquiridos os dados que serão utilizados tanto para treinamento dos modelos quanto para avaliar a eficiência dos modelos.
II – Os problemas de dados faltantes, dados com ruído ou dados inconsistentes devem ser resolvidos na etapa de obtenção dos dados.
III – Os dados devem ser formatados da maneira mais adequada durante a etapa de preparação dos dados.
IV – A etapa de treinamento é quando utilizamos os dados de treino na expectativa de que o modelo aprenda a processar os dados da forma esperada.
V – Durante a etapa de avaliação o desempenho do modelo é avaliado e caso não seja considerado suficiente, o modelo passa por um novo ciclo de ajuste de parâmetros, treinamento e avaliação.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
I, IV e V

B
Apenas II
Justificativa: Diferentemente do que diz INCORRETAMENTE a afirmação II, os problemas de dados faltantes, dados com ruído ou dados inconsistentes devem ser resolvidos na etapa de Preparação dos Dados. As afirmações I, III, IV e V estão CORRETAS.

C
II e III

D
Todas, exceto IV

E
Nenhuma
Questão 7/10 - Big Data
Para que o valor dos dados contidos em um Data Lake não seja perdido, se faz necessário criar uma solução de Data Lake que inclua as noções de gerenciamento, acessibilidade e governança.
Avalie as seguintes afirmações a respeito do gerenciamento de Data Lake:
I – Um Data Lake oferece o mesmo nível de complexidade que outras estratégias de armazenamento como Data Mart e Data Warehouse.
II – Uma das características que podem ser agregadas aos dados armazenados em uma estratégia de Data Lake utilizando bons esquemas de governança é a transparência no uso dos dados.
III – Entre as informações que se podem obter dos dados em um Data Lake podemos destacar os metadados técnicos que fornecem informações sobre a qualidade, perfil, origem, e a sua linhagem.
IV – Os metadados técnicos de um Data Lake podem fornecer informações a respeito da forma ou estrutura dos dados tais como tamanho, tipo de dado ou esquema.
V – Os metadados de um Data Lake permitem buscar, localizar e aprender sobre os dados armazenados.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0

A
II, IV e V
Justificativa: A estratégia de armazenamento de dados Data Lake pode oferecer uma redução de complexidade, que as estratégias Data Warehouse e Data Mart não são capazes de oferecer. Dessa forma entendemos que a afirmação I está INCORRETA. Metadados técnicos são os metadados que fornecem informações a respeito da forma ou estrutura dos dados tais como: tamanho, tipo de dado, esquema. Portanto a afirmação III está INCORRETA. As demais afirmações (II, IV e V) estão CORRETAS.

B
Todas, exceto IV

C
I, II e V

D
III, IV e V

E
Todas
Questão 8/10 - Big Data
Uma vez que conhecemos os conceitos que envolvem a arquitetura big data assim como as aplicações que implementam suas características, podemos pensar em como combinar todas essas tecnologias e ideias para o desenvolvimento de um produto visando atender a alguma necessidade existente.
Avalie as seguintes afirmações a respeito do desenvolvimento e design de soluções Big Data:
I – O desenvolvimento de aplicações Big Data possui grandes desafios em como combinar todas as suas tecnologias e ideias para desenvolver novos produtos. Porém a integração com tecnologias tradicionais é uma questão trivial atualmente.
II – Em muitos casos as soluções de Big Data têm como objetivo otimizar processos de negócios, adquirir vantagens competitivas ou otimizar operações. Dessa forma podem representar muitas vantagens para uma empresa.
III – O entendimento das necessidades que nossa aplicação busca atender é uma das maneiras mais importantes de se obter as informações necessárias para guiar o desenvolvimento
IV – A documentação de requisitos é capaz de evitar desperdícios e garantir que a implementação está alinhada com as necessidades do usuário.
V – Working Backwards é uma abordagem de desenvolvimento de produtos que prioriza o entendimento dos requisitos e o feedback do usuário antes mesmo do início do desenvolvimento.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0

A
II, III e IV

B
I, IV e V

C
I, II e IV

D
Todas, exceto I
Todas exceto I
Justificativa: Existem desafios no que se trata da complexidade em integrar sistemas de big data com os sistemas tradicionais existentes. Ao contrário do que alega a afirmação I que está INCORRETA. Todas as outras afirmações (II, III, IV e V) estão CORRETAS.

E
Todas
Questão 9/10 - Big Data
Uma topologia é uma rede de spouts e bolts, onde cada aresta na rede representa um bolt ligado a um fluxo de saída de um spout ou outro bolt.
Sobre as topologias e arquitetura Storm avalie as seguintes afirmações:
I – O agrupamento de fluxos é parte da definição da topologia de forma a especificar quais fluxos de tuplas devem ser recebidas para cada bolt. Cada agrupamento de fluxo define como o fluxo deve ser particionado entre as tarefas de cada bolt.
II – No agrupamento conhecido por Shuffle grouping tuplas são distribuídas aleatoriamente às tarefas dos bolts de forma que as tuplas sejam distribuídas de maneira igualitária.
III – Atualmente no agrupamento conhecido por None grouping tuplas são distribuídas aleatoriamente às tarefas dos bolts de forma que as tuplas sejam distribuídas de maneira igualitária.
IV – No Direct grouping o fluxo é alocado diretamente a uma tarefa especificada pelo consumidor.
V – No Global grouping o fluxo é replicado para todas as tarefas dos bolts.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
IV e V
Justificativa: “Agrupamento direto”. É um tipo especial de agrupamento onde o produtor do fluxo decide qual tarefa do consumidor deve receber cada tupla. Dessa forma a afirmação IV encontra-se INCORRETA. “Agrupamento global”. O fluxo inteiro é direcionado a uma única tarefa do bolt. A tarefa de menor identificador é especificamente selecionada. Com isso a afirmação V encontra-se INCORRETA. As afirmações I, II e III estão CORRETAS.

B
Nenhuma

C
Apenas III

D
I, II e III

E
Todas, exceto III
Questão 10/10 - Big Data
Os sistemas de recomendação podem ser divididos em grupos baseados em como são construídos.
Avalie as seguintes afirmações a respeito dos diferentes tipos de recomendadores:
I – Uma lista de favoritos é considerada uma curadoria ou editorial. Uma de suas características é que não considera nenhuma característica do usuário para ser criada.
II – Listas de popularidade ou de mais recentes são agrupamentos que podem utilizar alguma característica do produto (lançamento,preço) ou dos usuários (soma das interações, vendas, views).
III – Recomendadores individualizados são aqueles que consideram características dos produtos e dos usuários para gerar uma experiência individualizada.
IV – Recomendadores individualizados utilizam uma função utilidade para relacionar um usuário e um produto a uma avaliação.
V – A função utilidade só pode ser preenchida com as avaliações que os usuários fazem a respeito de um produto.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0

A
I, II e IV

B
Todas

C
II, III e V

D
I, IV e V

E
Todas, exceto V
Justificativa: A afirmação V diz que a função utilidade só pode ser preenchida com as avaliações que os usuários fazem a respeito de um produto, porém existe uma outra maneira de coletar avaliações que é determinar as avaliações de acordo com o comportamento do usuário. Portanto a afirmação V está INCORRETA. Todas as outras afirmações (I, II, III e IV) estão CORRETAS.