N 2 COLETA DE DADOS

•

UAM

edson delfino cavalcanti

26/05/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.737 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

· Pergunta 1
1 em 1 pontos

Leia o excerto a seguir:
“A principal abstração de um SPS [Sistemas de Processamento Stream ] é o data stream. Um stream é um fluxo contínuo e ilimitado de dados que chega em determinada ordem; a taxa de chegada dos dados pode ser fixa ou imprevisível; e os dados podem ser estruturados, semiestruturados ou não estruturados. Cada item de um stream é chamado de tupla, evento ou mensagem, geralmente composto por um conjunto de pares de chave/valor. Tuplas de um mesmo data stream possuem o mesmo data schema, que descreve as colunas e seus respectivos tipos de dados”. (CHAKRAVARTHY, 2009 apud BORDIN et al. , 2016, p. 4)
BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERAD2016-BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set. 2020.
Considerando o contexto apresentado sobre o SPS (Stream Processing Systems ou Sistema de Processamento Stream), analise as afirmativas a seguir:
I. Os Data Streams são produzidos por entidades externas denominadas fontes de dados, por exemplo a IoT (Internet das Coisas).
II. Os dados produzidos são consumidos (ingeridos) pelo SPS para processamento, por meio de um componente chamado de fonte ( source ).
III. As aplicações de Data Stream não se limitam a um processamento em memória, pois podem ser processadas em discos, já que precisam produzir resultados rápidos.
IV. Aos operadores que recebem os Data Streams se aplica um processamento ou função de filtragem, junção, agregação, mineração, álgebra relacional etc.
Está correto o que se afirma em:

Resposta Selecionada:
I, II e IV, apenas.
Resposta Correta:
I, II e IV, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta com relação à afirmativa I, pois os Data Streams são advindos de fontes externas diversas e com tipos de dados estruturados, semiestruturados e não estruturados, principalmente de fontes de dispositivos como televisores, geladeiras e equipamentos conectados à internet. Com relação à afirmativa II, os dados são ingeridos por um SPS, de forma que todos os dados são recebidos de fontes denominadas “fonte source”, que podem ser a internet, documentos, dispositivos etc. Com relação à afirmativa IV, os operadores estão relacionados à máquina de processamento da camada Data Processing Layer, que realiza as funções diversas de filtragem, álgebra relacional à junção (sumarização de tuplas), agregação (coleção e sumarização), mineração de dados (aprendizado máquina) e outras funções de processamento.

· Pergunta 2
1 em 1 pontos

Leia o excerto a seguir:
“O Big Data pode ser caracterizado por seu volume, onde são gerados petabytes de dados a cada dia. E estima-se que este volume dobre a cada 18 meses. Variedade também, pois estes dados vêm de sistemas estruturados (hoje são a minoria) e não estruturados (a imensa maioria) gerados por e-mail, mídias sociais (Facebook, Twitter, YouTube e outros), documentos eletrônicos, apresentações estilo powerpoint, imagens instantâneas, sensores, etiquetas RFID, câmeras de vídeos etc.”.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2019, p. 39.
Nesse sentido, em função da diversidade de fontes e da quantidade e tipos de dados, uma alta capacidade de dados reflete em um alto custo do dimensionamento do Big Data. Esse procedimento pode ser solucionado por meio do:

Resposta Selecionada:
aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores ( cluster) por meio da técnica de sharding.
Resposta Correta:
aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores (cluster) por meio da técnica de sharding.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois, para a solução de problemas de capacidade de armazenamento e processamento em um Big Data, a fragmentação dos dados por meio da técnica sharding
faz que o armazenamento se expanda horizontalmente (particionamento horizontal). A técnica sharding utiliza o conceito de banco de dados distribuídos, em que os dados são partilhados em vários servidores, denominados cluster.

· Pergunta 3
0 em 1 pontos

Leia o excerto a seguir:
“O particionamento de dados é a forma de fragmentar ou particionar em diferentes meios físicos. A forma de armazenamento de dados utilizando sistemas distribuídos é um formato comum quando se trata de Big Data. O particionamento permite que tabelas e índices de um banco de dados sejam subdivididos em partes menores individuais. Cada parte do projeto é chamada de partição. Uma partição tem o seu próprio nome e pode ter suas próprias características de armazenamento”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 17.
A respeito do particionamento de dados, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Da perspectiva de um administrador de banco de dados, um objeto particionado possui várias partes que podem ser gerenciadas coletiva ou individualmente.
II. ( ) Por meio do particionamento, uma tabela pode ser acessada por um aplicativo, pois suas relações serão perdidas.
III. ( ) O particionamento pode reduzir muito o custo total de propriedade de dados, por meio de uma abordagem de arquivamento em camadas para manter as informações relevantes.
IV. ( ) A ideia do particionamento de objetos como tabelas é utilizar-se de uma chave de particionamento, cujo conjunto de colunas determina em qual partição uma linha ficará.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, F.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as características de particionamento . Lembre-se de que o particionamento é a fragmentação de objetos de um banco de dados e sua manipulação para que as partes possam ser melhor gerenciadas. A fragmentação dos dados traz uma eficiência no processo de ingestão de dados por meio de uma computação distribuída para os respectivos clusters.

· Pergunta 4
1 em 1 pontos

Leia o excerto a seguir:
“O objetivo do aprendizado máquina é derivar modelos preditivos a partir de dados atuais e históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as devidas melhorias com uma excessiva quantidade de treinamento ou experiência. Tais resultados eficientes são alcançados por algoritmos específicos de aprendizado máquina”.
BENGFORT, B.; KIM, J. Analítica de dados com Hadoop: uma introdução para cientistas de dados. São Paulo: Novatec, 2016., p. 38.
Com base no contexto apresentado e em seus estudos sobre o aprendizado de máquina, analise as afirmativas a seguir e verifique quais correspondem a algoritmos que atingem resultados mais eficientes.
I. Aprendizado para um pequeno conjunto de dados e amplos domínios usando modelos treinados.
II. Mineração de dados para domínios restritos e uso de modelos com base na experiência, por meio de um processo indutivo.
III. Com acesso de grandes bases de conhecimento de treinamento, por meio de conhecimentos úteis e não triviais.
IV. Aprendizado para um grande conjunto de dados relacionais e bases de conhecimento.
V. Aprendizado para domínios muito restritos, usando modelos treinados a partir de um grande conjunto de dados.
Está correto o que se afirma em:

Resposta Selecionada:
II e V, apenas.
Resposta Correta:
II e V, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois, dentrode um processo de aprendizagem de máquina, para derivar modelos preditivos e obter uma maior eficiência de aprendizagem, é necessário que os algoritmos utilizem uma menor quantidade de domínios, com modelos treinados, e um grande conjunto de dados da base. Além dos domínios restritos, a eficiência é obtida por meio do uso de processos que utilizam modelos indutivos com base na experiência, fazendo, assim, predições do que irá acontecer com base no que já aconteceu.

· Pergunta 5
0 em 1 pontos

Leia o excerto a seguir:
“Várias metodologias estão sendo utilizadas pelas empresas para a coleta de dados. Porém, quando falamos em Big Data, estamos assumindo que, além de termos um grande volume de dados, devido às grandes proporções, eles não podem ser tratados como métodos tradicionais, para isso devem ser executados alguns passos, tais como a obtenção, armazenamento, sistematização e análise de dados”.
MORAIS, I. S. et al . Introdução a Big Data e Internet das Coisas (IoT). Porto Alegre: SAGAH, 2018, p. 45-46.
Nesse sentido, em função da diversidade de fontes, quantidade e tipos de dados, assinale a alternativa que apresenta as cinco vertentes que definem a performance de um conceito Big Data.

Resposta Selecionada:
Atomicidade, consistência, isolamento, durabilidade e confiabilidade.
Resposta Correta:
Volume, velocidade, variedade, veracidade e valor.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois você deve associar as vertentes do Big Data a um conjunto de tecnologias, processos e práticas que permite à empresa realizar a análise de dados, tomar decisões ou até mesmo gerenciar atividades de forma muito mais eficiente. Associe a necessidade de informação da empresa com o conceito de Big Data e suas características. Lembre-se da diferença entre as propriedades ACID (atomicidade, consistência, isolamento, durabilidade e confiabilidade) e CAP (consistência, disponibilidade e tolerância a falhas) e dos 4 Vs (volume, velocidade, veracidade e valor); cada qual está associado às determinadas arquiteturas de ingestão de dados, armazenamento, processamento e visualização dos dados.

· Pergunta 6
0 em 1 pontos

Dentro do conceito de Business Intelligence (inteligência nos negócios), cada camada de um Data Warehouse ou Data Mart representa um tipo de informação de uma base multidimensional que pode ser ingerida para um Big Data ou ingerir dados de outras fontes de dados.
O cubo de dados é a representação da multidimensionalidade dessas informações. Portanto, os Data Marts são:

Resposta Selecionada:
bancos de dados distribuídos ou sistemas de armazenamento distribuído com foco no armazenamento de dados semiestruturados.
Resposta Correta:
criados, de forma personalizada, para facilitar as extensivas pesquisas por assuntos específicos.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as características de uma base multidimensional como o Data Warehouse ou o Data Mart. As bases multidimensionais processam um volume considerável de informação estruturada, não estruturada, semiestruturada e não procuram por padrões e tendências complexas em bases de dados transacionais em diversos níveis organizacionais.

· Pergunta 7
0 em 1 pontos

O Data Lake, ou Lago de Dados, é um repositório de dados em uma arquitetura Big Data, concentrando, por meio de uma ingestão de dados, todos os tipos de dados em formatos brutos, sem a realização de tarefas de processamento e análise, ou seja, é realizado apenas o armazenamento dos dados.
Considerando o contexto apresentado sobre o conceito de Data Lake, analise as afirmativas a seguir:
I. O objetivo do Data Lake é receber qualquer tipo de dado, seja sem ou com transformação.
II. O Data Lake recebe dados de fontes diretas do BI ( Business Intelligence ) ou de bases relacionais, como o ERP e o CRM, por meio do ETL.
III. Umas das impossibilidades do Data Lake é retornar dados para uso, tanto em um Data Warehouse quanto em sistemas de análise como o BI.
IV. O Data Lake recebe somente dados não estruturados de bancos de dados NoSQL, por meio de tecnologias como HDFS e Map Reduce.
Está correto o que se afirma em:

Resposta Selecionada:
I, II e III, apenas.
Resposta Correta:
I e II, apenas.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as afirmativas selecionadas. Lembre-se de que o Big Data pode utilizar repositórios Data Lake na ingestão inicial de dados, e estes serem integrados com outras tecnologias, até mesmo com um banco de dados operacional rápido.

· Pergunta 8
0 em 1 pontos

Leia o excerto a seguir:
“O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias que lidam com formas de uso e tratamento de dados”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14.
A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a analisar eventos passados, a entender as atividades atuais e a prever resultados futuros.
II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados relacionais em uma única base de dados de grande volume e poder de processamento.
III. ( ) É um framework
de código aberto para o processamento e armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma máquina mestre e várias escravas, promovendo soluções em uma única plataforma.
IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, F.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as características de um ecossistema Hadoop . Lembre-se de que o ecossistema Hadoop é constituído de diversas tecnologias que fazem com que a ingestão de dados, seu armazenamento, processamento e visualização sejam tratados de forma eficiente para a tomada de decisão organizacional.

· Pergunta 9
0 em 1 pontos

Observe a figura abaixo e leia o excerto a seguir:
Figura - Esquema do stream de dados com captura, ingestão, processamento e análise desses dados
Fonte: Adaptada de Pereira (2019, p. 105).
“O Data Stream ou stream é uma evolução do Big Data pela forma de prospectar e analisar os dados dinamicamente e de modo contínuo. [...] Nesse fluxo de dados contínuo, o processamento se dá pela captura de um trecho, conhecido como janela. Uma vez coletados, esses dados são processados sequencialmente e forma incremental, registro por registro ou em uma janela que desliza com base no tempo”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 104.
A respeito do Data Stream, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) O processo de captura de dados na janela é conhecido como ingestão de dados, o que possibilita o processamento e a realização da análise de dados.
II. ( ) É uma instância da relação e se refere a uma tabela (no paradigma relacional) ou classe (no paradigma orientado a objeto) que contémtodos os registros de dados ou uma coleção de objetos.
III. ( ) O stream
é um conjunto de dados gerados em tempo real e, diferentemente do envio em lotes, tem relação com o processo de envio de registros de dados de forma contínua, à medida que os dados são gerados.
IV. ( ) Um stream de dados é definido como um conjunto de sinais digitais que são utilizados por diferentes tipos de transmissão de conteúdos.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, F.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com a definição de stream. Lembre-se de que o
stream de dados é o processo como um todo, que gera a possibilidade de análise de uma diversidade de fonte de dados, como dispositivos diferentes, e com uma variedade grande de formatos. O stream de dados se encontra em um fluxo contínuo (constante) de dados, em que início e fim não são vistos, e que dados estruturados, semiestruturados e não estruturados podem ser ingeridos para análise e processamento dentro de um Pipeline de dados.

· Pergunta 10
0 em 1 pontos

A linguagem de programação SQL é uma linguagem interna aos SGBDs. Essa linguagem sempre estará atuando em conjunto com as linguagens de programação para aplicações como Java, C# ou PHP, por exemplo. A linguagem SQL é a linguagem universal para a comunicação com SGBDs, e, por isso, as aplicações implementam simplesmente as interfaces de apoio para os procedimentos de acordo com a particularidade de cada SGBD.
A respeito da linguagem de programação SQL, analise as afirmativas a seguir e assinale V
para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A SQL é utilizada somente por desenvolvedores de aplicações que armazenam e validam dados, em razão da necessidade do conhecimento das programações lógica e relacional.
II. ( ) Projetos de banco de dados mal construídos e consultas SQL superficiais sem o cuidado de um especialista representam o maior gargalo de performance em uma aplicação, pois consomem memória e processador em excesso.
III. ( ) As aplicações que usam o banco de dados não só como armazenador de dados, mas, também, como uma camada por baixo da aplicação, com a utilização de princípios como integridade dos dados, validação, controle de acesso e segurança, fornecem um ambiente altamente eficaz e profissional.
IV. ( ) A SQL, igualmente a outras linguagens de programação, sofre grande alteração ao longo do tempo, sendo que deve haver um entendimento teórico e prático constante para garantir uma habilidade a longo prazo.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, F, V.
Resposta Correta:
F, V, V, F.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as características da SQL. Lembre-se de que a linguagem SQL é uma linguagem de manipulação de banco de dados e pode ser utilizada em combinação com uma variedade de linguagens externas e, por isso, ela sofre poucas modificações, além de exigir um cuidado na definição de consultas relacionais.

N 2 COLETA DE DADOS

UAM

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Big Data

Outros materiais

Outros materiais