Baixe o app para aproveitar ainda mais
Prévia do material em texto
Pergunta 1 Resposta Selecionada: Resposta Correta: Comentário da resposta: Leia o excerto a seguir: “O OLAP (Online Analytical Processing - processamento analítico on-line ) é um termo utilizado para descrever a análise de dados complexos. Nas mãos dos trabalhadores especializados, as ferramentas OLAP empregam a capacidade de computação distribuída”. ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados. 7. ed. São Paulo: Pearson Education do Brasil, 2018, p. 1-2. Diante do contexto sobre a ferramenta OLAP, analise as afirmativas a seguir: I. Realiza análises que requerem mais armazenamento e poder de processamento. II. São bancos de dados distribuídos ou sistemas de armazenamento distribuído com foco no armazenamento de dados semiestruturados, alto desempenho, disponibilidade e replicação de dados e escalabilidade. III. Corresponde a um processo de extração, transformação e leitura após o armazenamento de forma catalogada no armazém de dados. IV. Efetua um processo de processamento de transações em tempo real, que incluem inserções, atualizações e exclusões, além de requisitos de consultas, que correspondem a informações das diversas áreas organizacionais internas, como marketing , vendas, estoque e faturamento de uma organização. Está correto o que se afirma em: I, apenas I, apenas Resposta correta. A alternativa está correta, pois somente a afirmativa I está correta. O OLAP realiza um processamento de forma distribuída, e não de forma centralizada; entretanto, não é considerado um banco de dados distribuído. O processo de extração, transformação e leitura após o armazenamento é denominado ETL, e não OLAP. Já o processamento de transações organizacionais é denominado OLTP, e não OLAP. Pergunta 2 Leia o excerto a seguir: “ Spark Streaming é um sistema distribuído stateful de stream processing . A diferença-chave desta plataforma está na forma em como lidar com os data streams. [...] Os batches são tratados como um Resilient Distributed Datasets (RDDs), que é uma estrutura onde os dados estão em memória e podem ser recuperados sem a necessidade de replicação. Um grafo de linhagem (lineage graph) das operações aplicadas é mantido para que o dado possa ser construído. Isto é possível porque as computações são deterministas. Esses grafos de linhagem darão origem a grafos RDD, contendo o fluxo das execuções”. BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERA D2016-BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set. 2020. Considerando o contexto apresentado sobre o Spark Stream, analise as afirmativas a seguir: I. O Spark Stream é um framework de código proprietário, o qual agrupa streams de lotes em um determinado 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: intervalo de tempo, tratando a coleção de lotes com RDDs (Resilient Distributed Datasets). II. O Spark Stream utiliza computação distribuída, facilitando a criação de fluxos de processamento, sendo tolerante a falhas. Cada stream é dividido em lotes, e cada lote é um RDD (Resilient Distributed Dataset). III. Após receber os streams , o resultado do Spark Stream é formar lotes que são armazenados em um banco de dados (Data Storage Layer), podendo ser utilizados para visualização. IV. O Spark Stream se utiliza de particionamento de streams , cluster dinâmico, de processamento microbatches , com operadores nativos, determinísticos e de linguagem de programação Java, Scala e Python. Está correto o que se afirma em: I, III e IV, apenas. I, III e IV, apenas. Resposta correta. A alternativa está correta com relação à afirmativa I, pois o S park Stream recebe os dados de diversas fontes de dados, como streams, e os divide em lotes processados em memória; cada lote é considerado um dataset e permanece em memória. Com relação à afirmativa III, referente à saída do Spark Stream, os lotes são gerados pela divisão do stream na qual o Spark Stream realiza a fragmentação e o armazenamento para futura visualização. Com relação à afirmativa IV, o Spark Stream possui características de cluster dinâmico, em que a carga de trabalho é dinamicamente equilibrada à de microbatches ou microlotes, ou seja, à divisão dos streams em pequenos lotes. Pergunta 3 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Data Lake, ou Lago de Dados, é um repositório de dados em uma arquitetura Big Data, concentrando, por meio de uma ingestão de dados, todos os tipos de dados em formatos brutos, sem a realização de tarefas de processamento e análise, ou seja, é realizado apenas o armazenamento dos dados. Considerando o contexto apresentado sobre o conceito de Data Lake, analise as afirmativas a seguir: I. O objetivo do Data Lake é receber qualquer tipo de dado, seja sem ou com transformação. II. O Data Lake recebe dados de fontes diretas do BI ( Business Intelligence ) ou de bases relacionais, como o ERP e o CRM, por meio do ETL. III. Umas das impossibilidades do Data Lake é retornar dados para uso, tanto em um Data Warehouse quanto em sistemas de análise como o BI. IV. O Data Lake recebe somente dados não estruturados de bancos de dados NoSQL, por meio de tecnologias como HDFS e Map Reduce. Está correto o que se afirma em: I e II, apenas. I e II, apenas. Resposta correta. A alternativa está correta, pois o Data Lake tem como função ingerir todos os tipos de dados, sejam eles transformados, como os relacionais, ou não transformados, como os dados NoSQL. Esses dados podem se originar de diversas fontes, como o Business Intelligence, ou de bases relacionais, como os ERPs e CRMs. Pergunta 4 Leia o excerto a seguir: 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: “O principal construtor para representar dados no modelo relacional é a relação . Uma relação consiste em um esquema de relação e em uma instância de relação. A instância da relação se refere a uma tabela (no paradigma relacional) ou classe (no paradigma orientado a objeto) que contém todos os registros de dados ou uma coleção de objetos. Já o esquema de relação descreve o cabeçalho da tabela, ou seja, os campos da tabela, ou atributos de uma classe ou também denominados de ‘colunas de uma tabela’”. RAMAKRISHNAN, R.; GEHRKE, J. Sistema de gerenciamento de banco de dados. 3. ed. Porto Alegre: AMGH, 2011. p. 1-2. A respeito das fontes que originaram os dados, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma tabela é um conjunto ordenado de linhas, também chamadas de tuplas. Cada tupla é o mesmo que um registro de dados. II. ( ) A estrutura de banco de dados pode ser comparada, por exemplo, a um fichário de funcionários contendo pastas em ordem alfabética, em que cada pasta contém fichas de todos os funcionários. Então, cada ficha pode ser considerada um campo ou atributo. III. ( ) A instância da relação é o mesmo que um conjunto de tuplas de uma tabela. IV. ( ) Em dados não estruturados, em um modelo do tipo “colunas familiares”, a estrutura é equivalente à tradicional, contudo, as informações são armazenadas em colunas em vez de linhas. Assinale a alternativa que apresenta a sequência correta. V, F, F, V. V, F, F, V. Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois as tuplas correspondem aos registros. A afirmativa II é falsa, pois, considerando a comparação com um fichário, cada ficha em cada pasta é considerada um registro, e não um campo. A afirmativa III é falsa, pois a instância da relação é o mesmo que uma tabela de dados, e não tuplas de uma tabela. Já a IV afirmativa é verdadeira, pois, no modelo de colunas familiares, a estrutura é idêntica à tradicional, contudo, invertida, em que as colunas são os registrose as linhas os campos ou atributos. Pergunta 5 Observe a figura abaixo e leia o excerto a seguir: 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: Figura - Esquema do stream de dados com captura, ingestão, processamento e análise desses dados Fonte: Adaptada de Pereira (2019, p. 105). “O Data Stream ou stream é uma evolução do Big Data pela forma de prospectar e analisar os dados dinamicamente e de modo contínuo. [...] Nesse fluxo de dados contínuo, o processamento se dá pela captura de um trecho, conhecido como janela. Uma vez coletados, esses dados são processados sequencialmente e forma incremental, registro por registro ou em uma janela que desliza com base no tempo”. PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 104. A respeito do Data Stream, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) O processo de captura de dados na janela é conhecido como ingestão de dados, o que possibilita o processamento e a realização da análise de dados. II. ( ) É uma instância da relação e se refere a uma tabela (no paradigma relacional) ou classe (no paradigma orientado a objeto) que contém todos os registros de dados ou uma coleção de objetos. III. ( ) O stream é um conjunto de dados gerados em tempo real e, diferentemente do envio em lotes, tem relação com o processo de envio de registros de dados de forma contínua, à medida que os dados são gerados. IV. ( ) Um stream de dados é definido como um conjunto de sinais digitais que são utilizados por diferentes tipos de transmissão de conteúdos. Assinale a alternativa que apresenta a sequência correta. V, F, V, V. V, F, V, V. Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois, quando uma parte do stream é capturada, é feita uma ingestão de dados que passa para um processamento de dados (operações de filtro, junção, agregação etc.). A afirmativa II é falsa, pois o stream de dados não é o mesmo que as instâncias da relação de tabelas, mas é considerado o processo de captura na janela de um fluxo de dados ou os dados de registros capturados em tempo real. A afirmativa III é verdadeira, pois o stream é a aquisição dos registros de dados em fluxo contínuo, diferentemente da aquisição em lotes. A afirmativa IV é verdadeira, pois os dados de stream são um conjunto de dados estruturados, não estruturados e semiestruturados e advêm de diversas fontes para serem tratados (processados). Pergunta 6 Resposta Selecionada: Resposta Correta: Comentário da resposta: O Data Warehouse, ou Armazém de Dados, consolida as informações orientadas a assuntos das atividades organizacionais a partir de um grande volume de dados, favorecendo relatórios e análises de informações estratégicas de forma catalogada. Os dados do Data Warehouse são coletados de diversas fontes de dados, por meio de ETLs. As fontes das bases de dados dos Data Warehouse são originadas de: bases transacionais internas e externas. bases transacionais internas e externas. Resposta correta. A alternativa está correta, pois o Data Warehouse coleta informações de bases transacionais internas e externas das organizações, podendo ser também de fontes não estruturadas, gerando dados para as bases multidimensionais, como os Data Marts. Pergunta 7 Resposta Selecionada: Resposta Correta: Comentário da resposta: A linguagem de programação SQL é uma linguagem interna aos SGBDs. Essa linguagem sempre estará atuando em conjunto com as linguagens de programação para aplicações como Java, C# ou PHP, por exemplo. A linguagem SQL é a linguagem universal para a comunicação com SGBDs, e, por isso, as aplicações implementam simplesmente as interfaces de apoio para os procedimentos de acordo com a particularidade de cada SGBD. A respeito da linguagem de programação SQL, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A SQL é utilizada somente por desenvolvedores de aplicações que armazenam e validam dados, em razão da necessidade do conhecimento das programações lógica e relacional. II. ( ) Projetos de banco de dados mal construídos e consultas SQL superficiais sem o cuidado de um especialista representam o maior gargalo de performance em uma aplicação, pois consomem memória e processador em excesso. III. ( ) As aplicações que usam o banco de dados não só como armazenador de dados, mas, também, como uma camada por baixo da aplicação, com a utilização de princípios como integridade dos dados, validação, controle de acesso e segurança, fornecem um ambiente altamente eficaz e profissional. IV. ( ) A SQL, igualmente a outras linguagens de programação, sofre grande alteração ao longo do tempo, sendo que deve haver um entendimento teórico e prático constante para garantir uma habilidade a longo prazo. Assinale a alternativa que apresenta a sequência correta. F, V, V, F. F, V, V, F. Resposta correta. A alternativa está correta. A afirmativa I é falsa, pois a linguagem SQL é utilizada na manipulação e definição de dados, e não somente no armazenamento e validação de dados. A afirmativa II é verdadeira, pois a falta de conhecimento e o descuido na elaboração de consultas SQL podem inviabilizar o projeto de banco de dados. A afirmativa III também é verdadeira, pois as aplicações usam os bancos de dados não somente como armazenadores, mas também para a segurança e integridade dos dados. Já a questão IV é falsa, pois a 1 em 1 pontos 1 em 1 pontos SQL não sofre grandes alterações ao longo do tempo, diferentemente das linguagens de programação externa. Pergunta 8 Resposta Selecionada: Resposta Correta: Comentário da resposta: Leia o excerto a seguir: “O Big Data pode ser caracterizado por seu volume, onde são gerados petabytes de dados a cada dia. E estima-se que este volume dobre a cada 18 meses. Variedade também, pois estes dados vêm de sistemas estruturados (hoje são a minoria) e não estruturados (a imensa maioria) gerados por e-mail, mídias sociais (Facebook, Twitter, YouTube e outros), documentos eletrônicos, apresentações estilo powerpoint, imagens instantâneas, sensores, etiquetas RFID, câmeras de vídeos etc.”. TAURION, C. Big Data. Rio de Janeiro: Brasport, 2019, p. 39. Nesse sentido, em função da diversidade de fontes e da quantidade e tipos de dados, uma alta capacidade de dados reflete em um alto custo do dimensionamento do Big Data. Esse procedimento pode ser solucionado por meio do: aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores ( cluster) por meio da técnica de sharding. aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores (cluster) por meio da técnica de sharding. Resposta correta. A alternativa está correta, pois, para a solução de problemas de capacidade de armazenamento e processamento em um Big Data, a fragmentação dos dados por meio da técnica sharding faz que o armazenamento se expanda horizontalmente (particionamento horizontal). A técnica sharding utiliza o conceito de banco de dados distribuídos, em que os dados são partilhados em vários servidores, denominados cluster. Pergunta 9 Leia o excerto a seguir: “O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias que lidam com formas de uso e tratamento de dados”. PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14. A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F paraa(s) Falsa(s). I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a analisar eventos passados, a entender as atividades atuais e a prever resultados futuros. É 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados relacionais em uma única base de dados de grande volume e poder de processamento. III. ( ) É um framework de código aberto para o processamento e armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma máquina mestre e várias escravas, promovendo soluções em uma única plataforma. IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase. Assinale a alternativa que apresenta a sequência correta. V, F, V, V. V, F, V, V. Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o mecanismo Hadoop é uma ferramenta de análise de dados constituída de diversas outras ferramentas, formando um ecossistema de etapas de ingestão, armazenamento, processamento e visualização de dados. A afirmativa II é falsa, pois o Hadoop é escrito em linguagem Java e não realiza uma centralização dos dados ingeridos, mas, sim, uma descentralização de dados. A afirmativa III é verdadeira, pois o Hadoop é considerado um framework Open Source, que tem como objetivo o processamento e o armazenamento de dados ingeridos de diversas fontes de dados e os clusterizando em diversos servidores. A afirmativa IV é verdadeira, pois o Hadoop é um ecossistema, ou seja, uma integração de diversos módulos de sistema de arquivos. Pergunta 10 Resposta Selecionada: Resposta Correta: Comentário da resposta: Dentro do conceito de Business Intelligence (inteligência nos negócios), cada camada de um Data Warehouse ou Data Mart representa um tipo de informação de uma base multidimensional que pode ser ingerida para um Big Data ou ingerir dados de outras fontes de dados. O cubo de dados é a representação da multidimensionalidade dessas informações. Portanto, os Data Marts são: criados, de forma personalizada, para facilitar as extensivas pesquisas por assuntos específicos. criados, de forma personalizada, para facilitar as extensivas pesquisas por assuntos específicos. Resposta correta. A alternativa está correta, pois os bancos multidimensionais, como o Data Warehouse e o Data Mart, foram criados para facilitar as extensivas pesquisas por assuntos específicos. A estrutura multidimensional facilita a pesquisa para a geração de relatórios e gráficos sumarizados e de forma analítica, dependendo dos recursos da ferramenta de leitura do cubo. Após a criação do cubo Data Mart, os usuários, por meio de aplicativos específicos de leitura, podem destrinchar e detalhar as informações por meio da adição de dimensões, cruzando-as para visualização. 1 em 1 pontos
Compartilhar