Baixe o app para aproveitar ainda mais
Prévia do material em texto
• Pergunta 1 1 em 1 pontos O Data Lake, ou Lago de Dados, é um repositório de dados em uma arquitetura Big Data, concentrando, por meio de uma ingestão de dados, todos os tipos de dados em formatos brutos, sem a realização de tarefas de processamento e análise, ou seja, é realizado apenas o armazenamento dos dados. Considerando o contexto apresentado sobre o conceito de Data Lake, analise as afirmativas a seguir: I. O objetivo do Data Lake é receber qualquer tipo de dado, seja sem ou com transformação. II. O Data Lake recebe dados de fontes diretas do BI ( Business Intelligence ) ou de bases relacionais, como o ERP e o CRM, por meio do ETL. III. Umas das impossibilidades do Data Lake é retornar dados para uso, tanto em um Data Warehouse quanto em sistemas de análise como o BI. IV. O Data Lake recebe somente dados não estruturados de bancos de dados NoSQL, por meio de tecnologias como HDFS e Map Reduce. Está correto o que se afirma em: Resposta Selecionada: I e II, apenas. Resposta Correta: I e II, apenas. Feedback da resposta: Resposta correta. A alternativa está correta, pois o Data Lake tem como função ingerir todos os tipos de dados, sejam eles transformados, como os relacionais, ou não transformados, como os dados NoSQL. Esses dados podem se originar de diversas fontes, como o Business Intelligence, ou de bases relacionais, como os ERPs e CRMs. • Pergunta 2 1 em 1 pontos A SQL e similares, muito utilizadas no processamento stream de dados, por natureza, não são linguagens de programação procedural, como as linguagens de programação Java, C, C++ e outras, pois foram construídas para, basicamente, permitir a manutenção da estrutura de dados (metadados) e dar acesso aos dados de fato, permitindo operações de consulta, inserção, atualização e exclusão. Assinale a alternativa que justifica a diferença entre a linguagem SQL e a maioria das linguagens de programação. Resposta Selecionada: A SQL pode ser usada em conjunto com as linguagens externas e dar acesso aos dados de fato, permitindo operações de manutenção. Resposta Correta: A SQL pode ser usada em conjunto com as linguagens externas e dar acesso aos dados de fato, permitindo operações de manutenção. Feedback da resposta: Resposta correta. A alternativa está correta, pois a diferença entre a SQL e as linguagens de programação externa é que a SQL pode ser utilizada de maneira combinada, por meio de acessos em diferentes camadas, como interface, regras de negócio e banco de dados. Enquanto as linguagens externas tratam da programação de interfaceamento e regras de negócios, a SQL trata do acesso e da manipulação de dados na base de dados. • Pergunta 3 1 em 1 pontos O Data Warehouse, ou Armazém de Dados, consolida as informações orientadas a assuntos das atividades organizacionais a partir de um grande volume de dados, favorecendo relatórios e análises de informações estratégicas de forma catalogada. Os dados do Data Warehouse são coletados de diversas fontes de dados, por meio de ETLs. As fontes das bases de dados dos Data Warehouse são originadas de: Resposta Selecionada: bases transacionais internas e externas. Resposta Correta: bases transacionais internas e externas. Feedback da resposta: Resposta correta. A alternativa está correta, pois o Data Warehouse coleta informações de bases transacionais internas e externas das organizações, podendo ser também de fontes não estruturadas, gerando dados para as bases multidimensionais, como os Data Marts. • Pergunta 4 1 em 1 pontos Os Data Marts podem ingerir e ser ingeridos por um Big Data. A estrutura multidimensional de um Data Mart facilita a pesquisa para a geração de relatórios e gráficos sumarizados e de forma analítica, dependendo dos recursos da ferramenta de leitura do cubo. Dentro de uma estrutura multidimensional, é possível realizar uma análise mais aprofundada das informações, por meio do cruzamento de dimensões e métricas. Considerando o contexto apresentado sobre as aplicações do Data Mart, analise as afirmativas a seguir: I. O Data Mart é uma análise direta das bases relacionais. II. Após a criação dos cubos, os usuários, por meio de aplicativos específicos de leitura, podem destrinchar e detalhar as informações. III. Após a criação dos cubos, os usuários podem acessar diretamente o Data Mart, sem a necessidade de aplicativos de leitura. IV. Após a criação dos cubos, é necessário definir as dimensões e visões que deverão ser acessadas. Está correto o que se afirma em: Resposta Selecionada: II e IV, apenas. Resposta Correta: II e IV, apenas. Feedback da resposta: Resposta correta. A alternativa está correta, pois as bases multidimensionais não realizam acesso direto a bases relacionais, necessitando de aplicativos específicos para a leitura e detalhamento das informações, bem como definir as dimensões e visões para criar as consultas. Somente após a criação do cubo multidimensional é possível acessar os dados e dimensões, por meio de aplicativos específicos de leitura. • Pergunta 5 0 em 1 pontos Leia o excerto a seguir: “O objetivo do aprendizado máquina é derivar modelos preditivos a partir de dados atuais e históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as devidas melhorias com uma excessiva quantidade de treinamento ou experiência. Tais resultados eficientes são alcançados por algoritmos específicos de aprendizado máquina”. BENGFORT, B.; KIM, J. Analítica de dados com Hadoop: uma introdução para cientistas de dados. São Paulo: Novatec, 2016., p. 38. Com base no contexto apresentado e em seus estudos sobre o aprendizado de máquina, analise as afirmativas a seguir e verifique quais correspondem a algoritmos que atingem resultados mais eficientes. I. Aprendizado para um pequeno conjunto de dados e amplos domínios usando modelos treinados. II. Mineração de dados para domínios restritos e uso de modelos com base na experiência, por meio de um processo indutivo. III. Com acesso de grandes bases de conhecimento de treinamento, por meio de conhecimentos úteis e não triviais. IV. Aprendizado para um grande conjunto de dados relacionais e bases de conhecimento. V. Aprendizado para domínios muito restritos, usando modelos treinados a partir de um grande conjunto de dados. Está correto o que se afirma em: Resposta Selecionada: III e I, apenas. Resposta Correta: II e V, apenas. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com parâmetros de algoritmos para a maior eficiência esperada. O aprendizado envolve a generalização com base na experiência, e, para uma generalização ideal, o desempenho deve melhorar não apenas na repetição da mesma tarefa, mas, sim, em tarefas semelhantes do domínio, por meio de um viés indutivo. O aprendizado indutivo é aquele que utiliza a generalização a partir de um conjunto de exemplos. • Pergunta 6 0 em 1 pontos A linguagem de programação SQL é uma linguagem interna aos SGBDs. Essa linguagem sempre estará atuando em conjunto com as linguagens de programação para aplicações como Java, C# ou PHP, por exemplo. A linguagem SQL é a linguagem universal para a comunicação com SGBDs, e, por isso, as aplicações implementam simplesmente as interfaces de apoio para os procedimentos de acordo com a particularidade de cada SGBD. A respeito da linguagem de programação SQL, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A SQL é utilizada somente por desenvolvedores de aplicações que armazenam e validam dados, em razão da necessidade do conhecimento das programações lógica e relacional. II. ( ) Projetos de banco de dados mal construídos e consultas SQL superficiais sem o cuidado de um especialista representam o maiorgargalo de performance em uma aplicação, pois consomem memória e processador em excesso. III. ( ) As aplicações que usam o banco de dados não só como armazenador de dados, mas, também, como uma camada por baixo da aplicação, com a utilização de princípios como integridade dos dados, validação, controle de acesso e segurança, fornecem um ambiente altamente eficaz e profissional. IV. ( ) A SQL, igualmente a outras linguagens de programação, sofre grande alteração ao longo do tempo, sendo que deve haver um entendimento teórico e prático constante para garantir uma habilidade a longo prazo. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: V, F, F, F. Resposta Correta: F, V, V, F. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as características da SQL. Lembre-se de que a linguagem SQL é uma linguagem de manipulação de banco de dados e pode ser utilizada em combinação com uma variedade de linguagens externas e, por isso, ela sofre poucas modificações, além de exigir um cuidado na definição de consultas relacionais. • Pergunta 7 0 em 1 pontos Leia o excerto a seguir: “Várias metodologias estão sendo utilizadas pelas empresas para a coleta de dados. Porém, quando falamos em Big Data, estamos assumindo que, além de termos um grande volume de dados, devido às grandes proporções, eles não podem ser tratados como métodos tradicionais, para isso devem ser executados alguns passos, tais como a obtenção, armazenamento, sistematização e análise de dados”. MORAIS, I. S. et al . Introdução a Big Data e Internet das Coisas (IoT). Porto Alegre: SAGAH, 2018, p. 45-46. Nesse sentido, em função da diversidade de fontes, quantidade e tipos de dados, assinale a alternativa que apresenta as cinco vertentes que definem a performance de um conceito Big Data. Resposta Selecionada: Propriedades estruturais, em que os dados podem ser criados, duplicados, alterados, eliminados e normalizados. Resposta Correta: Volume, velocidade, variedade, veracidade e valor. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois você deve associar as vertentes do Big Data a um conjunto de tecnologias, processos e práticas que permite à empresa realizar a análise de dados, tomar decisões ou até mesmo gerenciar atividades de forma muito mais eficiente. Associe a necessidade de informação da empresa com o conceito de Big Data e suas características. Lembre-se da diferença entre as propriedades ACID (atomicidade, consistência, isolamento, durabilidade e confiabilidade) e CAP (consistência, disponibilidade e tolerância a falhas) e dos 4 Vs (volume, velocidade, veracidade e valor); cada qual está associado às determinadas arquiteturas de ingestão de dados, armazenamento, processamento e visualização dos dados. • Pergunta 8 0 em 1 pontos Leia o excerto a seguir: “O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias que lidam com formas de uso e tratamento de dados”. PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14. A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a analisar eventos passados, a entender as atividades atuais e a prever resultados futuros. II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados relacionais em uma única base de dados de grande volume e poder de processamento. III. ( ) É um framework de código aberto para o processamento e armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma máquina mestre e várias escravas, promovendo soluções em uma única plataforma. IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: F, V, V, V. Resposta Correta: V, F, V, V. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as características de um ecossistema Hadoop . Lembre-se de que o ecossistema Hadoop é constituído de diversas tecnologias que fazem com que a ingestão de dados, seu armazenamento, processamento e visualização sejam tratados de forma eficiente para a tomada de decisão organizacional. • Pergunta 9 0 em 1 pontos Observe a figura abaixo e leia o excerto a seguir: Figura - Esquema do stream de dados com captura, ingestão, processamento e análise desses dados Fonte: Adaptada de Pereira (2019, p. 105). “O Data Stream ou stream é uma evolução do Big Data pela forma de prospectar e analisar os dados dinamicamente e de modo contínuo. [...] Nesse fluxo de dados contínuo, o processamento se dá pela captura de um trecho, conhecido como janela. Uma vez coletados, esses dados são processados sequencialmente e forma incremental, registro por registro ou em uma janela que desliza com base no tempo”. PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 104. A respeito do Data Stream, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) O processo de captura de dados na janela é conhecido como ingestão de dados, o que possibilita o processamento e a realização da análise de dados. II. ( ) É uma instância da relação e se refere a uma tabela (no paradigma relacional) ou classe (no paradigma orientado a objeto) que contém todos os registros de dados ou uma coleção de objetos. III. ( ) O stream é um conjunto de dados gerados em tempo real e, diferentemente do envio em lotes, tem relação com o processo de envio de registros de dados de forma contínua, à medida que os dados são gerados. IV. ( ) Um stream de dados é definido como um conjunto de sinais digitais que são utilizados por diferentes tipos de transmissão de conteúdos. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: V, F, F, F. Resposta Correta: V, F, V, V. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com a definição de stream. Lembre-se de que o stream de dados é o processo como um todo, que gera a possibilidade de análise de uma diversidade de fonte de dados, como dispositivos diferentes, e com uma variedade grande de formatos. O stream de dados se encontra em um fluxo contínuo (constante) de dados, em que início e fim não são vistos, e que dados estruturados, semiestruturados e não estruturados podem ser ingeridos para análise e processamento dentro de um Pipeline de dados. • Pergunta 10 0 em 1 pontos Leia o excerto a seguir: “Fast Data nada mais é do que processar os dados com alta velocidade, maior do que a de um Big Data, a ponto de possibilitar uma ação em tempo real, adaptada ao perfil do cliente, tornando esse esforço mais assertivo e exclusivo, aproveitando as oportunidades em tempo hábil. [...] [Os Fast Data] estão se tornando fundamentais para as estratégias de marketing de empresas de diferentes setores. Um dos maiores e-commerce do Brasil já usa o Fast Data há algum tempo”. DIAS, A. et al. Aplicação doFast Data do Marketing do comércio atual. Revista Unifenas . v. 11, n. 1, p. 1- 9, 2016, p. 4. Disponível em: http://revistas.unifenas.br/index.php/RE3C/article/view/161/106 . Acesso em: 2 out. 2020. Considerando o contexto apresentado sobre o Fast Data, analise as afirmativas a seguir: I. Em uma arquitetura Fast Data, a aquisição ou ingestão de dados necessita de uma forma assíncrona para evitar contrapressão (dados gerados mais rapidamente do que são consumidos). II. Em uma arquitetura Fast Data, usar paralelismo no processo de transformação dos dados antes do processamento de limpeza e eliminação de duplicação de dados é um fator não usual. III. A arquitetura Fast Data se utiliza de processo de ingestão de dados em tempo real, dentro de um processo de aquisição, armazenamento, processamento e visualização de dados. IV. Na etapa de armazenamento em uma arquitetura Fast Data (Data Storage Layer - camada de armazenamento de dados), é necessário pensar na utilização de normalizações de banco de dados. Está correto o que se afirma em: Resposta Selecionada: III e IV, apenas. Resposta Correta: I e III, apenas. Feedback da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as afirmativas selecionadas. Quando se fala em arquitetura Fast Data, deve-se lembrar dos procedimentos de otimização em termos de custo e uso dos recursos, a fim de se http://revistas.unifenas.br/index.php/RE3C/article/view/161/106 obter uma melhor eficiência na ingestão de dados em tempo real. Existem técnicas, métodos específicos e propriedades necessárias para uma ingestão, por exemplo de stream processing, em que há um fluxo contínuo de dados que devem ser ingeridos para o pipeline de dados. Pergunta 1 Pergunta 2 Pergunta 3 Pergunta 4 Pergunta 5 Pergunta 6 Pergunta 7 Pergunta 8 Pergunta 9 Pergunta 10
Compartilhar