Baixe o app para aproveitar ainda mais
Prévia do material em texto
1. Um dos desdobramentos de big data é o big data analytics, que se refere aos softwares capazes de tratar dados para transformá-los em informações úteis às organizações. O big data analytics difere do business intelligence por Dar enfoque à coleta, à transformação e à disponibilização dos dados Analisar o que já existe e o que está por vir, apontando novos caminhos Analisar dúvidas já conhecidas para as quais se deseje obter resposta Analisar o que já existe, definindo as melhores hipóteses Priorizar o ambiente de negócios em detrimento de outras áreas 2. Big Data se refere ao imenso volume de conjuntos de dados que alcançam elevadas ordens de magnitude. O valor real do Big Data está no insight que ele produz quando analisado ¿ buscando padrões, derivando significado, tomando decisões e, por fim, respondendo ao mundo com inteligência. Referente ao Big Data, é correto afirmar que o termo variedade refere-se: Aos data centers físicos que transformam os dados em informações pertinentes ao negócio Ao controle de dados semiestruturados de formatos definidos como texto e números Ao banco de dados homogêneo que trata de informações do mesmo tipo definindo padrões de segurança A um conjunto de dados mais diversos, incluindo dados estruturados, semiestruturados e não estruturados. É heterogêneo e vem em muitos formatos, incluindo texto, documento, imagem, vídeo e outros A um conjunto de dados que são gerados em tempo real, o que requer a oferta imediata de informações úteis 1. Um dos desdobramentos de Big Data é a Big Data Analytics, que se refere aos softwares capazes de tratar dados para transformá-los em informações úteis às organizações. Big Data Analytics difere de Business Intelligence por Dar enfoque à coleta, à transformação e à disponibilização dos dados Analisar dúvidas já conhecidas para as quais se deseje obter resposta Analisar o que já existe, definindo as melhores hipóteses Analisar o que já existe e o que está por vir, apontando novos caminhos Priorizar o ambiente de negócios em detrimento de outras áreas 2. Com relação aos fundamentos e aos conceitos de Big Data, julgue os itens a seguir. I - O volume de dados é uma característica importante de Big Data. II - Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. III - A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. IV - A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. Estão certos apenas os itens I, III e IV II e IV I e II I e III II, III e IV 1. Bancos de Dados não relacionais, também conhecidos como NoSQL, surgiram para armazenar dados não estruturados, usando modelos de armazenamento específicos para os tipos de dados que são armazenados, usualmente, fugindo do padrão de armazenamento de linhas e colunas dos bancos de dados tradicionais. Em relação ao Banco de Dados NoSQL, quais são as categorias consideradas para esse tipo de armazenamento? Armazéns chave-valor; Banco de dados orientados a documentos; Banco de dados de grafos Primeira forma normal; Banco de dados orientados a documentos; Normalização Armazéns chave-valor; Normalização; Banco de dados orientados a coluna Banco de dados orientados a linha; Normalização; Banco de dados orientados a coluna Banco de dados de grafos; Banco de dados orientados a linha; Formas normais de armazenamento 2. Um dos principais tipos de sistemas gerenciadores de banco de dados são os bancos de dados relacionais. Assinale a alternativa que apresenta a forma que todos os dados de um banco de dados relacional são armazenados. Tabelas Arquivos Memória Fitas Discos 1. O conceito de computação em nuvem (em inglês, cloud computing) refere-se: À tecnologia de comunicação de dados que permite uma transmissão de dados mais rápida através de linhas de telefone do que um modem convencional pode oferecer, sendo os dados transmitidos mais rapidamente em uma direção do que na outra, assimetricamente À utilização da memória e da capacidade de armazenamento e cálculo de computadores e servidores compartilhados e interligados por meio da Internet, seguindo o princípio da computação em grade Ao armazenamento de dados feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, havendo necessidade de instalação de programas ou, por vezes, de armazenar dados Ao protocolo de comunicação da comada de aplicação utilizado para sistemas de informação de hipermídia, distribuídos e colaborativos, representando a base para a comunicação de dados da World Wide Web Ao programa que habilita seus usuários a interagirem com documentos HTML hospedados em um servidor da rede, destacando-se na era da web 2.0, uma vez que quase tudo do que se necessita está online 2. Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a Um banco de dados com capacidade melhorada Um banco de dados com tecnologia de virtualização Um sistema de armazenamento e processamento de dados massivamente escalável ¿ não é um banco de dados Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento 1. Com relação a análise de dados marque a alternativa INCORRETA. As ferramentas de análise de dados disponíveis atualmente facilitam a construção de inúmeros algoritmos utilizando uma diversidade de dados. Os excelentes resultados nas análises geralmente vêm de dados brutos sem nenhum tipo de tratamento. Após a captura, armazenamento e processamento dos dados, iniciamos a fase de análise. Nessa fase temos inúmeras possibilidades de converter dados brutos em conhecimento. A detecção de anomalias nos ajuda a perceber a existência de valores extremos que influenciarão alguns métodos baseados em estatística, mesmo em casos em que as anomalias correspondam a dados válidos. O objetivo das atividades preditivas é construir um modelo para prever as propriedades e/ou tendências de um conjunto de dados desconhecido. O foco principal das tarefas da categoria descritiva é caracterizar e apresentar as propriedades de um conjunto de dados de maneira concisa e informativa. 2. Marque a opção que apresenta SOMENTE ferramentas utilizadas para análise de dados. HBase e Python Apache mahout e Spark mllib Hadoop MapReduce e Apache mahout R e Apache Spark MarkLogic e Weka 1. Visualização de dados é importante para comunicar a mensagem de forma rápida e eficiente. Marque a opção que representa o tipo de visualização que tem como objetivo representar a frequência de ocorrência de cada palavra existente em uma base de dados textual. Barra Jogo de palavras Word cloud Rain of words Linha 2. Existe uma série de ferramentas para visualização de dados. Algumas delas foram desenvolvidas para serem utilizadas no software R. Marque a opção em que SOMENTE há exemplos de recursos do software R. MarkLogic e graphX Matplotlib e pentaho Shiny e graphX Ploty e rcmdr Power BI e plotly 1. Assinale a opçãocorreta sobre MapReduce, de acordo com Hurwitz (2015) MapReduce é uma estrutura de software que permite que desenvolvedores escrevam programas que possam processar quantidades massivas de dados desestruturados em paralelo, por meio de um grupo distribuído de processadores. No contexto de Big Data, a técnica MapReduce não é utilizada por ser pouco eficiente quando o volume de dados é muito alto. Apesar da utilização da técnica MapReduce para tratar grandes volumes de dados no contexto de Big Data, não é recomendável a sua utilização em uma arquitetura distribuída, virtualizada ou multiprocessada. A técnica MapReduce é utilizada pelos SGBD para a criação de gatilhos nas tabelas no banco de dados relacionais. No MapReduce, a função Map coloca um valor inicial em uma variável acumuladora e, então, processa cada elemento de uma lista passada pela função Reduce e, ao final, retorna um resultado do acumulador. 2. Com referência a Big Data, assinale a opção correta. O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído. Para armazenar e recuperar grande volume de dados, Big Data utiliza bancos SQL nativos, que são bancos de dados que podem estar configurados em quatro tipos diferentes de armazenamentos: valor chave, colunar, gráfico ou documento. A definição mais ampla de Big Data restringe o termo a duas partes ¿ o volume absoluto e a velocidade ¿, o que facilita a extração das informações e dos insights de negócios. Em Big Data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída, tendo como princípio o write-many, read-once. O sistema de arquivos distribuído Hadoop implementa o algoritmo Dijkstra modificado para busca irrestrita de dados em árvores aglomeradas em clusters com criptografia. 1. O ecossistema do Hadoop possui um conjunto de ferramentas de alto nível para facilitar a manipulação dos dados em sistemas distribuídos. Marque a opção que apresenta a ferramenta projetada para transferir dados entre o Hadoop e um banco de dados relacional. HBase Mahout Sqoop Cassandra Hive 2. O Apache Flume é um framework confiável para coletar, agregar e mover com eficiência grandes quantidades de dados. Possui uma arquitetura simples e flexível, baseada no fluxo de dados de streaming. O fluxo de dados é tratado por um agente Flume constituído de três componentes configuráveis, são eles: fonte, canal e sink bolt, sink e nimbus entrada, canal e destino canal, supervisor e destino fonte, canal e destino 1. Imagine uma situação hipotética onde uma Analista de Tecnologia da Informação foi solicitada para configurar um Servidor de Arquivos implementando técnicas RAID (Redundant Array of Inexpensive Disks). Para realizar a configuração do RAID, essa Analista pretende utilizar o Sistema Operacional GNU/Linux Debian pelo fato desse sistema operacional suportar diversos tipos de RAID via software. Durante o processo de configuração do RAID, ela optou pelo RAID do tipo 0. Qual foi a motivação dessa escolha? Implementar redundância baseada em paridade Otimizar o desempenho Implementar um subsistema JBOD Implementar redundância Replicar o conteúdo do disco principal 2. Assinale a opção correta sobre Backups: Backups mantém sempre cópias atualizadas dos dados Backups são desnecessários quando utilizamos o sistema HDFS Backups não podem ser utilizados para recuperação de uma falha física dos meios de armazenamento Backups são desnecessários quando utilizamos o sistema RAID 1 Backups são necessários para recuperação de falhas sistêmicas 1. A biblioteca do Spark que oferece uma interface relacional para trabalhar com dados estruturados usando operações conhecidas baseadas em SQL denomina-se: GraphX Spark SQL Streaming DataFrame Dataset 2. O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com várias vantagens. Marque a opção que NÃO representa uma dessas vantagens. O Spark tem um rico conjunto de bibliotecas para implementar processamentos em estilo SQL, processamento de streaming, algoritmos de grafos e aprendizado de máquina A combinação de DAG e RDD ajudam ao Spark realizar o processamento paralelo extremamente rápido, em particular quando o cluster é grande o suficiente para armazenar todos os dados em memória O Spark é tem a flexibilidade para processar dados em HDFS, HBase, Cassandra, Hive e qualquer outro formato de entrada aceito pelo Hadoop O Spark tem um gerenciador de recursos do cluster próprio responsável por alocar e monitorar os recursos disponíveis no cluster para todas as aplicações No Spark as aplicações têm possibilidade de serem escritas em Java, Scala, Python ou R ANAC 2016 - ANALISTA ADMINISTRATIVO - ANÁLISE DE SISTEMAS /ESAF) Big Data é: Dimensão + variedade + otimização + veracidade, tudo agregando + agilidade Volume + disponibilidade + velocidade + portabilidade, tudo requerendo ¿ valor Volume + variedade + velocidade + veracidade, tudo agregando + valor Volume + variedade + agilidade + efetividade, tudo agregando + valor + atualidade Volume + oportunidade + segurança + veracidade, tudo agregando + valor Respondido em 25/10/2021 09:12:24 Explicação: A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 V¿s do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valo 2a Questão Acerto: 1,0 / 1,0 Um dos desdobramentos de Big Data é a Big Data Analytics, que se refere aos softwares capazes de tratar dados para transformá-los em informações úteis às organizações. Big Data Analytics difere de Business Intelligence por Analisar dúvidas já conhecidas para as quais se deseje obter resposta Dar enfoque à coleta, à transformação e à disponibilização dos dados Priorizar o ambiente de negócios em detrimento de outras áreas Analisar o que já existe e o que está por vir, apontando novos caminhos Analisar o que já existe, definindo as melhores hipóteses Respondido em 25/10/2021 09:12:37 3a Questão Acerto: 1,0 / 1,0 Bancos de Dados não relacionais, também conhecidos como NoSQL, surgiram para armazenar dados não estruturados, usando modelos de armazenamento específicos para os tipos de dados que são armazenados, usualmente, fugindo do padrão de armazenamento de linhas e colunas dos bancos de dados tradicionais. Em relação ao Banco de Dados NoSQL, quais são as categorias consideradas para esse tipo de armazenamento? Primeira forma normal; Banco de dados orientados a documentos; Normalização Armazéns chave-valor; Normalização; Banco de dados orientados a coluna Armazéns chave-valor; Banco de dados orientados a documentos; Banco de dados de grafos Banco de dados orientados a linha; Normalização; Banco de dados orientados a coluna Banco de dados de grafos; Banco de dados orientados a linha; Formas normais de armazenamento Respondido em 25/10/2021 09:12:56 4a Questão Acerto: 1,0 / 1,0 O conceito de computação em nuvem (em inglês, cloud computing) refere-se: À utilização da memória e da capacidade de armazenamento e cálculo de computadores e servidores compartilhados e interligados por meio da Internet, seguindo o princípio da computação em grade Ao programa que habilita seus usuários a interagirem comdocumentos HTML hospedados em um servidor da rede, destacando-se na era da web 2.0, uma vez que quase tudo do que se necessita está online Ao armazenamento de dados feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, havendo necessidade de instalação de programas ou, por vezes, de armazenar dados Ao protocolo de comunicação da comada de aplicação utilizado para sistemas de informação de hipermídia, distribuídos e colaborativos, representando a base para a comunicação de dados da World Wide Web À tecnologia de comunicação de dados que permite uma transmissão de dados mais rápida através de linhas de telefone do que um modem convencional pode oferecer, sendo os dados transmitidos mais rapidamente em uma direção do que na outra, assimetricamente Respondido em 25/10/2021 09:13:10 5a Questão Acerto: 1,0 / 1,0 Existem algoritmos de análise que têm como objetivo utilizar atributos de um objeto para prever um valor numérico contínuo. Esses algoritmos são do tipo: Sumarização Classificação Agrupamento Associação Regressão Respondido em 25/10/2021 09:13:41 Explicação: Regressão 6a Questão Acerto: 1,0 / 1,0 Existe uma série de ferramentas para visualização de dados. Algumas delas foram desenvolvidas para serem utilizadas no software R. Marque a opção em que SOMENTE há exemplos de recursos do software R. MarkLogic e graphX Ploty e rcmdr Power BI e plotly Matplotlib e pentaho Shiny e graphX Respondido em 25/10/2021 09:13:53 7a Questão Acerto: 1,0 / 1,0 Com referência a Big Data, assinale a opção correta. O sistema de arquivos distribuído Hadoop implementa o algoritmo Dijkstra modificado para busca irrestrita de dados em árvores aglomeradas em clusters com criptografia. Para armazenar e recuperar grande volume de dados, Big Data utiliza bancos SQL nativos, que são bancos de dados que podem estar configurados em quatro tipos diferentes de armazenamentos: valor chave, colunar, gráfico ou documento. O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído. A definição mais ampla de Big Data restringe o termo a duas partes ¿ o volume absoluto e a velocidade ¿, o que facilita a extração das informações e dos insights de negócios. Em Big Data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída, tendo como princípio o write-many, read-once. Respondido em 25/10/2021 09:14:03 8a Questão Acerto: 0,0 / 1,0 O Sqoop foi projetado para transferir dados entre sistemas de gerenciamento de banco de dados relacional e o Hadoop. Ele automatiza a maior parte do processo de transformação de dados e realiza as importações e exportação via: JDBC Spouts HQL Nimbus ResourceManager Respondido em 25/10/2021 09:14:17 Explicação: JDBC 9a Questão Acerto: 1,0 / 1,0 (TRT - 11ª Região AM e RR 2016) Um dos servidores computacionais do TRT utiliza o esquema de armazenamento RAID 1 no qual os dados são armazenados de forma: distribuída nos discos para aumentar o desempenho. fracionada com a paridade armazenada de forma distribuída nos discos. fracionada byte a byte com a paridade armazenada em um disco dedicado. espelhada entre os discos para aumentar a confiabilidade. fracionada em setores com a paridade armazenada em um disco dedicado. Respondido em 25/10/2021 09:14:30 Explicação: Espelhada entre os discos para aumentar a confiabilidade. 10a Questão Acerto: 0,0 / 1,0 Marque a opção que melhor descreve as funcionalidades de GraphX. Framework que simplifica as tarefas de análise de gráficos, fornece a capacidade de realizar operações em grafos direcionados e com propriedades anexadas a cada vértice e aresta; Framework desenvolvido para coletar, agregar e mover grandes volumes de dados de várias fontes distintas para o conjunto de dados distribuídos resilientes do Spark; Conjunto de bibliotecas com funcionalidades para agregar, comparar e unir dados heterogêneos. Conjunto de bibliotecas de alto nível que fornecem uma abstração para consultar um conjunto de dados em cache como se fossem tabelas de um bando de dados relacional; Ferramenta especializada em otimizar o processamento de dados em cluster através da divisão de jobs em pequenas tarefas relacionadas. Tais relacionamentos são expressos através de grafos direcionados acíclicos que são executadas em paralelo; Respondido em 25/10/2021 09:14:39 Explicação: Framework que simplifica as tarefas de análise de gráficos, fornece a capacidade de realizar operações em grafos direcionados e com propriedades anexadas a cada vértice e aresta.
Compartilhar