Prévia do material em texto
22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 1/14 Pontuação desta tentativa: 9,33 de 10 Enviado 22 nov em 12:51 Esta tentativa levou 13 minutos. 0,66 / 0,66 ptsPergunta 1 Analise a definição: os utilitários e bibliotecas comuns que dão suporte aos outros módulos do Hadoop, como por exemplo, fornece sistemas de arquivos, abstrações do Sistema Operacional, contém os arquivos e scripts Java necessários para iniciar Hadoop. Selecione a alternativa a qual a definição se refere. HDFS. Hadoop Common. Correto!Correto! Mahout. MapReduce. Hadoop. Hadoop common: os utilitários e bibliotecas comuns que dão suporte aos outros módulos do Hadoop, como por exemplo, fornece sistemas de arquivos, abstrações do Sistema Operacional, contém os arquivos e scripts Java necessários para iniciar Hadoop. 0,66 / 0,66 ptsPergunta 2 Analise a definição: um sistema baseado em YARN para processamento paralelo de grandes conjuntos de dados. Funciona como uma API que permite a criação de programas que executarão a divisão e redução das tarefas, executando sempre a estrutura de entrada e saída presente no Hadoop. Selecione a alternativa a qual a definição se refere. Hadoop. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 2/14 Mahout. Hadoop Yarn. MapReduce. Correto!Correto! Spark. Hadoop MapReduce: um sistema baseado em YARN para processamento paralelo de grandes conjuntos de dados. Funciona como uma API que permite a criação de programas que executarão a divisão e redução das tarefas, executando sempre a estrutura de entrada e saída presente no Hadoop. 0,66 / 0,66 ptsPergunta 3 Analise as afirmativas: I. Hadoop tem um serviço de coordenação distribuída, chamado ZooKeeper, que é um serviço centralizado para manter as informações de configuração, nomeando, proporcionando sincronização distribuída e prestação de serviços; II. Cassandra é uma implementação bancos de dados não relacionais ou NoSQL, que suporta o modelo de dados Big Table e usa aspectos de arquitetura introduzidos por Amazon Dynamo; III. É um subprojeto dedicado ao carregamento massivo de vários arquivos de texto dentro de um cluster Hadoop (ETL). Chukwa se constrói sob o sistema de arquivos distribuído (HDFS) e o marco MapReduce e herda a escalabilidade e robustez de Hadoop. Também inclui um conjunto de ferramentas flexível e potente para a visualização e análise dos resultados; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. Correto!Correto! I – incorreta, II – correta e III - correta. I – correta, II – correta e III - incorreta. I – correta, II – incorreta e III - correta. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 3/14 Zookeeper: Hadoop tem um serviço de coordenação distribuída, chamado ZooKeeper, que é um serviço centralizado para manter as informações de configuração, nomeando, proporcionando sincronização distribuída e prestação de serviços. Funciona em um conjunto de máquinas e é projetado para ser altamente disponível. Ele evita a introdução de pontos únicos de falha em seu sistema, para que você possa construir um aplicativo confiável. Interações Zookeeper apoia os serviços participantes que não precisam saber sobre um outro. Por exemplo, ZooKeeper pode ser utilizado como um mecanismo de encontro, de modo que processos que de outra forma não sabem da existência um do outro (ou detalhes da rede) possam descobrir e interagir uns com os outros. Cassandra: Cassandra é uma implementação bancos de dados não relacionais ou NoSQL, que suporta o modelo de dados Big Table e usa aspectos de arquitetura introduzidos por Amazon Dynamo. Alguns dos pontos positivos do Cassandra são: Alta escalabilidade e disponibilidade, sem um ponto único de falha; Implementação de bancos de dados NoSQL; Rendimento de gravação muito alto e bom rendimento de leitura; Linguagem de consulta semelhante a SQL; Consistência ajustável e suporte para replicação; Esquema flexível; Chukwa: É um subprojeto dedicado ao carregamento massivo de vários arquivos de texto dentro de um cluster Hadoop (ETL). Chukwa se constrói sob o sistema de arquivos distribuído (HDFS) e o marco MapReduce e herda a escalabilidade e robustez de Hadoop. Também inclui um conjunto de ferramentas flexível e potente para a visualização e análise dos resultados. 0,66 / 0,66 ptsPergunta 4 Analise a definição: é um sistema de arquivos projetado para armazenar arquivos extremamente grandes com um padrão de fluxo de acesso, executar sob clusters de computadores pessoais ou plataformas de hardware comuns (WHITE, 2015). Selecione a alternativa a qual a definição se refere. Mahout. Hadoop Yarn. Hadoop. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 4/14 HDFS. Correto!Correto! Spark. O HDFS é um sistema de arquivos projetado para armazenar arquivos extremamente grandes com um padrão de fluxo de acesso, executar sob clusters de computadores pessoais ou plataformas de hardware comuns (WHITE, 2015). O HDFS é um sistema de arquivos altamente tolerante a falhas projetado para executar em hardware padrão de baixo custo; é ideal para armazenar grandes quantidades de dados. Permite a conexão de nós contidos nos clusters por meio dos quais os arquivos de dados são distribuídos. 0,66 / 0,66 ptsPergunta 5 Analise as afirmativas: I. MapReduce é o termo usado para se referir a uma família de projetos relacionados, que compõe a infraestrutura para computação distribuída e de larga escala de processamento, que usa o conceito de Big Data; II. Modelo de MapReduce divide o processamento em mapas e o divide em fases, cada fase se baseia em um par de chave/valor usado como entrada e saída para o processo; III. A biblioteca de software Apache Hadoop é um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores que utilizam modelos de programação simples; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. Correto!Correto! I – correta, II – incorreta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 5/14 Hadoop é o termo usado para se referir a uma família de projetos relacionados, que compõe a infraestrutura para computação distribuída e de larga escala de processamento, que usa o conceito de Big Data. De acordo com White (2015), Hadoop é a implementação para MapReduce e sistema de arquivos distribuído mais utilizado e conhecido. O MapReduce é um modelo de processamento de dados distribuído e um ambiente de execução em clusters de larga escala. Esse modelo divide o processamento em mapas e o divide em fases, cada fase se baseia em um par de chave/valor usado como entrada e saída para o processo. O programador especifica duas funções, o mapa e as funções de redução, para serem usadas na implementação e execução específica (WHITE, 2015). A biblioteca de software Apache Hadoop é um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores que utilizam modelos de programação simples. 0,67 / 0,67 ptsPergunta 6 Analise as afirmativas: I. O Resilient Distributed Datasets (RDD) é o conceito central da plataforma Spark. Foi desenvolvido para suportar o armazenamento de dados na memória e distribuído ou em um cluster, que implementa sua tolerância a falhas, devido, em parte, ao seu rastreamento de dados brutos ou processamentos.; II. O RDD é uma funcionalidade permiteque usuários da plataforma ou software R utilizem funções ou funcionalidades Spark de maneira mais usual.; III. Spark Streaming aproveita a capacidade de processamento rápido da Spark Core para executar os processamentos. Permite a execução e transformações RDD (Solids Distributed Datasets) nesses pedações menores de dados e lotes de processamento.; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. Correto!Correto! I – correta, II – correta e III - incorreta. I – correta, II – correta e III - correta. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 6/14 Spark Streaming Spark Streaming aproveita a capacidade de processamento rápido da Spark Core para executar os processamentos. Permite a execução e transformações RDD (Solids Distributed Datasets) nesses pedações menores de dados e lotes de processamento. Spark R Essa funcionalidade permite que usuários da plataforma ou software R utilizem funções ou funcionalidades Spark de maneira mais usual. Resilient Distributed Datasets O Resilient Distributed Datasets (RDD) é o conceito central da plataforma Spark. Foi desenvolvido para suportar o armazenamento de dados na memória e distribuído ou em um cluster, que implementa sua tolerância a falhas, devido, em parte, ao seu rastreamento de dados brutos ou processamentos. 0,67 / 0,67 ptsPergunta 7 Analise a definição: é um projeto de código livre da fundação Apache que possui uma biblioteca de implementação de algoritmos para aprendizagem de máquina. Selecione a alternativa que traz o nome da ferramenta ou projeto a qual a definição se refere: Hadoop. HDFS. Mahout. Correto!Correto! RDD. Spark. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 7/14 O projeto Mahout é um projeto de código livre da fundação Apache que possui uma biblioteca de implementação de algoritmos para aprendizagem de máquina. De acordo com Giacomelli (2013), o objetivo do projeto Mahout é ser uma escolha de ferramenta para aprendizado por máquina para processamento de conjuntos de dados extremamente grandes, tanto para execução em clusters de instâncias de Hadoop ou em uma única máquina. O Mahout é uma ferramenta desenvolvida em linguagem de programação Java dentro do projeto de computação distribuída Hadoop. 0,67 / 0,67 ptsPergunta 8 Analise o comando: hadoop fs -copyFromLocal C50 / Analise as afirmativas quanto ao comando: I. -copyFromLocal serve para copiar algo para o HDFS; II. C50 é a pasta ou arquivo de origem a ser copiado; III. / serve para formatar a pasta de destino; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. Correto!Correto! I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. I – correta, II – incorreta e III - correta. Segue o comando para a cópia dos arquivos para o sistema HDFS: hadoop fs -copyFromLocal C50 / -copyFromLocal é a opção que indica a cópia de arquivos; C50 é a pasta de origem a ser copiada para o HDFS; O / indica que a pasta de destino é o diretório raiz dentro do HDFS; 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 8/14 0 / 0,67 ptsPergunta 9 Analise o comando: ./mahout seqdirectory -i /C50/C50train -o /seqreuters -xm sequential Analise as afirmativas quanto ao comando: I. Esse comando executa o algoritmo kmeans no mahout; II. Esse comando gera os arquivos em vetores sequenciais para a análise de textos no mahout; III. A opção -i indica o diretório de entrada para o comando, nesse caso indicando a pasta /C50/C50train; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - correta. ocê respondeuocê respondeu I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. esposta corretaesposta correta I – correta, II – correta e III - incorreta. Inicialmente deve-se criar arquivos de vetores sequenciais para o processamento dos textos, para isso usa-se o comando “seqdirectory” presente no Mahout. Segue o comando executado na base: ./mahout seqdirectory -i /C50/C50train -o /seqreuters -xm sequential Nesse caso são passados parâmetros de diretório ou arquivo de entrada, o diretório de saída do comando e o parâmetro que informa para se criar o vetor sequencial. 0,67 / 0,67 ptsPergunta 10 Analise as afirmativas: I. O Mahout é uma ferramenta desenvolvida em linguagem de programação Java dentro do projeto de computação distribuída Hadoop; II. O projeto Mahout possui implementações de diversos algoritmos em sua execução direta no Hadoop com o Mapreduce; 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 9/14 III. O projeto Mahout não permite integração e implementações de algoritmo usando o Spark; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. I – incorreta, II – correta e III - correta. I – correta, II – correta e III - incorreta. Correto!Correto! O projeto Mahout é um projeto de código livre da fundação Apache que possui uma biblioteca de implementação de algoritmos para aprendizagem de máquina. De acordo com Giacomelli (2013), o objetivo do projeto Mahout é ser uma escolha de ferramenta para aprendizado por máquina para processamento de conjuntos de dados extremamente grandes, tanto para execução em clusters de instâncias de Hadoop ou em uma única máquina. O Mahout é uma ferramenta desenvolvida em linguagem de programação Java dentro do projeto de computação distribuída Hadoop. O projeto Mahout possui implementações de algoritmos de classificação e clustering, como o algoritmo K-means que possui grande relevância para o curso. O projeto Mahout possui implementações de diversos algoritmos em sua execução direta no Hadoop com o Mapreduce, algoritmos em Spark, além de poder usar frameworks H2O e Flink. 0,67 / 0,67 ptsPergunta 11 Analise a definição: exemplos são dinheiro, volume de vendas, número de funcionários, estoque, observe que essa tabela de fatos deve possuir uma grande quantidade de chaves para relacionamentos. Selecione a correta alternativa quanto à definição: Mahout. Big Data. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 10/14 Tempo. Fato. Correto!Correto! Dimensão. Cabe relembrar alguns fatores ou conceitos relacionados à multidimensionalidade e modelagem dos dados em BI: Dimensão: aos quais temos como exemplo produto, loja, atendente, são atributos descritivos usados para agrupamento em uma dada hierarquia; Tempo: temos como exemplo intervalos diário, mensal, semanal; medidas ou fatos: exemplos são dinheiro, volume de vendas, número de funcionários, estoque, observe que essa tabela de fatos deve possuir uma grande quantidade de chaves para relacionamentos. 0,67 / 0,67 ptsPergunta 12 Analise as afirmativas: I. O Qlik Sense tem uma premissa ou característica diferente do QlikView, pois ele é um software que possui maior versatilidade, flexibilidade e dá maior autonomia para o usuário; II. O Qlik Sense permite que o usuário final possa editar ou criar seus dashboard ou carregar seus dados, tento em sua versão desktop quanto sua versão inicial em nuvem; III. O Qlik View permite que o usuário final possa editar ou criar seus dashboard ou carregar seus dados, tento em sua versão desktop quanto sua versão inicial em nuvem; Selecione a correta alternativa quanto àsafirmativas: I – correta, II – correta e III - incorreta. Correto!Correto! I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 11/14 O Qlik Sense tem uma premissa ou característica diferente do QlikView, pois ele é um software que possui maior versatilidade, flexibilidade e dá maior autonomia para o usuário, de modo que o usuário final possa editar ou criar seus dashboard ou carregar seus dados, tento em sua versão desktop quanto sua versão inicial em nuvem, ambos gratuitos para download e instalação. 0,67 / 0,67 ptsPergunta 13 Analise as afirmativas: I. O Qlik Sense é um aplicativo de visualização e descoberta de dados de autoatendimento, ou o que é comumente chamado de BI self service; II. O QlikView é um aplicativo de visualização e descoberta de dados de autoatendimento, ou o que é comumente chamado de BI self service; III. O QlikView comprime os dados e os mantém memória, para exploração imediata pelos usuários.; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. I – correta, II – incorreta e III - correta. Correto!Correto! 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 12/14 Qlik View QlikView é uma plataforma de descoberta de conhecimentos em negócios para os usuários nas organizações. Com o QlikView, você pode analisar dados e usar suas descobertas de dados para apoiar a tomada de decisões. O QlikView permite que você pergunte e responda suas próprias perguntas e siga seus próprios caminhos para a visão. Como característica principal está o motor do QlikView, que gera novas visualizações de dados. Ele comprime os dados e os mantém memória, para exploração imediata pelos usuários. Para conjuntos de dados muito grandes o QlikView se conecta diretamente à fonte de dados, e oferece uma experiência associativa em todos os dados utilizados para análise, independentemente de onde está armazenado. Qlik Sense O Qlik Sense é um aplicativo de visualização e descoberta de dados de autoatendimento, ou o que é comumente chamado de BI self service, projetado para indivíduos, grupos e organizações. Com Qlik Sense você pode analisar dados e fazer descobertas de dados por conta própria. Você pode compartilhar conhecimento e analisar dados em grupos e em toda a organização. Qlik Sense permite que você pergunte e responda suas próprias perguntas e siga seus próprios caminhos e visões. 0,67 / 0,67 ptsPergunta 14 Analise as definições: I. Medidas ou fatos: aos quais temos como exemplo produto, loja, atendente, são atributos descritivos usados para agrupamento em uma dada hierarquia; II. Dimensão: exemplos são dinheiro, volume de vendas, número de funcionários, estoque, observe que essa tabela de fatos deve possuir uma grande quantidade de chaves para relacionamentos; III. Tempo: temos como exemplo intervalos diário, mensal, semanal; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - correta. Correto!Correto! I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 13/14 Cabe relembrar alguns fatores ou conceitos relacionados à multidimensionalidade e modelagem dos dados em BI: Dimensão: aos quais temos como exemplo produto, loja, atendente, são atributos descritivos usados para agrupamento em uma dada hierarquia; Tempo: temos como exemplo intervalos diário, mensal, semanal; medidas ou fatos: exemplos são dinheiro, volume de vendas, número de funcionários, estoque, observe que essa tabela de fatos deve possuir uma grande quantidade de chaves para relacionamentos. 0,67 / 0,67 ptsPergunta 15 Analise as afirmativas: I. Com Qlik Sense você pode analisar dados e fazer descobertas de dados por conta própria.; II. QlikSense tem uma interface com as visões já pré-estabelecidas para o usuário; III. Qlik view tem uma interface com as visões já pré-estabelecidas para o usuário; Selecione a correta alternativa quanto às afirmativas: I – correta, II – incorreta e III - correta. Correto!Correto! I – incorreta, II – correta e III - correta. I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. I – incorreta, II – incorreta e III - incorreta. 22/12/2022 12:10 AS Geral: TECNOLOGIAS DE BI E BIG DATA https://cruzeirodosul.instructure.com/courses/29843/quizzes/82772 14/14 O Qlik Sense é um aplicativo de visualização e descoberta de dados de autoatendimento, ou o que é comumente chamado de BI self service, projetado para indivíduos, grupos e organizações. Com Qlik Sense você pode analisar dados e fazer descobertas de dados por conta própria. Você pode compartilhar conhecimento e analisar dados em grupos e em toda a organização. Qlik Sense permite que você pergunte e responda suas próprias perguntas e siga seus próprios caminhos e visões. Note que o Qlik view tem uma interface com as visões já pré- estabelecidas para o usuário e deve ser carregado em um Qlik View Server, para que o usuário final possa acessar.