Baixe o app para aproveitar ainda mais
Prévia do material em texto
1. Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a possibilidade de falha de um dos equipamentos de hardware que armazena os dados e o segundo tem relação com a análise combinando dados lidos de discos distintos. Marque a opção que representa os dois principais recursos do Hadoop para lidar com esses desafios: Resposta correta. C. HDFS e MapReduce. 2. Quando grandes volumes de dados são armazenados, eles são replicados em outros servidores, pois cada um deles tem diversos elementos com probabilidade de falha. Tais falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de forma que seja evitada a parada do sistema de arquivos como um todo. Marque a opção que representa os dois processos principais da arquitetura do HDFS, estruturada em mestre e escravo: Você acertou! B. Namenode e Datanode. 3. O Apache Spark é uma ferramenta utilizada no processamento de grandes conjuntos de dados de forma paralela e distribuída, e sua arquitetura é constituída de três partes principais. Marque a opção que representa os três principais componentes que constituem a arquitetura do Apache Spark: Você acertou! E. Driver Program, Cluster Manager e Workers. 4. Assim como a sua arquitetura, para trabalhar com o Apache Spark é importante conhecer os componentes do modelo de programação do Spark, como o RDD – Resilient Distrubuted Datasets, as operações e o Spark Context. Marque a opção que representa o conceito do RDD: Você acertou! A. Abstraem um conjunto de objetos distribuídos e geralmente são executados na memória principal. . Tanto o Hadoop quanto o Spark são ferramentas utilizadas para trabalhar com Big Data, de forma que processam grandes volumes de dados. Marque a opção verdadeira em relação ao processamento no Apache Hadoop e no Apache Spark: Você acertou! D. Tanto no Hadoop quanto no Spark, os módulos de processamento são integrados na própria ferramenta. 1. O Spark Streaming fornece uma abstração de alto nível para representar um fluxo contínuo de dados. Marque a opção que representa a abstração de alto nível fornecida pelo Spark Streaming. Você acertou! A. DStream. 2. O Spark Streaming e o Spark Structured Streaming são frameworks para lidar com fluxos contínuos de dados em tempo real, à medida que os dados chegam. Marque a opção correta a respeito da diferença entre o Spark Streaming e o Spark Structured Streaming. Você acertou! D. Para armazenar os resultados, o Spark Streaming utiliza o conceito de microlotes, e o Structured Streaming atualiza uma tabela de resultados. 3. O Spark Streaming é considerado um framework que torna simples a criação de aplicações em fluxos de dados. Marque a opção que representa uma característica do Spark Streaming. Você acertou! C. Facilmente escalável. 4. Para criar uma aplicação utilizando o Spark Streaming, é necessário seguir algumas etapas, sendo uma delas a criação de objetos de tipos específicos. Marque a opção que representa o tipo do objeto em que é configurado o local de execução da aplicação, o número de threads e o nome da aplicação. Você acertou! B. SparkConf. 5. Em uma aplicação com Spark Streaming, boa parte do código é apenas de configuração e não é executada até a chamada de uma função específica. Marque a opção que representa a função que permite a execução da aplicação Spark Streaming após a sua configuração. Resposta correta. E. start. 1. Algumas vantagens com a adoção da visualização de dados no processo de descoberta do conhecimento em big data podem ser elencadas. Tomando como base o resultado da pesquisa apresentado por Wang et al. (2015), qual seria o principal benefício do uso da visualização de dados? Você acertou! D. Melhoria no processo de tomada de decisão. 2. Durante a análise dos dados do censo de seu Município, Tim observou uma correlação positiva entre as variáveis correspondentes à “escolaridade” e ao “número de quartos no imóvel” do cidadão. Qual(is) técnica(s) de visualização de dados Tim pode ter utilizado para descobrir essa informação? Considerando essa lista de opções: I. Gráfico de barras II. Mapa de árvore III. Gráfico de dispersão IV. Gráfico de coordenadas paralelas Marque a resposta correta. Você acertou! E. Apenas III e IV. 3. Tim está trabalhando em um painel de controle para apresentar dados à equipe executiva de uma empresa de vendas de produtos pela Internet. Foi solicitado que ele incluísse um indicador do tempo médio de navegação dos clientes no website. Qual seria a melhor estratégia para seguir com a apresentação dessa informação? Você acertou! D. Gerar um texto apresentando essa informação como “X minutos média de tempo de navegação”, e, antes de seguir com essa apresentação, Tim deve gerar um histograma para avaliar se algum pré-processamento é necessário. 4. Durante o planejamento da sua visualização, você deverá considerar algumas questões que nortearão o design da sua visualização. Baseando-se na metodologia proposta por Munzner (2009) e nos seis itens abaixo, marque a alternativa que indica os principais itens que devem ser considerados nessa etapa. I. A necessidade e o público-alvo. II. Conjunto de dados sob análise. III. A origem e/ou fornecedor do conjunto de dados. IV. As tarefas que o usuário estará executando. V. A técnica de visualização que será utilizada. VI. A tecnologia e/ou software utilizado para gerar as visualizações. Você acertou! D. Apenas I, II, IV e V. 5. Tim trabalha como analista de dados e recebeu uma nova demanda para apresentar os dados dos clientes de uma grande instituição financeira. Essa instituição tem uma carteira de milhões de clientes e no último ano passou a capturar dados do uso de determinados recursos do seu aplicativo para dispositivos móveis. Agora eles querem entender se há alguma relação entre grupos de perfis de clientes e os itens mais utilizados no aplicativo. Com base nesses resultados, eles irão revisitar algumas estratégias de design do seu aplicativo para dispositivos móveis. O desafio de Tim é desenvolver uma visualização para apresentar os dados resultantes de um modelo de aprendizagem de máquina que utiliza técnicas de agrupamento (clustering). Qual opção abaixo melhor descreve um dos principais desafios para a visualização de dados em cenários de big data? Você acertou! C. A capacidade computacional para processar e apresentar grandes volumes de dados em tempo real. 1. Muitas linguagens de programação estão disponíveis, mas, dentro do contexto de análise de dados e do desenvolvimento de visualização de dados, há duas que são mais amplamente utilizadas. Escolha a opção verdadeira. Você acertou! D. Python e R. 2. A percepção de que o desenvolvimento de visualização de dados é parte importante do processo da descoberta do conhecimento é cada vez maior. Entretanto, mais do que visualizações estáticas, é também importante o desenvolvimento de apresentações em que o usuário possa interagir com os dados. Para isso, é importante que uma linguagem ofereça elementos dinâmicos para interação e animação dessas visualizações. Qual linguagem oferece mais recursos nesse contexto web? Você acertou! D. JavaScript. 3. Há uma grande variedade de bibliotecas disponíveis para o desenvolvimento de visualização de dados nas linguagens Python e R. Porém, há algumas mais utilizadas por oferecerem as técnicas de visualização necessárias para o dia a dia das tarefas de análise de dados e com uma sintaxe relativamente simples. Indique quais as mais utilizadas, respectivamente, para Python e R. Você acertou! D. Matplotlib e ggplot2. 4. Considere que você precisa desenvolver uma visualização para apresentar dadosdo censo. É preciso criar uma visualização considerando os dados de localização (utilizando o mapa do Brasil) e a taxa de moradores por imóvel em cada estado. Quais bibliotecas você poderá considerar como recurso para o desenvolvimento da sua visualização de dados para apresentar essa informação? I. Corrplot. II. Plotly. III. Google Charts. IV. NetworkX. V. Folium. Você acertou! C. II, III e V. 5. Caso você receba a demanda para desenvolver visualizações em interface web e que fogem das técnicas de visualização de dados mais comumente utilizadas ou que precisem de uma maior customização, você deverá utilizar os recursos da D3.js. Identifique a opção correta quanto a caracterização da D3.js. Você acertou! C. É uma biblioteca para visualização de dados desenvolvida em JavaScript.
Compartilhar