Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 2021 Prof. Arquelau Pasta GABARITO DAS AUTOATIVIDADES 2 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS TÓPICO 1 1 O Big Data refere-se ao volume, variedade e velocidade de dados – estruturados ou não –transmitidos através de redes em processos de transformação e em dispositivos de armazenamento até que se torne um conhecimento útil para as empresas. Diante deste contexto, podemos afirmar que o Big Data começou: a) (X) Com o surgimento de grande volume de dados gerados em função dos avanços tecnológicos. b) ( ) Com o avanço nas metodologias de tomada de decisões estratégicas das empresas. c) ( ) Com o avanço no poder de processamento dos computadores disponíveis para a população. d) ( ) Com a necessidade de estarmos sempre conectados as redes sociais divulgando no cotidiano. e) ( ) Com a criação de novas ferramentas de gerenciamento de banco de dados relacionais. 2 Usando de habilidades de programação, conhecimento de domínio e conhecimento matemático e estatístico, podemos analisar dados brutos e encontrar padrões ocultos. Uma empresa interessada em encontrar insights para gerenciar melhor a tomada de decisões a respeito de seus cliente e produtos, terá melhores chances se investir em: a) ( ) Banco de dados Relacionais. b) ( ) ERP. c) (X) Data Science. d) ( ) Big Data. e) ( ) Governança de Dados. UNIDADE 1 3 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 3 O Big Data Analytics é considerado um desdobramento do Big Data, softwares capazes de trabalhar com dados para transformá- los em informações úteis às empresas. O Big Data Analytics se difere do BI (Business Intelligence) por apresentar: a) ( ) A priorização do ambiente de negócios, não levando em consideração as demais áreas da empresa. b) ( ) A análise das dúvidas já conhecidas pela empresa, com o objetivo de obter respostas. c) ( ) Melhorar a qualidade na coleta dos dados para diminuir o espaço no bando de dados. d) (X) A análise dos dados existente e dos futuros para indicar novos caminhos para a empresa. e) ( ) A melhora na comunicação com seus clientes, ofertando novas promoções. 4 O Ministério Público Federal possui um conjunto de dados, em que o volume, a velocidade e a variedade de dados são muito grandes, tornando-se difícil de gerenciá-los, manipulá-los e analisá-los. A este conjunto de dados, damos o nome de: a) ( ) Data Warehouse. b) ( ) Data Mart. c) (X) Big Data. d) ( ) Cloud Computing. e) ( ) Business Analytics. 5 No universo Big Data, as empresas buscam desbloquear o potencial de dados para gerar valor. Elas também estão impacientes para encontrar novas maneiras de processar esses dados e tomar decisões mais inteligentes, o que resultará em melhor atendimento ao cliente, melhor eficiência de processos e melhores resultados estratégicos. Sabendo disso, responda, na sua visão, como o Big Data pode auxiliar as empresas na construção desse valor? 4 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS R.: Insights derivados da análise de dados estão capacitando orga- nizações grandes e pequenas a tomar decisões importantes de negócios que muitas vezes transformam suas práticas de organi- zação ou programa. Oferecendo um olhar sobre oportunidades de economia financeira, mitigação de riscos, melhorias de saú- de e segurança, rastreamento de conformidade e muito mais, a análise de dados fornece uma visão holística das operações para desenvolver estratégias de negócios focadas no futuro. Vantagens mais significativas do Big Data: • Otimização de custos: um dos benefícios mais significativos das ferramentas de Big Data é que elas oferecem vantagens de custo para as empresas quando se trata de armazenar, processar e analisar grandes quantidades de dados. • Melhorar a eficiência: as ferramentas de Big Data podem melhorar a eficiência operacional por saltos e limites. Ao interagir com clientes/clientes e obter seu valioso feedback, as ferramentas de Big Data podem acumular grandes quantidades de dados úteis do cliente. • Fomentar preços competitivos: o Big Data Analytics facilita o monitoramento em tempo real do mercado e de seus concorrentes. TÓPICO 2 1 O Big Data trabalha com dados oriundos das mais diversas fontes, em sua maioria, gerados pelas mídias sociais. Quando estamos trabalhando com esse tipo de dados, nos referimos a qual tipo: a) ( ) Quase estruturado. b) (X) Não estruturado. c) ( ) Estruturado. d) ( ) Semiestruturado. e) ( ) Pré estruturados. 5 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 2 A Nota Fiscal Eletrônica gera também um arquivo no formato XML. Em relação ao tipo de estrutura de dados para Big Data, este formato consiste em qual tipo de dados: a) ( ) Dados estruturados. b) ( ) Não estruturados. c) (X) Semi estruturados. d) ( ) Quase estruturados. e) ( ) Desestruturados. 3 Os bancos de dados relacionais trabalham com tabelas contendo os atributos a serem armazenados. Este tipo de dado no Big Data é considerado como: a) ( ) Quase estruturado. b) ( ) Não estruturado. c) (X) Estruturado. d) ( ) Semiestruturado. e) ( ) Pré estruturados. 4 O mouse se tornou um periférico muito importante, os praticantes de jogos eletrônicos possuem mouses muito sensíveis que respondem aos comandos quase que em tempo real. Esses comandos, muitas vezes acionados por clique nos botões do mouse, também geram dados que podem ser analisados pelo Big Data. Ao analisar essa afirmação, estamos falando de qual tipo de estrutura de dados? a) ( ) Não estruturado. b) (X) Quase estruturado. c) ( ) Estruturado. d) ( ) Pré estruturados. e) ( ) Semiestruturado. 6 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 5 Quando usamos nosso cartão, seja ele de crédito ou débito, em nossa compras, os dados gerados por essa ação informam não somente o valor da compra, mas uma série de outras informações podem ser geradas, como a loja onde compramos, o tipo de produto comprado, a periodicidade de nossas compras, ou seja, nosso hábito de compras. A coleta desses dados se dá por intermédio de qual elemento da interconexão do ecossistema de Big Data? a) (X) Data Devices. b) ( ) Data Center. c) ( ) Data Collectors. d) ( ) Data Users. e) ( ) Data Buyers. TÓPICO 3 1 A definição de Big Data está atrelada às características que alguns pesquisadores atribuíram como sendo os Vs do Big Data. A respeito dessa colocação, o Big Data possui as seguintes características: a) ( ) Valor, velocidade, volume, visibilidade, voracidade, veracidade e variedade. b) ( ) Valor, veracidade, volume, viabilidade, versatilidade, variedade e versatilidade. c) (X) Volume, velocidade, veracidade, variedade, valor, visualização e volatidade. d) ( ) Variedade, valor, volume, variabilidade, volatilidade, visualização e vitalidade. e) ( ) Velocidade, veracidade, volume, valor, volatilidade, visualização e versatilidade. 7 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 2 Você está realizando uma análise e encontra problemas relacionados ao armazenamento de dados em vários formatos, sendo que possuem uma estrutura inconsistente, dificultando a sua integração. Esse tipo de problema refere-se à qualidade dos dados para o Big Data e são inerentes a qual característica? a) ( ) Volatilidade. b) ( ) Visualização. c) (X) Variabilidade. d) ( ) Volume. e) ( ) Veracidade. 3 O Big Data trabalha com algumas dimensões consideradas as mais importantes a serem consideradas na elaboração de um projeto. Nestas dimensões, quando falamos da quantidade de dados gerados, estamos nos referindo a(o)? a) ( ) Variedade. b) ( ) Volatilidade. c) ( ) Visibilidade. d) (X) Volume. e) ( ) Valor. 4 No Big Data, a confiabilidade nos dados analisados é um dos principais fatores de sucesso. Se acaso os dados não são confiáveis, as respostas obtidas poderão levar a empresa a interpretações erradas einclusive poderá levá-la a falência. Diante deste contexto, falamos sobre qual dimensão no Big Data? a) (X) Veracidade. b) ( ) Volume. c) ( ) Variedade. d) ( ) Volatilidade. e) ( ) Viabilidade. 8 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 5 Os dados gerados podem ser apresentados de várias formas, seja por imagens, vídeos, áudios, documentos de texto, planilhas eletrônicas, dentre tantos formatos. No Big Data, se faz necessário compreendermos esses formatos, como devemos analisá-los e armazená-los. Esta característica do Big Data se refere a(o): a) ( ) Velocidade. b) ( ) Visibilidade. c) (X) Variedade. d) ( ) Volatilidade. e) ( ) Volume. TÓPICO 4 1 O processo de Extração, Transformação, Carregamento e Trans- formação, também conhecido como ETLT, faz parte da fase que inclui as etapas para explorar, pré-processar os dados antes da modelagem e análise. Estamos nos referenciando a qual fase? a) ( ) A fase da descoberta dos dados. b) (X) A fase de preparação dos dados. c) ( ) A fase do planejamento do modelo. d) ( ) A fase da construção do modelo. e) ( ) A fase de apresentação dos relatórios. 2 Muitas ferramentas estão disponíveis para essa subfase, dentre as quais se destacam: R, linguagem para análise e tratamento de grandes volumes de dados, SQL Analylis Service, conjunto de serviços para gerenciamento de Data Warehouse, O SAS/ACCESS fornece integração entre o SAS e o repositório de análise através de vários conectores de dados, como OBDC, JDBC e OLE DB. Esta subfase faz parte de qual etapa? 9 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS a) ( ) Preparação dos dados. b) ( ) Descoberta dos dados. c) ( ) Construção do modelo. d) ( ) Apresentação dos relatórios. e) (X) Planejamento do modelo. 3 Uma das habilidades mais importantes para um cientista de dados é ser capaz de trabalhar efetivamente com as partes interessadas. Seu impacto dependerá de sua capacidade de pensar com os gerentes de produtos, colaborar com engenheiros e persuadir executivos. Estamos falando da identificação dos stakeholders, que faz parte de qual fase do Big Data? a) ( ) Planejamento do modelo. b) ( ) Preparação dos dados. c) (X) Descoberta dos dados. d) ( ) Apresentação dos relatórios. e) ( ) Construção do modelo. 4 O estágio mais importante da análise de Big Data é o estágio de______________, em que as operações de pré-processamento e integração de dados são realizadas para melhorar a qualidade do Big Data. a) ( ) Planejamento do modelo. b) ( ) Descoberta dos dados. c) ( ) Seleção dos dados. d) (X) Preparação de dados. e) ( ) Exploração de dados e seleção variável. 5 Na fase inicial do processo, a equipe de cientistas precisa determinar quanto conhecimento de negócios ou domínio o cientista de dados precisa para desenvolver modelos nas Fases 3 e 4. Quanto mais cedo a equipe conseguir fazer essa avaliação melhor, pois a decisão ajuda a ditar os recursos necessários para a 10 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS equipe do projeto e garante que a equipe tenha o equilíbrio certo de conhecimento de domínio e conhecimento técnico. Essa fase refere-se: a) ( ) À fase de preparação dos dados. b) ( ) À fase do planejamento do modelo. c) ( ) À fase da construção do modelo. d) ( ) À fase de apresentação dos relatórios. e) (X) À fase da descoberta dos dados. TÓPICO 5 1 Observa-se que a quantidade de dados gerados está crescente, isto faz com que a análise dos dados não seja feita da maneira tradicional, pois os tipos de dados gerados não são os mesmos tipos de dados armazenados em banco de dados relacionais. Considerando este contexto descreva a diferença entre Big Data e uma Base de Dados tradicional. R.: Big Data e dados tradicionais não é apenas diferenciado na base do tamanho. Também é diferencial nas bases de como os dados podem ser utilizados e também como foi implantado o processo de ferramenta, metas e estratégias relacionadas a isso. Existem diferentes características que tornam o Big Data preferível e recomendado como: • Flexibilidade: Big Data é flexível e facilmente manuseia sem qualquer tipo de perturbação. No modelo tradicional de base de dados (banco de dados relacionais), os dados só podem ser salvos em tipos específicos de estruturas de dados. No entanto, hoje em dia há um tipo diferente de formato que estão sendo in- troduzidos. O Big Data fornece melhor acesso aos seus dados e a organização pode moldá-los de acordo com suas necessidades. 11 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS • Melhor análise: no método anterior, os dados demoraram a tempo para que todas as informações sejam analisadas corre- tamente e, para obter o resultado final, a qualidade dos dados seja degradada. Mas com este, o desempenho e o método de análise tornam-se avanços e facilmente acessados sem afetar a qualidade. • Rápido e fácil: houve um tempo em que as pessoas têm que esperar para obter os dados analisando relatórios finais, agora, todo o processo é muito mais simples e fácil, não apenas que ele também se torne rápido. • Uma maneira simples de armazenar: com o armazenamento tradicional, os dados costumavam armazenar em diferentes tipos de disco e drives. Hoje, pode ser facilmente feito com a ajuda de software que torna este trabalho deve ser conveniente. No entanto, é difícil armazenar todos os tipos de dados na plataforma moderna, mas então eles fornecem a opção de transferência rápida. 2 Tecnologia e ciência estão observando avanços revolucionários todos os dias e as empresas estão tentando extrair o melhor dela. A análise de dados é uma dessas áreas em que eles estão utilizando Big Data e Data Science na ponta dos dedos para combinar a enorme quantidade de dados com estratégias de negócios. Este cenário no remete a mito de que o Big Data. a) ( ) Deve ser implantado no banco de dados relacional da empresa. b) ( ) Apresentará respostas incertas sobre a concorrência. c) ( ) Eliminará o trabalho dos departamentos de pesquisa e desenvolvimento. d) (X) Pode ser adotado por qualquer empresa que queira conhecer melhor seus dados. e) ( ) Precisa de alto investimento, tanto na infraestrutura quanto em pessoal especializado. 12 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 3 A análise pode prever a tendência usando Big Data, mas não são os dados que impulsionam o negócio. Um negócio se mantém em muitos fatores como economia, recursos humanos, tecnologia e muito mais. Isto implica que o uso do Big Data. a) ( ) Não traz respostas concretas a respeito dos dados analisados. b) ( ) Permite planejar o desenvolvimento de novos produtos baseado em dados passados. c) ( ) Requer uma equipe de cientistas de dados para a análise dos dados. d) (X) Pode prever o futuro, mas depende das perguntas feitas sobre os dados. e) ( ) Exige um investimento considerável em analistas e equipamentos. 4 O Data Warehouse armazena dados consolidados de diversas fontes, mas interligados pelo ambiente de uma corporação. São os chamados dados estruturados, que têm como principal objetivo a precisão e qualidade, que darão suporte à tomada de decisões de qualquer empresa. Em relação ao Data Warehouse podemos afirmar que o Big Data. a) ( ) É um complemento, pois necessita dos dados já tratados do Data Warehouse. b) ( ) São arquiteturas idênticas, podendo usar tanto um quanto o outro. c) ( ) O Big Data é uma substituição para um Data Warehouse. d) (X) Big data e Data Warehouse não são os mesmos, por isso não são intercambiáveis. e) ( ) O Big Data veio substituir o Data Warehouse pela simplicidade no tratamento dos dados. 5 O volume de dados refere-se ao tamanho dos conjuntos de dados que precisam ser analisados e processados, que agora são frequentemente maiores que terabytes e petabytes ou mesmo 13 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS zetabytes. O grande volume dos dados requer tecnologiasde processamento distintas e diferentes do que os recursos tradicionais de armazenamento e processamento. a) ( ) Para o Big Data a quantidade de dados é o fator chave para as análises, pois quanto mais dados, melhor. b) (X) Dados de má qualidade têm muitos erros, muitos dados perdidos que podem ser enganosos. c) ( ) A quantidade de dados gerados é independente, uma vez que o Big Data faz suas análises em lotes de dados. d) ( ) O processo de transformação dos dados é simples e de baixo custo para o Big Data. e) ( ) Uma grande quantidade de dados atrapalha a geração dos relatórios. TÓPICO 6 1 Big Data é um termo em evolução que descreve um grande volume de dados estruturados, não estruturados e semiestruturados com potencial para serem extraídos para informações e usados em projetos de machine learning e outros. Qual das características a seguir está entre os 5 V de dados? a) ( ) Versatilidade. b) ( ) Voracidade. c) ( ) Virtualidade. d) (X) Velocidade. e) ( ) Vácuo. 2 Big Data é um termo geral para as estratégias e tecnologias não tradicionais necessárias para coletar, organizar, processar grandes conjuntos de dados. Embora o problema de trabalhar com dados que excedam o poder de computação ou armazenamento de um 14 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS único computador não seja novo, a penetração, escala e valor desse tipo de computação se expandiu muito nos últimos anos. Apenas coletar e armazenar informações não é suficiente para produzir valor real para o negócio. As tecnologias de análise de Big Data são necessárias para. a) ( ) Formular gráficos e gráficos atraentes. b) (X) Extrair insights valiosos dos dados. c) ( ) Integrar dados de fontes internas e externas. d) ( ) Organizar os dados em suas respectivas tabelas. e) ( ) Padronizar o acesso aos dados e seus relatórios. 3 Uma grande quantidade de dados é muito difícil de processar em bancos de dados tradicionais. Então, é por isso que podemos usar ferramentas de Big Data e gerenciar nosso enorme tamanho de dados muito facilmente. Qual é a melhor prática recomendada para o gerenciamento de programas de análise de Big Data? a) ( ) Adotando ferramentas de análise de dados com base em uma lista de lavanderia de suas capacidades. b) ( ) Mantendo inteiramente a concepção de "ideias antigas" relacionadas à gestão de dados. c) (X) Focando em metas de negócios e como usar tecnologias de análise de Big Data para atendê-las. d) ( ) Utilizando de ferramentas de bancos de dados relacionais para efetuar as consultas. e) ( ) Migrando os bancos de dados para o serviço nas nuvens, para garantir a segurança dos dados. 4 A análise de Big Data é o método de coletar, estudar e interpretar volumes maciços de dados quantitativos e qualitativos que impactarão as margens de lucro e o ROI de qualquer negócio. É um recurso valioso usado por profissionais de marketing e proprietários de empresas ao tomar decisões críticas, desde o lançamento de uma campanha de marketing, o desenvolvimento 15 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS de um novo produto ou a descontinuação de um serviço previamente oferecido. Diante deste contexto, como a análise de Big Data é útil para aumentar a receita dos negócios? R.: A análise de Big Data tornou-se muito importante para as em- presas. Ajuda as empresas a se diferenciarem das outras e au- mentarem a receita. Por meio de análises preditivas, a análise de Big Data fornece às empresas recomendações e sugestões personalizadas. Além disso, a análise de Big Data permite que as empresas lancem novos produtos dependendo das necessi- dades e preferências dos clientes. Esses fatores fazem com que as empresas ganhem mais receita e, portanto, as empresas estão usando a análise de big data. As empresas podem encontrar um aumento significativo de 5 a 20% na receita com a implementa- ção de análises de Big Data. Algumas empresas populares que estão usando análise de Big Data para aumentar sua receita são: Walmart, LinkedIn, Facebook, Twitter etc. 5 As empresas de visão de futuro entendem que os insights orientados por dados são excelentes diretrizes quando se trata de gerenciar os aspectos complicados das empresas que nem sempre são evidentes, mas críticos, no entanto. Usar dados para lançar luz sobre esses fatores pode ajudá-lo a desenvolver melhores planos para o futuro e torná-los rentáveis para o seu negócio. Isto nos faz refletir e questionar: como podemos aplicar esses insights e gerenciá-los para obtermos lucros com a oportunidade que os dados nos apresentam? R.: O Big Data é extremamente versátil, pois pode ser aplicado a empresas de todos os tamanhos e pode fazer uma enorme diferença em grandes e pequenos assuntos. Tudo o que se precisa fazer é entender onde ele se encaixa dentro da estrutura organizacional, e usá-lo no contexto certo. O rápido desenvolvimento de novas tecnologias, especialmente no espaço de machine learning, sem dúvida usurpará todas as previsões que tentamos fazer. A quantidade de dados que estamos produzindo só vai aumentar e analisando-os, podemos aprender e eventualmente ser capazes de prever algumas coisas. 16 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS UNIDADE 2 TÓPICO 1 1 O volume dos dados vem crescendo de forma vertiginosa, o uso massivo de dados e o aumento da capacidade de processamento de grandes bases intensificaram as pesquisas e o emprego da inteligência artificial nas tarefas diárias. Alinhando este contexto ao uso da Inteligência Artificial, assinale a alternativa INCORRETA: a) (X) Não existe risco, sejam éticos ou morais, quanto às decisões tomadas pelos dispositivos que fazem uso de técnicas de Inteligência Artificial. b) ( ) Os dispositivos com técnicas de Inteligência Artificial já superam as habilidades humanas em algumas funções. c) ( ) Veículos autônomos e robôs aspiradores são considerados exemplos de utilização da Inteligência Artificial. d) ( ) Proteger e garantir a segurança dos dados são apontados como um desafio crescente com o avanço das técnicas de Inteligência Artificial. e) ( ) O uso de técnicas de Inteligência Artificial em máquina e equipamentos, de certa forma, substitui empregos que em outra época eram atribuídos às pessoas. 2 A era do Big Data permitiu que empresas de todos os portes, desde startups até pequenas empresas, e estabeleceu grandes empresas para utilizar uma nova geração de processos e tecnologias. Isso fez com que a geração de dados tivesse um aumento nunca antes visto. Fato este que resultou na necessidade de ampliação da capacidade de se lidar com esta quantidade de dados. Neste contexto, estamos abordando o conceito de: a) ( ) Computação em nuvem. b) ( ) Redes de computadores. c) ( ) Bancos de dados não relacionais. 17 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS d) (X) Escalabilidade. e) ( ) Proteção de dados. 3 O processo de quebrar grandes tabelas em pedaços menores, chamados fragmentos, espalhados por vários servidores. Um fragmento é essencialmente uma partição horizontal de dados que contém um subconjunto do conjunto total de dados e, portanto, é responsável por servir uma parte da carga de trabalho global. O fragmento do banco de dados é o processo de fazer partições de dados em um banco de dados ou mecanismo de pesquisa, de tal forma que os dados são divididos em vários pedaços distintos menores, ou fragmentos. Este conceito refere-se a(o): a) ( ) Modularidade. b) ( ) Troubleshooting. c) (X) Sharding. d) ( ) Compartilhamento. 4 A escalabilidade é a capacidade de manter o desempenho diante do aumento de dados ou carga adicionando recursos ao sistema. Pode ser definida também como a capacidade de um sistema, rede ou processo, para lidar com a crescente quantidade de trabalho de forma capaz, ou sua capacidade de ser ampliada para acomodar esse crescimento. Disserte sobre este conceito. R.: A escalabilidade é imperdível paraqualquer ambiente de TI. Este é especialmente o caso em que a arquitetura de armazenamento está relacionada. Entre todos os documentos, arquivos PDF, fotos e vídeos, a empresa média tem dados mais não estruturados do que sabe. É evidente que a importância de escalar para atender às crescentes demandas de armazenamento não pode ser debatida. Escalabilidade Horizontal e Escalabilidade Vertical são duas estratégias de TI que aumentam o poder de processamento e a capacidade de armazenamento dos sistemas. A diferença está na forma como os engenheiros conseguem esse tipo de crescimento 18 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS e melhoria do sistema. Enquanto a Escalabilidade Horizontal envolve adicionar mais unidades a um sistema para adicionar capacidade, a Escalabilidade Vertical envolve a atualização de unidades existentes, integrando recursos a elas. 5 Sua startup criada a menos de um ano obteve uma injeção de recursos por parte dos investidores que perceberam o potencial de crescimento. Este crescimento se deve ao fato de você estar à frente de seus concorrentes, pelo poder de processamento que seu sistema dispõe. A crise causada pela pandemia do COVID-19 não lhe afetou, muito pelo contrário, sua startup teve um crescimento sem precedente e agora você precisa ampliar ainda mais o poder de processamento de seu sistema. Na sua visão estratégica como administrador e conhecedor do mercado, qual seria a melhor solução? Investir em novos computadores ou partir para a nuvem? Descreva sua estratégia baseada nos conceitos de escalabilidade: R.: O dimensionamento horizontal vem com sobrecarga em forma de configuração de cluster, gerenciamento, custos de manutenção e complexidades. O design fica cada vez mais complexo e o modelo de programação muda. Por outro lado, simplesmente lançar novos hardwares adicionando mais nós ou máquinas, também não é a maneira de começar. O projetista do sistema deve analisar os requisitos, se eles podem ser atendidos pelo aumento da capacidade ou características de sintonia de uma única máquina. Caso não, deve ser usada uma abordagem de scale-out ou combinação de ambos. Com a disponibilidade de grandes máquinas multicore a um preço significativamente menor, a questão da escala versus scale-out torna-se mais comum. Uma boa analogia para entender a diferença seria comparar drives de disco com virtualização de armazenamento. Drives de disco são uma boa analogia à abordagem de scale-up, a virtualização do armazenamento é uma boa analogia à abordagem de scale-out. 19 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS TÓPICO 2 1 A computação em nuvem é um paradigma extremamente bem- sucedido da computação orientada a serviços, e revolucionou a forma como a infraestrutura de computação é abstrata e usada. Dentre suas classes de serviços, encontra-se uma que possibilita que o usuário acesse aplicativos e serviços de qualquer local usando um computador conectado à internet. Assinale a alternativa CORRETA: a) (X) Saas. b) ( ) Iaas. c) ( ) PaaS. d) ( ) FaaS. e) ( ) CaaS. 2 Usamos o termo cloud computing (ou computação em nuvem) para designar uma série de serviços relacionados à TI disponibilizados para os mais diversos usuários. Sem a necessidade de instalarem programas em suas máquinas. A distribuição desses serviços é realizada por intermédio de uma plataforma, a cloud ou nuvem. Dentre esses serviços tem-se o que envolve a contratação de servidores e máquina virtuais, armazenamento e até sistemas operacionais. Este tipo de serviço na nuvem é conhecido como: a) ( ) Saas. b) (X) Iaas. c) ( ) PaaS. d) ( ) CaaS. 3 Os provedores de cloud computing, também conhecidos como SPs (do inglês Service Providers), oferecem diferentes tipos de serviços. Analise as proposições a seguir, em relação aos modelos de serviços oferecidos na computação em nuvem. 20 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS I- No SaaS, o usuário administra a infraestrutura subjacente, in- cluindo rede, servidores, sistemas operacionais, armazenamento ou mesmo as características individuais da aplicação. II- O SaaS é disponibilizado por prestadores de serviços na camada de aplicação. Ele roda inteiramente na nuvem e pode ser consi- derado uma alternativa a rodar um programa em uma máquina local. III- O modelo de serviço PaaS prevê que o usuário deve administrar a infraestrutura subjacente, incluindo rede, servidores, sistemas operacionais ou armazenamento. IV- No modelo de serviço IaaS existe a disponibilização de recursos completos, tais como servidores, rede, armazenamento e outros re- cursos de computação, como se fosse o aluguel de um data center. V- O PaaS é uma modalidade que oferece um ambiente sob demanda. Este serviço é ideal para empresas que desenvolvem aplicativos web baseados em nuvem. Estão CORRETAS apenas as afirmações: a) ( ) I, II e III. b) ( ) I, III e IV. c) ( ) II, III e IV. d) (X) II, IV e V. e) ( ) III, IV e V. 4 Além dos tipos de serviços prestados à computação em nuvem, também temos alguns modelos de implantação, dentre os quais destacamos as nuvens privadas. Disserte sobre este tipo de implementação de nuvem. R.: Nuvens privadas são frequentemente implantadas quando nu- vens públicas são consideradas inadequadas para as necessida- des de um negócio. Por exemplo, uma nuvem pública pode não fornecer o nível de disponibilidade de serviço ou tempo de ati- vidade que uma organização precisa. Em outros casos, o risco de hospedar uma carga de trabalho de missão crítica na nuvem pública pode exceder a tolerância ao risco de uma organização, ou pode haver preocupações de segurança ou regulamentação 21 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS relacionadas ao uso de um ambiente multi-inquilinos. Nestes ca- sos, uma empresa pode optar por investir em uma nuvem privada para perceber os benefícios da computação em nuvem, mantendo o controle total e a propriedade de seu ambiente. 5 Sua startup progrediu e virou um unicórnio. Com este crescimento, você foi obrigado a abrir novas unidade para melhor atender seus clientes. Você não pretende investir em mais servidores, pois considera melhor utilizar os serviços da nuvem para isso. Que tipo de serviços você utilizaria e qual o modelo de implementação de nuvem seria adquirido? Descreva suas ações sobre este contexto. R.: As organizações não necessariamente têm que decidir entre usar uma nuvem pública ou privada. Para algumas empresas, a resposta é ambas. Para outros, nenhuma das duas. As duas formas de computação em nuvem diferem em uma série de aspectos significativos: os serviços da nuvem pública estão disponíveis para todos, embora os usuários individuais aqui também atuem independentemente uns dos outros, todos eles usam o mesmo pool de recursos. A nuvem privada concede apenas acesso aos usuários autorizados aos serviços em nuvem. Os recursos, portanto, não são compartilhados por vários usuários. Além disso, as capacidades de computador, armazenamento e rede, em uma nuvem privada, podem ser adaptadas às necessidades individuais da organização. Uma nuvem pública geralmente não pode ser adaptada tão precisamente ao cliente individual – em comparação com a nuvem privada. A chamada nuvem híbrida combina as vantagens das nuvens privadas e públicas em um modelo de nuvem. Alguns dados da organização estão localizados em uma nuvem pública e outros em uma nuvem privada. Assim, a nuvem híbrida oferece um nível de flexibilidade comparativamente alto e os custos, muitas vezes menores, da nuvem pública, mas também atende às crescentes necessidades de segurança e proteção de dados nas organizações, pois certos serviços só podem ser usados internamente, como em uma nuvem privada. As organizações, portanto, se beneficiam da redução de custos, mantêm sua 22 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS flexibilidade e são capazes de armazenar dados confidenciais com segurançana área interna. Na nuvem híbrida, os usuários podem alternar entre tipos de nuvem a qualquer momento sem serem afetados por eles durante o trabalho. TÓPICO 3 1 Conceitua-se que um banco de dados não relacional não segue o padrão dos bancos de dados tradicionais, conhecidos como SGBDR. Sobre os bancos de dados não relacionais, conhecidos como NoSQL, assinale a alternativas CORRETA: a) ( ) Os bancos de dados do tipo NoSQL não podem ser indexados. b) ( ) Os bancos de dados NoSQL são considerados banco de dados relacionais pela relação de suas colunas. c) ( ) Para se trabalhar com bancos de dados NoSQL, deve ser definido um esquema de dados fixo antes de qualquer operação. d) ( ) Bancos como: MongoDB, Firebird, DynamoDB, SQLite, Microsoft Access e Azure Table Storage são considerados Bancos NoSQL. e) (X) Para acessar e gerenciar os dados, os bancos de dados NoSQL usam diversos modelos, como documento, gráfico, chave/ valor, em memória e pesquisa. 2 De acordo com Schreiner (2019, p. 9), “Os BDs NoSQL não seguem o modelo relacional e, para variar, não possuem um modelo de dados padrão, ou seja, cada BD NoSQL tem seu modelo de dados e suas especificações”. Existem vários modelos de dados operacionais associados ao conceito NoSQL. Assinale a alternativa que correlaciona corretamente os bancos NoSQL em relação ao modelo orientado a Chave/Valor: 23 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS a) ( ) SqlServer, Redis, Memcached. b) ( ) PostgreSql, SqlServer, Riak. c) (X) Riak, Redis, Memcached. d) ( ) Riak, Memcahed, Oracle. e) ( ) Memcached, Oracle, Riak. 3 Consistência, Disponibilidade e Tolerância à partição (do acrônimo em inglês: Consistency, Availability e Partition Tolerance, CAP) são os três pilares do Teorema de Brewer, o qual está por trás de grande parte da geração recente de pensar em torno da integridade transacional em sistemas distribuídos grandes e escaláveis. Em relação ao termo Consistência, é CORRETO afirmar que: a) (X) Significa leituras e gravações consistentes para que as ope- rações simultâneas vejam o mesmo estado de dados válido e consistente. b) ( ) Significa que os dados que não satisfazem restrições predefinidas não são persistidos. c) ( ) Significa que o sistema de banco de dados está sempre disponível sem tempo de inatividade. d) ( ) Significa que, mesmo que a comunicação entre diferentes nós de banco de dados na rede não seja confiável, tudo funciona. e) ( ) Significa que tudo em uma transação é bem-sucedido para que não seja revertido. 4 Sua empresa desenvolveu um sistema que trabalha com o histórico e sessões de usuários, fóruns e websites de e-commerce. As codificações em uso incluem XML, YAML, JSON e BSON, bem como formulários binários, como documentos PDF e Microsoft Office (MS Word, Excel, e assim por diante). Descreva qual é o tipo de banco de dados NoSQL que você deve utilizar para suportar estas transações. 24 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS R.: Um banco de dados orientado a documentos é um tipo de banco de dados NoSQL, no qual os dados são armazenados em arquivos de documentos binários. Este tipo de banco de dados associa cada documento a uma chave única que toma a forma de uma string, path ou URI. As chaves são usadas para localizar e retirar documentos individuais do banco de dados. Um banco de dados orientado a documentos também pode ser referido como uma loja de documentos. O MongoDB é um dos exemplos mais populares de um banco de dados orientado a documentos. Ele inclui recursos como suporte total ao índice, replicação e fragmentação. Uma função central do MongoDB é sua escalabilidade horizontal, o que o torna um banco de dados útil para empresas que executam aplicativos de Big Data. 5 Como NoSQL geralmente se refere a qualquer DBMS que não emprega o modelo relacional, existem vários modelos de dados operacionais associados ao conceito NoSQL. Eles funcionam bem para sistemas de gerenciamento de conteúdo, softwares de blogs, entre outros. Esses bancos de dados NoSQL possuem uma estrutura de dados de dicionário que consiste em um conjunto de objetos que representam campos de dados. Disserte sobre o modelo de banco de dados NoSQL ao qual se refere o exposto. R.: As vantagens naturalmente se prestam a vários casos de uso popular para bancos de dados de chave/valor. Os aplicativos web podem armazenar detalhes da sessão do usuário e preferência em uma loja de chave/valor. Todas as informações são acessíveis através da chave do usuário, e os bancos de dados orientados a chave/valor se prestam a leituras e gravações rápidas. Recomendações e publicidade em tempo real são frequentemente alimentadas por bancos de dados orientados a chave/valor porque bancos podem acessar rapidamente e apresentar novas recomendações ou anúncios à medida que um visitante da Web se move em um site. Na parte técnica, os bancos de dados orientados a chave/valor são comumente usados para cache de dados na memória para acelerar aplicativos minimizando leituras e gravações para sistemas mais lentos baseados em disco. 25 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS UNIDADE 3 TÓPICO 1 1 O Big Data geralmente inclui conjuntos de dados com tamanhos além da capacidade de ferramentas de software comumente usadas para capturar, curar, gerenciar e processar dados dentro de um tempo tolerável decorrido. Qual é a melhor prática recomendada para o gerenciamento de programas de análise de Big Data? a) ( ) Adotando ferramentas de análise de dados com base em uma lista de suas capacidades. b) ( ) Adotando totalmente ideias antigas relacionadas à gestão de dados. c) (X) Focando em metas de negócios e como usar tecnologias de análise de Big Data para atendê-las. d) ( ) Utilizando ferramentas de banco de dados tradicionais, pois já estão consolidadas. e) ( ) Utilizando somente dados oriundos dos sistemas internos da empresa, uma vez que são dados mais confiáveis. 2 Big Data é um termo em evolução que descreve um grande volume de dados estruturados, não estruturados e semiestruturados que tem o potencial para ser extraído de informação e utilizados em projetos de aprendizado de máquina e outros. As empresas que têm grandes quantidades de informações armazenadas em sistemas diferentes devem começar um projeto de análise de Big Data considerando: a) ( ) A criação de um plano para a escolha e implementação de tecnologias de infraestrutura de Big Data. b) (X) A inter-relação dos dados e a quantidade de trabalho de desenvolvimento que será necessária para conectar várias fontes de dados. 26 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS c) ( ) A capacidade dos fornecedores de business intelligence e análise de ajudá-los a responder a perguntas de negócios em ambientes de Big Data. d) ( ) A análise dos dados que estão retendo e avaliar como estão sendo usados. e) ( ) As ferramentas de análise de dados tradicionais que integram dados internos. 3 É um termo aplicado a um conjunto de dados que excede a capacidade de processamento dos sistemas convencionais de banco de dados, ou não se encaixa nos requisitos estruturais da arquitetura tradicional do banco de dados. a) (X) Big Data. b) ( ) Data Warehouse. c) ( ) Business Analytics. d) ( ) Database. e) ( ) Data Mining. 4 A análise de Big Data examina grandes quantidades de dados para descobrir padrões ocultos, correlações e outros insights. Com a tecnologia de hoje, é possível analisar seus dados e obter respostas quase imediatamente – um esforço mais lento e menos eficiente com soluções de business intelligence mais tradicionais. Disserte sobre o conceito de Big Data nas empresas. R.: O termo “análise de Big Data” refere-se à estratégia de analisar grandes volumes de dados, ou Big Data. A grande quantidade de dados coletados de uma ampla variedade de fontes, incluindo re- des sociais, vídeos, imagens digitais, sensores e registrosde tran- sações de vendas, é chamada de Big Data. O principal objetivo da análise de todos esses dados é descobrir padrões e conexões que, de outra forma, poderiam ser invisíveis e que podem fornecer in- formações valiosas dos usuários que os criaram. Por meio dessa percepção, as empresas podem ser capazes de obter uma vanta- gem sobre seus rivais e tomar decisões de negócios superiores. 27 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 5 A análise de dados lida principalmente com a coleta, inspeção, limpeza, transformação e modelagem de dados para obter alguns insights valiosos e apoiar a melhor tomada de decisão em uma or- ganização. Disserte sobre as etapas do ciclo de vida do Big Data. R.: A análise de dados abrange seis fases: descoberta de dados, preparação e processamento dos dados, planejamento dos modelos de dados, execução do modelo de dados, comunicação dos resultados e operacionalização. Essas seis fases do ciclo de vida da analítica de dados são iterativas com movimento para trás e para frente e, às vezes, sobreposto. O usuário de negócios, ou analista de negócios, pode definir as métricas e os resultados da implementação do projeto de ciência de dados. O analista de negócios pode estar envolvido desde o estágio de definição do valor da iniciativa de dados. O patrocinador do projeto identifica o enigma do negócio e se envolve desde o estágio de coleta de requisitos. O gerente de projeto garante que haja qualidade nas entregas do produto de dados final e garante a entrega do projeto no prazo e dentro do orçamento, aproveitando todos os recursos do projeto. TÓPICO 2 1 Apenas coletar e armazenar informações não é suficiente para produzir valor real para o negócio. As tecnologias de análise de Big Data são necessárias para: a) ( ) Formular gráficos e gráficos atraentes. b) (X) Extrair insights valiosos dos dados. c) ( ) Integrar dados de fontes internas e externas. d) ( ) Agrupar os dados sob a mesma base de dados. e) ( ) Facilitara o trabalho do Administrador de banco de dados. 28 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS 2 O método pelo qual as empresas analisam dados de clientes ou outros tipos de informações em um esforço para identificar padrões e descobrir relações entre diferentes elementos de dados é frequentemente referido como: a) (X) Data Mining. b) ( ) Data Warehouse. c) ( ) Clusterização. d) ( ) Web Mining. 3 Empresas que possuem grandes quantidades de informações armazenadas em diferentes sistemas devem iniciar um projeto de análise de Big Data considerando: a) ( ) A criação de um plano de escolha e implementação de tecnologias de infraestrutura de Big Data. b) (X) A inter-relação dos dados e a quantidade de trabalho de desenvolvimento que será necessária para vincular várias fontes de dados. c) ( ) A capacidade dos fornecedores de business intelligence e analytics para ajudá-los a responder perguntas de negócios em ambientes de Big Data. d) ( ) A quantidade de máquinas disponíveis para realizar o trabalho de processamento dos dados a serem coletados. 4 Os clientes vivem em um mundo de expectativa instantânea, onde tudo se move a uma velocidade vertiginosa. Com vendas digitais, feedback do consumidor e dispositivos que produzem dados em um ritmo igualmente rápido e em volumes cada vez maiores. Como as empresas podem se organizar de forma eficaz e criativa para a inovação? R.: Tratando a inovação como um ecossistema. Ou seja, eles precisam ir além de ver a inovação como um processo. A partir do início, deve ser uma prioridade de liderança. Inovação requer estratégia, 29 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS boa governança e espaço para praticar (seu laboratório). Isso per- mitirá que a organização se adapte a toda a incerteza e mudança que acontece em nosso mundo. Você precisa ser magro, rápido, e promover uma cultura de intraempreendedorismo. 5 Big Data e as tecnologias de análise avançada prometem uma visão sem precedentes sobre as operações de negócios e clientes, permitindo que as empresas não apenas aumentem a eficiência operacional, níveis de serviço, receita e modelos de negócios, mas também aumentem a centralização no cliente. Como o Big Data pode agregar valor às empresas? R.: No cenário atual, Big Data é tudo. Se você tiver dados, você tem a ferramenta mais poderosa à sua disposição. O Big Data Analytics ajuda as empresas a transformar dados brutos em insights significativos e acionáveis que podem moldar suas estratégias de negócios. A contribuição mais importante do Big Data para os negócios são as decisões de negócios orientadas por dados. O Big Data torna possível que as organizações baseiem suas decisões em informações e insights tangíveis. TÓPICO 3 1 O Hadoop é uma estrutura de software de código aberto para armazenar dados e executar aplicativos em clusters de hardware de commodities. Ele fornece armazenamento maciço para qualquer tipo de dados, enorme poder de processamento e a capacidade de lidar com tarefas ou trabalhos simultâneos praticamente ilimitados. Diante deste contexto, qual afirmação sobre Hadoop é falsa: 30 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS a) ( ) Ele funciona com hardware de commodities. b) ( ) É uma parte do projeto Apache patrocinado pela ASF. c) (X) É melhor para o streaming em tempo real de dados. d) ( ) Ele pode lidar com qualquer tipo de dados. 2 Qual é o nome da estrutura de programação originalmente de- senvolvida pelo Google que suporta o desenvolvimento de apli- cativos para processamento de grandes conjuntos de dados em um ambiente de computação distribuída? a) (X) MapReduce. b) ( ) Hive. c) ( ) ZooKeeper. d) ( ) Tableau. 3 Apache Hadoop é uma plataforma que lida com grandes conjun- tos de dados de forma distribuída. A estrutura usa MapReduce para dividir os dados em blocos e atribuir os pedaços a nós em um cluster. MapReduce, então, processa os dados em paralelo em cada nó para produzir uma saída única. O Spark foi desenvolvi- do em qual linguagem de programação? a) ( ) Java. b) (X) Scala. c) ( ) Python. d) ( ) R. 4 A enorme quantidade de dados geradas em um ritmo feroz e em todos os tipos de formatos é o que chamamos hoje de Big Data. A complexa estrutura de dados hoje em dia requer soluções sofisticadas para a transformação de dados, para tornar as informações mais acessíveis aos usuários. Diante deste contexto, sintetize como o Hadoop está relacionado com o Big Data? 31 BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS R.: Quando falamos de Big Data, falamos de Hadoop. O Hadoop é uma estrutura de código aberto para armazenar, processar e analisar conjuntos de dados complexos não estruturados para obter insights e inteligência. 5 Os avanços na tecnologia da informação e comunicação apresentam as soluções mais viáveis para a análise de Big Data em termos de eficiência e escalabilidade. Este contexto retrata um pouco do Framework MapReduce e, com base nele, explique um programa MapReduce. R.: Um programa MapReduce consiste em três partes, ou seja, Dri- ver, Mapper e Reducer. O código driver é executado na máquina cliente e é responsável por construir a configuração do trabalho e submetê-lo ao Cluster Hadoop. O código Driver conterá o método principal() que aceita argumentos da linha de comando. O código Mapper lê os arquivos de entrada como <chave valor> pares e emite pares de valores-chave. A classe Mapper amplia o MapReduceBase e implementa a interface Mapper. A interface Mapper espera quatro genéricos, que definem os tipos dos pares de tecla/valor de entrada e saída. Os dois primeiros parâmetros definem a chave de entrada e os tipos de valor, os dois segundos definem a tecla de saída e os tipos de valor. O código Redutor lê as saídas geradas pelos diferentes mapeadors como <chave valor> pares e emite pares de valores-chave. A classe Redutor amplia o MapReduceBase e implementa a interface Redutor.A interface Redutor espera quatro genéricos, que definem os tipos dos pares de tecla/valor de entrada e saída. Os dois primeiros parâmetros definem a chave intermediária e os tipos de valor, os dois segundos definem a chave de saída final e os tipos de valor.
Compartilhar