Baixe o app para aproveitar ainda mais
Prévia do material em texto
Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage Sumário 1. Introdução ao estudo do tema 2. Introdução à trilha de aprendizagem 2.1 Objetivos de aprendizagem 3. Quais são as novas necessidades originadas com o Big Data 4. O que será aprendido neste componente 4.1 Conteúdo da trilha 2 - Dados estruturados, semiestruturados e não estruturados 4.2 Conteúdo da trilha 3 - Modelagem relacional, dimensional e não relacional 4.3 Conteúdo da trilha 4 - Bancos de dados relacionais e não relacionais 4.4 Conteúdo da trilha 5 - Arquitetura para Data Warehouse 4.5 Conteúdo da trilha 6 – Performance em armazenamento e recuperação de dados 4.6 Conteúdo da trilha 7 - Ferramentas de mercado 4.7 Conteúdo da trilha 8 - Governança de dados; gestão de segurança da informação 5. Síntese 6. Referências 4 6 7 8 9 10 12 14 15 17 19 20 22 23 Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 4 Devido à disseminação da internet ocorrida nos últimos anos, o volume de dados disponibilizados nas diferentes publicações eletrônicas cresceu exponencialmente. Uma das áreas de crescimento refere-se aos dados registrados nas diferentes redes sociais, entre elas a rede de colaboração acadêmica, originária das publicações de trabalhos e de seus autores. Outro exemplo é a evolução da internet das coisas, na qual, por meio de diversos sensores, uma grande quantidade de informações pode ser coletada diariamente. Acompanhando esse crescimento surgem novas necessidades de aplicações capazes de gerenciar grandes quantidades de dados não estruturados, constatando-se que o modelo de Sistema de Gerenciamento de Banco de Dados Relacional (SGBDR) não atende bem a essa necessidade. O modelo relacional é o modelo predominante utilizado nos bancos de dados atuais e é normalmente utilizado para o armazenamento de dados estruturados. Porém, a análise nas redes de colaboração deve ser feita utilizando uma nova estrutura, já que o modelo de dados relacional não é adequado para todas as consultas requeridas nesse ambiente de colaboração (MEIJER & BIERMAN, 2011). Pesquisa de Meijer (2011) abordou a questão de adotar o modelo Not Only SQL (NoSQL) ou o modelo relacional para o gerenciamento de grandes quantidades de dados e concluiu que não existe modelo capaz de atender bem todos os desafios deste tipo de tarefa. Deste modo, ambos os modelos apresentam características próprias e é possível adotar qualquer um dos dois modelos de forma a atender uma mesma necessidade, sem perda de desempenho desde que se considerem as solicitações da consulta e o volume de dados. Nesta trilha de aprendizagem de Armazenamento de Dados serão abordados os motivos e os problemas ocasionados por este crescimento no volume de dados e serão apresentadas soluções e Introdução ao estudo do tema 1. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 5 possibilidades de atuação. A seguir serão analisadas as diferenças entre os três tipos de armazenamento de dados: estruturado, semiestruturado e não estruturado, identificando, com a utilização de exemplos, quando podem ser utilizados. A estrutura do Data Warehouse, sua arquitetura e esquema serão vistos na terceira semana. Após, analisaremos os bancos de dados não relacionais, estabelecendo comparativos com o banco de dados relacional e apresentando os seus quatro tipos mais comuns: chave/valor, orientado a colunas, orientado a documentos e orientado a grafos. As modelagens relacional, dimensional e não relacional serão abordadas na quinta aula, na qual serão apresentadas as características destes novos tipos de modelagem. Do mesmo modo será vista a performance em armazenamento e recuperação de dados, estabelecendo comparativos entre os modelos não relacionais apresentados. Por fim, analisaremos dois termos complementares: governança de dados e gestão de segurança da informação, trazendo estes assuntos para os problemas relacionados com os grandes volumes de dados e encerrando a trilha de aprendizagem com a apresentação das ferramentas atuais de mercado. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 6 O fenômeno Big Data representa o grande volume de dados que são produzidos e armazenados diariamente, advindos de diversas fontes de dados e também de sistemas operacionais já existentes. Uma das vantagens do armazenamento destes dados em um repositório único é o seu processamento, sendo possível obter valor da informação e auxiliando na tomada de decisões. Na primeira trilha de aprendizagem deste componente curricular apresentaremos um resumo sobre o que será visto ao longo do curso, tornando mais fácil compreender como as diferentes trilhas estão interligadas. Introdução à trilha de aprendizagem 2. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 7 • objetivos conceituais: Introdução ao curso - nesta trilha será compreendido como o volume de dados e a sua variedade fizeram com que novas soluções, capazes de solucionar as novas necessidades tecnológicas, fossem desenvolvidas. Novas necessidades originadas com o Big Data - para atender às novas necessidades vinculadas ao fenômeno Big Data foi preciso desenvolver e aplicar novas tecnologias e metodologias; nesta trilha veremos quais são elas. O que será aprendido neste componente - será apresentado um resumo sobre as dinâmicas de todas as trilhas, de forma a que o aluno possa ambientar-se com cada nova trilha, compreendendo a integração entre elas; • objetivos procedimentais e habilidades: Estudo - leitura dos conteúdos de cada trilha de aprendizagem; • objetivos atitudinais e valores Objeto de aprendizagem - introdução ao curso, quais as novas necessidades com o Big Data e o que será aprendido neste componente. Objetivos de aprendizagem2.1 Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 8 Um dos termos mais comentados atualmente na área de tecnologia da informação é Big Data. Este termo refere-se a grandes quantidades de dados armazenados, que são provenientes de diversas fontes e que são armazenados em um repositório único, sendo este repositório distribuído ou não. A origem destes dados pode ser tanto de sistemas tradicionais, já existentes, quanto pode incorporar dados extraídos de outras fontes, tais como redes sociais, arquivos CSV ou sensores, por exemplo. Por meio do armazenamento e processamento destes dados é possível obter valor da informação. Porém, a tecnologia de gerenciamento de dados do modelo relacional, apresentada em 1970 por Edgar F. Codd, não é a mais adequada para suportar os dados da estrutura do Big Data. O modelo proposto por Coode foi elaborado pensando em dados estruturados, não tendo sido planejado para tratar os dados não estruturados que existem no Big Data. A definição de Big Data inclui os 3 Vs, Volume, Variedade e Velocidade, que são necessidades atuais, não tendo sido previstas quando o modelo relacional foi concebido. Quando o modelo relacional foi implementado os dados seguiam uma estrutura bem definida e não possuíam grande volume como atualmente. Graças ao evento Big Data, a tecnologia para tratar grandes volumes de dados tem evoluído muito. Nesta trilha será apresentado um resumo sobre o que será visto em todas as sete trilhas seguintes, de forma a nortear o conhecimento e identificar as relações existentes entre cada nova trilha de aprendizadoreferente ao componente Armazenamento de dados – O Data Storage. Quais são as novas necessidades originadas com o Big Data 3. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 9 O que será aprendido neste componente 4. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 10 Para compreender o armazenamento de dados sob a visão do Big Data é preciso entender como este conceito mudou a forma de extrair e armazenar os dados. Este grande volume de dados, produzidos e armazenados diariamente, tornou-se um desafio para que fosse possível armazená-los e gerenciá-los com eficiência. Um outro fator inerente ao Big Data tornou urgente uma necessidade de evolução tecnológica: a variedade de dados. Variedade de dados significa que a quantidade de tipos de dados utilizados é muito vasta, não apresentando somente uma estrutura definida. Deve-se considerar não apenas os dados estruturados, provenientes de bancos de dados relacionais, mas também os dados semiestruturados e os dados não estruturados, que são gerados por mídias sociais, tais como Facebook e Linkedin, documentos eletrônicos, e-mails, câmeras de vídeo, dentre outros. Deste modo, é importante saber quais são os detalhes e as diferenças entre estes tipos de estrutura de dados, em que situações são encontrados e quais são os meios de abordá-los corretamente. Considerando que os dados estruturados são muito utilizados nos sistemas das organizações, em especial nos seus bancos de dados relacionais, verifica-se que este tipo de estrutura é muito requisitado para a elaboração de análises, pois estes, quando consolidados, resultarão nas informações operacionais das organizações. Já os dados semiestruturados são mais heterogêneos, não possuem um padrão único definido, tornando-se mais complexos quanto à sua manipulação. Temos como exemplos os documentos armazenados em formato eXtensible Markup Language (XML). Ao longo dessa trilha analisaremos os dados semiestruturados. Conteúdo da trilha 2 - Dados estruturados, semiestruturados e não estruturados 4.1 Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 11 Os dados não estruturados são os conteúdos digitais de diversas mídias, tais como imagem, vídeos, áudios ou conteúdo de e-mails, entre outros. São mais complexos de recuperar, já que os dados não estão organizados em tabelas. Neste componente também veremos em detalhes cada um destes tipos de dados. Na figura 1 apresentamos um exemplo de cada tipo de dado. Figura 1: Tipos de dados Fonte: Elaborado pelo autor. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 12 A abstração do mundo real é feita com a utilização de um modelo, um modo de visualizar o que pretendemos realizar. A modelagem dos dados para o ambiente do Data Warehouse deve buscar um bom desempenho para atender às consultas analíticas e ser bem simples, permitindo que os próprios usuários possam realizar suas consultas. Com isto, a modelagem relacional não é apropriada para Data Warehouse, pois as técnicas de modelagem como desnormalização na terceira forma normal tornam a velocidade de retorno das consultas em grandes volumes de dados muito ineficientes, não sendo aplicáveis no ambiente de apoio a decisões. Para se utilizar a modelagem Entidade-Relacionamento (ER) em ambientes de Data Warehouse é preciso que o modelo ER tenha características específicas para suportar o ambiente de análise multidimensional. Assim, a modelagem multidimensional tem como objetivo sumarizar, reestruturar e oferecer uma visualização dos dados do negócio, priorizando o suporte às consultas analíticas. É uma técnica utilizada para que se obtenha uma visão multidimensional dos dados, na qual os dados são modelados em uma estrutura multidimensional também conhecida por cubo de dados. Na figura 2 apresentamos um exemplo do esquema estrela, utilizado na modelagem multidimensional. Conteúdo da trilha 3 - Modelagem relacional, dimensional e não relacional 4.2 Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 13 Figura 2: Exemplo do esquema estrela Fonte: Elaborado pelo autor. Nesta trilha veremos em detalhes como é a técnica de modelagem dimensional, cujo resultado permite que os dados sejam vistos de diversas formas, sendo mais flexível e com grande utilidade nos casos de consultas com necessidade de análises. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 14 Devido ao crescimento constante do volume de dados a tecnologia para tratar destas informações teve de ser revista. Assim, outros modelos de armazenamento de dados mais apropriados surgiram. As principais bases tecnológicas para o Big Data são os bancos de dados Not Only SQL (NoSQL), projetados para manipular grandes volumes de dados com desempenho superior aos tradicionais Sistemas Gerenciadores de Bancos de Dados Relacionais (SGBDR). Os bancos de dados não relacionais tratam volumes muito grandes de dados, dos mais variados tipos, também atuando com processamento distribuído e escalabilidade. No modelo NoSQL o armazenamento de dados não é tão rígido como nos bancos de dados relacionais, sendo possível armazenar dados semiestruturados e não estruturados. Existem diversos tipos de modelos NoSQL. Os quatro modelos principais de NoSQL são: Chave/Valor, orientado a colunas, orientado a documentos e orientado a grafos. Nesta trilha apresentaremos as características e os aplicativos que atendem a cada um destes quatro modelos NoSQL, bem como um comparativo entre os modelos relacionais e não relacionais. 4.3 Conteúdo da trilha 4 - Bancos de dados relacionais e não relacionais Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 15 O Data Warehouse, ou Armazém de Dados, surgiu como uma evolução dos ambientes de suporte a decisões, integrando fontes de dados dos sistemas operacionais e de outras fontes de dados. Tem como uma de suas finalidades permitir que informações analíticas derivadas destas fontes sejam facilmente geradas. Outra finalidade é separar os dados analíticos dos dados operacionais, de modo a evitar a perda de desempenho decorrente de consultas em grandes volumes de dados. O Data Warehouse tem características diferentes do ambiente tradicional. Os projetos de Data Warehouse devem ser desenvolvidos com uma metodologia consistente, capaz de guiar o projetista durante as várias fases do projeto. Podemos definir Data Warehouse como sendo um banco de dados orientado a assuntos, integrado, não volátil e variável em relação ao tempo em que é utilizado, principalmente no processo de tomada de decisões. Incorpora cópias dos dados especialmente estruturados para facilitar o processo de análise, consulta e geração de relatórios. Na figura 3 apresentamos um exemplo de arquitetura para Data Warehouse. 4.4 Conteúdo da trilha 5 - Arquitetura para Data Warehouse Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 16 Figura 3: Arquitetura para Data Warehouse Fonte: Elaborado pelo autor. Nesta trilha iremos apresentar a estrutura de um Data Warehouse, suas definições e principais características, o Data Mart e sua composição, a finalidade de um Data Warehouse, esquema de modelagem e arquiteturas possíveis. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados– O Data Storage 17 Online Analytical Processing (OLAP) ou Processamento Analítico em Tempo Real é uma categoria de processamento que explora informações em grandes volumes de dados, organizados em Data Warehouses, conforme o modelo multidimensional. Através de uma interface OLAP podemos visualizar a informação em diferentes visões e níveis de detalhamento, funcionando como um relatório dinâmico. Estes tipos de consultas e análises não são disponibilizados nas ferramentas que acompanham o Data Warehouse. Normalmente associarmos a tecnologia OLAP à manipulação multidimensional dos dados. O modelo de dados multidimensional possibilita que as informações sejam apresentadas e analisadas permitindo visualizar qualquer intervalo de tempo definido no Data Warehouse. Isto só é possível porque o modelo de dados é projetado para contemplar o formato de dimensões, sendo estas representações da realidade dos dados sob a ótica de quem vai analisá-los. Apresentamos na figura 4 e na figura 5 representações da tecnologia ROLAP e da tecnologia MOLAP. 4.5 Conteúdo da trilha 6 – Performance em armazenamento e recuperação de dados Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 18 Figura 4: Tecnologia ROLAP Fonte: PIRES (2016). Figura 5: Tecnologia MOLAP Fonte: PIRES (2016). OLAP possibilita uma recuperação de dados e com isto seu processamento analítico sempre que for necessário obter informações provenientes de grandes volumes de dados. Apresenta melhor desempenho no tempo de execução quando comparado com os bancos de dados relacionais. Nesta trilha vamos abordar a origem do OLAP, suas características e os seus tipos mais comuns. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 19 Ao longo das trilhas anteriores terão sido apresentados todos os conceitos teóricos para a implementação de um Data Warehouse. Nesta trilha iremos apresentar as ferramentas atuais de mercado para a sua implementação. Ferramentas OLAP possibilitam que os dados de um Data Warehouse sejam acessados e com isto analisados. Os custos da implementação do OLAP são muito altos, porém, no mercado, existem ferramentas de código aberto que podem ser utilizadas. Nesta trilha iremos apresentar somente as ferramentas de código aberto. Assim, utilizando estas ferramentas, empresas de pequeno e médio porte podem adotar as soluções baseadas em OLAP para apoio à tomada de decisão. Nesta trilha veremos estas principais ferramentas, além de apresentar outras ferramentas necessárias para a implementação de um Data Warehouse. Serão vistas as ferramentas servidor OLAP Mondrian, clientes Jpivot e as suítes de ferramentas Pentaho, OpenI e SpagoBI. 4.6 Conteúdo da trilha 7 - Ferramentas de mercado Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 20 Antigamente a governança de dados encontrava-se vinculada a setores como compliance e jurídico. Porém, nos últimos anos, devido à percepção de que a informação é um ativo estratégico para as empresas e pela popularização do fenômeno Big Data, a governança de dados e informação vem ganhando importância em diversas áreas de negócios em todos os segmentos, em todo o mundo. Privacidade, segurança e utilização dos dados são alguns dos motivos que tornaram a gestão da informação uma das atividades mais críticas para as empresas. A governança de dados determina as regras para a obtenção e a utilização de dados, além de estabelecer as bases para a monitoração e a avaliação do programa. Além disso, a governança de dados também define os papéis e as responsabilidades dos usuários, monitorando a execução das ações e resultados obtidos, e com isto monitorando a sua eficiência, permitindo fazer ajustes e assim garantindo que as informações sejam tratadas como um ativo da organização. Vemos os componentes de governança de dados na figura 6. 4.7 Conteúdo da trilha 8 - Governança de dados; gestão de segurança da informação Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 21 Figura 6: Componentes de governança de dados Fonte: DAMA International (2008). Nesta última trilha apresentaremos a importância da governança da informação em uma organização, compreendendo a sua teoria e aplicações, além de apresentarmos o conceito de gestão da segurança da informação, que se refere a todos os aspectos de proteção de informações e dos dados. Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 22 Nesta trilha apresentamos quais são os próximos caminhos que serão seguidos para compreender o armazenamento de dados relacionado com o conceito Big Data, assim como suas implicações e inovações tecnológicas, quais são as ferramentas existentes no mercado e quais são as diferenças em relação aos modelos tradicionais dos bancos de dados relacionais. Ao longo das próximas trilhas o conhecimento adquirido pelo aluno vai crescendo, permitindo-lhe inserir-se no mercado ou apenas conhecer melhor todas as vertentes e possibilidades do assunto sobre armazenamento quando for considerado um grande volume e variedade de dados. 5. Síntese Trilha de Aprendizagem 1 — Armazenamento massivo de dados Ciência de Dados (BIG DATA ANALYTICS) — Armazenamento de dados – O Data Storage 23 CODD, E. F. A relational model of data for large shared data banks. In: Communications of the ACM, v. 13, n. 6, p. 377–387, jun. 1970. DAMA INTERNATIONAL. DAMA-DMBOK Functional Framework. 2008. Disponível em: <https://dama.org/sites/ default/ f i les/download/DAMA-DMB OK_Funct ional_ Framework_v3_02_20080910.pdf>. Acesso em: 20 dez. 2017. INMON, W. H. Building the Data Warehouse: Getting started. 4ª ed. Wiley Publishing, 2005. MEIJER, E.; BIERMAN, G. M. A co-relational model of data for large shared data banks. In: Communications of the ACM, vol. 54, n. 4, p. 49–58, abr. 2011. MINELLI, M.; CHAMBERS, M.; DHIRAJ, A. Big Data Big Analytics: Emerging business intelligence and analytic trends for today’s businesses. Hoboken: John Wiley and Sons, 2013. PIRES, C. E. Data Warehousing. Campina Grande, 2016. Disponível em: <http://slideplayer.com.br/slide/5601411/>. Acesso em: 20 dez. 2017. VOGELS, W. Eventually consistent. In: Queue - Scalable Web Services, v. 6, n. 6, out, p. 14-19, 2008. 6. Referências https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf https://dama.org/sites/default/files/download/DAMA-DMBOK_Functional_Framework_v3_02_20080910.pdf http://slideplayer.com.br/slide/5601411/ ead.mackenzie.br
Compartilhar