Baixe o app para aproveitar ainda mais
Prévia do material em texto
Centro Universitário Ritter dos Reis Fundamentos de Big Data Atividade Aula 02 Camila dos Santos, Alessandro de Quadros Willand e Lucas de Freitas Araújo Professor: Giovane Barcelos Canoas, Março de 2021 Trabalho: Cada equipe de no máximo 3 componentes deverá escolher uma das tecnologias apresentadas nos gráficos de Hype Cycle for Data Management disponível nos slides 6 a 12 da aula 2, inserir a tecnologia e o nome dos componentes na planilha dos componentes de big data (https://rebrand.ly/FDB202101EXN102), pesquisar e compartilhar o conhecimento obtido com a turma, além de enviar o material produzido nesta tarefa. Ao criar a apresentação ou texto procure responder as seguintes perguntas sobre a tecnologia escolhida: Do que se trata a tecnologia? Qual é a utilidade e como pode ser utilizada? Porque ela é importante? Quem fornece a tecnologia e quais são os nomes dos aplicativos/plataformas que fornecem uma solução? Quanto custa (pode ser valor relativo, tal como, barato, caro, etc)? O mapa pode ser enviado por apenas um dos componentes da equipe desde que o nome dos componentes estejam relacionados na descrição da entrega. Insira o nome dos componentes da sua equipe também na planilha ao lado da tecnologia escolhida: https://rebrand.ly/FDB202101EXN102 Data Lake: · Do que se trata a tecnologia: Data Lake está no vale da Desilusão, e o platô está de 5 à 10 anos. É um sistema ou repositório de dados armazenados em seu formato natural/bruto. Um data lake pode incluir dados estruturados de banco de dados relacionais (linhas e colunas), dados semiestruturados ( CSV, logs, XML, JSON ), dados não estruturados (emails, documentos, PDFs) e dados binários (imagens, áudio, vídeo). · Qual é a utilidade e como pode ser utilizada: Data Lake – Banco de dados que possibilitam o armazenamento de grandes volumes de dados não-estruturados e estruturados. Tendo como vantagem, além do volume, velocidade, flexibilidade, redução de investimento e facilidade de acesso. Hadoop é um dos mais usados · Porque ela é importante: A arquitetura é simples e permite uma escalabilidade massiva que pode chegar a exabytes, isso é importante porque, ao criar um data lake, é comum que você não saiba com antecedência que volume de dados será armazenado. Esse tipo de escala não é oferecido por sistemas de armazenamento tradicionais. · Quem fornece a tecnologia e quais são os nomes dos aplicativos/plataformas que fornecem uma solução: Apache – oferece o ecossistema de código aberto Hadoop, um dos serviços mais comuns do data lake. Amazon – oferece Amazon S3 com escalabilidade praticamente ilimitada. Google – oferece o Google Cloud Storage e uma coleção de serviços para emparelhá-lo no gerenciamento. Oracle – oferece o Oracle Big Data Cloud e uma variedade de serviços PaaS para ajudar a gerenciá-lo. Microsoft – oferece o Azure Data Lake como um armazenamento de dados escalável e o Azure Data Lake Analytics como um serviço de análise paralela. Este é um exemplo de quando o termo data lake é usado para se referir a uma tecnologia específica em vez de uma estratégia. HVR – oferece uma solução escalável para organizações que precisam mover grandes volumes de dados e atualizá-los em tempo real. Podium – oferece uma solução com um conjunto fácil de implementar e usar de recursos de gerenciamento. Snowflake – oferece uma solução especializada no processamento de diversos conjuntos de dados, incluindo conjuntos de dados estruturados e semiestruturados, como JSON, XML e Parquet. Zaloni – oferece uma solução que acompanha o Mica, uma ferramenta de preparação de dados de autoatendimento e catálogo de dados. Zaloni foi marcado como a empresa do data lake. · Quanto custa (pode ser valor relativo, tal como, barato, caro, etc) Com relação ao custo, não encontramos valores.
Compartilhar