Buscar

Fundamentos de Projetos Big Data

Prévia do material em texto

*
FUNDAMENTOS E PROJETOS DE 
BIG DATA
*
AULA 5
*
 Exercícios 
Recordar aulas 3 e 4
Pergunta 1: Qual o primeiro passo para a gestão iniciar um projeto de Big Data?
Velocidade.
 Valor.
Variedade.
Veracidade.
Volume.
*
 Exercícios 
Recordar aulas 3 e 4
Gabarito: (c)
Pergunta 2: A Qualidade da informação se refere a que tipo de dimensão?
Identificar que tipos de dados são necessários.
Identificar se a equipe é capaz. 
Identificar se temos as tecnologias necessárias.
Identificar se a arquitetura tecnológica é adequada.
Identificar os prazos de projeto.
*
 Exercícios 
Recordar aulas 3 e 3
Gabarito: (a)
Pergunta 3: Qual o principal produto da Gestão do Conhecimento?
Gestão de dados.
Informações.
Integração.
Solução.
Captura de dados.
*
 Exercícios 
Recordar aulas 3 e 4
Gabarito: (d)
Pergunta 4: No gerenciamento de projeto de Big Data qual a etapa mais importante dentro das que temos no PMI?
Integração.
Comunicação.
Gestão de Risco.
Escopo.
Aquisição. Gabarito: c
*
 Vamos ver algo mais sobre Projetos Big Data
 Conforme vimos na aula anterior a governança é essencial em projetos Big Data, pois tratar os dados e reconhecer aquilo que interessa à organização é fator primordial para o sucesso do projeto.
Vamos ver 3 pecados capitais em projetos de Big Data.
 
*
 Vamos ver algo mais sobre Projetos Big Data
Não considerar a dinâmica dos dados. Na visão executiva, as empresas erram ao acreditar que precisam ter todos os dados disponíveis e já prontos no início do projeto. Como novas fontes de informações são constantemente adicionadas e os volumes tendem a crescer exponencialmente, isso acaba sendo um grande problema e impede a evolução das iniciativas.
 “O contexto é dinâmico”, resume. O jeito é avançar aos poucos.
*
 Vamos ver algo mais sobre Projetos Big Data
2. Manter velhos silos. Entra ano, sai ano e os projetos analíticos ainda esbarram na visão fragmentada dos dados corporativos. A questão, agora, extrapola a não unificação das informações propriamente ditas. O contexto se agrava quando há bons recursos humanos em determinadas disciplinas dentro de um departamento porém não há interação entre essas pessoas para compartilhamento de práticas, o que aceleraria os projetos.
*
 Vamos ver algo mais sobre Projetos Big Data
3. Pensar que se trata somente de tecnologia. “Ainda há muita compra de software, mas pouco uso efetivo dessas ferramentas para gerar resultados ou resolver problemas de negócio”, a tecnologia deve ser um dos últimos aspectos a considerar em um projeto de Big Data.
*
 Vamos ver algo mais sobre Projetos Big Data
Quatro pontos para operacionalizar o Big Data de modo integral:
Garantir o apoio e a liderança dos executivos em iniciativas de Big Data. Nada abaixo do alto escalão será suficiente para promover uma mudança duradoura.
 Ampliar a arquitetura de informações com a modernização dos sistemas de armazenamento de dados e a integração de novas tecnologias de Big Data.
*
 Vamos ver algo mais sobre Projetos Big Data
Quatro pontos para operacionalizar o Big Data de modo integral:
3. Criar estrutura colaborativa de governança de dados que traga agilidade organizacional, incorporando, ao mesmo tempo, segurança e qualidade dos dados.
4. Trabalhar com foco em uma cultura dinâmica, voltada a dados, que envolva tanto os executivos como os colaboradores nos estágios iniciais do desenvolvimento, usando e aprimorando as soluções de Big Data.
*
 Vamos ver algo mais sobre Projetos Big Data
Alguns pontos importantes na gestão de projetos de Big Data, precisam ser definidos. E isso vai além da simples escolha da abordagem. 
É necessário entendermos a gestão de riscos, pessoas (especialmente do cientista de dados), patrocínio para o projeto, adequação de valor ao negócio, retorno sobre o investimento (ROI) e, de uma forma muito especial, a gestão do entusiasmo.
*
 Armazenamento de Dados em Projetos de Big Data
 Uma série de desafios vem à tona quando o volume de dados excede os tamanhos convencionais, quando esses dados são variados (diferentes fontes, formatos e estruturas) e são recebidos em uma velocidade maior do que a capacidade de processamento.
*
 Armazenamento de Dados em Projetos de Big Data
 Quando se deseja realizar processamento de linguagem natural de um texto muito grande a fim de realizar análises estatísticas do texto, o processamento e memória necessários excede a capacidade de computadores pessoais convencionais.
............ Ou seja, os recursos de hardware (como a memória RAM, por exemplo) não comportam o volume dos dados.
*
 Armazenamento de Dados em Projetos de Big Data
 A velocidade do processamento, armazenamento, leitura e transferência de dados nos barramentos, frequentemente fazem com que apenas extratos (amostras) dos dados sejam analisados o que não permite que todos os detalhes daquele conjunto de dados sejam observados. 
 .........O que se deseja é estudar as bases de dados por completo, não apenas uma amostra, ou ao menos aumentar as amostras o máximo possível.
*
 Armazenamento de Dados em Projetos de Big Data
 A necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse em se empregar técnicas de análises que excedam as técnicas tradicionais. 
 Extrair conhecimento a partir de grandes massas de dados é de fato desafiador, pois os dados são heterogêneos em sua representação e formato, além de apresentarem conteúdo multidisciplinar.
*
 Armazenamento de Dados em Projetos de Big Data
 As soluções de Big Data também têm como objetivo tratar dados brutos, heterogêneos com e sem estrutura e sem padrão de formatação. 
 Apesar dos bancos de dados convencionais apresentarem bons desempenhos no tratamento de dados estruturados e semiestruturados, as análises no contexto de Big Data requerem um modelo iterativo (de consultas recursivas) para análise de redes sociais e emprego de técnicas de clusterização.
*
 Armazenamento de Dados em Projetos de Big Data
 O desafio do processamento dos grandes volumes de dados está relacionado a três aspectos: armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados e as frequentes falhas (diferente dos bancos de dados convencionais onde as falhas são tratadas como exceções, no contexto de Big Data, as falhas são regras).
*
 Armazenamento de Dados em Projetos de Big Data
 As três melhores práticas para armazenar e gerenciar grandes volumes de dados: 
 Automatize os processos e aproveite as maravilhas da desduplicação
  Preservar os dados que você passou muito tempo criando faz todo sentido – assim como fazer backups dos arquivos. Mas raramente existe uma razão para manter dezenas ou até mesmo centenas de cópias de arquivos em todo o seu sistema de armazenamento. 
*
 Armazenamento de Dados em Projetos de Big Data
A chamada "desduplicação" oferece uma redução de dados por meio da eliminação de repetições. O resultado é uma melhor utilização do espaço de armazenamento, sem esforço adicional, o que, a longo prazo, economiza 
 Arquitetura de armazenamento de dados ideal 
 É importante considerar qual a arquitetura de armazenamento que funciona melhor para o seu tipo de negócio. Uma escolha consciente evita upgrades e questões que envolvem a migração de dados. Em geral, as empresas precisam pesar a aparente simplicidade e familiaridade de uma arquitetura com o seu desempenho a longo prazo e suas vantagens econômicas. 
*
 Armazenamento de Dados em Projetos de Big Data
 Concentre-se em um software que compreenda plenamente o valor da solução de armazenamento 
 Apesar de os fornecedores não enfatizarem esse detalhe, a maior parte do valor entregue pelas soluções de armazenamento realmente vem da inteligência de um software.Portanto, certifique-se sempre de perguntar sobre a capacidade do software para ajudar a gerenciar seu armazenamento de dados.  
*
 Armazenamento de Dados em Projetos de Big Data
 Como a tecnologia de armazenamento de dados irá suportar tamanho crescimento exponencial do Big Data e ainda proporcionar rápido acesso às informações para obter novas ideias vislumbrando maior eficiência do negócio?
 Nos dias de hoje, é necessário promover um gerenciamento do armazenamento que atenda a necessidade de espaço – que é o número de bytes a ser guardado-, além de possuir um processamento eficiente que garanta acesso rápido e inteligente às informações. 
*
 Armazenamento de Dados em Projetos de Big Data
 Como acontece com todas as tendências tecnológicas estratégicas, o Big Data introduz funcionalidades altamente especializadas que o distinguem dos sistemas legados.
*
 
Aplicações
Visão dos negócios
Código da aplicação
Dados
Infraestrutura da plataforma
Armazenamento
Movimento dos dados
Cada componente é otimizado com base no caráter grande, não estruturado ou 
 semiestruturado do Big Data.
 Trabalhando em conjunto, essas partes móveis compreendem uma solução 
 holística que é ajustada em detalhes para o
 armazenamento e o processamento
 especializado e de alta performance.
Armazenamento de Dados em Projetos de Big Data
*
 Armazenamento de Dados em Projetos de Big Data
 Não existe nada de diferente no armazenamento do Big Data, exceto seu baixo custo. 
Armazenar grandes e diversificadas quantidades de dados em disco se tornam mais comoditizadas e eficientes.
O armazenamento em ambientes Hadoop costuma ser feito em vários discos (o armazenamento em estado sólido ainda é caro demais) conectados a servidores comoditizados.
*
 Armazenamento de Dados em Projetos de Big Data
 Empresas vendem soluções de armazenamento que permitem a inclusão de discos de forma rápida e barata, escalonando o armazenamento na mesma velocidade em que os volumes de dados crescem. 
A plataforma de Big Data, é o conjunto de funções que levam à alta performance do processamento de Big Data. Uma plataforma inclui a capacidade de integrar dados, administrá-los e aplicar-lhes um sofisticado processamento computacional.
*
 Armazenamento de Dados em Projetos de Big Data
 Muitas empresas têm apresentado requisitos de gerenciar e analisar grande quantidade de dados com alto desempenho. Esses requisitos estão se tornando cada vez mais comuns aos trabalhos de análise de redes sociais. 
Diferentes soluções têm surgido como proposta para esses problemas. Dentre as propostas, destaca-se o paradigma MapReduce implementado pelo Hadoop, o qual permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores.
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Continue navegando