Desafios do Processamento de Big Data

•

ESTÁCIO EAD

4

0

4

0

1

Junior França

17/12/2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.766 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

*
FUNDAMENTOS E PROJETOS DE
BIG DATA
*
AULA 7
*
Exercícios
Recordar aula 6
Pergunta 1: Não podemos trabalhar com bancos de dados convencionais em projetos de Big Data devido a:
Pois estes tipos de bancos de dados trabalham dados formatados em linhas e colunas numéricas organizadas, ou seja, estruturados.
Por que estes tipos de bancos de dados trabalham com quaisquer tipos de dados.
Por que estes tipos de bancos de dados trabalham com histórico.
Velocidade de processamento é rápida.
Nenhuma das respostas acima.
*
Exercícios
Recordar aula 6
Gabarito: (a)
Pergunta 2: Dos itens abaixo , qual que melhor define o Hadoop
Software de banco de dados convencional.
Ferramenta de aplicação.
Trabalha com computadores individuais.
Não trabalha em memória.
É um conjunto de ferramentas de software de código aberto e um framework para distribuir os dados em vários computadores.
*
Exercícios
Recordar aula 6
Gabarito: (e)
Pergunta 3: Cite dois aspectos que estão relacionados ao desafio do processamento de grandes volumes de dados
Trabalhar com clusters e servidores individuais.
Trabalhar com iterações e servidores individuais.
A agilidade no processamento e tratamento dos dados.
Bancos de dados convencionais e clusters.
Armazenamento na memória principal e frequentes falhas.
Gabarito: (e)
*
Criação e Tratamento dos dados em Big Data

Tratamento de Grande Volume de Dados: Quando Processar se
Torna Difícil?
Como já vimos anteriormente, uma série de desafios vem à tona quando o volume de dados excede os tamanhos convencionais, quando esses dados são variados (diferentes fontes, formatos e estruturas) e são recebidos em uma velocidade maior do que a capacidade de processamento.
*
Criação e Tratamento dos dados em Big Data

Por exemplo, ao extrair uma rede de retweets (retransmissão de uma msg) do Twitter e formar uma rede a partir desses retweets de um grande volume de dados, pode-se obter um grafo* que excede a capacidade de tratamento em ferramentas convencionais de análise de redes sociais.
*Grafos são entidades matemáticas, abstratas, que possuem nós (coisas) e arestas (relacionamento entre essas coisas).
*
Criação e Tratamento dos dados em Big Data

Os elementos da plataforma de Big Data administram dados de novas maneiras em comparação às bases relacionais tradicionais. Isso por causa das necessidades de ter escalabilidade e alto desempenho requeridos para administrar tanto dados estruturados quanto não estruturados.
*
Criação e Tratamento dos dados em Big Data

Os objetivos dos negócios precisa ser focado em entregar dados de confiança e com qualidade para a organização no tempo certo e no contexto certo. Para garantir esta confiança , é preciso estabelecer regras comuns para qualidade dos dados com ênfase em precisão e plenitude.
Precisa de abordagem compreensiva para desenvolver metadados corporativos , mantendo o controle da linhagem e a governança das informações para dar suporte à integração destes dados.
*
Criação e Tratamento dos dados em Big Data

A informação precisa ser entregue ao negócio de maneira confiável, controlada, consistente e flexível por toda a empresa, independentemente das exigência específicas para sistemas ou aplicativos individuais.
Para atingir esse objetivo, temos três princípios básicos:
1) Criar um entendimento comum de definições de dados – uma vez que se identificam os padrões que são mais relevantes para seu negócio, precisa-se da capacidade de mapear elementos de dados a uma definição comum.
*
Criação e Tratamento dos dados em Big Data

2) Desenvolver um conjunto de serviços de dados para qualifíca-los e torná-los consistentes e confiáveis – Quando as fontes de dados não estruturados e os de Big Data são integrados com dados operacionais estruturados, precisa-se estar confiante de que os resultados serão significativos.
*
Criação e Tratamento dos dados em Big Data

3) Integrar suas fontes de Big Data e os sistemas de informações – Para tomar grandes decisões com base nos resultados de sua análise Big Data, você precisa entregar informações no tempo e no contexto certos.
*
Criação e Tratamento dos dados em Big Data

Muitos algoritmos de mineração de dados utilizados na descoberta automática de modelos e padrões utilizam técnicas como classificação, associação, regressão e análise de agrupamento podem ser paralelizados com MapReduce .

*
Criação e Tratamento dos dados em Big Data

Os projetos de mineração de dados no contexto de Big Data precisam de três componentes principais.
O primeiro é um cenário de aplicação que permita que a demanda por descoberta de conhecimento seja identificada.
O segundo é um modelo que realize a análise desejada.
O terceiro é uma implementação adequada capaz de gerenciar um grande volume de dados.
*
Criação e Tratamento dos dados em Big Data

Além desses componentes fatores como a complexidade do dado, o tamanho da massa de dados, a dificuldade de transporte dos dados e a possibilidade de paralelização dos algoritmos empregados no processamento devem ser observados.
*
Criação e Tratamento dos dados em Big Data

Falamos que as tecnologias atuais de tratamento de dados não são mais adequadas. Por quê?
Vejamos o modelo relacional, quando foi proposto, a demanda era acessar dados estruturados, gerados pelos sistemas internos das corporações.
Não foi desenhado para dados não estruturados (futurologia na época) e nem para volumes na casa dos petabytes de dados (inimaginável na época).
Precisava-se sim de um modelo que categorizasse e normalizasse dados com facilidade.
*
Criação e Tratamento dos dados em Big Data

E o modelo relacional foi muito bem sucedido nisso, tanto que é o modelo de dados mais usado atualmente.
Para tratar dados na escala de volume, variedade e velocidade do Big Data precisamos de outros modelos. Surgem os softwares de banco de dados desenhados para tratar imensos volumes de dados estruturados e não estruturados.
*
Criação e Tratamento dos dados em Big Data

.......Existem diversos modelos. Não faltam opções...
Por outro lado, esta diversidade de alternativas demanda que os líderes dos projetos de Big Data escolham a mais adequada ou mesmo demandem mais de uma opção, de acordo com as necessidades especificas.
Depois da infraestrutura é necessário atenção aos componentes de Analytics, pois estes é que transformam os dados em algo de valor para o negócio.
*
Dimensão VARIEDADE

O aspecto mais desafiador do Big Data é a grande variedade de formatos e estruturas que você terá que conciliar em suas análises.
As empresas tendem a privilegiar a variedade dos dados, e não seu volume.
O objetivo mais importante e a recompensa potencial das iniciativas de Big Data é a capacidade de analisar diversas fontes de dados e novos tipos de dados, e não administrar enormes conjuntos de dados.
*
Dimensão VARIEDADE

Conforme já vimos anteriormente: - os dados estruturados são utilizados frequentemente pelos sistemas.
- os dados semiestruturados são heterogêneos, ou seja, ora estão dispostos em um padrão, ora em outro, dificultando a sua manipulação.
- os dados não estruturados, que são os conteúdos digitais de diversas mídias, como vídeos, imagens, áudios e etc...
*
Dimensão VARIEDADE

A grande maioria dos dados existentes hoje são oriundos das mídias digitais, logo são não estruturados, desta forma é fundamental que as empresas atentem para este tipo de dado, visto que tem uma representatividade considerável.
Temos dois tipos de variáveis envolvidas:- Variedade de fontes de informação e
- Variedade de tipos de dados.
*
Dimensão VARIEDADE

Será preciso integrar várias fontes se quiser incluir novos tipos e estruturas de dados (sociais, sensores, vídeo) às fontes com as quais você já está acostumado (relacionais, mainframes legados).
Tentar codificar manualmente cada integração é tão complicado que poderia consumir todo o tempo e os recursos disponíveis.
Aproveite ao máximo as ferramentas de integração e qualidade de dados disponíveis para acelerar o processo para tarefas mais importantes.
*
Dimensão VERACIDADE

Lembrando o que é a informação... é o produto da análise dos dados
existentes na empresa, devidamente registrados, classificados, organizados,
relacionados e interpretados em um contexto, transmitindo conhecimento e permitindo a tomada de decisão de forma otimizada.
Informações devem ser abstraídas de dados confiáveis e expressar características do que é verdadeiro.
*
Dimensão VERACIDADE

Essa veracidade se mostra como fator determinante para a
eficiência de boas decisões, mas temos que ter certeza de que os dados
fazem sentido e são autênticos.
Big Data só faz sentido se o valor da análise dos dados compensarem o custo de sua coleta, armazenamento e processamento.
*
Dimensão VERACIDADE

Interessante notar que dados e informações, apesar de seus potenciais competitivos, não são valorizados monetariamente.
Essa nova realidade, será possível mensurar o valor e o
significado que este conjunto pode ter para os processos de trabalho.
Para tomar uma decisão racional, deve-se elencar todas alternativas
possíveis e identificar suas consequências, para que isso seja possível, é preciso verificar os dados obtidos e extrair as informações fundamentais.
*
Dimensão VERACIDADE
As empresas e organizações criam e utilizam as informações sob três aspectos:
Interpretação da informação sobre o ambiente de modo a dar significado ao que está acontecendo à organização e ao que ela está fazendo;
2) Criação de novos conhecimentos combinando a experiência de seus membros, de modo a aprender e inovar;
3) Processo e análise da informação de modo a escolher empreender cursos de ação apropriados.
*
Dimensão VERACIDADE

O desempenho, e consequentemente a posição, que as organizações terão no mercado estão diretamente ligadas com a forma com que as mesmas irão trabalhar e lidar com esse volume e essa variedade de informação que está sendo disseminada.
*
Dimensão VERACIDADE

É de fundamental importância o tomador de decisões ter à sua disposição o maior número de informações úteis e relevantes possível, permitindo
minimizar os efeitos subjetivos e incrementar a influência da razão no
resultado do processo.
Diante de um grande volume de dados variados, que são distribuídos de forma rápida, é necessário que a empresa assegure a veracidade e o valor dos mesmos. A partir de um sistema de integração de dados, é possível organizá-los, categorizá-los e filtrá-los para assegurar a consistência da informação.
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*