Buscar

Tipos de Dados em Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

*
FUNDAMENTOS E PROJETOS DE 
BIG DATA
*
AULA 8
*
 Exercícios 
Recordar aula 7
Pergunta 1: Cite qual dos itens abaixo referem-se a tipos de dados que trabalhamos em Big Data.
Dados geoespaciais, dados em 3D, áudio, vídeo e texto não estruturado de mídia social.
Números, datas e strings.
Dados estruturados e não estruturados.
Somente dados estruturados. 
Nenhuma das respostas acima.
*
Exercícios 
Recordar aula 7
Gabarito: (a)
Pergunta 2: Por que os dados semiestruturados e não estruturados exigem um esforço maior na descrição?
Porque são em grandes volumes. 
Porque não possuem unidade de formato e nem de tamanho.
Porque não possuem estruturas.
Porque trabalhamos com eles em memória.
Discordo, pois são facilmente manipulados. 
 Gabarito: (b)
*
 Exercícios 
Recordar aula 7
Pergunta 3: Qual a diferença entre dados semiestruturados de dados não estruturados?
Semiestruturados ora estão em um padrão e ora estão em outro e os não estruturados são os conteúdos digitais de diversas mídias.
Não estruturados são os que trabalhamos hoje em bancos de dados convencionais e os semiestruturados em bancos de dados analíticos.
Semiestruturados são os conteúdos das mídias e os não estruturados são formatos inconstantes.
Não estruturados são de grandes volumes e os semiestruturados não.
Não existe diferença entre os dois. 
*
 Exercícios 
Recordar aula 7
Pergunta 4: Os gestores das organizações hoje, trabalham somente com dados estruturados para tomadas de decisão. Esta afirmativa está correta?
Sim, porque dados estruturados trabalham com bancos de dados não convencionais.
Não, pois hoje trabalhamos com informações de quaisquer tipos de fontes.
Sim, pois são bem fáceis para tomadas de decisão.
Não, pois dados estruturados são os que temos hoje nas mídias.
Nenhuma das respostas acima. Gabarito: (b)
*
 Exercícios 
Recordar aula 7
Pergunta 5: É importante trabalharmos com Veracidade no Big Data devido a :
Dados não confiáveis levam os gestores tomarem decisão que podem levar a organização a prejuízos enormes.
Ao pequeno número de dados que trabalhamos em Big Data.
Devido a termos poucas fontes de dados.
Devido os gestores não conhecerem os dados de sua organização.
Nenhuma das respostas acima.
*
 Exercícios 
Recordar aula 7
Gabarito: (a)
Pergunta 6: Os dados coletados para relevância ao propósito da análise significa o quê para o projeto de Big Data? 
Significa que devemos trabalhar com eles sem precisar analisá-los.
Significa que são estruturados. 
Significa que é o ponto chave para se obter dados que agreguem valor ao processo.
Significa que são dados manipulados.
Significa que podemos trabalhar em bases de dados convencionais.
 Gabarito: (c)
*
 Exercícios 
Recordar aula 7
Pergunta 7: Quando coletamos os dados para o projeto de Big Data significa que estes dados são definitivos para o projeto.
Sim, pois trabalhamos cm todos os dados coletados.
Não, pois temos que coletar mais dados sempre.
Sim, pois iremos trabalhar com dados estruturados e semi estruturados.
Sim, pois devemos identificar as tendências para poder trabalhar com estes que coletamos. 
Não, pois devemos identificar as tendências e palpites para ponderar se devem ser pesquisados. Gabarito: (e) 
*
 Exercícios 
Recordar aula 7
Pergunta 8: A veracidade dos dados no projeto de Big data é tão importante quanto a variedade dos dados. Essa afirmação está correta?
Sim, pois devemos analisar a variedade dos dados para saber o que agrega valor e estes devem ser verídicos.
Não, pois trabalhamos com quaisquer tipos de dados.
Não, pois se coletamos uma variedade de dados, não interessa a veracidade dos mesmos.
Sim, pois temos que trabalhar com quaisquer tipos de dados.
Não, pois não interessa a veracidade dos mesmos e sim somente a variedade dos dados. Gabarito: (a)
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
O Big Data precisa trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo.
........O problema é que os bancos de dados “tradicionais”, especialmente aqueles que exploram o modelo relacional, como o MySQL, PostgreSQL e o Oracle, não se mostram adequados a estes requisitos, por serem menos flexíveis.
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
Isso acontece porque bancos de dados relacionais normalmente se baseiam em quatro propriedades que tornam a sua adoção segura e eficiente, razão pela qual soluções do tipo são tão populares: Atomicidade, Consistência, Isolamento e Durabilidade. 
..........Esta combinação é conhecida como ACID, sigla para o uso destes termos em inglês: Atomicity, Consistency, Isolation e Durability. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
Vejamos uma breve descrição de cada uma:
Atomicidade: toda transação deve ser atômica, isto é, só pode ser considerada efetivada se executada completamente;
Consistência: todas as regras aplicadas ao banco de dados devem ser seguidas;
Isolamento: nenhuma transação pode interferir em outra que esteja em andamento ao mesmo tempo;
Durabilidade: uma vez que a transação esteja concluída, os dados consequentes não podem ser perdidos.
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
 O problema é que a elasticidade, por exemplo, pode ser inviabilizada pela atomicidade e pela consistência. É neste ponto que entra em cena o conceito de NoSQL, denominação atribuída à expressão em inglês “Not only SQL“. 
 O NoSQL faz referência às soluções de bancos de dados que possibilitam armazenamento de diversas formas, não se limitando ao modelo relacional tradicional. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
 Bancos deste tipo são mais flexíveis, sendo inclusive compatíveis com um grupo de premissas que “compete” com as propriedades ACID: aBASE (Basically Available, Soft state, Eventually consistency – Basicamente disponível, Estado Leve, Eventualmente consistente).
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
A escolha do banco NoSQL adequado para uma determinada aplicação não é trivial, alguns fatores importantes devem ser levados em consideração nesta escolha: 
1. Escalabilidade; 
2. Desempenho; 
3. Disponibilidade; 
4. Facilidade de uso. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
 Os bancos de dados relacionais não ficaram ultrapassados, eles são e continuarão por muito tempo sendo úteis a uma série de aplicações. 
 O que acontece é que, geralmente, quanto maior um banco de dados se torna, mais custoso e trabalhoso ele fica: é preciso otimizar, acrescentar novos servidores, empregar mais especialistas em sua manutenção, etc. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
 Via de regra, escalar (torná-lo maior) um bancos de dados NoSQL é mais fácil e menos custoso. Isso é possível porque, além de contar com propriedades mais flexíveis, bancos deste tipo já são otimizados para trabalhar com processamento paralelo, distribuição global (vários data centers), aumento imediato de sua capacidade e outros. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
 Mas a distribuição global é algo que chama muito a atenção para não centralizarmos dados em um único data center, ou termos que ficar virando chaves para contenções.
 Há mais de uma categoria de banco de dados NoSQL, fazendo com que soluções do tipo possam atender à grande variedade de dados que existe, tanto estruturados, quanto não estruturados: bancos de dados orientados a documentos, bancos de dados chave/valor,bancos de dados de grafos, etc. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
A seguir serão descritas as categorias dos bancos de dados NoSQL: 
 Chave/Valor 
Os dados são armazenados sem esquema pré-definido, no formato de pares Chave/Valor, onde temos uma Chave que é responsável por identificar o dado e seu valor que corresponde ao armazenamento do dado em sí. 
Esta é a categoria de NoSQL mais simples para o processamento em ambientes de Big Data, oferecendo grande flexibilidade e escalabilidade. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
Entretanto, Bancos de dados Chave/Valor não oferecem todas as características do modelo ACID, sendo necessário que os desenvolvedores levem em consideração a localização, replicação e tolerância a falha neste banco de dados, além de que banco de dados Chave/Valor não contém tipos, o que resulta na armazenagem dos dados quase sempre no formato de Strings. 
 Deste modo, dependendo da quantidade de usuários/dispositivos no sistema, manter um controle dos dados na forma de Chave/Valor se torna desafiador. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 Orientado a Colunas 
Este tipo de categoria se tornou conhecida devido a implementação da Google (Google’s BigTable), são muito similares em um nível abstrato aos RDBMSs, com algumas diferenças mais do ponto de vista conceitual, os dados são armazenados em famílias de colunas, com a adição de alguns atributos dinâmicos. 
Por exemplo, são utilizadas chaves estrangeiras mas que apontam para diversas tabelas diferentes, ou seja este banco de dados não é relacional e por este motivo eles não tem um gerenciamento que identifiquem as tabelas como no RDBMS. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 Bando de dados orientados a colunas foram criados para processar um grande número de dados de forma distribuída através de diversas máquinas, entretanto é mais difícil de serem compreendidos, apesar de parecerem superficialmente com RDBMS, a lógica envolvida é mais complexa, o que pode ser um empecilho para o desenvolvimento de aplicações. 
Os bancos desta categoria mais utilizados são: o Cassandra, Hadoop/HBase e o Google’s BigTable. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 Orientado a Documentos 
O conceito principal nos bancos de dados orientados a documentos, os dados são tratados como objetos independentes no formato de documentos. Cada documento contém uma informação única pertinente a um único objeto, mantendo a estrutura dos objetos armazenados. 
Em geral, todos os dados são assumidos como documentos, que por sua vez são encapsulados e codificados em algum formato padrão, podendo ser estes formatos XML, YAML, JSON, BSON, assim como formatos binários como PDF e formatos do Microsoft Office. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 A popularidade dessa categoria ocorre principalmente devido à elegância na programação tanto pelas vantagens de escalabilidade como de desempenho. 
 Esta categoria consegue ser superior em relação aos tradicionais SQL, quando considerado banco de dados em larga escala, ainda é uma questão em aberto. 
Exemplos deste tipo de banco de dados, podemos citar o MongoDB, Apache Couch DB e ClusterPoint. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
 Grafos 
Banco de dados baseado em grafos, armazenam os dados em uma estrutura de nós, arestas e propriedades, com os nós representando as entidades em si, as arestas representando os relacionamentos entre os nós e as propriedades representando os atributos das entidades, podendo estas serem representadas tanto nos nós quanto nas arestas do grafo. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 Portanto, em vez de utilizar uma estrutura rígida como no SQL, um modelo em grafo pode ser muito flexível, pois a modelagem dos dados passa a ser adaptável e crescente conforme os dados vão sendo armazenados, sem modelagem pré-definida e com propriedades dinâmicas, permitindo assim a distribuição do grafo através de diversas máquinas. Contribuindo para a escalabilidade, tolerância a falhas e consequentemente a capacidade de processamento que esperamos para análise de Big Data. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
 Esse tipo de banco de dados utiliza teorias matemáticas dos grafos, comumente utilizadas nas mais diversas aplicações, com uma modelagem mais natural dos dados. Sendo possível realizar consultas com um alto nível de abstração considerando as vantagens da própria estrutura do grafo representar a modelagem dos dados. 
 Por esses motivos, esta categoria é indicada para aplicações em redes sociais e que necessitam de processamento inteligente como inferências a partir dos dados armazenados. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 Podemos citar por exemplo aplicações na área de transportes, Bussiness Network , aplicações em bioinformática, quimio-informática e interações entre proteínas . 
 Outro exemplo importante é o The Web of Data, com 31 bilhões de triplas e 466 milhões de links [25] demonstra a capacidade de armazenar grandes conjuntos de dados. 
 .......Bancos de dados baseados em grafos surgiram há poucos anos, apesar da tecnologia ser relativamente nova, já existem alguns estudos na área. 
*
Atomicidade, Consistência, Isolamento e Durabilidade
 
Comparativo Categorias
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Outros materiais