Buscar

Desafio Introdução a Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

Desafio 
Empresas do ramo petroleiro são multinacionais que geram imensas quantidades de 
dados multivariados. Os dados podem ser provenientes dos seus sistemas de gestão 
próprios, cruzados com dados de gestão de pessoas, de sensores de equipamentos, 
meteorológicos, entre outros. 
Pensando nisso, imagine que você foi contratado pela empresa Oil & Cia como 
consultor big data, a fim de analisar o seu cenário interno e organizar os dados gerados. 
Conheça a empresa e os seus processos: 
 
Após análise do cenário, faça um relatório que mapeie os 5 Vs do big data dentro do 
contexto explanado pelo gerente, informando, ainda, o que são um dado estruturado e 
um dado não estruturado. 
Sua resposta 
Volume: Além de existir um sistema ERP com 30 anos de uso. Existe um sistema que 
capta dados externos ( Iot ) no qual se subdivide em diversas informações. Também 
como fonte de pesquisa aos valores da Bolsa e consulta do clima para outro setor da 
empresa. Existe uma variedade de informações a serem gerenciadas. Velocidade: 
Contudo são muitas as informações que foram e que são geradas em relação ao tempo. 
Observa-se que os dados produzidos são de maior escala diante dos sensores externos. 
Variedade: Observa-se que existem 3 sistemas distintos com subdivisões de cadastro de 
informações: 1. SISTEMA ERP ( FINANÇAS, ESTOQUE, FORNECEDORES, 
FOLHA DE PAGTO E PLANILHAS DE CONTROLE DE CADA SETOR ) 2. 
SISTEMA DE SENSORES EXTERNOS ( TEMPERATURA E PRESSÃO COM 
SUBDIVISÕES DE RELATÓRIOS E DASHBOARDS ) 3. SISTEMA DE 
AQUISIÇÃO ( VALORES DA BOLSA E CLIMA ) Veracidade: É necessário verificar 
e classificar todos os dados quanto as informações apresentadas e quais poderão ser 
utilizadas nessa classificação. Nesse caso é importante verificar a legitimidade e 
qualificar o conhecimento nos sistemas apresentados. Valor: Antes de excluir qualquer 
informação é necessário ver a utilidade dessa informação. Nesse caso classificar a 
utilidade dos sistemas citados. São dados já organizados podem ser planilhas e os 
próprios sistemas ERP, também conhecidos por serem tabulares. Observa-se que o 
sistema ERP é um dado estruturado porque contém tabelas organizadas em suas 
informações previamente relacionadas, assim como as planilhas existentes em cada 
setor. No entanto será interessante organizar essas planilhas no sistema ERP. No entanto 
os dados dos sensores são considerados semiestruturados ou não estruturados porque 
são dados sem organização. Mas no momento que existe um sistemas que faça o 
gerenciamento deste se torna estruturado apresentando de forma clara e congruente e 
relacional tais tabelas. Os dados não estruturados são os "valores da bolsa" e os "dados 
públicos de clima". No entanto será necessário utilizar para lidar com esses dados, 
poderíamos levar todos esses arquivos para dentro do sistema de arquivos HDFS 
utilizando o serviço Sqoop do ecossistema Hadoop, conforme a Figura 2. Para fazer a 
ingestão dos dados estruturados, poderíamos usar o serviço Hive, ou, ainda, levar os 
dados não estruturados por meio de Flume, Kafka ou Spark Streaming para a estrutura 
do Cassandra, Redis ou Hbase. Assim, organizamos um data lake, isto é, um repositório 
central em que são arma- zenados todos os tipos de dados: estruturados, 
semiestruturados e não estruturados. Nesse repositório, os dados são depositados no seu 
estado bruto para uma análise posterior (COUTO et al., 2019) 
Enviado em: 18/10/2021 18:38 
Padrão de resposta esperado 
A divisão do relatório foi feita a partir dos 5 Vs do big data, que foram detalhados em 
relação ao contexto da empresa Oil & Cia. 
 
VOLUME 
Como a empresa é de grande porte, é de se esperar que tenha um grande volume de 
dados, e há um volume de dados estruturados no contexto do sistema ERP e das 
planilhas eletrônicas. O controle por meio dos dados dos sensores (não estruturados) é 
demonstrado como contínuo e rigoroso, então, chegarão dados a todo momento, 
gerando um grande volume. A consulta aos dados da Bolsa e do clima não gera 
armazenamento. 
VELOCIDADE 
A velocidade é demonstrada no contexto dos dados não estruturados oriundos dos 
sensores. Ao fazer um controle contínuo, dados são gerados segundo a segundo, 
fazendo com que a velocidade seja alta na ingestão dentro do sistema. 
VARIEDADE 
A variedade de dados é demonstrada pelos arquivos de planilhas eletrônicas, pelo banco 
relacional que engloba o ERP e pelos dados não estruturados oriundos de sensores. 
 
VERACIDADE 
A veracidade é questionável, pois não há um controle de qualidade dos dados, 
conforme explanado pelo gerente. 
VALOR 
Empresas bem estabelecidas, como a Oil & Cia, utilizam técnicas que ajudam a extrair 
valor dos dados, sejam elas baseadas em simples relatórios provenientes do ERP ou até 
mesmo de um sistema clássico de BI, que geram valor a partir da análise dos dados 
estruturados. Contudo, a empresa poderia se beneficiar de um sistema de big data para 
agregar valor a partir da análise combinada dos dados multivariados.

Continue navegando