Baixe o app para aproveitar ainda mais
Prévia do material em texto
Desafio Empresas do ramo petroleiro são multinacionais que geram imensas quantidades de dados multivariados. Os dados podem ser provenientes dos seus sistemas de gestão próprios, cruzados com dados de gestão de pessoas, de sensores de equipamentos, meteorológicos, entre outros. Pensando nisso, imagine que você foi contratado pela empresa Oil & Cia como consultor big data, a fim de analisar o seu cenário interno e organizar os dados gerados. Conheça a empresa e os seus processos: Após análise do cenário, faça um relatório que mapeie os 5 Vs do big data dentro do contexto explanado pelo gerente, informando, ainda, o que são um dado estruturado e um dado não estruturado. Sua resposta Volume: Além de existir um sistema ERP com 30 anos de uso. Existe um sistema que capta dados externos ( Iot ) no qual se subdivide em diversas informações. Também como fonte de pesquisa aos valores da Bolsa e consulta do clima para outro setor da empresa. Existe uma variedade de informações a serem gerenciadas. Velocidade: Contudo são muitas as informações que foram e que são geradas em relação ao tempo. Observa-se que os dados produzidos são de maior escala diante dos sensores externos. Variedade: Observa-se que existem 3 sistemas distintos com subdivisões de cadastro de informações: 1. SISTEMA ERP ( FINANÇAS, ESTOQUE, FORNECEDORES, FOLHA DE PAGTO E PLANILHAS DE CONTROLE DE CADA SETOR ) 2. SISTEMA DE SENSORES EXTERNOS ( TEMPERATURA E PRESSÃO COM SUBDIVISÕES DE RELATÓRIOS E DASHBOARDS ) 3. SISTEMA DE AQUISIÇÃO ( VALORES DA BOLSA E CLIMA ) Veracidade: É necessário verificar e classificar todos os dados quanto as informações apresentadas e quais poderão ser utilizadas nessa classificação. Nesse caso é importante verificar a legitimidade e qualificar o conhecimento nos sistemas apresentados. Valor: Antes de excluir qualquer informação é necessário ver a utilidade dessa informação. Nesse caso classificar a utilidade dos sistemas citados. São dados já organizados podem ser planilhas e os próprios sistemas ERP, também conhecidos por serem tabulares. Observa-se que o sistema ERP é um dado estruturado porque contém tabelas organizadas em suas informações previamente relacionadas, assim como as planilhas existentes em cada setor. No entanto será interessante organizar essas planilhas no sistema ERP. No entanto os dados dos sensores são considerados semiestruturados ou não estruturados porque são dados sem organização. Mas no momento que existe um sistemas que faça o gerenciamento deste se torna estruturado apresentando de forma clara e congruente e relacional tais tabelas. Os dados não estruturados são os "valores da bolsa" e os "dados públicos de clima". No entanto será necessário utilizar para lidar com esses dados, poderíamos levar todos esses arquivos para dentro do sistema de arquivos HDFS utilizando o serviço Sqoop do ecossistema Hadoop, conforme a Figura 2. Para fazer a ingestão dos dados estruturados, poderíamos usar o serviço Hive, ou, ainda, levar os dados não estruturados por meio de Flume, Kafka ou Spark Streaming para a estrutura do Cassandra, Redis ou Hbase. Assim, organizamos um data lake, isto é, um repositório central em que são arma- zenados todos os tipos de dados: estruturados, semiestruturados e não estruturados. Nesse repositório, os dados são depositados no seu estado bruto para uma análise posterior (COUTO et al., 2019) Enviado em: 18/10/2021 18:38 Padrão de resposta esperado A divisão do relatório foi feita a partir dos 5 Vs do big data, que foram detalhados em relação ao contexto da empresa Oil & Cia. VOLUME Como a empresa é de grande porte, é de se esperar que tenha um grande volume de dados, e há um volume de dados estruturados no contexto do sistema ERP e das planilhas eletrônicas. O controle por meio dos dados dos sensores (não estruturados) é demonstrado como contínuo e rigoroso, então, chegarão dados a todo momento, gerando um grande volume. A consulta aos dados da Bolsa e do clima não gera armazenamento. VELOCIDADE A velocidade é demonstrada no contexto dos dados não estruturados oriundos dos sensores. Ao fazer um controle contínuo, dados são gerados segundo a segundo, fazendo com que a velocidade seja alta na ingestão dentro do sistema. VARIEDADE A variedade de dados é demonstrada pelos arquivos de planilhas eletrônicas, pelo banco relacional que engloba o ERP e pelos dados não estruturados oriundos de sensores. VERACIDADE A veracidade é questionável, pois não há um controle de qualidade dos dados, conforme explanado pelo gerente. VALOR Empresas bem estabelecidas, como a Oil & Cia, utilizam técnicas que ajudam a extrair valor dos dados, sejam elas baseadas em simples relatórios provenientes do ERP ou até mesmo de um sistema clássico de BI, que geram valor a partir da análise dos dados estruturados. Contudo, a empresa poderia se beneficiar de um sistema de big data para agregar valor a partir da análise combinada dos dados multivariados.
Compartilhar