Buscar

Big Data: Oportunidades e Desafios

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 1/22
 
 
 
 
 
 
 
 
SISTEMAS DE INFORMAÇÕES
GERENCIAIS – SIG
AULA 5
 
 
 
 
 
 
 
 
 
 
 
 
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 2/22
Profª Maristela Weinfurter Teixeira
CONVERSA INICIAL
A próxima década será marcada por um avanço bilionário no mercado global de Big Data.
Estamos falando em uma projeção de aproximadamente 243,3 bilhões de dólares americanos,
segundo o IDC (S.d.). O mercado mundial de software para Big Data representou em torno de 11,9%
do mercado mundial total de software até 2019 e já tem uma previsão de crescer 2,5 pontos
percentuais na próxima década. Oportunamente, IDC (International Data Corporation) é um
fornecedor global de inteligência de mercado, serviços e eventos para mercados de TIC (tecnologia
da informação e comunicações). As análises e insights da IDC alavancam o trabalho de planejamento
e previsões dos executivos de negócios, profissionais de TI e investidores. Desde os anos 1964 atua
como subsidiária da IDG (International Data Group), a qual lidera globalmente serviços de mídia,
dados e serviços para a área de marketing. Ou seja, ambas empresas são referências sempre
importantes para profissionais de TI.
Algo bastante interessante é que com esse mercado expandindo, trará consigo muitas
oportunidades, especialmente para profissionais relacionados à área de inteligência de negócios e TI
(BI, DW, Big Data). Para tanto, esses profissionais deverão focar em conhecimento agregado ao Big
Data, como IoT, IA, realidade aumentada, sensores, computação em nuvem (Big Data as a Service),
drones, análises preditivas, prescritivas em dados híbridos, entre outros elementos que criem um
ambiente de mercado inovador e disruptivo.
Esse fabuloso termo (Big Data), dentro da área de sistemas de informações gerenciais, como o
próprio nome sugere, foi idealizado para o tratamento de grandes conjuntos de dados que requerem
como características principais a abordagem dos 3 V’s: velocidade, volume e variedade.
Assim como o Data Warehouse, não é uma ferramenta, mas um conceito constituído por
técnicas, ferramentas e métodos para análise de grandes quantidades de dados com o objetivo de
gerarmos resultados que possibilitem organizações estarem à frente de seus concorrentes e de si
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 3/22
próprias. No entanto, não estamos apenas falando de um grande volume de dados, mas sim de um
volume com uma grande complexidade de análise.
Segundo Sharda (2019), o perigo é que o Big Data se torne apenas um chavão badalado
utilizado no marketing. Inicialmente, o Big Data era usado para descrever imensos volumes de dados
analisados por grandes corporações como por exemplo a Google ou projetos científicos da Nasa.
Big Data de fato é constituído por dados que não estão armazenados num único lugar, mas em
diferentes lugares e em diferentes formatos. Dados estruturados e não estruturados, provenientes de
postagens de mídias sociais, de sensores que fazem medições meteorológicas, de resultados de
bilhões de buscas em páginas da internet, de clicks dos mais variados websites (Sharda, 2019).
Para que um projeto de Big Data tenha sucesso, precisará contar com profissionais envolvidos no
processo que de fato extraiam o melhor conhecimento e gerem excelentes insights a partir de uma
gigantesca base de dados híbrida e global.
TEMA 1 – FONTES DE DADOS QUE ALIMENTAM O BIG DATA
Nosso Big Data, de forma bem genérica, é composto por um volume muito grande de dados
que não comporta o fato de serem armazenados da forma tradicional nem tampouco processado
como nossos sistemas transacionais. Segundo Sharda (2019), ele é utilizado para compreender
consumidores e clientes em operações comerciais para a promoção e crescimento da lucratividade
das empresas. Os dados estão disponíveis nos mais variados formatos, e o processamento disso
precisa ser ágil, e nas formas tradicionais, torna-se impraticável.
O grande desafio com um Big Data é a geração de insights para decisões estratégicas, e as
fontes podem vir de logs na web, identificadores de radiofrequência (RFID), sistemas de
posicionamento global (GPS), redes de sensores, redes sociais, textos na Internet, entre outros
(Sharda, 2019).
Ouvimos diariamente o termo Big Data, assim como de todos os demais avanços tecnológicos,
mas precisamos romper com o estilo comercial e compreendermos o importante sobre a menina dos
olhos dos sistemas de informações gerenciais (Isaacson, 2015).
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 4/22
Segundo Isaacson, Big Data é compreendido como uma enorme e complexa coleção de
conjuntos de dados, tornando o processo de gerenciamento de banco de dados ou construção de
aplicativos algo desafiador. Dentro de um conjunto grande de dados, o que precisamos encontra-se
na análise e na separação de conjuntos menores com a mesma quantidade total de dados. Isso
permite que detectemos as tendências de negócios, determinemos a qualidade da pesquisa,
previnamos doenças, vinculemos citações legais, combatamos crimes e determinemos as condições
de tráfego essencial nas estradas em tempo real. São alguns dos inúmeros resultados que podemos
obter por meio de um Big Data. Há um consenso sobre a manipulação de Big Data, que é a
dificuldade de se trabalhar usando os sistemas de gerenciamento de bancos de dados relacionais,
exigindo com isso muitos servidores, rodando em paralelo para conseguirmos um tamanho de dados
com o resumo de tudo.
  O crescimento das mídias sociais gerou um conglomerado de usuários sem precedentes na
história da tecnologia da informação. Por exemplo, até 2013, havia mais de 600 milhões de usuários
ativos no Facebook, que, inclusive, é a empresa que se destaca no desenvolvimento e adoção de Big
Data, na tentativa de lidar com o imenso tráfego de informações. Em torno de 2.5 bilhões de
conteúdos eram consolidados em 500 Terabytes por dia: é um desafio e tanto para gerenciamento de
dados. Enquanto isso, no mesmo período, o Twitter tinha acima de 600 milhões de usuários e 135
milhões de usuários ativos gerando 58 milhões de tweets por dia. No mesmo período, o Google tinha
300 milhões de usuários. Como se não bastassem as mídias sociais, também temos a população que
gosta de jogos eletrônicos em rede, um segmento que se tornou um modelo viral. Além dos jogos
em mídias sociais, também temos todo o conjunto de jogos para dispositivos móveis (Isaacson,
2015).
E nossa contabilização de terabytes não para por aí: os dispositivos móveis estão gerando uma
grandiosa fonte de dados, pois são milhões de aplicativos para esse tipo de dispositivo que geram
dados e mais dados, o que se configura numa abundância de categorias, incluindo aplicativos de
mensagens, de gerenciamento de saúde, de gerenciamento de atividades, organização de
informações, entre tantos outros. Duas categorias de origem de coleta de dados, que vêm crescendo
muito, são os sistemas de monitoramento e para dados científicos (Isaacson, 2015).
Não podemos desconsiderar a forma tradicional de alimentação dos Big Datas, por meio dos
sistemas gerenciadores de bancos de dados relacionais e seus sistemas transacionais. Por muitos
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 5/22
anos, foram as arquiteturas de extração, transformação e carregamento (ETL) que fizeram todo o
processo de criação e atualização das bases de dados do Data Warehouse (Isaacson, 2015).
Finalmente, o mais recente gerador de dados para nosso Big Data encontra-se na Internet das
Coisas (IoT). São dispositivos residenciais que estão medindo, monitorando e enviando dados para
um banco de dados. Assim como também em equipamentos de monitoramento de saúde, em
automóveis e em vários locais inimagináveis. A IoT, de fato, tem feito o crescimento de dados em Big
Datas explodir, e será a maior responsável peloaumento na próxima década.
Falamos até aqui de forma genérica, mas a Tabela 1 detalha um pouco mais as fontes de dados
que alimentam um Big Data.
Tabela 1 – As maiores fontes de dados para criação de um Big Data
Fonte Alguns Exemplos
Perfis de redes
sociais
LinkedIn, Facebook, Twitter, Instagram
Influenciadores
sociais
Pessoas que possuem conhecimento sobre determinada área e influenciam seguidores
Dados gerados
por atividade
Arquivos de logs (IoT), Informações de rastreamento de websites, logs de aplicativos, dados enviados
por sensores (check-ins e rastreamento de localização – geolocalização), jogos, eletrodomésticos
inteligentes, dados gerados dentro veículos por processadores empacotados.
SaaS e aplicativos
na nuvem
Dropbox, Google Drive, Google Analytics, Netflix, Paypal
Informação
pública da web
Mídias sociais, informações do governo, informações de empresas de capital aberto
Resultados de
MapReduce
Sumarização de fontes com volumes enormes de dados
Dispositivos de
data warehouse
Todo ambiente de Data Warehouse instalado com dados provenientes dos sistemas transacionais
Bancos de dados
colunares /
NoSQL
MongoDB (NoSQL), Cassandra(colunar), Neo4j(Grafos)
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 6/22
Tecnologias de
monitoramento
de rede e in-
stream
SolarWinds, Datadog, Atera
Documentos
legados
e-mails, intranet, gerenciadores de conteúdos, wikis
Fonte: Julio, 2010.
Os recursos e fontes de dados são vastos e amplamente distribuídos para que nossos Big Datas
sejam implementados. Por isso precisarmos de tantos profissionais especializados e ferramentas,
métodos e técnicas para conseguirmos planejar, implementar e testar nosso Big Data.
TEMA 2 – ESCALABILIDADE NA IMPLEMENTAÇÃO DE UM BIG DATA
O que temos presenciado é uma explosão no volume de dados trafegando e sendo
armazenados no mundo virtual globalizado. Toda inovação, seja ela tecnológica ou não, sempre vem
amparada inicialmente por uma excelente campanha publicitária, e as promessas geralmente são
superestimadas. Quando vamos realmente conhecer a realidade que se estabelece é sempre de um
caminho de experimentos e melhorias até que o produto realmente fique como prometido. Com o
Big Data não foi e não é diferente.
Logo, ao se projetar uma aplicação de Big Data, deve-se ter em mente que ela precisa ser
escalonável. Muitos dizem que é uma plataforma elástica, pois conforme o volume de dados vai
aumentando, ela vai crescendo juntamente, sem interrupções. Imaginemos se uma mídia social, no
momento em que você vai criar um perfil ou incluir qualquer elemento, enviasse uma mensagem de
erro lhe dizendo que não é possível aquela operação por conta de falta de espaço no servidor do
desenvolvedor dela. Esse episódio geraria uma situação de desagrado por parte do cliente/usuário, o
qual poderia até abandonar a ideia de utilização da plataforma (Isaacson, 2015).
Uma infraestrutura em nuvem é a melhor aliada na implantação de um Big Data escalonável sem
dores de cabeça. Computação em nuvem (Cloud computing) é um excelente aliado quando falamos
em Big Data. Quem está implementando-o deixa a administração de toda infraestrutura por conta de
centros de dados, os quais focam em grandes servidores, comunicação, gerenciamento e
monitoramento 24 horas por dia, 7 dias por semana. É um tipo de investimento que fica caríssimo
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 7/22
para uma empresa cujo foco não é vender serviços de infraestrutura. Em especial, no caso do Big
Data, a camada de banco de dados é o coração da aplicação, pois ela tende ao crescimento
exponencial.
Segundo Isaacson (2015), a chave para o dimensionamento de um aplicativo é a distribuição
adequada da carga em vários servidores, permitindo processamento em paralelo. Para o
escalonamento adequado precisamos inicialmente compreender qual é o ponto de estrangulamento
de nossa aplicação. Isso é muito importante porque a escolha errada gerará um dimensionamento
catastrófico para o aplicativo. O ideal é utilizarmos um data center comercial e não um gratuito, pois
um aplicativo pode explodir em usuários e registros em menos de 24 horas. Na sequência, vamos
pontuar cada um dos elementos importantes a serem analisados:
1. Uso de CPU implica diretamente o desempenho do aplicativo, porém é o problema mais
simples de resolvermos. Quando estivermos com 80% de uso, um alerta deve ser disparado para que
uma simples atualização de servidor evite problemas;
2. Espera de entrada e saída pode estar relacionada a algum problema de memória insuficiente,
e isso pode ser resolvido aumentando-se recursos de memória;
3. Alto uso de disco é um indicador importante que aponta para a necessidade de escalabilidade,
o que significa que será necessário então melhorar o desempenho de acesso.
Um fator importante para definição do escalonamento é o bom entendimento da arquitetura do
aplicativo. A camada mais relacionada com implementação de um Big Data é justamente a camada
de banco de dados.  É nela que podemos armazenar gigabytes a terabytes, ou até petabytes. Este é o
ponto principal: acomodar grandes conjuntos de dados surportando uma variedade de alto volume
de necessidades de um aplicativo (Isaacson, 2015).
Quem tem tomado parte como uma das habilidades de profissionais que atuam com Big Datas é
o Hadoop, que é um mecanismo semelhante a um gerenciador de banco de dados, porém os dados
chegam ao Hadoop numa forma de arquivos de logo de um servidor Apache. Na sequência, o Hadoop
MapReduce é aplicado aos logs para localização de informações úteis. E, no caso do uso de Hadoop,
as entradas de dados não são provenientes de UI (User Interfaces), mas de outros sistemas ou fontes
automatizadas. Essa abordagem é totalmente centrada em processamento de lote, que pode durar
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 8/22
segundos ou até horas ou mais tempo, dependendo do tamanho do conjunto de dados e da
complexidade da solicitação.
Outro ponto importante a considerar é a distribuição dos dados em vários servidores, a qual
deve ser extremamente planejada, pois qualquer falha em tal implementação gerará problemas de
confiabilidade dos dados (Isaacson, 2015).
O tema relacionado ao escalonamento de um Big Data é essencial quando estamos pensando na
implementação deste. É um assunto vasto e que exige maior aprofundamento em conteúdos
relacionados especialmente a serviços de computação em nuvem.
TEMA 3 – TÉCNICAS DE ANÁLISE DE DADOS E CICLO DE VIDA DE
BIG DATA
Há várias abordagens para análise de dados estatísticos e computacionais. A amostragem
estatística de uma população, por exemplo, é ideal para conjuntos de dados disponíveis em cenários
tradicionais de processamento em lote, porém, quando falamos de Big Data, o processamento em
lote deixa espaço para o processamento em tempo real, pois há necessidade de dar sentido aos
dados (Isaacson, 2015).
Algumas técnicas que são utilizadas na implementação de um Big Data:
1. Análise quantitativa: técnica de análise de dados que se concentra na quantificação de
padrões e correlações encontrados nos dados. Baseada em práticas estatísticas, envolve a análise de
um grande volume de observações de um conjunto de dados, cujos resultados são usados para
comparações numéricas;
2. Análise qualitativa: técnica de análise de dados baseada em descritivos e envolve a análise
de uma amostra menor com maior profundidade em comparação com a análise de dados
quantitativos. Os resultados não são medidos numericamente, sendo que estes são descritivos;
3. Mineração de dados: Data Mining é uma forma especializada de análise de grandes
conjuntos de dados e constituída de técnicas automatizadas que vasculham conjuntos massivos para
identificação de padrões e tendências;
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 9/22
4. Análise estatística: usa métodos estatísticos baseados em fórmulas matemáticascomo meio
de análise de dados. Geralmente quantitativa, mas pode ser qualitativa. Descreve conjuntos de dados
por meio de sumarização, como fornecer a média, mediana ou modo de estatísticas associadas ao
conjunto de dados. Usada também para inferir padrões e relacionamentos dentro do conjunto de
dados, como regressão e correlação. Tipos de análise estatística: teste A/B, correlação e regressão;
5. Aprendizagem de máquina (Machine Learning): os seres humanos são bons em detectar
padrões e relacionamentos de dados, mas não conseguimos fazer isso para um volume gigantesco
de dados. Nesse momento entra então o apoio automático de computadores e ferramentas de
software. Há 4 técnicas de aprendizagem de máquina: classificação, clustering, detecção de outlier e
filtragem;
6. Análise semântica: para que as máquinas extraiam informações valiosas, os dados de texto e
fala precisam ser compreendidos pelas máquinas da mesma forma que os humanos. Para isso, a
análise é subdividida em 4 tipos: processamento de linguagem natural, Text Analytics e análise de
sentimentos;
7. Análise visual: com base na premissa de que seres humanos entendem e tiram conclusões
sobre representações gráficas mais rapidamente do que textos, a análise visual atua como uma
ferramenta de descoberta na área de Big Data. Tipos de análise visual: mapas de calor, gráficos de
séries temporais, gráficos de rede e mapeamento de dados espaciais.
Percebe-se que a elaboração de um projeto de Big Datas não é algo simples, por vários fatores, e
a escolha das técnicas e métodos é uma delas. O conjunto destas para um projeto pode ser
completamente diferente de um projeto para outro. A opção de melhor combinação de recursos
técnicos sempre dependerá de todos os profissionais envolvidos no processo de implementação
decidirem em conjunto.
3.1 CICLO DE VIDA DE UM PROJETO DE BIG DATA
Segundo Dietrich (2015), o ciclo de vida de um Big Data baseia-se em métodos estabelecidos no
domínio de análise de dados e ciência da decisão. A Figura 1 demonstra as 6 fases que compõem o
ciclo de vida. O cilo de vida de um projeto de Big Data, por exemplo, baseia-se em métodos
estabelecidos dentro de um domínio de análise de dados e ciência da decisão. Esse processo inclui
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 10/22
métodos científicos relacionados à formação de hipóteses e à descoberta de maneiras para se
testarem as ideias.
Figura 1 – Visão geral do ciclo de vida da análise de dados
Fonte: Dietrich, 2015.
Um desses métodos é o CRISP-DM (Cross Industry Standard Process for Data Mining), que é um
padrão inter-indústrias para mineração de dados. Ele descreve várias abordagens de mineração de
dados para resolução de problemas. O CRISP é constituído pelas etapas de entendimento do
negócio, entendimento dos dados, preparação dos dados, modelagem, avaliação e implantação.
Outro método, segundo Dietrich (2015), é a Estrutura Delta de Tom Davenport, a qual oferece uma
abordagem voltada para análise de dados que inclui o contexto das habilidades da organização, o
conjunto de dados e o engajamento da liderança. O método AIE (Applied Information Economics)
fornece uma estrutura para medidas intangíveis e orientação sobre o desenvolvimento de modelos
de decisão, calibração de estimativas de especialistas, além de derivação do valor esperado de
informações.
No momento da fase 1, a equipe de trabalho define sobre o domínio do negócio, relatando o
histórico relevante sobre a organização e as unidades de negócio. É realizada a avaliação dos
recursos disponíveis no apoio ao projeto em termos de recursos pessoais, tecnológicos, cronograma
e dados. Nessa fase, os limites e as fronteiras do domínio do negócio são devidamente definidos,
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 11/22
formulando com isso as hipóteses iniciais para teste e início do aprendizado dos dados. A Figura 2
assinala essa fase no ciclo de vida.
Figura 2 – Fase 1 do ciclo de vida da análise de dados
Fonte: Dietrich, 2015.
Para a fase 2 é necessária uma sandbox analítica, na qual a equipe trabalha os dados e realiza
análises durante o projeto. Procede-se à extração, transformação e atualização (ETL) dos dados no
sandbox. Inicialmente os dados são transformados para que a equipe possa trabalhar com a análise
dos dados, bem como para se familiarizarem completamente com os dados para o condicionamento
dos dados. A Figura 3 aponta o momento da preparação dos dados.
Figura 3 – Fase 2 do ciclo de vida da análise de dados
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 12/22
Fonte: Dietrich, 2015.
Para a fase 3, planejamento do modelo, conforme a figura 4, a equipe de trabalho define quais
métodos, técnicas e todo o processo e fluxo de trabalho a ser seguido na fase de construção do
modelo de Big Data. Nesse momento, a equipe explora os dados para o aprendizado sobre suas
relações e variáveis, selecionando quais são as variáveis-chave e modelos mais adequados para
serem aplicados.
Figura 4 – Fase 3 do ciclo de vida da análise de dados
Fonte: Dietrich, 2015.
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 13/22
A fase 4, conforme a Figura 5, é o momento em que a equipe desenvolve conjuntos de dados
para testes, treinamento e produção. Ainda nessa fase, a equipe constrói e executa modelos com
base no trabalho planejado na fase anterior. São consideradas se as ferramentas existentes são
suficientes ou se será necessária a idealização de um ambiente mais robusto para execução de
modelos e fluxos de trabalho, por exemplo, um hardware com processamento paralelo.
Figura 5 – Fase 4 do ciclo de vida da análise de dados
Fonte: Dietrich, 2015.
A comunicação dos resultados (fase 5, conforme Figura 6) é responsabilidade da equipe em
colaboração com os principais stakeholders (partes interessadas). Nessa fase, com base em todos os
critérios estabelecidos das fases anteriores, é determinado se os resultados do projeto foram um
sucesso ou uma falha. Além disso, é nesse momento em que são identificadas as principais
descobertas, quantificados os valores comerciais e desenvolvida uma narrativa (Stortytelling) para
resumir e transmitir as descobertas às partes interessadas.
Figura 6 – Fase 5 do ciclo de vida da análise de dados
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 14/22
Fonte: Dietrich, 2015.
Finalmente, chegamos à última fase (Figura 7). A operacionalização consiste na entrega dos
relatórios finais, briefings, código computacional e documentação técnica.
Figura 7 – Fase 6 do ciclo de vida da análise de dados
Fonte: Dietrich, 2015.
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 15/22
A equipe executa um projeto-piloto para implementação dos modelos dentro do ambiente de
produção. Cabe aos membros da equipe a execução dos modelos para produção de descobertas, e é
fundamental que se enquadrem esses resultados de forma adaptada ao público junto com a equipe
de implantação. Ao enquadrar os resultados de trabalho, a equipe demonstrará de forma clara os
resultados e o valor do projeto. Não importa se a equipe é altamente qualificada e consegue montar
um excelente. O que interessa é a tradução dos resultados para uma linguagem que o público
usuário compreenda. Muitas vezes, projetos enormes são descartados porque a socialização dos
resultados não atingiu o seu público-alvo.
TEMA 4 – DOMÍNIOS DE APLICAÇÕES BIG DATA POR SEGMENTO DE
MERCADO
Mas, afinal de contas, quais são as áreas que mais estão manifestando interesse por implantação
de Big Data? Esses são os domínios de aplicações mais comuns que conseguimos identificar no
mercado. Hoje, ele é importante para auxiliar as organizações na identificação de novas
oportunidades, de provocar inovações, de preferência disruptivas. Estamos falando de um
investimento grande, tanto em recursos humanos quanto em recursos tecnológicos, então os
resultadosprecisam ser de fato bem consolidados.
Decisões mais assertivas, custos mais reduzidos, redução de tempo para execução de atividades,
cadeia de fornecimento de produtos, clientes satisfeitos e principalmente aumento nos lucros das
empresas provisionam maior satisfação dos investidores.
De forma rápida, poderíamos dizer que os principais segmentos de mercado que buscam a
implementação de Big Data são marketing, financeiro, vendas e relacionamento com cliente.
Segundo Julio (2010), usos de aplicações Big Data consistem nos seguintes segmentos:
otimização de marketing digital (web analytics, attribution, golden path analysis);
descoberta e exploração de dados (identifying new data-driven products, new markets);
detecção e prevenção de fraudes (revenue protection, site integrity e uptime);
análise de relacionamentos e redes sociais (influencer marketing, outsourcing, attrition
prediction);
dados analíticos gerados por máquina (remote device insight, remote sensing, location-based
intelligence); e
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 16/22
retenção de dados (long term conservation, data archiving).
Exemplificando e detalhando um pouco mais, a Tabela 2 nos traz alguns tipos de aplicações por
setores econômicos (Julio, 2010).
Tabela 2 – Utilização de Big Data em vários setores do mercado
Mercado Finalidade
Energia
• Análise de medição inteligente;
• Previsão e programação de carga de distribuição;
• Manutenção condicional.
Telecomunicações
• Desempenho de rede;
• Criação de novos produtos e serviços;
• Análise de registros de detalhes de chamadas (CDRs);
• CRM
Manufatura
• Gestão da cadeia de abastecimento;
• Centros de atendimento ao cliente;
• Manutenção preventiva e reparos;
• Gestão de relacionamento com o cliente.
Público
• Detecção de fraude;
• Combate à criminalidade;
• Detenção de ameaças;
• Cybersecurity.
Bancos
• Detecção de fraude;
• Vigilância comercial;
• Conformidade e regulamentação;
• CRM.
Meios de comunicação
• Análise de sequência de cliques em grande escala;
• Prevenção de abuso e fraude de cliques;
• Análise de gráfico social e segmentação de perfil;
• Gerenciamento de campanhas e programas de fidelidade.
Varejo
• Otimização dinâmica de preços;
• Variedade localizada;
• Gestão da cadeia de abastecimento;
• Gestão de relacionamento com o cliente.
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 17/22
Seguros • Modelagem de catástrofe;
• Reivindicações de fraude;
• Gestão de reputação;
• CRM.
Saúde
• Análise de dados de ensaios clínicos;
• Qualidade do atendimento ao paciente;
• Gestão da cadeia de abastecimento;
• Descoberta de drogas e análise de desenvolvimento.
Fonte: Julio, 2010.
Atualmente os segmentos de mercado são bastante amplos e para cada um deles há uma
tendência de aplicação para projeto de Big Data. A competição cada vez mais acirrada num contexto
globalizado acelera o planejamento e interesse em implantação de projetos de Big Data.
Normalmente, empresas que já ingressaram no mundo do BI, especialmente com base no Data
Warehouse, já reconhecem a importância de informações gerenciais e gestão do conhecimento. Um
Big Data é um conceito poderoso que deixa a empresa à frente de sua concorrência e com excelente
oportunidade de criação de novos produtos ou serviços inovadores.
TEMA 5 – STORYTELLING DE DADOS E VISUALIZAÇÃO DE DADOS
Percorremos vários pontos importantes para elaboração de um Big Data, e um dos momentos
extremamente importante para a implantação deste é justamente a socialização das informações. A
visualização de dados é tão importante quanto toda a construção do Big Data e é um tema
extremamente relevante porque há uma série de projetos que não obtiveram o resultado desejado
não porque os dados estavam errados ou fora do escopo, mas sim porque eles não foram
representados da forma adequada.
Então vamos aos fatos. Geralmente, pessoas mais técnicas não são treinadas para contarem
histórias com dados. Somos ainda muito cartesianos e a nossa linguagem muito técnica. De acordo
com Knaflic (2015), precisamos aprender como contar história considerando números. Devemos
visualizar os dados e contar histórias como chave para transformação da informação numa forma que
conduza as pessoas que tomarão decisões.
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 18/22
Com o avanço da tecnologia, vários profissionais têm acesso às ferramentas que geram gráficos,
por exemplo, o Excel da Microsoft. Criarmos um gráfico é uma função muito simples, mas a
habilidade de combinar cores e estrutura do formato é que faz toda diferença, incluindo uma
maneira eficaz de contar histórias com os dados. Isso sim traz vantagens a qualquer função. Uma
visualização de dados eficaz pode significar a diferença entre o sucesso e o fracasso quando o motivo
é comunicar descobertas de um estudo, arrecadar dinheiro para organização sem fins lucrativos,
apresentar ao conselho ou transmitir uma opinião a um público (Knaflic, 2015).
A etapa de visualização dos dados tem se tornado cada vez mais importante no processo de
implantação de um Big Data. Profissionais experientes em métodos quantitativos são bons para
encontrar, reunir e analisar dados e posteriormente construir modelos. No entanto, quando chega o
momento de compartilhar os dados, faltam-lhes habilidades para contar histórias com base nos
resultados obtidos utilizando de gráficos (Knaflic, 2015).
Segundo Knaflic (2015), um dos elementos básicos é pensarmos como um profissional da área
de designer visual. E logo após, procedermos a algumas etapas:
1. Entender o contexto;
2. Escolher uma exibição apropriada;
3. Eliminar a desordem;
4. Concentrar a atenção no que desejamos;
5. Pensar como um designer;
6. Contar uma história.
O contexto se refere à compreensão de quem é o público e o que precisamos que ele saiba ou
faça. Precisamos desvendar a situação, o público, o mecanismo de comunicação e o tom necessário.
A compreensão deve ser robusta para reduzir as iterações no caminho antes da criação do conteúdo
visual.
Escolha do visual eficaz é buscar o uso apropriado de cada ilustração por meio de exemplos do
mundo real. A ilustração pode ser um texto simples, uma tabela, um mapa de calor, um gráfico de
linha, um gráfico de barra vertical, um gráfico de barra vertical empilhado, um gráfico em cascata, um
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 19/22
gráfico de barra horizontal, um gráfico de barra horizontal empilhado ou um gráfico de área
quadrada. E por favor, evitemos gráficos de pizza, rosca e principalmente 3D. Eles não são os
melhores modelos para visualização de dados, pois confundem por vezes o público atendido.
Cada elemento que adicionamos em nosso Dashboard representa mais um elemento que
aumenta a carga cognitiva. Identificar e eliminar desordem vem de encontro com os princípios da
Gestalt para percepção visual. Alinhamento, branco, espaço, contraste e componentes importantes
fazem parte de um design inteligente.
A visão e a memória das pessoas atuam para enfatizar a importância dos atributos pré-
atencionais, como tamanho, cor e posição na página. Precisamos direcionar estrategicamente a
atenção do nosso público para o local que desejamos, a fim de comunicarmos da maneira que
desejamos que eles processem a informação. A cor como ferramenta estratégica também é um
conceito importante nesse momento.
Pensarmos como um designer é tratarmos da forma e função de nossas visualizações de dados.
Primeiramente pensamos sobre o que queremos que nosso público seja capaz de fazer com os
dados (função) e criamos uma visualização (forma). Devemos explorar possibilidades, acessibilidade e
estética, recorrendo a uma série de conceitos vistos até aqui. Cores, espessura das linhas, tamanho
relativo, alinhamento e posicionamento dos componentes visuais para o uso eficaz de palavras para
título, rótulo e anotações são imprescindíveis.A Figura 8 esboça o Storytelling da construção de um
BI apenas como uma ilustração da ideia sobre Storytelling.
Figura 8 – Storytelling da construção de um BI – Contraste da arte com a ciência
Crédito: Visual Generation/Shutterstock.
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 20/22
Histórias ressoam e ficam em nossa mente, porém dados não. Precisamos aprender os conceitos
de narrativa para comunicação dos dados. Toda história tem um começo, meio e fim bem definidos.
Devemos cobrir estratégias para uma narrativa eficaz, incluindo o poder da repetição, fluxo narrativo,
considerações com narrativas faladas e escritas e várias táticas que garantam a qualidade do trabalho
e seja uma comunicação clara.
A visualização de dados e a comunicação dos dados convivem na interseção entre a ciência e a
arte. Há componentes científicos importantíssimos para a construção das imagens, porém deve haver
um componente artístico para abrir o caminho do entendimento do público.
FINALIZANDO
Daqui até os próximos 10 anos a área de Big Data aliada a todos os outros segmentos da
computação buscarão mais e mais profissionais para conseguirem colocar seus projetos e
implementações para funcionamento. A competitividade global faz com que as empresas busquem
cada vez mais sofisticação em seus sistemas computacionais buscando maior agilidade diante do
volume de dados que se agigantam em seus repositórios de dados estruturados e não estruturados.
Para tanto, há de se melhorar em muito nossos Data Warehouses, nossas conexões entre
sistemas legados e Big Data, bem como gerar insights e conhecimento dentro de uma capacidade de
decisão a poucos cliques dos executivos das empresas. Essa capacidade deverá levar a empresa a
inovações disruptivas escalares.
A IoT com seus sensores, os sistemas transacionais, os dados não estruturados circulando na
web, entre outras fontes, geram a cada segundo milhares de novos dados. Mas dados não auxiliam
nas decisões; auxiliam apenas na construção dos repositórios. A proposta de Big Data, aliada à
inteligência artificial, é que faz com que os repositórios fiquem abastecidos de conhecimento para
tomada de decisões.
O sucesso dos projetos de Big Data, além de todo o corpo técnico de profissionais envolvidos,
necessita priorizar um método de trabalho com processos bem definidos. Um pouco diferente do
projeto de desenvolvimento de aplicativos e sistemas mais simples, o início do processo dá-se por
meio da descoberta de dados, seguido pela preparação destes, com um bom plano de modelo.
Somente após validadas essas três etapas é que de fato passa-se para construção do modelo, com
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 21/22
uma comunicação e operacionalização adequadas que façam valer todo o esforço das fases
anteriores.
Apesar de todas as ferramentas, técnicas e métodos aplicados nas fases iniciais exigirem
profissionais altamente qualificados, a visualização dos dados não é o momento menos importante.
Pelo contrário, é o momento no qual cientistas e engenheiros envolvidos no processo precisam
contar uma história da preciosidade de tais conhecimentos que conseguiram gerar. Serão não apenas
lindos Dashboards com KPIs sinalizando uma ideia, mas literalmente uma contação da história de
como se chegou a essas informações incríveis.
REFERÊNCIAS
DIETRICH, D. et al. Data science and big data analytics: discovering, analyzing, visualizing and
presenting data. Boston, EUA: O’Reilly Media, Inc. EMC Education, 2015.
IDC. Disponível em: <https://www.idc.com/>. Acesso em: 5 mar. 2021
ISAACSON, C. Understanding Big Data scalability. Boston, USA: Prentice Hall Pearson
Education, Inc.; O’Reilly Media, Inc., 2015. Big data Scalability Series, Part I.
JULIO, P. Big Data with not only SQL. Data Integration Solutions Review, 26 jun. 2010.
Disponível em: <https://solutionsreview.com/data-integration/hello-world/>. Acesso em: 5 mar. 2021.
KNAFLIC, C. N. Storytelling with data: a data visualization guide for business professionals. New
Jersey: John Wiley & Sons, Inc. Hoboken, 2015.
SHARDA, R. et al. Business Intelligence: análise de dados para gestão do negócio. Porto Alegre:
Bookman, 2019.
05/05/2022 16:18 UNINTER
https://univirtus.uninter.com/ava/web/roa/ 22/22

Outros materiais