Introdução ao Big Data

Conteúdos escolhidos para você

2 pág.

Desafio - Introdução a Big Data

FAMEESP

3 pág.

Perguntas dessa disciplina

O Data Warehouse é uma solução que permite a consolidação de grandes volumes de dados de diferentes fontes, fornecendo uma visão integrada para aná...

UNIFACVESTEAD

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

UAM

O Big Data pode ser empregado em várias rotinas de um negócio. No entanto, para que seu uso seja aprimorado, é necessário ter não só o conhecimento...

FSJT

O texto "Alfabetização em Dados", de Carol Andrade, propõe uma redefinição do que significa estar preparado para a "Era dos Dados", utilizando metáfor

riginalmente, a estatística surgiu como uma ferramenta para os governantes administrarem seus Estados, coletando dados sobre população e recursos para

Material

Conteúdos escolhidos para você

2 pág.

Desafio - Introdução a Big Data

FAMEESP

3 pág.

Perguntas dessa disciplina

O Data Warehouse é uma solução que permite a consolidação de grandes volumes de dados de diferentes fontes, fornecendo uma visão integrada para aná...

UNIFACVESTEAD

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

UAM

O Big Data pode ser empregado em várias rotinas de um negócio. No entanto, para que seu uso seja aprimorado, é necessário ter não só o conhecimento...

FSJT

O texto "Alfabetização em Dados", de Carol Andrade, propõe uma redefinição do que significa estar preparado para a "Era dos Dados", utilizando metáfor

riginalmente, a estatística surgiu como uma ferramenta para os governantes administrarem seus Estados, coletando dados sobre população e recursos para

Prévia do material em texto

INTRODUÇÃO AO MUNDO BIG DATA E CIÊNCIA DE DADOS
1

SUMÁRIO

NOSSA HISTÓRIA ..................................................................................................... 2
1. INTRODUÇÃO ..................................................................................................... 3
1.1 Fontes de geração de dados ..................................................................................................... 4
1.2 Dados são o novo petróleo ....................................................................................................... 5
1.3 Dark data (dados escuros) ........................................................................................................ 6
1.4 Geração de dados ..................................................................................................................... 6
1.5 Dimensionamento dos dados ................................................................................................... 7
1.6 Impactos e oportunidades do uso de Big Data .......................................................................... 9
1.6.1 Exemplos da eficiência do uso da Big Data ........................................................................10
1.7 Projeto e etapas em Big Data...................................................................................................11
1. CAPTURANDO E ARMAZENANDO OS DADOS.............................................. 13
2.1 Formas de obtenção dos dados ...............................................................................................13
2.1.1 Dados internos .................................................................................................................14
2.1.2 Dados da web ...................................................................................................................15
2.2 Classificação dos dados ...........................................................................................................17
2.2.1 Dados estruturados ..........................................................................................................17
2.2.2 Dados semiestruturados ...................................................................................................18
2.2.3 Dados não estruturados....................................................................................................18
2.2.4 Dados em movimento ......................................................................................................18
2.2.5 Dados em repouso ............................................................................................................18
2.3 Os V’s do Big Data ...................................................................................................................19
2.3.1 Volume .............................................................................................................................19
2.3.2 Velocidade ........................................................................................................................19
2.3.3 Variedade .........................................................................................................................20
2.3.4 Veracidade .......................................................................................................................20
2.3.5 Valor.................................................................................................................................21
2.4 Estratégia de Big Data nas empresas .......................................................................................21
2. INTRODUÇÃO A CIÊNCIA DE DADOS ............................................................ 24
3.1 Etapas da Ciência de Dados .....................................................................................................25
3.2 Kaggle .....................................................................................................................................25
3.3 O profissional Data Scientist ....................................................................................................26
3.4 Considerações Finais ...............................................................................................................27
Referências .............................................................................................................. 29
2

NOSSA HISTÓRIA

A nossa história inicia com a realização do sonho de um grupo de empresários, em
atender à crescente demanda de alunos para cursos de Graduação e Pós-Graduação. Com
isso foi criado a nossa instituição, como entidade oferecendo serviços educacionais em nível
superior.
A instituição tem por objetivo formar diplomados nas diferentes áreas de
conhecimento, aptos para a inserção em setores profissionais e para a participação no
desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua. Além de
promover a divulgação de conhecimentos culturais, científicos e técnicos que constituem
patrimônio da humanidade e comunicar o saber através do ensino, de publicação ou outras
normas de comunicação.
A nossa missão é oferecer qualidade em conhecimento e cultura de forma confiável e
eficiente para que o aluno tenha oportunidade de construir uma base profissional e ética.
Dessa forma, conquistando o espaço de uma das instituições modelo no país na oferta de
cursos, primando sempre pela inovação tecnológica, excelência no atendimento e valor do
serviço oferecido.

1. INTRODUÇÃO

Acredito que não importa qual seja sua profissão, seu cargo e as pessoas com
quem você conversa, você possivelmente já deve ter ouvido falar em algum momento
nessa expressão tão popular atualmente: Big Data. Essa minha premissa ocorre pelo
fato de que não é preciso muito esforço para encontrarmos uma notícia referente a
esse termo nos dias atuais.
Seja em sites, jornais ou revistas das áreas de astronomia, biologia,
educação, economia, política ou até culinária, podemos encontrar alguma publicação
que relate o potencial e as características de Big Data. De fato, Big Data tem sido alvo
de muita atenção no mundo dos negócios, no governo e no meio acadêmico.
Big Data atrai a curiosidade. Representa dados em grandes quantidades, em
uma dimensão não imaginada alguns anos atrás, e que um dia poderiam vir a ser
armazenados e processados por computadores a um baixo custo.
O termo surgiu para se referir às aplicações de computadores que utilizam
grandes volumes de dados em diferentes formatos, que podem ser agrupados, lidos,
convertidos, analisados com técnicas estatísticas, matemáticas e computacionais,
gerando um novo tipo de conhecimento chamado de “Data Insight”, algo conclusivo e
ainda nunca pensado sobre os dados originais.
A geração de insights a partir dos dados, pode resultar tanto na decisão de
uma mudança brusca na orientação de um negócio, quanto na criação de um novo
produto, chamado de “Data-Driven Product” (Produto Orientado a Dados) que podem
revolucionar a empresa e os seus negócios.
Na verdade, hoje estamos conectados digitalmente desde que acordamos até
a hora de dormir, absorvendo um volume muito grande de conteúdo e também
gerando muito conteúdo. Este fenômeno acontece no nosso dia a dia, seja em casa
ou no trabalho. Aliás, esta é outra transformação. Fica cada vez mais difícil separar o
“em casa” de “no trabalho”. A computação está se tornando tão ubíqua que fica
praticamente impossível separar o mundo físico do digital. Nos anos 90 (e isso tem
menos de vinte anos) apenas os setores digitalizáveis como a música e a mídia
tornaram-se digitais. No início dos anos 2000 o mundo físico se aproximou mais da
digitalização com o comércio eletrônico e o Internet Banking. Hoje estamos
4

começando aver claros sinais da hiper conectividade, com cloud computing, a
revolução da mobilidade e a Internet das Coisas permeando nossa sociedade. Nossos
hábitos como pessoas conectadas, tornam-se hábitos como consumidores (checamos
preços e avaliações antes de qualquer compra) e tornam-se também hábitos como
funcionários (por que sou impedido de me conectar com os meus amigos via
Facebook no escritório?).
Podemos encontrar casos de uso em que Big Data permitiu a redução do
número de fraudes, aumento de lucros, conquista de eleitores, redução de custos na
produção, eficiência energética, aumento de segurança, entre outros benefícios tão
almejados em diversos domínios. Muito embora o interesse esteja em alta, Big Data
ainda é um termo incipiente, gerando incertezas sobre sua definição, características,
aplicabilidade e desafios.
Quais dados fazem parte do contexto de Big Data? Qual a definição desse
conceito? Como obter dados de diferentes fontes? Como extrair valor a partir dos
dados? Qual a infraestrutura necessária para criar uma solução de Big Data? Quais
habilidades são necessárias para se atuar com Big Data?
Enfim, estas e outras questões serão respondidas nessa apostila.

1.1 Fontes de geração de dados
Os dados gerados para Big Data provêm de três fontes: Pessoas, Máquinas,
Empresas.
 Pessoas
Geram dados a partir de Redes Sociais (Facebook, Twitter, Instagram,
LinkedIn), e-mails, uso de Internet, geração de documentos, publicação de blogs, etc.
 Maquinas
Geram dados a partir de sensores, satélites, arquivos de logs, câmeras,
máquinas de sequenciamento genético, telescópios espaciais, sondas, etc.

Highlight
5

 Empresas
Geram dados a partir de transações comerciais, cartões de crédito, sistemas
de controles administrativos e financeiros, comércio eletrônico, registros médicos,
vendas de produtos, pesquisa de novas tecnologias, etc.

Figura 1.1 – Geração de dados
1.2 Dados são o novo petróleo
A frase “Data is the new oil” surgiu em 2006 e desde então vem sendo utilizada
com frequência em publicações importantes, citadas por CEOs e líderes mundiais da
Fortune 500, para se referir à importância do dado e da informação nesta era do Big
Data.
Trata-se de uma Analogia, pois da mesma forma que há um século atrás, as
empresas que conseguiram explorar Petróleo, acumularam vasta riqueza,
estabeleceram monopólios e construíram a base da economia, hoje, as empresas
“data-driven” como a Google, Facebook, Uber, Amazon, Yahoo, entre outras estariam
fazendo o mesmo com a nossa economia.
Vivemos em uma economia digital, onde os dados são muito valiosos. É a
chave para a boa funcionalidade do mundo, desde governos até empresa. Sem eles
o progresso do mundo seria interrompido. Dados são o combustível que direciona a
economia, e provavelmente estamos passando a viver na chamada “Data Economy”
(Economia de Dados).
Highlight
6

1.3 Dark data (dados escuros)
Estima-se que para 2030 mais de 90% dos dados serão não estruturados e
esta explosão de dados, vai superar a capacidade humana em utilizá-los. Dark Data
ou Dados Escuros, são dados adquiridos através de várias operações pelas empresas
e não utilizados para fins de análise. Pode-se decidir manter estes dados para uso
futuro, com custos adicionais de armazenamento ou descartá-los por considerá-los
sem utilidade.
O acelerador de partículas atômicas (Large Hadron Collider) da Organização
Europeia para a Pesquisa Nuclear, é o maior do mundo, gerando 25GB de dados por
segundo. A maior parte destes dados tem de ser descartada pois o volume é tão
grande que invalidaria seu armazenamento e tempo hábil para análise.

Figura 1.3 – Large Hadron Collider
Quando se tem geração de dados em alta velocidade, e não é possível
armazena-los totalmente, são utilizadas técnicas de amostragem, colhendo apenas
uma fração dos dados mais representativos que não comprometem a análise.
1.4 Geração de dados
Big Data se tornou viável combinando grandes volumes de dados, associados
ao baixo custo das tecnologias de hardware, software e computação de nuvem, e a
Highlight
7

necessidade das empresas gerarem novos conhecimentos, ou “insights” para
garantirem a sobrevivência.
Mas, quem gera mais dados? Empresas, Pessoas ou Máquinas? Máquinas
geram mais dados. Geram 100 vezes mais dados que as empresas e 10 vezes mais
dados que as pessoas.
Resumindo:
 Empresas = geram 1X
 Pessoas = geram 10X
 Máquinas = geram 100X
Enquanto dados gerados por humanos são aqueles oriundos do pensamento
de uma pessoa, podemos definir dados gerados por máquinas como dados digitais
produzidos por processos de computadores, aplicações e outros mecanismos, sem
necessitar explicitamente de intervenção humana.
Alguns exemplos de dados gerados por máquina são: sensores de todos os
tipos embutidos em equipamentos, sensores em máquinas em geral, clusters de
computadores, logs gerados dispositivos (computadores, smartphones, celulares, nós
de redes, roteadores), telemetria por satélites, chips RFID, Sistemas de GPS, software
que geram cálculos automáticos, sistemas de aprendizado de máquina, sistemas de
automação, Internet das Coisas (IoT), entre outros.
1.5 Dimensionamento dos dados
Se você tem um celular ou computador, deve ter noção da capacidade de
armazenamento. Um celular tem 16, 32, 64, 128GB ou mais, para armazenamento.
Um computador 4, 8, 16, 32 GB ou mais de memória RAM e discos de 250, 500 GB,
1TB ou mais
. Se o seu celular tem 64GB de espaço, equivale a dizer que podem ser
armazenados 64 x 1.073.741.824 Bytes ou Caracteres. Medidas de dados são
escalonadas utilizando como base numérica o sistema binário (base 2) dos
computadores. Assim, 2ˆ10 (dois elevados à potência 10) equivale a 1.024 Bytes.
Vamos conhecer estas medidas, para adquirir uma noção do volume de dados
gerados em Big Data. Unidades de Medidas de Dados e Valores.
Highlight
8

1 Byte = 1 Caractere ou 8 bits
1 kilobyte (KB) = 1024 bytes
1 MegaByte (MB) = 1024 KiloBytes
1 GigaByte (GB) = 1024 MegaBytes
1 TeraByte (TB) = 1024 GigaBytes
1 PetaByte (PB) = 1024 TeraBytes
1 ExaByte (EB) = 1024 PetaBytes
1 ZettaByte (ZB) = 1024 ExaBytes
1 YottaByte (YB) = 1024 ZetaBytes

Você utiliza medidas diariamente, como quilos para peso, metros ou
quilômetros para distância, e ao longo do tempo vai se adaptar naturalmente à estas
medidas de dados. Medir dados é sempre um processo assustador, pois vamos
perceber que o volume aumenta exponencialmente e nossos dispositivos não estão
preparados para todo este armazenamento, sendo necessário recorrer para as
tecnologias de nuvem que fornecem armazenamento quase ilimitado ao que
precisamos.
Uma foto de boa resolução tem em média 5MB (milhões de bytes). Se tirar 100
fotos, vai precisar de um espaço de 500 MB para armazena-las. Pen drives
armazenam em média de 32 a 256 GB e podem ser úteis. Se precisar, utilize
gratuitamente em nuvem o Google Fotos com 30 GB.
Quando falamos em Big Data, as unidades de medida começam na casa dos
TeraBytes e PetaBytes de dados e não mais na casa dos KB, MB ou GB que estamos
acostumados.

Highlight
Highlight
9

1.6 Impactos e oportunidades do uso de Big Data
Os exemplos apresentados nos mostram a diversidade de dados que existe
atualmente. São dados de diferentes formatos, gerados em períodos e locais
diferentes e por diferentes agentes. Mas uma vez que esses dados existem, o que
podemos fazer com eles? Eis a grande questão.
Por exemplo, o que um registro de log pode fornecer de informação para meu
e-commerce? O que posso fazer com os dados coletados de redes de sensores? O
que as opiniões das redes sociais podem me fornecer de valioso? São empresas
capazes de responder essas questões que estão potencializando seu negócio a partir
de Big Data.
Mas será que precisocapturar todos esses dados para obter oportunidades
com as tecnologias de Big Data? A resposta é não.
Muitas empresas já possuem quantidades significativas de dados e não as
utilizam para obtenção de valor. Isso pode ocorrer por diversos aspectos em relação
à manipulação dos dados. Por exemplo, oportunidades podem ser desperdiçadas pelo
fato de que:
 Os dados não estão integrados. — Eles já são gerados pela empresa,
mas por serem armazenados em diferentes sistemas e bases, não
fornecem uma visão ampliada da solução de um problema.
 Os dados demoram para ser analisados. — Nesse caso, gasta-se muito
tempo no processo de análise dos dados, o que impede a identificação
de informações no momento adequado.
 Os dados não estão categorizados. — São casos em que os registros
dos conjuntos de dados estão armazenados de diferentes maneiras,
CURIOSIDADE
O Google é a maior empresa de Big Data do mundo, processando
3,5 bilhões de solicitações diárias, gerando e armazenando 10
ExaByte de dados.

Highlight
Highlight
Highlight
10

sem uma padronização dos campos, impedindo a identificação de
anomalias e categorias existentes nos dados.
 Os dados estão obscuros. — Casos em que só é possível obter
informações a partir da análise de outros dados, como a identificação de
padrões em streaming de vídeos, extração de informações em imagens
e dados manuscritos.
 Os dados não são usados na tomada de decisão. — São os que
poderiam ser utilizados no processo de apoio à tomada de decisão, mas
por não serem integrantes dos dados tradicionais da empresa, são
descartados desse processo.
 Os dados não são visualizados com clareza. — São situações nas quais
os dados já são armazenados, porém não são analisados e
apresentados de maneira efetiva para gerar percepções sobre eles.
 Os dados não são medidos. — Refere-se a casos nos quais não se
utilizam as métricas que os dados podem fornecer para a compreensão
de um fato, até então, imperceptível.
Perceba que muitas empresas já têm a possibilidade de aperfeiçoar a utilização
de seus dados, mas não conseguem por fatores como os descritos anteriormente.
Medidas como a adoção de novas tecnologias ou uma nova forma de organização
dos dados podem trazer grandes transformações em relação à utilização de dados
para extração de valor.

1.6.1 Exemplos da eficiência do uso da Big Data

Um exemplo é o que ocorreu com uma sede da Microsoft que possuía mais de
mil funcionários. Com foco em traçar um plano de eficiência energética dentro da sede,
a empresa possuía mais de 30 mil sensores gerando dados a todo instante sobre o
consumo de energia.
O problema é que esses dados estavam espalhados em diversos sistemas da
empresa, impedindo que ela tivesse uma visão ampla do consumo energético. Com a
integração dos dados em um sistema único de eficiência energética, a empresa
conseguiu identificar, entre outras análises, salas que consumiam energia sem ter a
necessidade.
Highlight
Highlight
Highlight
Highlight
Highlight
11

Como resultado, essa integração evitou um gasto de 60 milhões de dólares
com investimento em tecnologias de eficiência energética. Perceba que, nesse caso,
a empresa já gerava os dados necessários, o problema estava no modo com que eles
estavam organizados.
Outro exemplo é o da Pirelli, empresa multinacional do setor de produção de
pneus. Essa empresa estava tendo problemas para entregar seus produtos aos
milhares de clientes no tempo correto, sem que houvesse atraso nos pedidos.
Um dos fatores que ocasionavam esses atrasos era a demora para a geração
dos relatórios, impedindo os analistas de terem uma visão atualizada da situação do
estoque e dos pedidos de vendas. A solução nesse caso foi utilizar uma tecnologia de
Big Data que agilizasse o processo de geração de relatórios para os analistas.
Com essa medida, utilizando uma tecnologia de processamento em memória,
relatórios que demoravam um dia inteiro para serem atualizados passaram a ser
gerados em 10 minutos. Essa otimização fez com que a empresa tivesse menos
desperdício em sua produção, entregasse os produtos de acordo com o prazo e
otimizasse o processo de entrega. Perceba que a empresa já analisava os dados
obtidos, mas ela aumentou o valor dos dados agilizando o processo de análise. Esses
casos denotam como os dados podem gerar diferentes oportunidades, dependendo
da maneira com que são usados.
1.7 Projeto e etapas em Big Data
Os exemplos apresentados demonstram diferentes formas de como Big Data
pode ser utilizado. Entretanto, projetar uma solução não é uma tarefa simples,
existindo diversos percalços no decorrer de seu desenvolvimento.
Para que se possa chegar à etapa final de um projeto de Big Data, existe um
conjunto de etapas que deverão ser executadas. De forma resumida, descrevo uma
sequência de passos existentes nesses projetos.

1. O primeiro passo a ser feito (e que muitas vezes ainda é descartado) é
identificar quais perguntas se deseja responder com os dados. É nesse
momento que deve ser determinado quais informações pretende-se
12

extrair de um conjunto de dados. Essa tarefa não é fácil. Necessita de
pessoas com pensamento analítico, capazes de identificar possíveis
análises sobre diferentes dados. Quanto mais claras forem as
respostas obtidas nessa fase, mais fácil se torna a execução das fases
seguintes.

2. O próximo passo refere-se a captura e armazenamento dos dados.
Devemos então identificar quais fontes serão utilizadas e como os
dados serão capturados. Para isso, torna-se necessário identificar a
solução adequada para armazenar cada tipo de dado. É nessa fase
que identificamos a ordem com que os dados serão usa- dos, definimos
quais campos serão utilizados e quais informações devem ser tratadas.

3. Estando os dados armazenados, passamos para a fase de
processamento e análise. Tecnologias de Big Data são cruciais nessa
fase, para oferecer escalabilidade e desempenho para a aplicação. É
nessa fase também que se determina qual algoritmo de análise de
dados será usado. Inserem-se aqui os mecanismos de aprendizado de
máquina, métodos estatísticos, fundamentos matemáticos e mineração
de dados.

4. Por fim, Big Data também inclui a etapa de visualização de dados, em
que são utilizadas técnicas de criação de gráficos dinâmicos e
interativos. Essa etapa pode também ser usada em conjunto com a
fase de análise de dados, para facilitar o processo de descoberta dos
dados.

1. CAPTURANDO E ARMAZENANDO OS DADOS

Após ter identificado o foco do projeto de Big Data e definido as respostas que
deseja obter por meio de dados, você pode dar início à identificação de quais dados
deverão ser capturados. Esses dados já existem ou ainda precisam ser gerados? São
internos ou externos? Em qual formato eles estão?
Essa série de perguntas é necessária para dar início a uma das fases iniciais
do projeto: a captura dos dados. Aliado a essa etapa, deve ser traçada uma estratégia
para definir como os dados capturados serão armazenados. O que é necessário para
armazenar dados em grande volume, variedade e em alta velocidade? Será que o
banco de dados relacional é a melhor opção? Caso não seja, quais são as outras
opções?
2.1 Formas de obtenção dos dados
Para facilitar nossa compreensão sobre as etapas de captura e
armazenamento de dados, vamos utilizar como exemplo um projeto de Big Data para
uma empresa da área de varejo, que aqui chamaremos de Big Compras. Pensando
em oferecer uma melhor experiência aos seus milhares de clientes, os executivos da
Big Compras desenvolveram um aplicativo com as seguintes funcionalidades:
 Permitir a pesquisa e compra das centenas de produtos da empresa;
 Permitir que o cliente avalie um produto e verifique os comentários de
outros clientes;
 Permitir que o cliente compartilheas informações de produtos e listas
de compras nas redes sociais.
Poucos meses após o lançamento, o aplicativo se tornou um sucesso, atingindo
a marca de 1 milhão de usuários. Com esse crescimento, a empresa percebeu que o
aplicativo já não estava suportando a quantidade de acessos, gerando a insatisfação
dos usuários com as ocorrências de queda de serviço e lentidão de processamento.
Além disso, o volume de dados gerado durante as interações dos usuários com
o aplicativo foi crescendo exponencialmente. Entretanto, a empresa não sabia ao
certo o que fazer com os dados coletados.
14

Para resolver essas questões, ela contratou uma equipe de profissionais com
a missão de aperfeiçoar o desempenho do aplicativo e entender quais dados eram
relevantes para a empresa e como eles poderiam ser usados como vantagem
competitiva. Como será que essa equipe poderia resolver esses problemas?
Para compreendermos os desafios da Big Compras, identificaremos as
estratégias de captura de dados que podem ser adotadas em um projeto de Big Data.
O objetivo é apresentar como cada tipo de dado requer uma estratégia diferente para
ser utilizado no projeto.

2.1.1 Dados internos

A primeira abordagem da equipe contratada pela Big Compras foi
investigar quais eram os dados internos da empresa. Podemos definir dados internos
como sendo aqueles dos quais a empresa é dona e possui controle. Ou seja, a equipe
estava interessada em descobrir quais dados já eram gerados e controlados pela
empresa, antes de buscar soluções que envolviam a aquisição de novas fontes de
dados.
Após uma extensa investigação, os membros da equipe chegaram à
surpreendente lista de conjuntos de dados:

 Dados de sistemas de gerenciamento da empresa: sistemas de
gerenciamento de projetos, automação de marketing, sistema CRM
(Customer Relationship Management), sistema ERP (Enterprise
Resource Planning), sistema de gerenciamento de conteúdo, dados do
departamento de recursos humanos, sistemas de gerenciamento de
talentos, procurações, dados da intranet e do portal da empresa.
 Arquivos: documentos escaneados, formulários de seguros,
correspondências, notas fiscais, arquivos sobre relação da empresa
com seus clientes.
 Documentos gerados por colaboradores: planilhas em formato XML,
relatórios em formato PDF, dados em formato CSV e JSON, e-mails,
documentos em formato Word, apresentações em formato PPT,
páginas Web em formato HTML e XML.
15

 Sensores: dados de medidores inteligentes, sensores de carros,
câmeras de vigilância, sensores do escritório, maquinários, aparelhos
de ar condicionado, caminhões e cargas.
 Registros de logs: logs de eventos, dados de servidores, logs de
aplicação, logs para auditoria, localização móvel, logs sobre uso de
aplicativos móveis e logs da Web.

Uau, quantos dados já são coletados pela Big Compras. Perceba que, somente
com dados internos, as empresas em geral já possuem uma diversidade de dados a
serem explorados.
Dessa forma, uma recomendação feita às empresas que pretendem iniciar sua
jornada em Big Data é identificar formas de organizar, analisar e utilizar seus dados
internos para melhoria dos negócios. Além de esses dados serem mais fáceis de
serem adquiridos do que os externos, eles podem revelar informações importantes
para as decisões da empresa.

2.1.2 Dados da web

Continuando a investigação sobre os dados que poderiam ser usados pela Big
Compras, a equipe identificou dados da Web que poderiam ser coletados de fontes
externas, com o propósito de verificar quais poderiam ser relevantes no projeto de Big
Data. O resultado dessa investigação chegou à seguinte lista:

 Dados de domínio público: dados disponibilizados pelo governo, dados
sobre o clima, tráfego e regulamentações, dados econômicos, dados do
censo, de finanças públicas, legislação, comércio exterior e Wikipédia.
 Dados de sites de terceiros: imagens, vídeos, áudios, podcasts, textos
de comentários e revisões em sites da Web.
 Mídias sociais online: Twitter, LinkedIn, Facebook, Tumblr, SlideShare,
YouTube, Google+, Instagram, Flickr, Pinterest, Vimeo, Wordpress,
RSS, Yammer, entre outras.

Nesses tipos de dados, não somente o volume e a velocidade, mas também a
variedade de dados disponíveis torna sua captura, armazenamento e análise um
desafio. No caso da Big Compras, foi identificado que, uma vez que os clientes
compartilhavam informações de seus produtos nas mídias sociais online, seria
importante analisar esses dados para descobrir se a empresa estava sendo bem ou
mal avaliada pelos seus serviços.
A partir dessa estratégia, seria possível identificar quais aspectos eram mais
comentados e também gerar novas interações com os clientes por diferentes canais.
Para isso, a equipe precisou desenvolver uma técnica para obter esses dados. Mas
como capturar esses dados?
A principal forma de captura de dados de mídias sociais online é por meio de
uma API (do inglês Application Programming Interface), que podemos definir como
um conjunto de instruções e padrões de programação, para que os usuários tenham
acesso aos dados de um aplicativo ou plataforma. As mídias sociais online (como o
Facebook, Twitter e YouTube) disponibilizam APIs para que usuários interajam com
os dados que circulam dentro de suas redes, seja capturando-os ou inserindo novos.
A lista a seguir apresenta links para o acesso à documentação de APIs de
algumas mídias sociais online:
 Facebook — https://developers.facebook.com/
 Flickr — https://www.flickr.com/services/api/
 Instagram — https://www.instagram.com/developer/
 LinkedIn — https://developer.linkedin.com/
 Pinterest — https://developers.pinterest.com/
 Twitter — https://dev.twitter.com/
 YouTube — https://developers.google.com/youtube/

Utilizando a API do Twitter, por exemplo, um desenvolvedor pode fazer
requisições ao servidor da rede e obter uma lista de mensagens postadas que fazem
menção a uma determinada palavra. No caso da Big Compras, por exemplo, a equipe
poderia utilizar a API do Twitter para capturar o fluxo de mensagens que contém a
hashtag #BigCompras.
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
17

Uma das maneiras que muitas mídias sociais estão fornecendo acesso às suas
APIs é por meio do protocolo REST (REpresentational State Transfer). Esse protocolo
oferece um estilo que facilita a comunicação entre aplicações Web. O Twitter, por
exemplo, oferece uma API que permite ao usuário fazer declarações REST e obter o
retorno das declarações em formato JSON.
2.2 Classificação dos dados
Aplicações tradicionais de computadores utilizam dados estruturados, tabelas
com linhas, colunas e campos bem definidos para processamento. Os dados na era
do Big Data, originam-se de diversos locais, com diferentes tipos e formatos, o que
torna complexa a sua manipulação.
Organizamos os dados em 3 tipos:
 Estruturados
 Semiestruturados
 Não estruturados
As aplicações de Big Data visam realizar a análise dos dados provenientes de
diferentes locais e de diferentes tipos.
Em uma aplicação, podemos pensar em dados misturados, uma parte vinda de
um Banco de Dados estruturado, outra de um Satélite em formato GIS, outra de
arquivos como Word e Excel, outra das Redes Sociais, outra parte de sensores de
máquinas.
De uma mistura como essa, vamos produzir “Insights”, que nos conduzirão à
solução de problemas, à resposta de uma pergunta, ou quem sabe à criação de um
novo produto empresarial (chamado de produto de dados).
2.2.1 Dados estruturados
São organizados em linhas e colunas, em formato de tabela, e são encontrados
em banco de dados relacionais, sendo muito eficientes quanto à recuperação e
processamento. Planilhas eletrônicas e SQL (linguagem dos Bancos de Dados) sãopróprios para acesso e manipulação destes dados.
Highlight
Highlight
18

2.2.2 Dados semiestruturados
São dados com organização diferenciada, normalmente provenientes da Web
nos formatos XMLe JSON, que precisam de uma prévia análise dos dados para
identificação de sua estrutura.

2.2.3 Dados não estruturados

São dados de vídeo, áudio, e-mails, documentos de textos em geral (posts,
blogs) e dados gerados por aplicativos de redes sociais como mensagens do
WhatsApp por exemplo. Estes dados requerem um pré-processamento para análise.
Dados podem estar em movimento ou em repouso.

2.2.4 Dados em movimento

Dados em Movimento referem-se a dados de “stream”, em trânsito, se movendo
através da rede, de um lado para outro, de um nó para outro. Por exemplo, o termo
“live streaming” se refere às transmissões de vídeo via Internet e ao vivo. Eles são
parte importante de Big Data, com processamento e análise em tempo real, à medida
que estão sendo capturados.
É mais difícil processar estes dados, pois têm custo maior, mas devido a sua
importância, e se usados corretamente, podem colaborar para a empresa obter
conhecimentos valiosos em tempo real para a solução de problemas. O processo de
proteção contra roubo dos dados em movimento é chamado de “Criptografia”.

2.2.5 Dados em repouso

Dados em Repouso estão armazenados em um destino estável, não estão em
uso e nem viajando para outros destinos. Uma vez que atingiram o seu destino, são
armazenados, e recebem camadas de segurança adicionais como criptografia e
proteção por senha.
Highlight
19

São dados bem protegidos, como os armazenados em Armazéns de Dados,
que possuem segurança utilizando estruturas de permissão de acesso para os
usuários. Estes dados são “ativos” muito importantes, pois além de contar a história
da empresa, fornecem a base para a sua operação e existência.
2.3 Os V’s do Big Data
Para uma aplicação ser considerada de Big Data, é preciso que esteja de
acordo com algumas características chamadas de V’s do Big Data.
Entre elas, as cinco mais famosas, são: Volume, Velocidade, Variedade,
Veracidade e Valor.

2.3.1 Volume

O volume é o ponto de partida para entender o conceito de Big Data. A enorme
quantidade de dados gerados diariamente permite a análise das mais diversas
informações, desde cliques em sites, histórico de compra, avaliação de atendimento,
entre outros.
Esse fator também é determinante na questão do armazenamento de dados,
que com a expansão dos servidores e a possibilidade de disponibilizar informações
na nuvem vem se desenvolvendo cada vez mais.
Big Data é uma grande quantidade de dados gerada a cada segundo. Pense
em todos os e-mails, mensagens de Twitter, fotos e vídeos que circulam na rede a
cada instante. A tecnologia do Big Data serve exatamente para lidar com esse volume
de dados, guardando-os em diferentes localidades e juntando-os através de software.

2.3.2 Velocidade

Estamos falando em processamento em tempo real. Aquilo que acontece e
imediatamente pode ser visualizado. Você envia um e-mail, e o destinatário recebe
imediatamente, monitora um paciente, e visualiza gráficos cardiológicos, consulta a
20

análise do tempo, e obtém previsões imediatas. Pense em velocidade na criação dos
dados, na transferência, armazenamento e análise.

2.3.3 Variedade

No passado, a maior parte dos dados era estruturada e podia ser colocada em
tabelas e relações. Hoje, 80% dos dados do mundo não se comportam dessa forma.
Variedade de dados, de diversos tipos, formatos e natureza podem ser agrupados,
para análise. Dados são complexos e heterogêneos, originados de diversas fontes em
diferentes formatos. Dados de Satélite, por exemplo, são diferentes dos que você gera
no Twitter, Facebook ou mesmo no Word quando escreve um texto.
O Big Data lida com dados estruturados, semiestruturados e não estruturados.
Essas informações aparecem sob a forma de vídeos, áudios, imagens, posts de redes
sociais, cookies de navegadores etc. É variedade que não acaba mais, e tudo é
devidamente destrinchado pela ferramenta.

2.3.4 Veracidade

Equivale à qualidade, autenticidade e validade do dado. Interessa a todos
garantir que os dados analisados sejam confiáveis e atuais.
A veracidade tem a ver com a procedência e a confiabilidade da informação
extraída e tratada. Também se relaciona ao contexto e à qualidade da análise. O
conhecimento sobre a veracidade dos dados ajuda as empresas a entender as
decisões e os riscos envolvidos, a partir de conjuntos específicos de elementos
analisados.

2.3.5 Valor

Criação de valor, equivale ao resultado final da análise, dos insights gerados.
Quais perguntas foram respondidas? O resultado foi bom para a empresa? Qual foi
de fato foi o valor acrescentado ao negócio?
O último V é o que torna Big Data relevante: tudo bem ter acesso a uma
quantidade massiva de informação a cada segundo, mas isso não adianta nada se
não puder gerar valor. É importante que empresas entrem no negócio do Big Data,
mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao
que se está fazendo.

Figura 2.3 – Os 5V’s do Big Data

2.4 Estratégia de Big Data nas empresas

É indiscutível que todos os executivos de alto nível, particularmente os CEOs,
devem ter uma visão do potencial do Big Data e desenhar uma estratégia adequada
para sua adoção. A falta de compreensão do que é Big Data e de seus potenciais e
limitações pode gerar riscos para o negócio. Um investimento excessivo em
22

tecnologias sem uma preparação para a empresa explorar seu potencial é jogar
dinheiro fora. Se forem extremamente conservadoras e esperarem que o mercado
esteja bem maduro antes de iniciar sua jornada de Big Data pode acarretar perda de
espaço no mercado. Em resumo, Big Data não pode em nenhuma hipótese ser
ignorado.
À medida que Big Data torna-se mais e mais importante para as empresas, seu
uso de forma inteligente e inovadora será uma ferramenta de vantagem competitiva
inestimável. Existem vários casos de sucesso no uso deste conceito e suas
tecnologias. Portanto, adotar Big Data está deixando de ser uma opção, para ser
compulsório nas empresas. A questão não é mais se vou ou não adotar Big Data, mas
quando e com que estratégia adotarei. Neste capítulo vamos debater um pouco mais
as questões ligadas às estratégias de adoção e uso de Big Data nas empresas.
Antes de mais nada é importante reconhecer que iniciativas de Big Data são
diferentes de muitas outras iniciativas de TI. Big Data impacta processos de negócio
(pode afetar o processo em tempo real), fontes de dados (começa-se a usar cada vez
mais fontes externas à organização), arquitetura de dados e sistemas, infraestrutura
e suporte tecnológico (novas tecnologias como bancos de dados NoSQL, por
exemplo), estrutura organizacional, e capacitação. Pode afetar de forma drástica a
corporação, inclusive mudando o mind set da tomada de decisões baseadas em
intuição para fatos.
Indiscutivelmente, a complexidade do mundo de negócios atual não permite
apenas decisões baseadas em intuição e experiência profissional. Elas continuam
valendo sem dúvida, mas devem ser emparelhadas às análises de fatos, muitas vezes
desconhecidos pelos executivos. Além do fato, é claro, que muitas decisões tomadas
sob extrema pressão nem sempre são as melhores. Um exemplo: uma grande
companhia global identificou gastos excessivos em viagens de seus funcionários. O
sistema de aprovação de viagens permitia requisitar a viagem e depois efetuar o
reembolso. Com pressão para reduzir custos, ao invés de uma decisão baseada em
fatos, como “que funcionários estão gastando em excesso e por quê?” optou-se por
criar mais um sistema. Assim, agora é necessária uma prévia autorização, que
dependendo dotipo de viagem poderia subir a escalões mais altos da corporação para
que fosse autorizada. O resultado foi uma diminuição nos gastos totais de viagem,
mas aumentaram muito os custos de cada viagem, pois perderam-se as promoções
23

de vôos comprados com antecedência e indiscutivelmente perderam-se muitas
oportunidades de estreitar relacionamentos com clientes. Uma análise apenas de
planilhas mostrou os ganhos tangíveis, mas não mostrou as perdas intangíveis.
Big Data tem uma abrangência muito maior que os projetos de BI que as
empresas estão acostumadas a desenvolver. BI concentra-se na análise de dados
gerados pelos sistemas transacionais enquanto Big Data vai além, explorando fontes
de dados externas como comentários e tuítes nas plataformas de mídia social e/ou
gerados por sensores e outras fontes geradoras de dados, como RFID acoplados em
embalagens e textos gerados a partir das conversas dos clientes com o call center. A
diferença é significativa.

2. INTRODUÇÃO A CIÊNCIA DE DADOS

Big Data são os métodos e técnicas para armazenagem, manipulação,
recuperação e utilização de dados em grandes volumes, baseados nos V’s (Volume,
Variedade, Velocidade, Veracidade e Valor).
Data Science ou Ciência de Dados, é o método científico por trás da análise
de dados, são as metodologias, as formas de avaliar este grande volume de dados,
aplicando conhecimentos de Estatística, Matemática e Computação, e obtendo
insights dos dados para responder perguntas empresariais ou científicas.
Big Data e Ciência de Dados estão intrinsicamente ligadas. Na prática, um
projeto de Big Data envolve etapas, e de uma maneira simples, podemos dizer que
são:
1. Identificar o problema
2. Adquirir os dados
3. Preparar os dados
4. Analisar os dados
5. Gerar relatórios e insights
6. Realizar ações práticas

As etapas 2 e 3 são etapas tratadas com as tecnologias de Big Data, e as
etapas 3, 4 e 5 são tratadas com as tecnologias de Ciência de Dados, que como
dissemos utilizam conhecimentos voltados para Estatística (definição de modelos),
Matemática (organização e estruturação dos dados) e Ciência da Computação (redes,
programação, ambiente computacional, software de análise, Aprendizado de
Máquina, etc.) e domínio do negócio, do problema que está sendo estudado.
Tudo começa por uma pergunta sobre os dados, uma dúvida, uma vontade de
identificar algo fora da curva, uma anomalia, algo que remeta a uma nova descoberta,
a um “insight”.

3.1 Etapas da Ciência de Dados

1. Formule as perguntas corretas - Procure identificar o problema e
descreva os ingredientes que o compõem para uma posterior análise
com Ciência de Dados.
2. Adquira os dados - Como vimos, os dados provêm de vários locais
(Armazéns de Dados, Redes Sociais, Documentos, etc.) estruturados ou
não, e devem ser capturados para análise.
3. Explore os dados - Explique a importância e descreva os dados.
Processe os dados, limpe e os transforme. Identifique os métodos para
realizar uma análise preliminar dos mesmos (correlações, anomalias,
visualização).
4. Análise dos Dados - Aplique técnicas de Análise de Dados, como
Classificação, Agrupamentos, Regressão, Associação, para identificar
as possibilidades. Escolha a melhor delas e construa o melhor modelo
para tentar responder as perguntas iniciais.
5. Relate o que encontrou - Forneça relatórios dos seus insights, identifique
a melhores técnicas de apresentação e de convencimento para
comunicar os resultados. Utilize os melhores softwares de visualização
e apresentação.
6. Transforme insights em ações - Conecte os resultados em ações
práticas de negócios, em resultados empresariais práticos. Se possível
crie um novo Produto de Dado para a sua empresa.
3.2 Kaggle
Um dos sites mais conhecidos da área de Ciência de Dados, é chamado de
Kaggle https://www.kaggle.com/ ele foi adquirido pela Google. Este é um bom lugar
para você avaliar problemas e soluções de Ciência de Dados.
Kaggle é um mercado para Análise de Dados e concursos de Ciência de Dados.
As empresas publicam suas perguntas e desafios, dizem o quanto podem pagar, e os
Cientistas de Dados do mundo todo competem para resolver problemas e produzir as
melhores respostas, obtendo prêmios em dinheiro.
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
26

Kaggle se tornou uma plataforma, um site completo sobre Ciência de Dados,
com datasets (conjuntos de dados) gratuitos, ferramentas, cursos, blog, enfim, tudo o
que é necessário para aprender sobre esta nova área. Você pode criar a sua conta e
participar também das competições ou se preparar para uma delas no futuro.

3.3 O profissional Data Scientist
Um artigo publicado na Harvard Business Review em outubro de 2012, chamou
a atenção do mundo. O título do artigo era “Data Scientist: The Sexiest Job of the 21st
Century” (Cientista de Dados: O Emprego mais Sexy do Século XXI).
Ele vinha assinado por Thomas H. Davenport do MIT e D. J. Patil, este último
cunhou o termo “Data Scientist” e se tornou no governo Obama o primeiro “US Chief
Data Scientist” oficialmente contratado.
Para saber mais visite o link https://hbr.org/2012/10/data-scientist-the-sexiest-
job-of-the-21st-century.
O valor de Big Data reside em desenvolver insights sobre dados, e insights
provêm de pessoas talentosas, capazes de fazer perguntas inteligentes, e respondê-
las utilizando Análise de Dados.
Neste cenário, surge o Data Scientist (Cientista de Dados) um novo
Profissional, ainda em desenvolvimento, que escolas e universidades têm dificuldades
em formar.
Em resumo, “data-driven companies”, são empresas que utilizam
eficientemente os dados, gerados por insights de profissionais chamados de “Data
Scientist”.
CURIOSIDADE
Neste link você encontra as competições que estão abertas e os
prêmios oferecidos.
https://www.kaggle.com/competitions
27

As habilidades de um Cientista de Dados envolvem conhecimentos de
Programação, Estatística, Matemática, Aprendizado de Máquina, Wrangling
(limpeza), Visualização, Comunicação, Engenharia de Software, entre outras, e talvez
a mais importante seja a que chamamos de “Intuição” para resolver problemas.
Considera-se ainda que deva ter o chamado “domain knowledge”, que é o
conhecimento específico sobre uma área ou atividade humana. Por exemplo, um Data
Scientist que trabalha com mapeamento genético, deve ter excepcional conhecimento
de Biologia.
Profissionais de diversos segmentos (Físicos, Matemáticos, Economistas,
Administradores, etc.) começaram a estudar Ciência de Dados, buscando preencher
as lacunas de conhecimento em Análise de Dados e Tecnologias de Big Data, para
atuar como Cientista de Dados, hoje uma das profissões mais valorizadas do mundo.
3.4 Considerações Finais
Vencer os desafios do Big Data é essencial para as empresas se manterem
competitivas na economia digital. Estamos ainda no início da sua curva de
aprendizado, mas é fundamental que as ações comecem de imediato. A velocidade
com que as mudanças nas tecnologias e no cenário de negócios acontecem não nos
permite o luxo de ficar esperando para ver o que virá. Big Data nos abre o que
podemos chamar de portas para uma “intelligent economy” ou economia inteligente
que produz um fluxo contínuo de informações, que podem ser monitoradas e
analisadas.
Com Big Data as empresas podem usar dados transacionais e não
transacionais para traçar estratégicas, decisões comerciais de longo prazo sobre, por
exemplo, o que e quando colocar nas prateleiras das lojas. Big Data tem papel
importante na economia de um país, pois torna suas empresas mais competitivas.
Importante lembrar que Big Data não acaba com Business Intelligence (BI),
maso torna mais valioso e útil para o negócio. Na prática, sempre teremos a
necessidade de olhar para o passado e com a possibilidade de analisar um grande
volume de dados, BI vai ser reforçado.

CONTEÚDO COMPLEMENTAR
https://www.youtube.com/watch?v=NmCuEgkVLWo
https://www.youtube.com/watch?v=5b9Z8toVaAU
29

Referências

CARTER, Keith B. Actionable Intelligence: A Guide to Delivering Business Results with
Big Data Fast!. John Wiley & Sons, 2014.
NEEDHAM, Jeffrey. Disruptive possibilities: how big data changes everything. O'Reilly
Media, Inc., 2013.
MCAFFE, A., & BRYNJOLFSSON, E. (10 de 2012). Big Data: The Management
Revolution. Harvard Business Review
TAURION, C. (25 de 11 de 2014). Entre os Vs do Big data, velocidade cresce em
importância.

Introdução ao Big Data

Tecnologia da Informação

Ferramentas de estudo

Conteúdos escolhidos para você

Desafio - Introdução a Big Data