Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

1 
 
 
INTRODUÇÃO AO MUNDO BIG DATA E CIÊNCIA DE DADOS 
1 
 
 
 
SUMÁRIO 
 
NOSSA HISTÓRIA ..................................................................................................... 2 
1. INTRODUÇÃO ..................................................................................................... 3 
1.1 Fontes de geração de dados ..................................................................................................... 4 
1.2 Dados são o novo petróleo ....................................................................................................... 5 
1.3 Dark data (dados escuros) ........................................................................................................ 6 
1.4 Geração de dados ..................................................................................................................... 6 
1.5 Dimensionamento dos dados ................................................................................................... 7 
1.6 Impactos e oportunidades do uso de Big Data .......................................................................... 9 
1.6.1 Exemplos da eficiência do uso da Big Data ........................................................................10 
1.7 Projeto e etapas em Big Data...................................................................................................11 
1. CAPTURANDO E ARMAZENANDO OS DADOS.............................................. 13 
2.1 Formas de obtenção dos dados ...............................................................................................13 
2.1.1 Dados internos .................................................................................................................14 
2.1.2 Dados da web ...................................................................................................................15 
2.2 Classificação dos dados ...........................................................................................................17 
2.2.1 Dados estruturados ..........................................................................................................17 
2.2.2 Dados semiestruturados ...................................................................................................18 
2.2.3 Dados não estruturados....................................................................................................18 
2.2.4 Dados em movimento ......................................................................................................18 
2.2.5 Dados em repouso ............................................................................................................18 
2.3 Os V’s do Big Data ...................................................................................................................19 
2.3.1 Volume .............................................................................................................................19 
2.3.2 Velocidade ........................................................................................................................19 
2.3.3 Variedade .........................................................................................................................20 
2.3.4 Veracidade .......................................................................................................................20 
2.3.5 Valor.................................................................................................................................21 
2.4 Estratégia de Big Data nas empresas .......................................................................................21 
2. INTRODUÇÃO A CIÊNCIA DE DADOS ............................................................ 24 
3.1 Etapas da Ciência de Dados .....................................................................................................25 
3.2 Kaggle .....................................................................................................................................25 
3.3 O profissional Data Scientist ....................................................................................................26 
3.4 Considerações Finais ...............................................................................................................27 
Referências .............................................................................................................. 29 
2 
 
 
 
 
NOSSA HISTÓRIA 
 
 
A nossa história inicia com a realização do sonho de um grupo de empresários, em 
atender à crescente demanda de alunos para cursos de Graduação e Pós-Graduação. Com 
isso foi criado a nossa instituição, como entidade oferecendo serviços educacionais em nível 
superior. 
A instituição tem por objetivo formar diplomados nas diferentes áreas de 
conhecimento, aptos para a inserção em setores profissionais e para a participação no 
desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua. Além de 
promover a divulgação de conhecimentos culturais, científicos e técnicos que constituem 
patrimônio da humanidade e comunicar o saber através do ensino, de publicação ou outras 
normas de comunicação. 
A nossa missão é oferecer qualidade em conhecimento e cultura de forma confiável e 
eficiente para que o aluno tenha oportunidade de construir uma base profissional e ética. 
Dessa forma, conquistando o espaço de uma das instituições modelo no país na oferta de 
cursos, primando sempre pela inovação tecnológica, excelência no atendimento e valor do 
serviço oferecido. 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
 
1. INTRODUÇÃO 
 
Acredito que não importa qual seja sua profissão, seu cargo e as pessoas com 
quem você conversa, você possivelmente já deve ter ouvido falar em algum momento 
nessa expressão tão popular atualmente: Big Data. Essa minha premissa ocorre pelo 
fato de que não é preciso muito esforço para encontrarmos uma notícia referente a 
esse termo nos dias atuais. 
Seja em sites, jornais ou revistas das áreas de astronomia, biologia, 
educação, economia, política ou até culinária, podemos encontrar alguma publicação 
que relate o potencial e as características de Big Data. De fato, Big Data tem sido alvo 
de muita atenção no mundo dos negócios, no governo e no meio acadêmico. 
Big Data atrai a curiosidade. Representa dados em grandes quantidades, em 
uma dimensão não imaginada alguns anos atrás, e que um dia poderiam vir a ser 
armazenados e processados por computadores a um baixo custo. 
O termo surgiu para se referir às aplicações de computadores que utilizam 
grandes volumes de dados em diferentes formatos, que podem ser agrupados, lidos, 
convertidos, analisados com técnicas estatísticas, matemáticas e computacionais, 
gerando um novo tipo de conhecimento chamado de “Data Insight”, algo conclusivo e 
ainda nunca pensado sobre os dados originais. 
 A geração de insights a partir dos dados, pode resultar tanto na decisão de 
uma mudança brusca na orientação de um negócio, quanto na criação de um novo 
produto, chamado de “Data-Driven Product” (Produto Orientado a Dados) que podem 
revolucionar a empresa e os seus negócios. 
Na verdade, hoje estamos conectados digitalmente desde que acordamos até 
a hora de dormir, absorvendo um volume muito grande de conteúdo e também 
gerando muito conteúdo. Este fenômeno acontece no nosso dia a dia, seja em casa 
ou no trabalho. Aliás, esta é outra transformação. Fica cada vez mais difícil separar o 
“em casa” de “no trabalho”. A computação está se tornando tão ubíqua que fica 
praticamente impossível separar o mundo físico do digital. Nos anos 90 (e isso tem 
menos de vinte anos) apenas os setores digitalizáveis como a música e a mídia 
tornaram-se digitais. No início dos anos 2000 o mundo físico se aproximou mais da 
digitalização com o comércio eletrônico e o Internet Banking. Hoje estamos 
4 
 
 
começando aver claros sinais da hiper conectividade, com cloud computing, a 
revolução da mobilidade e a Internet das Coisas permeando nossa sociedade. Nossos 
hábitos como pessoas conectadas, tornam-se hábitos como consumidores (checamos 
preços e avaliações antes de qualquer compra) e tornam-se também hábitos como 
funcionários (por que sou impedido de me conectar com os meus amigos via 
Facebook no escritório?). 
Podemos encontrar casos de uso em que Big Data permitiu a redução do 
número de fraudes, aumento de lucros, conquista de eleitores, redução de custos na 
produção, eficiência energética, aumento de segurança, entre outros benefícios tão 
almejados em diversos domínios. Muito embora o interesse esteja em alta, Big Data 
ainda é um termo incipiente, gerando incertezas sobre sua definição, características, 
aplicabilidade e desafios. 
Quais dados fazem parte do contexto de Big Data? Qual a definição desse 
conceito? Como obter dados de diferentes fontes? Como extrair valor a partir dos 
dados? Qual a infraestrutura necessária para criar uma solução de Big Data? Quais 
habilidades são necessárias para se atuar com Big Data? 
Enfim, estas e outras questões serão respondidas nessa apostila. 
 
1.1 Fontes de geração de dados 
Os dados gerados para Big Data provêm de três fontes: Pessoas, Máquinas, 
Empresas. 
 Pessoas 
Geram dados a partir de Redes Sociais (Facebook, Twitter, Instagram, 
LinkedIn), e-mails, uso de Internet, geração de documentos, publicação de blogs, etc. 
 Maquinas 
Geram dados a partir de sensores, satélites, arquivos de logs, câmeras, 
máquinas de sequenciamento genético, telescópios espaciais, sondas, etc. 
 
 
Highlight
5 
 
 
 Empresas 
Geram dados a partir de transações comerciais, cartões de crédito, sistemas 
de controles administrativos e financeiros, comércio eletrônico, registros médicos, 
vendas de produtos, pesquisa de novas tecnologias, etc. 
 
Figura 1.1 – Geração de dados 
1.2 Dados são o novo petróleo 
A frase “Data is the new oil” surgiu em 2006 e desde então vem sendo utilizada 
com frequência em publicações importantes, citadas por CEOs e líderes mundiais da 
Fortune 500, para se referir à importância do dado e da informação nesta era do Big 
Data. 
 Trata-se de uma Analogia, pois da mesma forma que há um século atrás, as 
empresas que conseguiram explorar Petróleo, acumularam vasta riqueza, 
estabeleceram monopólios e construíram a base da economia, hoje, as empresas 
“data-driven” como a Google, Facebook, Uber, Amazon, Yahoo, entre outras estariam 
fazendo o mesmo com a nossa economia. 
Vivemos em uma economia digital, onde os dados são muito valiosos. É a 
chave para a boa funcionalidade do mundo, desde governos até empresa. Sem eles 
o progresso do mundo seria interrompido. Dados são o combustível que direciona a 
economia, e provavelmente estamos passando a viver na chamada “Data Economy” 
(Economia de Dados). 
Highlight
6 
 
 
1.3 Dark data (dados escuros) 
Estima-se que para 2030 mais de 90% dos dados serão não estruturados e 
esta explosão de dados, vai superar a capacidade humana em utilizá-los. Dark Data 
ou Dados Escuros, são dados adquiridos através de várias operações pelas empresas 
e não utilizados para fins de análise. Pode-se decidir manter estes dados para uso 
futuro, com custos adicionais de armazenamento ou descartá-los por considerá-los 
sem utilidade. 
O acelerador de partículas atômicas (Large Hadron Collider) da Organização 
Europeia para a Pesquisa Nuclear, é o maior do mundo, gerando 25GB de dados por 
segundo. A maior parte destes dados tem de ser descartada pois o volume é tão 
grande que invalidaria seu armazenamento e tempo hábil para análise. 
 
Figura 1.3 – Large Hadron Collider 
Quando se tem geração de dados em alta velocidade, e não é possível 
armazena-los totalmente, são utilizadas técnicas de amostragem, colhendo apenas 
uma fração dos dados mais representativos que não comprometem a análise. 
1.4 Geração de dados 
Big Data se tornou viável combinando grandes volumes de dados, associados 
ao baixo custo das tecnologias de hardware, software e computação de nuvem, e a 
Highlight
7 
 
 
necessidade das empresas gerarem novos conhecimentos, ou “insights” para 
garantirem a sobrevivência. 
Mas, quem gera mais dados? Empresas, Pessoas ou Máquinas? Máquinas 
geram mais dados. Geram 100 vezes mais dados que as empresas e 10 vezes mais 
dados que as pessoas. 
Resumindo: 
 Empresas = geram 1X 
 Pessoas = geram 10X 
 Máquinas = geram 100X 
Enquanto dados gerados por humanos são aqueles oriundos do pensamento 
de uma pessoa, podemos definir dados gerados por máquinas como dados digitais 
produzidos por processos de computadores, aplicações e outros mecanismos, sem 
necessitar explicitamente de intervenção humana. 
Alguns exemplos de dados gerados por máquina são: sensores de todos os 
tipos embutidos em equipamentos, sensores em máquinas em geral, clusters de 
computadores, logs gerados dispositivos (computadores, smartphones, celulares, nós 
de redes, roteadores), telemetria por satélites, chips RFID, Sistemas de GPS, software 
que geram cálculos automáticos, sistemas de aprendizado de máquina, sistemas de 
automação, Internet das Coisas (IoT), entre outros. 
1.5 Dimensionamento dos dados 
Se você tem um celular ou computador, deve ter noção da capacidade de 
armazenamento. Um celular tem 16, 32, 64, 128GB ou mais, para armazenamento. 
Um computador 4, 8, 16, 32 GB ou mais de memória RAM e discos de 250, 500 GB, 
1TB ou mais 
. Se o seu celular tem 64GB de espaço, equivale a dizer que podem ser 
armazenados 64 x 1.073.741.824 Bytes ou Caracteres. Medidas de dados são 
escalonadas utilizando como base numérica o sistema binário (base 2) dos 
computadores. Assim, 2ˆ10 (dois elevados à potência 10) equivale a 1.024 Bytes. 
Vamos conhecer estas medidas, para adquirir uma noção do volume de dados 
gerados em Big Data. Unidades de Medidas de Dados e Valores. 
Highlight
8 
 
 
 
1 Byte = 1 Caractere ou 8 bits 
1 kilobyte (KB) = 1024 bytes 
1 MegaByte (MB) = 1024 KiloBytes 
1 GigaByte (GB) = 1024 MegaBytes 
1 TeraByte (TB) = 1024 GigaBytes 
1 PetaByte (PB) = 1024 TeraBytes 
1 ExaByte (EB) = 1024 PetaBytes 
1 ZettaByte (ZB) = 1024 ExaBytes 
1 YottaByte (YB) = 1024 ZetaBytes 
 
Você utiliza medidas diariamente, como quilos para peso, metros ou 
quilômetros para distância, e ao longo do tempo vai se adaptar naturalmente à estas 
medidas de dados. Medir dados é sempre um processo assustador, pois vamos 
perceber que o volume aumenta exponencialmente e nossos dispositivos não estão 
preparados para todo este armazenamento, sendo necessário recorrer para as 
tecnologias de nuvem que fornecem armazenamento quase ilimitado ao que 
precisamos. 
Uma foto de boa resolução tem em média 5MB (milhões de bytes). Se tirar 100 
fotos, vai precisar de um espaço de 500 MB para armazena-las. Pen drives 
armazenam em média de 32 a 256 GB e podem ser úteis. Se precisar, utilize 
gratuitamente em nuvem o Google Fotos com 30 GB. 
Quando falamos em Big Data, as unidades de medida começam na casa dos 
TeraBytes e PetaBytes de dados e não mais na casa dos KB, MB ou GB que estamos 
acostumados. 
 
Highlight
Highlight
9 
 
 
 
1.6 Impactos e oportunidades do uso de Big Data 
Os exemplos apresentados nos mostram a diversidade de dados que existe 
atualmente. São dados de diferentes formatos, gerados em períodos e locais 
diferentes e por diferentes agentes. Mas uma vez que esses dados existem, o que 
podemos fazer com eles? Eis a grande questão. 
Por exemplo, o que um registro de log pode fornecer de informação para meu 
e-commerce? O que posso fazer com os dados coletados de redes de sensores? O 
que as opiniões das redes sociais podem me fornecer de valioso? São empresas 
capazes de responder essas questões que estão potencializando seu negócio a partir 
de Big Data. 
Mas será que precisocapturar todos esses dados para obter oportunidades 
com as tecnologias de Big Data? A resposta é não. 
Muitas empresas já possuem quantidades significativas de dados e não as 
utilizam para obtenção de valor. Isso pode ocorrer por diversos aspectos em relação 
à manipulação dos dados. Por exemplo, oportunidades podem ser desperdiçadas pelo 
fato de que: 
 Os dados não estão integrados. — Eles já são gerados pela empresa, 
mas por serem armazenados em diferentes sistemas e bases, não 
fornecem uma visão ampliada da solução de um problema. 
 Os dados demoram para ser analisados. — Nesse caso, gasta-se muito 
tempo no processo de análise dos dados, o que impede a identificação 
de informações no momento adequado. 
 Os dados não estão categorizados. — São casos em que os registros 
dos conjuntos de dados estão armazenados de diferentes maneiras, 
CURIOSIDADE 
O Google é a maior empresa de Big Data do mundo, processando 
3,5 bilhões de solicitações diárias, gerando e armazenando 10 
ExaByte de dados. 
 
Highlight
Highlight
Highlight
10 
 
 
sem uma padronização dos campos, impedindo a identificação de 
anomalias e categorias existentes nos dados. 
 Os dados estão obscuros. — Casos em que só é possível obter 
informações a partir da análise de outros dados, como a identificação de 
padrões em streaming de vídeos, extração de informações em imagens 
e dados manuscritos. 
 Os dados não são usados na tomada de decisão. — São os que 
poderiam ser utilizados no processo de apoio à tomada de decisão, mas 
por não serem integrantes dos dados tradicionais da empresa, são 
descartados desse processo. 
 Os dados não são visualizados com clareza. — São situações nas quais 
os dados já são armazenados, porém não são analisados e 
apresentados de maneira efetiva para gerar percepções sobre eles. 
 Os dados não são medidos. — Refere-se a casos nos quais não se 
utilizam as métricas que os dados podem fornecer para a compreensão 
de um fato, até então, imperceptível. 
Perceba que muitas empresas já têm a possibilidade de aperfeiçoar a utilização 
de seus dados, mas não conseguem por fatores como os descritos anteriormente. 
Medidas como a adoção de novas tecnologias ou uma nova forma de organização 
dos dados podem trazer grandes transformações em relação à utilização de dados 
para extração de valor. 
 
1.6.1 Exemplos da eficiência do uso da Big Data 
 
 Um exemplo é o que ocorreu com uma sede da Microsoft que possuía mais de 
mil funcionários. Com foco em traçar um plano de eficiência energética dentro da sede, 
a empresa possuía mais de 30 mil sensores gerando dados a todo instante sobre o 
consumo de energia. 
O problema é que esses dados estavam espalhados em diversos sistemas da 
empresa, impedindo que ela tivesse uma visão ampla do consumo energético. Com a 
integração dos dados em um sistema único de eficiência energética, a empresa 
conseguiu identificar, entre outras análises, salas que consumiam energia sem ter a 
necessidade. 
Highlight
Highlight
Highlight
Highlight
Highlight
11 
 
 
Como resultado, essa integração evitou um gasto de 60 milhões de dólares 
com investimento em tecnologias de eficiência energética. Perceba que, nesse caso, 
a empresa já gerava os dados necessários, o problema estava no modo com que eles 
estavam organizados. 
Outro exemplo é o da Pirelli, empresa multinacional do setor de produção de 
pneus. Essa empresa estava tendo problemas para entregar seus produtos aos 
milhares de clientes no tempo correto, sem que houvesse atraso nos pedidos. 
Um dos fatores que ocasionavam esses atrasos era a demora para a geração 
dos relatórios, impedindo os analistas de terem uma visão atualizada da situação do 
estoque e dos pedidos de vendas. A solução nesse caso foi utilizar uma tecnologia de 
Big Data que agilizasse o processo de geração de relatórios para os analistas. 
Com essa medida, utilizando uma tecnologia de processamento em memória, 
relatórios que demoravam um dia inteiro para serem atualizados passaram a ser 
gerados em 10 minutos. Essa otimização fez com que a empresa tivesse menos 
desperdício em sua produção, entregasse os produtos de acordo com o prazo e 
otimizasse o processo de entrega. Perceba que a empresa já analisava os dados 
obtidos, mas ela aumentou o valor dos dados agilizando o processo de análise. Esses 
casos denotam como os dados podem gerar diferentes oportunidades, dependendo 
da maneira com que são usados. 
1.7 Projeto e etapas em Big Data 
Os exemplos apresentados demonstram diferentes formas de como Big Data 
pode ser utilizado. Entretanto, projetar uma solução não é uma tarefa simples, 
existindo diversos percalços no decorrer de seu desenvolvimento. 
Para que se possa chegar à etapa final de um projeto de Big Data, existe um 
conjunto de etapas que deverão ser executadas. De forma resumida, descrevo uma 
sequência de passos existentes nesses projetos. 
 
1. O primeiro passo a ser feito (e que muitas vezes ainda é descartado) é 
identificar quais perguntas se deseja responder com os dados. É nesse 
momento que deve ser determinado quais informações pretende-se 
12 
 
 
extrair de um conjunto de dados. Essa tarefa não é fácil. Necessita de 
pessoas com pensamento analítico, capazes de identificar possíveis 
análises sobre diferentes dados. Quanto mais claras forem as 
respostas obtidas nessa fase, mais fácil se torna a execução das fases 
seguintes. 
 
2. O próximo passo refere-se a captura e armazenamento dos dados. 
Devemos então identificar quais fontes serão utilizadas e como os 
dados serão capturados. Para isso, torna-se necessário identificar a 
solução adequada para armazenar cada tipo de dado. É nessa fase 
que identificamos a ordem com que os dados serão usa- dos, definimos 
quais campos serão utilizados e quais informações devem ser tratadas. 
 
3. Estando os dados armazenados, passamos para a fase de 
processamento e análise. Tecnologias de Big Data são cruciais nessa 
fase, para oferecer escalabilidade e desempenho para a aplicação. É 
nessa fase também que se determina qual algoritmo de análise de 
dados será usado. Inserem-se aqui os mecanismos de aprendizado de 
máquina, métodos estatísticos, fundamentos matemáticos e mineração 
de dados. 
 
4. Por fim, Big Data também inclui a etapa de visualização de dados, em 
que são utilizadas técnicas de criação de gráficos dinâmicos e 
interativos. Essa etapa pode também ser usada em conjunto com a 
fase de análise de dados, para facilitar o processo de descoberta dos 
dados. 
 
 
 
 
13 
 
 
1. CAPTURANDO E ARMAZENANDO OS DADOS 
 
Após ter identificado o foco do projeto de Big Data e definido as respostas que 
deseja obter por meio de dados, você pode dar início à identificação de quais dados 
deverão ser capturados. Esses dados já existem ou ainda precisam ser gerados? São 
internos ou externos? Em qual formato eles estão? 
Essa série de perguntas é necessária para dar início a uma das fases iniciais 
do projeto: a captura dos dados. Aliado a essa etapa, deve ser traçada uma estratégia 
para definir como os dados capturados serão armazenados. O que é necessário para 
armazenar dados em grande volume, variedade e em alta velocidade? Será que o 
banco de dados relacional é a melhor opção? Caso não seja, quais são as outras 
opções? 
2.1 Formas de obtenção dos dados 
Para facilitar nossa compreensão sobre as etapas de captura e 
armazenamento de dados, vamos utilizar como exemplo um projeto de Big Data para 
uma empresa da área de varejo, que aqui chamaremos de Big Compras. Pensando 
em oferecer uma melhor experiência aos seus milhares de clientes, os executivos da 
Big Compras desenvolveram um aplicativo com as seguintes funcionalidades: 
 Permitir a pesquisa e compra das centenas de produtos da empresa; 
 Permitir que o cliente avalie um produto e verifique os comentários de 
outros clientes; 
 Permitir que o cliente compartilheas informações de produtos e listas 
de compras nas redes sociais. 
Poucos meses após o lançamento, o aplicativo se tornou um sucesso, atingindo 
a marca de 1 milhão de usuários. Com esse crescimento, a empresa percebeu que o 
aplicativo já não estava suportando a quantidade de acessos, gerando a insatisfação 
dos usuários com as ocorrências de queda de serviço e lentidão de processamento. 
Além disso, o volume de dados gerado durante as interações dos usuários com 
o aplicativo foi crescendo exponencialmente. Entretanto, a empresa não sabia ao 
certo o que fazer com os dados coletados. 
14 
 
 
Para resolver essas questões, ela contratou uma equipe de profissionais com 
a missão de aperfeiçoar o desempenho do aplicativo e entender quais dados eram 
relevantes para a empresa e como eles poderiam ser usados como vantagem 
competitiva. Como será que essa equipe poderia resolver esses problemas? 
Para compreendermos os desafios da Big Compras, identificaremos as 
estratégias de captura de dados que podem ser adotadas em um projeto de Big Data. 
O objetivo é apresentar como cada tipo de dado requer uma estratégia diferente para 
ser utilizado no projeto. 
 
2.1.1 Dados internos 
 
 A primeira abordagem da equipe contratada pela Big Compras foi 
investigar quais eram os dados internos da empresa. Podemos definir dados internos 
como sendo aqueles dos quais a empresa é dona e possui controle. Ou seja, a equipe 
estava interessada em descobrir quais dados já eram gerados e controlados pela 
empresa, antes de buscar soluções que envolviam a aquisição de novas fontes de 
dados. 
Após uma extensa investigação, os membros da equipe chegaram à 
surpreendente lista de conjuntos de dados: 
 
 Dados de sistemas de gerenciamento da empresa: sistemas de 
gerenciamento de projetos, automação de marketing, sistema CRM 
(Customer Relationship Management), sistema ERP (Enterprise 
Resource Planning), sistema de gerenciamento de conteúdo, dados do 
departamento de recursos humanos, sistemas de gerenciamento de 
talentos, procurações, dados da intranet e do portal da empresa. 
 Arquivos: documentos escaneados, formulários de seguros, 
correspondências, notas fiscais, arquivos sobre relação da empresa 
com seus clientes. 
 Documentos gerados por colaboradores: planilhas em formato XML, 
relatórios em formato PDF, dados em formato CSV e JSON, e-mails, 
documentos em formato Word, apresentações em formato PPT, 
páginas Web em formato HTML e XML. 
15 
 
 
 Sensores: dados de medidores inteligentes, sensores de carros, 
câmeras de vigilância, sensores do escritório, maquinários, aparelhos 
de ar condicionado, caminhões e cargas. 
 Registros de logs: logs de eventos, dados de servidores, logs de 
aplicação, logs para auditoria, localização móvel, logs sobre uso de 
aplicativos móveis e logs da Web. 
 
Uau, quantos dados já são coletados pela Big Compras. Perceba que, somente 
com dados internos, as empresas em geral já possuem uma diversidade de dados a 
serem explorados. 
 Dessa forma, uma recomendação feita às empresas que pretendem iniciar sua 
jornada em Big Data é identificar formas de organizar, analisar e utilizar seus dados 
internos para melhoria dos negócios. Além de esses dados serem mais fáceis de 
serem adquiridos do que os externos, eles podem revelar informações importantes 
para as decisões da empresa. 
 
2.1.2 Dados da web 
 
 Continuando a investigação sobre os dados que poderiam ser usados pela Big 
Compras, a equipe identificou dados da Web que poderiam ser coletados de fontes 
externas, com o propósito de verificar quais poderiam ser relevantes no projeto de Big 
Data. O resultado dessa investigação chegou à seguinte lista: 
 
 Dados de domínio público: dados disponibilizados pelo governo, dados 
sobre o clima, tráfego e regulamentações, dados econômicos, dados do 
censo, de finanças públicas, legislação, comércio exterior e Wikipédia. 
 Dados de sites de terceiros: imagens, vídeos, áudios, podcasts, textos 
de comentários e revisões em sites da Web. 
 Mídias sociais online: Twitter, LinkedIn, Facebook, Tumblr, SlideShare, 
YouTube, Google+, Instagram, Flickr, Pinterest, Vimeo, Wordpress, 
RSS, Yammer, entre outras. 
 
16 
 
 
Nesses tipos de dados, não somente o volume e a velocidade, mas também a 
variedade de dados disponíveis torna sua captura, armazenamento e análise um 
desafio. No caso da Big Compras, foi identificado que, uma vez que os clientes 
compartilhavam informações de seus produtos nas mídias sociais online, seria 
importante analisar esses dados para descobrir se a empresa estava sendo bem ou 
mal avaliada pelos seus serviços. 
A partir dessa estratégia, seria possível identificar quais aspectos eram mais 
comentados e também gerar novas interações com os clientes por diferentes canais. 
Para isso, a equipe precisou desenvolver uma técnica para obter esses dados. Mas 
como capturar esses dados? 
A principal forma de captura de dados de mídias sociais online é por meio de 
uma API (do inglês Application Programming Interface), que podemos definir como 
um conjunto de instruções e padrões de programação, para que os usuários tenham 
acesso aos dados de um aplicativo ou plataforma. As mídias sociais online (como o 
Facebook, Twitter e YouTube) disponibilizam APIs para que usuários interajam com 
os dados que circulam dentro de suas redes, seja capturando-os ou inserindo novos. 
A lista a seguir apresenta links para o acesso à documentação de APIs de 
algumas mídias sociais online: 
 Facebook — https://developers.facebook.com/ 
 Flickr — https://www.flickr.com/services/api/ 
 Instagram — https://www.instagram.com/developer/ 
 LinkedIn — https://developer.linkedin.com/ 
 Pinterest — https://developers.pinterest.com/ 
 Twitter — https://dev.twitter.com/ 
 YouTube — https://developers.google.com/youtube/ 
 
Utilizando a API do Twitter, por exemplo, um desenvolvedor pode fazer 
requisições ao servidor da rede e obter uma lista de mensagens postadas que fazem 
menção a uma determinada palavra. No caso da Big Compras, por exemplo, a equipe 
poderia utilizar a API do Twitter para capturar o fluxo de mensagens que contém a 
hashtag #BigCompras. 
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
17 
 
 
Uma das maneiras que muitas mídias sociais estão fornecendo acesso às suas 
APIs é por meio do protocolo REST (REpresentational State Transfer). Esse protocolo 
oferece um estilo que facilita a comunicação entre aplicações Web. O Twitter, por 
exemplo, oferece uma API que permite ao usuário fazer declarações REST e obter o 
retorno das declarações em formato JSON. 
2.2 Classificação dos dados 
 Aplicações tradicionais de computadores utilizam dados estruturados, tabelas 
com linhas, colunas e campos bem definidos para processamento. Os dados na era 
do Big Data, originam-se de diversos locais, com diferentes tipos e formatos, o que 
torna complexa a sua manipulação. 
Organizamos os dados em 3 tipos: 
 Estruturados 
 Semiestruturados 
 Não estruturados 
 As aplicações de Big Data visam realizar a análise dos dados provenientes de 
diferentes locais e de diferentes tipos. 
Em uma aplicação, podemos pensar em dados misturados, uma parte vinda de 
um Banco de Dados estruturado, outra de um Satélite em formato GIS, outra de 
arquivos como Word e Excel, outra das Redes Sociais, outra parte de sensores de 
máquinas. 
De uma mistura como essa, vamos produzir “Insights”, que nos conduzirão à 
solução de problemas, à resposta de uma pergunta, ou quem sabe à criação de um 
novo produto empresarial (chamado de produto de dados). 
2.2.1 Dados estruturados 
 São organizados em linhas e colunas, em formato de tabela, e são encontrados 
em banco de dados relacionais, sendo muito eficientes quanto à recuperação e 
processamento. Planilhas eletrônicas e SQL (linguagem dos Bancos de Dados) sãopróprios para acesso e manipulação destes dados. 
Highlight
Highlight
18 
 
 
2.2.2 Dados semiestruturados 
São dados com organização diferenciada, normalmente provenientes da Web 
nos formatos XMLe JSON, que precisam de uma prévia análise dos dados para 
identificação de sua estrutura. 
 
2.2.3 Dados não estruturados 
 
São dados de vídeo, áudio, e-mails, documentos de textos em geral (posts, 
blogs) e dados gerados por aplicativos de redes sociais como mensagens do 
WhatsApp por exemplo. Estes dados requerem um pré-processamento para análise. 
Dados podem estar em movimento ou em repouso. 
 
2.2.4 Dados em movimento 
 
Dados em Movimento referem-se a dados de “stream”, em trânsito, se movendo 
através da rede, de um lado para outro, de um nó para outro. Por exemplo, o termo 
“live streaming” se refere às transmissões de vídeo via Internet e ao vivo. Eles são 
parte importante de Big Data, com processamento e análise em tempo real, à medida 
que estão sendo capturados. 
É mais difícil processar estes dados, pois têm custo maior, mas devido a sua 
importância, e se usados corretamente, podem colaborar para a empresa obter 
conhecimentos valiosos em tempo real para a solução de problemas. O processo de 
proteção contra roubo dos dados em movimento é chamado de “Criptografia”. 
 
2.2.5 Dados em repouso 
 
Dados em Repouso estão armazenados em um destino estável, não estão em 
uso e nem viajando para outros destinos. Uma vez que atingiram o seu destino, são 
armazenados, e recebem camadas de segurança adicionais como criptografia e 
proteção por senha. 
Highlight
19 
 
 
São dados bem protegidos, como os armazenados em Armazéns de Dados, 
que possuem segurança utilizando estruturas de permissão de acesso para os 
usuários. Estes dados são “ativos” muito importantes, pois além de contar a história 
da empresa, fornecem a base para a sua operação e existência. 
2.3 Os V’s do Big Data 
Para uma aplicação ser considerada de Big Data, é preciso que esteja de 
acordo com algumas características chamadas de V’s do Big Data. 
Entre elas, as cinco mais famosas, são: Volume, Velocidade, Variedade, 
Veracidade e Valor. 
 
2.3.1 Volume 
 
O volume é o ponto de partida para entender o conceito de Big Data. A enorme 
quantidade de dados gerados diariamente permite a análise das mais diversas 
informações, desde cliques em sites, histórico de compra, avaliação de atendimento, 
entre outros. 
Esse fator também é determinante na questão do armazenamento de dados, 
que com a expansão dos servidores e a possibilidade de disponibilizar informações 
na nuvem vem se desenvolvendo cada vez mais. 
Big Data é uma grande quantidade de dados gerada a cada segundo. Pense 
em todos os e-mails, mensagens de Twitter, fotos e vídeos que circulam na rede a 
cada instante. A tecnologia do Big Data serve exatamente para lidar com esse volume 
de dados, guardando-os em diferentes localidades e juntando-os através de software. 
 
2.3.2 Velocidade 
 
Estamos falando em processamento em tempo real. Aquilo que acontece e 
imediatamente pode ser visualizado. Você envia um e-mail, e o destinatário recebe 
imediatamente, monitora um paciente, e visualiza gráficos cardiológicos, consulta a 
20 
 
 
análise do tempo, e obtém previsões imediatas. Pense em velocidade na criação dos 
dados, na transferência, armazenamento e análise. 
 
2.3.3 Variedade 
 
No passado, a maior parte dos dados era estruturada e podia ser colocada em 
tabelas e relações. Hoje, 80% dos dados do mundo não se comportam dessa forma. 
Variedade de dados, de diversos tipos, formatos e natureza podem ser agrupados, 
para análise. Dados são complexos e heterogêneos, originados de diversas fontes em 
diferentes formatos. Dados de Satélite, por exemplo, são diferentes dos que você gera 
no Twitter, Facebook ou mesmo no Word quando escreve um texto. 
O Big Data lida com dados estruturados, semiestruturados e não estruturados. 
Essas informações aparecem sob a forma de vídeos, áudios, imagens, posts de redes 
sociais, cookies de navegadores etc. É variedade que não acaba mais, e tudo é 
devidamente destrinchado pela ferramenta. 
 
2.3.4 Veracidade 
 
 Equivale à qualidade, autenticidade e validade do dado. Interessa a todos 
garantir que os dados analisados sejam confiáveis e atuais. 
A veracidade tem a ver com a procedência e a confiabilidade da informação 
extraída e tratada. Também se relaciona ao contexto e à qualidade da análise. O 
conhecimento sobre a veracidade dos dados ajuda as empresas a entender as 
decisões e os riscos envolvidos, a partir de conjuntos específicos de elementos 
analisados. 
 
 
 
21 
 
 
2.3.5 Valor 
 
Criação de valor, equivale ao resultado final da análise, dos insights gerados. 
Quais perguntas foram respondidas? O resultado foi bom para a empresa? Qual foi 
de fato foi o valor acrescentado ao negócio? 
O último V é o que torna Big Data relevante: tudo bem ter acesso a uma 
quantidade massiva de informação a cada segundo, mas isso não adianta nada se 
não puder gerar valor. É importante que empresas entrem no negócio do Big Data, 
mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao 
que se está fazendo. 
 
 
Figura 2.3 – Os 5V’s do Big Data 
 
2.4 Estratégia de Big Data nas empresas 
 
 É indiscutível que todos os executivos de alto nível, particularmente os CEOs, 
devem ter uma visão do potencial do Big Data e desenhar uma estratégia adequada 
para sua adoção. A falta de compreensão do que é Big Data e de seus potenciais e 
limitações pode gerar riscos para o negócio. Um investimento excessivo em 
22 
 
 
tecnologias sem uma preparação para a empresa explorar seu potencial é jogar 
dinheiro fora. Se forem extremamente conservadoras e esperarem que o mercado 
esteja bem maduro antes de iniciar sua jornada de Big Data pode acarretar perda de 
espaço no mercado. Em resumo, Big Data não pode em nenhuma hipótese ser 
ignorado. 
 À medida que Big Data torna-se mais e mais importante para as empresas, seu 
uso de forma inteligente e inovadora será uma ferramenta de vantagem competitiva 
inestimável. Existem vários casos de sucesso no uso deste conceito e suas 
tecnologias. Portanto, adotar Big Data está deixando de ser uma opção, para ser 
compulsório nas empresas. A questão não é mais se vou ou não adotar Big Data, mas 
quando e com que estratégia adotarei. Neste capítulo vamos debater um pouco mais 
as questões ligadas às estratégias de adoção e uso de Big Data nas empresas. 
 Antes de mais nada é importante reconhecer que iniciativas de Big Data são 
diferentes de muitas outras iniciativas de TI. Big Data impacta processos de negócio 
(pode afetar o processo em tempo real), fontes de dados (começa-se a usar cada vez 
mais fontes externas à organização), arquitetura de dados e sistemas, infraestrutura 
e suporte tecnológico (novas tecnologias como bancos de dados NoSQL, por 
exemplo), estrutura organizacional, e capacitação. Pode afetar de forma drástica a 
corporação, inclusive mudando o mind set da tomada de decisões baseadas em 
intuição para fatos. 
 Indiscutivelmente, a complexidade do mundo de negócios atual não permite 
apenas decisões baseadas em intuição e experiência profissional. Elas continuam 
valendo sem dúvida, mas devem ser emparelhadas às análises de fatos, muitas vezes 
desconhecidos pelos executivos. Além do fato, é claro, que muitas decisões tomadas 
sob extrema pressão nem sempre são as melhores. Um exemplo: uma grande 
companhia global identificou gastos excessivos em viagens de seus funcionários. O 
sistema de aprovação de viagens permitia requisitar a viagem e depois efetuar o 
reembolso. Com pressão para reduzir custos, ao invés de uma decisão baseada em 
fatos, como “que funcionários estão gastando em excesso e por quê?” optou-se por 
criar mais um sistema. Assim, agora é necessária uma prévia autorização, que 
dependendo dotipo de viagem poderia subir a escalões mais altos da corporação para 
que fosse autorizada. O resultado foi uma diminuição nos gastos totais de viagem, 
mas aumentaram muito os custos de cada viagem, pois perderam-se as promoções 
23 
 
 
de vôos comprados com antecedência e indiscutivelmente perderam-se muitas 
oportunidades de estreitar relacionamentos com clientes. Uma análise apenas de 
planilhas mostrou os ganhos tangíveis, mas não mostrou as perdas intangíveis. 
Big Data tem uma abrangência muito maior que os projetos de BI que as 
empresas estão acostumadas a desenvolver. BI concentra-se na análise de dados 
gerados pelos sistemas transacionais enquanto Big Data vai além, explorando fontes 
de dados externas como comentários e tuítes nas plataformas de mídia social e/ou 
gerados por sensores e outras fontes geradoras de dados, como RFID acoplados em 
embalagens e textos gerados a partir das conversas dos clientes com o call center. A 
diferença é significativa. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24 
 
 
2. INTRODUÇÃO A CIÊNCIA DE DADOS 
 
Big Data são os métodos e técnicas para armazenagem, manipulação, 
recuperação e utilização de dados em grandes volumes, baseados nos V’s (Volume, 
Variedade, Velocidade, Veracidade e Valor). 
 Data Science ou Ciência de Dados, é o método científico por trás da análise 
de dados, são as metodologias, as formas de avaliar este grande volume de dados, 
aplicando conhecimentos de Estatística, Matemática e Computação, e obtendo 
insights dos dados para responder perguntas empresariais ou científicas. 
 Big Data e Ciência de Dados estão intrinsicamente ligadas. Na prática, um 
projeto de Big Data envolve etapas, e de uma maneira simples, podemos dizer que 
são: 
1. Identificar o problema 
2. Adquirir os dados 
3. Preparar os dados 
4. Analisar os dados 
5. Gerar relatórios e insights 
6. Realizar ações práticas 
 
 As etapas 2 e 3 são etapas tratadas com as tecnologias de Big Data, e as 
etapas 3, 4 e 5 são tratadas com as tecnologias de Ciência de Dados, que como 
dissemos utilizam conhecimentos voltados para Estatística (definição de modelos), 
Matemática (organização e estruturação dos dados) e Ciência da Computação (redes, 
programação, ambiente computacional, software de análise, Aprendizado de 
Máquina, etc.) e domínio do negócio, do problema que está sendo estudado. 
Tudo começa por uma pergunta sobre os dados, uma dúvida, uma vontade de 
identificar algo fora da curva, uma anomalia, algo que remeta a uma nova descoberta, 
a um “insight”. 
 
25 
 
 
3.1 Etapas da Ciência de Dados 
 
1. Formule as perguntas corretas - Procure identificar o problema e 
descreva os ingredientes que o compõem para uma posterior análise 
com Ciência de Dados. 
2. Adquira os dados - Como vimos, os dados provêm de vários locais 
(Armazéns de Dados, Redes Sociais, Documentos, etc.) estruturados ou 
não, e devem ser capturados para análise. 
3. Explore os dados - Explique a importância e descreva os dados. 
Processe os dados, limpe e os transforme. Identifique os métodos para 
realizar uma análise preliminar dos mesmos (correlações, anomalias, 
visualização). 
4. Análise dos Dados - Aplique técnicas de Análise de Dados, como 
Classificação, Agrupamentos, Regressão, Associação, para identificar 
as possibilidades. Escolha a melhor delas e construa o melhor modelo 
para tentar responder as perguntas iniciais. 
5. Relate o que encontrou - Forneça relatórios dos seus insights, identifique 
a melhores técnicas de apresentação e de convencimento para 
comunicar os resultados. Utilize os melhores softwares de visualização 
e apresentação. 
6. Transforme insights em ações - Conecte os resultados em ações 
práticas de negócios, em resultados empresariais práticos. Se possível 
crie um novo Produto de Dado para a sua empresa. 
3.2 Kaggle 
Um dos sites mais conhecidos da área de Ciência de Dados, é chamado de 
Kaggle https://www.kaggle.com/ ele foi adquirido pela Google. Este é um bom lugar 
para você avaliar problemas e soluções de Ciência de Dados. 
Kaggle é um mercado para Análise de Dados e concursos de Ciência de Dados. 
As empresas publicam suas perguntas e desafios, dizem o quanto podem pagar, e os 
Cientistas de Dados do mundo todo competem para resolver problemas e produzir as 
melhores respostas, obtendo prêmios em dinheiro. 
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
Highlight
26 
 
 
Kaggle se tornou uma plataforma, um site completo sobre Ciência de Dados, 
com datasets (conjuntos de dados) gratuitos, ferramentas, cursos, blog, enfim, tudo o 
que é necessário para aprender sobre esta nova área. Você pode criar a sua conta e 
participar também das competições ou se preparar para uma delas no futuro. 
 
 
3.3 O profissional Data Scientist 
Um artigo publicado na Harvard Business Review em outubro de 2012, chamou 
a atenção do mundo. O título do artigo era “Data Scientist: The Sexiest Job of the 21st 
Century” (Cientista de Dados: O Emprego mais Sexy do Século XXI). 
Ele vinha assinado por Thomas H. Davenport do MIT e D. J. Patil, este último 
cunhou o termo “Data Scientist” e se tornou no governo Obama o primeiro “US Chief 
Data Scientist” oficialmente contratado. 
Para saber mais visite o link https://hbr.org/2012/10/data-scientist-the-sexiest-
job-of-the-21st-century. 
O valor de Big Data reside em desenvolver insights sobre dados, e insights 
provêm de pessoas talentosas, capazes de fazer perguntas inteligentes, e respondê-
las utilizando Análise de Dados. 
Neste cenário, surge o Data Scientist (Cientista de Dados) um novo 
Profissional, ainda em desenvolvimento, que escolas e universidades têm dificuldades 
em formar. 
Em resumo, “data-driven companies”, são empresas que utilizam 
eficientemente os dados, gerados por insights de profissionais chamados de “Data 
Scientist”. 
CURIOSIDADE 
Neste link você encontra as competições que estão abertas e os 
prêmios oferecidos. 
https://www.kaggle.com/competitions 
27 
 
 
As habilidades de um Cientista de Dados envolvem conhecimentos de 
Programação, Estatística, Matemática, Aprendizado de Máquina, Wrangling 
(limpeza), Visualização, Comunicação, Engenharia de Software, entre outras, e talvez 
a mais importante seja a que chamamos de “Intuição” para resolver problemas. 
Considera-se ainda que deva ter o chamado “domain knowledge”, que é o 
conhecimento específico sobre uma área ou atividade humana. Por exemplo, um Data 
Scientist que trabalha com mapeamento genético, deve ter excepcional conhecimento 
de Biologia. 
Profissionais de diversos segmentos (Físicos, Matemáticos, Economistas, 
Administradores, etc.) começaram a estudar Ciência de Dados, buscando preencher 
as lacunas de conhecimento em Análise de Dados e Tecnologias de Big Data, para 
atuar como Cientista de Dados, hoje uma das profissões mais valorizadas do mundo. 
3.4 Considerações Finais 
Vencer os desafios do Big Data é essencial para as empresas se manterem 
competitivas na economia digital. Estamos ainda no início da sua curva de 
aprendizado, mas é fundamental que as ações comecem de imediato. A velocidade 
com que as mudanças nas tecnologias e no cenário de negócios acontecem não nos 
permite o luxo de ficar esperando para ver o que virá. Big Data nos abre o que 
podemos chamar de portas para uma “intelligent economy” ou economia inteligente 
que produz um fluxo contínuo de informações, que podem ser monitoradas e 
analisadas. 
Com Big Data as empresas podem usar dados transacionais e não 
transacionais para traçar estratégicas, decisões comerciais de longo prazo sobre, por 
exemplo, o que e quando colocar nas prateleiras das lojas. Big Data tem papel 
importante na economia de um país, pois torna suas empresas mais competitivas. 
 Importante lembrar que Big Data não acaba com Business Intelligence (BI), 
maso torna mais valioso e útil para o negócio. Na prática, sempre teremos a 
necessidade de olhar para o passado e com a possibilidade de analisar um grande 
volume de dados, BI vai ser reforçado. 
 
28 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
CONTEÚDO COMPLEMENTAR 
https://www.youtube.com/watch?v=NmCuEgkVLWo 
https://www.youtube.com/watch?v=5b9Z8toVaAU 
29 
 
 
Referências 
 
CARTER, Keith B. Actionable Intelligence: A Guide to Delivering Business Results with 
Big Data Fast!. John Wiley & Sons, 2014. 
NEEDHAM, Jeffrey. Disruptive possibilities: how big data changes everything. O'Reilly 
Media, Inc., 2013. 
MCAFFE, A., & BRYNJOLFSSON, E. (10 de 2012). Big Data: The Management 
Revolution. Harvard Business Review 
TAURION, C. (25 de 11 de 2014). Entre os Vs do Big data, velocidade cresce em 
importância.

Mais conteúdos dessa disciplina