Até que ponto e com que intensidade a tecnologia do Big data tem sido usada

•
ESTÁCIO

amorim moreira
21/05/2020
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Big Data

6.072 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
133
UNIVERSIDADE DO GRANDE RIO
PROF. JOSÉ DE SOUZA HERDY
ESCOLA DE CIÊNCIA E TECNOLOGIA
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
Leandro Edson Costa Souza
Thalita Amorim Moreira
Vinicius Silveira Dias Bezerra
Big Data e seus impactos nas atividades do setor Público e Privado
Duque de Caxias
		I
1
III
2018
	I
	II
UNIVERSIDADE DO GRANDE RIO
PROF. JOSÉ DE SOUZA HERDY
ESCOLA DE CIÊNCIA E TECNOLOGIA
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
Leandro Edson Costa Souza
Thalita Amorim Moreira
Vinicius Silveira Dias Bezerra
Big Data e seus impactos nas atividades do setor Público e Privado
Projeto Final de Curso apresentado à Universidade do Grande Rio “Prof. José de Souza Herdy” (UNIGRANRIO) como parte dos requisitos para conclusão do curso de Bacharelado em Sistemas de Informação.
Orientador: Prof. Altemar Sales de Oliveira
Duque de Caxias
2018
Big Data e seus impactos nas atividades do setor Público e Privado
Leandro Edson Costa Souza - 5305568
Thalita Amorim Moreira - 5306097
Vinicius Silveira Dias Bezerra - 5306136
Projeto Final de Curso apresentado à Universidade do Grande Rio “Prof. José de Souza Herdy” (UNIGRANRIO) como parte dos requisitos para conclusão do curso de Bacharelado em Sistemas de Informação
Banca Examinadora:
1. Orientador e Presidente: Prof. Altemar Sales de Oliveira
2. Membro interno: Prof. Pedro Vieira do Nascimento
3. Membro externo: Prof. Rita A.S da Motta.
Duque de Caxias
2018
	III	
Leandro Edson Costa Souza
Thalita Amorim Moreira
Vinicius Silveira Dias Bezerra
Big Data e seus impactos nas atividades do setor público e privado, Duque de Caxias, 2018
VII, 133 p. 29,7 cm. (Escola de Ciência e Tecnologia, 2018)
Projeto de Final de Curso - Universidade do Grande Rio, Escola de Ciência e Tecnologia.
1. Big Data.
2. Empresas Públicas
3. Empresas Privadas
I. EIN/UNIGRANRIO II. Título (série)
Dedicamos este trabalho aos nossos pais, familiares, amigos e todos que contribuíram de alguma maneira para nossa graduação.
AGRADECIMENTOS
	Agradecemos aos nossos pais que sempre nos apoiaram, a todos os nossos amigos e familiares que nos acompanharam nesta jornada e, em especial, ao nosso orientador Altemar Sales de Oliveira que sempre se mostrou muito paciente e solícito, contribuindo de maneira excepcional e decisiva para que pudéssemos concluir este trabalho.
“Há três caminhos para o fracasso: não ensinar o que se sabe, não praticar o que se ensina, e não perguntar o que se ignora”
(Beda)
RESUMO
	O Big Data é um termo utilizado para descrever o enorme volume de dados gerados pela sociedade atual e engloba, também, as diversas tecnologias envolvidas no seu tratamento. Tornou-se popular fora do meio acadêmico graças as organizações públicas e privadas, que fazem uso constante das oportunidades abertas por essas ferramentas e apresentam resultados positivos consistentes, cada uma no seu campo de atuação.
	O presente trabalho busca jogar luz sobre o conceito do Big Data e apresentar, através da pesquisa bibliográfica e documental, como a tecnologia vem sendo aplicada para o atingimento de objetivos, tanto de mercado no caso de empresas privadas, como na melhoria de serviços prestados e bem-estar da sociedade, no caso dos entes públicos, utilizando dados que possibilitam quantificar essas melhorias obtidas.
Palavras-chave: Big Data, Organizações Privadas, Organizações Públicas.
ABSTRACT
	Big Data is an expression used to describe the huge amount of data generated by today’s society and the many technologies involved in processing them. It has become popular outside the academic world thanks to public and private organizations, which make constant use of the opportunities shown by these tools and achieve consistently positive results, each in its field of activity.
	The present work seeks to shed some light on the concept of Big Data and demonstrate, through bibliographic and documental research, how the use of technology is helping to reach goals, being them market goals by the private sector as well as improvement on services and social well being by public organizations and governments.
Keywords: Big Data, Private Organizations, Public Organizations.
LISTA DE FIGURAS
Figura 1:Transformação de Dados em informação	21
Figura 2: Big Data Estrutura de Dados	27
Figura 3: Big Data Landscape	28
Figura 4: Big Data Landscape 2017	29
Figura 5 - Tail Target, empresa brasileira que fornece DMP	36
Figura 6: Oracle Exadata Database Machine	38
Figura 7: Centro de Crimes em Tempo Real da Polícia de Nova York	94
LISTA DE GRÁFICOS
Gráfico 1: Receita anual em vendas Netshoes	95
Gráfico 2: Receita anual em vendas Walmart	96
Gráfico 3: Aumento de receita em anúncios do Facebook	97
Gráfico 4: Aumento de receitas de assinaturas da Netflix	99
Gráfico 5: Aumento do número de assinantes do Linkedin	100
Gráfico 6: Aumento número de assinantes da Apple Music	101
Gráfico 7: Aumento de receitas com publicidade do Google	102
Gráfico 8: Aumento de receitas com vendas da Microsoft	103
Gráfico 9:Aumento de receita com vendas da Amazon	104
Gráfico 10: Aumento de receitas do Uber	105
Gráfico 11: Valores recuperados em lavagem de dinheiro	106
Gráfico 12: Fraude detectadas dos Sistemas Medicare e Medicaid	107
Gráfico 13: Número de ameaças neutralizadas pela Imigração e Alfandega	108
Gráfico 14: Valores Bloqueados	109
Gráfico 15: Redução de Roubos e Furtos a automóveis	110
Gráfico 16: Redução nos casos de Dengue	112
Gráfico 17: Cancelamentos do Bolsa Familia	113
Gráfico 18: Diminuição de Assasinatos	114
Gráfico 19: Crimes Violento	115
Gráfico 20: Redução de Crimes violentos	116
LISTA DE ABREVIATURAS E SIGLAS
ABC – American Broadcasting Company
ALPR – Automated License Plate Recognition 
API – Application Programming Interface 
B2T – Business to Technology
BD2K – Projeto Data to Knowledge
CDC – Centros de Doença Control
CEO – Chief Executive Officer
CIA – Central Intelligence Agency
CKAN – Comprehensive Knowledge Archive Network
DAAS – Data as a service 
DAS – Domain Awareness System 
Dataprev – Empresa de Tecnologia e Informações da Previdência Social 
DHS – Departamento de Segurança Interna
DMP – Data Management Plarform 
DVD – Digital Video Disc
EUA – Estados Unidos da America.
FDNY – Corpo de Bombeiros da Cidade de Nova York 
FGTS – Fundo de Garantia do Tempo de Serviço
GPS – Guia da Previdência Social
HBO – Home Box Office
IBM – International Business Machines
INSS – Instituto Nacional do Seguro Social
IP – Internet Protocol Address
LAB-LD – Laboratório de Tecnologia contra Lavagem de Dinheiro
MATLAB – Matrix Laboratory
MP – Ministério Público
MPD – Departamento de Polícia de Memphis
MSDOS – Microsoft Disk Operating System
NASA – National Aeronautics and Space Administration
NIS – Número de Identificação Social
NYPD – Departamento de Polícia de Nova York 
ONG – Organização Não-Governamental
SAAS – Software as-a-Service
SAP – Sistema de Acompanhamento de Processos
SGDB – Data Base Management System
Siape – Sistema Integrado de Administração de Pessoal
SIM – Sistema de Informações sobre Mortalidade
SIT – Sistema de Informação da Secretaria de Inspeção do Trabalho
SO – Sistema Operacional
SPAM – Sending and Posting Advertisement in Mass
SPSS – Search Statistics Software
SSL – Secure Socket Layer
XML – Extensible Markup Language
SUMÁRIO
1 - Introdução	19
1.1 - Problema	20
1.2 - Objetivo Geral	20
2 - Big Data	21
2.1 - Dados, Informações e Conhecimento	21
2.1.1 - Dados	21
2.1.2 - Informação	22
2.1.3 - Conhecimento Tácito e Explicito	22
2.2 - Conceituação do Big Data	23
2.2.1 - Os 5 V’s do Big Data	24
2.2.2 - Estrutura de dados em Big Data	26
2.3 - Tecnologias Envolvidas (Hardware, Software)	27
3 - Metodologia de Pesquisa.	31
3.1 - Intensidade dos termos utilizado nesta pesquisa bibliográfica e documental	31
3.1.1 - Limitações do Método de Pesquisa.	33
4 - Organizações Privadas e o Uso do Big Data	35
4.1 - Netshoes	35
4.1.1 - Netshoes Antes do Big Data.	35
4.1.2 - Objetivo e Desafio.	36
4.1.3 - Netshoese o Big Data.	37
4.1.4 - Dados e Ferramenta.	38
4.2 - Walmart	39
4.2.1 - Walmart antes do Big Data	39
4.2.2 - Objetivo e Desafio	39
4.2.3 - Walmart e o Big Data	40
4.2.4 - Dados e Ferramenta	42
4.3 - Facebook	42
4.3.1 - Facebook antes do Big Data	43
4.3.2 - Objetivo e Desafio	43
4.3.3 - Facebook e o Big Data	44
4.3.4 - Dados e Ferramenta	46
4.4 - Netflix	47
4.4.1 - Netflix antes do Big Data	47
4.4.2 - Objetivo e Desafio	47
4.4.3 - Netflix e o Big Data.	48
4.4.4 - Dados e Ferramenta	49
4.5 - LinkedIn	51
4.5.1 - LinkedIn antes do Big Data.	51
4.5.2 - Objetivo e Desafio.	51
4.5.3 - LinkedIn e o Big Data.	52
4.5.4 - Dados e Ferramenta	54
4.6 - Apple	55
4.6.1 - Apple Antes do Big Data.	55
4.6.2 - Objetivo e Desafio.	56
4.6.3 - Apple e o Big Data.	56
4.6.4 - Dados e Ferramenta.	57
4.7 - Google	58
4.7.1 - Google Antes do Big Data.	58
4.7.2 - Objetivo e Desafio.	59
4.7.3 - Google e o Big Data.	61
4.7.4 - Dados e Ferramenta.	62
4.8 - Microsoft	63
4.8.1 - Microsoft Antes do Big Data.	63
4.8.2 - Objetivo e Desafio	63
4.8.3 - Microsoft e o Big Data.	63
4.8.4 - Dados e Ferramenta.	64
4.9 - Amazon	65
4.9.1 - Amazon Antes do Big Data.	65
4.9.2 - Objetivo e Desafio	66
4.9.3 - Amazon e o Big Data.	67
4.9.4 - Dados e Ferramenta.	68
4.10 - Uber	69
4.10.1 - Uber Antes do Big Data.	69
4.10.2 - Objetivo e Desafio	69
4.10.3 - Uber e o Big Data.	70
4.10.4 - Dados e Ferramenta.	71
5 - Organizações Públicas e o uso do Big Data	73
5.1 - Ministério da Justiça	73
5.1.1 - Ministério da Justiça antes do Big Data	73
5.1.2 - Objetivo e Desafio.	74
5.1.3 - Ministério da Justiça e o Big Data.	74
5.1.4 - Dados e Ferramenta.	75
5.2 - O Governo Dos Estados Unidos Da América.	75
5.2.1 - EUA antes do Big Data	75
5.2.2 - Objetivo e Desafio	76
5.2.3 - O Governo dos Estados Unidos e o Big Data.	77
5.2.4 - Dados e Ferramenta	78
5.3 - Imigração e alfandega dos Estados Unidos.	79
5.3.1 - Imigração e Alfandega ante do Big Data.	79
5.3.2 - Objetivo e Desafio	80
5.3.3 - Imigração e Alfandega e o Big Data.	81
5.3.4 - Dados e Ferramenta.	82
5.4 - Ministério do Trabalho Seguro Desemprego.	82
5.4.1 - Ministério do Trabalho antes da Big data	82
5.4.2 - Principal objetivo.	82
5.4.3 - Ministério do Trabalho e Big Data.	83
5.4.4 - Dados e Ferramenta	83
5.5 - Estado de São Paulo.	84
5.5.1 - Segurança pública no estado de São Paulo e o Big Data.	84
5.5.2 - Objetivo e Desafio.	84
5.5.3 - Dados e Ferramenta.	84
5.6 - Prefeitura do Rio de Janeiro.	85
5.6.1 - Prefeitura do Rio de janeiro antes da Big Data	85
5.6.2 - Objetivo e Desafio.	85
5.6.3 - Prefeitura do Rio de janeiro e o Big Data	86
5.6.4 - Dados e Ferramenta	86
5.7 - Governo Federal e o caso do Programa Bolsa Família.	87
5.7.1 - Governo federal Antes do Big Data	87
5.7.2 - Objetivos e Desafio	87
5.7.3 - Governo Federal e o Big Data.	87
5.7.4 - Dados e Ferramentas	88
5.8 - Departamento de Polícia de Memphis EUA	88
5.8.1 - Departamento de Polícia de Memphis antes da Big Data	88
5.8.2 - Objetivo e Desafio.	88
5.8.3 - Departamento de polícia de Memphis e Big Data	89
5.8.4 - Dados e Ferramenta	89
5.9 - Departamento de Polícia de Chicago	90
5.9.1 - Departamento de Polícia de Chicago antes da Big Data	90
5.9.2 - Objetivo e Desafio	90
5.9.3 - Departamento de Polícia de Chicago e Big Data.	90
5.9.4 - Dados e Ferramenta	90
5.10 - Departamento de Polícia de Nova York	91
5.10.1 - Nova York antes da Big Bata	91
5.10.2 - Objetivo e Desafio	92
5.10.3 - Departamento de Polícia de Nova York e Big Data.	92
5.10.4 - Dados e Ferramenta	94
6 - Resultado	96
6.1 - Netshoes	96
6.2 - Walmart	97
6.3 - Facebook	98
6.4 - Netflix	99
6.5 - LinkedIn	101
6.6 - Apple	102
6.7 - Google	103
6.8 - Microsoft	104
6.9 - Amazon	105
6.10 - Uber	106
6.11 - Ministério da Justiça	107
6.12 - Governo dos Estados Unidos	108
6.13 - Imigração e Alfandega dos Estados unidos	109
6.14 - Ministério do Trabalho Seguro Desemprego	110
6.15 - Estado de São Paulo.	111
6.16 - Prefeitura do Rio de Janeiro.	112
6.17 - Governo Federal e o caso do Programa Bolsa Família.	114
6.18 - Departamento de Polícia de Memphis.	115
6.19 - Departamento de Polícia de Chicago.	116
6.20 - Departamento de Polícia de Nova York.	117
7 - Considerações Finais e Trabalhos Futuros.	118
8 -Referências Bibliográficas.	120
	
	
	
1 - Introdução
	Atualmente o conceito de Big Data desperta muito interesse e aparenta ser um complicado emaranhado de dados e regras, porém, por trás deste conceito há uma simples história. Durante décadas, empresas ao redor do mundo tomaram decisões comerciais baseadas em dados transacionais, armazenados nos mais diversos bancos de dados, mas além dos dados transacionais passaram a acumular dados não transacionais (BIG DATA BUSINESS, 2016), onde as companhias perceberam a possibilidade de extrair informações que viriam a subsidiar seus processos de produção, propaganda e relacionamento com seus clientes. Tais dados não tradicionais, menos estruturados, provem de weblogs, mídias sociais, correios eletrônicos, cadastros e fotografias, entre outras fontes, e são apenas alguns dos dados que podem ser extraídos para obter-se mais informações úteis 
	Organizações públicas e privadas vêm utilizando o Big Data para coletar informações que podem ser aplicadas para aumentar a produtividade, reduzir custos e direcionar seus recursos para a área de forma mais assertiva. O Big Data tornou-se parte fundamental das empresas no processo de transformação digital para explorar o poder de suas informações com mais eficácia, instituições como o Ministério da Justiça brasileiro e empresas como a Netshoes são exemplos que demonstram a percepção positiva do retorno sobre investimento no Big Data.
	Para diminuir o custo e tornar mais viável a coleta de informações algumas empresas estão procurando incluir soluções de Big Data nos seus sistemas afim de obter o valor comercial real de informações relevantes. Para isso, é necessario utilizar as ferramentas certas para capturar e organizar a grande variedade dos tipos de dados, provenientes de diversas fontes e poder facilmente analisa-los no contexto de todas as informações da empresa. 
	Como outras novas tecnologias de informação, o Big Data pode trazer reduções drásticas de custos, melhorias no tempo necessário para executar uma tarefa de computação ou novas ofertas de produtos e serviços. Como a análise tradicional, ela também pode suportar decisões de negócios internos. Os objetivos escolhidos têm implicações para os resultados e benefícios financeiros do Big Data, mas também o processo que lidera a iniciativa, onde cabe dentro da organização e como se gerência o projeto vão estar ligados a estes resultados.
1.1 - Problema
	O Problema surge quando vemos organizações publicas e privadas que não implementaram o Big Data dentro de seu ambiente operacional começaram a perder espaço competitivo no mercado ou eficiência em seus processos. A não utilização do Big Data gerou uma perda de resultados que muitas empresas somente perceberam quando perceberam que as vantagens competitivas de seus concorrêntes ou a melhoria de serviços prestados não vinha necessariamente da reestruturação de uma cadeira produtiva, mas sim de análises baseadas no Big Data que passaram a subsidiar processos internos, remodelagem de produtos e modelos de relacionamento e aumento da eficiência operacional. Com isso fica a pergunta, como e com que intensidade as tecnologias de Big Data tem sido usadas para melhorar as atividades dos setores públicos e privados?
	O presente estudo busca realizar a análise de como as empresas lidam com suas questões de Big Data e como fazem a utilização dos seus volumes cada vez maiores de dados, a fim de obter informações relevantes e valiosas para seus objetivos.
1.2 - Objetivo Geral
	O objetivo geral deste trabalho é elaborar uma pesquisa bibliográfica e documental que mostre como os resultados das empresas foram impactadas positivamente após terem adotado as tecnologias de Big Data que possibilitaram extrair valor de seus dados garantindo muitas vantagens competitivas.
2 - Big Data
2.1 - Dados, Informações e Conhecimento2.1.1 - Dados
	“Os Dados são os registros soltos, aleatórios, sem quaisquer análises” (REZENDE, 2015).
	“Os Dados são fatos que podem ser gravados e que possuem um significado implícito” (NAVATHE; ELMASRI, 2005, p.03).
	Esses são elementos brutos que representam a forma primitiva da informação, ou seja, é um dado que ainda será tratado. Eles representam a um ou a inúmeros significados que sozinho não tem notabilidade nenhuma conforme podem ser visualizados na Figura 1.
Figura 1:Transformação de Dados em informação
Fonte: Própria (2018)
2.1.2 - Informação
 	A informação é uma listagem dos dados já organizados e com significado. A consequência desse procedimento gera a informação. Drucker (2000, p.13) diz que a informação é “dado investido de relevância e propósito”. No contexto de Big Data quando tratamos de informação, existem grandes volumes de dados que são coletados, porém a maioria deles são irrelevantes para as empresas, fato que, nessa situação, provoca o tratamento deles para gerar informações que serão analisadas, e em seguida toma-se a decisão do que será aproveitado.
“É um conhecimento inscrito (registrado) em forma escrita (impressa ou digital), oral ou audiovisual, em um suporte” (COADIC, 2004, p. 4). 
“Conhecimento comunicado, desempenha um papel central na sociedade contemporânea” (CAPURRO, HJORLAND, et al., 2007, p. 149).
	Segundo Mcgee & Prusak (1994, p.24), informação são “dados coletados, organizados, ordenados, aos quais são atribuídos significados e contexto”. 
	A importância da informação está exatamente associada à maneira como ela auxilia as pessoas ou empresas a alcançarem seus objetivos pré-estabelecido, ou seja, a informação só será importante se for útil às pessoas ou empresas.
2.1.3 - Conhecimento Tácito e Explicito
	Segundo Nonaka e Takeuchi (2008, p. 7) o conhecimento é dividido em duas entidades, o conhecimento do tipo “tácito”, e o conhecimento do tipo “explicito”, onde o conhecimento tácito não é facilmente visível e explicável, pois, está enraizado nas ações e nas experiências do indivíduo, ele é muito pessoal, difícil de ser expresso em palavras, enquanto o explícito pode ser expresso (palavras, números ou sons), onde pode ser realizado formalmente.
	Segundo Nonaka e Takeuchi (2008, p.25), “O conhecimento é criado apenas pelos indivíduos, pois uma organização não pode criar conhecimento por si mesma sem os indivíduos.”
	O conhecimento é definido por Mussak (2003, p. 62) como "informação com significado, capaz de criar movimento, modificar fatos, encontrar caminhos, construir utilidade, fabricar beleza". Por causa disso, o conhecimento está intrinsecamente ligado as pessoas, sendo as mesmas necessárias para a criação do mesmo, o conhecimento é aquilo que o homem absorve de alguma maneira, através de informações que de alguma forma lhe são apresentadas, para um determinado fim ou não.
	Para Laudon e Laudon (1999, p. 10), “Conhecimento é o conjunto de ferramentas conceituais e categorias usadas pelos seres humanos para criar, colecionar, armazenar e compartilhar a informação.”
	É possível afirmar que o conhecimento Tácito e Explicito são complementares e a relação desenvolvidas por eles será a principal dinâmica da criação do conhecimento nos negócios. 
2.2 - Conceituação do Big Data
	Historicamente, mesmo antes do ser humano desenvolver a linguagem escrita, já existiam formas de armazenar o conhecimento obtido e transmiti-lo às gerações posteriores, através dos conhecidos desenhos rupestres, por exemplo. Desta forma, preservavam-se os dados adquiridos, seja na caça de animais ou colheita de frutos silvestres, para uso por novas gerações e indivíduos que não tivessem participado do ato. Aprendeu-se daí que tais dados poderiam ser analisados e interpretados, havia sempre uma informação a ser descoberta, que traria benefícios ao usuário.
	Com a evolução social, notadamente a revolução industrial e tecnológica, o crescimento das populações de diversas partes do mundo e a globalização dos mercados consumidores e produtores, a geração de dados relacionados à atividade humana em todos os campos ligados à sua existência, seja em sociedade ou particular, experimenta um crescimento exponencial em função do maior número de atividades disponíveis e na maior eficiência da atuação humana, gerando mais resultados num mesmo período de tempo. Atualmente, com a revolução tecnológica que difundiu o uso de equipamentos eletrônicos com capacidade de armazenar dados eletronicamente e compartilhá-los de forma instantânea, é difícil encontrar uma atividade que seja realizada sem a geração de dados e o seguinte armazenamento, o que fica evidenciado no fato de quase 90% dos dados armazenados em 2011, no mundo todo, terem sido gerados nos dois anos anteriores, com aproximadamente 2,5 quintilhões de bytes sendo armazenados diariamente (IBM, 2011). Isto cria possibilidades quase infinitas de análise em busca de informações para melhoria de desempenho, afinal o homem busca dar significado a todas as suas ações e, portanto, registra suas atividades nos mais variados campos de atuação.
	Nesse contexto de geração e armazenamento de dados em quantidades e velocidade cada vez maiores, empresas e governos por todo o mundo perceberam a possibilidade de analisar esta quantidade massiva de informação para melhoria da tomada de decisões sobre seus negócios, aumento da competitividade de produtos, organização de serviços com maior efetividade, desenvolvimento de políticas de governo com mais assertividade e redução dos custos gerais de operação, obtendo maior retorno financeiro em suas atividades, criando assim o que se deu o nome de Big Data.
	Como foi adicionado ao dicionário Oxford em 2013, Big Data é termo que se refere a quantidades extremamente grandes de dados que podem ser analisados computacionalmente para revelar padrões, tendências e associações, principalmente relacionados ao comportamento e interações humanas e que demandam elevada capacidade de análise computacional para serem aproveitados (WHITE, 2015). Um conceito simples de ser entendido, porém bastante complexo na sua aplicação, gerenciamento e manutenção.
	O termo Big Data ganhou força durante os anos 2000, a partir do trabalho de Doug Laney, onde o autor estabelece uma nova abordagem para o gerenciamento de dados, baseados no controle do volume, da velocidade e da variedade dos dados (LANEY, 2001). No estudo são apontados os efeitos do comércio digital, o crescimento de fusões e aquisições entre empresas, o aumento da colaboração e a coleta de informação acirrando a competitividade, como os responsáveis pela mudança na forma de gerenciar os dados até seus níveis mais básicos.
2.2.1 - Os 5 V’s do Big Data
	Os cinco pilares do Big Data podem ser definidos por Volume, Velocidade, Variedade, Veracidade e Valor, também conhecidos como os 5V’s do Big Data.
	O Volume, como o próprio nome sugere, diz respeito à quantidade de dados que são armazenados pelas empresas, valor que aumenta diariamente e, segundo dados compilados pela Wikibon.org, atingiu a faixa de 1,2 zettabytes em 2009, valor que continuará aumentando e atingirá um valor 44 vezes maior em 2020. É a base que traduz a massa de dados armazenada digitalmente.
	Associada a capacidade de produção de dados, temos a Velocidade, que é a medida onde se visualiza a rapidez com que os dados são gerados pelas corporações e seus clientes e usuários. Para ilustrar como a sociedade atual produz dados em velocidade surpreendente, somente o Walmart lida com mais de 1 milhão de transações dos seus usuários por hora, dados que são importados para suas bases de dados e estão estimados em um volume de 2,5 petabytes, de acordo com a pesquisa realizada por Douglas Karr (KARR, 2012).
	O Big Data toma sua forma a partir de mensagens, atualizações e imagens postadas em redes sociais, leituras realizadas pelos mais variados sensores, sinais de GPS gerados e captados por celulares, mercados de compra e venda digitais e diversos outros meios que produzem uma enorme quantidade de dados como subproduto doseu funcionamento. Estes dados geralmente são não estruturados, ou seja, não organizados em bancos de dados, mas podem ser processados e armazenados de forma a produzir informação útil e é nesse ponto que se define a Variedade dos dados, ou seja, suas diversas fontes e formatos e seu estado estruturado ou não (MCAFEE, BRYNJOLFSSON, 2012).
	Um pilar indispensável ao entendimento e utilização do Big Data é a Veracidade, ou seja, as informações extraídas dos dados são verdadeiras em relação ao mundo real e apresentam confiabilidade? Sendo uma dimensão cuja importância passou a ser reconhecida após as demais, ainda se apresenta como uma limitação importante na pesquisa e utilização do Big Data, pois, se não é possível identificar e verificar as fontes e a integridade dos dados, todas as informações extraídas tornam-se questionáveis, o que reduz o seu valor (LUKOIANOVA; RUBIN, 2013).
	O Valor no Big Data está ligado diretamente à qualidade da informação obtida a partir da análise dos dados. Barreto (2000), em seu estudo sobre o mercado de informação no Brasil, define que “seu preço, quando está o possui, pouco tem a ver com o seu custo e os dois, preço e custo, não se relacionam com o valor como uma mercadoria tradicional “. Como apresentado no pilar da Veracidade, uma informação precisa ser verdadeira e válida para apresentar valor, que poderá ser medido também a partir do impacto que ela pode causar nos negócios e decisões das empresas, além de carregar consigo o custo de sua geração, formando em alguns casos o preço de compra, venda ou troca. A informação terá valor para uma organização na medida em que ela for capaz de ajudar no processo de tomada de decisões para o atingimento das metas propostas (CAIÇARA JR, 2012) e isto irá variar de acordo com sua área de atuação, sendo sua gestão privada ou pública. A medição deste valor se baseia em três passos: conhecer, selecionar e usar a informação (WEITZEN,1991). Para que se possa atribuir o valor de uma informação, portanto, se faz necessário conhecer para quem ela é direcionada, sendo assim o objetivo da instituição que irá utilizá-la, pública ou privada, é que será o fator crucial para a atribuição de valor. Como explica Haddad: “(o valor) depende intimamente, não somente do seu potencial de utilização, mas, sobretudo, da sua efetiva utilização nos momentos oportunos, isto é, o valor da informação é tão maior quanto maior for o benefício alcançado com sua utilização.”
2.2.2 - Estrutura de dados em Big Data
	A grande parte dos dados quando falamos de Big Data não são estruturados ou semiestruturados na sua essência, para realizar seu processamento e analise, será necessário adotar diferentes técnicas e ferramentas para extrair de melhor forma esses dados.
	Muitos conhecimentos podem ser extraídos a partir dos desestruturado, quase estruturados ou semiestruturados nos dados de call center (EMC, 2015).
	Estruturados: São dados organizados em blocos em formato rígido mantidos num SGDB. Exemplos que podemos apresentar são tabela de um banco de dados (existem tipo de dados rígidos - datatype de uma coluna e tamanho máximo de armazenamento). Além disso, é possível prever o que será incluído em um campo da tabela caso for um texto, número e seu tamanho máximo. 
	Semiestruturado: Eles acompanham os padrões heterogêneas são mais difíceis de serem identificados, pois podem seguir vários padrões, arquivos de dados textuais com um padrão discernível que permite a análise (tais como Extensible Markup Language arquivos de dados [XML] que são autodescrição e definidas por um XML esquema).
	Quase estruturados: Dados textuais com formatos de dados irregulares que podem ser formatadas com o esforço, ferramentas e tempo (por exemplo, dados de páginas visitadas na web que podem conter inconsistências nos valores de dados e formatos) 
	Não estruturados: São dados sem nenhuma rigidez ou quase nenhuma sobre esses dados, não segue uma regra, e não possui uma estrutura definida podemos incluir arquivos de imagens, vídeos, post em redes sociais e PDFs.
Figura 2: Big Data Estrutura de Dados
Fonte: Própria (2018)
2.3 - 	Tecnologias Envolvidas (Hardware, Software)
	Atualmente o mercado disponibiliza grande variedade de softwares, inclusive gratuitos, que são especializados em diversas tarefas relacionadas ao uso do Big Data. Passando pelo Business Inteligence e a mineração de grandes quantidades de dados é possível destacar o Oracle Hyperion, SAP BusinessObjects, Microsoft Business Inteligence e QlikView. Provendo infraestrutura operacional surgem ferramentas como o Couchbase, Terracota e VoltDB, e na infraestrutura de analise destacam-se o ParAccel, DataStax e Kognitio. Ainda na área de infraestrutura, alguns gigantes do mercado fornecem os serviços diretamente, tirando do cliente a necessidade de operar o sistema, como as soluções Amazon Web Service, Windows Azure e Google BigQuery. No fornecimento de bancos de dados estruturados, Oracle MySQL, PostgreSQL e Micrsoft SQL Server se apresentam como os nomes mais comuns e conhecidos (FEINLEIB, 2012).
Figura 3: Big Data Landscape
Fonte: Dave Feinleib; Forbes (2012)
	É preciso ressaltar que estes são apenas alguns dos nomes presentes no mercado e que estão relacionados a manipulação e utilização do Big Data nos seus diversos aspectos. Quando comparamos os dados de Feinleib (2012) sobre as aplicações disponíveis no mercado com o compilado realizado por Matt Turck e Jim Hao (2017) ilustrado na Figura 4, para a empresa First Mark, é possível visualizar um aumento impressionante, não somente na quantidade de sistemas, mas também nas áreas de atuação, com o surgimento de campos cada vez mais especializados e dedicados a solução de problemas que surgem com o aumento exponencial da quantidade de dados gerados e armazenados.
Figura 4: Big Data Landscape 2017
Fonte: Matt Turck e Jim Hao; FIRSTMARK (2017)
	As linguagens de programação presentes nestas aplicações variam de acordo o desenvolvedor, porém, há um grande uso de linguagens como a R, que foi desenvolvida especificamente para a análise estatística de dados, a MATLAB, com foco em análises quantitativas e matemáticas e a linguagem Scala, especializada em computação em cluster, sendo assim uma poderosa ferramenta na análise de grandes quantidades de dados, além da presença de tecnologias como Hadoop e Cassandra, que visam minimizar os problemas trazidos pelo volume de dados.
	Os hardwares variam desde o computador pessoal, que pode ser utilizado em micro e pequenas empresas sem elevar o custo de operação e permitindo a análise em menor escala sem sacrificar a capacidade de produzir informações. Existem também máquinas de alta capacidade computacional que trabalham exclusivamente na análise de dados, e empresas, como a Keyrus, especializadas em disponibilizar essa estrutura de hardware e software, para outras empresas, assim reduzindo seus custos pois elimina do proprietário dos dados a necessidade de investir em tecnologia para extrair informações de suas bases.
3 - Metodologia de Pesquisa.
	Com base em (CHIZZOTTI 2003, GIL, 2002), pode-se declarar esta pesquisa como bibliográfica e documental, sendo a diferença entre ambas percebida na natureza das fontes. Enquanto a pesquisa bibliográfica utiliza-se de contribuições de vários autores e suas obras sobre determinado assunto, a pesquisa documental se vale de matérias que ainda não receberam um tratamento analítico ou que ainda podem ser reelaboradas de acordo com o objeto da pesquisa.
	Os dados colhidos na pesquisa documental, buscam descrever a intensidade do Big Data sobre as organizações públicas e privadas, através da amostragem de resultados obtidos após a implementação da tecnologia.
	Durante a elaboração desta pesquisa Bibliográfica e documental foi-se utilizado alguns termos de pesquisa que chamamos de intensidade, sempre a palavra intensidade aparecer nesta pesquisa, significa que estamos nos referindo a quantidade de informações e palavras chaves que foram utilizadas para chegar até os dados que foram julgados comonecessários para elaboração desta pesquisa.
3.1 - Intensidade dos termos utilizado nesta pesquisa bibliográfica e documental
Após o pico em julho de 2004, com 77 pesquisas realizadas, o assunto teve poucas ou nenhuma pesquisa. A partir de setembro de 2012 o termo aparece em buscas mensais e apresenta crescimento constante, não mais se tornando um assunto pouco procurado. A mesma pesquisa realizada em inglês, What is big data, apresenta o mesmo comportamento com a diferença de que, desde 2004, em nenhum momento deixou de ser procurada. Isso demonstra que a busca por entendimento sobre o que é o Big Data já está presente no mundo desde 2004, e que a intensidade com a qual o termo foi buscado, no Brasil e no mundo, passa a aumentar no ano de 2012, experimentando oscilações, porém sempre em trajetória ascendente. (GOOGLE, 2018)
As demais pesquisas realizadas estão elencadas em seguida com a quantidade de resultados apresentados pelo mecanismo de busca Google em conjunto com a quantidade de acessos realizados. A intensidade com a qual o Big Data se mostra nelas vem representada pela quantidade de material encontrado durante as buscas e nos ajuda a concluir e visualizar que a tecnologia está diretamente vinculada às atividades dos setores público e privado, visto a abundância de resultados, e que apresenta a tendência de crescimento de sua participação no dia a dia de cada vez mais companhias e governos.
	 Em relação ao termo “organizações públicas e Big Data" no google.com.br obteve-se o resultado de aproximadamente 693.000, links disponíveis para consultas, desses links, 58 foram acessados durante a elaboração da pesquisa documental. Mas somente alguns foram utilizados de fato devido ao desencontro de informações e resultados. 
	Em relação ao termo "Public Organizations Big Data” no google.com obtivemos o resultado de aproximadamente 166.000.000, links disponíveis para consultas, desses links foram acessadas 98 páginas durantes a elaboração da pesquisa documenta, mas somente alguns foram utilizados de fato devido ao desencontro de informações e resultados.
	 Em relação ao termo " organizações privadas e Big Data" no google.com.br obteve-se o seguinte resultado de aproximadamente 648.000, links disponíveis para consultas, desses links foram acessados, 55 páginas durante a elaboração da pesquisa documental. Mas somente alguns foram utilizados de fato devido ao desencontro de informações e resultados
	Em relação ao termo "Private Organizations Big Data" no google.com obteve-se o resultado de aproximadamente 123.000.000 links disponíveis para consultas, desses links foram acessadas 108 páginas durante a elaboração da pesquisa documental, mas somente alguns foram utilizados de fato devido ao desencontro de informações e resultados.
Das empresas pesquisadas que não foram selecionadas, nenhuma delas disponibilizam os dados necessários nos instrumentos de pesquisa utilizados, como detalhes de quais os procedimentos adotados no tratamento de suas informações, quais as tecnologias e técnicas envolvidas, quais critérios são utilizados para a separação dos dados de interesse nem quais são, exatamente, quais dados dos seus usuários são armazenados e qual é o volume atual em seus bancos de dados. O comportamento é justificável, afinal informações sensíveis como políticas e estratégias de negócios internas, quantidade de clientes e informações armazenadas representam vantagem competitiva e o acesso ao público em geral também representaria o acesso para os concorrentes, trazendo risco para o negócio.
	Em relação ao termo “grupo pão de açúcar e big data” no google.com.br obteve-se o resultado de aproximadamente 267.00 links disponíveis para consultas, desses links foram acessados 15, porém nenhum desses disponibilizavam as informações necessárias para a elaboração da pesquisa documental.
	Em relação ao termo “maplink big data” no google.com.br obteve-se o resultado de aproximadamente 104.000 links disponíveis para consultas, desses links foram acessados 10 porem nenhum desses disponibilizavam as informações necessárias para a elaboração da pesquisa documental.
	Em relação ao termo “totvs e big data” no google.com.br obteve-se o resultado de aproximadamente 159.000 links disponíveis para consultas, desses links foram acessados 16 porem nenhum desses disponibilizavam as informações necessárias para a elaboração da pesquisa documental. 
	
3.1.1 - Limitações do Método de Pesquisa.
	Durante a elaboração desta pesquisa documental foi inserido no google acadêmico os seguintes termos "empresas privadas Big Data", "organizações públicas “Big Data", organizações privadas "Big Data", porém nenhum destes termos resultaram em alguma informação que pudesse agregar nesta pesquisa documental, procurou-se também na base de periódicos da CAPES, mas devido à dificuldade de acesso à base não foi possível visualizar as informações disponíveis.
	A pesquisa contida neste trabalho é limitada pois a própria natureza dos dados pesquisados cria impedimentos às suas publicações, visto que muitas vezes se tratam de dados sigilosos, protegidos por segredo de indústria por representarem um potencial de exploração pela concorrência e até mesmo pela indisponibilidade das informações, uma vez que determinadas pesquisas que serviram de base para a elaboração deste trabalho não são realizadas com frequência ou apresentam frequência irregular, impossibilitando a construção de análises mais precisas.
4 - Organizações Privadas e o Uso do Big Data
4.1 - Netshoes
4.1.1 - Netshoes Antes do Big Data.
	Fundada no ano 2000 pelos primos Marcio Kumruian e Hagop Chaba a Netshoes era apenas uma simples loja de calçados situada na rua Maria Antônia no bairro de Villa Buarque em são Paulo, após 2 anos de loja física os empresários optaram por investir no comércio eletrônico, nos primeiros 4 meses de loja virtual a Netshoes vendeu apenas 3 pares de sapatos. Mesmo com as dificuldades iniciais eles continuaram inovando e começaram a investir em maiores proporções no mercado digital (DESTINO NEGOCIO,2018).
	No ano de 2007 a Netshoes passou a operar apenas via web, com isso a empresa registrou um aumento significativo das vendas ano após ano. Por isso a empresa não tinha como atender de forma eficiente e eficaz a demanda de pedidos que só aumentava (SAS INSTITUTE, 2015).
	Após a decisão de concentrar-se somente no comercio eletrônico, a empresa registrou um aumento de receitas significativo que fez com que ela chegasse a conclusão de que ainda era necessário expandir, mas, também havia a necessidade de manter a estabilidade de seus sistemas, pois a empresa só operava na web. Com isso, os principais Desafio que a empresa teria que enfrentar eram (RATTES; JANNES, 2016).
· A Falta de estabilidade da plataforma, que causava lentidão e gerava alguns erros nos horários de pico. 
· A complexidade do gerenciamento, devido às limitações das soluções ou devido aos recursos de computação necessários para manter a solução em execução
· Promoções, precificação e customização de produtos
	O rápido crescimento e os altos investimentos levaram a empresa a pesquisar soluções mais robustas, afim de melhorar a eficiência eficácia do seu sistema, para que pudesse melhorar a operação e permitir uma estruturação maior e a longo prazo. Após a identificação destas necessidades a Netshoes deu início ao um processo de estruturação onde foi implantado um sistema da Oracle chamado Oracle Exalogic Elastic Cloud, causando um impacto positivo. “A plataforma de comunicação com o cliente e vendas se tornou mais estável, e seu desempenho melhorou consideravelmente, assim como seu tempo de resposta “(INFOTECHLEAD, 2015).
4.1.2 - Objetivo e Desafio.
	A Netshoes como toda empresa e-commerce necessita vender seus produtos para sobreviver. Para fazer isso, a empresa colocou como objetivo entender melhor o perfil de seus clientes para comercializa seus produtos. Em parceria com a Tail Target, empresa especializada em Data Intelligence a Netshoes utiliza o gerenciamento dos dados para conhecer melhor os clientes.“Conhecer detalhes do perfil de quem visita o site abre uma gama de possibilidades de geração de negócios e também um modo mais inteligente de a Netshoes interagir com o consumidor” (ECOMMERCEBRASIL, 2015)
Figura 5 - Tail Target, empresa brasileira que fornece DMP
Fonte: Cliente sa
	O funcionamento da plataforma se dá da seguinte maneira: caso o consumidor busque um produto específico – uma chuteira de futsal, por exemplo –, saber que ela é do sexo feminino, tem entre 18 e 25 anos e gosta de jogar futebol de salão nos fins de semana, dá à Netshoes a possibilidade de surpreendê-la com oferta adicional de uma bola de futsal (ECOMMERCEBRASIL, 2015).
	A plataforma DMP entrega dados de comportamento online segmentados em 200 categorias de audiência, divididas em oito módulos de interesse (gênero, faixa etária, localização, geolocalização, renda, interesses e estilos de vida) (SAS INSTITUTE, 2015).
	A Netshoes, para alcançar esse objetivo da melhor pratica de compra e capitar clientes, o método da empresa com Big Data considera a análise preditiva. A forma é fazer com que, diante das ofertas personalizadas, desperte no subconsciente do cliente um sentimento de consumo, porém para a Netshoes esse sentimento do cliente é programado. “Nós conhecemos o nosso cliente e nossas recomendações de serviços e opções o mobilizam de tal forma que isso influencia cada vez mais o contato dele com a Netshoes, desde o canal de atendimento telefônico até o uso do nosso aplicativo com navegação personalizada” (ECOMMERCEBRASIL, 2015)
4.1.3 - Netshoes e o Big Data.
	Após a implementação da ferramenta, a empresa compreendeu que ainda era necessário ir além, mas também era de muita importância manter a solidez de seus sistemas, pois a web era a única maneira de relacionamento da empresa com o cliente. Abaixo algumas das soluções de Big Data que a Netshoes implementou em seu sistema.
	Soluções do SAS (Estatística Analysis System).
· Para atender ao forte crescimento de modo personalizado. A Netshoes contratou uma solução de inteligência analítica para conhecer as preferências de seus clientes e se preparar para atendê-los de maneira correta (RATTES; JANNES, 2016).
	A implantação da solução do SAS foi destinada a uma quantidade média de 30 milhões de acessos por mês no site (RATTES; JANNES, 2016). Para avaliar as informações, foi acordado que seria haveria uma segmentação em duas esferas: de valor e comportamental, e que seriam divididas em 12 grupos segundo o perfil dos usuários, para traçar metas e estratégias de vendas e criar um relacionamento com o cliente. Junto a isto, a empresa criou um tipo de segmentação denominada RFV, referência, Frequência e valor: que juntas mostrariam dados referentes a:
· Gastos médios de cada Cliente
· Quando o Cliente realizou sua última compra.
· A quantidade de vezes que a compra se repetiu.
	Com a análise e identificação de cada informação a organização melhorou sua forma de relaciomento com o cliente.
4.1.4 - Dados e Ferramenta.
	A ferramenta escolhida pela Netshoes para implementar as soluções Big Data foi a Oracle Exadata Database Machine, que possui uma estrutura voltada para a gestão das informações do banco de dados que são de fato importantes para a empresa. Com a utilização da ferramenta a quantidade de acessos ao site e o processo de informação cresceram certa de 70% no mesmo ano (INFOTECHLEAD, 2012).
Figura 6: Oracle Exadata Database Machine
Fonte: Oracle.
	Junto a ferramenta a Netshoes integrou uma solução de Data Intelligence, da empresa Tail Target, uma empresa brasileira que trabalha com o fornecimento da tecnologia de Data Management Plarform (DMP). Com esta implementação a empresa ganha acesso a solução no gerenciamento de informação para melhor conhecimento e organização do perfil de seus clientes. O sistema possuiu uma vasta e completa opção de gerenciamento dos dados, com uma de analisar de forma mais completa e rápida o comportamento em tempo real de cerca de 100 milhões de cliente em tempo real, e criar e disponibilizar ofertas mais relevantes de acordo com o acesso de seus clientes (CLIENTE SA, 2015).
	A plataforma funciona da seguinte maneira: caso consumidor faça uma busca por um produto específico, uma chuteira por exemplo, saber que ele está acima de 17 anos e joga futebol, logo a Netshoes tem a possibilidade de contempla-lo com uma oferta adicional de uma caneleira. A plataforma disponibiliza os dados de comportamento segmentados em diversas categorias, que são dividias em módulos de interesse, (Estilo de vida, Gênero, Localização, renda, Interesses e Geolocalização (ECOMMERCEBRASIL, 2015).
4.2 - Walmart
	Como o Big Data é usado para impulsionar o desempenho do supermercado.
4.2.1 - Walmart antes do Big Data
	O Walmart é a maior empresa varejista do mundo em números de receita com mais de dois milhões de funcionários e 20.000 lojas em 28 países (CARVALHO, 2016). Com operações nesta escala, não é surpresa que tenham visto valor em análise de dados. Em 2004, quando o furacão Sandy atingiu o Estados Unidos, descobriram que toda informação pode ser aproveitada, se for estudada/analisada como um todo, e não como um conjunto individual isolado. Tentando prever a demanda por suprimentos de emergência devido ao furacão Sandy que se aproximava, a CIO Linda Dillman descobriu algumas estatísticas surpreendentes. Além de lanternas e equipamentos de emergência, o mau tempo esperado levou a um aumento nas vendas de morangos Pop Tarts em vários outros locais. Suprimentos extras foram despachados para as lojas no caminho do furacão Frances em 2012, e venderam muito bem.
4.2.2 - Objetivo e Desafio
	Os supermercados da rede vendem milhões de produtos para milhares de pessoas todos os dias. É uma indústria ferozmente competitiva com a qual uma grande proporção de pessoas que vivem no mundo desenvolvido confia para fornecer-lhes o essencial do dia-a-dia. Os supermercados competem não apenas pelo preço, mas também pelo atendimento ao cliente e, vitalmente, pela conveniência. Ter os produtos certos no lugar certo, na hora certa, para que as pessoas certas possam comprá-los, requer uma enorme atenção da logística. Os produtos precisam ter um preço acessível, para se manterem competitivos. E se os clientes descobrirem que não podem obter tudo o que precisam sob o mesmo teto, eles procurarão por um outro lugar para fazer compras de acordo com as suas necessidades.
	Com uma operação analítica tão ambiciosa quanto a planejada pelo Walmart, a rápida expansão exigiu uma grande entrada de novos funcionários, e encontrar as pessoas certas com as habilidades certas não foi fácil. Esse problema está longe de ser restrito ao Walmart: um levantamento recente de pesquisadores Gartner descobriu que mais da metade das empresas sentem a sua a capacidade de executar a análise de Big Data prejudicada pela dificuldade de contratar talento apropriado (GARTNER, 2014).
	Uma das abordagens que o Walmart tomou para resolver isso foi recorrer a Crowdsourced data Science competition website Kaggle que definiu para usuários do site como um desafio que envolvia prever como eventos promocionais e sazonais, como vendas de estoque e feriados influenciariam as vendas de vários produtos diferentes. Aqueles que vieram com modelos que mais se aproximavam da vida real, dados recolhidos pelo Walmart, foram convidados a candidatar-se a cargos disponíveis na equipe de ciência de dados. De fato, um daqueles que se viram trabalhando para o Walmart depois de participar da competição foi Naveen Peddamail.
4.2.3 - Walmart e o Big Data
	Em 2011, com uma crescente conscientização de como os dados poderiam ser usados para entender as necessidades de seus clientes e fornecer os produtos que eles queriam comprar, o Walmart criou a WalmartLabs e sua Equipe Fast Big Data para pesquisar e implantar novas iniciativas baseadas em dados para o negócio (ABF, 2016).
	O ponto culminante dessa estratégia foi chamado de Data café - um centro analítico de ponta em sua sede em Bentonville, Arkansas. No café, a equipe de análise pode monitorar200 fluxos de dados internos e externos em tempo real, incluindo um banco de dados de 40 petabytes com todas as transações de vendas de semanas anteriores.
	A análise oportuna de dados em tempo real é vista como fundamental para impulsionar o desempenho dos negócios “Se você não consegue ter projeções antes de ter analisado suas vendas por uma semana ou mês, então você perdeu oportunidades de venda neste período. Nosso objetivo é sempre obter informações para os nossos parceiros de negócios o mais rápido possível, para que eles possam agir e reduzir o tempo de retorno. É uma análise proativa e reativa” (PEDDAMAIL, 2016).
	Equipes de todas partes da empresa são convidadas a visitar o Café com seus problemas de dados e trabalhar com os analistas para encontrar uma solução. Há também um sistema que monitora indicadores de desempenho em toda a empresa e aciona alertas automatizados quando atingem um determinado nível convidando as equipes responsáveis por eles a falar com a equipe de dados sobre possíveis soluções.
	O analista deu um exemplo de uma equipe de produtos alimentícios que estava lutando para entender por que as vendas de um determinado produto estavam inesperadamente em declínio. Uma vez que seus dados estavam nas mãos dos analistas do Café, foi estabelecido muito rapidamente que o declínio era diretamente atribuível a um erro de precificação. O erro foi imediatamente corrigido e as vendas recuperadas em poucos dias.
	As vendas em diferentes lojas e diferentes áreas geográficas também podem ser monitoradas em tempo real. Um dia das bruxas, os números de vendas de cookies estavam sendo monitorados, quando analistas viram que havia vários locais onde não estavam vendendo nada. Isso permitiu que eles acionassem um alerta para as equipes de merchandising responsáveis por essas lojas, que rapidamente perceberam que os produtos nem haviam sido colocados nas prateleiras (BRUNO, 2012). Não é exatamente um algoritmo complexo, mas não teria sido possível sem a análise em tempo real.
	Outra iniciativa é o Projeto Genoma Social do Walmart, que monitora conversas em mídias sociais públicas e tenta prever quais produtos as pessoas comprarão com base em suas conversas. Eles também têm o serviço Shopycat, que prevê como os hábitos de compras das pessoas são influenciados por seus amigos (usando novamente dados de mídia social) e desenvolveram seu próprio mecanismo de pesquisa, chamado Polaris, para permitir que analisem termos de pesquisa inseridos pelos clientes em seus sites (BRUNO, 2012).
	Segundo o Walmart o sistema Data Café gerou uma redução no tempo que leva para problema ser identificado para uma solução sendo proposta de uma média de duas a três semanas para cerca de 20 minutos. (BRUNO, 2012).
4.2.4 - Dados e Ferramenta
	O Data Café usa um banco de dados constantemente atualizado que consiste em 200 bilhões de linhas de dados transacionais, e isso representa apenas as últimas semanas de negócios. Além disso, extrai dados de outras 200 fontes, incluindo dados meteorológicos, dados econômicos, dados de telecomunicações, dados de mídia social e um banco de dados de eventos que ocorrem nas proximidades das lojas Walmart.
	O banco de dados transacional em tempo real do Walmart consiste em 40 petabytes de dados. Embora este volume de dados transacionais seja enorme, ele inclui apenas os dados das semanas mais recentes, pois é onde o valor, na medida em que a análise em tempo real ocorre, é encontrado. Os dados das lojas em cadeia, divisões online e unidades corporativas são armazenados centralmente no Hadoop (um sistema de armazenamento de dados e gerenciamento de dados distribuídos).
	O CTO Jeremy King descreveu a abordagem como democracia de dados, já que o objetivo é disponibilizá-la a qualquer pessoa na empresa que possa utilizá-la. Em algum momento após a adoção do framework Hadoop distribuído em 2011, os analistas ficaram preocupados que o volume estava crescendo a uma taxa que poderia prejudicar sua capacidade de analisá-lo. Como resultado, adotou-se uma política de coleta de dados de gerenciamento inteligente que envolveu a configuração de vários sistemas projetados para refinar e categorizar os dados antes que eles fossem armazenados. 
4.3 - Facebook
Como o Facebook usou o Big Data para o fortalecimento da marca e vendas de espaços publicitários.
4.3.1 - Facebook antes do Big Data
	O Facebook, por uma margem considerável, ainda é a maior rede social do mundo (KURTZ, 2017).
	Essa rede social é usada por todos desde os mais velhos aos mais jovens para manter contato com os amigos, compartilhar ocasiões especiais e organizar eventos sociais. Milhões de pessoas todos os dias também usam para ler notícias, interagir com suas marcas favoritas e tomar decisões de compra.
	Como todas as grandes redes sociais e mecanismos de busca, é essencialmente livre para o usuário final. A empresa ganha o dinheiro que usa para pagar seus mais de 27.742 funcionários e manter seus serviços on-line de empresas que pagam para acessar os dados que o Facebook coleta sobre nós quando usamos seus serviços (FACEBOOK, 2018).
	Este ano, segundo estatísticas no trimestre de 2018 a empresa anunciou que há atraído seis milhões anunciantes ativos, principalmente pequenas e médias empresas, que pagar por anúncios que apareçam nos feeds de pessoas que possam estar interessadas em eles (STATISTA, 2018).
4.3.2 - Objetivo e Desafio
	As empresas precisam vender produtos e serviços para sobreviver. Para fazer isso, eles precisam encontrar clientes para comercializa-los. Tradicionalmente, isso tem sido feito publicamente de forma “broadcast” publicando em: jornal, TV, rádio e propaganda publicitária trabalham com o princípio de que, se você colocar seus anúncios em lugares mais relevantes, certamente você pagará um valor elevado a um grande número de empresas. Alguns deles provavelmente estarão interessados no que você está oferecendo.
	No entanto, esta é obviamente uma abordagem “hit-and-miss” onde leva os empresários a criar um monte de conteúdo que será lido por um grupo pequeno de pessoas (WSI,2016). Para uma grande empresa multinacional, pode ficar claro que um comercial de TV durante o Super Bowl que é a maior audiência do mundo aumentará sua exposição e colocará sua marca na frente de clientes em potencial. O preço médio de um comercial para 30 segundos no ar gira ao redor de 5 milhões em dólares (BADENHAUSEN, 2018). Mas uma pequena empresa apenas começando tem que pensar com muito mais cuidado sobre a maneira mais eficiente de gastar seu orçamento de marketing limitado. Essas empresas não podem arcar com todas as bases, portanto, ferramentas que podem ajudá-las a descobrir quem são seus clientes e onde encontrá-las podem ser extremamente benéficas.
	De acordo com a maioria dos grandes provedores de serviços on-line, o maior desafio do Facebook tem sido ganhar a confiança de seus usuários. No começo, não era comum encontrar pessoas que eram altamente céticas para expor suas informações pessoais em qualquer sistema on-line, já que era impossível saber o que seria feito com elas. Mesmo todas as empresas o mundo rigidamente respeitando os termos de privacidade e compartilhamento de dados, as políticas mais estanques do mundo são impotentes no que se trata de perda de dados ou roubo, como ataques de hackers.
	Desde o início, o Facebook tentou ganhar a confiança de seus usuários, mostrando que o aspecto privacidade seria altamente levados a serio. Mesmo tão cheios de informações e referências de produtos não especificados como podem ter sido, mesmo assim suas características de privacidade estavam anos-luz à frente das oferecidas por contemporâneos, como o Myspace.
	O fato de haver pelo menos uma ilusão de privacidade foi o suficiente para obter muitas pessoas a bordo da revolução da mídia social. Por padrão, qualquer coisa um usuário compartilhado foi compartilhado apenas com um grupo confiável de amigos, em contraste com o Myspace, onde inicialmente as mensagens eram, por padrão, compartilhadas com o mundo. Também ofereceu interruptorespermitindo aspectos individuais dos dados de uma pessoa para serem públicos ou privados. No entanto, existem sempre reclamações de que essas opções são confusas ou difíceis encontrar.
4.3.3 - Facebook e o Big Data
	A rápida expansão do mundo online nas duas últimas décadas forneceu aos anunciantes uma maneira simples de fazer isso. Porque sites são hospedados em computadores, não em jornais ou outdoors, cada visitante pode ser identificado independentemente pelo software em execução o site. E o Facebook, com 1,45 bilhões de usuários ativos mensais, tem acesso a muito mais dados do usuário do que qualquer um outro (FACEBOOK, 2018). 
	Seus dados também são pessoais - enquanto serviços como o Google podem rastrear nossas visitas a páginas da Web (que, por acaso, o Facebook também pode fazer) e inferir muito sobre nós de nossos hábitos de navegação, o Facebook geralmente tem acesso total a dados demográficos sobre nós, como onde vivemos, trabalhamos, jogamos, quantos amigos temos, o que fazemos em nosso tempo livre e os filmes, livros e músicos de que gostamos.
	Uma editora de livros, por exemplo, pode pagar ao Facebook para colocar anúncios na frente de milhões de pessoas que gostam de livros semelhantes e andamos perfis demográficos de seus clientes.
	Os dados coletados pelos usuários enquanto eles navegam no Facebook são usados para combiná-los com empresas que oferecem produtos e serviços que, estatisticamente, eles provavelmente terão interesse. O Facebook, sem dúvida, mantém um dos maiores e mais abrangentes bancos de dados de informações pessoais já compilados, e está se expandindo a cada segundo de cada dia.
	Além de uma plataforma para compartilhamento de mensagens, o Facebook também é uma plataforma para rodar softwares. Mais de meio milhão de aplicativos foram criados para o Facebook até agora, a maioria dos quais tem a vantagem do acesso que eles têm, por meio de extensas APIs (interfaces de programação de aplicativos), aos dados do usuário do Facebook. Esses aplicativos, por sua vez, coletam dados sobre como eles são usados e que seus desenvolvedores usam para segmentar anúncios em seus próprios clientes. Com novas plataformas e aplicativos o site afirma ter ampliado números de usuários 1,9 bilhões em todo mundo (G1, 2014). 
	O Facebook também expande comprando outras empresas e serviços e adicionando seus dados aos seus. Nos últimos anos, a empresa adquiriu os serviços Instagram e WhatsApp, colocando mais dados sobre como compartilhamos imagens e mensagens instantâneas à sua disposição. Mais intrigante, eles também adquiriram fabricantes de fone de ouvido de realidade virtual Óculos. Alguns comentaristas disseram que isso mostra que o Facebook está interessado em desenvolver serviços que nos permitam interagir uns com os outros em realidade virtual, em vez de simplesmente em telas planas. Monitorar nosso comportamento nesses novos mundos virtuais imersivos será, sem dúvida, uma fonte muito valiosa de novos dados em um futuro próximo.
4.3.4 - Dados e Ferramenta
	O Facebook, juntamente com seus usuários, gera seus próprios dados. Os usuários carregam 2,5 milhões de conteúdo por minuto. Esse conteúdo é analisado em busca de informações sobre as pessoas e esse conteúdo pode ser usado para segmentar os anunciantes. Além disso, eles interagem com o conteúdo de outras pessoas, bem como os dados armazenados nos próprios bancos de dados do Facebook, que incluem listagens de empresas e bancos de dados de filmes, músicas, livros e programas de TV. Sempre que "gostamos" e compartilhamos esse conteúdo, ele aprende um pouco mais sobre nós.
	Para fornecer privacidade, todos esses dados são ocultados quando alimentados nos sistemas que correspondem às empresas com clientes em potencial. Tudo isso realmente significa que seu nome é removido e substituído por um código de identificação exclusivo que não pode ser rastreado até você.
	O Facebook é a terceira página da web mais visitada do mundo depois do Youtube e o Google e a quarta mais popular no Brasil (AGRELA, 2017). Segundo AMARAL (2016) o Facebook e o Google representam cerca de 70% de todo o tráfego online. Claro, um serviço da Web desse tamanho requer uma quantidade enorme de a infraestrutura.
	Seus centros de dados são preenchidos com seus servidores personalizados, construídos usando Chips Intel e AMD, e tecnologia de economia de energia para ajudar a reduzir o enorme custo de manter somany machines funcionando 24 / 7. Os projetos para os sistemas de servidor foram disponibilizados como documentação de código aberto. O Facebook também conta com tecnologia de código aberto para seu software, que é gravado no PHP e executa os bancos de dados MySQL. Seus programadores criaram um compilador HipHop for MySQL, que traduz PHPcode intoC ++ em tempo de execução, permitindo que o código seja executado longamente e rapidamente reduzindo a carga da CPU. Ele usa seu próprio armazenamento distribuído sistema baseado na plataforma HBase do Hadoop para gerenciar o armazenamento. Sabe-se também que o Facebook faz uso do Apache Hive em tempo real análise de dados do usuário.
	O data center do Facebook é um dos mais eficientes do mundo e a empresa investiu US$ 210 milhões (cerca de R$ 420 milhões) nesse projeto de personalização. A companhia não deixa de expandir a infraestrutura de tempos em tempos. Atualmente, estima-se que existam 180 mil servidores para os 900 milhões de usuários do serviço (CANAL TECH, 2012).
4.4 - Netflix
	Como a Netflix usou Big Data para nos fornecer Programas que queremos.
4.4.1 - Netflix antes do Big Data
	 O serviço de streaming e filmes da Netflix é considerado responsável por um terço do tráfego de pico na Internet nos EUA e o serviço agora tem 65 milhões de membros em mais de 50 países que desfrutam de mais de 100 milhões de horas de programas de TV e filmes por dia (LANDIM, 2014). Dados destes milhões de assinantes são coletados e monitorados na tentativa de entender nossos hábitos de visualização. Mas os dados da Netflix não são apenas "Grandes" no sentido literal, é a combinação dessas informações com a tecnologia de ponta e técnicas analíticas que fazem da Netflix uma verdadeira empresa de Big Data.
4.4.2 - Objetivo e Desafio
	O lendário roteirista de Hollywood, William Goldman, disse: “Ninguém, ninguém - nem agora, nem nunca - sabe a coisa menos maldosa sobre o que vai ou não vai funcionar nas bilheterias”. Ele estava falando antes da chegada da Internet e Big Data, desde então, a Netflix está determinada a provar que ele estava errado, construindo um negócio em torno de uma previsão exata sobre o que seus clientes querem assistir.
	Os esforços começaram em 2006, quando a empresa ainda estava trabalhando no envio de DVDs (a transmissão começou um ano depois). Eles lançaram o Prêmio Netflix, oferecendo US $ 1 milhão para o grupo que criasse o melhor algoritmo para prever como seus clientes classificariam o filme com base em suas qualificações anteriores. (ESTADÃO, 2009) A equipe vencedora foi finalmente anunciada em 2009 e, embora os algoritmos estejam constantemente revisados e adicionados, os princípios básicos ainda são um elemento-chave do mecanismo de recomendação.
	O algoritmo de recomendação e decisão de conteúdo é alimentados por dados como quais títulos os clientes assistem, que horas do dia foi assistido, tempo gasto selecionando filmes, com que freqüência a reprodução é interrompida (pelo usuário ou devido a limitações de rede) e classificações dadas.
	Para analisar a qualidade da experiência, a Netflix coleta dados sobre atrasos causados por buffering (taxa de rebuffer) e taxa de bits (que afeta a imagem qualidade), bem como a localização do cliente.
	Embora seu vasto catálogo de filmes e seriados de TV estejam armazenados na nuvem através do AmazonWeb Service, ele também é espelhado ao redor do mundo por provedores de acesso à internet e outros hosts. Com isso a uma melhora na experiência do usuário por reduzir o atraso de transmissão quanto realizando o streaming de conteúdo no mundo todo, este sistema reduz custospara os provedores - lhes poupando o custo de baixar todos os dados diretamente do servidor da Netflix antes de transmitir aos espectadores em seus dispositivos. (SILVA, 2016)
	Em 2013, o tamanho de seu catálogo ultrapassou três petabytes. Esta quantidade enorme de dados é explicada pela necessidade de manter muitos de seus títulos em até 120 formatos de vídeo diferentes, devido o número de dispositivos diferentes que oferecem suporte a Netflix. (TECNOBLOG, 2016)
4.4.3 - Netflix e o Big Data.
	Uma rápida visualização da página de empregos da Netflix é suficiente para dar uma ideia de quão seriamente a análise de dados é para a organização. Especialistas são recrutados para se juntar a equipes especificamente qualificadas na aplicação de habilidades analíticas nas áreas de negócio: análise de personalização, análise de mensagens, análise de entrega de conteúdo, análise de dispositivos. A lista continua, contudo, embora o Big Data seja usado em todos os aspectos do negócio da Netflix, seu santo graal sempre foi prever o que os clientes vão gosta de assistir. A análise de Big Data é o combustível que aciona a “o mecanismo de recomendação "projetado para atender a essa finalidade.
	Outro elemento chave da tentativa da Netflix de apresentar filmes que irão agradar o espectador é a utilização de marcadores. A empresa paga pessoas para assistirem os filmes e depois adicionarem marcadores com os elementos que os filmes possuem, depois passa a sugerir para o usuário outras produções que contenham marcadores similares aos das que o usuário tenha gostado. Esta prática acaba por gerar algumas sugestões incomuns e é a razão de o serviço, algumas vezes, recomendar filmes com baixas avaliações dos usuários que, embora pareça contrário ao objetivo de mostrar filmes com uma “qualidade superior” direcionados ao perfil do usuário, encontra sucesso no fato de que os marcadores são mais assertivos no que diz respeito ao perfil do que o usuário quer assistir que as avaliações de outros usuários sobre os conteúdos. Esta prática permitiu à Netflix criar quase 80 mil novos “micro gêneros” de filmes, baseados apenas nos perfis de utilização (VENTURA, 2014).
4.4.4 - Dados e Ferramenta
	Inicialmente, os analistas estavam limitados pela falta de informação que tinham sobre seus clientes - apenas quatro pontos de dados (ID do cliente, ID do filme, classificação e a data em que o filme foi assistido) estavam disponíveis para análise.
	Seus sistemas usavam bancos de dados Oracle, mas eles mudaram para NoSQL e Cassandra para permitir análises mais complexas e baseadas em Big Data de dados não estruturados. Durante a conferência mundial Strata + Hadoop, Kurt Brown, que lidera a equipe da plataforma de dados da Netflix, explicou como a plataforma de dados está em constante evolução. A infraestrutura de dados da Netflix inclui tecnologias de Big Data como Hadoop, Hive e Pig, além de tradicionais ferramentas de business intelligence como Teradata e MicroStrategy (STRATA + HADOOP, 2016).
	Ele também inclui aplicativos e serviços de código aberto da própria Netflix. E, como toda a infraestrutura básica da Netflix, tudo é executado na nuvem da AWS. A partir de agora, a Netflix está explorando o Spark para streaming, aprendizado de máquina e casos de uso analítico, e eles estão continuando a desenvolver novas adições para seu próprio conjunto de código aberto (SILVA, 2016).
	Alguns metadados coletados pela Netflix como, quais atores os espectadores gostam de assistir e que horas do dia eles assistem filmes ou TV são dados estruturados simples e facilmente quantificáveis, a Netflix percebeu que muitos dados valiosos também são armazenados em um conteúdo sem estrutura de vídeo e áudio. Para disponibilizar esses dados para análise computacional e, portanto, desbloquear o seu valor, ele tinha que ser quantificado de alguma forma. Netflix fez isso pagando equipes de telespectadores, para acompanhar horas de conteúdo, meticulosamente marcando elementos que eles encontraram (FARINACCIO, 2016).
	Após ler um manual de 32 páginas, esses telespectadores marcaram temas, questões e motivos que ocorreram na tela, como um herói experimentando uma epifania religiosa ou uma personagem feminina forte fazendo uma escolha moral difícil. A partir desses dados, a Netflix identificou cerca de 80.000 “micro gêneros”, como filmes de comédia que falam de animais ou dramas históricos com temas gays ou lésbicas. A Netflix pode agora identificar quais filmes você gosta de assistir com muito mais precisão do que simplesmente vendo que você gosta de filmes de terror ou filmes de espionagem, e pode usar isso para prever o que você vai querer assistir. Isso gera dados não estruturados, “confusos” o esboço de uma estrutura que pode ser avaliada quantitativamente a partir de um dos princípios fundamentais do Big Data (BRASIL, 2016).
	Feito isso, a Netflix começou a automatizar esse processo, criando rotinas que podem tirar um “print” do conteúdo no formato Jpeg e analisar o que está acontecendo na tela usando tecnologias sofisticadas como reconhecimento facial e análise de cores. Esses prints podem ser tirados em intervalos programados ou quando um usuário leva ação específica, como pausar ou interromper a reprodução. Por exemplo, sabe-se que um determinado usuário se encaixa no perfil que tende a desligar o aparelho depois de assistir cenas sangrentas ou sexuais, isso pode sugerir alternativas mais calmas quando ele se senta para assistir algo. 
4.5 - LinkedIn 
	Como o LinkedIn usou o Big Data para melhorar seus serviços e capitar publicidades para sua rede social. 
4.5.1 - LinkedIn antes do Big Data.
	O LinkedIn é a maior rede profissional on-line do mundo (OLIVEIRA, 2014).
	Essa grande rede social profissional com mais de 500 milhões de membros em mais de 200 países (ESTADÃO, 2017). O LinkedIn conecta profissionais, permitindo-lhes construir uma rede de suas conexões e as conexões de suas conexões. O site foi lançado por Reid Hoffman em 2003, tornando-se uma das mídias sociais mais antigas no mundo. Em 2016 a Microsoft anunciou a compra da rede social por 26,2 bilhões com 433 milhões de usuários na época, e fez o LinkedIn ser incorporado ao segmento produtivo e processo de negócio da Microsoft (G1, 2016). 
4.5.2 - Objetivo e Desafio.
	A competição entre as redes sociais é mais feroz do que nunca e que um ano quente pode não ser o próximo. O LinkedIn precisa garantir o seu site continua sendo uma ferramenta essencial para profissionais ocupados, ajudando mais produtivo e sendo bem-sucedido, independentemente de estarem usando o Premium (pago) ou o serviço gratuito. Como tal, o Big Data está no coração das operações e tomada de decisões do LinkedIn, ajudando-os fornecer o melhor serviço possível para os milhões de membros do site.
	Quando você pensa que o LinkedIn começou com apenas 2700 membros em sua primeira semana, o crescimento maciço de dados é um desafio óbvio o LinkedIn continuamente tem que se superar a cada dia para ser capaz de lidar e como compreender enormes quantidades de dados diariamente (CLEMM, 2015). A solução para isso é investir em sistemas altamente escaláveis, e garantir que os dados ainda são granulares o suficiente para fornecer informações úteis. O Hadoop fornece o poder de back-end e escalabilidade necessários para lidar com os volumes de dados, e a interface de usuário do LinkedIn permite seus funcionários para cortar e dividir os dados de várias maneiras diferentes.
	De uma empresa que empregava menos de mil funcionários, cinco anos atrás, o LinkedIn cresceu e empregou quase 9 mil pessoas. Este coloca enorme demanda na equipe de análise. Talvez em resposta para isso, o LinkedIn recentemente reorganizou sua equipe de ciência de dados para que a parte de ciências de decisão (que analisa o uso de dados e chave métricas de produto) agora está sob o comando financeiro da empresa oficial, enquanto a parte de ciência de dados de produto (que desenvolve o Recursos do LinkedIn que geram massas de dados para análise) são agora parte da engenharia.Como tal, a ciência de dados está agora mais integrada do que nunca no LinkedIn, com analistas cada vez mais alinhados com funções da empresa.
	Pode ser uma surpresa saber que contratar pessoal também é um desafio, mesmo para um gigante como o LinkedIn. Falando ao cnbc.com, o chefe de recrutamento de dados, Sherry Shah, confirmou que eles estavam procurando contratar mais de 100 cientistas de dados em 2015 (um aumento de 50% 2014). Mas a competição pelos melhores cientistas de dados é difícil, especialmente na Califórnia, e Shah admitiu que "há sempre uma guerra de lances". Embora mais pessoas estejam entrando em campo, é provável que essa lacuna de habilidades onde a demanda por cientistas de dados supera a oferta - continuará por alguns anos ainda. (THOMPSON, 2015)
	Além disso, o LinkedIn não escapou da reação de privacidade. Em junho 2015, a empresa concordou em pagar US $ 13 milhões para liquidar uma ação de classe ação judicial resultante do envio de vários convites por e-mail para usuários listas de contatos. Como resultado do acordo, o LinkedIn agora explicitamente afirmar que sua ferramenta "Adicionar conexões" importa catálogos de endereços, e o site permitirá que aqueles que usam a ferramenta selecionem quais contatos receberá convites automatizados e e-mails de acompanhamento (DAVIS, 2015).
4.5.3 - LinkedIn e o Big Data.
	O LinkedIn acompanha cada movimento que os usuários fazem no site: a cada clique, a cada visualização de página, toda interação. Com 500 milhões de membros, isso é muitos eventos para processar a cada dia. Cientistas de dados e pesquisadores no LinkedIn analisam esta montanha de dados, a fim de auxiliar a decisão criação e design de produtos e recursos baseados em dados (ASLAM, 2018). 
	Assim como outras redes de mídia social, o LinkedIn usa dados para fazer sugestões para seus usuários, como "pessoas que você talvez conheça". Essas sugestões são baseadas em vários fatores, por exemplo, se você clicar no perfil de alguém (nesse caso, é razoável assumir que você pode conhecê-los, ou outra pessoa com esse nome), se você trabalhou na mesma empresa durante o mesmo período ou se você compartilhar algumas conexões. Além disso, como os usuários podem fazer upload de seus contatos de e-mail, O LinkedIn usa essas informações para fazer sugestões - não apenas para as pessoas que você pode conhecer no site, mas também para as pessoas e seus contatos pode saber quando eles entram no site. O LinkedIn também pode extrair dados sobre usuários de outros sites, como o Twitter, para fazer sugestões sobre pessoas que você talvez conheça.
	O LinkedIn usa técnicas de aprendizado de máquina para refinar seus algoritmos para que façam sugestões melhores para os usuários. Digamos, por exemplo, o LinkedIn regularmente deu-lhe sugestões para pessoas que você pode conhecer que trabalham em Empresa A (na qual você trabalhou há oito anos) e Empresa B (que você trabalhou há dois anos). Se você quase nunca clicar nos perfis de pessoas da Empresa A, mas verifique regularmente as sugestões da Empresa B, o LinkedIn irá priorizar a empresa B em suas sugestões daqui para frente. Esta abordagem personalizada permite usuários construírem as redes, ou seja, seus perfis de acordo com suas necessidades.
	Um dos recursos que diferenciam o LinkedIn de outras mídias sociais como o Facebook é o caminho permite que você veja o seu perfil. Esse recurso recentemente ficou muito mais detalhado: enquanto você costumava ser capaz de ver quantos tinham visto o seu perfil e quem os espectadores mais recentes foram, agora você também pode ver de quais regiões e indústrias esses visualizadores são, quais empresas eles trabalham e quais palavras-chave (se houver) as trouxeram para o seu perfil. Essas percepções, possibilitada pelo Big Data, ajudam aos usuários aumentar sua eficácia o site.
	O LinkedIn usa a tecnologia de processamento de fluxo para garantir o máximo de informações de dados a serem exibidos quando os usuários estão no site de informações sobre quem ingressou no site e quem conseguiu um novo emprego artigos que os contatos gostaram ou compartilharam. Em poucas palavras, o site está constantemente reunindo e exibindo novos dados para os usuários. Não somente esse fluxo constante de dados torna o site mais interessante para os usuários, também acelera o processo analítico. Tradicionalmente, uma empresa capturaria dados e os armazenaria em um banco de dados ou data warehouse para ser analisado mais tarde. Mas, com processamento de fluxo em tempo real tecnológica, o LinkedIn tem o potencial de transmitir dados diretamente da fonte (como a atividade do usuário) e analisá-lo rapidamente.
	Por fim, não vamos esquecer que o LinkedIn precisa atrair receita, eles fazem isso através de serviços de recrutamento, filiação paga e propaganda. Big Data tem um papel a desempenhar no aumento da receita, bem como melhorando a experiência do usuário. Por exemplo, na publicidade – que é responsável por 20 a 25% da receita anual do LinkedIn - os analistas trabalham com a força de vendas do LinkedIn para entender por que os membros clicam em certos anúncios e não em outros. Esses insights são enviados de volta aos anunciantes para tornar seus anúncios mais eficazes (STATISTA, 2018).
4.5.4 - Dados e Ferramenta 
O LinkedIn rastreia todos os movimentos que seus usuários fazem no site, de tudo o que gosta e compartilha para cada trabalho clicado e todos os contatos de mensagens. A empresa atende dezenas de milhares de páginas da Web a cada segundo de cada dia. Todas essas solicitações envolvem a busca de dados dos sistemas de back-end do LinkedIn, que, por sua vez, processam milhões de consultas por segundo. Com permissão, o LinkedIn também coleta dados sobre usuários contatos de e-mail.
	O LinkedIn rastreia todos os movimentos que seus usuários fazem no site, de tudo o que gosta e compartilha em todos os trabalhos clicados e em todos os contatos de mensagens. O Hadoop forma o núcleo da infraestrutura de Big Data do LinkedIn, mas outras partes fundamentais do quebra-cabeças do LinkedIn Big Data incluem Oracle, Pig, Hive, Kafka, Java e MySQL. Para garantir alta disponibilidade e evitar um único ponto de falha, a empresa opera em três data centers principais (MARR, 2018). Vários datacenters são incrivelmente importantes para o LinkedIn, a fim de garantir alta disponibilidade e evitar um único ponto de falha. Hoje, o LinkedIn está sem três centros de dados principais.
O LinkedIn também desenvolveu suas próprias ferramentas de código aberto para acesso e análise de Big Data. Kafka começou a vida desta forma, e outros desenvolvimentos incluem Voldemort e Expresso (para armazenamento de dados) e Pinto (para análise). A tecnologia de código aberto como essa é importante para o LinkedIn porque acredita que cria um código melhor (e um produto melhor) a longo prazo.
Além disso, a empresa tem uma equipe impressionante de dados internos cientistas cerca de 150 em estimativas atuais. Não só a equipe trabalhar para melhorar os produtos do LinkedIn e resolver problemas para os membros, eles também publicam em grandes conferências e contribuem para a comunidade de código aberto. Na verdade, a equipe é incentivada a buscar ativamente a pesquisa em diversas áreas, incluindo publicidade computacional, aprendizado de máquina e infraestrutura, mineração de texto e análise de sentimento, segurança e SPAM.
4.6 - Apple
4.6.1 - Apple Antes do Big Data.
A Apple é oficialmente a marca mais valiosa do mundo (FORBES, 2016). Conhecida por seu design icônico de produtos e interfaces fáceis de usar, na verdade, a empresa chegou a ser duas vezes mais valiosa do que a terceira marca mais valiosa do mundo, a Microsoft. Mas, até recentemente, a Apple não era considerada uma grande empresa de Big Data. Vamos ver como isso mudou e por quê.
 	De certa forma, apesar de ser a empresa de tecnologia mais lucrativa do mundo, a Apple se viu tendo que lidar com o Big Data. Embora a Apple tradicionalmente empregasse equipes de especialistas altamente remunerados em estética e