Buscar

Dossie Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Março 2012 - COMPUTERWORLD
A grande promessa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Problema antigo mas “maior” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Três vertentes de reforço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Mais é ou não melhor? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Tirar partido para lá do “hype” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Tendência preocupa e causa grande confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Cinco coisas que deve fazer agora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Mais oportunidades de carreira para profissionais de TI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Faltam profissionais em Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
COMPUTERWORLD
Março 2012
Big
Data
Comunicações UnificadasBig Data2 |
COMPUTERWORLD - Março 2012
2 |
Para o Twitter, fazer sentido das montanhas de
dados dos seus utilizadores era um problema
suficientemente grande que comprou uma
outra empresa apenas para a ajudar a fazer
esse trabalho.
O sucesso do Twitter depende inteiramente de
quão bem a empresa explora os dados que os
seus utilizadores geram. E tem um monte de
dados para trabalhar: armazena mais de 200
milhões de contas, que geram 230 milhões de
mensagens diárias no Twitter.
Em Julho passado, a gigante das redes sociais
adquiriu a BackType, uma empresa com o soft-
ware Storm que permite analisar fluxos de
dados dinâmicos, como os milhões de “feeds”
do Twitter. Após a aquisição, o Twitter libertou
o código-fonte do Storm, não tendo interesse
em comercializar o produto em si.
O Storm é valioso para o Twitter nas suas pró-
prias operações, especificamente porque pode
ser útil na identificação de tópicos emergentes
à medida que se estão a desenvolver, em
tempo real, no serviço da empresa. Por exem-
plo, o Twitter usa o software para calcular quão
amplamente endereços da Web são partilha-
dos entre vários utilizadores do Twitter em
tempo real.
Esse trabalho "é realmente de computação in-
tensiva, que pode envolver milhares de aces-
sos às base de dados e a milhões de registos
de utilizadores", revela Nathan Marz, enge-
nheiro-chefe para o Storm, que explicou a tec-
nologia em Dezembro passado numa
conferência em Nova Iorque realizada pela Da-
taStax, empresa de software de Big Data.
Usando uma única máquina, calcular o al-
cance de um endereço Web pode levar até 10
minutos. Mas usando 10 máquinas, explicou
Marz, pode ser executado em apenas alguns
segundos. Para uma empresa que ganha di-
nheiro a vender anúncios que se conjuguem
com as tendências emergentes, quanto mais
rápida for essa operação pode ser crucial.
Como o Twitter, as organizações estão a des-
cobrir que têm uma grande quantidade de
dados em mãos, e que os dados podem ser
usados para maximizar os lucros e melhorar a
eficiência - se os conseguirem organizar e ana-
lisar com suficiente rapidez. Este objectivo,
tornado possível por uma série de novas tec-
nologias que são em sua maioria de código
aberto, é muitas vezes referida como Big Data
– ou grandes quantidades de dados.
"Dá-nos uma vantagem competitiva se pode-
mos entender melhor com o que as pessoas se
preocupam e para melhor utilizar os dados que
temos para criar experiências mais relevantes",
refere Aaron Batalion, director de tecnologia
(CTO) para o serviço de compras online Li-
vingSocial, que usa tecnologias como a plata-
forma de processamento de dados Hadoop, do
projecto Apache, para recolher mais informa-
ções sobre o que os seus utilizadores querem.
"Os dias terminam quando se cria um produto
uma vez e ele simplesmente funciona", disse
Batalion. "Tem de se ter ideias, testá-las, iterá-
las, usar os dados e analítica para entender o
que funciona e o que não funciona, a fim de
ser bem sucedido. E é assim que usamos a
nossa infra-estrutura de Big Data".
Muitos dados cada vez maiores
Em Maio passado, a empresa de consultoria
McKinsey publicou um relatório que antecipou
como as organizações seriam inundadas com
dados nos próximos anos. Ela também previa
que uma série de indústrias - incluindo saúde,
sector público, retalho e fabrico - poderiam be-
neficiar da análise dos seus rapidamente cres-
centes montes de dados.
Recolher e analisar os dados transaccionais
dará às organizações um melhor conhecimento
sobre as preferências dos seus clientes. Isso
pode ser usado para informar melhor na cria-
ção de produtos e de serviços, e permitir que
as organizações possam resolver problemas
emergentes mais rapidamente.
"A utilização de grandes dados será uma base
fundamental na concorrência e crescimento
para as empresas", conclui o relatório. "A uti-
lização de Big Data suportará novas ondas de
crescimento na produtividade e satisfação do
consumidor".
É claro que a Teradata, a IBM e a Oracle, entre
muitas outras, têm “warehouses” de dados à
escala dos terabytes há mais de uma década.
Actualmente, no entanto, os dados tendem a
ser recolhidos e armazenados numa ampla va-
riedade de formatos e podem ser processados
em paralelo em vários servidores, o que é uma
necessidade dadas as quantidades de infor-
mações que estão a ser analisadas. Para lá de
manter exaustivamente os dados transaccio-
nais em bases de dados e outros cuidadosa-
mente residentes em “warehouses”, as
organizações também estão a recolher quanti-
dades incalculáveis de dados dos acessos
(“logs”) dos servidores e outras formas de
dados gerados pelas máquinas, comentários
de clientes internos e de redes sociais exter-
A grande promessa 
As organizações estão a
descobrir que as tecnologias
para gerir grandes quantidades
de dados (Big Data) podem
rapidamente encontrar uma
agulha no palheiro.
| 3
 a Internet nem Amazon e
a Fnac não facturava o
que factura hoje. Receber
uma carta das Selecções
era um evento e tinha
uma taxa de resposta bru-
tal. Hoje não estamos
nessa realidade. A concor-
rência é duríssima, os
nossos livros têm dscondo
que foi uma das razões
que me facilitou a deci-
são, entrei depois de no
ano anterior terem saído
muitas 
M&P: As 'gorduras' já ti-
nham sido cortadas.
FL: Já, já. Houve três ra-
zões pelas quais consegui-
mos atingir este ano o
break-even, depois de dois
ou três anos de perdas
muito duras em Portugal.
A fundamental foi, clara-
mente, o corte na estru-
tura de custos, aconteceu
também noutros países,
mas em Portugal foi drás-
tico. Saíram dezenas de
pesal e Espanha, ra fa do
que prostão não é a estru-
tura de custos, que não é
elevada, o problema é que
a receita não é suficiente
para, em condições nor-
mais, rentabilizar essa 
M&P: Noutros mercados a
RD tem lançado títulos
em segmentos nos quais o
grupo tem know-how. Esse
tipo de estratégia está a
ser pensada para o mer-
cado ibérico?
FL: O mercado português
em termos publicitários é
um décimo, mais coisa
menos coisa, do Espa-
nhol. É um mercado rela-
tivamente pequeno e
muito ocupado por gran-
des grupos de media, por-
tanto, não é carolançar
revistas em Portugal o di-
fícil é rentabilizá-las.
Agora o meu dever é ana-
lisar oportunidades, ver o
que faz sentido lançar ou,
eventualmente, adquirir.
Do lado de Espanha, o
mercado é muito grande, 
M&P: Mas há planos concretos de au-
mentar o portfólio da RD ao nível de
imprensa?
FL: Se as oportunidades surgirem e
forem boas, sim. E ter como accionista
um fundo de investimento até facilita
as coisas. Mais facilmente vêem um
plano para investiir uns quantos mi-
lhões num novo prodr uns quantos mi-
lhões num novo produto do que meio
milhão de dólares de desvio de budget. 
M&P: Dado que têm de diversificar as
fontes de receita, parece quase uma
inevitabilidade.
FL: Não necessariamente. Tenho várias
formas de poder crescer, uma delas é
sair da minha concha. Há um mercado
que domino muito bem, que é a venda
por correspondência. Estamos a tentar
alargar o lote de produtos que podemos
vender, já hoje vendo vitaminas, como
se fossem cum teste e vendemos vita-
minas. Nos catálogos já vendemos
jóias.
M&P: Diversificar não é necessaria-
mente na área editorial, portanto.
FL: Não é uma inevitabilidade. Ou
seja, sim tenho de analisar oportuni-
dades de investimento na área edito-
rial e revistas em concreto, depois não
sei que posso cdes é que vou investir,
não posso apostar tudo aí. Posso cres-
cer o negócio com venda de mais pro-
dumail, de anúncios nos ps países da
Europa.
M&P: E isso está a ajudar a rejuvenes-
cer o perfil de audiência da Selecções?
FL: Estamos a ter resultados de vendas
melhores do que há uns tempos, me-
lhores do que esperávamos, precisa-
mente porque estamos a conseguir
chegar a mais pessoas. A internet, as
novas formas de comunicação, estão-
nos a permitir chegar a novos clientes,
clientes diferentes, mas que, feliz-
mente, não são assim tão diferentes.
Diferradicionais compram. Eles têm
vindo e gostam dos produtos. Eu tenho
bons produtos, tenho é um problema
de percepção, as pessoas pensam RD
e imaginam logo teias de aranha.
M&P: Olhando para o perfil da Selec-
ções o Bareme Imprensa indica…
FL: Esses números dão uma idade
média de 44 anos do meu leitor - o Ba-
reme Imprensa da maneira como é cal-
culado vale o que vale, mas é o que
temos – números até um pouco mais
jovens do que a idade média do meu
cliente em base de dados, tenho de ad-
mitir. Tirando os países da América La-
tina e da Ásia, a minha revista é
invulgarmente jovem, por estranho que
pareça em relação a outros países. De-
pois também não é propriamente um
problema porque a população não está
a rejuvenescer, antes pelo contrário. No
limite até tenho um mercado maior.
M&P: A percepção é que a revista é um
pouco envelhecida. Como é que se
muda?
FL: A maior parte das pessoas não
pega na revista há mais de dez anos. A
percepção depois é um ciclo vicioso,
se a minha percepção é esta não vou à
procura. Por outro lado, as vendas em
banca também têm vindo a cair. A es-
magadora maioria das vendas, 94 a 95
mil, são por assinatura e.<
Março 2012 - COMPUTERWORLD
nas, e ainda outras fontes de dados soltos, não
estruturados.
"Os sistemas tradicionais de dados simples-
mente não manipulam grandes quantidades
de dados muito bem, seja porque não podem
lidar com a variedade de dados - os dados de
hoje são muito menos estruturados porque
evoluem muito rapidamente -, ou porque
[esses sistemas] não conseguem ser dimen-
sionados à velocidade que devem ‘mastigar’ os
dados", refere Eric Baldeschwieler, CTO da
Hortonworks, uma empresa saída da Yahoo,
que oferece uma distribuição do Hadoop.
Os dados estão a crescer a uma taxa exponen-
cial, graças à Lei de Moore, salientou Curt Mo-
nash, da Monash Research. A Lei de Moore
afirma que o número de transístores que
podem ser colocados numa “wafer” dum pro-
cessador duplica aproximadamente a cada 18
meses. Cada nova geração de processadores é
duas vezes mais potente que a sua anteces-
sora mais recente. E, não surpreendente-
mente, o poder dos novos servidores também
duplica a cada 18 meses, o que significa que
as suas actividades vão gerar conjuntos de
dados igualmente maiores.
A abordagem à Big Data representa uma
grande alteração na forma como os dados são
manipulados, diz Jack Norris, vice-presidente
de marketing da MapR. Antes, os dados cui-
dadosamente escolhidos eram canalizados
através da rede para um “data warehouse”,
onde podiam depois ser examinados. Com a
quantidade crescente de dados, no entanto, "a
rede torna-se o estrangulamento", refere. Sis-
temas distribuídos como o Hadoop permitem a
análise onde residem os dados.
Em vez de criar um subconjunto limpo de
dados do utilizador para os colocar numa
“data warehouse” para serem consultados
num número limitado de formas pré-determi-
nadas, o software de Big Data recolhe todos os
dados que uma organização gera, e permite
que os administradores e analistas se preocu-
pem em como os usar mais tarde. Neste sen-
tido, são mais escaláveis do que os bancos de
dados tradicionais e as “data warehouses”.
Como a Internet estimulou a Big Data
De muitas maneiras, os gigantes fornecedores
de serviços online como a Google, Amazon,
Yahoo, Facebook e Twitter têm estado na van-
guarda da aprendizagem para retirar o máximo
proveito de tais enormes conjuntos de dados.
A Google e a Yahoo, entre outros, participaram
no desenvolvimento do Hadoop. Engenheiros
do Facebook desenvolveram a primeira base
de dados distribuída Cassandra, da Apache,
também em “open source”.
O Hadoop teve o seu início a partir de um
“white paper” da Google, em 2004, que des-
creveu a infraestrutura da Google construída
para analisar dados em vários servidores dife-
rentes, utilizando um sistema de indexação
chamado Bigtable. A Google manteve o Bigta-
ble para uso interno, mas Doug Cutting, um
programador que já havia criado o motor de
busca em “open source” Lucene/Solr, criou
uma versão de código aberto, denominando a
tecnologia a partir do nome do elefante de pe-
luche do seu filho.
Uma das primeiras entidades a adoptar o Ha-
doop foi a Yahoo. A empresa contratou Cutting
e começou a dedicar grandes quantidades do
trabalho de engenharia a refinar a tecnologia,
por volta de 2006. "A Yahoo tinha muitos
dados interessantes em toda a empresa que
poderiam ser correlacionados de várias ma-
neiras, mas o que existia estava em sistemas
separados", refere Cutting, que agora trabalha
para a Cloudera, um fornecedor de distribui-
ção Hadoop.
A Yahoo é hoje um dos maiores utilizadores do
Hadoop, tendo-o implantado em mais de 40
mil servidores. A empresa utiliza a tecnologia
de diferentes maneiras. “Clusters” Hadoop
mantêm ficheiros massivos de “logs” de his-
tórias e secções em que os utilizadores clica-
ram. A actividade publicitária também é
armazenada em “clusters” Hadoop, como são
as listas de todo o conteúdo e artigos que a
Yahoo publica.
"O Hadoop é uma óptima ferramenta para or-
ganizar e condensar grandes quantidades de
dados antes de serem colocados numa base
de dados relacional", refere Monash. A tecno-
logia é particularmente bem adequada para
pesquisar padrões em grandes conjuntos de
texto.
Outra tecnologia de Big Data que teve o seu
início num fornecedor de serviços online foi a
base de dados Cassandra. A Cassandra é
capaz de armazenar 2 milhões de colunas
numa única linha, tornando-as acessíveis para
acrescentar mais dados sobre contas de utili-
zadores existentes, sem saber de antemão
como os dados devem ser formatados.
Usar a base de dados Cassandra também pode
ser vantajoso na medida em que pode ser di-
vidida por vários servidores, o que ajuda as or-
ganizações a escalar as suas bases de dados
facilmente para lá de um único servidor, ou até
mesmo num pequeno “cluster” de servidores.
A Cassandra foi desenvolvida pela rede social
Facebook, que precisava de uma enorme base
de dados distribuída para lidar com as buscas
na entrada do serviço, refere JonathanEllis, o
responsável do projecto Apache Cassandra e
co-fundador da DataStax, empresa que agora
oferece suporte profissional para Cassandra.
Como o Yahoo, o Facebook queria usar a ar-
quitectura Bigtable da Google, que poderia
fornecer uma estrutura de base de dados
orientada para colunas e linhas que poderia
ser espalhada por um grande número de nós.
O limite da Bigtable é que era um projecto
orientado para um nó principal. Toda a opera-
ção dependia de um único nó para coordenar
Big Data
Big Data4 |
as actividades de leitura e escrita em todos os
outros nós. Por outras palavras, se o nó prin-
cipal fosse abaixo, todo o sistema ficava inu-
tilizado.
"Isso não é o melhor desempenho. Quer-se um
em que se uma máquina vai abaixo, as outras
continuarão a funcionar", disse Ellis.
Assim, Ellis e os seus colegas desenvolveram
a Cassandra usando uma arquitectura distri-
buída da Amazon, chamada Dynamo, que os
engenheiros da Amazon descreveram num ar-
tigo de 2007. A Amazon desenvolveu inicial-
mente a Dynamo para acompanhar o que os
seus milhões de clientes online iam colocando
no “carrinho de compras”.
A Dynamo não é dependente de qualquer nó
central. Qualquer nó pode aceitar dados para
todo o sistema, bem como responder a con-
sultas. Os dados são replicados em vários
“hosts”.
Para a empresa
A boa notícia é que muitas destas primeiras
ferramentas desenvolvidas por esses fornece-
dores de serviços online estão a ficar mais dis-
poníveis para as empresas como software de
código aberto. Por estes dias, ferramentas
para grandes dados estão a ser testadas por
uma ampla gama de organizações, fora dos
grandes fornecedores de serviços online. Ins-
tituições financeiras, telecomunicações, agên-
cias governamentais, empresas de serviços
públicos, retalho e empresas de energia estão
a testar grandes sistemas de dados, observa
Baldeschwieler.
"Há um ar de inevitabilidade" com o Hadoop e
implementações de Big Data, diz. "É aplicável
a uma grande variedade de clientes".
Então como é que uma organização pode co-
meçar a usar os seus montes de dados gerados
por máquinas e redes sociais?
Talvez surpreendentemente, a criação da infra-
estrutura não será o maior desafio para o CIO.
Fabricantes como a Cloudera, Hortonworks,
MapR e outros estão a comercializar tecnolo-
gias de Big Data, com efeito, tornando-os mais
fáceis de implementar e gerir.
Em vez disso, encontrar o talento certo para
analisar os dados será o maior obstáculo, se-
gundo o analista da Forrester Research, James
Kobielus.
As organizações "tem de se concentrar na
ciência dos dados", diz Kobielus. "Têm de con-
tratar modeladores estatísticos, profissionais
de extracção de texto, pessoas que se espe-
cializaram em análise de sentimentos".
A Big Data baseia-se na sólida modelação dos
dados, refere Kobielus. "Modelos estatísticos
preditivos e modelos analíticos de teste serão
as principais aplicações de que se precisa para
gerir muitos dados", refere.
Muitos estão prevendo que a Big Data trará um
tipo inteiramente novo de profissional, o cien-
tista de dados. Este será alguém com um pro-
fundo entendimento de matemáticas e
estatísticas, que também sabe trabalhar com
tecnologias de Big Data.
Pode haver escassez destas pessoas. Em
2018, só os Estados Unidos podem enfrentar
a falta de 140 mil a 190 mil pessoas com pro-
fundas capacidades analíticas, bem como 1,5
milhões de gestores e analistas com “know-
how” para usar a análise dos grandes dados
para tomar decisões eficazes, estimou a
McKinsey.
Apesar destas limitações, as organizações pre-
cisam de seguir em frente apenas para per-
manecerem competitivas e eficientes, diz
Norris, da MapR. Como exemplo, ele aponta a
Google, que entrou no campo das buscas na
Internet anos após a concorrência, para aca-
bar por dominar o mercado em dois anos.
"Muito disto deveu-se às vantagens da arqui-
tectura ‘back-end’ da Google", considera Nor-
ris. A Big Data "é uma grande mudança de
paradigma que tem o potencial de mudar in-
dústrias".<
COMPUTERWORLD - Março 2012
6 |
COMPUTERWORLD - Março 2012
Big Data
Para grande parte das organizações portugue-
sas, Big Data é uma denominação nova para
um problema antigo, com dimensões maiores
– e a exigir redobrada atenção. O grau de pre-
paração varia, com o sector da banca e das te-
lecomunicações a liderarem. Mas, desta vez,
os constrangimentos de financiamento trazem
barreiras adicionais, muitas vezes incontorná-
veis – incluindo o adiamento do investimento.
As empresas em Portugal “já assimilaram o
conceito” de Big Data , afirma Fernando Faria,
Manager de Data & Information Management
na Unisys. Existirão factores externos para
isso, como o papel da comunicação social e o
próprio discurso dos fabricantes e prestadores
de serviços de alojamento. 
Mas as próprias organizações já constataram o
fenómeno internamente, reforça. Também o
CTO da Feedzai, Paulo Marques, considera
que o fenómeno Big Data não é novo para as
empresas portuguesas.
Do seu ponto de vista, a questão mais impor-
tante que se coloca às empresas passa por
saber “como extrair valor de negócio dos
dados que existem na organização, indepen-
dentemente da tecnologia utilizada” como su-
porte.
A grande diferença é que hoje o desafio ganha
outra dimensão e relevância devido “à sur-
preendente magnitude dos volumes de dados
produzidos pelas organizações”, salienta Sofia
Esteves, directora do centro de competência
de BI da Novabase. Assim, ele depende da or-
ganização ter ou não “um volume de dados
tal, que impossibilite o seu tratamento e aná-
lise de forma efectiva”, sustenta.
A própria globalização constitui um factor de
pressão, na opinião desta responsável. A pre-
sença das organizações em várias partes do
globo, as consequências da actividade empre-
sarial decorrer em fusos horários distintos e a
necessidade de haver uma visão global sobre o
negócio, são vertentes desse aspecto. O
mesmo resulta num “esmagamento das jane-
las de processamento de dados disponíveis,
criando novos desafios na eficiência e perfor-
mance dos processos de ETL (Extraction,
Transformation e Loading)”, explica.
Como noutros países, também em Portugal as
redes sociais são um dos factores de cresci-
mento exponencial da informação, confirma
Fernando Faria (Unysis). E “a análise, extrac-
ção e processamento desta informação perti-
nente para o ramo de negócio de uma empresa
será um factor justificativo para o investimento
no tratamento de Big Data”, explica.
Contudo, o responsável considera que as or-
ganizações “estão a tentar passar esta proble-
mática para um futuro próximo, procurando
adiar investimentos que não tenham um re-
torno rápido para o seu negócio”. O momento
de contenção de investimentos será o principal
responsável pela situação.
Não obstante, Paulo Marques (Feedzai) tem
uma perspectiva mais positiva sobre a dinâ-
Problema antigo mas “maior”
As empresas portuguesas já lidam com os problemas do crescimento exponencial de dados há algum tempo. 
Mas considerando as dimensões e os constrangimentos actuais, o desafio é mais elevado e diferente.
O novo universo de capacidades inerente ao Big Data permitirá complementar as capacidades actualmente ins-
taladas nas empresas portuguesas, considera o consultor da Deloitte, Pedro Lopes. Sobretudo em três vertentes
ou situações:
• quando se pretende que os “data warehouses” actuais desçam a um nível de detalhe adicional que antes não era
suportável pela enorme quantidade de informação resultante (exemplos são os detalhes de facturas ou de cha-
madas telefónicas);
• para se tirar partido de ferramentas de funcionamento em tempo real, que necessitam de capacidades de res-
posta sobre análises de grandes quantidades de dados, superiores às tradicionais;
• com o objectivo de obter alertas e significado, com valor, a partir de informação não estruturada como “Web
logs”, fluxosde media social, dados de RFID ou de outros sensores, ou dados sobre cliques em sites Web.<
Û Três vertentes de reforço
| 7
Março 2012 - COMPUTERWORLD
mica do mercado. Confia na “abertura
enorme” das empresas nacionais para “usar
tecnologia de ponta” mas com uma condição:
é preciso que a tecnologia “resolva os seus
problemas de análise de dados”.
“Do que temos assistido no terreno, as em-
presas também estão neste momento dispos-
tas a investir por forma a conseguirem reduzir
custos nas suas operações com tecnologia,
que lhes permitam melhores ‘insights’ de ne-
gócio na sua organização”, concretiza. Para o
responsável da “start-up” participada da No-
vabase, o mercado português não apresenta
qualquer peculiaridade face a outros.
Empresas em aprendizagem
Sendo Portugal um país com uma malha em-
presarial composta sobretudo por PME, levan-
tam-se algumas dúvidas. Na opinião de Pedro
Lopes, da Deloitte, as PME não serão naturais
“clientes” das capacidades inerentes ao fenó-
meno Big Data.
A sua justificação liga-se à visão de Sofia Es-
teves: o consultor baseia a sua opinião nas “ne-
cessidades típicas de análise de informação
que normalmente evidenciam”. Contudo isso
não invalida a utilidade de investirem num
contexto de Big Data e obterem proveitos.
“As organizações portuguesas, tal como as ou-
tras, poderão tirar partido destas capacidades
para segmentar os seus clientes com base em
novas fontes de informação como os media so-
ciais, tomar decisões de oferta de produtos ou
serviços em tempo real com base em informa-
ção captada no momento ou identificar frau-
des por análises a informação mais detalhada
que antes não eram possíveis”, explica.
Nesse contexto, considera que do ponto de
vista da sua preparação, estão ao nível da “ge-
neralidade” das organizações de outros países
– pelo que poderão, mediante mais “alguma
preparação”, reforçar e complementar as suas
capacidades actuais.
Na sua visão, exceptuando organizações como
a Google ou a Facebook, pioneiras a lidar com
o fenómeno Big Data, todas as empresas ainda
estão a aprender como fazê-lo. Na mesma
linha, o gestor da Reditus, Nuno Pacheco,
afirma que o universo tecnológico em torno do
Big Data é “recente e disruptivo”, conside-
rando os cenários tradicionais de BI.
Nuno Pacheco considera existir no mercado
português “algum investimento”, particular-
mente nas soluções de “data mining” e “data
warehousing”. “A realidade é que apenas têm
capacidade limitada de armazenar e analisar
as suas fontes internas de informação”,
mesmo que já conseguindo desenvolver uma
actividade analítica sobre o negócio , revela.
“Com o know-how já existente, complemen-
tado com uma abordagem Big Data, será pos-
sível adquirir, organizar e analisar fontes de
informação tanto internas como externas, com
uma abrangência bastante mais alargada”, de-
fende o responsável da Reditus.
“Que capacidades deverão ser utilizadas? Para
que propósitos de negócio?”, são as questões
mais prementes para as organizações interes-
sadas, segundo Pedro Lopes. O responsável da
Deloitte aponta ainda três aspectos em que
uma abordagem no contexto Big Data poderá
complementar as estratégias das organizações
portuguesas (ver caixa).
Nem só de software se fará a preparação para
a abordagem Big Data. “As empresas irão co-
meçar a olhar para um tipo de informação di-
ferente, que antes estava consolidada na sua
infra-estrutura tradicional”, destaca Fernando
Faria, da Unisys.
Esse corpo de informações começará a ser
“deslocado” para sistemas desenhados para
proporcionarem armazenamento e rápido
acesso, explica. Além disso, os mesmos terão
a capacidade para “interpretar” e “explorar”
os dados em benefício do negócio. “Desta
forma, as empresas terão que começar a ma-
nejar um novo tipo de infra-estrutura, para um
novo tipo de informação com requisitos de ma-
nipulação completamente diferentes daqueles
utilizados até agora”, alerta.<
ÞMais é ou não melhor?
"Big Data não tem a ver apenas com análise de dados”,
assegura o CTO da Amazon, Werner Vogel. Tem a ver com o
fluxo todo, afirma. Por isso, é necessário pensar em todas as
diferentes etapas de processamento de dados: recolha,
armazenamento, organização, análise e partilha.
Já o CTO da Feedzai, Paulo Marques, dá destaque ao
conhecimento sobre as perguntas mais importantes a fazer.
Para aproveitar as crescentes quantidades de dados e ganhar
vantagens competitivas, as empresas terão de inovar em todas
essas áreas, não apenas na análise, segundo Vogel. A Amazon
tem desenvolvido muita actividade em torno do Big Data e da
análises de dados para conseguir chegar a clientes-alvo e
disponibilizar recomendações pertinentes.
O que tem aprendido ao longo do caminho é que “maior”, neste
caso, é sinónimo de melhor, diz Vogel. Quando são detectados
erros, estes são normalmente devidos ao facto de não
existirem dados suficientes para sustentar uma recomendação,
por exemplo.
Mas para o CTO da Feedzai, nem sempre é preferível ter uma
maior quantidade de dados. Em contexto de "Big Data", diz, a
pergunta mais importante a fazer é “o que é que eu preciso de
compreender do negócio que me permita ter uma organização
mais eficiente, mais produtiva, ou com mais oportunidades de
negócio?” 
Quando essa questão estiver resolvida, utilizam-se os dados
necessários existentes nos sistemas de informação. “Usar ‘a
maior quantidade possível de dados’ não será efectivamente a
melhor resposta. Saber que perguntas é que têm valor em
termos de negócio, sim, é um catalisador chave de soluções de
Big Data“, defende.<
Tirar partido para lá do “hype”
É impossível negar o crescimento exponencial da informação nos últimos
anos. Para Fernando Faria, Manager de Data & Information Management
da Unisys, “o reconhecimento da sua existência como Big Data, mais re-
centemente, comprova a tendência”.
Estando na “ordem do dia”, tem sido “um pouco enfatizado” pelos fabri-
cantes. Contudo, “não deixa de ser uma realidade” que merece atenção.
Sobretudo, com o objectivo de as organizações conseguirem “tirar par-
tido da compreensão e exploração desta informação em tempo real”, re-
força o responsável.
Big Data
Big Data8 |
COMPUTERWORLD - Março 2012
A Big Data tem tido alguma atenção
por estes dias e as organizações es-
tão cada vez mais preocupadas com
o problema da sua gestão, mas mui-
tas ainda não entendem o que são
realmente as grandes quantidades
de dados. Nem sequer têm as ferra-
mentas existentes para gerir eficaz-
mente muitos dos dados já à sua dis-
posição, diz Mandeep Khera,
director de marketing da LogLogic,
especializada numa plataforma es-
calável de registos e segurança de
inteligência (“log and security intelli-
gence platform” ou LSIP) para em-
presas e cloud.
"A maioria delas estão preocupadas
com os grandes dados, mas ainda
não entendem o que isso significa",
diz Khera. "Porque tem havido tanto
dito sobre Big Data, não há uma de-
finição clara e todos estão confu-
sos".
Um novo estudo conduzido pela Lo-
gLogic em conjunto com a consul-
tora de segurança de TI Echelon One
verifica que 49% das organizações
estão um pouco ou muito preocupa-
das com a gestão de grandes da-
dos, mas 38% não entende o que é a
Big Data e 27% ainda dizem que têm
uma compreensão parcial. Além
disso, o estudo descobriu que 59%
das organizações não possuem as
ferramentas necessárias para gerir
os dados nos seus sistemas de TI,
voltando-se em vez disso para siste-
mas separados e diferentes, ou até
folhas de cálculo.
"Sabemos que os dados são impor-
tantes a partir de muitas perspecti-
vas diferentes: segurança, opera-
ções de TI, conformidade", diz
Khera. "As empresas precisam de
gerir os dados dxe forma muito mais
eficaz para que possam tomar deci-
sões mais inteligentes".
O estudo global foi baseado nas res-
postas de 207 indivíduos ao nível da
direcção numa variedade de indús-
trias, incluindomanufactura, educa-
ção, governo, finanças, saúde, trans-
portes, media e edição, e outros.
"Big Data é sobre muitos terabytes
de dados não estruturados", explica
Khera. "A informação é poder, e a
Big Data, se administrada correcta-
mente, pode dar uma tonelada de
conhecimento para ajudar a lidar
com questões da segurança, opera-
cionais e de conformidade. Organi-
zações de todos os tamanhos estão
a recolher mais dados de uma varie-
dade de fontes de dentro da em-
presa e de infraestruturas na nuvem,
e muitas organizações não estão a
utilizar as ferramentas e processos
adequados para gerir esses dados.
Se este padrão continuar, veremos
as empresas a ficarem para trás, in-
capazes de obter conhecimentos
que podem ajudar as organizações a
tomar decisões inteligentes".
A maioria dos inquiridos – 62% - disse
que já geria mais de um terabyte de
dados. Mas há mais para vir. O vo-
lume de dados está a aumentar no
mundo a uma taxa quase incom-
preensível. A IBM diz que criamos
2,5 quintiliões de bytes de dados to-
dos os dias. E talvez ainda mais sur-
preendente, 90% dos dados no
mundo foram criados nos últimos
dois anos, segundo a empresa. Os
dados são provenientes de senso-
res, registos de transacções, ima-
gens e vídeos, mensagens nos media
sociais, registos de entrada e todos
Tendência preocupa e
causa grande confusão
Big Data | 9
Março 2012 - COMPUTERWORLD
os tipos de outras fontes.
É isto que é a Big Data. Ela pode for-
necer o tipo de inteligência e perspi-
cácia activa com que os líderes em-
presariais sonham. Na frente da
segurança, pode ajudar a proteger a
organização contra ameaças persis-
tentes avançadas (APT) e ataques
de malware, fornecendo visibilidade
sobre o que está a acontecer na
rede, e pode também dar à análise
forense um enorme impulso. E tam-
bém pode levar a enormes ganhos
em termos de eficiência operacional,
desde a optimização dos servidores
a otimizar a gestão da cadeia de
abastecimento. Pode até ajudar em
questões de conformidade.
Mas se não se tiverem as ferramen-
tas para gerir e realizar a analítica na
infindável inundação dos dados, eles
são essencialmente lixo.
Khera diz que uma das chaves para
ter a Big Data sob controlo é a ges-
tão dos “logs”, que consolida e cen-
traliza os registos de toda a organi-
zação - incluindo os “logs” de aplica-
ções Web, “middleware”, aplicações
de “back-end” personalizadas e ba-
ses de dados -, com um repositório
indexado de armazenamento e uma
interface de utilizador comum. Para
se obter sentido dos dados, requer-
se a capacidade de os normalizar,
correlacionar, emitir relatórios e aler-
tas.
Este ano, a LogLogic encomendou
ao IANS (fundado como Institute for
Applied Network Security), para rea-
lizar uma análise de investimento na
segurança da informação (Informa-
tion Security Investment Analysis ou
ISIA) dos seus produtos de gestão
de registos e de conformidade.
Após entrevistar clientes da LogLo-
gic que lidam com as questões das
grandes quantidades de dados, o
IANS afirmou: "o maior diferencia-
dor na gestão de registos em Big
Data é o tamanho da quantidade de
informações nos ‘logs’. Tentar recriar
um evento após o facto não é uma
questão simples se apenas alguns
dispositivos estão disponíveis. Ima-
gine olhar através de milhares de dis-
positivos e através de petabytes de
dados sem ter um fácil de usar in-
terface de utilizador ou um repositó-
rio de armazenamento indexado para
uma resposta rápida. A Big Data é
caracterizada não apenas pelo ta-
manho, mas também pela veloci-
dade. Procurar através de quantida-
des maciças de dados leva tempo se
não estiverem indexados correcta-
mente. Se a informação crítica sobre
acessos não autorizados ou outras
actividades não estiverem disponí-
veis porque não foram indexadas, os
resultados de uma pesquisa serão
inconclusivos. Assim, uma solução de
gestão de muitos dados deve ser ca-
paz de funcionar mesmo com a inun-
dação das novas mensagens. Isto é
ainda mais importante quando se
trata dos alertas. Se a indexação de-
morar muito, as mensagens críticas
de alerta serão atrasadas causando
uma latência inaceitável nos tempos
de resposta".
Por enquanto, porém, apenas 54%
dos entrevistados disseram usar
uma solução de gestão de “logs”
para gerirem os seus dados de re-
gistos. Muitos usam folhas de cálculo
para gerir os registos, de acordo com
o estudo, e 33% não fazem nada.
"Os resultados mostram significati-
vas inconsistências na prática", diz
Bob West, fundador e CEO do
Echelon One. "Ou seja, enquanto a
Big Data, as necessidades na cloud
e os requisitos de conformidade são
claramente as maiores preocupa-
ções, a maioria das empresas não
estão preparadas para lidar com
qualquer um deles de forma ade-
quada. É fascinante ver essa dis-
tância, e uma percentagem esma-
gadora das empresas inquiridas não
estão preparadas para gerir muitos
dados adequadamente, monitorizar
os ambientes cloud de forma eficaz
ou relatar as actividades da rede e
dos dispositivos correctamente. Es-
tas empresas estão a ficar expos-
tas a ataques, a tomada de deci-
sões menos informadas de
negócios e até mesmo a arriscarem
multas das agências reguladoras
por não cumprirem com as suas ob-
rigações".<
Big Data10 |
COMPUTERWORLD - Março 2012
A Big Data está sendo saudada - ou mediati-
zada, dependendo do seu ponto de vista - como
um activo de negócio estratégico para o futuro.
Isto significa que é apenas uma questão de
tempo até os colegas no escritório quererem sa-
ber os pensamentos da TI sobre o assunto.
O que lhes pode dizer? Para ter a certeza, lidar
com grandes quantidades de dados não é um
território virgem para a maioria dos departa-
mentos de TI, mas para além do “hype”, dizem
os analistas, a Big Data é realmente diferente
do “data warehousing”, “data mining” ou da
análise de “business intelligence” que surgiram
antes.
Os dados estão a ser gerados a uma maior ve-
locidade e variabilidade do que antes e, ao
contrário dos dados no passado, a maior parte
é desestruturada e rude (por vezes, são os cha-
mados "dados cinzentos").
Blogues, redes de media social, sensores de
máquinas e ferramentas baseadas em localiza-
ção estão a gerar todo um novo universo de da-
dos não estruturados que - quando rapida-
mente capturados, geridos e analisadas -
podem ajudar as empresas a descobrir factos e
padrões que não foram capazes de reconhecer
no passado.
"Recolhemos dados há muito tempo mas era de
forma muito limitada – o que produziu um
monte deles, mas sem que alguém estivesse a
fazer alguma coisa com eles", diz Paul Gustaf-
son, director dos programas de tecnologia Fo-
rum Leading Edge na Computer Sciences Corp.
"Os dados foram arquivados, e foram modela-
dos em torno de processos de negócios, não
como um conjunto mais amplo de conheci-
mento básico para a empresa. O mantra é essa
mudança de os recolher para os ligar".
A TI está a liderar a vanguarda dessa revolução
dos dados, dizem observadores do sector.
"Esta é uma oportunidade para entrar no escri-
tório do CEO e dizer, 'eu posso mudar este ne-
gócio e proporcionar o conhecimento na ponta
dos dedos em questão de segundos, por um
preço que eu não podia oferecer há cinco anos",
diz Eric Williams, CIO da Catalina Marketing.
Williams sabe do que fala – a Catalina mantém
uma base de dados de 2,5 petabytes com a fi-
delização dos clientes que inclui dados sobre
mais de 190 milhões de clientes de supermer-
cados norte-americanos, reunidos pelas maio-
res redes de retalho. Esta informação é, por sua
vez, utilizada para gerar cupões no “checkout”
com base no historial de compras.
Para orientar as organizações para a era da in-
teligência predictiva em tempo real, Williams e
outros observadores da indústria dizem que os
gestores de tecnologia devem evoluir a sua ar-
quitectura corporativa de gestão da informação
e cultura para suportar analíticasavançadas em
armazenamento de dados que calculem em te-
rabytes e petabytes (e possam potencialmente
escalar para os exabytes e zetabytes).
"A TI está sempre a dizer que quer encontrar
formas de aproximar-se do negócio - [Big Data]
é uma oportunidade fenomenal para fazer exac-
tamente isso", diz Williams.
Ao invés de esperar que as peças encaixem, os
líderes conhecedores de TI devem começar a
preparar-se e às suas organizações para se che-
garem à frente da transformação, dizem os
analistas, como Mark Beyer, da Gartner.
Eis as cinco principais acções que os gestores
de tecnologia devem tomar hoje para definir
uma base adequada para a era da Big Data de
amanhã.
Faça um balanço dos seus dados
Quase todas as organizações têm potencial-
mente acesso a um fluxo constante de dados
não estruturados – seja nas redes sociais ou a
partir de sensores que monitorizam o chão da
fábrica. Mas só porque uma organização está a
produzir essa quantidade de informação, isso
não significa que há um imperativo de negócio
para guardar e agir em cada byte.
"Com todo este interesse inicial em torno dos
grandes dados, as pessoas estão a sentir uma
necessidade artificial de compreender todos
os dados que vêm de Web logs ou de sensores",
observa Neil Raden, analista da Research Cons-
tellation.
Parte dessa ansiedade pode ser proveniente
de fornecedores e consultores ansiosos para
promover a próxima grande coisa na computa-
ção empresarial. "Há concerteza um esforço
determinado nesse sentido vindo das pessoas
que estão a comercializar a tecnologia", observa
Raden.
Os gestores inteligentes de TI vão resistir à
tentação e servir como filtro para ajudar a des-
cobrir quais os dados que são ou não relevan-
tes para a organização.
Um bom primeiro passo é fazer um balanço de
que dados são criados internamente e deter-
minar quais as fontes de dados externas, se as
houver, para preencher lacunas de conheci-
mento e trazer conhecimento agregado ao ne-
gócio, diz Raden.
Uma vez isso em curso, a TI deve avançar com
Cinco coisas que 
deve fazer agora
Tem o seu plano para grandes quantidades de dados em prática? Se não, pode querer pensar na implementação de um.
Big Data | 11
Março 2012 - COMPUTERWORLD
projectos altamente direccionados que possam
ser usados para demonstrar os resultados, por
oposição a optar por grandes projectos de Big
Data. "Não se tem de gastar alguns milhões de
dólares para iniciar um projecto e ver se vale a
pena", diz Raden.
Deixe as necessidades 
corporativas prevalecerem
Pode já ter ouvido isto antes, mas o alinha-
mento dos negócios com as TI é fundamental
para uma iniciativa tão grande e variada como
é a Big Data, dizem os analistas. Muitas das
primeiras grandes oportunidades nos grandes
dados começaram em áreas fora das TI - os de-
partamentos de marketing, por exemplo, estão
a analisar os fluxos nos media sociais para ga-
nharem uma melhor compreensão sobre as exi-
gências dos clientes e tendências de compra.
Enquanto especialistas em disciplinas especí-
ficas sobre o lado do negócio podem reconhe-
cer as oportunidades de fazer dinheiro, é res-
ponsabilidade da TI de tomar conta dos
conceitos de partilha e de federação dos dados
que fazem parte integrante de uma estratégia
de Big Data.
"Isto não é algo que a TI possa fazer por conta
própria", diz Dave Patton, analista das indús-
trias de gestão de informação na Pricewater-
houseCoopers. "Vai ser difícil transformar isto
numa história de sucesso se [a iniciativa] não
estiver alinhada com os objectivos do negó-
cio".
No início da iniciativa de Big Data na Catalina
Marketing, Williams juntou os gestores de ne-
gócio ao grupo de análise e planeamento fi-
nanceiro (FPA), num esforço de equipa para ter
um “business case” para investimentos em ar-
quitectura de informação.
O lado do negócio identificou áreas onde novas
ideias podiam trazer valor - por exemplo, na de-
terminação de compras posteriores com base
nos items do carrinho de compras ou através de
uma análise da próxima compra baseada em
ofertas de produtos – e a equipe FPA analisou
os números para quantificar o que os resulta-
dos significavam em termos de aumento de
produtividade ou de aumento de vendas.
Reavaliar a infra-estrutura
As iniciativas de Big Data exigem grandes mu-
danças, tanto na infra-estrutura de servidores e
de armazenamento e na arquitectura de gestão
de informação na maioria das empresas, dizem
Beyer e outros especialistas. Os gestores de TI
precisam de estar preparados para expandir os
seus sistemas para conseguirem lidar com as
quantidades cada vez maiores de dados estru-
turados e não estruturados, dizem.
Isto requer descobrir a melhor abordagem para
tornar ambos os sistemas extensíveis e escalá-
veis e desenvolver um roteiro para a integração
de todos os diferentes sistemas que irão ali-
mentar o esforço de análise de Big Data.
"Hoje, a maioria das empresas tem sistemas di-
ferentes e silos para folhas de pagamento, para
gestão de clientes, para marketing", diz Anjul
Bhambhri, vice-presidente da IBM para os pro-
dutos Big Data. "Os CIOs precisam realmente
de ter uma estratégia para juntar esses dife-
rentes sistemas e silos e construir um sistema
de sistemas. Quer-se fazer perguntas que fluam
através de todos esses sistemas para se obte-
rem respostas".
Desossar a tecnologia
O mundo dos dados enormes vem com uma
longa lista de novas siglas e de tecnologias
que provavelmente nunca apareceram no radar
de um CIO.
Ferramentas de código aberto estão a ter a
maior parte da atenção. Tecnologias como Ha-
doop, MapReduce e NoSQL estão a ser credi-
tadas como a ajuda de gigantes da Web, como
a Google e o Facebook, a escavarem os seus re-
servatórios de muitos dados. Muitas destas tec-
nologias, agora já disponíveis em modelos co-
merciais, ainda estão bastante imaturas e
necessitam de pessoas com competências
muito específicas.
Outras tecnologias que são importantes para o
mundo dos grandes dados incluem analítica de
base de dados, bases de dados verticais e apli-
cações de “data warehouse”.
Os gestores de TI e as suas equipas têm de
compreender estas novas ferramentas para ga-
rantir que serão capazes de tomar decisões
bem informadas na Big Data.
Prepare as suas equipas
Quer precisem de especialistas do Hadoop ou
cientistas de dados, a maioria das organizações
de TI sentem muita falta do talento necessário
para dar os próximos passos na Big Data. Ca-
pacidades de analítica são talvez a mais cru-
cial, e essa é a área onde a maioria das equi-
pas de TI têm as maiores lacunas.
A McKinsey antecipa que, só nos EUA, haverá
uma necessidade em 2018 entre 140 mil a
190 mil especialistas em métodos estatísticos
e em tecnologias de análise de dados. Os car-
gos que estarão em procura vão incluir o papel
amplamente alardeado e emergente do cien-
tista de dados.
Além disso, a McKinsey antecipa a necessidade
seja no lado do negócio ou técnico da organi-
zação para mais 1,5 milhões de gestores letra-
dos em dados que tenham formação em analí-
tica predictiva e estatística.
Para algumas empresas, especialmente aque-
las em áreas menos povoadas, o pessoal será
provavelmente um dos aspectos mais desa-
fiantes numa iniciativa de Big Data. A enorme
quantidade de dados "requer definitivamente
uma mentalidade diferente e capacidades
numa série de áreas", diz Rick Cowan, CIO da
True Textiles, fabricante de tecidos interiores
para o mercado comercial, baseado em Guilford
(EUA).
"Como empresa de médio porte, tem sido um
desafio ser capaz de conseguir pessoal e
mantê-lo a funcionar num ambiente em cons-
tante mudança", diz Cowan. Para atender à
necessidade, ele começou a treinar programa-
dores e analistas de bases de dados para os le-
var até à analítica avançada.
Os responsáveis dos departamentos de TI terão
também de assumir algumas transformações
para terem sucesso neste admirável mundo
novo. Enquantoos melhores líderes de tecno-
logia do passado foram parte bibliotecário da
informação e parte engenheiro de infra-estru-
tura, os gestores de TI do futuro vão ser uma
combinação de cientista de dados e engenheiro
de processos de negócios, diz Beyer, da Gart-
ner.
"Os CIOs têm sido usados para gerir a infra-es-
trutura baseada num conjunto de instruções
dadas a partir do negócio, por oposição a um
CIO que é capaz de identificar a oportunidade
e, portanto, puxar pelo uso inovador da infor-
mação", explica. "Essa é a transformação que
precisa de acontecer".<
AV. DA REPÚBLICA, N.º 6, 7º ESQ. 1050-191 LISBOA DIRECTOR EDITORIAL: PEDRO FONSECA pfonseca@computerworld.workmedia.pt EDITOR: JOÃO PAULO NÓBREGA jnobrega@computerworld.workmedia.pt
DIRECTOR COMERCIAL E DE PUBLICIDADE: PAULO FERNANDES pfernandes@computerworld.workmedia.pt TELEF. / FAX +351 213 303 791 PAGINAÇÃO: PAULO COELHO - TODOS OS DIREITOS SÃO RESERVADOS.
A IDG (International Data Group) é o líder mundial em media, estudos de mercado e eventos na área das tecnologias de informação (TI). Fundada em 1964, a IDG possui mais de 12.000 funcionários em todo o mundo. As marcas IDG –
Computerworld, CIO, CFO World, CSO, ChannelWorld, InfoWorld, Macworld, PC World e TechWorld – atingem uma audiência de 270 milhões de consumidores de tecnologia em mais de 90 países, os quais representam 95% dos gastos
mundiais em TI. A rede global de media da IDG inclui mais de 460 websites e 200 publicações impressas, nos segmentos das tecnologias de negócio, de consumo, entretenimento digital e videojogos. Anualmente, a IDG produz mais de
700 eventos e conferências sobre as mais diversas áreas tecnológicas. Pode encontrar mais informações do grupo IDG em www.idg.com
COMPUTERWORLD www.computerworld.com.pt
Big Data12 |
COMPUTERWORLD - Março 2012
Um novo cargo - cientista de dados – está na
moda. Um cientista de dados tem normal-
mente formação em ciências da computação
ou matemática, bem como as capacidades
analíticas necessárias para encontrar a prover-
bial agulha num palheiro de dados recolhidos
pela empresa.
"Um cientista de dados é alguém que é curioso,
que pode olhar os dados e detectar tendências",
diz Anjul Bhambhri, vice-presidente de produ-
tos Big Data na IBM. "É quase como um
homem da Renascença que realmente quer
aprender e trazer mudança para a organização".
Inédito há 18 meses atrás, o termo "cientista
de dados" explodiu em popularidade no Goo-
gle. O número de buscas atingiu picos de 20
vezes maior do que o normal no último trimes-
tre de 2011 e primeiro trimestre de 2012. É
um termo de busca popular em locais de alta
tecnologia nos Estados unidos, como São Fran-
cisco, Washington D.C. e Nova Iorque.
Entre as empresas que procuram contratar
cientistas de dados estão a PayPal, Amazon e
HP. O termo "cientista de dados" é mencionado
em 195 anúncios de emprego no Dice.com,
um site para profissionais de TI.
Os departamentos de TI também está adicio-
nando programadores centrados nos dados e
administradores de sistemas especializados em
ferramentas como o “open source” Apache Ha-
doop.
O Hadoop é mencionado em 612 dos mais de
83 mil anúncios de emprego no Dice.com.
Entre as empresas que procuram contratar en-
genheiros de software e programadores Hadoop
estão a AT&T Interactive, Sears, PayPal, AOL
e Deloitte.
O Hadoop "é uma capacidade emergente", diz
Alice Hill, directora-executiva do Dice.com. "As
empresas precisam de gerir operações de
dados em grande escala, e toda a ideia do Ha-
doop é que se pode fazer isso com um baixo
custo. Isto funciona muito bem com o que es-
tamos a ver em termos de movimento para a
cloud".
Hill vê oportunidades relacionadas com o Ha-
doop quer ao nível de entrada como de equipas
de TI experientes, bem como nos especialistas
de hardware e de software.
"As pessoas tradicionais do hardware precisam
de descobrir como se agrupar em diferentes
ambientes. Não é apenas sobre a compra de
uma base de dados e a ligar a um disco rígido.
Agora já se têm bancos de dados distribuídos
que estão ligados a múltiplos servidores e múl-
tiplos discos rígidos", diz Hill. O Hadoop "é ba-
rato mas exige alguém que realmente saiba
como escalar hardware".
Hill diz também que o Hadoop é igualmente
uma boa oportunidade a seguir por profissio-
nais de TI com experiência em gestão de bases
de dados relacionais. "Se realmente se entende
de estrutura de dados e de consultas [“que-
ries”], haverá um monte de oportunidades de
emprego", acrescenta.
Oportunidades de trabalho para cientistas de
dados e especialistas do Hadoop estão a surgir
em todos os sectores, desde empresas de Web
a e-lojas, a serviços financeiros, energia,
saúde, “utilities” e media.
"Há tantas direcções em que se pode seguir
com estas capacidades” de gestão de dados,
aponta Hill. "É um solo muito fértil para pro-
fissionais de TI experientes, mas também para
pessoas que se estão a formar em ciências da
computação. É uma grande área para se espe-
cializar".
Bhambhri diz que os departamentos de TI vão
estar a olhar para contratar novas pessoas na
área da Big Data, bem como para re-formar al-
guns dos seus actuais empregados para adi-
cionar capacidades análise de dados e
programação relacionada com Hadoop e capa-
cidades administrativas. Por exemplo, a IBM
re-treinou 2.400 profissionais de TI em Big
Data Bootcamps, que usava para os seus clien-
tes e parceiros no ano passado.
"Os departamentos de TI têm realmente que
expandir as suas plataformas de dados e não
estarem restringidos aos repositórios de dados
estruturados", diz Bhambhri. "Eles têm que tra-
zer novas fontes de dados não estruturados
para as suas plataformas para responder às
perguntas que os executivos de nível C estão a
pedir para os seus processos decisórios. De
uma perspectiva da TI, é muito importante
para as pessoas em TI não só identificarem
estas fontes de dados mas para trabalharem
com os seus parceiros de negócios e descobrir
que outras fontes de dados precisam de ser in-
tegradas nas suas plataformas".
A IBM tem uma nova iniciativa denominada
Big Data University, que visa a formação de es-
tudantes e de pós-graduados na área de Big
Data e de exposição ao Hadoop. Lançada em
Outubro passado, a Big Data University já
atraiu mais de 14 mil estudantes interessados
em se inscreverem nos seis cursos online rela-
cionadas com Hadoop e Big Data.
"Estamos a tentar fazer com que os alunos
vejam o potencial real do Big Data e que re-
sultados de negócio pode obter a partir dessas
novas fontes de dados", diz Bhambhri. "Esta-
mos a dar-lhes casos úteis de empresas no re-
talho, cuidados de saúde ou telecomunicações.
Mostramos porque não era possível antes e é
possível agora por causa do trabalho que temos
feito com diferentes clientes nestes sectores
diferentes".
Bhambhri está optimista com as perspectivas
de carreira para profissionais de TI com com-
petências em gestão de dados e em Hadoop.
"Em todos os sectores, há uma grande quanti-
dade de dados que está sendo capturada", diz
Bhambhri. "Os volumes de dados são enormes.
Assim, muitos dos nossos clientes estão a cap-
turar os dados mas até agora não havia tecno-
logia disponível que eles pudessem usar para
analisar esses dados de forma rápida numa re-
lação de custo-benefício. Era um grande pro-
blema. Agora, lemos o que o Yahoo e a Google
estão a fazer com o Hadoop e o MapReduce, e
parece realmente que essas ferramentas em
código aberto vão resolver o problema".<
Mais oportunidades de carreira
para profissionais de TI
Novas oportunidades de emprego estão a surgir para os profissionais de TI na área dos dados "grandes", o termo usado
para descrever como as empresas reúnem grandes quantidades de dados em tempo real sobre os seus clientes e os
analisam para conduzir a tomada de decisão e aumentar o lucro.
ÞFaltam profissionais
em Portugal
O gestor da Reditus, Nuno Pacheco, revela que noâmbito
da sua aposta numa oferta para Big Data ”está a fazer um
forte investimento na aquisição de valências nesta área”.
Mas considera que ainda é escassa a oferta de profissio-
nais de TI especializados.
Na sua visão, as PME terão de se adaptar a um novo para-
digma, no qual as fontes de informação a analisar estão
fora do domínio das empresas. “O volume de informação
já não se encontra na ordem dos gigabytes, mas sim nos
tera, exa ou mesmo petabytes. Pode parecer assustadora
esta ordem de grandeza, mas é importante referir que
uma solução Big Data actua mais no tratamento e redução
da informação, do que no armazenamento”, explica. E é
esse enfoque que permitirá efectuar análises mais espe-
cializadas – por exemplo, na análise a redes sociais.<

Outros materiais