Buscar

Armadihas na Ciência de Dados

Prévia do material em texto

ciência
de dados.
sem cair em armadilhas...
ciência
de dados.
2
Muitas empresas estão mergulhando no universo de 
analytics e ciência de dados sem antes conhecê-los 
a fundo. Mas é primordial às companhias que buscam 
extrair insights de ativos de informação para iniciativas 
de big data saber quais são as armadilhas que existem 
para evitá-las. Por exemplo, não adianta se aventurar 
em análise de dados sem entender os problemas de 
negócios que se quer resolver. 
É importante ter clareza da maturidade da sua 
companhia em relação às práticas data driven e qual 
valor a ser ativado para a companhia. Neste e-book, 
você conhecerá os principais desafios, as tecnologias 
e como se dá a jornada de uma empresa para entrar de 
vez na era da inteligência de dados.
ciência
de dados.
sem cair em armadilhas...
4
fuja das
armadilhas. 
1. Tenha um método e não 
encare o projeto de dados 
como um de software 
convencional
2. Não trate a jornada de 
maturidade como cascata, 
porque ela não é
3. Conte com equipe 
capacitada, que realmente 
conheça ciência de dados 
4. Confie na nuvem
ciência
de dados.
5
1. Tenha um 
método e 
não encare 
o projeto 
de dados 
como um 
de software 
convencional.
ciência
de dados.
6
Não é de hoje que as organizações buscam gerar 
insights por meio da análise de dados. Essa prática se 
tornou mais evidente nos últimos anos, impulsionada 
pelo aumento das soluções de big data oferecidas, 
principalmente, pelos provedores de computação 
em nuvem. Tais soluções têm sido responsáveis por 
democratizar a adoção de técnicas como machine 
learning e permitem processar grandes volumes de 
dados de forma rápida, barata e segura.
Contudo, mesmo com um cenário tecnológico favorá-
vel, não é simples alcançar a tão sonhada geração de 
valor. Além dos aspectos culturais em relação às práti-
cas data driven, existem riscos técnicos e de negócios 
que precisam ser mitigados o mais cedo possível. Mui-
tas empresas têm se aventurado em ciência de dados 
sem antes conhecer as armadilhas. Entender quais são 
os cuidados que devem ser tomados é o primeiro pas-
so rumo ao sucesso do projeto. 
A primeira armadilha que as empresas podem cair é não 
tratarem o projeto de dados por meio de um método 
científico. Diferentemente de projetos tradicionais de 
software, é preciso endereçar situações como a de 
identificar se os dados estão no formato necessário 
para alcançar o objetivo. Às vezes, investe-se muito 
tempo criando estruturas robustas sem saber se 
será possível chegar aos resultados desejados com o 
projeto que se quer construir.
Nada de softwares convencionais.
>>>
ciência
de dados.
7
2. Não trate 
a jornada de 
maturidade 
como cascata, 
porque ela 
não é
ciência
de dados.
8
A segunda armadilha diz respeito à maneira como a 
jornada da maturidade é tratada (leia mais no box na 
pág. 23). Ainda que ela tenha três estágios — descritivo, 
preditivo e prescritivo —, é errado encará-la como uma 
cascata. Ou seja, não é necessário passar por uma fase 
para fazer a outra, mas cada uma das etapas da jornada 
descreve o seu grau de competência para lidar com os 
dados. 
Os três elementos devem ser trabalhados de maneira 
paralela, à medida que se criam as competências, 
se está organizando a estrutura de dados. Nesse 
sentido, não se pode deixar de lado a capacidade de 
experimentação, pois é ela que vai permitir caminhar na 
jornada, agregando conhecimento e aprendizado para 
tirar valor do que consegue predizer com eles.
Jornada de maturidade.
>>>
ciência
de dados.
9
3. Conte 
com equipe 
capacitada, 
que realmente 
conheça 
ciência de 
dados
ciência
de dados.
10
A terceira armadilha está relacionada às equipes. Du-
rante muito tempo, colocou-se em evidência pessoas 
com muito conhecimento técnico, por exemplo, supe-
respecializadas em machine learning, mas este profis-
sional, quando existe, é raro. Não tente buscar alguém 
assim no mercado. Trata-se de uma área muito nova e 
não há tantos profissionais especializados no merca-
do. Portanto, mostra-se mais razoável pensar em times 
multidisciplinares e trabalhar com squads apostando na 
complementaridade de conhecimentos das pessoas.
Conte com equipe capacitada.
>>>
ciência
de dados.
11
4. Confie
na nuvem
ciência
de dados.
12
E, por último, confie na nuvem. Ainda hoje persiste a 
ideia de que é mais seguro deixar os dados em casa. 
Com medo de ir para a nuvem, empresas montam 
infraestrutura local, mas esta estratégia pode significar 
atrasos nos projetos. Começar diretamente contando 
com computação em nuvem torna o trabalho mais ágil, 
permitindo fazer testes e rodar soluções. 
Tem sido um erro terrível das organizações não 
confiarem na nuvem, porque acabam abrindo mão de 
todas as ferramentas que os players desenvolveram 
em prol de elas mesmas construírem tudo do zero. 
Assim, perdem tempo tentando encontrar maneiras de 
trabalhar e deixam de olhar para aspectos importantes. 
Hoje em dia, os provedores de nuvem têm serviços 
bem maduros para suportar projetos de dados e o 
preço não tem sido uma barreira. O principal desafio 
é escolher o player adequado ao desafio que você 
precisa resolver, usando o que ele oferece de bom 
para acelerar a construção. >>>
Confie na nuvem.
13
resolvendo as
armadilhas.
ciência
de dados.
14
Em vez de buscar uma solução específica para cada 
uma das armadilhas, o melhor é pensar holisticamente 
e mitigar os quatro riscos conjuntamente. Tenha 
em mente também que não se trata de apenas uma 
tecnologia endereçando todas as metas dos projetos 
de dados. O time que está trabalhando no projeto tem 
de ter perfil multidisciplinar com pessoas boas em 
diferentes competências, como engenharia de dados, 
análise de dados, machine learning e ciência de dados. 
A tratativa das armadilhas começa com a composição 
da equipe com profissionais com competências 
variadas. O desdobramento passa por ter cultura 
ágil de trabalho e isso não significa apenas aplicar o 
método ágil ou Scrum, mas fomentar o pensamento 
pautado no ágil. Fazer ágil é pensar, é ser criativo, é 
construir, em um curto espaço de tempo, algo simples 
de ser escalado à medida que se percebe o sucesso da 
iniciativa; e que também permita validação. Se isso não 
estiver fortemente arraigado no time, a empresa não 
conseguirá tratar o projeto de dados como ele deveria 
ser. 
Outro ponto fundamental é manter a antena da inovação 
ligada para não usar ferramentas obsoletas. Isso é tão 
importante quanto contar com pessoas capacitadas 
para saber resolver problemas. Ademais, deve-se 
explorar a capacidade do que se pode fazer com os 
dados. Deve-se ainda enxergar à frente para conseguir 
gerar valor com o projeto de dados, o que se torna 
possível ao fomentar a capacidade de experimentação, 
a inovação e a cultura ágil. 
O poder dos dados é enorme. Mas tem de saber usá-lo. 
Vide o exemplo de uma grande companhia que oferece 
entretenimento sob demanda que incrementou o 
consumo de conteúdo após o desenvolvimento de 
novas funcionalidades no aplicativo. O projeto contou 
Resolvendo as armadilhas.
ciência
de dados.
15
com a expertise de um time de ciência de dados da 
Dextra. Os cientistas trabalharam em conjunto, em 
squad, junto com profissionais da empresa cliente, 
trazendo a prática de experimentação contínua. Assim, 
conseguiram mapear os principais gatilhos de sucesso 
da jornada de usuário. Com base nessas descobertas, 
foram desenvolvidas ações que resultaram em um 
aumento de quatro vezes o consumo de conteúdo da 
plataforma.
Mas qual foi o milagre? Para desenvolver as novas 
funcionalidades, o time de aplicativo contou com 
respaldo da figura do cientista de dados. Antes de 
colocar as novas funcionalidades no ar e de fazer o 
roll-out para os milhares de usuários, foram conduzidos 
experimentos com um número selecionado de 
usuários. O cientista de dados ficou responsável pela 
coleta e análise dos dados. Dessa forma, foi possível 
entender a maneira como os assinantesutilizavam os 
novos recursos — e esse aprendizado gerou insights 
para o squad. 
Dentre as descobertas, o time passou a entender 
como as funcionalidades faziam sentido para o usuário; 
quais perfis foram mais aderentes a elas; a quem 
não interessou ou não chamou a atenção; como foi a 
facilidade no uso e o quão user friendly estava o novo 
recurso; entre outros pontos. O conhecimento gerado 
permitiu ao time responder a questões como: quanto 
mais de conteúdo os usuários consumiram; qual 
incremento na receita se pode esperar; e quais pontos 
podem ser melhorados no aplicativo. 
Fundamental para as análises e cruzamentos das 
informações, o cientista de dados trabalhando lado 
a lado com a equipe de desenvolvimento consegue 
rodar testes para identificar como os usuários lidam 
e interagem com as novas funcionalidades e levar a 
Resolvendo as armadilhas.
ciência
de dados.
16Resolvendo as armadilhas.
>>>
mudanças de rota e a correções antes de o projeto ir 
ao ar. 
Em outro caso, uma empresa de cartões de benefícios 
obteve uma experiência mais fluida e amigável na 
realização de pagamentos de boleto e transferências 
depois que a Dextra identificou alguns comportamentos 
dos clientes. Foi identificado que um grande número 
de usuários instalava o aplicativo para conferir saldo 
no cartão e, na sequência, o desinstalava. A hipótese 
levantada pela equipe foi que o aparelho celular dos 
usuários não suportava o aplicativo. Para validar a 
hipótese, foi providenciado outro canal de atendimento, 
por meio de chat via WhatsApp usando chatbot. O 
robô de inteligência artificial passou a responder às 
perguntas, tais como o saldo do cartão, e alcançou 
o feito de se tornar um dos principais canais de 
atendimento da empresa hoje.
ciência
de dados.
17
explorando 
os dados
ciência
de dados.
18Explorando os dados
Atualmente, as companhias têm frisado a importância 
de tomar decisões baseadas em dados e não apenas 
em achismos. Mas como se faz isso? Como se gera 
valor? A resposta imediata é por meio da inovação e 
contando com tecnologias adequadas para olhar para 
novos negócios e novas capacidades. 
As grandes companhias têm explorado essa 
área colocando entre 10% a 15% do tempo dos 
colaboradores focado em inovação e trabalhando 
com mindset em MVP (minimum viable product) ou 
PoC (proof of concept). MVP e PoC são conceitos 
diferentes. Enquanto MVP tem como propósito validar 
uma ação ou um projeto ainda em desenvolvimento 
para entender seu impacto real no negócio, a prova 
de conceito congrega experimentações de viabilidade 
técnica antes do desenvolvimento para averiguar se o 
planejado dará certo. São testes em um ambiente de 
incertezas. 
Quando se trabalha em projetos de dados - principal-
mente, envolvendo ciência de dados e machine lear-
ning - é muito fácil esbarrar na barreira do conhecimen-
to. Por isso, a PoC é tão importante. Por meio dessa 
prova de conceito pode-se responder questões sobre 
a viabilidade do que se está desenvolvendo. Depois da 
PoC parte-se para o MVP para entender a viabilidade do 
negócio.
Dentro desse contexto, as empresas devem criar um 
ciclo de inovação buscando validar os experimentos e 
mensurar os resultados. Em um caso hipotético, se fizer 
experimento e não conseguir coletar os resultados, 
o projeto completo não conseguiria provar o valor 
esperado. É necessário ter claro que o mais importante 
nesse processo de experimentos é entender o que 
deu certo e o que deu errado. E isso vale inclusive 
para partes do processo: averiguando se pedaço da 
ciência
de dados.
19Explorando os dados
hipótese foi validado, enquanto o resto não. Para tanto, 
deve-se coletar métricas suficientes para saber o que 
funcionou e não. 
Atualmente, a ciência de dados vive seu hype, com 
empresas de todos os portes e segmentos de atuação 
fazendo projetos. Contudo, muitas delas estão fazendo 
sem os embasamentos necessários (técnicos e de 
processos), achando que estão no rumo certo. Se fizer 
a jornada da maneira correta, a chance de dar certo 
é grande. Mas, se feita de forma errada, o gasto será 
enorme, correndo o risco de, além de ter um passivo 
gigante, se deparar com uma descrença generalizada 
com ciência de dados. 
Portanto, recomenda-se contar com a orientação 
correta para que os projetos de dados entreguem 
os resultados esperados e alcancem os objetivos 
definidos. >>>
ciência
de dados.
20
jornada da
maturidade.
ciência
de dados.
21Jornada de Maturidade.
>>>
A jornada da maturidade se caracteriza pelo grau de 
valor que você ativa com os dados, passando da fase 
descritiva, quando só consegue explicar o passado, 
para a preditiva, que, por tentar antever o futuro 
fazendo uma previsão é mais valiosa que a capacidade 
de explicar o que já aconteceu. À medida que se evolui 
nessa jornada, as empresas ativam um valor maior com 
o dado.
Se a sua organização está dando os primeiros passos 
nessa jornada de maturidade, certifique-se de envolver 
todas as áreas que serão impactadas pela iniciativa de 
dados que está começando. Isso vai ajudar a mitigar os 
riscos iniciais do projeto. 
Você, provavelmente, está pensando em construir 
a capacidade descritiva e evoluir gradualmente para 
as capacidades preditivas e prescritivas, mas tome 
cuidado! Essa jornada de maturidade não deve ser 
tratada como um modelo cascata, mas, sim, as 
empresas precisam trabalhar a inteligência do produto 
de forma simultânea à estruturação dos dados no data 
lake ou no data warehouse.
À medida que sua organização avança nessa jornada, 
novos produtos surgirão e com eles um maior valor será 
ativado pelos seus dados. Em uma empresa de servi-
ços, por exemplo, seria possível prever um súbito au-
mento na taxa de cancelamentos e até mesmo pres-
crever uma ação para evitar que esses cancelamentos 
aconteçam. Atingir este nível de maturidade não é fácil, 
pois depende de um método de trabalho bem alinhado 
e orientado a métricas.
ciência
de dados.
22
Descritivo
Usar dados para 
explicar (descrever 
o passado) 
Soluções de BI, 
Analytics e Monito-
ramento
através de Enge-
nharia de Dados e 
Análise de dados
Preditivo
Usar dados para 
prever comporta-
mentos futuros
 
Soluções de BI, 
Analytics e Moni-
toramento através 
de Engenharia de 
Dados e Análise de 
dados
Prescritivo
Usar dados para 
encontrar a melhor 
solução para um 
problema 
Recomendar so-
luções para um 
problema através 
de Engenharia de 
Dados, Análise de 
dados e Engenha-
ria de ML
Jornada de Maturidade.
4 pontos de atenção para
 projetos de dados >>>
ciência
de dados.
23
 
Não existe uma única tecnologia que vai endereçar 
todas as demandas. Em um projeto de dados, o segredo 
está em começar pequeno e crescer na medida em 
que o conhecimento aumenta. Também é notória 
a necessidade de se combinar variados métodos, 
processos, técnicas e soluções de TI. E o principal: tem 
de estar pronto para escalar rápido! 
comple-
mentarie-
dade
ciência
de dados.
24
Decisão de ir 
para nuvem 
DevOps
MLOps 
Como serviço 
Containers 
Computação em nuvem — A 
disponibilidade de ferramentas 
para processar grandes 
quantidades de dados habilita 
projetos complexos envolvendo 
internet das coisas (IoT) e 
soluções em tempo real. Nunca 
foi tão democrático processar, 
armazenar e analisar grandes 
volumes de dados.
Serviços autogerenciados para 
processar, armazenar e até 
enriquecer dados utilizando 
modelos pré-treinados de 
machine learning, capazes de 
classificar imagem, lidar com 
processamento de linguagem 
natural entre outras tarefas 
complexas.
Ninguém pensa nisso, mas 
um projeto de dados também 
precisa de implantação rápida, 
monitoramento, ambientes 
segregados e sustentação! 
 
São ferramentas essenciais 
para criar soluções com baixo 
acoplamento e fáceis de escalar. 
Tome como exemplo o modelo 
de machine learning. Ele não 
pode estar fortemente acoplado 
ao produto digital, mas precisa 
estar em uma infraestrutura 
independente de forma que 
possa escalare evoluir com 
autonomia.
ciência
de dados.
25
Conte
conosco!
 
A Dextra tem todo o know-how para ajudar a sua 
empresa a ingressar de uma vez por todas no universo 
da ciência de dados — e sem cair em armadilhas. 
Tornar-se digital e abraçar a inteligência de dados é, 
cada vez mais, tanto uma questão de sobrevivência 
como um indicador de sucesso para as empresas. 
Nós ajudamos companhias a preparar todas as áreas 
do negócio para superar desafios e impulsionar 
resultados. Somos uma empresa pioneira no 
pensamento de evolução digital. Desenvolvemos 
produtos personalizados, combinando metodologias 
de design, desenvolvimento ágil e novas tecnologias 
para entregar soluções que impulsionam o negócio 
dos nossos clientes. Sem enrolação. Com resultados.
Conheça mais em: https://www.dextra.com.br/data-n-
analytics/
https://www.dextra.com.br/data-n-analytics/
https://www.dextra.com.br/data-n-analytics/
ciência
de dados.
26
Contato
 
Conheça nossos especialistas em dados, 
responsáveis por maximizar os resultados de 
negócios dos nossos parceiros por meio do uso 
de ciência de dados
Everton Gago 
Chief Data Officer
e-mail everton.gago@dextra-sw.com
Flavio Henrique Furlanetto 
Data Project Manager
e-mail flavio.furlanetto@dextra-sw.com
ciência
de dados.
sem cair em armadilhas...
	_heading=h.gjdgxs