Prévia do material em texto
ciência de dados. sem cair em armadilhas... ciência de dados. 2 Muitas empresas estão mergulhando no universo de analytics e ciência de dados sem antes conhecê-los a fundo. Mas é primordial às companhias que buscam extrair insights de ativos de informação para iniciativas de big data saber quais são as armadilhas que existem para evitá-las. Por exemplo, não adianta se aventurar em análise de dados sem entender os problemas de negócios que se quer resolver. É importante ter clareza da maturidade da sua companhia em relação às práticas data driven e qual valor a ser ativado para a companhia. Neste e-book, você conhecerá os principais desafios, as tecnologias e como se dá a jornada de uma empresa para entrar de vez na era da inteligência de dados. ciência de dados. sem cair em armadilhas... 4 fuja das armadilhas. 1. Tenha um método e não encare o projeto de dados como um de software convencional 2. Não trate a jornada de maturidade como cascata, porque ela não é 3. Conte com equipe capacitada, que realmente conheça ciência de dados 4. Confie na nuvem ciência de dados. 5 1. Tenha um método e não encare o projeto de dados como um de software convencional. ciência de dados. 6 Não é de hoje que as organizações buscam gerar insights por meio da análise de dados. Essa prática se tornou mais evidente nos últimos anos, impulsionada pelo aumento das soluções de big data oferecidas, principalmente, pelos provedores de computação em nuvem. Tais soluções têm sido responsáveis por democratizar a adoção de técnicas como machine learning e permitem processar grandes volumes de dados de forma rápida, barata e segura. Contudo, mesmo com um cenário tecnológico favorá- vel, não é simples alcançar a tão sonhada geração de valor. Além dos aspectos culturais em relação às práti- cas data driven, existem riscos técnicos e de negócios que precisam ser mitigados o mais cedo possível. Mui- tas empresas têm se aventurado em ciência de dados sem antes conhecer as armadilhas. Entender quais são os cuidados que devem ser tomados é o primeiro pas- so rumo ao sucesso do projeto. A primeira armadilha que as empresas podem cair é não tratarem o projeto de dados por meio de um método científico. Diferentemente de projetos tradicionais de software, é preciso endereçar situações como a de identificar se os dados estão no formato necessário para alcançar o objetivo. Às vezes, investe-se muito tempo criando estruturas robustas sem saber se será possível chegar aos resultados desejados com o projeto que se quer construir. Nada de softwares convencionais. >>> ciência de dados. 7 2. Não trate a jornada de maturidade como cascata, porque ela não é ciência de dados. 8 A segunda armadilha diz respeito à maneira como a jornada da maturidade é tratada (leia mais no box na pág. 23). Ainda que ela tenha três estágios — descritivo, preditivo e prescritivo —, é errado encará-la como uma cascata. Ou seja, não é necessário passar por uma fase para fazer a outra, mas cada uma das etapas da jornada descreve o seu grau de competência para lidar com os dados. Os três elementos devem ser trabalhados de maneira paralela, à medida que se criam as competências, se está organizando a estrutura de dados. Nesse sentido, não se pode deixar de lado a capacidade de experimentação, pois é ela que vai permitir caminhar na jornada, agregando conhecimento e aprendizado para tirar valor do que consegue predizer com eles. Jornada de maturidade. >>> ciência de dados. 9 3. Conte com equipe capacitada, que realmente conheça ciência de dados ciência de dados. 10 A terceira armadilha está relacionada às equipes. Du- rante muito tempo, colocou-se em evidência pessoas com muito conhecimento técnico, por exemplo, supe- respecializadas em machine learning, mas este profis- sional, quando existe, é raro. Não tente buscar alguém assim no mercado. Trata-se de uma área muito nova e não há tantos profissionais especializados no merca- do. Portanto, mostra-se mais razoável pensar em times multidisciplinares e trabalhar com squads apostando na complementaridade de conhecimentos das pessoas. Conte com equipe capacitada. >>> ciência de dados. 11 4. Confie na nuvem ciência de dados. 12 E, por último, confie na nuvem. Ainda hoje persiste a ideia de que é mais seguro deixar os dados em casa. Com medo de ir para a nuvem, empresas montam infraestrutura local, mas esta estratégia pode significar atrasos nos projetos. Começar diretamente contando com computação em nuvem torna o trabalho mais ágil, permitindo fazer testes e rodar soluções. Tem sido um erro terrível das organizações não confiarem na nuvem, porque acabam abrindo mão de todas as ferramentas que os players desenvolveram em prol de elas mesmas construírem tudo do zero. Assim, perdem tempo tentando encontrar maneiras de trabalhar e deixam de olhar para aspectos importantes. Hoje em dia, os provedores de nuvem têm serviços bem maduros para suportar projetos de dados e o preço não tem sido uma barreira. O principal desafio é escolher o player adequado ao desafio que você precisa resolver, usando o que ele oferece de bom para acelerar a construção. >>> Confie na nuvem. 13 resolvendo as armadilhas. ciência de dados. 14 Em vez de buscar uma solução específica para cada uma das armadilhas, o melhor é pensar holisticamente e mitigar os quatro riscos conjuntamente. Tenha em mente também que não se trata de apenas uma tecnologia endereçando todas as metas dos projetos de dados. O time que está trabalhando no projeto tem de ter perfil multidisciplinar com pessoas boas em diferentes competências, como engenharia de dados, análise de dados, machine learning e ciência de dados. A tratativa das armadilhas começa com a composição da equipe com profissionais com competências variadas. O desdobramento passa por ter cultura ágil de trabalho e isso não significa apenas aplicar o método ágil ou Scrum, mas fomentar o pensamento pautado no ágil. Fazer ágil é pensar, é ser criativo, é construir, em um curto espaço de tempo, algo simples de ser escalado à medida que se percebe o sucesso da iniciativa; e que também permita validação. Se isso não estiver fortemente arraigado no time, a empresa não conseguirá tratar o projeto de dados como ele deveria ser. Outro ponto fundamental é manter a antena da inovação ligada para não usar ferramentas obsoletas. Isso é tão importante quanto contar com pessoas capacitadas para saber resolver problemas. Ademais, deve-se explorar a capacidade do que se pode fazer com os dados. Deve-se ainda enxergar à frente para conseguir gerar valor com o projeto de dados, o que se torna possível ao fomentar a capacidade de experimentação, a inovação e a cultura ágil. O poder dos dados é enorme. Mas tem de saber usá-lo. Vide o exemplo de uma grande companhia que oferece entretenimento sob demanda que incrementou o consumo de conteúdo após o desenvolvimento de novas funcionalidades no aplicativo. O projeto contou Resolvendo as armadilhas. ciência de dados. 15 com a expertise de um time de ciência de dados da Dextra. Os cientistas trabalharam em conjunto, em squad, junto com profissionais da empresa cliente, trazendo a prática de experimentação contínua. Assim, conseguiram mapear os principais gatilhos de sucesso da jornada de usuário. Com base nessas descobertas, foram desenvolvidas ações que resultaram em um aumento de quatro vezes o consumo de conteúdo da plataforma. Mas qual foi o milagre? Para desenvolver as novas funcionalidades, o time de aplicativo contou com respaldo da figura do cientista de dados. Antes de colocar as novas funcionalidades no ar e de fazer o roll-out para os milhares de usuários, foram conduzidos experimentos com um número selecionado de usuários. O cientista de dados ficou responsável pela coleta e análise dos dados. Dessa forma, foi possível entender a maneira como os assinantesutilizavam os novos recursos — e esse aprendizado gerou insights para o squad. Dentre as descobertas, o time passou a entender como as funcionalidades faziam sentido para o usuário; quais perfis foram mais aderentes a elas; a quem não interessou ou não chamou a atenção; como foi a facilidade no uso e o quão user friendly estava o novo recurso; entre outros pontos. O conhecimento gerado permitiu ao time responder a questões como: quanto mais de conteúdo os usuários consumiram; qual incremento na receita se pode esperar; e quais pontos podem ser melhorados no aplicativo. Fundamental para as análises e cruzamentos das informações, o cientista de dados trabalhando lado a lado com a equipe de desenvolvimento consegue rodar testes para identificar como os usuários lidam e interagem com as novas funcionalidades e levar a Resolvendo as armadilhas. ciência de dados. 16Resolvendo as armadilhas. >>> mudanças de rota e a correções antes de o projeto ir ao ar. Em outro caso, uma empresa de cartões de benefícios obteve uma experiência mais fluida e amigável na realização de pagamentos de boleto e transferências depois que a Dextra identificou alguns comportamentos dos clientes. Foi identificado que um grande número de usuários instalava o aplicativo para conferir saldo no cartão e, na sequência, o desinstalava. A hipótese levantada pela equipe foi que o aparelho celular dos usuários não suportava o aplicativo. Para validar a hipótese, foi providenciado outro canal de atendimento, por meio de chat via WhatsApp usando chatbot. O robô de inteligência artificial passou a responder às perguntas, tais como o saldo do cartão, e alcançou o feito de se tornar um dos principais canais de atendimento da empresa hoje. ciência de dados. 17 explorando os dados ciência de dados. 18Explorando os dados Atualmente, as companhias têm frisado a importância de tomar decisões baseadas em dados e não apenas em achismos. Mas como se faz isso? Como se gera valor? A resposta imediata é por meio da inovação e contando com tecnologias adequadas para olhar para novos negócios e novas capacidades. As grandes companhias têm explorado essa área colocando entre 10% a 15% do tempo dos colaboradores focado em inovação e trabalhando com mindset em MVP (minimum viable product) ou PoC (proof of concept). MVP e PoC são conceitos diferentes. Enquanto MVP tem como propósito validar uma ação ou um projeto ainda em desenvolvimento para entender seu impacto real no negócio, a prova de conceito congrega experimentações de viabilidade técnica antes do desenvolvimento para averiguar se o planejado dará certo. São testes em um ambiente de incertezas. Quando se trabalha em projetos de dados - principal- mente, envolvendo ciência de dados e machine lear- ning - é muito fácil esbarrar na barreira do conhecimen- to. Por isso, a PoC é tão importante. Por meio dessa prova de conceito pode-se responder questões sobre a viabilidade do que se está desenvolvendo. Depois da PoC parte-se para o MVP para entender a viabilidade do negócio. Dentro desse contexto, as empresas devem criar um ciclo de inovação buscando validar os experimentos e mensurar os resultados. Em um caso hipotético, se fizer experimento e não conseguir coletar os resultados, o projeto completo não conseguiria provar o valor esperado. É necessário ter claro que o mais importante nesse processo de experimentos é entender o que deu certo e o que deu errado. E isso vale inclusive para partes do processo: averiguando se pedaço da ciência de dados. 19Explorando os dados hipótese foi validado, enquanto o resto não. Para tanto, deve-se coletar métricas suficientes para saber o que funcionou e não. Atualmente, a ciência de dados vive seu hype, com empresas de todos os portes e segmentos de atuação fazendo projetos. Contudo, muitas delas estão fazendo sem os embasamentos necessários (técnicos e de processos), achando que estão no rumo certo. Se fizer a jornada da maneira correta, a chance de dar certo é grande. Mas, se feita de forma errada, o gasto será enorme, correndo o risco de, além de ter um passivo gigante, se deparar com uma descrença generalizada com ciência de dados. Portanto, recomenda-se contar com a orientação correta para que os projetos de dados entreguem os resultados esperados e alcancem os objetivos definidos. >>> ciência de dados. 20 jornada da maturidade. ciência de dados. 21Jornada de Maturidade. >>> A jornada da maturidade se caracteriza pelo grau de valor que você ativa com os dados, passando da fase descritiva, quando só consegue explicar o passado, para a preditiva, que, por tentar antever o futuro fazendo uma previsão é mais valiosa que a capacidade de explicar o que já aconteceu. À medida que se evolui nessa jornada, as empresas ativam um valor maior com o dado. Se a sua organização está dando os primeiros passos nessa jornada de maturidade, certifique-se de envolver todas as áreas que serão impactadas pela iniciativa de dados que está começando. Isso vai ajudar a mitigar os riscos iniciais do projeto. Você, provavelmente, está pensando em construir a capacidade descritiva e evoluir gradualmente para as capacidades preditivas e prescritivas, mas tome cuidado! Essa jornada de maturidade não deve ser tratada como um modelo cascata, mas, sim, as empresas precisam trabalhar a inteligência do produto de forma simultânea à estruturação dos dados no data lake ou no data warehouse. À medida que sua organização avança nessa jornada, novos produtos surgirão e com eles um maior valor será ativado pelos seus dados. Em uma empresa de servi- ços, por exemplo, seria possível prever um súbito au- mento na taxa de cancelamentos e até mesmo pres- crever uma ação para evitar que esses cancelamentos aconteçam. Atingir este nível de maturidade não é fácil, pois depende de um método de trabalho bem alinhado e orientado a métricas. ciência de dados. 22 Descritivo Usar dados para explicar (descrever o passado) Soluções de BI, Analytics e Monito- ramento através de Enge- nharia de Dados e Análise de dados Preditivo Usar dados para prever comporta- mentos futuros Soluções de BI, Analytics e Moni- toramento através de Engenharia de Dados e Análise de dados Prescritivo Usar dados para encontrar a melhor solução para um problema Recomendar so- luções para um problema através de Engenharia de Dados, Análise de dados e Engenha- ria de ML Jornada de Maturidade. 4 pontos de atenção para projetos de dados >>> ciência de dados. 23 Não existe uma única tecnologia que vai endereçar todas as demandas. Em um projeto de dados, o segredo está em começar pequeno e crescer na medida em que o conhecimento aumenta. Também é notória a necessidade de se combinar variados métodos, processos, técnicas e soluções de TI. E o principal: tem de estar pronto para escalar rápido! comple- mentarie- dade ciência de dados. 24 Decisão de ir para nuvem DevOps MLOps Como serviço Containers Computação em nuvem — A disponibilidade de ferramentas para processar grandes quantidades de dados habilita projetos complexos envolvendo internet das coisas (IoT) e soluções em tempo real. Nunca foi tão democrático processar, armazenar e analisar grandes volumes de dados. Serviços autogerenciados para processar, armazenar e até enriquecer dados utilizando modelos pré-treinados de machine learning, capazes de classificar imagem, lidar com processamento de linguagem natural entre outras tarefas complexas. Ninguém pensa nisso, mas um projeto de dados também precisa de implantação rápida, monitoramento, ambientes segregados e sustentação! São ferramentas essenciais para criar soluções com baixo acoplamento e fáceis de escalar. Tome como exemplo o modelo de machine learning. Ele não pode estar fortemente acoplado ao produto digital, mas precisa estar em uma infraestrutura independente de forma que possa escalare evoluir com autonomia. ciência de dados. 25 Conte conosco! A Dextra tem todo o know-how para ajudar a sua empresa a ingressar de uma vez por todas no universo da ciência de dados — e sem cair em armadilhas. Tornar-se digital e abraçar a inteligência de dados é, cada vez mais, tanto uma questão de sobrevivência como um indicador de sucesso para as empresas. Nós ajudamos companhias a preparar todas as áreas do negócio para superar desafios e impulsionar resultados. Somos uma empresa pioneira no pensamento de evolução digital. Desenvolvemos produtos personalizados, combinando metodologias de design, desenvolvimento ágil e novas tecnologias para entregar soluções que impulsionam o negócio dos nossos clientes. Sem enrolação. Com resultados. Conheça mais em: https://www.dextra.com.br/data-n- analytics/ https://www.dextra.com.br/data-n-analytics/ https://www.dextra.com.br/data-n-analytics/ ciência de dados. 26 Contato Conheça nossos especialistas em dados, responsáveis por maximizar os resultados de negócios dos nossos parceiros por meio do uso de ciência de dados Everton Gago Chief Data Officer e-mail everton.gago@dextra-sw.com Flavio Henrique Furlanetto Data Project Manager e-mail flavio.furlanetto@dextra-sw.com ciência de dados. sem cair em armadilhas... _heading=h.gjdgxs