Baixe o app para aproveitar ainda mais
Prévia do material em texto
/ Big Data Aula 2: Processo de desenvolvimento de projeto de Big Data Apresentação Na aula anterior, estudamos os conceitos de Big Data e suas principais características dando destaque para aquelas que o diferenciam do método tradicional de análise de dados. Além disso, vimos como Big Data pode ser usado no processo de tomada de decisão, incluindo alguns casos de sucesso. Nessa aula, veremos os vários aspectos que devem ser observados antes de começar a implementar Big Data. Para tal, serão listados os critérios e os fatores de sucesso e os principais riscos que ameaçam projetos de Big Data. Objetivos Reconhecer os aspectos que devem ser considerados para desenvolvimento de um projeto de Big Data; Identi�car os critérios e os fatores de sucesso de projetos de Biga Data; Descrever os principais riscos que ameaçam projetos de Big Data. Introdução Em um mundo globalizado e cada vez mais competitivo, em que dados eletrônicos são produzidos de forma exponencial, quem for capaz de extrair informação e conhecimento de dados de forma e�ciente venderá mais, produzirá mais, gastará menos, terá clientes mais satisfeitos, fornecedores mais e�cientes e estará em conformidade com agências reguladoras e �scalizadoras. A tarefa de extrair informação e conhecimento de dados não é nada fácil. A descoberta do potencial das tecnologias de Big Data ainda está no começo. A falta de compreensão do uso de Big Data, de suas vantagens e limitações pode gerar riscos para o negócio. Um investimento excessivo em tecnologias sem uma preparação pode levar a um produto que não tenha funcionalidade. No cenário atual, o foco está nos dados e nas capacidades analíticas e em torno deles giram as aplicações. As tecnologias de Big Data devem ser usadas de forma inteligente e inovadora para serem ferramentas de vantagem competitiva. Como vimos na aula anterior, já existem casos de sucesso no uso desse conceito e suas tecnologias. Sabendo que analisar dados não é uma atividade trivial, nesta aula investiremos nosso tempo em estudar um bom planejamento para obter êxito em um projeto de Big Data. / Fonte: Pexels Aspectos para desenvolvimento de um projeto de Big Data Antes de iniciar o projeto propriamente dito, devem ser identi�cados os dados que a organização possui e que pode utilizar. Existem dados internos gerados pelos sistemas transacionais, sistemas de produção, mídias sociais, pesquisas, sensores que estão nos seus bancos de dados ou em arquivos de sistemas departamentais. E existem também os dados externos, em algumas bases de dados que podem ser adquiridas e outras que podem ser acessadas livremente (como os dados de instituições governamentais e órgãos públicos). Depois de ser feito esse levantamento dos dados que podem ser utilizados, o próximo passo é estabelecer quais perguntas se deseja responder com os dados. Os questionamentos podem surgir de acordo com o tipo e necessidade do negócio, tais como: / Obtenção de uma vantagem competitiva para resolver um problema de negócio, os clássicos “vender mais, gastar menos, ser mais e�ciente”; Levantamento dos fatores que estão levando a fraudes, desperdícios e erros; Veri�cação do atendimento de normas de conformidade de entidade reguladora ou �scalizadora sob a qual a empresa está inserida; Atendimento dos requisitos operacionais como, por exemplo, controle de linha de produção, controle estatístico de processos, monitoramento de sistemas de informação, controle de tráfego. Um outro passo importante consiste na criação de uma infraestrutura organizacional e de processos para desenvolver um projeto que aproveite os benefícios das tecnologias de Big Data em prol da organização. É importante que as informações geradas provoquem mudanças positivas na empresa. Para isso, os processos devem considerar os resultados que se deseja obter com as análises. Os processos devem ser de�nidos considerando como os dados serão capturados e armazenados. Dentre os dados disponíveis, devem ser selecionados aqueles que serão efetivamente capturados, a ordem em que serão capturados e a solução adequada para armazenar cada tipo de dados. Também há necessidade de de�nir como os dados armazenados serão processados e analisados. Nessa fase, a escolha de tecnologias de Big Data é crucial para oferecer escalabilidade e desempenho para a aplicação. É nessa fase, também, que se determina qual algoritmo de análise de dados será usado. Inserem-se aqui os mecanismos de aprendizado de máquina, métodos estatísticos, fundamentos matemáticos e mineração de dados. Por �m, Big Data também inclui a etapa de visualização de dados em que são utilizadas técnicas de criação de grá�cos dinâmicos e interativos. Saiba mais Delinear uma estratégia de tecnologia para inserir Big Data na organização implica em ter uma visão holística e integrada dos modelos de dados que permeiem toda a organização, bem como de aquisição de tecnologias adequadas para as iniciativas de Big Data. Isso requer um processo bem de�nido e atenção a uma série de critérios e fatores para que o projeto tenha sucesso. / Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Os critérios e os fatores de sucesso de projetos de Biga Data Um projeto de Big Data envolve muitos recursos �nanceiros e humanos, tempo, e envolve muitos riscos. Por isso, não basta que o projeto seja entregue no tempo, prazo e custo combinados, o projeto deve entregar valor à organização para ser considerado um sucesso. Os critérios de sucesso devem ser de�nidos com o patrocinador e usuários-chave, todos devem concordar com os mesmos e esses devem ser documentados. Os critérios de sucesso em Big Data podem ser os mais diversos, vejamos alguns dos mais comuns: Usuários satisfeitos Aumento de vendas Redução de fraudes Redução de custo operacional Disponibilidade Normalmente, mais de um critério de sucesso é de�nido. Esses critérios devem ser mensuráveis para serem avaliados. Por exemplo, 80% dos usuários satisfeitos, redução de 10% das reclamações, redução de fraudes em 1%, redução de 0,5% do custo operacional, 99,99% de disponibilidade das informações. Os critérios são métricas aplicadas quando o projeto está pronto, e para atingi-los vários fatores devem ser observados pela equipe para aumentar as chances de sucesso do projeto. Os fatores podem ser agrupados em quatro grandes grupos: pessoa, processo, dados e tecnologia. Critérios Clique no botão acima. / Critérios Pessoa A categoria pessoa engloba os recursos humanos alocados para montar a equipe do projeto, os patrocinadores e os usuários �nais. Imprescindível para todo projeto é ter suporte do patrocinador. O patrocinador tem que conhecer, acreditar, apoiar e priorizar o projeto dentro da organização. Projeto de Big Data é desenvolvido para melhorar algum processo da empresa. Logo, o envolvimento dos interessados torna-se essencial. Se o projeto não for prioridade, as partes interessadas não irão se envolver e se tornará difícil estabelecer e atingir os critérios. Com o apoio do patrocinador, os usuários �nais devem participar do levantamento dos requisitos do projeto para que os critérios sejam estabelecidos de acordo com as suas necessidades. Para obter êxito nessa atividade, torna-se fundamental o planejamento da alocação desses recursos no projeto. E, ao longo do projeto, um controle das atividades desenvolvidas tem que ser feito para evitar que metas do projeto não sejam atendidas. Além disso, deve-se ter um cuidado em montar a equipe com o nível de capacitação adequado. Um projeto de Big Data envolve uma equipe multidisciplinar com habilidades e experiências diversi�cadas. O gerente de projeto deve ser capaz de buscar e reconhecer competências, garantir que os recursos humanos recebam os treinamentos necessários, manter a equipe motivada e assegurar que cada membro da equipe doe o melhor de sua capacidade em busca dos objetivos do projeto. Algumas das competências esperadas para esses pro�ssionais são: Gerente de projetos: responsável pelo gerenciamento de custo,escopo, cronograma, riscos, partes interessadas e alocar equipe. Arquiteto: de�ne padrões e formas de desenvolvimento, cria frameworks, de�ne boas práticas etc. Analista de negócios: atua junto às outras áreas da organização em busca de oportunidades de negócio para elicitação de requisitos e levantamento de escopo. Cientista de dados: seleciona e implementa a solução adequada ao tipo de problema levantado. Minerador de dados: determina os atributos relevantes para construir o modelo, treiná-lo e testá-lo, avalia o seu desempenho, além de buscar os melhores algoritmos. DBA: apoia a atividade de administração dos dados estruturados que serão usados no projeto. Especialista de ETL (Extract Transform Load – extração, transformação e carga): estabelece arquiteturas de integração e ingestão de dados, modelos de transformação, rotinas de atualização e processos de monitoramento. Desenvolvedor: implementa scripts em PL/SQL, funções de mapeamento e redução, algoritmos customizados, aplicativos mobile, portal de acesso. Analista de infraestrutura: con�gura o ambiente instalando sistemas operacionais, preparando máquinas virtuais, con�gurando roteadores, nós, clusters. Processo Decidir quais processos e com qual intensidade eles serão aplicados deve levar em consideração a complexidade do projeto, a capacitação dos pro�ssionais, as tecnologias disponíveis e os dados de origem. Esses processos vão de�nir os requisitos funcionais do projeto. Eles podem vir de pessoas, de normas internas, de necessidades gerenciais, de legislação, de conformidades ou de regras de mercado. Tornar o projeto mais facilmente gerenciável e minimizar riscos, signi�ca identi�car todas as atividades que devem ser desenvolvidas, tais como: Business case: o projeto deve ter uma justi�cativa, atender a um requisito de negócio e entregar valor para a organização. / Entrega de valor: o gerente de projeto deve garantir que, de fato, o empreendimento vai entregar valor à organização. Viabilidade técnica: veri�car se o projeto é viável tecnicamente através de análise de diversas formas como, por exemplo, um simples estudo de um consultor técnico, implementação de provas de conceitos ou protótipos. Projeto: planejamento do que será construído, bem como as rotinas de monitoramento e controle do seu andamento. Inclui atividade como de�nir escopo, criar cronogramas, estrutura analítica do projeto entre outros. Desenvolvimento: implementação dos artefatos. Testes: garantia da qualidade. Entrega e aceite: baseada na de�nição de pronto e do escopo do projeto, a entrega é a aceitação formal do que foi desenvolvido. Implantação: projetos de Big Data, normalmente, são desenvolvidos em um ambiente de desenvolvimento. Conforme partes são entregues, são instaladas em um ambiente de homologação, onde vão passar por testes mais especializados. Nesses ambientes, os conectores estão apontados para base de dados não o�ciais que podem ser cópias dos dados de produção com alguns dias de atraso. E, �nalmente, há a passagem do ambiente de homologação para a produção. O ambiente de produção é mais robusto e mais restrito do que os demais ambientes. Transição: passagem do projeto para equipe que irá operá-lo. Dados Os dados são a matéria-prima essencial e o sucesso do projeto depende diretamente da qualidade deles. Comumente, os fatos de negócio �cam registrados em mais de um sistema. Nesse caso, é importante estabelecer e documentar quais serão as origens dos fatos e medidas que serão utilizadas como fonte de informação para o projeto de Big Data. Outros problemas comuns são dados incompletos, inconsistentes, imprecisos e inexatos, logo, para se ter uma análise de qualidade, faz-se necessário ter um cuidado especial com a limpeza e tratamento deles antes de serem usados. O estabelecimento de políticas de uso levando em consideração a privacidade e segurança dos dados deve ser feito. Privacidade implica em aderências às legislações e aos aspectos regulatórios que estejam em vigor. A segurança também deve ser vista com atenção, pois se a empresa consegue acumular muitas informações sobre seus clientes, como comportamento, hábitos etc., deve-se tomar muito cuidado para que tais informações não sejam acessadas e divulgadas indevidamente. Mesmo quando as informações individualmente não contenham explicitamente informação sobre determinado indivíduo, quando triangulada e integrada com diversas outras podem expor segredos industriais ou identi�cação pessoal íntima. Essa situação pode gerar processos judiciais e prejudicar a imagem da organização. Portanto, para se ter sucesso é essencial criar uma política de governança para dados e informações. Por �m, devem ser considerados o volume, a velocidade, a variedade e a disponibilidade dos dados. Quanto ao volume, deve ser estimado o crescimento dos dados para os próximos anos e avaliar a infraestrutura necessária quanto ao armazenamento, à rede e ao processamento. E garantir que, mesmo aumentando o volume dos dados, a velocidade para produção, tratamento e análise dos dados seja mantida em níveis aceitáveis para o projeto. O Apache Spark, uma excelente plataforma de processamento em memória, tem sido usado em projetos de tempo real ou próximo ao tempo real. Quanto a disponibilidade, não basta que o projeto atenda aos requisitos de disponibilidade previstos. Devem ser estabelecidos procedimentos para lidar com as indisponibilidades não programadas. A alta disponibilidade signi�ca sistemas mais tolerantes imprevistos que ocasione falhas, pode ser implementado por um Raid 6 ou até envolver redundância de servidores, armazenamentos, redes físicas e lógicas, replicação de dados para servidores remotos, entre outros. Do ponto de vista de banco de dados, os grandes fornecedores de bancos de dados oferecem soluções de redundância nativa, como o Hadoop. Tecnologia / Projetos de Big Data estão cercados de tecnologia: conectores, softwares de qualidade de dados, algoritmos de aprendizado de máquina, software de visualização, discos rígidos, clusters, roteadores, switches etc. Dentre os recursos tecnológicos, as escolhas das ferramentas de armazenamento e processamento de dados são as mais críticas para o projeto. Ferramentas existentes na organização podem ser incorporadas ao projeto ou novas ferramentas podem ser adquiridas. A estratégia de tecnologia começa com uma análise do portfólio tecnológico que a empresa dispõe para ser usada no projeto de Big Data. Porém, deve-se ter cuidado porque muitas das tecnologias tradicionais não são de todo adequadas para iniciativas que envolvam imensos volumes de dados, ampla variedade e para responder na velocidade adequada. Quando for necessário adquirir uma solução, devemos avaliar dezenas de fatores do projeto, entre eles a criticidade do projeto e orçamento. Além disso, deve-se compatibilizar os fatores do projeto com as características da ferramenta e o suporte oferecido por ela para escolher a mais adequada. As escolhas mais arriscadas são as soluções open source, porém existem ferramentas muito boas no mercado, dentre elas: Ecossistema Hadoop: solução de análise de dados batch de computação distribuída, inspirada no modelo MapReduce e opera em conjunto com um sistema de arquivos distribuídos HDFS. Ao redor do Hadoop, orbitam diversos outros projetos com �nalidades especí�cas, como gerenciamento, acesso a bancos de dados relacionais, execução de consultas com linguagem declarativa, entre outros. R: ferramenta de estatística, análise, mineração de dados e visualização de linha de comando. É extensível através de pacotes que são desenvolvidos por terceiros e incorporados à ferramenta. Existem milhares de pacotes desenvolvidos, gratuitos e prontos para o uso. Spark: produto de análise de dados em memória, usado para análise em tempo real ou próximo ao tempo real. MongoDB: um banco de dados NoSQL orientado a documentos, de fácil instalação e operação. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Os principais riscos que ameaçam projetosde Big Data Os projetos de Big Data são, especialmente, sujeitos a risco devido à sua complexidade. Qualquer evento está sujeito a algum tipo de incerteza e, algumas delas podem tornar o projeto inviável do ponto de vista técnico ou de negócio. Os riscos que frequentemente ameaçam os projetos de Big Data são: / Clique nos botões para ver as informações. Medidas simples são resultantes da soma de ocorrências de um fato em determinado período, de acordo com o nível de granularidade. Porém, muitas vezes, a equação resultante da medida é bastante complexa. Nesse caso, o risco ocorre quando não há valor de comparação no sistema transacional de origem, quando se desconhece a fórmula usada no legado ou quando não há consenso entre colaboradores de um mesmo do assunto sobre como calcular o valor. As medidas geradas a partir da análise dos fatos Para fazer a previsão, dados históricos são submetidos a um algoritmo que os processa, de�ne um padrão de comportamento e produz um modelo. O modelo tem uma taxa de acerto que pode �car abaixo da expectativa se a quantidade atributos extraídos dos sistemas de origem não for su�ciente para o modelo aprender a fazer a predição ou se eles não estiverem preenchidos. No entanto, o risco está na de�nição de taxas de erros irrealistas ou inviáveis de serem alcançadas devido à falta de qualidade e quantidade dos dados fornecidos para o modelo. Uso de modelos preditivos Grandes projetos de Big Data podem levar muitos meses ou até mesmo anos. Um projeto com uma solução de MapReduce, só na con�guração dos nós, pode levar muitas semanas. É importante que o gerente de projetos, desde o início, gerencie as expectativas com relação ao tempo. A proposição de entregas parciais e constantes, quando possível, pode ser uma forma de minimizar falsas expectativas das partes interessadas. Expectativas de tempo não realistas Projetos de Big Data envolvem mão de obra altamente especializada e quali�cada e, muitas vezes, uma variedade de software e hardware que deixam esse tipo de projeto com o custo muito elevado. Há um grande risco do orçamento disponível não ser su�ciente para a implementação de todo o projeto ou as estimativas de custos serem subdimensionadas. Orçamento inadequado Mão de obra altamente especializada não é encontrada em abundância no mercado. A falta de mão de obra especializada é um risco. Uma estratégia interessante para mitigá-lo é capacitar a própria equipe da empresa. Recursos humanos Para adquirir a infraestrutura do projeto de Big Data, faz-se necessário um ou mais fornecedores. Equipamentos não entregues, bugs críticos em soluções, APIs não documentados, dados incorretos, falta de suporte são alguns dos muitos problemas que podem colocar o projeto em risco. Relacionamento com os fornecedores As informações geradas por um projeto de Big Data geralmente não são de livre acesso a todos. A de�nição ou con�guração inadequada dos níveis de acesso para cada tipo de usuário pode comprometer a segurança e privacidade dos dados. Segurança e privacidade / Os riscos devem ser gerenciados através de atividades com objetivo de identi�cá-los, analisá-los e respondê-los, eliminando ou minimizando o seu impacto no projeto. A gestão de risco deve ocorrer durante todo o projeto, pois os riscos levantados no início do projeto podem deixar de existir e novos riscos podem surgir. Para cada risco identi�cado, deve ser mensurada a sua probabilidade e o seu impacto para que ele seja analisado. Um risco quando passa a ter probabilidade zero deixa de existir e quando a probabilidade passa a ser 100% torna-se um problema. O impacto pode medido usando escalas ordinais, como baixo, moderado e alto. Semelhante à probabilidade, o impacto em caso de ocorrência deve ser signi�cativo, pois mesmo que a probabilidade seja de 99%, se o impacto de ocorrência for insigni�cante, deixa de ser um risco relevante. Uma vez analisados, os riscos são colocados em uma lista ordenada, de acordo com a classi�cação resultante da análise, para serem acompanhados. Existem diversas estratégias para tratar os riscos: Prevenir A prevenção consiste na tomada de uma ação para que o risco seja eliminado. Por exemplo, se uma fonte de dados oferece risco ao projeto devido ao fato de não haver extratores para capturá-la, pode-se retirar os dados dessa fonte do escopo do projeto e, dessa forma, o risco é eliminado. Mitigar A mitigação consiste em reduzir o impacto e/ou a probabilidade do risco no caso eventual de sua ocorrência, o que não vai eliminá- lo. Recomenda-se a realização de uma análise de viabilidade usando prova de conceito, protótipo ou piloto. Transferir A transferência consiste em passar o risco para terceiros. Dessa forma, o risco não é eliminado, já que o terceiro pode falhar em criar o produto ou o serviço para o qual foi terceirizado. Aceitar Nesse caso, não se faz nada, se o risco ocorrer, simplesmente, as suas consequências serão aceitas. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Atividades 1. Para o desenvolvimento de um projeto de Big Data vários aspectos devem ser considerados. Marque opção que NÃO representa um aspecto relevante. a) A organização deve identificar os dados que tem acesso e que podem ser utilizados para análise. Por questão de segurança e privacidade, somente tem que ser considerados os dados internos. b) Uma das estratégias de Big Data consiste na exploração das informações disponíveis em busca de insights. c)) Uma infraestrutura organizacional e de processos deve ser criada especialmente para o desenvolvimento de um projeto. d) O processo de escolha de tecnologias de Big Data deve levar em consideração a escalabilidade e o desempenho desejado. e) Em um projeto de Big Data os dados são capturados, armazenados, tratados e analisados. / 2. Existem vários critérios que podem ser utilizados para determinar o sucesso de um projeto de Big Data. Dentre as opções, marque aquela que representa um critério de sucesso. a) A criação de um clima organizacional favorável e análise de fatos baseada em necessidades individuais. b) Atender o prazo e o custo estimados no início do projeto. c) O projeto deve entregar valor para a organização para ser considerado um sucesso. d) Aumento de 10% da quantidade de usuários satisfeitos com o produto. e) Geração de relatórios estatísticos agrupando os dados históricos de determinado período. 3. Projetos de Big Data são altamente complexos e envolvem um grande número de variáveis. Há vários fatores que podem ser levados em consideração para estabelecer o critério de sucesso do projeto. Escolha a opção que melhor representa esses fatores. a) Processos, andamento do negócio e oportunidades do mercado. b) Pessoas, processos, dados e tecnologia. c) Pessoas, tecnologia, dados internos e externos. d) Tecnologia, dados, custo e disponibilidade. e) Pessoas, dados e tecnologia. Notas Título modal 1 Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Título modal 1 Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Referências AMARAL, Fernando. Big data: uma visão gerencial para executivos, consultores e gerentes de projetos, 2016. MARQUESONE, Rosangela. Big Data: Técnicas e tecnologias para extração de valor dos dados. Editora Casa do Código, 2016. TAURION, Cezar. Big data. Editora Brasport, 2013. Próxima aula / As características dos dados; A aplicabilidade dos dados; A necessidade de dados. Explore mais Você pode aprofundar seus conhecimentos através das seguintes leituras: Reportagem da BBC Brasil de 26/09/2017: Doria usa cinco softwaresde 'big data' para aumentar seu alcance nas redes Reportagem do Canaltech de 10/09/2014: Gerenciamento de risco na era do Big Data Reportagem da Revista Brasileira de Gestão de Negócios vol.20 no.1 Jan./Mar.2018 (ISSN1806-4892): Fatores críticos de sucesso para adoção de Big Data no varejo virtual: estudo de caso do Magazine Luiza Reportagem da Revista Exame de 07/12/2019: Como big data e IA estão mudando radicalmente a experiência de comprar javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0);
Compartilhar