Baixe o app para aproveitar ainda mais
Prévia do material em texto
Texto da disciplina: ............................................................................... 3 Fundamentos e Projetos de Big Data .................................................... 3 Como surgiu e o que é Big Data .................................................................... 3 Processo de Tomada de Decisão ................................................................... 6 Os cinco V’s do Big Data (5 V’s) .................................................................... 7 Gestão do Conhecimento em Big Data ......................................................... 10 Gestão do Conhecimento em ambiente Big Data .......................................... 12 Projetos de Big Data ................................................................................... 13 Armazenamento de Dados em projetos de Big Data ..................................... 20 Vamos falar um pouco de MapReduce e Hadoop .......................................... 22 Variedade e Veracidade .............................................................................. 23 Variedade .................................................................................................. 23 Veracidade ................................................................................................. 24 Atomicidade, Consistência, Isolamento e Durabilidade .................................. 24 Conectividade e Internet das Coisas ............................................................ 27 E o que é IoT (Internet das coisas) ............................................................. 28 Conclusão .................................................................................................. 31 Bibliografia ................................................................................................. 33 Texto da disciplina Fundamentos e Projetos de Big Data Como surgiu e o que é Big Data Este texto tem como finalidade introduzir os conceitos da tecnologia de Big Data e sua utilização em projetos, bem como seu armazenamento e tratamento de grande volume de dados que as organizações possuem hoje para tomadas de decisão. É certo que, com o desenvolvimento das redes digitais, o fluxo de informações tende a aumentar, mas é preciso saber aplicá-lo de forma criativa na resolução dos problemas sociais. O salto qualitativo ocorre quando a informação torna-se significativa. Existe uma quantidade gigantesca de informações que circula pela internet (e pelas redes sociais virtuais por extensão) todos os dias. Até o início da década de 1990 as páginas da web ainda eram bastante estáticas e existia, uma concepção de busca que já não é mais válida hoje. Em pouco tempo, a necessidade de busca transformou-se em necessidade de gerenciamento de informação. A rede oferece um enorme contingente informacional que nem sempre alcança o auge de sua utilização. A concepção de mineração de dados nasce justamente com a ideia de conseguir garimpar, na rede, dados importantes com alto valor informacional. Nesse sentido, o conceito de Big Data surge como um novo horizonte para entender o mundo da informação e auxiliar, de forma incisiva, a tomada de decisões. A tecnologia de Big Data não diz respeito à quantidade de dados e sim ao gerenciamento estratégico destes, visando oferecer informações detalhadas para cada situação específica. Trata-se de uma nova forma de olhar para a informação proporcionada pela tecnologia. Dados que, a “olho nu” não expressam muita relevância, podem se tornar significativos se examinados em contextos específicos. Big Data tem, no entanto, seus riscos tanto éticos quanto políticos. Recentemente, descobriu-se que o Brasil tinha grande fluxos informacionais monitorados pelos Estados Unidos. O objetivo de tal monitoramento era justamente conhecer as práticas atuais (tanto do ponto de vista político quanto econômico, social entre outros) para prever as futuras. Os dados oriundos de Big Data são, ainda assim, modelos matemáticos que visam simplificar uma situação complexa e dar organização ao que aparentemente está disperso. Eles são úteis para a compreensão contextual e aprofundada, mas têm seus limites. Os modelos matemáticos são baseados em estudo e cruzamento de dados referentes a gostos, opções políticas, etc. O termo Big Data em si não prioriza aspectos qualitativos e sim quantitativos, traduzidos por “Big”. Ademais, a utilização do Big Data também deve ser realizada pensando nas questões éticas envolvidas, pois o fato de um determinado dado estar disponível para uso não faz com que seu uso seja ético. Utilizar a tecnologia do Big Data para conhecer as pessoas, quer sejam colaboradores, clientes, etc. e melhor relacionar-se com elas é um dos maiores desafios dos gestores. Quando as organizações, “analisa os cenários, identifica os públicos estratégicos e dá tratamento diferenciado a cada um deles, age em sintonia com o modelo de gestão organizacional e estabelece simetria no processo comunicacional”. As informações de caráter quantitativo, obtidas com o Big Data, podem ser analisadas qualitativamente pelas organizações, seja para enriquecer o aprendizado coletivo do público interno das organizações, seja para contribuir com o alcance dos objetivos e metas. O grande diferencial do uso dessa tecnologia é transformar dados quantitativos em qualitativos. As empresas deverão, então, criar estratégias para definir como lidar com grande volume de dados e analisar as informações úteis, visto que o desempenho das organizações no mercado será definido a partir da forma com que as mesmas irão trabalhar com esse volume e essa variedade de informações e com a velocidade que elas surgem e se disseminam. A competição por uma fatia de mercado é bem acirrada, portanto a velocidade na tomada de decisão e a segurança ao fazer a devida opção são critérios fundamentais para o sucesso da organização no mercado. Logo, torna-se relevante que os administradores e os tomadores de decisão saibam gerenciar esse volume e essa variedade de dados para que possam filtrar e tirar proveito das informações que são úteis e importantes aos seus negócios (valor e veracidade), fazendo as opções de forma rápida (velocidade) e precisa. Tomadas de decisão baseadas em evidências (também conhecido como Big Data) não é apenas a última moda, é o futuro de como vamos orientar e fazer crescer o negócio. É fundamental conhecer o que é Big Data e suas dimensões para atingir os benefícios, pois excesso de confiança pode levar a pontos cegos na tomada de decisão ou a enxergar uma mudança fundamental nas tendências de mercado. As empresas de hoje devem ter consciência do aumento do volume, velocidade e variedade de dados, mantendo a eficiência operacional e de custos. Como consequência, o processo de decisão desses gestores poderá sofrer alterações, ajustando-se a realidade do mercado e aproveitando as oportunidades disponíveis. Processo de Tomada de Decisão É natural que estudar a concorrência e o mercado façam parte de nossas rotinas e de nossa tática de jogo: nossas empresas já possuem uma série de dados que são gerados diariamente através dos sistemas de ERP, Gestão de Pessoas, CRM – que controlam a operação – e que são armazenados normalmente em banco de dados estruturados. Estes dados possuem um grande Valor que normalmente são pouco ou nada explorados. Grande parte das empresas que conheço ainda toma decisões baseadas na extração dos dados operacionais. Dados estes que são transferidos para relatórios e planilhas e que levam horase até dias para serem gerados, tornando a informação pouco confiável e, muitas vezes, chegando tarde para a tomada de decisão, não gerando nenhum painel de informações com os principais indicadores da empresa. Bazerman e Moore (2010) estruturam e simplificam o processo “racional” de tomada de decisão em seis etapas: - Definir o problema; - Identificar os critérios; - Ponderar os critérios; - Gerar alternativas; - Classificar cada alternativa segundo cada critério; - Identificar a solução ideal. O processo de tomada de decisão não é puramente racional, ele sofre influências diretas e indiretas, conscientes e inconscientes de fatores subjetivos, que alteram a forma de ver, de pensar, de analisar e de decidir do responsável pela decisão (Nonohay 2012). Os cinco V’s do Big Data (5 V’s) A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 V’s do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor. Volume: O conceito de volume no Big Data é melhor evidenciado pelos fatos do quotidiano: diariamente, o volume de troca de e-mails, transações bancárias, interações em redes sociais, registro de chamadas e tráfego de dados em linhas telefônicas. Todos esses servem de ponto de partida para a compreensão do volume de dados presentes no mundo atualmente. Estima-se que atualmente o volume total de dados que circulam na internet é de 250 Exabytes (1018 bytes) por ano. (Inmoment, 2014). Todos os dias são criados 2,5 quintilhões de bytes em forma de dados, atualmente 90% de todos os dados que estão presentes no mundo foram criados nos últimos 2 anos (IBM). É importante também compreender que o conceito de volume é relativo à variável tempo, ou seja, o que é grande hoje, pode não ser nada amanhã. (Ohlhorst, 2012); Velocidade: Você cruzaria uma rua vendada se a última informação que tivesse fosse uma fotografia tirada do tráfego circulante de 5 minutos atrás? Provavelmente não, pois a fotografia de 5 minutos atrás é irrelevante, você precisa saber das condições atuais para poder cruzar a rua em segurança. (Forbes, 2012). A mesma lógica se aplica a empresas, pois necessitam de dados em atuais sobre seu negócio, ou seja, velocidade. Segundo Taurion (2014) a importância da velocidade é tamanha que em algum momento deverá existir uma ferramenta capaz de analisar os dados em tempo real. Atualmente, os dados são analisados somente após serem armazenados, mas o tempo gasto para o armazenamento em si já desclassifica esse tipo de análise como uma análise 100% em tempo real. Informação é poder (The Guardian, 2010), e assim sendo a velocidade com a qual você obtém essa informação é uma vantagem competitiva das empresas. Velocidade pode limitar a operação de muitos negócios, quando utilizamos o cartão de crédito, por exemplo, se não obtivermos uma aprovação da compra em alguns segundos normalmente pensamos em utilizar outro método de pagamento. É a operadora perdendo uma oportunidade de negócios pela falha na velocidade de transmissão e análise dos dados do comprador; Variedade: O volume é apenas o começo dos desafios dessa nova tecnologia, se temos um volume enorme de dados, também obtemos a variedade dos mesmos. Já pensou na quantidade de informações dispersas em redes sociais? Facebook, Twitter entre outros possuem um vasto e distinto campo de informações sendo ofertadas em público a todo segundo. Podemos observar a variedade de dados em e-mails, redes sociais, fotografias, áudios, telefones e cartões de crédito. (McAffe et al, 2012). Seja qual for a discussão, podemos obter infinitos pontos de vista sobre a mesma. Empresas que conseguem captar a variedade, seja de fontes ou de critérios, agregam mais valor ao negócio (Gartner). O Big Data escalona a variedade de informações das seguintes formas (Jewell, Dave et al): o Dados estruturados: são armazenados em bancos de dados, sequenciados em tabelas; o Dados semiestruturados: acompanham padrões heterogêneos, são mais difíceis de serem identificados, pois podem seguir diversos padrões; o Dados não estruturados: são misturas de dados com fontes diversificadas como imagens, áudios e documentos online. Dentre essas três categorias, estima-se que até 90% de todos os dados no mundo estão a forma de dados não estruturados. (ICD, 2011); Veracidade: Um em cada três líderes não confiam nos dados que recebem (IBM). Para colher bons frutos do processo do Big Data são necessários obter dados verídicos, de acordo com a realidade. O conceito de velocidade, já descrito, é bem alinhado ao conceito de veracidade pela necessidade constante de análise em tempo real, isso significa dados que condizem com a realidade daquele momento, pois dados passados não podem ser considerados dados verídicos para o momento em que é analisado. A relevância dos dados coletados é tão importante quanto o primeiro conceito. A verificação dos dados coletados para adequação e relevância ao propósito da análise é um ponto chave para se obter dados que agreguem valor ao processo. (Hurwitz, Nugent, Halper & Marcia Kaufman); Valor: Quanto maior a riqueza de dados, mais importante é saber realizar as perguntas certas no início de todo processo de análise (Brown, Eric, 2014). É necessário estar focado para a orientação do negócio, o valor que a coleta e análise dos dados trarão para o negócio. Não é viável realizar todo o processo de Big Data se não se tem questionamentos que ajudem o negócio de modo realístico. Da mesma forma é importante estar atento aos custos envolvidos nessa operação, o valor agregado de todo esse trabalho desenvolvido, coleta, armazenamento e análise de todos esses da/dos tem que compensar os custos financeiros envolvidos (Taurion, 2013). Gestão do Conhecimento em Big Data O conhecimento é a única forma de garantir a sobrevivência. Isso quer dizer que aprendemos para sobreviver às ameaças do ambiente. Isso é igualmente verdadeiro quer estejamos falando do aprendizado das espécies para sobreviver às ameaças do seu ambiente natural ou do aprendizado de membros de uma organização para perpetuar no seu ambiente de atuação. Todas as espécies fazem isso, através da adaptação que é a forma básica do aprendizado, mas a espécie humana é a única que além de se adaptar, faz previsões e tenta controlar seu ambiente. Nesse contexto, controlar será sempre a ação de resolver problemas que ameaçam a sobrevivência. Na tentativa de melhorar a eficiência dessa habilidade natural da espécie humana, muitas organizações praticam a chamada Gestão do Conhecimento (GC). Resumidamente a Gestão do Conhecimento é um conjunto de processos organizacionais que consistem em obter, acumular e interpretar informações para construir, disseminar e integrar conhecimentos que possam ser aplicados na solução de problemas. Vista como um processo produtivo, a Gestão do Conhecimento transforma informações em soluções. Informação Conhecimento Solução - obter - construir - prescrever - acumular - disseminar - interpretar - integrar A informação é um conteúdo que foi organizado a partir do discernimento de padrões do que é observado. O primeiro esforço da GC para agregar valor a esse conteúdo é garantir o acesso a ele (obter a informação)e incrementar sua quantidade e diversidade (acumular). Em seguida a informação ganha significado e relevância a partir da interpretação que se dá a ela. Nesse ponto teremos uma informação qualificada. Para transformar informações em conhecimento, o esforço exercido é o de relacioná-las com a experiência das pessoas. Nas organizações o conhecimento é algo que pode ser aplicado em algum tipo de sistema produtivo. Portanto ele só existe quando gera prescrições que possam transformar uma situação existente em uma situação desejada. Essas prescrições visam dar apoio a outro processo muito relevante nas organizações: a tomada e decisão. Podemos então dizer que a informação é a base do conhecimento, e que este é a base da ação. Portanto, o maior indicador de sucesso de um projeto de GC está nos objetivos alcançados pela organização. Qual a importância de se pensar a Gestão do Conhecimento em ambiente Big Data? Inicialmente é forçoso reconhecer que a identificação de padrões no que é observado ao nosso redor (informação) está cada vez mais sendo feita de modo digital, gerando uma grande quantidade de dados. Ou seja, estamos vivenciando um processo progressivo de dataficação da sociedade. O impacto desse fenômeno começou a ser percebido na última década e a relevância desse impacto pode ser explicada resumidamente da seguinte maneira: Dados digitais só podem integrar uma única cadeia produtiva: a de conhecimento. Isso significa que é esperada uma explosão na quantidade e efetividade do principal produto do conhecimento: solução. Por tudo o que foi dito acima, acreditamos que a GC continuará sendo a principal força atuante em um projeto bem sucedido em Big Data. A importância de pensar a gestão do conhecimento especificamente em ambiente Big Data é que esse processo apresenta algumas especificidades nesse ambiente que não devem ser desprezadas. A primeira, e mais evidente, é que GC em Big Data terá suas ferramentas fortemente apoiadas em Tecnologia da Informação (TI). Gestão do Conhecimento em ambiente Big Data Dados Informação Conhecimento Solução - captar - obter - construir - prescrever - indexar - acumular - disseminar - integrar - interpretar - integrar - segurar - compartilhar Em TI a gestão de dados é chamada de governança de dados e inclui todas as atividades necessárias para gerar e disponibilizar os dados para utilização: captação, armazenagem, indexação, integração, segurança e compartilhamento. O profissional de GC não terá que se apropriar dos conhecimentos de TI que asseguram a governança de dados, mas terá que compreender que, no ambiente Big Data, a qualidade da informação que ele terá dependerá diretamente do modelo de governança utilizado. A GC em ambiente Big Data é semelhante à já praticada em outros ambientes. O último valor gerado é a solução de um problema e isso só é feito a partir de uma tomada de decisão que é uma competência humana indelegável. O desafio da gestão do conhecimento de transformar as melhores informações nas melhores decisões receberá um reforço incontestável da tecnologia da informação, mas em última instância continua sendo um desafio humano. Projetos de Big Data O que você precisa saber. Antes de falarmos sobre as especificidades do seu próprio projeto, veja algumas questões que a maioria dos profissionais que estão trabalhando com Big Data gostaria de ter ficado sabendo antes de começarem seus projetos. Como a maioria dos projetos de Big Data falha por falta de clareza e devido à incapacidade de demonstrar a funcionalidade da iniciativa, você mesmo deve se responsabilizar por isso para trazer foco e comprovação ao seu projeto. Seguem três dicas úteis para garantir que o seu projeto já comece dando certo e continue em operação. Defina objetivos claros e administre as expectativas Se a sua organização já precisa de dados para determinados processos de negócios (como detecção de fraudes ou análise de mercado), pense em como Big Data pode melhorar ou valorizar esses processos. Sem um foco claro e um valor perceptível aos usuários de negócios, o projeto estará condenado ao fracasso. Defina as métricas que comprovam o valor do projeto Métricas claramente definidas e que se ajustem aos objetivos podem evitar uma grande quantidade de problemas. Pergunte a si mesmo como você pode medir o impacto do seu projeto no contexto das suas metas. Seja estratégico sobre ferramentas e codificação manual Adote ferramentas que possam aumentar a produtividade da equipe de desenvolvimento por meio do aproveitamento das habilidades e do conhecimento da qualidade dos seus dados. Como seria o projeto certo. Se você está pensando em um projeto tático e específico, que pode ser adaptado posteriormente para a empresa como um todo, está correto, e estes quatro componentes são importantes: Valor demonstrável O projeto certo é aquele em que o valor é compartilhado de maneira igual entre a TI e a unidade de negócio que você está tentando ajudar, isso significa proporcionar um valor claro para um departamento, uma unidade de negócio ou um grupo, de forma que eles possam ver. Patrocínio Os projetos de Big Data precisam de defensores e patrocinadores em altos cargos, que estejam dispostos a defender o trabalho que você está fazendo. Um efeito de jogo de boliche A importância estratégica do seu projeto tático é vital. Além de provar, sem sombra de dúvida, que Big Data pode ajudar a unidade de negócio que você está apoiando, é bom se certificar de que o valor possa ser comunicado facilmente para a empresa em geral. Habilidades transferíveis É preciso se certificar de que você pode aprender as habilidades, as capacidades e as lições certas do seu primeiro projeto. Mais enfaticamente, é preciso garantir que tudo isso seja documentado para que você possa transferir conhecimento para o próximo projeto. Lembre-se, se a sua meta é o sucesso, então você já está se preparando para futuros projetos. Desafios para implantarmos um projeto de Big Data Primeiro temos os desafios Estruturais, que é composto de: Codificação e dataficação: Será necessário o desenvolvimento ou aprimoramento de metodologia para codificação de informações e de tecnologia para captação de novos dados. Big Data fundamenta-se em grande quantidade e variedade de dados e tudo que puder ser dataficado ajudará no aprimoramento dos modelos analíticos. Rede wi-fi: A disponibilidade e qualidade da rede de transmissão de dados digitais ainda não consegue acompanhar a velocidade da oferta de serviços móveis fundamentais na captação de dados. Armazenagem: Embora poucos apontem a armazenagem como gargalo da cadeia produtiva do Big Data, destacamos o desafio da constante ampliação do serviço já que não existe nenhuma expectativa de desaceleração na geração de dados. Compartilhamento: Plataformas para compartilhamento de dados serão cada vez mais comum. Vemos como desafio o desenvolvimento de linguagens e interface mais acessíveis. Analítica: Nesse ponto da cadeia está o maior gargalo pela escassez dos chamados cientistas de dados. Tecnicamente falando, desenvolver modelos analíticos é um desafio porque cada modelo é adequado a um problema em um determinado contexto e porque precisa ser dinâmico para manter-se atualizado. Cada modelo analíticopode ser considerado uma peça única e sua efetividade tem que ser colocada à prova continuamente. Visualização de dados: Se o objetivo da analítica de dados é empoderar o tomador de decisão, será fundamental o desenvolvimento de soluções que deem aos dados uma forma de apreensão fácil e adequada ao problema que se quer resolver. A visualização eficaz das informações geradas pela analítica será fator determinante para melhores decisões em menos tempo. Em segundo temos os desafios Culturais, que é composto de: Apropriação do conceito: Em primeiro lugar, não apenas em importância, mas também como pré-requisito para todos os demais desafios que seguirão, está a compreensão de Big Data. O desafio é percebê-lo não como uma solução em tecnologia da informação, mas como um ativo que deve ser acionado para encontrar as melhores soluções dentro do planejamento estratégico de uma instituição. Compartilhamento de dados: Sabemos que esses dados diversificados são captados e controlados por diferentes agentes do ecossistema e que seria de extrema ineficiência captar os mesmos dados todas as vezes que eles fossem necessários. Diante dessas constatações podemos afirmar que o compartilhamento de dados é fundamental para a utilização efetiva de dados digitais. O grande desafio do compartilhamento é mais que um problema de tecnologia. Propriedade de dados: Importância do reconhecimento de que o valor do Big Data não está em possuir ou controlar os dados, mais no valor que extrai da correlação entre diferentes dados. Colocar o ser humano no comando: Em concordância com a curva de Gartner de adoção de tecnologia, destacamos como grande desafio a formação de massa crítica para participar do debate sobre a utilização de dados digitais como novo paradigma de conhecimento. O desconhecimento faz com que Big Data seja, na maioria das vezes, exageradamente enaltecido ou injustamente desqualificado. Acreditamos que as duas posturas extremistas cometem o mesmo erro na origem: não colocam o ser humano no comando. A primeira será a responsável pela escalada vertiginosa ao pico das expectativas porque cria a expectativa de que a tecnologia sozinha trará todas soluções para nossos problemas. A segunda postura comandará a queda livre em direção ao poço da desilusão atribuindo à tecnologia todos os impactos negativos de sua adoção. Colocar o ser humano no comando de qualquer projeto em Big Data é reconhecer que nenhuma tecnologia pode prescindir da inteligência que deve agir não apenas para alcançar os desejados fins, mas também para escolher com responsabilidade os adequados meios. Design de redes: A falta de cientistas de dados e de profissionais para tomar decisões a partir de modelos preditivos tem sido destacada como gargalo por todas as empresas de consultoria no assunto. No entanto identificamos outro desafio na formação profissional para trabalhar com big data: a habilidade de ver e desenhar redes complexas. Big data é um código digital de relações que são os links de uma rede. Decifrar e utilizar as informações contidas nesses códigos passa necessariamente por entender as redes complexas onde estão os problemas que desejamos resolver. Acreditamos que design de redes complexas será uma competência necessária e valorizada para se trabalhar com Big Data. Privacidade: A polêmica questão da privacidade na utilização de dados digitais precisará evoluir para o campo da ética para ser resolvida. Antes, porém será preciso ficar clara a diferença entre dados e informação. Dado é a representação física de um evento no tempo e espaço que não agrega fundamento para quem o recebe, não podendo ser possível entender o que ele representa ou para que ele exista, porém, no momento que existir uma agregação com outro dado ele passa a ser uma informação”. O pressuposto do Big Data é que dados em grande quantidade de um determinado domínio quando transportado para outro, gera informações (dados agregados) e insights relevantes para a compreensão de fenômenos que não podem ser explicados numa relação causa-efeito linear. Afirmar que Big Data é sinônimo de perda de privacidade e desconhecer o assunto ou tratá-lo de maneira antiética. Impedir que a utilização inadequada dos dados digitais sejam considerada a prática corrente de projetos Big Data é o maior desafio quando se fala em privacidade. Metodologias: Gerar conhecimento sobre ambientes complexos a partir de dados digitais exigirá novos processos. Acreditamos que, independente da prontidão que setores e áreas corporativas tenham para Big Data, as instituições aumentarão seus investimentos em tecnologia da informação nos próximos anos para avançar do estágio de onde se encontram em relação ao Big Data. O primeiro desafio metodológico será o de medir esse grau de prontidão. Ao contrário do que se pensa estar pronto para análise de dados é muito mais que ter dados, hardware, software e cientistas de dados. Outro desafio metodológico será o de definir o problema em um sistema complexo. Em qualquer contexto definir adequadamente o problema é essencial para encontrar a melhor solução que responda às condições humanas (desejo), técnicas (possibilidade) e econômicas (viabilidade). Em terceiro e último temos os desafios Estratégicos, que é composto de: Fraquezas-ameaças: O principal obstáculo tanto no ambiente externo quanto no interno é a baixa compreensão do assunto, essa deficiência tem como consequências o desconhecimento da importância de compartilhar dados e o baixo investimento em ferramentas e metodologias específicas para análise de dados. No ambiente externo isso se manifesta na falta de pressa da sociedade em exigir uma política pública de normatização e investimento em infraestrutura e educação para big data. Forças-ameaças: Outra ameaça à Big Data no Brasil é a baixa qualidade e o alto custo da rede móvel de comunicação. Sendo a mobilidade a principal força motora do Big Data pela diversidade de dados de dinâmica humana que ela propicia, essa ameaça terá forte impacto na expansão da base de dados. Por outro lado, a base de dados existente e qualidade do setor de TI são forças que podem ser usadas para reverter esse quadro. O desafio é o desenvolvimento de projetos em análise de dados de grande visibilidade e relevância para justificar o investimento na melhoria da rede e a queda no custo melhorando assim a penetração da rede em regiões e segmentos da população onde o acesso ainda é restrito. Fraquezas-oportunidades: Apesar de apresentar muitas ameaças,o Big Data, o Brasil oferece também condições para o desenvolvimento de boas vantagens competitivas. A principal delas diz respeito à rápida adesão da população a novas tecnologias e processos fortemente dependentes dela. Esse fator, somado à forte adesão às redes sociais e à participação online e ao conceito de que inclusão digital é importante para a inclusão social, geram as condições ideais para a geração espontânea de dados de alta qualidade para análise preditiva de comportamento humano e dinâmica social. O desafio aqui é o desenvolvimento de plataformas para compartilhamento desses dados. Forças-oportunidade: O quadrante onde forças e oportunidades se encontram só são desafios até o momento do seu reconhecimento. A partir daí torna-se natural o caminho de associar esses fatores positivos para ganhar vantagem competitiva em algumas áreas específicas do Big Data. As condições de geração espontânea de dados digitais citadas no itemanterior, associadas à alta capacidade de armazenagem e segurança dos dados e ao bom desenvolvimento do setor de TI colocam o Brasil em posição privilegiada na parte inicial da cadeia de valor de Big Data: desenvolvimento de métodos de codificação, de dispositivos, sensores e serviços para dataficação de informações importantes. O desafio na parte alta da cadeia de valor é transformar o interesse dos tomadores de decisão e capacidade de articulação para o desenvolvimento de novos modelos de negócio, metodologias e indicadores de sucesso para ambiente Big Data. Armazenamento de Dados em projetos de Big Data Uma série de desafios vem à tona quando o volume de dados excede os tamanhos convencionais, quando esses dados são variados (diferentes fontes, formatos e estruturas) e são recebidos em uma velocidade maior do que a capacidade de processamento. Quando se deseja realizar processamento de linguagem natural de um texto muito grande a fim de realizar análises estatísticas do texto, o processamento e memória necessários excede a capacidade de computadores pessoais convencionais. Ou seja, os recursos de hardware (como a memória RAM, por exemplo) não comportam o volume dos dados. A velocidade do processamento, armazenamento, leitura e transferência de dados nos barramentos, frequentemente fazem com que apenas extratos (amostras) dos dados sejam analisados o que não permite que todos os detalhes daquele conjunto de dados sejam observados. O que se deseja é estudar as bases de dados por completo, não apenas uma amostra, ou ao menos aumentar as amostras o máximo possível. A necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse em se empregar técnicas de análises que excedam as técnicas tradicionais. Extrair conhecimento a partir de grandes massas de dados é de fato desafiador, pois os dados são heterogêneos em sua representação e formato, além de apresentarem conteúdo multidisciplinar. As soluções de Big Data também têm como objetivo tratar dados brutos, heterogêneos com e sem estrutura e sem padrão de formatação. Apesar dos bancos de dados convencionais apresentarem bons desempenhos no tratamento de dados estruturados e semiestruturados, as análises no contexto de Big Data requerem um modelo iterativo (de consultas recursivas) para análise de redes sociais e emprego de técnicas de clusterização. O desafio do processamento dos grandes volumes de dados está relacionado a três aspectos: armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados e as frequentes falhas (diferente dos bancos de dados convencionais onde as falhas são tratadas como exceções, no contexto de Big Data, as falhas são regras). O processamento intensivo e iterativo dos dados excede a capacidade individual de uma máquina convencional. Nesse contexto, clusters (arquiteturas de aglomeração) computacionais possibilitam a distribuição das tarefas e processamento paralelo dos dados. Em alguns cenários, não será possível processar e armazenar todos os dados. Nesse caso, é possível utilizar técnicas de mineração de dados para manipular os dados, sumarizando-os, extraindo conhecimento e fazendo predições sem intervenção humana visto que o volume dos dados, seus tipos e estruturas não permitem tal intervenção. Muitas empresas têm apresentado requisitos de gerenciar e analisar grande quantidade de dados com alto desempenho. Esses requisitos estão se tornando cada vez mais comuns aos trabalhos de análise de redes sociais [DiFranzo et al. 2013]. Diferentes soluções têm surgido como proposta para esses problemas. Dentre as propostas, destaca-se o paradigma MapReduce implementado pelo Hadoop, o qual permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores. Vamos falar um pouco de MapReduce e Hadoop O Hadoop é uma plataforma open source desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. O projeto é mantido pela Apache Foundation, mas conta com a colaboração de várias empresas, como Yahoo!, Facebook, Google e IBM. Pode-se dizer que o projeto teve início em meados de 2003, quando o Google criou um modelo de programação que distribui o processamento a ser realizado entre vários computadores para ajudar o seu mecanismo de busca a ficar mais rápido e livre da necessidade de servidores poderosos (e caros). Esta tecnologia recebeu o nome de MapReduce. O Hadoop é tido como uma solução adequada para Big Data por vários motivos: – É um projeto open source, como já informado, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. – Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas; – O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados; – O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema. MapReduce é um modelo de programação proposto pelo Google para facilitar o processamento de grandes volumes de dados (Big Data). A partir de um paradigma inspirado em primitivas de programação funcional, foi criado um framework que permitisse a manipulação de grande volume de dados de forma paralela e distribuída, além de prover tolerância à falha, escalonamento de I/O e monitoramento. Um grande número de aplicações reais podem ser expressas nesse modelo de programação. Variedade e Veracidade Estes dois V’s que já citamos anteriormente são importantíssimos para o projeto de Big Data, pois temos um volume enorme de dados, de variadas fontes, porém temos que ter certeza se quais dados realmente necessitamos e se estes são verídicos, pois trabalhar com dados incorretos para tomadas de decisões, deixa a organização totalmente vulnerável e sem credibilidade. Variedade O aspecto mais desafiador do Big Data é a grande variedade de formatos e estruturas que você terá que conciliar em suas análises. Será preciso integrar várias fontes se quiser incluir novos tipos e estruturas de dados (sociais, sensores, vídeo) às fontes com as quais você já está acostumado (relacionais, mainframes legados). Tentar codificar manualmente cada integração é tão complicado que poderia consumir todo o tempo e os recursos disponíveis. Aproveite ao máximo as ferramentas de integração e qualidade de dados disponíveis para acelerar o processo para tarefas mais importantes. Veracidade Não importa o grau de importância de suas análises, elas não valerão nada se as pessoas não puderem confiar razoavelmente nos dados que conseguirem. Quanto mais dados você analisar, mais importante será manter um alto nível de qualidade dos dados. Para que os dados sejam adequados à finalidade, você precisa conhecer essa finalidade. Se um especialista de dados estiver procurando padrões em dados agregados do cliente, a preparação necessária será mínima. Por outro lado, os dados de relatórios financeiros e da cadeia de suprimentos deverão ser altamente editados, limpos e certificados para obter precisão e conformidade. Crie categorias baseadas na quantidade de preparação necessária, o que abrange desde dados brutos até um repositório de dados mestres altamente editado, contendo dadoslimpos, confiáveis e fidedignos. Como já vimos anteriormente com grande volume de dados, então é fundamental que você seja capaz de verificar os dados baseados tanto em precisão quanto em contexto. Atomicidade, Consistência, Isolamento e Durabilidade O Big Data também precisa trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo. O problema é que os bancos de dados “tradicionais”, especialmente aqueles que exploram o modelo relacional, como o MySQL, PostgreSQL e o Oracle, não se mostram adequados a estes requisitos, por serem menos flexíveis. Isso acontece porque bancos de dados relacionais normalmente se baseiam em quatro propriedades que tornam a sua adoção segura e eficiente, razão pela qual soluções do tipo são tão populares: Atomicidade, Consistência, Isolamento e Durabilidade. Esta combinação é conhecida como ACID, sigla para o uso destes termos em inglês: Atomicity, Consistency, Isolation e Durability. Vejamos uma breve descrição de cada uma: Atomicidade: toda transação deve ser atômica, isto é, só pode ser considerada efetivada se executada completamente; Consistência: todas as regras aplicadas ao banco de dados devem ser seguidas; Isolamento: nenhuma transação pode interferir em outra que esteja em andamento ao mesmo tempo; Durabilidade: uma vez que a transação esteja concluída, os dados consequentes não podem ser perdidos. O problema é que a elasticidade, por exemplo, pode ser inviabilizada pela atomicidade e pela consistência. É neste ponto que entra em cena o conceito de NoSQL, denominação atribuída à expressão em inglês “Not only SQL“. O NoSQL faz referência às soluções de bancos de dados que possibilitam armazenamento de diversas formas, não se limitando ao modelo relacional tradicional. Bancos deste tipo são mais flexíveis, sendo inclusive compatíveis com um grupo de premissas que “compete” com as propriedades ACID: aBASE (Basically Available, Soft state, Eventually consistency – Basicamente disponível, Estado Leve, Eventualmente consistente). A escolha do banco NoSQL adequado para uma determinada aplicação não é trivial, alguns fatores importantes devem ser levados em consideração nesta escolha: 1. Escalabilidade; 2. Desempenho; 3. Disponibilidade; 4. Facilidade de uso. Os bancos de dados relacionais não ficaram ultrapassados, eles são e continuarão por muito tempo sendo úteis a uma série de aplicações. O que acontece é que, geralmente, quanto maior um banco de dados se torna, mais custoso e trabalhoso ele fica: é preciso otimizar, acrescentar novos servidores, empregar mais especialistas em sua manutenção, etc. Todos que trabalhamos com desenvolvimento ou alguns que somos mais especializados em banco, sabemos o quão custoso uma base de dados pode se tornar. Via de regra, escalar (torná-lo maior) um banco de dados NoSQL é mais fácil e menos custoso. Isso é possível porque, além de contar com propriedades mais flexíveis, bancos do tipo já são otimizados para trabalhar com processamento paralelo, distribuição global (vários data centers), aumento imediato de sua capacidade e outros. Mas a distribuição global é algo que chama muito a atenção para não centralizarmos dados em um único data center, ou termos que ficar virando chaves para contenções. Há mais de uma categoria de banco de dados NoSQL, fazendo com que soluções do tipo possam atender à grande variedade de dados que existe, tanto estruturados, quanto não estruturados: bancos de dados orientados a documentos, bancos de dados chave/valor, bancos de dados de grafos, etc. É necessário também contar com ferramentas que permitam o tratamento dos volumes. Neste ponto, o Hadoop é, de longe, a principal referência. Conectividade e Internet das Coisas O Big Data ajuda empresas de diversos segmentos a superar problemas específicos para fornecer melhores serviços para o seu público e clientes. Em pouco tempo a conectividade permitirá que as empresas deem passos maiores usando inteligência, internet e a ampla disponibilidade de dados. Afinal, a ampla conectividade não apenas mudará a forma como vivemos, mas gerará uma quantidade imensa de informações que se analisadas de forma precisa e inteligente poderão gerar grandes potenciais competitivos. O auge da cloud se relaciona com outras duas tendências predominantes de TI: o Big Data e a Internet das Coisas (IoT) que, em conjunto, são conhecidos como a “Terceira Plataforma”. O elemento comum destas tendências é que nos falam de um volume gigantesco de dados digitais que necessariamente transitará na nuvem. Para isso, as empresas terão que adaptar a arquitetura das redes e data centers para fornecer a capacidade necessária e flexibilidade exigidas para o novo cenário. Por outro lado, esse conjunto de fatores irá demandar, cada vez mais, dos provedores de serviços em nuvem. No caso da IoT, a IDC estima que mais de 90% destes dados serão alojados em plataformas deste tipo nos próximos cinco anos. Isso porque a nuvem reduz a complexidade associada à fusão de dados provenientes de fontes diversas e dispersas. O volume de dados gerados pela IoT será tamanho que obrigará, em curto prazo, as empresas a repensar até suas estratégias de conectividade. E o que é IoT (Internet das coisas) É uma revolução tecnológica a fim de conectar aparelhos eletrônicos do dia-a- dia, como aparelhos eletrodomésticos à máquinas industriais e meios de transporte à Internet, cujo desenvolvimento depende da inovação técnica dinâmica em campos tão importantes como os sensores wireless e a nanotecnologia,ou seja, a "Internet das Coisas" conecta os aparelhos e veículos usando sensores eletrônicos e a Internet. Quando uma organização decide levar seus dados e aplicações para a nuvem, deve definir uma arquitetura em nuvem apta para suas necessidades – privada, pública ou híbrida – e, em seguida, selecionar o provedor de serviços que garanta a maior flexibilidade possível. A partir daí, é preciso preocupar-se para que a conectividade tenha o melhor desempenho, onde os níveis de uptime e segurança sejam garantidos por contrato, considerando uma largura de banda dinâmica, que dê a rede escalabilidade máxima. Podemos afirmar que estas modificações nos trarão grandes transformações, tais como: Gadgets: cada vez mais modulares e convergentes: Estamos vendo, mesmo que neste momento um pouco vagarosamente, o crescimento dos dispositvos wearables. Relógios, óculos, roupas tecnológicas estão cada vez mais nos trazendo informações para nossa rede de conhecimento. Big Data: Com a maior absorção das informações que coletamos durante nosso dia a dia, através de nosso comportamento digital, vamos gerar um volume cada vez maior de informações a nosso respeito. Segurança: Naturalmente que este volume de informações deverá gerar uma nova onda de segurança e privacidade entre os usuários. Cloud Computing: Este processo parece sem volta. A cada dia que passa, estamos observando o crescimento desta área que já suporta o nascimento e os primeiros passos do Big Data. A verdadeira Globalização: Que o mundo está a cada dia mais integrado, isso é fato. Mas a tendência é que tenhamos apenas uma única língua, e que as fronteiras entre os países, sejam meramente físicas, mas inexistentes comercialmente. Com todos estes conceitos acima mencionados, poderemos “estar” em qualquer lugar em qualquer “tempo”. Claro que vamosprecisar que a holografia tenha um bom salto tecnológico em um futuro próximo. Enfim, é através da Conectividade Permanente que estamos evoluindo nossas ideias e comportamentos. Como todos sabem de acordo com pesquisas realizadas e apresentadas em vários Foruns de TIC , os assuntos cloud computing e big data, ainda patinam nas organizações, pois o grande volume de dados existentes fazem com que os gestores das organizações ficarem perdidos nas tomadas de decisões, com o movimento de internet das coisas (IoT) não é diferente, mas precisamente é algo mais recente, totalmente novo, e já vinha acontecendo ainda que de maneira insipiente em diversas partes do mundo. O fato é que o modelo ganhou formato comercial e bem estruturado e agora parece estar pronto para um grande salto em termos de escala. Estados Unidos e Europa, com boa parte da população conectada e maturidade avançada em automação industrial, parecem ser grandes celeiros para a tendência, mas nesse amplo debate, a América Latina, que ainda patina em conectividade, é vista como terreno fértil para oportunidades por diversos players. Sendo assim, para obter o processamento de Big Data provenientes da Internet Of Things será necessário adotar uma arquitetura baseada em clusters que ofereça suporte para o framework do Apache Hadoop, uma arquitetura comumente utilizada para isto e com capacidade de elasticidade de recursos, é a utilização de Cloud Computing (Computação em Nuvem). Conclusão Com base no estudo realizado, torna-se evidente que não há como fugir do fenômeno Big Data, pois já é uma realidade muito mais próxima de nós do que possamos imaginar. A sociedade atual se organiza em torno dos meios de comunicação, com a popularização da internet, dos dispositivos moveis com acesso à mesma, a evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em que a tecnologia e a informação ditam as regras. Atualmente a maioria das pessoas possui algum contato com algo que pode contribuir para gerar essa grande quantidade de dados, de forma direta ou indireta. As tecnologias para trabalhar com o oceano de dados que cresce em volume de forma monstruosa e flui continuamente nos deixa otimista, porque se mostram comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho com grandes quantidades de dados. Outro ponto importante que deve ser enfatizado é a questão do potencial analítico que o Big Data pode nos oferecer. O poder de quem detém a expertise de trabalhar com grandes quantidades de dados é imensurável, a aplicação se estende por diversas áreas, não ficando restrito apenas ao um setor. Podemos concluir que o Big Data se revela um divisor de águas e seu impacto na sociedade poderá ser comparado com o advento da internet, que hoje se tornou algo indispensável em nossas vidas. É um mundo a ser explorado, que já no início se mostra de grande potencial e será a questão tecnológica mais discutida nos próximos anos certamente. Como já foi dito, o surgimento do Big Data é o que temos hoje para trabalhar com essa quantidade enorme de dados que vem surgindo no cenário atual. O grande desafio é manusear essa infinidade de dados e extrair informação relevante a partir dos mesmos. O que é importante em big data, apesar de tanta tecnologia envolvida, a análise digital não neutraliza a importância humana na tomada de decisão e na inovação, ao contrário, a profusão de modelos preditivos e correlações de dados demandarão como nunca a capacidade humana de gerar insights, discernir e decidir. Se precisarmos definir Big Data, diremos que é a representação digital da vida. Dados digitais iluminam as pessoas e a rede vital que elas estabelecem entre si, com a natureza e com os objetos que estão à sua volta. Acreditamos que lidar com esses dados é uma missão que todo ser humano deverá abraçar com cuidado porque eles são o código que nos mostrará como dar equilíbrio ao nosso planeta. Como diz Thomas Davenport, “Big Data pode ser descrito como um rio de informações em correnteza que nunca para”. BIBLIOGRAFIA BAZERMAN, M. H.; MOORE, D. Processo decisório. 7. ed. Tradução de Daniel Vieira. Rio de Janeiro: Elsevier, 2010. CANARY, Vivian. A tomada de decisão no contexto do Big Data: estudo de caso único. 2013. 74 p. Monografia (Conclusão do curso) – UFRGS, Departamento de Ciências Administrativas, Porto Alegre. COLUMBUS, Louis. Roundup of Big Data Forecasts and Market Estimates, 2012. 16 ago. 2012. Disponível em: <http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-of-big-data- forecasts-and-market-estimates-2012>. COMPUTERWORLD. Hadoop cimenta importância para Big Data. Disponível em: <http://www.computerworld.com.pt/2012/06/19/hadoop- cimenta-importancia-para-bigdata/>. Acesso em: 24 maio 2013. DAVENPORT, Thomas H. Big Data no Trabalho: derrubando mitos e descobrindo oportunidades. Rio de Janeiro: Campus, 2014. DIFRANZO, Dominic - stko.geog.ucsb.edu/s4bd2013/ FRANÇA, Tiago; FARIA, Fermino; RANGEL, Fabio; FARIAS, Claudio; OLIVEIRA, Jonice. Big Social Data: princípios sobre coleta, tratamento e análise de dados sociais. In: LÓSCIO, Bernadette Farias; HARA, Carmem S.; MARTINS, Vidal (Org.). Tópicos em gerenciamento de dados e informações. Curitiba: UFPR; PUC-PR, 2014. GOUVEIA, W. MapReduce é o que há. Disponível em: <http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que- ha.html>. Acesso em: 21 maio 2013. HURWITZ, Judith; NUGENT, Alan; HALPER, Fern; KAUFMAN, Marcia. Big Data para Leigos. Rio de Janeiro: Ed. Starlin, 2016. INMOMENT – 2014. Jewwll, Dave et al - www.redbooks.ibm.com/redpapers/.../redp5070.pdf LIMA, Gustavo. Cezar Taurion ensina o que é Big Data. 9 jan. 2013. Disponível em: <blog.corujadeti.com.br/cezar-taurion-ensina-o-que-e-big- data>. NONOHAY, Roberto Guedes. Tomada de decisão e os sistemas cerebrais: primeiros diálogos entre administração, psicologia e neurofisiologia. 2012. 162 p. Dissertação (Mestrado) – UFRGS, Escola de Administração, Programa de Pós- graduação em Administração, Porto Alegre. O GRANDE livro de Big Data. Disponível em: <now.informatica.com/br_the-big- data-workbook_book_2730.html>. O’REILLY. Big Data Now. 1. ed. Sebastopol, CA: O’Reilly Media Inc. 2012. OHLHORST – 2012 - www.the-tech-prophet.com/category/big-data/ PETRY, A. Vida digital: o berço do Big Data. Revista Veja, São Paulo, maio 2013, p. 71-81. SCHMARZO, Bill. Líder em competência global da EMC Consulting: estudo do analítico do Big Data. SCHNEIDER, R. D. Hadoop for dummies. Special Edition. Mississauga, CAN: John Wiley & Sons Canada, 2012. 41 p. SCHÖNBERGER, Viktor M.; CUKIER, Kenneth. Big Data: a revolution that will transform how we live, work and think. Kindle Edition. New York: Houghton Mifflin Harcourt Publishing Company, 2013. Taurion – 2014 - www.revistas.usp.br/signosdoconsumo/article/download/.../100022 THE DECIDING FACTOR: Big data and decision-making. Economist Intelligence Unit, London, 2012. The Guardian - http://www.guardian.co.uk/technology/2010. Wikipedia http://en.wikipedia.org/wiki/Main_Page. Diversos acessos. WorldAtlas e CNN – 2014. ZUPPO, Daniella; COSTA, Luciana; FERNANDES, Soraya. Big Data: desafios e análise estratégica. Rio de Janeiro: COPPE/UFRJ, 2013.
Compartilhar