Baixe o app para aproveitar ainda mais
Prévia do material em texto
Aula 03 Análise de Informações p/ TCU-2015 - Auditor Professor: Victor Dalton 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 1 de 33 AULA 03: Big Data SUMÁRIO PÁGINA 1.Big Data 2 1.1 Definição 2 1.2 Dimensões do Big Data 3 1.3 Classificação de Big Data 7 1.4 Camadas lógicas de uma solução de Big Data 12 1.5 Padrões atômicos e compostos de uma solução de Big Data 18 Considerações Finais 30 Exercícios 31 Gabarito 33 Olá pessoal! Gostando dos assuntos de Análise de Informações? Ou é muito puxado? Eu sei que a matéria é meio “ame ou odeie”, rs. Hoje falaremos sobre Big Data. É um assunto relativamente novo, tanto no universo da Tecnologia da Informação quanto em concursos públicos. Aos estudos! Observação importante: este curso é protegido por direitos autorais (copyright), nos termos da Lei 9.610/98, que altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências. Grupos de rateio e pirataria são clandestinos, violam a lei e prejudicam os professores que elaboram os cursos. Valorize o trabalho de nossa equipe adquirindo os cursos honestamente através do site Estratégia Concursos ;-) 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 2 de 33 BIG DATA 1. BIG DATA 1.1 Definição A humanidade, nos dias de hoje, produz uma quantidade diária de dados que é simplesmente improcessável pelos próprios seres humanos. Para se ter uma ideia disso, a IBM, em 2013, estimou que 2,5 exabytes (2.500.000.000.000.000.000) de bytes de dados são criados por dia. Se cada um dos 7 bilhões de habitantes tivesse que se debruçar sobre essas informações, seriam aproximadamente 300MB de dados diários para cada cidadão, incluindo bebês e idosos, rs. São vídeos no youtube, postagens em redes sociais, blogs, portais de notícias, emails, dentre outros. E o que esses dados possuem em comum? São dados não-estruturados. Estima-se que 85% das informações com as quais as empresas lidam hoje não estão estruturadas. Desta forma, o tradicional SGBD e a modelagem relacional (datados da década de 60) não são mais suficientes para lidar com a realidade atual. É necessária uma nova abordagem. Big Data pode ser considerado como “captura, gerenciamento e análise de dados que vão além de dados estruturados típicos, que podem ser consultados por sistemas de gerenciamento de banco de dados relacional — frequentemente para arquivos não estruturados, vídeo digital, imagens, dados de sensor, arquivos de log e, na verdade, qualquer dado não contido nos registros com campos pesquisáveis distintos. Em um certo sentido, os dados não estruturados são dados interessantes, mas difíceis de sintetizar em BI ou tirar conclusões deles, a menos que possam ser correlacionados a dados estruturados”. Em um primeiro momento, o Big Data pode até ser confiundido com a Business Intelligence, mas difere na ordem de grandeza do volume de dados (que é muito maior), e na natureza dos dados. Enquanto as ferramentas de BI tradicionais extraem dados de fontes estruturadas, 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 3 de 33 “abrindo exceções para a captura de dados não estruturados”, o Big Data entende que os dados não-estruturados são a “maioria”, por assim dizer. 1.2 Dimensões do Big Data O Big Data não tem uma bibliografica consolidada, devido à natureza recente de sua existência. Para analisar a viabilidade de implementação do Big Data em uma organização, citava-se inicialmente o 3V (volume, velocidade e variedade); depois o 5V (incluindo veracidade e valor); atualmente, a IBM cita 7 dimensões a serem consideradas ao avaliar a viabilidade de uma solução de big data. 7 dimensões do Big Data. Ei-las: Volume – diz respeito à quantidade de dados a ser capturada, armazenada e manipulada. Estamos falando de petabytes ou terabytes de dados, tendendo a aumentar? 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 4 de 33 Velocidade – estreitamente relacionado ao volume, diz respeito à velocidade de produção dos novos dados, a velocidade em que é preciso agir com relação a eles ou a taxa em que esses dados estão mudando. A depender da velocidade, pode ser necessário escolher dados para guardar e outros para descartar; Variedade – das fontes, tipos e formatos dos dados. São dados das bases de dados? Redes sociais? Áudios, vídeos? Já não é mais possível antecipar o conteúdo e a estrutura dos mesmos? Veracidade – lida com a incerteza e/ou fidelidade dos dados. É necessário que haja processos que garantam o máximo possível a consistência dos dados; Valor – a informação deve ser significativa e justificar o investimento no Big Data; Governança - Ao decidir implementar ou não uma plataforma de big data, uma organização pode estar olhando novas fontes e novos tipos de elementos de dados nos quais a propriedade não está definida de forma clara. Por exemplo, no caso de assistência médica, é legal acessar dados de paciente para obter insight? É correto mapear as despesas do cartão de crédito do cliente para sugerir novas compras? Regras semelhantes regem todos os segmentos de mercado. Além da questão da governança de TI, também pode ser necessário redefinir ou modificar os processos de negócios de uma organização para que ela possa adquirir, armazenar e acessar dados externos. Pessoas – É necessário ter pessoas com aptidões específicas para entender, analisar os requisitos e manter uma solução de Big Data. Envolve conhecimento do segmento de mercado, domínio técnico sobre as ferramentas de Big Data e conhecimentos específicos de modelagem, estatística e outros. Veja no infográfico do Jornal O Globo algumas soluções corporativas que envolvem Big Data: 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 5 de 33 Big Data pelo mundo. Fonte: Jornal O Globo. 1) (FGV – TJ/SC – Analista de Sistemas – 2015) Os termos Business Intelligence (BI) e Big Data confundem-se em certos aspectos. Uma conhecida abordagem para identificação dos pontos críticos de cada paradigma é conhecida como 3V, e destaca: a) variedade, visualização, volume; b) velocidade, virtualização, volume; 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 6 de 33 c) variedade, velocidade, volume; d) virtualização, visualização, volume; e) variedade, visualização, virtualização. Os sistemas de apoio à decisão servem para dar apoio aos tomadores de decisão, líderes de uma organização com dados de mais alto nível para decisões complexas e importantes (logo, decisões de negócio). Estas ferramentas podem trabalharcom descoberta de conhecimento e processamento online de transações, para permitir que tomador de decisão tenha a sua própria percepção. Alternativa c). 2) (FGV – AL/BA – Técnico de Nível Superior - Economia – 2014) A expressão Big Data é utilizada para descrever o contexto da informação contemporânea, caracterizada pelo volume, velocidade e variedade de dados disponíveis, em escala inédita. Com relação às características do Big Data, analise as afirmativas a seguir. I. O volume da informação se refere ao fato de que certas coleções de dados atingem a faixa de gigabytes (bilhões de bytes), terabytes (trilhões), petabytes (milhares de trilhões) ou mesmo exabytes (milhões de trilhões). II. A velocidade está relacionada à rapidez com a qual os dados são produzidos e tratados para atender à demanda, o que significa que não é possível armazená-los todos, de modo que somos obrigados a escolher dados para guardar e outros para descartar. III. A variedade significa que os dados de hoje aparecem em todos os tipos de formatos, como, por exemplo, arquivos de texto, email, medidores e sensores de coleta de dados, vídeo, áudio, dados de ações do mercado ou transações financeiras. Assinale: a) se somente a afirmativa I estiver correta. b) se somente a afirmativa II estiver correta. c) se somente a afirmativa III estiver correta. d) se somente as afirmativas I e II estiverem corretas. e) se todas as afirmativas estiverem corretas. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 7 de 33 Os sistemas de apoio à decisão servem para dar apoio aos tomadores de decisão, líderes de uma organização com dados de mais alto nível para decisões complexas e importantes (logo, decisões de negócio). Estas ferramentas podem trabalhar com descoberta de conhecimento e processamento online de transações, para permitir que tomador de decisão tenha a sua própria percepção. Alternativa e). 1.3 Classificação de Big Data É possível categorizar problemas de negócios em tipos de problemas de big data. Quando problemas de big data são categorizados por tipo, é mais fácil ver as características de cada tipo de dados. Essas características ajudam a entender como os dados são obtidos, como são processados para o formato apropriado e com que frequência novos dados estão disponíveis. Dados de diferentes fontes possuem características diferentes; por exemplo, dados de mídia social podem ter vídeos, imagens e texto não estruturado, como postagens de blog, entrando continuamente. Quer conferir alguns exemplos? A tabela a seguir contém problemas comuns de negócios e atribui um tipo de big data a cada um. Problemas de negócios Tipo de big data Descrição Serviços públicos: Prever o consumo de energia Dados gerados por máquina Concessionárias de serviços públicos implementaram medidores inteligentes para medir o consumo de água, gás e eletricidade a intervalos regulares de uma hora ou menos. Esses medidores 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 8 de 33 inteligentes geram enormes volumes de dados de intervalo que precisam ser analisados. Para ter eficiência operacional, a empresa precisa monitorar os dados entregues pelo sensor. Uma solução de big data pode analisar dados de geração de energia (fornecimento) e de consumo de energia (demanda) usando medidores inteligentes. Telecomunicações: Analítica de perda de clientes Dados da web e sociais Dados de transação Operadores de telecomunicações precisam criar modelos detalhados de perda de clientes que incluam dados de mídias sociais e de transação, para estar à frente da concorrência. Provedores que implementam uma estratégia de analítica preditiva podem gerenciar e prever a perda analisando os padrões de chamada dos assinantes. Varejo: Sistema de mensagens personalizado com base em reconhecimento facial e mídia social Dados da web e sociais Biométrica Varejistas podem usar tecnologia de reconhecimento facial combinada a uma foto da mídia social para fazer ofertas personalizadas a clientes com base no comportamento de compra e na localização. Esse recurso pode ter um impacto tremendo nos programas de fidelização dos varejistas, mas há sérias considerações sobre a privacidade. Os varejistas precisariam ser transparentes 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 9 de 33 com relação à privacidade para implementar esses aplicativos. Problemas de negócios de big data por tipo. Fonte: http://www.ibm.com/developerworks/br/library/bd-archpatterns1/ A figura a seguir mostrará as várias categorias para classificar Big Data, e as possíveis classificação em cada categoria. As categorias mais relevantes estão em azul turquesa. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 10 de 33 Categorias de classificação de big data. Fonte: http://www.ibm.com/developerworks/br/library/bd-archpatterns1/ 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 11 de 33 Falando um pouco mais sobre as classificações: Tipo de análise — Se os dados são analisados em tempo real ou agrupados para análise posterior. Essa escolha afeta várias outras decisões sobre produtos, ferramentas, hardware, fontes de dados e a frequência estimada dos dados. Para alguns casos de uso é necessária uma mistura dos dois tipos. Metodologia de processamento — O tipo de técnica a ser aplicada para processar dados (por exemplo, preditiva, analítica, consulta ad hoc e relatórios). As necessidades de negócios determinam a metodologia de processamento apropriada. É possível usar uma combinação de técnicas. A escolha de metodologia de processamento ajuda a identificar as ferramentas e técnicas apropriadas para uso na solução de big data. Frequência e tamanho dos dados — O volume estimado de dados e a frequência com que chegam. Saber a frequência e o tamanho ajuda a determinar o mecanismo de armazenamento, formato de armazenamento e as ferramentas necessárias de pré-processamento. Frequência e tamanho de dados dependem das fontes. Sob demanda, como dados de mídia social Feed contínuo, em tempo real (dados de clima ou transacionais) Série temporal (dados com base em tempo) Tipo de dados — Tipo dos dados a serem processados — transacionais, históricos, principais e outros. Saber o tipo de dados ajuda a segregar os dados no armazenamento. Formato de conteúdo — Formato dos dados recebidos — estruturados (RDMBS, por exemplo), não estruturados (áudio, vídeo e imagens, por exemplo) ou semiestruturados. O formato determina como os dados recebidos precisam ser processados e é essencial para escolher ferramentas e técnicas e definir uma solução de uma perspectiva de negócios. Fonte de dados— Fontes de dados (onde os dados são gerados) — web e mídiasocial, gerados por máquina, gerados por humanos, etc. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 12 de 33 Identificar todas as fontes de dados ajuda a determinar o escopo de uma perspectiva de negócios. Consumidores de dados — Uma lista de todos os possíveis consumidores dos dados processados: Processos de negócios Usuários corporativos Aplicativos corporativos Pessoas individuais em várias funções de negócios Parte dos fluxos do processo Outros repositórios de dados ou aplicativos corporativos Hardware — O tipo de hardware no qual a solução de big data será implementada — hardware barato ou de ponta. Entender as limitações do hardware ajuda na escolha da solução big data. 1.4 Camadas lógicas de uma solução de Big Data As camadas lógicas de uma solução de big data ajudam a definir e categorizar os vários componentes necessários para uma solução de determinado caso de negócios. Esse conjunto de camadas estabelece os componentes críticos de uma solução de big data, incluindo o ponto de aquisição dos dados em várias fontes, a análise necessária para obter insight de negócios e os processos, dispositivos e pessoas que precisam do insight. Cabe destacar que as camadas ora apresentadas simplesmente proporcionam uma maneira de organizar componentes que realizam funções específicas. Elas são meramente lógicas, e não implicam que as funções que apoiam cada camada devem ser executadas em máquinas separadas ou em processos separados. Para o big data, veremos, simultaneamente, camadas horizontais e verticais. Confira na imagem a seguir: 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 13 de 33 Camadas lógicas horizontais e verticais (à direita) do Big Data. Fonte: http://www.ibm.com/developerworks/br/library/bd-archpatterns3/ Vejamos, a seguir, as camadas horizontais, de “baixo” para “cima”. São elas: Fontes de Big Data, Camada de Tratamento e Armazenamento, Camada de Análise e Camada de Consumo. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 14 de 33 Fontes de Big Data Nesta camada residem todas as fontes de dados necessárias para proporcionar o insight com vistas a solucionar o problema do negócio. Os dados podem ser estruturados, semiestruturados e não estruturados e vêm de várias fontes: Sistemas corpotativos legados Sistemas de gerenciamento de dados Armazéns de dados (ex: Data Warehouse) Outros ilustrados na imagem (dados de sensores, mídias sociais, GPS) Camada de Tratamento e Armazenamento Diante da diversidade das características das fontes de dados, os componentes na camada de tratamento e armazenamento de dados devem ser capazes de ler os dados em várias frequências, formatos, tamanhos e canais de comunicação. Isto posto, esta camada será responsável por adquirir dados das fontes e, se necessário, convertê-los para um formato adequado à maneira como os dados devem ser analisados. Prováveis etapas nesta camada são: Aquisição de dados — Adquire dados de várias fontes e os envia ao componente de digestão de dados ou armazena em locais específicos. Esse componente precisa ser inteligente o suficiente para decidir se deve armazenar os dados recebidos e onde armazená-los. Deve poder determinar se é necessário tratar os dados antes de armazená-los ou se é possível enviar os dados diretamente para a camada de análise de negócios. Compilação de dados — Responsável por tratar dos dados no formato necessário para atingir o objetivo da análise. Esse componente pode ter lógica transformacional simples ou algoritmos estatísticos completos para converter os dados de origem. O maior desafio é acomodar formatos de dados não estruturados, como imagens, áudio, vídeo e outros formatos binários. Armazenamento de dados distribuídos — Responsável por armazenar os dados das fontes. Frequentemente há várias opções de armazenamento de dados disponíveis nessa camada, como distributed file storage (DFS), nuvem, fontes de dados estruturados, NoSQL, etc. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 15 de 33 Camada de Análise É a camada na qual se extrai o “insight” de negócios dos dados. Identificação de entidade de camada de análise — Responsável por identificar e preencher as entidades contextuais (o contexto). É uma tarefa complexa, que exige processos eficientes de alto desempenho. Mecanismo de análise — Usa outros componentes (especificamente identificação de entidade, gerenciamento de modelo e algoritmos analíticos) para processar e realizar a análise. O mecanismo de análise pode ter vários fluxos de trabalho, algoritmos e ferramentas que apoiam o processamento paralelo. Gerenciamento de modelo — Responsável por manter vários modelos estatísticos para verificar e validar esses modelos por meio de treinamento contínuo para aumentar sua precisão. Em seguida, o componente de gerenciamento de modelo promove esses modelos, que podem ser usados pelos componentes de identificação de entidade ou mecanismo de análise. Camada de Consumo O resultado da análise, então, será consumido por vários usuários dentro da organização e por entidades externas, como clientes, fornecedores e parceiros. Por exemplo, com o insight de negócios obtido na análise, uma empresa pode usar dados de preferência do cliente e reconhecimento de localização para fazer ofertas personalizadas aos clientes enquanto eles caminham pelas prateleiras ou passam pela loja. Também é possível, para detectar fraudes, usar o insight para interceptar transações em tempo real e correlacioná-las com a visualização criada usando os dados já armazenados na empresa. É possível notificar a um cliente sobre uma possível fraude durante a transação fraudulenta, para que as medidas cabíveis sejam tomadas imediatamente. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 16 de 33 Por fim, vejamos as camadas verticais, que lidam com aspectos que afetam todos os componentes das camadas lógicas, e sem hierarquia entre si: Integração de Informações, Governança de Big Data, Gerenciamento de Sistemas e Qualidade de Serviço. Integração de Informações Aplicativos de big data adquirem dados de várias origens, fornecedores e fontes, que são armazenados em sistemas como HDFS, NoSQL e MongoDB. Essa camada vertical é usada por vários componentes (aquisição de dados, compilação de dado, gerenciamento de modelo e interceptor de transação, por exemplo) e é responsável por conectar várias fontes de dados. Para integrar informações de fontes de dados com características diferentes (protocolos e conectividade, por exemplo), é necessário conectores e adaptadores de qualidade. Isso inclui, por exemplo, adaptadores de mídias sociais e de dados climáticos. Governança de Big Data Governança de dados é a definição de diretrizes que ajudam as empresas a tomar as decisõescertas sobre os dados. A governança de big data ajuda a lidar com as complexidades, o volume e a variedade de dados dentro da empresa ou oriundos de fontes externas. São necessárias diretrizes e processos sólidos para monitorar, estruturar, armazenar e proteger os dados desde o momento em que entram na empresa, são processados, armazenados, analisados e removidos ou arquivados. As diretrizes de governança podem estar relacionadas a: Definir política e regulamentos de conformidade para retenção e uso de dados externos; Definir as políticas de arquivamento e remoção de dados; Definir políticas de criptografia de dados; Dentre outros. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 17 de 33 Gerenciamento de Sistemas Gerenciamento de sistema é essencial para big data porque envolve muitos sistemas. O monitoramento do funcionamento geral do ecossistema inclui: Gerenciar os logs de sistemas, máquinas virtuais, aplicativos e outros dispositivos; Correlacionar os vários logs e ajudar a investigar e monitorar a situação; Monitorar alertas e notificações em tempo real; Dentre outros. Qualidade de Serviço Esta camada é responsável por definir qualidade de dados, políticas relacionadas à privacidade e segurança, frequência de dados, tamanho de busca e filtros de dados: Qualidade de dados o Identificação integral de todos os elementos de dados necessários o Fornecimento dos dados dentro de um período de tempo aceitável o Aderência a uma linguagem comum (elementos de dados atendem aos requisitos expressos em linguagem de negócios simples) o Verificação consistente de que os dados de vários sistemas respeitam as regras de consistência o Conformidade técnica para cumprir a especificação de dados e as diretrizes de arquitetura de informações Políticas sobre privacidade e segurança Políticas são necessárias para proteger dados sensíveis. Dados adquiridos de agências e provedores externos podem incluir informações sensíveis (como o contato de um usuário do Facebook ou informações de precificação de produto). Dados podem vir de diferentes regiões e países e devem ser tratados de acordo com sua origem. É necessário tomar decisões sobre mascaramento de dados 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 18 de 33 e seu armazenamento. Considere as políticas de acesso de dados a seguir: o Disponibilidade de dados o Grau de gravidade de dados o Autenticidade de dados o Compartilhamento e publicação de dados o Armazenamento e retenção de dados, incluindo perguntas como: é possível armazenar os dados externos? Se sim, por quanto tempo? Que tipo de dados pode ser armazenado? o Restrições de fornecedores de dados (políticas, técnicas, regionais) o Termos de uso de mídias sociais (consulte Recursos) Frequência de dados Com que frequência estão disponíveis os dados novos? É sob demanda, contínuo ou offline? Tamanho da busca Ajuda a definir o tamanho dos dados que é possível buscar e consumir por busca. Filtros Filtros padrão removem dados indesejados e ruído e deixam apenas os dados necessários para análise. 1.5 Padrões atômicos e compostos de uma solução de Big Data Os padrões auxiliam a definir os parâmetros, quando da adoção de uma solução de big data. Veremos dois tipos principais: os padrões atômicos descrevem as abordagens típicas para o consumo, processamento, acesso e armazenamento de big data; os padrões compostos, que são formados por padrões atômicos, são classificados de acordo com o escopo da solução de big data. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 19 de 33 Por apresentarem as ideias mais relevantes acerca do Big Data, exploraremos os padrões atômicos. PADRÕES ATÔMICOS Os padrões atômicos ajudam a identificar a forma que os dados são consumidos, processados, armazenados e acessados por problemas de big data. Eles também podem ajudar a identificar os componentes necessários. Cada padrão lida com requisitos específicos — visualização, análise de dados históricos, dados de mídia social e armazenamento de dados não estruturados, por exemplo. Os padrões atômicos podem trabalhar em conjunto para criar um padrão composto. Não há camadas ou sequência para esses padrões atômicos. Por exemplo, os padrões de visualização podem interagir com os padrões de acesso a dados para mídia social diretamente e os padrões de visualização podem interagir com o padrão de processamento de análise avançada. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 20 de 33 Padrões atômicos de Big Data. Fonte: http://www.ibm.com/developerworks/br/library/bd- archpatterns4/ Vejamos um pouco de cada padrão atômico: PADRÕES DE CONSUMO Lidam com as várias formas em que o resultado da análise de dados é consumido. Inclui padrões de consumo de dados para atender a diversos requisitos. Vejamos os principais padrões de consumo a seguir: 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 21 de 33 Visualização A forma tradicional de visualizar dados se baseia em gráficos, painéis e relatórios de resumo. Essas abordagens tradicionais não são sempre a melhor maneira de visualizar os dados. Os requisitos típicos para visualização de big data, incluindo os requisitos emergentes, são listados abaixo: Realizar análise em tempo real e exibição de dados de fluxo Extrair dados de forma interativa, com base no contexto Executar procuras avançadas e obter recomendações Visualizar informações paralelamente Ter acesso a hardware avançado para necessidades de visualização futuristas A pesquisa para determinar como os insights de big data podem ser consumidos por humanos e máquinas está em andamento. Os desafios incluem o volume de dados envolvido e a necessidade de associar contexto a eles. O insight dever apresentado no contexto adequado. Descoberta ad hoc Criar de relatórios padrão que sejam adequados para todas as necessidades de negócios, via de regra, não é viável, pois as empresas têm requisitos de consultas de dados de negócios diversas. Os usuários precisam da capacidade de enviar consultas ad hoc, ou seja, consultas criadas “na hora”, ao procurar por informações especificas, dependendo do problema. Aumentar os armazenamentos de dados tradicionais Aumentar os armazenamentos de dados existentes ajuda a ampliar o escopo de dados disponível para a analítica atual para incluir dados que residem dentro e fora dos limites organizacionais, como dados de mídia social, que podem melhorar os dados principais. Ao ampliar o escopo para incluir novas tabelas de fatos, dimensões e dados principais nos armazenamentos existentes e adquirir dados de clientes a partir de mídia social, uma organização pode obter um insight mais profundo do cliente. Notificação 06549400880 06549400880- Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 22 de 33 Os insights de big data permitem que as pessoas, negócios e máquinas ajam instantaneamente usando notificações para indicar eventos. A plataforma de notificação deve ser capaz de lidar com o volume antecipado de notificações a serem enviadas de maneira oportuna. Essas notificações são diferentes das malas diretas ou do envio em massa de mensagens SMS, pois o conteúdo geralmente é específico para o consumidor. Por exemplo, os mecanismos de recomendação podem fornecer insights sobre a enorme base de clientes em todo o mundo, e as notificações podem ser envidas para tais clientes. Iniciar uma resposta automatizada Os insights de negócios derivados do big data podem ser usados para acionar ou iniciar outros processos de negócios ou transações. PADRÕES DE PROCESSAMENTO O big data pode ser processado quando os dados estão em repouso ou em movimento. Dependendo da complexidade da análise, os dados podem não ser processados em tempo real. Esse padrão lida com como o big data é processado em tempo real, quase em tempo real ou em lote (rotinas batch, processadas em horários pré-determinados). Vejamos um pouco mais sobre esses padrões a seguir: Análise de dados históricos A análise de dados históricos tradicional é limitada a um período predefinido de dados, que normalmente depende das políticas de retenção de dados. Após desse período, geralmente os dados são arquivados ou limpos em virtude de limitações de armazenamento e processamento. A análise histórica envolve analisar as tendências históricas para um determinado período, conjunto de períodos e produtos e compará-las aos dados atuais disponíveis. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 23 de 33 Analítica Avançada O big data fornece enormes oportunidades de obter insights criativos. É possível correlacionar diferentes conjuntos de dados em muitos contextos. A descoberta desses relacionamentos requer técnicas e algoritmos complexos inovadores. A análise avançada inclui previsões, decisões, processos inferenciais, simulações, identificações de informações contextuais e resoluções da entidade. Os aplicativos de analítica avançada incluem análise de dados biométricos, por exemplo, análise de DNA, análise espacial, analítica baseada em localização, análise científica, pesquisa e muitas outras. A analítica avançada requer a computação exigente para gerenciar a enorme quantidade de dados. Pré-processar dados brutos A extração de dados a partir de dados não estruturados, como imagens, áudio, vídeo, feeds binários ou até mesmo texto, é uma tarefa complexa e precisa de técnicas como aprendizado de máquina e processamento de idioma natural, etc. O outro grande desafio é como verificar a precisão e a exatidão do resultado de tais técnicas e algoritmos. Para executar a análise em quaisquer dados, eles devem estar em algum tipo de formato estruturado. Os dados não estruturados acessados de várias fontes podem ser armazenados como estão e, em seguida, transformados em dados estruturados e novamente armazenados nos sistemas de armazenamento de big data. O texto não estruturado pode ser convertido em dados estruturados ou semiestruturados. Da mesma forma, os dados de imagem, áudio e vídeo precisam ser convertidos nos formatos que podem ser usados para análise. Além disso, a precisão e exatidão da analítica avançada que usa algoritmos preditivos e estatísticos dependem da quantidade de dados e algoritmos usados para treinar os modelos. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 24 de 33 3) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014) Em soluções Big Data, a análise dos dados comumente precisa ser precedida de uma transformação de dados não estruturados em dados estruturados. Correto. Para que um dado possa ser analisado, é preciso que ele esteja em algum tipo de formato estruturado, envolvendo metadados, relacionado a algum outro dado ou informação. Análise ad hoc O processamento de consultas ad hoc no big data traz desafios diferentes daqueles incorridos ao realizar consultas ad hoc em dados estruturados pelo fato de as fontes e formatos dos dados não serem fixos e exigirem mecanismos diferentes para recuperá-los e processá-los. Embora as consultas ad hoc simples possam ser resolvidas pelos provedores de big data, na maioria dos casos, elas são complexas porque os dados, algoritmos, formatos e resoluções da entidade devem ser descobertos dinamicamente. O conhecimento dos cientistas de dados e dos usuários corporativos é necessário para definir a análise exigida para as seguintes tarefas: Identificar e descobrir os cálculos e algoritmos Identificar e descobrir as fontes de dados Definir os formatos necessários que podem ser consumidos pelos cálculos Executar os cálculos nos dados paralelamente 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 25 de 33 4) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014) O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de dados tradicionais. Errado! O processamento de consultas ad hoc no big data traz desafios diferentes daqueles incorridos ao realizar consultas ad hoc em dados estruturados pelo fato de as fontes e formatos dos dados não serem fixos e exigirem mecanismos diferentes para recuperá-los e processá-los. Em Big Data, tais consultas serão bem mais complexas e dinâmicas. PADRÕES DE ACESSO Existem muitas fontes de dados e formas em que os dados podem ser acessados em uma solução de big data, Vejamos as mais comuns: Web e mídias sociais A Internet é a fonte de dados que fornece muitos dos insights produzidos atualmente. A web e a mídia social são úteis em praticamente todas as análises, mas são necessários mecanismos de acesso diferentes para obter esses dados. A web e a mídia social são a fonte de dados mais complexa de todas em virtude de sua enorme variedade, velocidade e volume. Há aproximadamente de 40 a 50 categorias de websites e cada uma exigirá um tratamento diferente para acessar esses dados. (gerados por) Dispositivos O conteúdo gerado por dispositivos inclui dados de sensores. Os dados são detectados a partir das origens de dados, como informações 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 26 de 33 sobre o clima, medições elétricas e dados sobre poluição, e capturados pelos sensores. Os dados podem ser fotos, vídeos, texto e outros formatos binários. Dados transacionais, operacionais e de Warehouse É possível armazenar os dados de warehouse, operacionais e transacionais existentes para evitar a limpeza ou o arquivamento deles (em virtude de limitaçõesde armazenamento e processamento) ou para reduzir a carga no armazenamento tradicional quando os dados são acessados por outros consumidores. Os dados transacionais e de warehouse podem ser inseridos no armazenamento usando conectores padrão disponibilizados por diversos fornecedores de banco de dados. O pré-processamento de dados transacionais é muito mais fácil, pois a maior parte deles é estruturada. Os processos de extração, transformação e carregamento simples podem ser usados para mover os dados transacionais para o armazenamento. PADRÕES DE ARMAZENAMENTO Os padrões de armazenamento auxiliam a determinar o armazenamento adequado para diversos formatos e tipos de dados. Os dados podem ser armazenados como estão, com relação a pares de valores de chave ou em formatos predefinidos. Vejamos os principais padrões: Dados não estruturados e distribuídos A maior parte do big data não é estruturada, já sabemos, e pode conter informações que podem ser extraídas de diferentes formas para diferentes contextos. Na maioria das vezes, os dados não estruturados devem ser armazenados como estão, em seu formato original. Tais dados podem ser armazenados em sistemas de arquivos distribuídos, como HDFS (Hadoop Distributed File System), e em armazenamento de documentos NoSQL (Not Only SQL), como o MongoDB. Esses sistemas fornecem uma maneira eficiente de recuperar dados não estruturados. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 27 de 33 Dados estruturados e distribuídos Os dados estruturados incluem aqueles que chegam da fonte de dados e já estão em um formato estruturado e os dados não estruturados que foram pré-processados. Esses dados convertidos devem ser armazenados para evitar a frequente conversão de dados brutos para dados estruturados. Tecnologias como BigTable do Google são usadas para armazenar dados estruturados. O BigTable é um sistema de autogerenciamento tolerante a falhas de grande escala que inclui terabytes de memória e petabytes de armazenamento. Armazenamento de dados tradicionais O armazenamento de dados tradicional não é a melhor opção para armazenar big data, mas nos casos em que as empresas estão realizando a exploração de dados inicial, elas podem optar por usar o data warehouse, o sistema RDBMS (sistemas relacionais) e outros armazenamentos de conteúdo existentes. Esses sistemas de armazenamento existentes podem ser usados para armazenar os dados que são compilados e filtrados usando a plataforma de big data. Os sistemas de armazenamento de dados tradicionais não são adequados para o big data. Armazenamento na nuvem Muitos provedores de infraestrutura da nuvem possuem recursos de armazenamento estruturado e não estruturado distribuídos. As tecnologias de big data são um pouco diferentes das perspectivas de configurações, manutenção, gerenciamento de sistemas e programação e modelagem tradicionais. Além disso, as qualificações necessárias para implementar as soluções de big data são raras e caras. As empresas explorando as tecnologias de big data podem usar soluções de nuvem que fornecem o gerenciamento de sistemas, manutenção e armazenamento de big data. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 28 de 33 Contudo, não-raro, os dados a serem armazenados são confidenciais, incluindo dados biométricos e registros médicos. A segurança de dados, o compartilhamento de dados, a governança de dados e outras políticas relacionadas aos dados, são aspectos a serem considerados ao ponderar a nuvem como um repositório de armazenamento para big data. A capacidade de transferir enormes quantidades de dados também é outra consideração fundamental para o armazenamento em nuvem. 5) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de qualquer lugar. Errado! Naturalmente, por envolver transferência de volumes muito grandes de dados, o tempo de resposta das aplicações pode ser afetado. Além disso, ao adotar armazenamento em nuvem, espera-se uma diminuição dos custos de armazenamento, que será feito por um terceiro. 6) (CESPE – TRE/GO – Técnico Judiciário – Área Administrativa - 2013) A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia. Correto. O Big Data poder ser utilizado para melhor conhecer o perfil e o comportamento dos alunos, para que cursos à distância sejam mais eficazes. Este tipo de sentença CESPE (Tal coisa PODE ser utilizada...) só estará errado se estiver escrito algo muito absurdo a seguir. De qualquer forma, sugiro a leitura complementar: http://convergenciadigital.uol.com.br/cgi/cgilua.exe/sys/start.htm?infoid =37729#.VaLtKvlVhBc 7) (QUADRIX – CREF/11ª Região – Agente de Orientação e Fiscalização – 2014) Trata-se de uma infinidade de informações não estruturadas que, quando usadas com inteligência, se tornam uma arma poderosa para empresas tomarem decisões cada vez melhores. As soluções tecnológicas que trabalham com esse conceito permitem 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 29 de 33 analisar um enorme volume de dados de forma rápida e ainda oferecem total controle ao gestor das informações. E as fontes de dados são as mais diversas possíveis: de textos e fotos em rede sociais, passando por imagens e vídeos, até jogadas específicas no esporte e até tratamentos na medicina. (http://olhardigital.uol.com.br/pro/video/39376/39376) O conceito definido no texto é: a) Governança de TI b) QoS. c) Big Data d) Data Center. e) ITIL. Preciso explicar? Rs. Alternativa c). 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 30 de 33 CONSIDERAÇÕES FINAIS E este foi o Big Data. Acho uma matéria interessante, e, para nós, com um viés bem mais teórico do que prático. O edital fala em “Noções de Big Data”. Estou confiante de termos ido além do necessário para acertar as eventuais questões de prova sobre o assunto. De qualquer forma, deixo abaixo a bibliografia que inspirou esta aula. Tendo tempo, visitem os links e reforcem seu conhecimento! http://www.ibm.com/developerworks/br/library/bd-bigdatacloud/ http://www.ibm.com/developerworks/br/library/bd-archpatterns1/ http://www.ibm.com/developerworks/br/library/bd-archpatterns2/ http://www.ibm.com/developerworks/br/library/bd-archpatterns3/ http://www.ibm.com/developerworks/br/library/bd-archpatterns4/ http://blog.aiec.br/voce-sabe-o-que-e-big-data/ http://www.infowester.com/big-data.php http://cienciahoje.uol.com.br/revista-ch/2013/306/desafios-do-big- data Até a próxima aula, sobre Dados Abertos e Lei de Acesso à Informação. Victor Dalton 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 31 de 33 LISTA DOS EXERCÍCIOS APRESENTADOS NA AULA 1) (FGV – TJ/SC – Analista de Sistemas – 2015) Os termos Business Intelligence (BI) e Big Data confundem-se em certos aspectos. Uma conhecida abordagem para identificação dos pontos críticos de cada paradigma é conhecida como 3V, e destaca: a) variedade, visualização, volume; b) velocidade, virtualização, volume; c) variedade, velocidade, volume; d) virtualização, visualização, volume; e) variedade, visualização, virtualização. 2) (FGV – AL/BA – Técnico de Nível Superior - Economia – 2014) A expressão Big Data é utilizada para descrever o contexto da informação contemporânea, caracterizada pelo volume, velocidade e variedade de dados disponíveis, em escala inédita. Com relação às características do Big Data, analise as afirmativas a seguir. I. O volume da informação se refere ao fato de que certas coleções de dados atingem a faixa de gigabytes (bilhões de bytes), terabytes (trilhões), petabytes (milhares de trilhões) ou mesmo exabytes (milhões de trilhões). II. A velocidade está relacionada à rapidez com a qual os dados são produzidos e tratados para atender à demanda, o que significa que não é possível armazená-los todos, de modo que somos obrigados a escolher dados para guardar e outros para descartar. III. A variedade significa que os dados de hoje aparecem em todos os tipos de formatos, como, por exemplo, arquivos de texto, email, medidores e sensores de coleta de dados, vídeo, áudio, dados de ações do mercado ou transações financeiras. Assinale: a) se somente a afirmativa I estiver correta. b) se somente a afirmativa II estiver correta. c) se somente a afirmativa III estiver correta. d) se somente as afirmativas I e II estiverem corretas. 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 32 de 33 e) se todas as afirmativas estiverem corretas. 3) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014) Em soluções Big Data, a análise dos dados comumente precisa ser precedida de uma transformação de dados não estruturados em dados estruturados. 4) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014) O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de dados tradicionais. 5) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de qualquer lugar. 6) (CESPE – TRE/GO – Técnico Judiciário – Área Administrativa - 2013) A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia. 7) (QUADRIX – CREF/11ª Região – Agente de Orientação e Fiscalização – 2014) Trata-se de uma infinidade de informações não estruturadas que, quando usadas com inteligência, se tornam uma arma poderosa para empresas tomarem decisões cada vez melhores. As soluções tecnológicas que trabalham com esse conceito permitem analisar um enorme volume de dados de forma rápida e ainda oferecem total controle ao gestor das informações. E as fontes de dados são as mais diversas possíveis: de textos e fotos em rede sociais, passando por imagens e vídeos, até jogadas específicas no esporte e até tratamentos na medicina. (http://olhardigital.uol.com.br/pro/video/39376/39376) 06549400880 06549400880 - Mauro de Almeida Loureiro Análise de Informações para TCU 2015 Auditor Federal de Controle Externo Prof Victor Dalton ʹ Aula 03 Prof. Victor Dalton www.estrategiaconcursos.com.br 33 de 33 O conceito definido no texto é: a) Governança de TI b) QoS. c) Big Data d) Data Center. e) ITIL. GABARITO 1.c 2.e 3.c 4.e 5.e 6.c 7.c 06549400880 06549400880 - Mauro de Almeida Loureiro
Compartilhar