Prévia do material em texto
Princípios de Big Data Desde a popularização da Internet nos anos 1990, passamos a usar diversos serviços que coletam e analisam nossos dados para prever comportamentos e personalizar experiências. A cada busca, compra online ou vídeo assistido, fornecemos dados — muitas vezes sem perceber. Esse grande volume e variedade de dados impulsionou o surgimento do Big Data, que envolve técnicas de armazenamento, gerenciamento e análise especializadas. Para extrair conhecimento dos dados, é preciso tratá-los por meio de um ciclo de vida bem estruturado. Com isso, áreas como Ciência de Dados e Machine Learning cresceram bastante. Big Data vai além do volume: também envolve velocidade de processamento, variedade de dados (muitas vezes não estruturados) e ferramentas apropriadas. O principal objetivo é gerar valor — como entender o comportamento de usuários, segmentar mercados e criar estratégias mais eficientes. Empresas e governos têm investido em soluções de Big Data, mas o uso desses dados também levanta questões éticas e legais, principalmente relacionadas à privacidade. No Brasil, a Lei Geral de Proteção de Dados (LGPD) foi criada para proteger os cidadãos, mas ainda há muitos desafios e oportunidades nesse campo. Conceitos sobre Big Data – Resumo O que é Big Data? ● Vai além de apenas "grandes volumes de dados". Refere-se a conjuntos de dados tão complexos e volumosos que os métodos tradicionais não conseguem processar de forma eficiente. É uma fronteira para inovação, competição e produtividade. Arquitetura de Big Data Para lidar com a complexidade do Big Data, sua arquitetura inclui: 1. Aquisição de dados ○ Coleta de dados em tempo real (ex: IoT, nuvem, sensores). 2. Armazenamento eficiente ○ Pode ser na nuvem ou em bancos estruturados / não estruturados. ○ Requisitos: escalabilidade, disponibilidade, segurança e padronização. 3. Processamento em lote ○ Processa grandes volumes de dados armazenados. 4. Processamento em fluxo (streaming) ○ Processa dados em tempo real (ex: cliques, sensores, transações). 5. Business Intelligence (BI) ○ Dados armazenados para análise de mercado, clientes e negócios. 6. Relatórios e análises ○ Tipos: ■ Predefinidos (fixos, com granularidade) ■ Dashboards (com KPIs – indicadores de desempenho) ■ Alertas (notificações automáticas com base em condições) KPI – Indicadores de Desempenho ● Usados para medir resultados e tomar decisões. ● Exemplo: faturamento bruto da empresa em um mês. Os 5 Vs do Big Data 1. Volume ○ Refere-se à quantidade de dados gerados. ○ Unidades: Byte, KB, MB, GB, TB, PB, EB, ZB, YB. ○ Big Data costuma lidar com Petabytes (PB) ou mais. 2. Velocidade ○ Dupla dimensão: ■ Geração de dados (ex: sensores, redes sociais). ■ Processamento dos dados (tempo de resposta). ○ Importante equilibrar produção e consumo de dados. 3. Variedade ○ Refere-se aos tipos de dados: ■ Estruturados: organizados (ex: bancos relacionais, SQL). ■ Não estruturados: sem padrão (ex: vídeos, imagens, áudios). ■ Semiestruturados: têm alguma organização (ex: JSON, XML). 4. Veracidade ○ Qualidade e confiabilidade dos dados. ○ Envolve técnicas de limpeza e validação dos dados. 5. Valor ○ O objetivo principal: extrair valor útil para decisões e estratégias. ○ Exige tratamento, modelagem e análise com Data Science e Machine Learning. Aplicações de Big Data – Resumo O Big Data é amplamente utilizado para apoiar a tomada de decisão e gerar conhecimento em diversos setores da sociedade. Veja os principais exemplos: 1. Área da Saúde ● Permite identificar melhores tratamentos para doenças. ● Ajuda a monitorar regiões e propor ações com impacto positivo na saúde da população. 2. Governo ● Integra dados de várias áreas para: ○ Melhorar serviços públicos ○ Detectar fraudes ○ Aprimorar segurança, educação, transporte e saúde pública 3. Mídia e Entretenimento ● Personaliza anúncios e recomendações (ex: YouTube, Netflix). ● Analisa o comportamento dos usuários para oferecer produtos e conteúdos mais relevantes. 4. Internet das Coisas (IoT) ● Dispositivos conectados (sensores, câmeras, relógios inteligentes etc.) geram dados em tempo real. ● Esses dados são analisados para: ○ Identificar padrões ○ Melhorar processos operacionais ○ Tomar decisões automáticas e mais eficientes Conceitos de IoT e Computação Distribuída – Resumo 1. Introdução e Contexto ● Sensores e dispositivos eletrônicos modernos geram grandes quantidades de dados. ● São usados em diversas aplicações como: ○ Monitoramento de temperatura ○ Rastreamento de cargas ○ Medição da poluição ○ Avaliação da saúde de pacientes Para isso tudo funcionar, é preciso uma infraestrutura de coleta e comunicação de dados entre dispositivos — e é aí que entra a IoT. 2. O que é IoT (Internet das Coisas)? ● É a infraestrutura que conecta dispositivos físicos à Internet, permitindo que eles coletem, troquem e processem dados automaticamente. ● Esses dispositivos (as “coisas”) podem ser sensores, máquinas, eletrodomésticos, veículos etc. ● IoT permite: ○ Acompanhamento remoto de situações físicas ○ Decisões em tempo real ○ Automação e otimização de processos 3. Relação com o Big Data A IoT está diretamente conectada com o Big Data, pois: ● Gera dados de fontes diferentes, o que ajuda a verificar a veracidade das informações. ● Produz dados em diversos formatos (áudio, temperatura, pressão, movimento etc.). ● Os dados têm frequência variada de geração, o que afeta: ○ Tempo de consumo e resposta ○ Volume de armazenamento ○ Valor que se pode extrair dos dados 4. Reflexões Importantes ● Os dados de IoT podem melhorar áreas como saúde, educação, trabalho e entretenimento. ● Mas também levantam questões éticas e legais, especialmente sobre privacidade. ● É fundamental garantir segurança, uso responsável e consentimento no uso dos dados. 5. Computação Distribuída na IoT ● Aplicações IoT são naturalmente distribuídas: ○ Dispositivos espalhados enviando e recebendo dados. ○ Uso de protocolos de rede para comunicação. ● Os dispositivos IoT geralmente: ○ Têm pouca memória e processamento ○ Executam tarefas específicas ○ Precisam de algoritmos distribuídos eficientes para funcionarem bem. 1. Componentes da IoT A Internet das Coisas (IoT) funciona por meio da interação colaborativa de quatro elementos principais: 1. Objetos físicos (coisas) ○ Equipamentos com sensores e atuadores (ex: termostatos, sensores de umidade). 2. Computação ○ Gerencia o ciclo de vida dos dados: coleta, armazenamento e processamento. 3. Protocolos de comunicação ○ Permitem que os dispositivos se comuniquem pela Internet. 4. Serviços ○ Responsáveis por autenticação, gerenciamento e infraestrutura da rede de dispositivos. 2. Por que usar Computação Distribuída na IoT? ● A IoT é descentralizada por natureza: os dispositivos estão espalhados geograficamente. ● A computação distribuída permite que esses dispositivos trabalhem em conjunto como um único sistema coordenado, o que: ○ Divide responsabilidades e riscos ○ Melhora eficiência e desempenho 3. Princípios da Computação Distribuída 1. Distribuição e Processamento ○ O processamento e o armazenamento são divididos entre os nós da rede. 2. Transferência e Análise Inteligente de Dados ○ Cada nó pode realizar pré-processamentos, reduzindo o custo computacional geral. 3. Tolerância a Falhas ○ A rede consegue reorganizar o fluxo de dados automaticamente em caso de falhas. 4. Otimização de Recursos ○ Dispositivos com baixa memória e energia são utilizados com eficiência, executando tarefas específicas. 4. Integração com Big Data ● Em projetos de Big Data, é preciso: ○ Coletar ○ Armazenar ○ Processar ○ Analisar grandes volumes de dados ● IoT + Big Data aumenta a complexidade, pois há muitos dispositivos gerando dados. ● Solução ideal: Computação distribuída, que espalha oprocessamento entre os nós da rede. 5. Arquitetura em Camadas – Computação Distribuída para IoT Camada de Nuvem (Cloud) ● Uso remoto de recursos (armazenamento, processamento, lógica de negócios) ● Responsável por: ○ Processamento de Big Data ○ Data warehousing ○ Execução da lógica dos sistemas Camada de Névoa (Fog) ● Fica entre a nuvem e os dispositivos. ● Realiza análise de dados localmente (reduz a carga da nuvem). ● Responsável por: ○ Processamento intermediário ○ Redução e controle de dados ○ Padronização e virtualização Camada de Borda (Edge) ● Onde estão os sensores e controladores. ● Processamento em tempo real, perto da fonte dos dados. ● Características: ○ Gateways que traduzem sinais/protocolos ○ Sistemas de bordo (embarcados nas placas) ○ Computadores industriais ○ Armazenamento local de microdados Dispositivos IoT ● Geram dados e executam ações (ex: sensor de solo + atuador de irrigação). ● Trabalham conectados à borda, névoa e nuvem. 6. Velocidade do Fluxo de Dados ● Quanto mais próximo dos sensores, maior a velocidade dos dados. ● À medida que os dados sobem na arquitetura (até a nuvem), o fluxo diminui e o processamento fica mais pesado. Protocolos de Comunicação em IoT Protocolo Nome Completo Modelo de Comunicação Transporte Principais Características HTTP Hyper Text Transfer Protocol Solicitação ↔ Resposta (Client-Server) TCP Mais usado na Web, simples e amplamente compatível, mas não otimizado para dispositivos com recursos limitados. MQTT Message Queuing Telemetry Transport Publicação ↔ Assinatura (Publish/Subscrib e) TCP Ideal para IoT; leve, eficiente, confiável; usa um broker como intermediário. CoAP Constrained Application Protocol Solicitação ↔ Resposta (REST) UDP Leve, voltado para dispositivos com recursos restritos; arquitetura RESTful. XMPP-IoT Extensible Messaging and Presence Protocol for IoT Publicação ↔ Assinatura + Mensagens Instantâneas TCP Baseado em XML, extensível, suporta presença e mensagens instantâneas. Plataformas para IoT Plataforma Tipo Base Tecnológica Destaques Aplicações Comuns Arduino Microcontrolador (open-source) Atmel AVR (como o ATmega328) Ecossistema completo (IDE, placas, bibliotecas); Muito usado em projetos educacionais e protótipos. Automação, robótica, sensores, wearables NodeMCU Microcontrolador com Wi-Fi ESP8266 Ideal para IoT por já vir com Wi-Fi embutido; compatível com Lua e Arduino IDE. Monitoramento remoto, controle via web Raspberry Pi Computador de placa única (SBC) ARM + Linux (Raspbian) Mais poderoso que Arduino; suporta linguagens como Python, Java, C++; tem GPIO para controle físico. Gateways IoT, servidores locais, media centers, visão computacional Conceitos de Computação em Nuvem ● Cloud Computing = serviços de computação sob demanda via Internet. ● Reduz custos com infraestrutura e aumenta a confiabilidade dos sistemas. ● Permite que dispositivos, aplicativos e serviços se comuniquem facilmente na Internet. Modelos de Serviço na Nuvem 1. SaaS (Software as a Service) ○ Uso de softwares prontos via internet. ○ Ex: Google Docs, Office 365. 2. PaaS (Platform as a Service) ○ Plataforma para desenvolver e hospedar aplicações. ○ Ex: Heroku, Google App Engine. 3. IaaS (Infrastructure as a Service) ○ Infraestrutura virtual (servidores, armazenamento, redes). ○ Ex: AWS EC2, Microsoft Azure. 4. DaaS (Data as a Service) ○ Acesso a dados sob demanda, como serviço. ○ Ex: APIs que fornecem dados climáticos, financeiros, etc. 5. XaaS (Anything as a Service) ○ Termo genérico para qualquer coisa fornecida como serviço na nuvem. Tipos de Nuvem 1. Nuvem Pública ○ Acessível a qualquer usuário ou empresa. ○ Ex: Google Cloud, AWS. 2. Nuvem Privada ○ Usada por uma única organização. Mais controle e segurança. 3. Nuvem Híbrida ○ Mistura da pública com privada. Traz flexibilidade. O que é uma Plataforma de Big Data na Nuvem? É um conjunto de tecnologias de software e hardware, disponíveis na nuvem, que permite: ● Gerenciar projetos de Big Data. Desenvolver, implantar e operar programas. Controlar infraestrutura sem se preocupar com detalhes técnicos, pois isso fica com o provedor do serviço. Vantagens: Redução de custos e complexidade. Foco total nos dados e no negócio. Principais Serviços Oferecidos 1. Gestão de dados ○ Servidores para armazenar e gerenciar grandes volumes de dados. 2. Análise de dados ○ Ferramentas de Business Intelligence para extrair insights. 3. Ferramentas de desenvolvimento ○ Ambientes para criar análises personalizadas e integráveis com outros sistemas. 4. Segurança e controle de acesso ○ Proteção dos dados com níveis de permissão. Perfis Profissionais nas Plataformas ● Engenheiro de Dados: coleta, limpa, estrutura e organiza os dados. ● Cientista de Dados: analisa os dados, descobre padrões e gera insights. 🔍 Dois perfis comuns de cientistas de dados: ● Análise estatística e visualização (exploratória) ● Machine Learning para prever comportamentos e apoiar decisões. 🗂 Conceito Importante: Data Lake ● Repositório centralizado de dados (estruturados e não estruturados). ● Permite armazenar grandes volumes de dados sem necessidade de organizar tudo antes. ● Suporte para análises, dashboards e decisões estratégicas. 🧩 Exemplos de Plataformas de Big Data na Nuvem Todas essas plataformas geralmente oferecem:Infraestrutura escalável, Serviços de data lake, Ferramentas de análise e machine learning Exemplos: Amazon Web Services (AWS), Google Cloud Platform (GCP), Microsoft Azure ,IBM Cloud, Oracle Cloud Streaming de Dados – Conceito ● É a transmissão contínua de dados ordenados no tempo. ● Cada dado representa um evento (mudança de estado). ● Pode ser analisado em tempo real ou posteriormente. ● Exemplos: Sensores de equipamentos, Logs de navegação e transações financeiras, Monitores de saúde, Sistemas de segurança ● Muito usado em IoT, pois há geração constante de grandes volumes de dados. 🔍 Características do Processamento de Fluxos ● Sensibilidade ao tempo – análise precisa no momento certo. ● Continuidade – dados chegam sem interrupção. ● Heterogeneidade – diferentes formatos e fontes. ● Imperfeição – dados podem estar incompletos ou ruidosos. ● Volatilidade – informações perdem valor rapidamente. ⚠ Desafios ● Escalabilidade – lidar com grande volume de dados. ● Ordenação – manter sequência correta. ● Consistência e durabilidade – dados confiáveis. ● Tolerância a falhas – continuar mesmo com problemas. ● Garantia dos dados – evitar perdas. 🗄 Data Warehouse x Streaming ● Data Warehouse: armazena dados de várias fontes, processa em lotes (não é ideal para tempo real). ● Streaming: necessário quando a ação imediata é essencial, como: ○ Serviços essenciais (água, energia, gás) ○ Monitoramento de saúde e segurança ○ Operação de máquinas críticas ○ Eventos de marketing em tempo real 🤖 Big Data + Machine Learning no Streaming ● Aprendizado incremental (algoritmos se ajustam com novos dados): ○ k-vizinhos mais próximos (k-NN) ○ Bayes ingênuo ● Benefícios: ○ Identificar perfis de usuários/clientes ○ Prever demanda e alocar recursos ○ Detectar falhas e anomalias rapidamente Princípios de Big Data Conceitos sobre Big Data – Resumo O que é Big Data? Arquitetura de Big Data KPI – Indicadores de Desempenho Os 5 Vs do Big Data Aplicações de Big Data – Resumo 1. Área da Saúde 2. Governo 3. Mídia e Entretenimento 4. Internet das Coisas (IoT) Conceitos de IoT e Computação Distribuída – Resumo 1. Introdução e Contexto 2. O que é IoT (Internet das Coisas)? 3. Relação com o Big Data 4. Reflexões Importantes 5. Computação Distribuída na IoT 1. Componentes da IoT 2. Por que usar Computação Distribuída na IoT? 3. Princípios da Computação Distribuída4. Integração com Big Data 5. Arquitetura em Camadas – Computação Distribuída para IoT Camada de Nuvem (Cloud) Camada de Névoa (Fog) Camada de Borda (Edge) Dispositivos IoT 6. Velocidade do Fluxo de Dados Protocolos de Comunicação em IoT Plataformas para IoT Conceitos de Computação em Nuvem Modelos de Serviço na Nuvem Tipos de Nuvem O que é uma Plataforma de Big Data na Nuvem? Principais Serviços Oferecidos Perfis Profissionais nas Plataformas 🗂️ Conceito Importante: Data Lake 🧩 Exemplos de Plataformas de Big Data na Nuvem Streaming de Dados – Conceito 🔍 Características do Processamento de Fluxos ⚠️ Desafios 🗄️ Data Warehouse x Streaming 🤖 Big Data + Machine Learning no Streaming