Buscar

SEÇÃO I

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

SEÇÃO I.
Introdução
O desenvolvimento de big data e da Internet das coisas (IoT) está rapidamente acelerando e afetando todas as áreas de tecnologias e negócios, aumentando os benefícios para organizações e indivíduos. O crescimento dos dados produzidos via IoT desempenhou um papel importante no cenário de big data. Big data pode ser categorizado de acordo com três aspectos: (a) volume, (b) variedade e (c) velocidade   [1] Essas categorias foram introduzidas pela primeira vez pela Google para descrever os elementos dos desafios do big data   [2] Oportunidades imensas são apresentadas pela capacidade de analisar e utilizar grandes quantidades de dados da IoT, incluindo aplicativos em cidades inteligentes, sistemas inteligentes de transporte e de rede, medidores inteligentes de energia e dispositivos remotos de monitoramento da saúde do paciente.
A ampla popularidade da IoT tornou a análise de big data um desafio devido ao processamento e coleta de dados por meio de diferentes sensores no ambiente de IoT. O relatório da International Data Corporation (IDC) indica que o mercado de big data alcançará mais de US $ 125 bilhões até 2019   [3] A analítica de big data da IoT pode ser definida como as etapas nas quais uma variedade de dados da IoT é examinada   [ 4 ]   para revelar tendências, padrões invisíveis, correlações ocultas e novas informações   [5] Empresas e indivíduos podem se beneficiar da análise de grandes quantidades de dados e do gerenciamento de grandes quantidades de informações que podem afetar as empresas.   [6] Portanto, a analítica de big data da Internet das coisas tem como objetivo ajudar associações empresariais e outras organizações a obter um melhor entendimento dos dados e, assim, tomar decisões eficientes e bem informadas. A análise de big data permite que mineradores de dados e cientistas analisem grandes quantidades de dados não estruturados que podem ser aproveitados usando ferramentas tradicionais   [5] Além disso , a análise de big data tem como objetivo extrair informações precoces imediatamente usando técnicas de mineração de dados que ajudam a fazer previsões, identificar tendências recentes, encontrar informações ocultas e tomar decisões.   [7]
As técnicas de mineração de dados são amplamente implantadas para métodos específicos de problemas e análises de dados generalizadas. Assim, métodos estatísticos e de aprendizado de máquina são utilizados . Os dados da IoT são diferentes dos grandes dados coletados pelos sistemas em termos de características, devido aos vários sensores e objetos envolvidos durante a coleta de dados, que incluem heterogeneidade, ruído, variedade e crescimento rápido. Estatisticas   [8]   mostram que o número de sensores será aumentado em 1 trilhão em 2030. Esse aumento afetará o crescimento de big data. A introdução da analítica de dados e da IoT em big data requer recursos enormes e a IoT tem a capacidade de oferecer uma solução excelente. Os recursos apropriados e os aplicativos intensivos das plataformas são fornecidos pelos serviços IoT para uma comunicação eficaz entre vários aplicativos implantados. Esse processo é adequado para atender aos requisitos de aplicativos IoT e pode reduzir alguns desafios no futuro da análise de big data. Essa fusão tecnológica aumenta a possibilidade de implementar a IoT em uma direção melhor. Além disso, a implementação de IoT e de grandes soluções de integração de dados pode ajudar a resolver problemas de armazenamento, processamento, análise de dados e ferramentas de visualização. Também pode ajudar a melhorar a colaboração e a comunicação entre vários objetos em uma cidade inteligente   [9] As áreas de aplicação, como ambientes ecológicos inteligentes, tráfego inteligente, redes inteligentes, edifícios inteligentes e gerenciamento inteligente de logística, podem se beneficiar do acordo mencionado anteriormente. Muitos estudos sobre big data se concentraram no gerenciamento de big data; em particular, a análise de big data foi pesquisada   [10]   [11]. No entanto, esta pesquisa enfocou o big data da IoT no contexto da análise de uma enorme quantidade de dados. As contribuições desta pesquisa são as seguintes.
Esforços de pesquisa de última geração realizados em termos de análise de big data são investigados .
Uma arquitetura para análise de dados big IoT é proposta.
Diversas oportunidades sem precedentes trazidas pela análise de dados no domínio IoT são introduzidas .
Casos de uso credíveis são apresentados .
Os desafios de pesquisa que ainda precisam ser abordados são identificados e discutidos.
Essas contribuições são apresentadas   Seções 3   para   6. A conclusão é fornecida em   Seção 7
SEÇÃO II
Visão geral da IoT e Big Data
Uma visão geral das tecnologias IoT e big data é fornecida antes da discussão.
A. IoT
A IoT oferece uma plataforma para sensores e dispositivos se comunicarem perfeitamente em um ambiente inteligente e permite o compartilhamento de informações entre plataformas de maneira conveniente. A recente adaptação de diferentes tecnologias sem fio coloca a IoT como a próxima tecnologia revolucionária, aproveitando todas as oportunidades oferecidas pela tecnologia da Internet. A IoT testemunhou sua recente adoção em cidades inteligentes com interesse em desenvolver sistemas inteligentes, como escritório inteligente, varejo inteligente, agricultura inteligente, água inteligente, transporte inteligente, saúde inteligente e energia inteligente.   [12]   [13]
A IoT surgiu como uma nova tendência nos últimos anos, onde dispositivos móveis, instalações de transporte, instalações públicas e eletrodomésticos podem ser usados como equipamentos de aquisição de dados na IoT. Todos os equipamentos eletrônicos ao redor para facilitar as operações da vida diária, como relógios de pulso, máquinas de venda automática, alarmes de emergência e portas de garagem, bem como eletrodomésticos, como refrigeradores, fornos de microondas, condicionadores de ar e aquecedores de água estão conectados a uma rede IoT. pode ser controlado remotamente. Ciufo  [14]   afirmou que esses dispositivos “falam” uns com os outros e com dispositivos de controle central. Esses dispositivos implantados em diferentes áreas podem coletar vários tipos de dados, como dados geográficos, astronômicos, ambientais e logísticos.
Um grande número de dispositivos de comunicação no paradigma da IoT está embutido em dispositivos sensores no mundo real. Os dispositivos de coleta de dados detectam dados e transmitem esses dados usando dispositivos de comunicação incorporados. O contínuo de dispositivos e objetos é interconectado por meio de várias soluções de comunicação, como Bluetooth, WiFi, ZigBee e GSM. Esses dispositivos de comunicação transmitem dados e recebem comandos de dispositivos controlados remotamente, que permitem a integração direta com o mundo físico por meio de sistemas baseados em computador para melhorar os padrões de vida.
Espera-se que mais de 50 bilhões de dispositivos, desde smartphones, laptops, sensores e consoles de videogame, sejam conectados à Internet por meio de diversas redes de acesso heterogêneo, possibilitadas por tecnologias como identificação por radiofrequência (RFID) e redes de sensores sem fio. Referência   [15]   mencionou que a IoT poderia ser reconhecida em três paradigmas: orientada para a Internet, sensores e conhecimento   [16] A recente adaptação de diferentes tecnologias sem fio coloca a IoT como a próxima tecnologia revolucionária, aproveitando todas as oportunidades oferecidas pela tecnologia da Internet.
B. Big Data
O volume de dados gerados por sensores, dispositivos, mídias sociais, aplicativos de assistência médica, sensores de temperatura e vários outros aplicativos de software e dispositivos digitais que geram continuamente grandes quantidades de dados estruturados, não estruturados ou semiestruturados está aumentando fortemente. Esta geração maciça de dados resulta em "big data"   [17] Os sistemas de banco de dados tradicionais são ineficientes ao armazenar, processar e analisaruma quantidade crescente de dados ou dados em grande escala   [18] O termo “big data” tem sido usado na literatura anterior, mas é relativamente novo em negócios e TI   [19] Um exemplo de estudos relacionados a big data é a próxima fronteira para inovação, competição e produtividade; Instituto Global McKinsey  [20]   definiu big data como o tamanho dos conjuntos de dados que são uma ferramenta de sistema de banco de dados melhor do que as ferramentas usuais para capturar, armazenar, processar e analisar esses dados   [18] Estudo “O Universo Digital”   [21]   rotula as tecnologias de big data como uma nova geração de tecnologias e arquiteturas que visam extrair o valor de um volume massivo de dados com vários formatos, permitindo a captura, a descoberta e a análise de alta velocidade. Este estudo anterior também caracteriza o big data em três aspectos: (a) fontes de dados, (b) análise de dados e (c) a apresentação dos resultados da análise. Esta definição usa o modelo 3V's (volume, variedade, velocidade) proposto por Beyer   [2] O modelo destaca uma tendência de comércio eletrônico no gerenciamento de dados que enfrenta desafios para gerenciar volume ou tamanho de dados, variedade ou diferentes fontes de dados e velocidade ou velocidade de criação de dados. Alguns estudos declaram o volume como uma característica principal do big data sem fornecer uma definição pura   [22] No entanto, outros pesquisadores introduziram características adicionais para big data, como veracidade, valor, variabilidade e complexidade.   [23]   [24] O modelo do 3V, ou suas derivações, são as descrições mais comuns do termo “big data”.
SEÇÃO III
Big Data Analytics
A análise de big data envolve os processos de pesquisa de banco de dados, mineração e análise de dados dedicados a melhorar o desempenho da empresa   [25]
A análise de big data é o processo de examinar grandes conjuntos de dados que contêm uma variedade de tipos de dados   [4]   para revelar padrões invisíveis, correlações ocultas, tendências de mercado, preferências do cliente e outras informações comerciais úteis   [5] A capacidade de analisar grandes quantidades de dados pode ajudar uma organização a lidar com informações consideráveis ​​que podem afetar os negócios   [6] Portanto, o principal objetivo da análise de big data é ajudar as associações empresariais a melhorar o entendimento dos dados e, assim, tomar decisões eficientes e bem informadas. A análise de big data permite que mineradores de dados e cientistas analisem um grande volume de dados que podem não ser aproveitados usando ferramentas tradicionais   [5]
A análise de big data exige tecnologias e ferramentas que possam transformar uma grande quantidade de dados estruturados, não estruturados e semiestruturados em um formato de dados e metadados mais compreensível para processos analíticos. Os algoritmos usados ​​nessas ferramentas analíticas devem descobrir padrões, tendências e correlações em uma variedade de horizontes de tempo nos dados.  [26] Depois de analisar os dados, essas ferramentas visualizam as descobertas em tabelas, gráficos e diagramas espaciais para uma tomada de decisão eficiente . Assim, a análise de big data é um desafio sério para muitas aplicações, devido à complexidade dos dados e à escalabilidade dos algoritmos subjacentes que suportam tais processos.   [27]
Talia (2013) destacou que a obtenção de informações úteis da análise de big data é um assunto crítico que requer algoritmos analíticos e técnicas escalonáveis ​​para retornar resultados bem cronometrados, enquanto as técnicas e algoritmos atuais são ineficientes para lidar com a análise de big data. Portanto, grande infraestrutura e aplicativos adicionais são necessários para suportar o paralelismo de dados. Além disso, as fontes de dados, como o fluxo de dados de alta velocidade recebido de diferentes fontes de dados, têm formatos diferentes, o que torna a integração de várias fontes para soluções analíticas críticas   [28] Assim, o desafio é focado no desempenho dos algoritmos atuais utilizados na análise de big data, que não está subindo linearmente com o rápido aumento dos recursos computacionais.   [19]
Os processos de análise de big data consomem um tempo considerável para fornecer feedback e orientações aos usuários, enquanto apenas algumas ferramentas   [29]   pode processar grandes conjuntos de dados dentro de uma quantidade razoável de tempo de processamento. Por outro lado, a maioria das ferramentas restantes usa o complicado método de tentativa e erro para lidar com grandes quantidades de conjuntos de dados e heterogeneidade de dados.   [30]. Sistemas de análise de big data existem. Por exemplo, o Ambiente Exploratório de Análise de Dados   [31]   é um sistema analítico visual de big data que é usado para analisar simulações complexas do sistema terrestre com um grande número de conjuntos de dados.
A. Sistemas de análise existentes
Diferentes tipos analíticos são usados ​​de acordo com os requisitos dos aplicativos IoT   [32]. Esses tipos analíticos são discutidos nesta subseção em nível de inteligência de negócios, em tempo real, off-line, nível de inteligência de negócios (BI) e categorias de análise de nível maciço. Além disso, uma comparação baseada na análise tipos e seus níveis é apresentado na   Tabela 1.
TABELA 1   Comparação de diferentes tipos de análise e seus níveis
Análise em tempo real   é tipicamente realizado em dados coletados de sensores. Nessa situação, os dados mudam constantemente e são necessárias técnicas rápidas de análise de dados para obter um resultado analítico em um curto período. Conseqüentemente, duas arquiteturas existentes foram propostas para análise em tempo real: clusters de processamento paralelo usando bancos de dados relacionais tradicionais e plataformas de computação baseadas em memória   [33]. Ameixa verde   [34]   e Hana   [35]   são exemplos de arquitetura analítica em tempo real.
Análise off-line   é usado quando uma resposta rápida não é necessária   [32]. Por exemplo, muitas empresas da Internet usam a arquitetura de análise off-line baseada no Hadoop para reduzir o custo da conversão de formato de dados   [36] Tais análises melhoram a eficiência de aquisição de dados. ESCRIBA   [37], Kafka   [38], Túnel do Tempo   [39] e Chukwa   [40]   são exemplos de arquiteturas que realizam análises off-line e podem satisfazer as demandas de aquisição de dados.
Análise no nível da memória   é aplicado quando o tamanho dos dados é menor que a memória de um cluster   [32]. Até hoje, a memória de clusters atingiu o nível de terabyte (TB)   [41] Portanto, várias tecnologias internas de banco de dados são necessárias para melhorar a eficiência analítica. A análise no nível da memória é adequada para realizar análises em tempo real. MongoDB   [42]   é um exemplo dessa arquitetura.
Análise de BI   é adotado quando o tamanho dos dados é maior que o nível de memória, mas, nesse caso, os dados podem ser importados para o ambiente de análise de BI   [43]. A análise de BI atualmente suporta dados no nível de TB   [32]. Além disso, o BI pode ajudar a descobrir oportunidades estratégicas de negócios a partir do fluxo de dados. Além disso, a análise de BI permite a fácil interpretação de volumes de dados. Identificar novas oportunidades e implementar uma estratégia eficaz oferece vantagem competitiva de mercado e estabilidade a longo prazo.
Análise massiva   é aplicado quando o tamanho dos dados é maior do que a capacidade total do produto de análise de BI e bancos de dados tradicionais   [44] A análise maciça usa o sistema de arquivos distribuídos do Hadoop para armazenamento de dados e mapeamento / redução para análise de dados. A análise maciça ajuda a criar a base comercial e aumenta a competitividade do mercado, extraindo valores significativos dos dados. Além disso, a análise massiva obtém dados precisos que aproveitam os riscos envolvidos na tomada de qualquer decisão de negócios. Além disso, a análise massiva fornece serviços de forma eficaz.
B. Relação entre IoTe Big Data Analytics
A análise de big data está emergindo rapidamente como uma iniciativa chave da IoT para melhorar a tomada de decisões . Um dos recursos mais proeminentes da IoT é a análise de informações sobre "coisas conectadas". A análise de big data na IoT exige o processamento de uma grande quantidade de dados rapidamente e o armazenamento dos dados em várias tecnologias de armazenamento. Como muitos dos dados não estruturados são coletados diretamente de "coisas" ativadas pela Web, as implementações de big data exigirão a execução de análises extremamente rápidas com grandes consultas para permitir que as organizações obtenham insights rápidos, tomem decisões rápidas e interajam com pessoas e outros dispositivos . A interconexão de dispositivos de detecção e de atuação fornece a capacidade de compartilhar informações entre plataformas por meio de uma arquitetura unificada e desenvolver uma imagem operacional comum para permitir aplicativos inovadores.
A necessidade de adotar big data em aplicativos IoT é atraente. Essas duas tecnologias já foram reconhecidas nos campos de TI e negócios. Embora o desenvolvimento de big data já esteja atrasado, essas tecnologias são interdependentes e devem ser desenvolvidas em conjunto . Em geral, a implantação da IoT aumenta a quantidade de dados em quantidade e categoria; portanto, oferecendo a oportunidade para a aplicação e desenvolvimento de análise de big data. Além disso, a aplicação de tecnologias de big data em IoT acelera os avanços da pesquisa e os modelos de negócios da IoT. A relação entre IoT e big data, que é mostrada em   A Figura 1 pode ser dividida em três etapas para permitir o gerenciamento de dados da IoT. A primeira etapa consiste em gerenciar as fontes de dados da IoT, nas quais os dispositivos de sensores conectados usam aplicativos para interagir uns com os outros. Por exemplo, a interação de dispositivos como câmeras de CFTV, semáforos inteligentes e dispositivos domésticos inteligentes gera grandes quantidades de fontes de dados com diferentes formatos. Esses dados podem ser armazenados em armazenamento de commodities de baixo custo na nuvem. Na segunda etapa, os dados gerados são chamados de “big data”, que são baseados em seu volume, velocidade e variedade. Essas enormes quantidades de dados são armazenadas em arquivos de big data em bancos de dados compartilhados tolerantes a falhas distribuídos. A última etapa aplica ferramentas de análise, como MapReduce, Spark, Splunk e Skytree, que podem analisar os grandes conjuntos de dados de IoT armazenados. Os quatro níveis de análise começam com os dados de treinamento e, em seguida, passam para as ferramentas, consultas e relatórios de análise.
FIGURA 1.
Relação entre IoT e análise de big data.
Ver tudo
C. Métodos de Análise de Big Data
A análise de big data tem como objetivo extrair imediatamente informações bem informadas que ajudam a fazer previsões, identificar tendências recentes, encontrar informações ocultas e, finalmente, tomar decisões   [7] As técnicas de mineração de dados são amplamente implantadas para métodos específicos de problemas e análises de dados generalizadas. Assim, métodos estatísticos e de aprendizado de máquina são utilizados. A evolução do big data também altera os requisitos de análise. Embora os requisitos para mecanismos eficientes estejam em todos os aspectos do gerenciamento de big data   [30], como captura, armazenamento, pré-processamento e análise ; Para a nossa discussão, a análise de big data requer a mesma velocidade de processamento ou mais rápida do que a análise de dados tradicional com custo mínimo para dados de alto volume, alta velocidade e alta variedade.   [45]
Várias soluções estão disponíveis para análise de big data, e os avanços no desenvolvimento e aprimoramento dessas soluções estão sendo continuamente alcançados para torná-los adequados para novas tendências de Big Data. A mineração de dados desempenha um papel importante na análise, e a maioria das técnicas é desenvolvida usando algoritmos de mineração de dados de acordo com um cenário específico. O conhecimento das opções disponíveis de análise de big data é crucial ao avaliar e escolher uma abordagem apropriada para a tomada de decisões . Nesta seção, apresentamos vários métodos que podem ser implementados para vários estudos de caso de big data. Alguns desses métodos de análise são eficientes para a análise de dados big IoT. Conjuntos de dados de tamanhos diferentes e enormes contribuem mais em insights de big data. No entanto, essa crença nem sempre é válida porque mais dados podem ter mais ambigüidades e anormalidades   [7]
Apresentamos os métodos de análise de big data em classificação, agrupamento, mineração de regras de associação e categorias de previsão.   Figura 2   descreve e resume cada uma dessas categorias.Cada categoria é uma função de mineração de dados e envolve muitos métodos e algoritmos para atender aos requisitos de extração e análise de informações. Por exemplo, rede bayesiana, máquina de vetores de suporte (SVM) e   k   -nearest neighbor (KNN) oferecem métodos de classificação. Da mesma forma, o particionamento, o clustering hierárquico e a co-ocorrência são amplamente difundidos em clustering. Mineração e predição de regras de associação compreendem métodos significativos.
FIGURA 2.
Visão geral dos métodos de análise de big data.
Ver tudo
A classificação é uma abordagem de aprendizado supervisionado que usa o conhecimento anterior como dados de treinamento para classificar os objetos de dados em grupos.   [46] Uma categoria pré-definida é atribuída a um objeto e, assim, o objetivo de prever um grupo ou classe para um objeto é alcançado   Figura 2). Encontrar padrões desconhecidos ou ocultos é mais desafiador para grandes dados de IoT. Além disso, extrair informações valiosas de grandes conjuntos de dados para melhorar a tomada de decisões é uma tarefa crítica. Uma rede bayesiana é um método de classificação que oferece interpretabilidade de modelo. As redes bayesianas são eficientes para analisar estruturas de dados complexas reveladas através de big data em vez de formatos tradicionais de dados estruturados.Essas redes são direcionadas a gráficos acíclicos, onde os nós são variáveis ​​aleatórias e as bordas denotam dependência condicional   [47]. Naïve, Bayes semi-ingénuas selectivas, semi-ingénuas e multi-redes Bayes são as categorias propostas para a classificação   [48]
A análise de padrões de dados e a criação de grupos são executados com eficiência usando o SVM, que também é uma abordagem de classificação para análise de big data. O SVM utiliza a teoria de aprendizagem estatística para analisar padrões de dados e criar grupos. Várias aplicações da classificação SVM na análise de big data incluem classificação de texto   [49], correspondência de padrões  [50], diagnósticos de saúde   [51] e comércio. Da mesma forma, o KNN é normalmente projetado para fornecer mecanismos eficientes para encontrar padrões ocultos de grandes conjuntos de dados, de modo que os objetos recuperados sejam semelhantes à categoria predefinida.   [52]. O uso de casos melhora ainda mais o algoritmo KNN para aplicação na detecção de anomalias   [53], dados de alta dimensionalidade   [54] e experimentos científicos   [55] A classificação tem outras extensões ao adotar um grande número de técnicas de inteligência artificial e mineração de dados. Consequentemente, a classificação é uma das técnicas difundidas de mineração de dados para análise de big data.
Clustering é outra técnica de mineração de dados usada como um método de análise de big data. Ao contrário da classificação, o agrupamento usa uma abordagem de aprendizado não supervisionada e cria grupos para determinados objetos com base em seus recursos significativos e distintos.   [56] Como apresentamos em   Figura 2   que agrupar um grande número de objetos na forma de clusters torna a manipulação de dados simples. Os métodos conhecidos usados ​​para armazenamento em cluster são o armazenamento em clustere particionamento hierárquico. A abordagem de clustering hierárquico mantém a combinação de pequenos clusters de objetos de dados para formar uma árvore hierárquica e criar clusters aglomerativos. Clusters divisivos são criados da maneira oposta dividindo um único cluster que contém todos os objetos de dados em clusters apropriados menores   [57]
A análise de mercado e a tomada de decisões de negócios são as aplicações mais significativas da análise de big data. O processo de mineração de regras de associação envolve a identificação de relacionamentos interessantes entre diferentes objetos, eventos ou outras entidades para analisar as tendências de mercado, o comportamento de compra do consumidor e as previsões de demanda do produto (consulte   Figura 2). Mineração de regra de associação   [58]   concentra-se em identificar e criar regras com base na frequência de ocorrências para dados numéricos e não numéricos. O processamento de dados é realizado de duas maneiras sob regras de associação. Primeiro, o processamento sequencial de dados usa algoritmos baseados em priori, como o MSPS   [59]   e LAPIN-SPAM  [60], para identificar associações de interação. Outra abordagem significativa de processamento de dados sob a regra de associação é a análise de sequência temporal, que usa algoritmos para analisar padrões de eventos em dados contínuos.
A análise preditiva usa dados históricos, que são conhecidos como dados de treinamento, para determinar os resultados como tendências ou comportamento nos dados. Os algoritmos de lógica difusa e SVM são usados para identificar relações entre variáveis ​​independentes e dependentes e para obter curvas de regressão para previsões, como para desastres naturais. Além disso, as previsões de compra dos clientes e as tendências de mídia social são analisadas por meio da análise preditiva   [61]   (Vejo   Mesa 2). No caso da análise de big data, os requisitos de processamento são modificados de acordo com a natureza e o volume de dados. Acesso rápido a dados e métodos de mineração para dados estruturados e não estruturados são as principais preocupações relacionadas à análise de big data. Além disso, a representação de dados é um requisito significativo na análise de big data. A análise de séries temporais reduz a alta dimensionalidade associada ao big data e oferece representação para melhorar a tomada de decisões . Pesquisas relacionadas à representação de séries temporais incluem o ARMA   [62], bitmaps   [63] e funções wavelet   [64].
TABELA 2   Aplicações de Big Data Mining para IoT
Os métodos de análise de big data discutidos nesta seção são amplamente adotados em muitas áreas de aplicativos de big data, como gerenciamento de desastres, assistência médica, negócios, indústria e governança eletrônica. Em   Na Tabela 2, apresentamos as áreas de aplicação das funcionalidades de big data mining que são elaboradas nesta seção, ' ✓   'é usado para mostrar o suporte para uma aplicação, enquanto' - 'denota que não é óbvio se o método suporta ou não uma aplicação. Em particular,   mesa 2   mostra que os métodos de classificação são adequados para imagens médicas, indústria, reconhecimento de fala, processamento de linguagem natural e governança eletrônica. Clustering e métodos de análise de dados baseados em regras de associação são aplicáveis ​​à indústria e governança eletrônica e são bem adotados em saúde, comércio eletrônico e bioinformática. A análise preditiva é útil para previsões de desastres e de mercado, enquanto a análise de séries temporais é usada na previsão de desastres, imagens médicas, reconhecimento de fala, análise de redes sociais e governança eletrônica.
Arquitetura D. IoT para Big Data Analytics
O conceito arquitetural da IoT possui várias definições baseadas na abstração e identificação de domínios da IoT. Ele oferece um modelo de referência que define as relações entre vários setores verticais da IoT, como tráfego inteligente, residência inteligente, transporte inteligente e saúde inteligente. A arquitetura para análise de big data oferece um design para abstração de dados. Além disso, este padrão fornece uma arquitetura de referência que se baseia no modelo de referência. Muitas arquiteturas de IoT são encontradas na literatura   [13]   [66]   [ 67]. Por exemplo,   [13]   ofereceu uma arquitetura de IoT com a computação em nuvem no centro e um modelo de interação de ponta a ponta entre vários interessados ​​em uma estrutura de IoT centrada em nuvem para uma melhor comparação com a arquitetura de IoT proposta. Essa arquitetura é obtida por meio de detecção onipresente, análise de dados e representação de informações com a IoT como a arquitetura unificadora.No entanto, a arquitetura atual se concentra na IoT em relação às comunicações. Até onde sabemos, nossa arquitetura proposta, que integra IoT e análise de big data, não foi estudada na literatura atual.  Figura 3   ilustra a arquitetura de IoT e análise de big data. Nesta figura, a camada do sensor contém todos os dispositivos sensores e objetos, que são conectados através de uma rede sem fio. Essa comunicação de rede sem fio pode ser RFID, WiFi, banda ultralarga, ZigBee e Bluetooth. O gateway IoT permite a comunicação da Internet e várias redes. A camada superior diz respeito à análise de big data, na qual uma grande quantidade de dados recebidos de sensores é armazenada na nuvem e acessada por meio de aplicativos de análise de big data. Esses aplicativos contêm gerenciamento de API e um painel para ajudar na interação com o mecanismo de processamento.
FIGURA 3.
Arquitetura de IoT e análise de big data.
Ver tudo
Uma nova abordagem baseada em meta-modelos para a integração de objetos de arquitetura de IoT é proposta . O conceito é federado semi-automaticamente em um ambiente de arquitetura empresarial digital holístico. O objetivo principal é fornecer um suporte de decisão adequado para negócios complexos, gerenciamento de arquitetura com o desenvolvimento de sistemas de avaliação e ambiente de TI. Assim, as decisões de arquitetura para IoT estão intimamente ligadas à implementação de código para permitir que os usuários entendam a integração do gerenciamento de arquitetura corporativa com a IoT.
SEÇÃO IV.
Casos de Uso
Esta seção apresenta vários casos de uso para análise de dados big IoT. Embora os casos de uso sejam relevantes para aplicativos IoT, as opções foram orientadas para as que são mais usadas em aplicativos IoT e para a quantidade de dados que podem ser gerados para análise.
A. Medição Inteligente
A medição inteligente é um dos casos de uso de aplicativos da IoT que gera uma grande quantidade de dados de diferentes origens, como redes inteligentes, níveis de tanques e fluxos de água e cálculos de estoque de silos, nos quais o processamento leva muito tempo, mesmo em máquina poderosa   [68]. Um medidor inteligente é um dispositivo que registra eletronicamente o consumo de dados de energia elétrica entre o medidor e o sistema de controle. Coletar e analisar dados de medidores inteligentes em ambiente de IoT ajudam o tomador de decisão a prever o consumo de eletricidade. Além disso, a análise de um medidor inteligente também pode ser usada para prever demandas para evitar crises e satisfazer objetivos estratégicos por meio de planos de preços específicos. Assim, as empresas de serviços públicos devem ter capacidade de gerenciamento de dados de alto volume e análises avançadas projetadas para transformar dados em insights acionáveis.
B. Transporte Inteligente
Um sistema de transporte inteligente é um caso de uso baseado em IoT que visa apoiar o conceito de cidade inteligente. Um sistema de transporte inteligente pretende implantar tecnologias avançadas eavançadas de comunicação para o gerenciamento de cidades inteligentes. Os sistemas de transporte tradicionais, que são baseados no processamento de imagens, são afetados por condições climáticas, como chuvas fortes e neblina espessa. Consequentemente, a imagem capturada pode não ser claramente visível. O design de um sistemade placa eletrostática   [69]   A utilização da tecnologia RFID fornece uma boa solução para monitoramento inteligente, rastreamento e identificação de veículos. Além disso, a introdução da IoT em tecnologias veiculares permitirá que o gerenciamento de congestionamentos de tráfego apresente um desempenho significativamente melhor do que a infraestrutura existente. Essa tecnologia pode melhorar os sistemas de tráfego existentes, nos quais os veículos podem se comunicar de maneira efetiva entre si de maneira sistemática, sem intervenção humana.
Sistemas e sensores de navegação por satélite também podem ser aplicados em caminhões, navios e aviões em tempo real. O roteamento desses veículos pode ser otimizado usando a maior parte dos dados públicos disponíveis, como engarrafamentos, condições da estrada, endereços de entrega, condições climáticas e locais das estações de recarga. Por exemplo, no caso de alteração do endereço de tempo de execução, as informações atualizadas (rota, custo) podem ser otimizadas, recalculadas e transmitidas aos drivers em tempo real. Os sensores incorporados nesses veículos também podem fornecer informações em tempo real para medir a integridade do motor, determinar se o equipamento requer manutenção e prever erros.   [70]
C. Cadeias de Fornecimento Inteligentes
As tecnologias integradas de sensores podem se comunicar bidirecionalmente e fornecer acesso remoto a mais de 1 milhão de elevadores em todo o mundo   [71]. Os dados capturados são usados por técnicos internos e externos para executar diagnósticos e opções de reparo para tomar decisões apropriadas, o que resulta em maior tempo de atividade da máquina e melhor atendimento ao cliente. Em última análise, a análise de dados big IoT permite que uma cadeia de suprimentos execute decisões e controle o ambiente externo. Os equipamentos de fábrica habilitados para IoT poderão se comunicar dentro dos parâmetros de dados (ou seja, utilização da máquina, temperatura) e otimizar o desempenho alterando as configurações do equipamento ou o fluxo de trabalho do processo   [72]. A visibilidade em trânsito é outro caso de uso que desempenhará um papel vital nas futuras cadeias de suprimentos na presença da infraestrutura de IoT. As principais tecnologias usadas pela visibilidade em trânsito são os RFIDs e o Sistema de Posicionamento Global (GPS) baseado em nuvem, que fornecem informações de localização, identidade e outras informações de rastreamento. Esses dados serão a espinha dorsal das cadeias de suprimentos suportadas pelas tecnologias IoT. As informações coletadas pelo equipamento fornecerão visibilidade detalhada de um item enviado de um fabricante para um varejista. Os dados coletados por meio de tecnologias de RFID e GPS permitirão que os gerentes da cadeia de fornecimento aprimorem o envio automatizado e as informações de entrega precisas, prevendo o tempo de chegada. Da mesma forma, os gerentes poderão monitorar outras informações, como o controle de temperatura, que podem afetar a qualidade dos produtos em trânsito.
D. Agricultura Inteligente
A agricultura inteligente é um caso de uso benéfico na análise de dados big IoT. Os sensores são os atores no caso de uso da agricultura inteligente. Eles são instalados em campos para obter dados sobre o nível de umidade do solo, diâmetro do tronco das plantas, condição do microclima e nível de umidade, bem como para previsão do tempo. Os sensores transmitem dados obtidos usando dispositivos de rede e de comunicação. Esses dados passam por um gateway IoT e pela Internet para alcançar a camada de análise mostrada na Tabela 1. A camada de análise processa os dados obtidos da rede de sensores para emitir comandos. O controle automático do clima de acordo com os requisitos de colheita, a irrigação controlada e oportuna e o controle de umidade para prevenção de fungos são exemplos de ações executadas com base em recomendações de análise de big data. 
E. Smart Grid
A rede inteligente é uma nova geração de rede elétrica na qual o gerenciamento e a distribuição de eletricidade entre fornecedores e consumidores é atualizado usando tecnologias de comunicação bidirecionais e recursos de computação para melhorar a confiabilidade, segurança, eficiência com controle em tempo real e monitoramento [73]. [74]. Um dos principais desafios em um sistema de energia é integrar energia renovável e descentralizada. Os sistemas de eletricidade exigem uma rede inteligente para gerenciar o comportamento volátil dos recursos energéticos distribuídos (DERs) [75]. No entanto, a maioria dos sistemas de energia tem que seguir as leis e regulamentações governamentais, bem como considerar a análise de negócios e potenciais restrições legais.        [76]. Os sensores e dispositivos de grade geram continuamente e rapidamente dados relacionados a malhas de controle e proteção, além de exigir processamento e análise em tempo real, além de interações máquina a máquina (M2M) ou entre pessoas (HMI) para emitir comandos de controle ao sistema. . No entanto, o sistema deve cumprir os requisitos de visualização e relatório.
F. Sistema Inteligente de Semáforos
O sistema inteligente de semáforos consiste em nós que interagem localmente com sensores e dispositivos de IoT para detectar a presença de veículos, ciclistas e pedestres. Esses nós se comunicam com os semáforos vizinhos para medir a velocidade e a distância dos meios de transporte próximos e gerenciar os sinais de trânsito verdes [77]. Os dados de IoT coletados pelo sistema requerem processamento analítico em tempo real para executar as tarefas necessárias, como alterar os ciclos de tempo de acordo com as condições de tráfego, enviar sinais informativos aos nós vizinhos e detectar veículos próximos que usam sensores e dispositivos IoT para evitar longas filas ou acidentes. Além disso, os sistemas de semáforo inteligentes podem enviar seus dados de IoT coletados para o armazenamento em nuvem para análises adicionais.    Tabela 3   apresenta os casos de uso da analítica de Big Data da IoT.
TABELA 3   Comparação dos Casos de Uso do IoT Big Data Analytics
Como mostrado em   Na Tabela 3, a maioria dos casos de uso está relacionada às tecnologias de comunicação M2M e diminui o papel da interação humana. No entanto, as tecnologias usam métodos de previsão e técnicas de tomada de decisão para melhorar o controle, o monitoramento e o desempenho em tempo real. Os dados textuais estão entre os tipos de dados comuns gerados pelos dispositivos IoT, que são principalmente sensores e câmeras. Dados baseados em texto são adequados para análise por sistemas de arquivos distribuídos, como o Hadoop.
SEÇÃO V.
Oportunidades
IoT é atualmente considerada uma das transições mais profundas da tecnologia. A IoT atual fornece várias oportunidades de análise de dados para análise de big data.   Figura 4   mostra os exemplos de casos de uso e oportunidades discutidos nas Seções 4    e   5
FIGURA 4
Exemplo de casos de uso e oportunidades para a arquitetura de análise de dados big IoT.
Ver tudo
A. Comércio Eletrônico
A análise de dados Big IoT oferece ferramentas bem projetadas para processar big data em tempo real, que produzem resultados oportunos para a tomada de decisões . Os dados Big IoT exibem heterogeneidade, aumentando o volume e os recursos de processamento de dados em tempo real. A convergência de big data com a IoT traz novos desafios e oportunidades para criar um ambiente inteligente. A análise de dados Big IoT possui aplicativos amplamente difundidos em quase todos os setores. No entanto, as principais áreas de sucesso da análise são o comércio eletrônico, o crescimento da receita, o aumento do tamanho do cliente, a precisão dos resultados de previsão de vendas, a otimização de produtos, o gerenciamento de riscos e a segmentação aprimorada de clientes.
B. Cidades Inteligentes
O grande volume de dados coletados em cidades inteligentes oferece novas oportunidades em que ganhos de eficiência podem ser obtidos por meio de uma plataforma / infraestrutura analíticaapropriada para analisar grandes dados de IoT. Vários dispositivos se conectam à Internet em um ambiente inteligente e compartilham informações. Além disso, o custo de armazenamento de dados foi reduzido drasticamente após a invenção da tecnologia de computação em nuvem. Recursos de análise deram grandes saltos. Assim, o papel do big data em uma cidade inteligente pode potencialmente transformar todos os setores da economia de uma nação. O Hadoop com o gerenciador de recursos YARN ofereceu avanços recentes na tecnologia de big data para suportar e lidar com inúmeras cargas de trabalho, processamento em tempo real e ingestão de dados em fluxo contínuo.
C. Varejo e Logística
Espera-se que a IoT desempenhe um papel fundamental como uma tecnologia emergente na área de varejo e logística. Na área de logística, a RFID mantém o controle de contêineres, paletes e caixas. Além disso, avanços consideráveis ​​em tecnologias de IoT podem facilitar os varejistas, fornecendo vários benefícios. No entanto, os dispositivos de IoT geram grandes quantidades de dados diariamente. Assim, a poderosa análise de dados permite que as empresas obtenham insights a partir das volumosas quantidades de dados produzidos por meio das tecnologias IoT. A aplicação da análise de dados a conjuntos de dados de logística pode melhorar a experiência de envio dos clientes. Além disso, as empresas de varejo podem obter lucros adicionais analisando os dados dos clientes, que podem prever as tendências e demandas de mercadorias. Ao analisar os dados dos clientes, pode-se planejar a otimização de planos de preços e promoções sazonais eficientemente para maximizar o lucro.
D. Saúde
Os últimos anos testemunharam um tremendo crescimento em dispositivos de monitoramento de saúde inteligentes. Esses dispositivos geram enormes quantidades de dados. Assim, a aplicação de dados analíticos a dados coletados de monitores fetais, eletrocardiogramas, monitores de temperatura ou monitores de nível de glicose no sangue pode ajudar os especialistas em saúde a avaliar com eficiência as condições físicas dos pacientes. Além disso, a análise de dados permite que os profissionais de saúde diagnostiquem doenças graves em seus estágios iniciais para ajudar a salvar vidas. Além disso, a análise de dados melhora a qualidade clínica do atendimento e garante a segurança dos pacientes. Além disso, o perfil do médico pode ser revisto examinando a história do tratamento dos pacientes, o que pode melhorar a satisfação, a aquisição e a retenção do cliente.
SEÇÃO VI.
Desafios Abertos e Direções Futuras
A IoT e a análise de big data foram amplamente aceitas por muitas organizações. No entanto, essas tecnologias ainda estão em seus estágios iniciais. Vários desafios de pesquisa existentes ainda não foram abordados . Esta seção apresenta vários desafios no campo da análise de dados big IoT.
A. Privacidade
Os problemas de privacidade surgem quando um sistema é comprometido para inferir ou restaurar informações pessoais usando ferramentas de análise de big data, embora os dados sejam gerados a partir de usuários anônimos. Com a proliferação de tecnologias de análise de big data usadas em grandes dados de IoT, o problema de privacidade tornou-se um problema central no domínio de mineração de dados . Consequentemente, a maioria das pessoas reluta em confiar nesses sistemas, que não fornecem condições sólidas de acordo de nível de serviço (SLA) em relação ao roubo ou uso indevido de informações pessoais do usuário. Na verdade, as informações confidenciais dos usuários devem ser protegidas e protegidas contra interferências externas. Embora temporárias de identificação, anonimato e criptografias oferecem várias maneiras de fazer cumprir a privacidade dos dados, as decisões têm de ser feitas com relação a fatores éticos, como o que usar, como usar e por que o uso gerou grandes dados da IoT   [7]
Outro risco de segurança associado aos dados de IoT é a heterogeneidade dos tipos de dispositivos usados ​​e a natureza dos dados gerados, como dispositivos brutos, tipos de dados e protocolos de comunicação. Esses dispositivos podem ter diferentes tamanhos e formas fora da rede e são projetados para se comunicar com aplicativos cooperativos. Assim, para autenticar esses dispositivos, um sistema IoT deve atribuir um sistema de identificação não repudiável a cada dispositivo. Além disso, as empresas devem manter um meta-repositório desses dispositivos conectados para fins de auditoria. Essa arquitetura de IoT heterogênea é nova para os profissionais de segurança e, portanto, resulta em maiores riscos de segurança. Conseqüentemente, qualquer ataque nesse cenário compromete a segurança do sistema e desconecta dispositivos interconectados.
No contexto de grandes dados de IoT, segurança e privacidade são os principais desafios no processamento e armazenamento de grandes quantidades de dados. Além disso, para realizar operações críticas e hospedar dados privados, esses sistemas dependem altamente de serviços e infraestrutura de terceiros. Portanto, um crescimento exponencial na taxa de dados causa dificuldade em proteger cada parte dos dados críticos. Como discutido anteriormente, as soluções de segurança existentes (Karim, 2016 # 86) não são aplicáveis ​​a fornecer segurança completa em grandes cenários de dados da IoT. Os algoritmos existentes não são projetados para a observação dinâmica de dados e, portanto, não são aplicados efetivamente. Soluções de segurança de dados legados são especificamente projetados para conjuntos de dados estáticos, enquanto os requisitos de dados atuais estão mudando dinamicamente (Lafuente, 2015). Assim, a implantação dessas soluções de segurança é difícil para aumentar dinamicamente os dados. Além disso, questões legislativas e regulatórias devem ser consideradas durante a assinatura dos SLAs.
Com relação aos dados gerados pela IoT, os seguintes problemas de segurança podem surgir : atualização a tempo - dificuldade em manter os sistemas atualizados, gerenciamento de incidentes, identificação de padrões de tráfego suspeito entre os legítimos e possível falha na captura. incidentes não identificáveis, (c) interoperabilidade - os procedimentos proprietários e específicos do fornecedor apresentarão dificuldades em encontrar ataques ocultos ou de dia zero, (d) e convergência de protocolo - embora o IPv6 seja atualmente compatível com as especificações mais recentes, este protocolo ainda não foi totalmente implementado . Portanto, a aplicação de regras de segurança no IPv4 pode não ser aplicável à proteção do IPv6. 
No momento, nenhuma resposta pode solucionar esses desafios e gerenciar a segurança e a privacidade de dispositivos interconectados. No entanto, as diretrizes a seguir podem superar essas adversidades. (a) Primeiro, um verdadeiro ecossistema aberto com APIs padrão é necessário para evitar problemas de interoperabilidade e confiabilidade. (b) Segundo, os dispositivos devem estar bem protegidos durante a comunicação com os pares. (c) Terceiro, os dispositivos devem ser codificados com as melhores práticas de segurança para proteger contra ameaças comuns de segurança e privacidade.
B. Mineração de Dados
Os métodos de mineração de dados fornecem soluções preditivas ou descritivas eficientes e de melhor ajuste para big data que também podem ser generalizadas para novos dados [45]. A evolução dos grandes dados da IoT e das plataformas de computação em nuvem trouxe os desafios da exploração de dados e extração de informações [79]. No entanto, para a arquitetura global de dados da IoT,     Figura 5   apresenta os principais desafios relacionados ao processamento e mineração de dados.
FIGURA 5
Problemas de mineração de dados grandes em IoT.
Ver tudo
Leituras / gravações de dados exaustivas: As qualidades de alto volume, alta velocidade e alta variedade de dados big IoT desafiam processos de exploração, integração, comunicação heterogênea e extração. O tamanho e a heterogeneidade dos dados impõem novos requisitos de mineração de dados, e adiversidade nas fontes de dados também representa um desafio [80] - [81] [82]. Além disso, em comparação com conjuntos de dados pequenos, grandes conjuntos de dados compreendem mais anormalidades e ambigüidades que exigem etapas adicionais de pré-processamento, como limpeza, redução e transmissão [23], [83]. Outra questão está na extração de informações exatas e informadas dos grandes volumes de dados diversos. Consequentemente, a obtenção de informações precisas a partir de dados complexos exige a análise das propriedades dos dados e a associação entre diferentes pontos de dados.     
Os pesquisadores introduziram modelos de programação paralela e sequencial e propuseram diferentes algoritmos para minimizar o tempo de resposta da consulta ao lidar com big data. Além disso, os pesquisadores selecionaram algoritmos existentes de mineração de dados de diferentes maneiras para (a) melhorar a descoberta de conhecimento de fonte única, (b) implementar métodos de mineração de dados para plataformas de múltiplas fontes e (c) estudar e analisar métodos de mineração de dados dinâmicos e dados de fluxo [ 84]. Portanto, paralelo    k   -means algoritmo [85] e métodos de mineração de regra de associação paralela [65] são introduzidos . No entanto, a necessidade de desenvolver algoritmos permanece para fornecer compatibilidade com as mais recentes arquiteturas paralelas. Além disso, problemas de sincronização podem ocorrer na computação paralela, enquanto as informações são trocadas em diferentes métodos de mineração de dados. Esse gargalo de métodos de mineração de dados tornou-se um problema em aberto na grande análise de dados da IoT que deve ser abordada .       
C. Visualização
A visualização é uma entidade importante na análise de big data, particularmente quando se lida com sistemas de IoT onde os dados são gerados enormemente. Além disso, a visualização de dados é difícil devido ao tamanho grande e à alta dimensão do big data. Essa situação mostra tendências subjacentes e um quadro completo dos dados analisados. Portanto, a análise e visualização de big data deve funcionar perfeitamente para obter os melhores resultados de aplicativos IoT em big data. No entanto, a visualização no caso de dados heterogêneos e diversos (não estruturados, estruturados e semiestruturados) é uma tarefa desafiadora. Projetar soluções de visualização que sejam compatíveis com estruturas avançadas de indexação de big data é uma tarefa difícil. Da mesma forma, o tempo de resposta é um fator desejável na grande analítica de dados da IoT. Conseqüentemente, as arquiteturas de computação em nuvem suportadas com recursos avançados de GUI podem ser implantadas para obter melhores informações sobre as grandes tendências de dados da IoT.   [86].
Diferentes métodos de redução de dimensionalidade foram introduzidos como resultado de dados grandes e de grande dimensão da IoT [87], [88]. No entanto, esses métodos não são adequados para todos os tipos de dados apresentados. Da mesma forma, quando as dimensões refinadas são visualizadas com eficácia, a probabilidade de identificar correlações, padrões e delineamentos observáveis ​​é alta [89]. Além disso, os dados devem ser mantidos      localmente para obter informações utilizáveis ​​de forma eficiente devido a restrições de energia e largura de banda. Além disso, o software de visualização deve funcionar com o conceito de localidade de referência para obter um resultado eficiente em um ambiente de IoT. Dado que a quantidade de grandes dados da IoT está aumentando rapidamente, a exigência de paralelização enorme é uma tarefa desafiadora na visualização. Assim, decompor um problema em tarefas independentes gerenciáveis ​​para impor a execução concorrente de consultas é um desafio para algoritmos de visualização paralela [90]. 
Atualmente, a maioria das ferramentas de visualização de big data usadas para IoT apresenta resultados de desempenho insatisfatórios em termos de funcionalidade, escalabilidade e tempo de resposta. Para fornecer uma visualização eficiente e consciente da incerteza durante o processo de análise visual, evitar a incerteza impõe um desafio considerável [32]. Além disso, várias questões importantes são abordadas    [91], como (a) ruído visual - a maioria dos objetos do conjunto de dados está intimamente relacionada entre si e, assim, os usuários podem perceber resultados diferentes do mesmo tipo; (b) perda de informação - aplicar métodos de redução a conjuntos de dados visíveis pode causar perda de informação; (c) observação de imagem ampla - as ferramentas de visualização de dados têm problemas inerentes com relação à razão de aspecto, resolução de resolução e limites de percepção física; (d) imagem que muda frequentemente - os usuários não notarão mudanças rápidas de dados em uma saída; e (e) requisitos de alto desempenho - requisitos de alto desempenho são impostos porque os dados são gerados dinamicamente em um ambiente de IoT. Além disso, os métodos suportados pela análise avançada permitem gráficos interativos em laptops, desktops ou dispositivos móveis, como smartphones e tablets [92]. 
A análise em tempo real é outra consideração destacada nas arquiteturas de IoT. Várias diretrizes sobre visualização em big data são apresentadas [93], como (a) conhecimento de dados, ou seja, domínio apropriado, (b) qualidade de dados - limpeza de dados usando gerenciamento de informações ou políticas de controle de dados, (c) resultados significativos - dados o armazenamento em cluster é usado para fornecer abstração de alto nível, de modo que a visibilidade de grupos menores de dados seja possível, e (d) os outliers devem ser removidos dos dados ou tratados como uma entidade separada. Referência   [94] sugeriram que a visualização deve seguir as seguintes diretrizes: (a) o sistema deve fornecer atenção especial aos metadados, (b) o software de visualização deve ser interativo e deve exigir o máximo envolvimento do usuário, e (c) ferramentas devem ser construídas com base a natureza dinâmica dos dados gerados. 
D. Integração
Integração refere-se a ter uma visão uniforme de diferentes formatos. A integração de dados fornece uma visão única dos dados que chegam de diferentes fontes e combina a visão dos dados [95]. Integração de dados inclui todos os processos envolvidos na coleta de dados de diferentes fontes, bem como no armazenamento e fornecimento de dados com uma visão unificada. Para cada momento, diferentes formas de dados são continuamente geradas pelas mídias sociais, IoT e outras abordagens de comunicação e telecomunicação. Os dados produzidos podem ser categorizados  em três grupos: (a) dados estruturados, como dados armazenados em sistemas de bancos de dados tradicionais, incluindo tabelas com linhas e colunas; (b) semi-estruturado, como arquivos HTML, XML e Json; e (c) dados não estruturados, como vídeos, áudios e imagens. Bons dados oferecem boas informações; entretanto, essa relação só é alcançada por meio da integração de dados [96]. A integração de diversos tipos de dados é uma tarefa complexa na fusão de diferentes sistemas ou aplicativos [97]. A sobreposição dos mesmos dados, aumentando o desempenho e a escalabilidade, e permitindo o acesso a dados em tempo real estão entre os desafios associados à integração de dados que devem ser abordados no futuro.   
Outro desafio é ajustar as estruturas em dados semi-estruturados e não estruturados antes de integrar e analisar esses tipos de dados [98]. Informações, como entidades e relacionamentos, podem ser extraídas de dados textuais usando tecnologias disponíveis nos períodos de mineração de texto, aprendizado de máquina, processamento natural e extração de informações. Entretanto, novas tecnologias devem ser desenvolvidas para extrair imagens, vídeos e outras informações de outros formatos não-textuais de dados não estruturados [98]. Espera-se que a mineração de texto seja realizada com a aplicação de vários extratores especializados no mesmo texto. Portanto, gerenciar e integrar diferentes resultados de extraçãode uma determinada fonte de dados requer outras técnicas [99].     
SEÇÃO VII.
Conclusão
A taxa de crescimento da produção de dados aumentou drasticamente nos últimos anos com a proliferação de dispositivos inteligentes e sensores. A interação entre IoT e big data está atualmente em um estágio em que é necessário processar, transformar e analisar grandes quantidades de dados com alta frequência. Conduzimos essa pesquisa no contexto da análise de dados big IoT. Primeiro, exploramos soluções analíticas recentes. A relação entre análise de big data e IoT também foi discutida . Além disso, propusemos uma arquitetura para big analytics de dados da IoT. Além disso, foram apresentados tipos, métodos e tecnologias de análise de big data para mineração de big data . Alguns casos de uso confiáveis também foram fornecidos . Além disso, exploramos o domínio discutindo várias oportunidades trazidas pela análise de dados no paradigma da IoT . Diversos desafios abertos de pesquisa foram discutidos como direções futuras de pesquisa. Por fim, concluímos que as soluções existentes de análise de dados de grande quantidade de IoT permaneciam em seus estágios iniciais de desenvolvimento. No futuro, será necessária uma solução de análise em tempo real que possa fornecer informações rápidas.

Continue navegando