Prévia do material em texto
Uma Análise de Componentes Principais (PCA) é aplicada aos sete principais índices GLCM para sintetizar em uma banda as informações texturais usadas para a classificação OO. A abordagem proposta é implementada em um código GEE amigável e disponível gratuitamente, útil para realizar a classificação OO, ajustando vários parâmetros (por exemplo, escolher as bandas de entrada, selecionar o algoritmo de classificação, testar várias escalas de segmentação) e compará-lo com uma abordagem PB . A precisão das classificações OO e PB pode ser avaliada visualmente e por meio de duas matrizes de confusão que podem ser usadas para calcular as estatísticas relevantes (do produtor, do usuário, precisão geral (OA)). A metodologia proposta foi amplamente testada em uma área de estudo de 154 km2 , localizada na área do Lago Trasimeno (centro da Itália), usando dados do Landsat 8 (L8), Sentinel 2 (S2) e PlanetScope (PS). A área foi selecionada considerando seu complexo mosaico LULC composto principalmente por superfícies artificiais, cultivos anuais e permanentes, pequenos lagos e áreas arborizadas. Na área de estudo, os vários testes produziram resultados interessantes nos diferentes conjuntos de dados (OA: PB RF (L8 = 72,7%, S2 = 82%, PS = 74,2), PB SVM (L8 = 79,1%, S2 = 80,2%, PS = 74,8%), OO RF (L8 = 64%, S2 = 89,3%, PS = 77,9), OO SVM (L8 = 70,4, S2 = 86,9%, PS = 73,9)). A aplicação de código amplo demonstrou muito boa confiabilidade de todo o processo, embora o processo de classificação OO tenha resultado, às vezes, muito exigente em dados de maior resolução, considerando os recursos computacionais GEE disponíveis. sensoriamento remoto Artigo 1. Introdução www.mdpi.com/journal/remotesensing Andrea Tassi e Marco Vizzari * GLCM; aprendizado de máquina; Floresta Aleatória (RF); Máquina de vetores de suporte (SVM); avaliação de precisão Classificação LULC orientada a objetos no Google Earth Algoritmos de Aprendizagem Motor Combinando SNIC, GLCM e Máquina Sensor Remoto 2020, 12, 3776; doi:10.3390/rs12223776 Departamento de Ciências Agrícolas, Alimentares e Ambientais, Universidade de Perugia, 06121 Perugia, Itália; andreatassi23@gmail.com * Correspondência: marco.vizzari@unipg.it; Tel.: +39-075-585-6059 Recebido: 12 de outubro de 2020; Aceito: 13 de novembro de 2020; Publicado: 17 de novembro de 2020 Resumo: O Google Earth Engine (GEE) é uma plataforma de nuvem versátil na qual as abordagens de classificação de uso da terra-cobertura (LULC) baseadas em pixels (PB) e orientadas a objetos (OO) podem ser implementadas, graças à disponibilidade de vários estados funções de última geração que compreendem vários algoritmos de aprendizado de máquina (ML). Abordagens OO, incluindo segmentação de objetos e análise de textura de objetos, ainda não são comuns no ambiente GEE, provavelmente devido às dificuldades existentes em concatenar as funções apropriadas e ajustar os vários parâmetros para superar os limites computacionais do GEE. Neste contexto, este trabalho tem como objetivo desenvolver e testar uma abordagem de classificação OO combinando o algoritmo Simple Non-Iterative Clustering (SNIC) para identificar clusters espaciais, a Matriz de Coocorrência de Nível de Cinza (GLCM) para calcular índices texturais de cluster, e dois algoritmos de ML (Random Forest (RF) ou Support Vector Machine (SVM)) para realizar a classificação final. Palavras-chave: uso do solo cobertura do solo; Motor do Google Earth (GEE); Sentinela 2; Landsat 8; PlanetScope; SNIC; O sensoriamento remoto por satélite (RS) fornece dados essenciais que auxiliam no mapeamento e no estudo da superfície da Terra. Os arquivos de dados do RS, graças à crescente disponibilidade de satélites e ao aumento das resoluções das imagens (radiométrica, espectral, espacial e temporal) estão em constante expansão, permitindo aos usuários Machine Translated by Google http://www.mdpi.com/journal/remotesensing http://dx.doi.org/10.3390/rs12223776 Sensor Remoto 2020, 12, 3776 2 de 17 potencialmente acessar e analisar conjuntos de dados de séries temporais muito grandes, mas com tempo e custos computacionais crescentes. Na última década, o processamento de dados RS mudou de estações de trabalho tradicionais equipadas com hardware de última geração (e muitas vezes muito caro) e software RS, para plataformas baseadas em nuvem que permitem aos usuários acessar e analisar instantaneamente grandes dados geoespaciais processados por meio de interfaces amigáveis baseadas na web e linguagens de script eficazes. Dentre essas plataformas, o Google Earth Engine (GEE) está alcançando um sucesso considerável por ser uma plataforma de análise geoespacial baseada em nuvem que permite aos usuários resolver, de forma muito eficiente, os principais problemas relacionados ao gerenciamento de quantidades imensamente grandes de dados, seu armazenamento, integração, processamento e análise [1]. O delineamento de objetos é realizado em uma etapa crucial baseada em um agrupamento e segmentação de imagens visando agrupar pixels semelhantes em agrupamentos de imagens e convertê-los em vetores [9-11]. Nesse sentido, o algoritmo Simple Non-Iterative Clustering (SNIC), disponível no GEE, mostrou-se muito eficiente em agrupar pixels semelhantes e identificar potenciais objetos individuais [12]. Após a segmentação, o GEOBIA geralmente combina informações espectrais e espaciais com as informações de textura e contexto da imagem para realizar a classificação final do objeto [13]. No GEE, está disponível a Matriz de Coocorrência de Nível de Cinza (GLCM), um método muito eficaz para a extração de 18 índices texturais de imagens em escala de cinza de 8 bits. Este recurso parece muito útil, pois permite o aplicativo GEOBIA mesmo em imagens em tons de cinza. A aplicação subsequente da Análise de Componentes Principais pode ajudar a reduzir efetivamente a alta dimensionalidade das saídas do GLCM em poucas bandas representativas [14]. Os mapas LULC são muito úteis para analisar a composição e configuração da paisagem, e para detectar as mudanças que estão ocorrendo na paisagem, bem como considerar as transformações com os gradientes do ambiente [3,4]. Compreender as mudanças do LULC e identificar espacialmente os hotspots de transformação são extremamente relevantes para o monitoramento, planejamento e gestão de ecossistemas. Tais classificações geralmente requerem uma etapa inicial voltada para a composição da imagem multitemporal para limitar a cobertura de nuvens e calcular estatísticas de imagem e índices espectrais utilizados para melhorar a precisão da classificação. Nesse sentido, o GEE permite que os usuários definam diferentes modus operandi para a combinação dos dados de entrada, permitindo criar com eficiência conjuntos de dados compostos leves, sem nuvens, multitemporais e sem ter que se deparar com blocos relacionados a imagens de recursos computacionais locais limitados [5,6]. A etapa de classificação, tantoem processos PB quanto em OO, pode ser realizada usando várias soluções. Abordagens de classificação automática LULC comuns, aplicadas a dados RS, são baseadas em um cálculo de assinaturas espectrais de classes LULC selecionadas usando dados de treinamento e discriminação baseada em pixels entre diferentes tipos de cobertura do solo [7]. Graças às recentes melhorias nos algoritmos de segmentação de imagens, as abordagens baseadas em objetos (chamadas Geographic Object-Based Image Analysis—GEOBIA) estão se tornando mais populares em comparação com a análise e classificação de imagens tradicionais, devido à sua capacidade de delinear e classificar a paisagem objetos ou manchas, em diferentes escalas [8]. Os recentes classificadores de Machine Learning (ML) demonstraram um desempenho superior em comparação aos tradicionais de máxima verossimilhança [15] e não exigem nenhuma suposição sobre a distribuição dos dados. Em particular, classificadores de ML não paramétricos, como Classification and Regression Trees (CART), Random Forest (RF) e Support Vector Machine (SVM) foram relatados para fornecer resultados de classificação LULC extremamente precisos de imagens de sensoriamento remoto [16,17 ]. O CART é um classificador de árvore de decisão binária simples e funciona usando um limiar pré-definido [18], enquanto o RF é um classificador de conjunto baseado na combinação de várias árvores do tipo CART. A RF é altamente eficiente e precisa, e é um dos classificadores favoritos para classificação LULC [19,20], porque, geralmente, tem um desempenho melhor do que outros classificadores populares [21]. O SVM é um classificador de bom desempenho, mas parece um pouco mais Métodos orientados a objetos (OO) geralmente produzem melhores resultados em dados de maior resolução, apesar dos maiores custos computacionais de segmentação e do uso de vários recursos para a classificação, enquanto o uso da abordagem baseada em pixels (PB) é normalmente recomendado para menores resoluções. Este último, como acontece com frequência, sofre o chamado efeito “sal-pimenta” em resoluções espaciais mais altas. Uma aplicação típica de dados do RS é a produção de mapas de Uso do Solo/Cobertura do Solo (LULC), que descrevem como a terra é usada para vários fins humanos, como agricultura ou áreas residenciais, ou as características físicas da superfície da Terra (ou seja, corpos d'água , pastagens, rochas) [2]. Machine Translated by Google Sensor Remoto 2020, 12, 3776 3 de 17 complexo, pois requer a escolha e ajuste de kernels e outros parâmetros de entrada [22,23]. A maioria desses métodos de classificação depende de dados de treinamento de alta qualidade e de combinações adequadas de recursos que afetam diretamente a estabilidade dos resultados da classificação [24]. A seleção e implementação de tais recursos geralmente consomem tempo e exigem ampla habilidade de engenharia e conhecimento técnico. Diferentemente, nas abordagens modernas de Deep Learning (DL), os recursos são implementados automaticamente a partir de dados de entrada usando procedimentos de aprendizado baseados em redes neurais que geram várias camadas de processamento. Essas camadas fornecem representações de recursos mais eficazes por meio de vários níveis de abstração que resultam muito eficazes na descoberta de estruturas complexas e informações discriminativas ocultas em dados multidimensionais [25]. Modelos DL também podem ser utilizados em GEE através da plataforma TensorFlow [26]; no entanto, sua implementação não é direta para usuários comuns do GEE, pois esses modelos devem ser desenvolvidos e treinados fora do GEE usando a API GEE e a plataforma Google Colab. Assim, a aplicação de algoritmos de classificação ML comuns, como RF e SVM, ainda é uma opção conveniente no ambiente GEE. A matriz é usada para derivar uma série de estatísticas descritivas e analíticas (usuário, produtor e precisão geral - OA - e estatística Kappa - K) úteis para interpretar e sintetizar o nível de precisão de um determinado mapa LULC [16,41]. Apesar de sua ampla aplicação, a estatística kappa pode ser muito enganosa para avaliar ou comunicar a precisão da classificação devido à sua alta dependência da variação da prevalência de classe [42]. Uma comparação automática entre os métodos PB e OO na classificação LULC, O GEOBIA, incluindo tanto a segmentação de objetos quanto a análise de textura de objetos, ainda não é comum no ambiente GEE, provavelmente devido às dificuldades existentes em concatenar as funções apropriadas e ajustar os diversos parâmetros para superar os limites computacionais do GEE. O algoritmo SNIC tem sido amplamente utilizado no GEE para identificar clusters espaciais e melhorar a classificação LULC. Por exemplo, Mahdianpari et al. [27,28], para produzir o Canadian Wetland Inventory, implementaram uma classificação baseada em objetos dos dados S2 e S1, com base no SNIC e RF, o que melhorou substancialmente a classificação do PB. Paludo et ai. [29] mapearam soja e milho no Paraná, obtendo altíssima precisão, aplicando o SNIC e o classificador Continuous Naive Bayes nos dados do Landsat-8, Sentinel-2 e SRTM+ (Shuttle Radar Topography Mission). Para classificar o LULC do Irã, o SNIC deveria identificar segmentos nos dados S2 e aprimorar o resultado da classificação do algoritmo de RF baseado em pixels usando um cálculo majoritário dentro de cada segmento [30]. Djerriri et ai. [31] propuseram uma abordagem orientada a objetos baseada na classificação de imagens S2 usando agrupamento SNIC combinado com o classificador RF e os resultados foram mais precisos que os da abordagem baseada em pixels. Firigato [32] realizou uma classificação RF de imagens de satélite de alta resolução usando SNIC e posterior vetorização, e uma seleção de recursos baseada em NDVI significa gradiente de direções e outras propriedades, como área, altura e largura. Em algumas pesquisas baseadas no GEE, a etapa de segmentação foi desenvolvida fora do GEE. Por exemplo, Stromann et ai. [33] desenvolveram uma classificação LULC SVM baseada em objetos, utilizando dados S1 e S2, através de uma etapa preliminar de segmentação realizada em software comercial e uma posterior caracterização de características em GEE com base em GLCM. Xiong et ai. [34] produziram um mapa de terras agrícolas de 30 m da África continental integrando algoritmos PB e OO usando dados S2 e L8, usando SVM e RF; a etapa de segmentação foi baseada em uma segmentação hierárquica recursiva realizada no supercomputador NASA Pleiades. O GLCM tem sido usado no GEE para derivar índices texturais e melhorar a classificação LULC. Por exemplo, além da pesquisa acima citada de Stromann et al. [33], Godinho et al. [35] combinaram bandas multiespectrais com os índices de vegetação e texturas GLCM para melhorar a classificação LULC. Mananze et ai. [36] derivou um mapa de Cobertura do Solo de uma áreade estudo em Moçambique a partir das bandas Landsat 7 e Landsat 8, índices de vegetação e características texturais extraídas pelo GLCM. Radar e imagens ópticas foram combinados para mapear plantações de dendezeiros em Sumatra, Indonésia, usando características texturais GLCM, derivadas de dados SAR (Synthetic Aperture Radar), para melhorar a classificação [37]. Os usuários de mapas LULC precisam saber o quão precisos são os mapas para usar os dados de forma mais coerente [38]. A abordagem de avaliação de precisão de classificação mais usada é na forma de uma matriz de confusão baseada em uma comparação entre as saídas de classificação e dados de verdade [39,40]. Machine Translated by Google a classificação OO ajusta vários parâmetros (por exemplo, escolha as bandas de entrada, selecione a classificação RF ou SVM, teste várias escalas de segmentação) e compare com uma abordagem PB. A precisão de A área de estudo de 154 km2 , selecionada para o desenvolvimento e teste da metodologia proposta, está localizada ao redor do Lago Trasimeno, em Umbria, Itália Central (43ÿ060N, 12ÿ070E) (Figura 1). está localizado ao redor do Lago Trasimeno, na Úmbria, Itália Central (43°06ÿN, 12°07ÿE) (Figura 1). Lago Lago Trasimeno, o quarto maior lago italiano, está situado na parte noroeste da Umbria índices e dois algoritmos de ML amplamente utilizados (RF e SVM) para realizar a classificação final. A abordagem é implementada em um código GEE fácil de usar e disponível gratuitamente, útil para realizar o OO Trasimeno, o quarto maior lago italiano, está situado na parte noroeste da Úmbria e tem uma superfície de cerca de 120,73 km2 [45]. Desde março de 1995, a área tornou-se uma região Neste contexto, este trabalho tem como objetivo desenvolver e testar uma abordagem de classificação OO diversidade de espécies. Turismo, agricultura e pecuária são as atividades mais importantes na área de Trasimeno: as terras cultivadas cobrem cerca de 70% da área de captação do lago, baseado em matrizes de confusão, pode ser muito útil para definir a melhor abordagem em termos de precisão das várias classes LULC [43] e avaliar a melhoria alcançada com a abordagem OO, imagem (c) e imagem infravermelha composta (d) com base em 10 m de resolução Sentinel 2 bandas. Figura 1. Localização da área de estudo na Úmbria, Itália (a) e visão geral da área do Lago Trasimeno (b). RGB Figura 1. Localização da área de estudo na Úmbria, Itália (a) e visão geral da área do Lago Trasimeno (b). Sensor Remoto 2020, 12, x PARA REVISÃO DE PEER 4 de 18 2. Materiais e métodos 2.1. Área de estudo terrenos agrícolas (por exemplo, sementeiras, prados, vinhas, olivais), zonas arborizadas, pequenos lagos artificiais privados artificiais. a precisão final é sempre condicionada pelas propriedades dos dados de entrada [44], pela qualidade das informações de treinamento do treinamento e pelas peculiaridades das áreas de estudo. 2.1. Área de Estudo A área de estudo de 154 km2 , selecionada para o desenvolvimento e teste da metodologia proposta, combinando o algoritmo SNIC para identificar clusters espaciais, o GLCM para calcular a textura do cluster e dois algoritmos de ML amplamente utilizados (RF e SVM) para realizar a classificação final. O proposto 2. Materiais e métodos algoritmo RF ou SVM, testar várias escalas de segmentação) e compará-lo com uma abordagem PB. As duas abordagens são avaliadas tanto visualmente quanto por meio de duas matrizes de confusão e suas respectivas superfícies e muitos pequenos lagos artificiais privados. agricultura intensiva com necessidades de irrigação está presente apenas em 28% da área [47]. A zona caracteriza- se por um mosaico paisagístico multifuncional com elevada abundância e diversidade de informações e as peculiaridades das áreas de estudo. a precisão das duas abordagens é avaliada visualmente e por meio de duas matrizes de confusão e estatísticas (precisão do produtor, do usuário e geral). caracterizada por um mosaico paisagístico multifuncional com elevada abundância e diversidade de terrenos (ex. suas estatísticas relacionadas (precisão do produtor, do usuário e geral). A abordagem proposta é implementada em um código GEE fácil de usar e disponível gratuitamente, útil para realizar o ajuste de classificação de vários parâmetros (por exemplo, escolher as bandas de entrada, selecionar o algoritmo de classificação Neste contexto, este trabalho tem como objetivo desenvolver e testar uma abordagem de classificação OO combinando o algoritmo SNIC para identificar clusters espaciais, o GLCM para calcular índices texturais de clusters superfície de cerca de 120,73 km2 [45]. Desde março de 1995, a área tornou-se um parque natural regional [ 46]. O ecossistema lacustre é uma área de excepcional valor pela sua riqueza de flora e Imagem RGB (c) e imagem infravermelha composta (d) baseada em bandas Sentinel 2 de resolução de 10 m. das várias classes LULC [43] e avaliar a melhoria alcançada com a abordagem OO, uma vez que a precisão final está sempre condicionada pelas propriedades dos dados de entrada [44], a qualidade dos nível de um determinado mapa LULC [16,41]. Apesar de sua ampla aplicação, as estatísticas kappa podem ser muito enganosas Remote Sens. 2020, 12, 3776 para avaliar ou comunicar a precisão da classificação devido à sua alta dependência da variação da prevalência de classe [42]. Uma comparação automática entre os métodos PB e OO na classificação LULC, com base em matrizes de confusão, pode ser muito útil para definir a melhor abordagem em termos de precisão 4 de 17 [46]. O ecossistema lacustre é uma área de excepcional valor pela sua riqueza de flora e fauna e pela sua fauna e pela sua diversidade de espécies. Turismo, agricultura e pecuária são os mais importantes a área de Trasimeno: as terras cultivadas cobrem cerca de 70% da área de captação do lago, mesmo que a agricultura intensiva com necessidades de irrigação esteja presente apenas em 28% da área [47]. A zona é Machine Translated by Google A área de estudo é caracterizada por um complexo mosaico paisagístico composto por seis classes LULC: 5 de 175 de 18Sensor Remoto 2020, 12, 3776 Sensor Remoto 2020, 12, x PARA REVISÃO PEER Tabela 1. O número de pontos de validação para cada classe de Uso do Solo – Cobertura do Solo (LULC). Figura 2. Fluxo de trabalho metodológico implementado no Google Earth Engine (GEE). 17 80 Número de pontos de validação Figura 2. Fluxo de trabalho metodológico implementado no Google Earth Engine (GEE). 80 450Total Tabela 1. O número de pontos de validação para cada classe de Uso do Solo – Cobertura do Solo (LULC). Vegetação Ribeirinha ou Arbustos 17 Água 450 2): a composição do conjunto de dados inicial, a classificação LULC e a avaliação da acurácia. A etapa foi implementada em um roteiro separado para agilizar a classificação e a avaliação da precisão 2.2. Dados de Amostra de Treinamento e Validação 2.2. Dadosde amostra de treinamento e validação cada classe foi identificada através da interface GEE, usando o S2 RGB e infravermelho composto cada classe foi identificada através da interface GEE, usando o S2 RGB e infravermelho composto 35 35 Água os mesmos dados de treinamento e aplicando o classificador RF ou SVM. Este último foi realizado, para ambas as matrizes de confusão, usando os mesmos dados de validação acima mencionados. pequenos lagos privados. Para testar a usabilidade e confiabilidade de todo o procedimento, apenas 10 pontos para pequenos lagos privados. Para testar a usabilidade e confiabilidade de todo o procedimento, apenas 10 pontos para áreas construídas, incluindo assentamentos e outras superfícies artificiais; (2) culturas anuais, compreendendo (1) áreas construídas, incluindo assentamentos e outras superfícies artificiais; (2) culturas anuais, compreendendo de 450 pontos de validação foram gerados aleatoriamente e rotulados manualmente por meio de um visual 450 pontos de validação foram gerados aleatoriamente e rotulados manualmente por meio de uma interpretação visual 40 40 A área de estudo é caracterizada por um complexo mosaico paisagístico composto por seis classes LULC: (1) camadas e a camada de alta resolução do Google Maps, para coletar as informações de treinamento. Um total de camadas e a camada de alta resolução do Google Maps, para coletar as informações de treinamento. Um total de incluindo vinhas e olivais; (4) pastagens; bosques, compostos por pequenas e fragmentadas vinhas e olivais; (4) pastagens; matas, compostas por pequenos e fragmentados 154 154 65 65 Total várias culturas, como cereais, leguminosas para grãos e plantas hortícolas; (3) culturas permanentes, principalmente culturas diversas, como cereais, leguminosas para grãos e plantas hortícolas; (3) culturas permanentes, principalmente 59 59 ajustes em relação às etapas subsequentes. As etapas de classificação e avaliação de precisão em um único script GEE. A primeira inclui uma abordagem PB e OO, ambas usando o mesmo treinamento Número de pontos de validação pequenas áreas esparsas cobertas por arbustos; (6) corpos d'água que incluem o Lago Trasimeno e outras pequenas áreas esparsas cobertas por arbustos; (6) corpos d'água que incluem o Lago Trasimeno e outros métodos, através de uma matriz de confusão usando os mesmos dados de validação acima mencionados. áreas; (5) vegetação ciliar e arbustos, incluindo a vegetação lacustre ou ribeirinha e outras áreas; (5) vegetação ciliar e arbustos, incluindo a vegetação lacustre ou ribeirinha e outras CLASSE CLASSE Construída Construída Culturas anuais Culturas anuais Culturas permanentes Culturas permanentes Pastagens Pastagens Florestas Florestas Vegetação Ribeirinha ou Arbustos O fluxo de trabalho geral é composto por três etapas principais, implementadas em dois scripts GEE (Figura a composição do conjunto de dados inicial, a classificação LULC e a avaliação da precisão. A primeira 2.3. Metodologia O fluxo de trabalho geral é composto por três etapas principais, implementadas em dois scripts GEE (Figura 2): procedimentos considerando também que a imagem composta base, uma vez gerada, requer menos do que as etapas subsequentes. As etapas de classificação e avaliação de precisão foram implementadas foram implementados em um único script GEE. A primeira inclui uma abordagem PB e OO, ambas usando dados e aplicando o classificador RF ou SVM. Este último foi realizado, para ambos os métodos, por meio de uma a primeira etapa foi implementada em um script separado para agilizar os procedimentos de classificação e avaliação da precisão considerando também que a imagem composta base, uma vez gerada, requer menos ajustes interpretação das mesmas camadas de base (Tabela 1). Esta abordagem é amplamente utilizada na literatura [48,49]. das mesmas camadas de base (Tabela 1). Esta abordagem é amplamente utilizada na literatura [48,49]. 2.3. Metodologia Machine Translated by Google Sensor Remoto 2020, 12, 3776 6 de 17 Os resultados foram comparados preliminarmente em termos de precisão geral. Com base nisso, as combinações de parâmetros OO e PB mais eficazes foram selecionadas para cada conjunto de dados e comparadas visualmente e em termos de porcentagem da área total, precisão do usuário e do produtor das classes LULC. O tempo de execução da classificação selecionada também foi medido e comparado. A criação do conjunto de dados base é geralmente uma etapa crítica para cada classificação LULC. Nesta aplicação, a composição deste conjunto de dados para os dados L8 e S2 inicia-se, no GEE, a partir de uma coleção de imagens filtradas e mascaradas em nuvem. Em seguida, o Índice de Vegetação por Diferença Normalizada (NDVI) e o Índice de Solo Nu (BSI) são calculados para cada imagem. O NDVI é frequentemente utilizado para o mapeamento de mudanças na cobertura do solo [50,51] e, de acordo com Singh et al. [52], este índice, utilizado na classificação LULC, produz uma melhora significativa na precisão da classificação. O BSI é usado principalmente para destacar a diferença entre terras agrícolas e não agrícolas, graças à sua capacidade aprimorada de identificar solo nu e terras em pousio [53]. Esses índices adicionais são comumente usados para melhorar a classificação LULC. O aumento de dados foi implementado usando as principais estatísticas de NDVI e BSI (média, desvio padrão e máximo) para gerar seis bandas adicionais contendo estatísticas principais dos dois índices espectrais úteis para contabilizar a variabilidade sazonal das classes LULC. Em detalhe, o código realiza uma coleta inicial de imagens filtradas pelo período específico de interesse (três anos, de 1º de janeiro de 2017 a 31 de dezembro de 2019), a região de interesse (roi), o percentual máximo de cobertura de nuvens (10), e a máscara de nuvem (maskS2clouds). O mascaramento de cobertura de nuvens para S2 é calculado usando a banda QA60 fornecida no GEE com os dados de Refletância de Superfície S2. A banda QA60 é uma camada de resolução de 60 m que combina nuvens densas e máscara de nuvens cirros [54]. O mascaramento de cobertura de nuvens para L8 é realizado usando a banda “pixel_qa” fornecida no GEE com os dados de refletância de superfície L8. Esta etapa de mascaramento de nuvens é coerente com Nyland et al. [55] e Xye et al. [56] que sugerem selecionar imagens de entrada com cobertura máxima de nuvens e mais de três anos para criar uma imagem composta muito eficaz. Esse processo de seleção produziu, para a área de estudo, duas coleções de imagens, incluindo 43 imagens para a L8 e 119 imagens para a S2, nas quais são selecionadas as “inBands” e computadas as bandas medianas. NDVI e BSI são calculados para cada imagem e as estatísticas dos índices espectrais relativos são obtidas usando as funções redutoras apropriadas. A fase final de exportação diz respeito apenas às bandas desejadas(“outBands”) previamente definidas. Nesta aplicação, para criar o conjunto de dados S2 inicial, as bandas 2, 3, 4, 6, 8, NDVI média, NDVI Std. Dev. (Desvio Padrão) e média do BSI foram selecionados. Para investigar a confiabilidade da abordagem proposta, verificar sua aplicabilidade em dados RS de resolução diferente e avaliar a influência de alguns parâmetros de entrada importantes, o código foi amplamente testado na área de estudo: (a) usando dados de três satélites diferentes - Landsat 8 (L8), Sentinel 2 (S2) e PlanetScope (PS); (b) aplicação do classificador RF ou SVM; (c) incluir ou excluir informações de textura para a abordagem OO; (d) usando diferentes distâncias de sementes para identificação espacial de agrupamentos. • inBands, que são as bandas de entrada selecionadas entre as bandas L8 ou S2 disponíveis [45]; • outBands, que são as bandas de saída do conjunto de dados final. Conforme indicado, eles são selecionados a partir da mediana das inBands e na outra média, max e desvio padrão dos índices NDVI e BSI. roi (região de interesse), polígono utilizado para delimitar a área de estudo; 2.3.1. Composição do conjunto de dados • • período de juros, com base na definição de data de início (MM-DD-AAAA) e data de término As imagens PlanetScope foram escolhidas para testar o código em dados de maior resolução espacial considerando que, no GEE, S2 é o dado de maior resolução espacial disponível para a área de estudo. (MM'-DD'-AAAA'); Os requisitos de entrada a serem definidos para a execução do código são: O código gera um conjunto de dados composto final calculando os valores médios de pixel para as bandas selecionadas e adicionando ao composto as estatísticas dos índices espectrais selecionados entre os disponíveis. A fase final é a exportação das bandas desejadas do conjunto de dados. Machine Translated by Google Sensor Remoto 2020, 12, 3776 7 de 17 A classificação LULC é baseada em uma abordagem supervisionada que, como de costume, precisa coletar dos pontos de treinamento as informações necessárias utilizadas para treinar os classificadores [57]. Considerando o objetivo específico desta pesquisa, duas abordagens (PB e OO) foram implementadas no GEE, ambas utilizando alternativamente os classificadores RF ou SVM. Para realizar a classificação LULC, o código precisa deste conjunto de entradas: Em ambos os casos, a classificação depende do mesmo conjunto de dados composto inicial e dados de treinamento criados anteriormente. Para compor o conjunto de dados L8 inicial, bandas 2, 3, 4, 5, 6, 7, NDVI média, NDVI Std. Dev. e médias BSI foram selecionadas. Diferentemente de L8 e S2, o conjunto de dados base para dados PS foi gerado através de uma etapa de composição simplificada, calculando em pixel-base a mediana entre as 4 bandas multiespectrais de duas imagens (30 de março de 2019 e 26 de agosto de 2020) coletadas durante a pesquisa e carregado para a nuvem GEE. Nesse caso, para levar em conta a sazonalidade, duas bandas adicionais de NDVI, derivadas das duas imagens, foram adicionadas ao conjunto de dados inicial. A etapa de classificação OO combina uma etapa de agrupamento espacial, destinada a agrupar pixels semelhantes e contíguos, um cálculo subsequente de índices texturais em uma base de agrupamento e uma etapa final de classificação. Nesse sentido, o método proposto é baseado em um novo procedimento de duas etapas combinando os algoritmos SNIC e GLCM, já aplicados separadamente no GEE. O SNIC é realizado nas mesmas bandas utilizadas para a classificação PB, utilizando uma grade regular de sementes como entrada gerada pela função “Image.Segmentation.seedGrid” que requer um espaçamento de localização de sementes em superpixel (em pixels). • • valpnts: pontos de validação gerados aleatoriamente e rotulados manualmente com o mesmo código LULC • conjunto de dados: gerado anteriormente na etapa “Composição do conjunto de dados”. 2.3.2. Classificação LULC aulas LULC; usado para avaliar a precisão do modelo; roi: região de interesse; • newfc: uma coleção de recursos contendo todos os dados de treinamento rotulados com códigos correspondentes a O código executa as classificações PA e OO LULC de acordo com as duas abordagens mencionadas. Os dados de treinamento (pontos ou polígonos) podem ser convenientemente inseridos usando a interface GEE e adicionando tantas coleções de recursos (incluindo mais geometrias) quanto as classes LULC desejadas. Para melhorar a quantidade de informações supervisionadas, é criado um buffer com raio fixo (10 m) ao redor de cada ponto. As informações de treinamento da propriedade “LULC” da coleção de recursos “Newfc” são usadas para treinar o classificador escolhido. O conjunto de dados contendo os pontos de validação pode ser inserido usando a interface GEE ou embutido em um ambiente GIS (por exemplo, QGIS [58]) e importado no formato shapefile. Este conjunto de dados, conforme indicado, é usado para as avaliações de precisão dos dois métodos. Na etapa de classificação PB, a imagem é rapidamente classificada por uma definição preliminar do classificador RF, ou classificador SVM, e a fase de treinamento subsequente. Como geralmente realizado, uma normalização de banda do conjunto de dados de entrada foi aplicada antes de aplicar a classificação SVM. Para o classificador RF , o número de árvores foi fixado em 50, enquanto para o SVM foi aplicado um kernel de função de base radial (RBF) (com gama = 1 e custo = 10). Para limpar toda a saída e reduzir o efeito “sal e pimenta”, uma operação morfológica final (baseada em um modo focal) é realizada na classificação da saída. Este último influencia o tamanho do cluster e pode ser variado para encontrar um valor ótimo. Na fase de teste de código, vários espaçamentos de sementes (5, 10, 15, 20 para L8 e S2 e 35, 40, 45, 50 para PS) foram aplicados nos diferentes conjuntos de dados e comparados em termos de OA. Estes valores foram identificados após alguns testes gerais iniciais e considerando as características texturais das manchas de paisagem nas áreas de estudo. O SNIC identifica os objetos (clusters) de acordo com os parâmetros de entrada e gera um raster multibanda, incluindo os clusters e camadas adicionais contendo os valores médios das feições de entrada. O SNIC, no GEE, exige a definição de alguns parâmetros principais: o “fator de compacidade” influencia a forma do cluster ( valores maiores produzem clusters mais compactos); a “conectividade” (4 ou 8) define se considerarmos uma Torre ou Rainha Machine Translated by Google 8 de 17Sensor Remoto 2020, 12, 3776 O algoritmo GLCM, conforme indicado, requer uma imagem de 8 bits em nível de cinza como entrada. Em nosso código, esta imagem foi gerada através de uma combinação linear das bandas NIR, Red e Green da imagem composta inicial, de acordo com a seguinte fórmula: Um cálculo final é feito contando onúmero de pixels pertencentes a cada classe para calcular a área total (km2 e porcentagem) para cada classe LULC. Todas essas operações são desenvolvidas no domínio raster para acelerar a execução do código sem aplicar conversões ao domínio vetorial. A matriz de confusão permite calcular a precisão geral (OA) e estatística kappa (K) e mostra onde a classificação gera confusão (erros de omissão e comissão, quantificados respectivamente pela precisão do usuário - UA e precisão do produtor - PA) entre as classes LULC produzindo imprecisões . Então, após uma padronização adequada, uma PCA da métrica 7 GLCM mais relevante (Tabela 2), selecionada de acordo com Hall-Beyer et al. [14], é aplicado para derivar uma única banda representativa (o primeiro PC) que geralmente contém a grande maioria das informações texturais. A média de PC1 é então calculada em uma banda separada para cada objeto incluído na banda de “clusters” do SNIC. A banda média do objeto PC1 é finalmente adicionada àquelas extraídas do processo de segmentação SNIC. Nesse conjunto de dados, a mesma definição e procedimento de treinamento da classificação RF ou SVM baseada em pixels é reproduzido para obter a classificação LULC por meio da abordagem OO. Para superar as limitações computacionais do GEE, frente ao trabalho com dados PS, foi necessário exportar a classificação final para um ativo antes de visualizar a classificação OO LULC final. O teste inicial dos dados de PS foi realizado em uma janela menor dentro da área de estudo. A acurácia de ambas as classificações LULC é avaliada por meio de uma matriz de confusão implementada no GEE na qual o LULC vinculado aos pontos de validação é comparado estatisticamente com as classificações de saída. A acurácia é tipicamente considerada como o grau de proximidade dos resultados aos valores aceitos como verdadeiros [59], enquanto o coeficiente Kappa expressa a redução proporcional dos erros gerados por um processo de classificação em comparação com o erro de uma classificação completamente aleatória [60] . Neste estudo, considerando a contiguidade para mesclar clusters adjacentes; um “neighborhoodSize” para evitar artefatos de limite de ladrilho. Em nossa aplicação, sempre considerando as características da área de estudo, esses parâmetros foram definidos da seguinte forma: compacidade = 0, conectividade = 8 e tamanho da vizinhança = 256. As saídas do SNIC são variáveis dependendo da escala de visualização. Assim, no código, foi necessário fixar uma escala de saída adequada dos clusters através da função “reprojetar” (L8 = 30, S2 = 10, PS = 6). Para o L8 e S2 foi utilizada a resolução nativa, enquanto, para a saída PS, foi escolhida meia resolução espacial para acelerar as etapas subsequentes. Cinza = (0,3 × NIR) + (0,59 × VERMELHO) + (0,11 × VERDE) (1) 2.3.3. Avaliação de precisão Entropia Mede o contraste com base na variação local do nível de cinza Correlação Mede a uniformidade ou energia da distribuição do nível de cinza da imagem Contraste Momento de diferença inversa (IDM) Segundo Momento Angular (ASM) Variação Tabela 2. Lista e breves descrições das métricas selecionadas da Matriz de Coocorrência de Nível de Cinza (GLCM). Mede a dispersão da distribuição do nível de cinza para enfatizar as bordas visuais das manchas de cobertura da terra Mede o grau de desordem entre pixels na imagem Mede a dependência linear dos níveis de cinza dos pixels vizinhos Soma Média (SAVG) Bandas Mede a média da distribuição da soma dos níveis de cinza da imagem Descrição Mede a suavidade (homogeneidade) da distribuição do nível de cinza Machine Translated by Google GLCM: 78,4% vs. 68%). Este classificador funciona um pouco melhor com a abordagem PB em dados PS também observado nas saídas L8. Da mesma forma, uma distribuição muito anormal de culturas permanentes pode ser observada A Figura 3 mostra as melhores saídas PB e OO para cada sensor selecionado considerando o descrito acima Os resultados de OA dos vários testes realizados na área de estudo são relatados na Tabela 3. O melhor saídas OA. Na Figura 4, a diferença entre as classificações selecionadas, também em termos de tamanho do cluster, 82%; PS: 77,9% vs. 74,8%). A incorporação da informação textural melhora a classificação OO A classificação OO, pode ser observada para culturas permanentes, pastagens e culturas anuais, mas, considerando centro, um trecho do Lago Trasimeno e a área multicultural vizinha. A porcentagem do total S2, e 35, 40, 45, 50 para PS-em itálico), e. Os melhores resultados das abordagens PB e OO, para o A área ocupada por cada classe, de acordo com as abordagens de classificação selecionadas, é relatada na Figura 5. e as classes escolhidas para a classificação LULC. No código, as mesmas etapas foram aplicadas para avaliar e o classificador Random Forest (RF) ou o Support Vector Machine (SVM), excluindo ou incluindo textural como as características e a resolução dos dados de satélite, a distribuição dos pontos de validação, informação (GLCM) para a abordagem OO, usando diferentes espaçamentos de sementes (5, 10, 15, 20 pixels para L8 e usando dados de três dados de satélite diferentes (L8: Landsat 8; S2: Sentinel 2; PS: PlanetScope), aplicando Tabela 3. Precisões gerais resultantes das abordagens baseadas em pixels (PB) e orientadas a objetos (OO), matrizes de confusão, foram analisadas. É claro que muitos fatores podem influenciar a medição de precisões, extensão. No entanto, comparando os mapas LULC com a saída OO S2 (Figura 3), uma classificação. Água, matas, além das classificações L8, parecem mais semelhantes em seu total comparar todas as classificações. Dados PS (77,9% vs. 73,9%). 3. Resultados nas saídas PB S2 e PB PS também. enquanto, nos conjuntos de dados de resolução espacial mais alta, o método OO produz melhores resultados (S2: 89,3% vs. 54,668,0 74 73,9 61.1 89,3 86,9 82 SVM 80.2 Classificador Sáb PB 71,8 OO Sem GLCM RF 70,4 71,7 58,9 83,3 82,4 76,7 72,4 61,3 58,438,7 76,3 82,983,6 80,9 RF 70,9 OO Com GLCM PS 57,3 74,2 83,5 83,8 71,3 74,9 78,4 72,4 L8 73,1 84 73,6 70,4 72,7 82,2 84,2 67,6 5 (35) 10 (40) 15 (45) 20 (50) 5 (35) 10 (40) 15 (45) 20 (50) SVM 74,8 83,8 86,2 48,7 77,9 64,4 RF 73,1 S2 três conjuntos de dados, estão destacados em negrito. 64,0 72,9 SVM 79.1 70,8 86,6 85,3 Abordagem OO (PB: 82% vs. 80,2%; OO com GLCM: 89,3% vs. 86,9%) e com a abordagem OO no questões acima mencionadas em relação ao coeficiente Kappa [42], apenas o OA, PA e UA, derivados do sua pequena cobertura de área, uma divergência relevante também pode ser observada para as áreas construídas, e a Sensor Remoto 2020, 12, 3776 9 de 17 (74,8% vs. 74,2%). No entanto, o classificador RF obteve melhores resultados nos dados S2, tanto com o PB quanto com o os resultados das várias abordagens de classificação. As principais discrepâncias, em relação ao S2 Os mapas LULC e as áreasrelacionadas das classes LULC mostram diferenças muito significativas entre (S2: 89,3% vs. 86,6%; PS: 77,9% vs. 74%). O classificador SVM resulta mais eficaz em termos de OA em para dados S2 e PS, embora o aumento em OA seja mais pronunciado para o conjunto de dados PS em formação. Em dados L8, a abordagem PB tem um desempenho melhor do que a abordagem OB (79,1% vs. 78,4%), ambas as abordagens PB e OO nos dados L8 de resolução mais baixa (PB: 79,1% vs. 72,7%; OO sem configuração espacial de culturas permanentes, pastagens e vegetação ciliar e arbustos podem ser OA (89,3%) é alcançado com os dados S2 usando o método OO e incluindo o GLCM textural vegetação ciliar e arbustos também. As áreas construídas resultam particularmente subestimadas na L8 se mostra em uma interessante porção da área de estudo caracterizada pela presença das principais Machine Translated by Google Sensor Remoto 2020, 12, 3776 10 de 17 Figura 3. Imagem RGB, baseada em pixels (PB) e orientada a objetos (OO) Uso do solo – cobertura do solo (LULC) (f) OO para Sentinela 2; (g) imagem RGB, (h) PB, (i) OO para PlanetScope. (f) OO para Sentinela 2; (g) imagem RGB, (h) PB, (i) OO para PlanetScope. (f) OO para Sentinela 2; (g) imagem RGB, (h) PB, (i) OO para PlanetScope. Figura 4. Imagem RGB, classificação baseada em pixels (PB), cluster espacial (SC) identificado por Simple Non Figura 4. Imagem RGB, classificação baseada em pixels (PB), cluster espacial (SC) identificado por Simple Non Figura 4. RGB imagem, classificação baseada em pixels (PB), cluster espacial (SC) identificado por Simples Agrupamento iterativo (SNIC) e classificações orientadas a objetos (OO) de uma parte da área de estudo. (uma) Figura 3. Imagem RGB, baseada em pixels (PB) e orientada a objetos (OO) Uso do solo – cobertura do solo (LULC) (a) imagem RGB, (b) PB, (c) SC, (d) OO para Landsat 8; (e) imagem RGB, (f) PB, (g) SC, (h) OO para Sentinel 2; (i) imagem RGB, (j) PB, (k) SC, (l) OO para PlanetScope. Agrupamento não iterativo (SNIC) e classificações orientadas a objetos (OO) de uma parte da área de estudo. 10 de 18 10 de 18 Sensor Remoto 2020, 12, x PARA REVISÃO PEER Sens. Remoto 2020, 12, x PARA REVISÃO PEER Figura 3. Imagem RGB, baseada em pixels (PB) e orientada a objetos (OO) Uso do solo – cobertura do solo (LULC) classificações da área de estudo. (a) imagem RGB, (b) PB, (c) OO para Landsat 8; (d) imagem RGB, (e) PB, classificações da área de estudo. (a) imagem RGB, (b) PB, (c) OO para Landsat 8; (d) imagem RGB, (e) PB, classificações da área de estudo. (a) imagem RGB, (b) PB, (c) OO para Landsat 8; (d) imagem RGB, (e) PB, Agrupamento iterativo (SNIC) e classificações orientadas a objetos (OO) de uma parte da área de estudo. (uma) Machine Translated by Google erros de comissão (ou inclusão) (Figura 6b). Como esperado, todas as abordagens testadas funcionam para as outras classes LULC (culturas anuais, pastagens, florestas e corpos d'água) indicam apenas quantificar a porcentagem de pontos de validação classificados corretamente para cada classe LULC, suporta resultados, essas classes foram excluídas da Figura 6 e da análise seguinte. As outras classes LULC são caracterizadas por resultados de classificação muito variáveis dos diferentes métodos. Como já é uma AP muito boa (pastagens e matas ciliares e arbustos, principalmente com a abordagem PB), Uma visão mais profunda sobre a confiabilidade das saídas selecionadas e a acessibilidade dos vários S1-S3). PA, quantificando a porcentagem de pontos de validação corretamente classificados para cada classe LULC, enquanto os campos são classificados um pouco melhor que o método OO. Culturas permanentes e ribeirinhas subestimado na classificação L8. Água, matas, além das classificações L8, aparecem erros de inclusão (Figura 6b). Como esperado, todas as abordagens testadas funcionam muito bem na água resultados de classificação muito variáveis dos diferentes métodos. Conforme já demonstrado pela OA, o S2 vegetação e arbustos podem ser observados nas saídas L8. Da mesma forma, uma distribuição muito anormal de culturas permanentes pode ser observada também nas saídas PB S2 e PB PS. foram excluídos da Figura 6 e da análise seguinte. As outras classes LULC são caracterizadas por (L8: Landsat 8, S2: Sentinel 2; PS: PlanetScope; PB: baseado em pixel; OO: orientado a objetos). Assim, para melhorar a legibilidade dos gráficos e focar nos resultados mais interessantes, essas aulas mais semelhantes em sua extensão total. No entanto, comparando os mapas LULC com a saída OO S2 (Figura 3), uma configuração espacial muito inconsistente de culturas permanentes, pastagens e classes de matas ciliares e matas (apenas L8 OO mostra 42% de erros de omissão de pontos de validação de matas). Cultivos anuais cultivados Cultivos permanentes Pastagens Florestas Matas Ribeirinhas e Arbustos Água 11 de 17 muito bem nas classes de água e floresta (apenas L8 OO mostra 42% de erros de omissão de florestas pequenas diferenças entre as duas abordagens na perspectiva do usuário. áreas, bem como a vegetação ciliar e arbustos. As áreas edificadas resultam particularmente em percentagem de pontos corretamente classificados nas classes LULC de saída, indica a comissão (ou a considerando sua pequena área de cobertura, uma divergência relevante também pode ser observada para a construção da interpretação dos erros de omissão (ou exclusão) (Figura 6a), enquanto o UA, medindo o Figura 5. Percentagens da área total ocupada pelas classes LULC nas classificações selecionadas (L8: Figura 5. Percentagens da área total ocupada pelas classes LULC nas classificações selecionadas imagem RGB, (b) PB, (c) SC, (d) OO para Landsat 8; (e) imagem RGB, (f) PB, (g) SC, (h) OO para Sentinel 2; Remote Sens. 2020, 12, 3776 (i) imagem RGB, (j) PB, (k) SC, (l) OO para PlanetScope. Landsat 8, S2: Sentinela 2; PS: PlanetScope; PB: baseado em pixels; OO: orientado a objetos). culturas permanentes, pastagens e áreas construídas. Apesar dos baixos erros de omissão do permanente 6,5 32,6 20.1 PS OOS2OO 11 de 18 19,7 22,6 3.4 8.4 3.8 13,0 19.1 PS PB 22,7 5,0 2,5 9,0 17,9 28.1 20,4 S2 PB 0,9 22.2 1,6 2.7 16,5 23,0 19,7 4.1 Sensor Remoto 2020, 12, x PARA REVISÃO DE PEER 28,0 22,6 7,8 30,3 4,0 22,4 13,9 9,0 12,4 5,0 L8OO 9,5 22,4 11,9 27.1 6,0 L8 PB 10,0 12.3 os resultados das várias abordagens de classificação. As principais discrepâncias, em comparação com a classificação S2 OO, podem ser observadas para culturas permanentes, pastagens e culturas anuais, mas (Figura 6; as matrizes de confusão completas são relatadas nos Materiais Suplementares, Tabelas S1–S3). PA, resolução espacial, mostram várias imprecisões. A abordagem PS OO geralmente tem um desempenho melhor do que a demonstrado pelo OA, o S2 OO produz o melhor compromisso em todas as classes em termos de PA e UA. S2 PB apresenta piores resultados principalmente na classificação de matas ciliares e arbustos,erros permanentes de inclusão muito baixos, mas erros de exclusão muito altos. resultados de PA e UA para PS, apesar da maior mas suas saídas nos mapas são consideravelmente misturadas com outras classes. Áreas construídas do show PB Os mapas LULC e as áreas relacionadas das classes LULC mostram diferenças muito significativas entre as abordagens selecionadas é fornecida pela comparação de PA e UA derivadas das matrizes de confusão pontos de validação). Assim, para melhorar a legibilidade dos gráficos e focar no L8 mais interessante, devido à menor resolução espacial, geralmente tem um desempenho pior que o S2. Apenas algumas aulas mostram medir a porcentagem de pontos corretamente classificados nas classes de saída LULC, indica o e pastagens, enquanto este último é muitas vezes misturado com pastagens e florestas. Os resultados de precisão vegetação e arbustos, como esperado considerando a resolução S2, são as classes LULC mais críticas para culturas e áreas construídas, enquanto as pastagens são classificadas ligeiramente melhor do que o método OO. Uma visão mais profunda da confiabilidade das saídas selecionadas e da acessibilidade dos vários OO produz o melhor compromisso em todas as classes em termos de PA e UA. S2 PB mostra piores resultados as classes LULC mais críticas para ambas as abordagens. A imprecisão dos moldes deve-se principalmente à Culturas permanentes, matas ciliares e arbustos, como esperado considerando a resolução S2, são PB tanto do ponto de vista do produtor quanto do usuário. As classes mais problemáticas são, mais uma vez, As abordagens selecionadas são fornecidas pela comparação de AP e AU derivadas das matrizes de confusão (Figura 6; as matrizes de confusão completas são relatadas nos Materiais Suplementares, Tabelas principalmente na classificação de vegetação ciliar e arbustos, culturas permanentes e áreas construídas , suporta a interpretação dos erros de omissão (ou exclusão) (Figura 6a), enquanto o UA, ambas as abordagens. A imprecisão dos formadores deve-se principalmente à comissão com culturas anuais Machine Translated by Google 12 de 17Sensor Remoto 2020, 12, 3776 Sensor Remoto 2020, 12, x PARA REVISÃO PEER 12 de 18 As classes LULC de floresta e água são omitidas. Figura 6. Comparação das precisões do produtor (a) e do usuário (b) das classes LULC das classificações selecionadas (L8: Landsat 8, S2: Sentinel 2; PS: PlanetScope; PB: baseado em pixels; OO: orientado a objetos) . classificações (L8: Landsat 8, S2: Sentinel 2; PS: PlanetScope; PB: baseado em pixels; OO: orientado a objetos). culturas e áreas construídas, eles são caracterizados por erros de alta comissão em ambas as abordagens principalmente Com relação ao tempo de execução das seis abordagens descritas acima selecionadas, como esperado, é Figura 6. Comparação das acurácias do produtor (a) e do usuário (b) das classes LULC das As classes LULC de floresta e água são omitidas. Este trabalho desenvolveu com sucesso uma abordagem baseada em objetos combinando SNIC, GLCM e ML PB one, desenvolvido com as mesmas bandas de entrada e algoritmo de classificação. A comparação pode ser 4. Algoritmos de discussão em um código GEE amigável e de livre acesso. Esta última, amplamente comentada, permite a plataforma que permite aos usuários acessar, observar e analisar dados geoespaciais em todo o planeta, classe e precisão geral. Essas medidas fornecem informações mais sólidas sobre a confiabilidade do erros de comissão em ambas as abordagens principalmente devido à má classificação dos dados disponíveis das culturas anuais (construídas livremente), e ao aumento dos recursos computacionais. Google Earth Engine (GEE) erros de omissão dos cultivos permanentes e áreas construídas, eles são caracterizados por satélites de alta observação, às resoluções crescentes de sensores, aos arquivos massivos de (muitas vezes O uso de algoritmos de ML combinados com técnicas de análise orientada a objetos geográficos (GEOBIA) florestas e corpos d'água) indicam apenas pequenas diferenças entre as duas abordagens da AP, mostram uma UA muito boa na abordagem OO. e bosques. Os resultados de precisão para as outras classes LULC (culturas anuais, pastagens, abordagem OO). As culturas anuais e as classes de matas ciliares e arbustos, apesar da média L8, devido à menor resolução espacial, geralmente apresenta desempenho pior que S2. Apenas algumas classes proporcionais à resolução da imagem e à complexidade do processamento. Assim, a abordagem OO, as classes de vegetação e arbustos, apesar do PA médio, apresentam uma UA muito boa na abordagem OO. plataforma que permite aos usuários acessar, observar e analisar dados geoespaciais em todo o planeta, satélites de observação, às resoluções crescentes dos sensores, aos arquivos massivos de (muitas vezes gratuitamente) a comissão com culturas anuais e pastagens, enquanto este último é muitas vezes misturado com pastagens devido à má classificação das culturas anuais (áreas construídas têm erros de comissão menores no up têm erros de comissão mais baixos na abordagem OO). As culturas anuais e ribeirinhas alcançaram um sucesso considerável porque é uma análise e modelagem geoespacial baseada em nuvem gratuita O mundo do sensoriamento remoto (RS) está em constante crescimento graças ao lançamento de um novo usuário da terra para definir e ajustar vários parâmetros de entrada e comparar os resultados da abordagem OO com um do PB apresentam erros de inclusão muito baixos, mas erros de exclusão muito altos. Resultados PA e UA para PS, classificação LULC. proporcional à resolução da imagem e à complexidade do processamento. Assim, a abordagem OO, sobre O uso de algoritmos de ML combinados com técnicas de análise orientada a objetos geográficos (GEOBIA) média, exige mais tempo do que o PB (L8: 15,76 s vs. 6,35 s; S2: 35,75 s vs. 4,11 s; PS: 75,25 s está em constante evolução, e o GEE, como mostrado nesta pesquisa, é um ambiente eficaz construir dados disponíveis, e ao aumento dos recursos computacionais. O Google Earth Engine (GEE) executou visualmente, avaliando os mapas LULC de saída e analisando as matrizes de precisão para um perspectiva do usuário. apresentam uma AP muito boa (campos e matas ciliares e arbustos, principalmente com o PB em média, é mais demorado do que o PB (L8: 15,76 s vs. 6,35 s; S2: 35,75 s vs. 4,11 s; abordagem), mas suas saídas nos mapas são consideravelmente misturadas com outras classes. Áreas construídas PS: 75,25 s vs. 7,25 s). O tempo de execução do PS OO inclui a etapa de exportação necessária do geralmente melhor que o PB tanto do ponto de vista do produtor quanto do usuário. As classes mais problemáticas são, mais uma vez, culturas permanentes, pastagens e áreas construídas. Apesar da baixa O mundo do sensoriamento remoto (RS) está em constante crescimento graças ao lançamento de nova terra Em relação ao tempo de execução das seis abordagens descritas acima selecionadas,como esperado, é graças a um enorme arquivo de dados pronto para uso que permite a experimentação de muitas aplicações. classificação. e processos de classificação. graças a um enorme arquivo de dados pronto a usar que permite a experimentação de muitas aplicações. apesar da maior resolução espacial, apresentam várias imprecisões. A abordagem PS OO realiza 4. Discussão vs. 7,25 s). O tempo de execução do PS OO inclui a necessária etapa de exportação das imagens compostas multitemporais LULC finais e implementa, de maneira direta, processamento de imagens complexas alcançou um sucesso considerável porque é uma análise e modelagem geoespacial baseada em nuvem gratuita para uma determinada área de estudo. As matrizes permitem ao usuário calcular a precisão do usuário e do produtor para cada Machine Translated by Google Sensor Remoto 2020, 12, 3776 13 de 17 O SNIC resultou de forma muito eficaz no delineamento de objetos (neste caso, as manchas de paisagem), embora, em sua aplicação ordinária dentro do GEE, seja baseado em uma grade de sementes espaçadas regularmente. duas abordagens de classificação e sobre o possível valor agregado de usar uma abordagem OO. Na maioria dos casos, conforme destacado na introdução, esta última proporciona maior precisão na classificação em comparação à baseada em pixels, devido ao uso combinado de informações espectrais, espaciais e texturais. No entanto, como mostrado neste estudo para os dados de L8 e outras pesquisas [44,47], os resultados são variáveis dependendo dos conjuntos de dados de entrada, das classes de LULC selecionadas e das peculiaridades da área de estudo. Nesse sentido, como mostrado neste aplicativo, o script pode ser convenientemente usado para comparar os resultados OO e PB produzidos usando conjuntos de dados em diferentes resoluções, testar várias configurações e parâmetros de entrada e selecionar vários algoritmos de classificação. Nesse sentido, uma possível melhoria poderia ser o uso de sementes geradas identificando o mínimo ou máximo local de variância [61]. Conforme mostrado neste aplicativo, testar as saídas de vários espaçamentos de sementes pode ser muito útil para encontrar o tamanho de cluster mais eficaz, considerando também o tamanho das manchas da paisagem. Em comparação com estudos anteriores, a abordagem proposta combinou SNIC com GLCM para analisar as características texturais dos conjuntos de dados de entrada. Este é um algoritmo amplamente utilizado no processamento de imagens que tem mostrado, também no GEE, um desempenho muito bom na caracterização das texturas dos objetos através de uma ampla gama de índices texturais. No código, uma aplicação posterior de um PCA nas sete métricas GLCM mais importantes permite ao usuário incluir na classificação OO uma única banda que sintetiza a maioria das informações texturais disponíveis. Se necessário, considerando a variância relativa expressa pelos PCs calculados pelo código, mais PCs poderiam ser selecionados e utilizados para a classificação. Essa etapa resultou muito útil, pois dispensa o usuário da seleção das métricas de GLCM mais eficazes a serem utilizadas na classificação. Conforme indicado, toda a identificação do objeto e posterior caracterização textural foram desenvolvidas no domínio raster no qual o GEE tem um desempenho muito bom. Tal abordagem, embora associada a uma execução de código mais rápida, não permite considerar o tamanho e a forma do objeto, o que pode ser muito importante para objetos regulares em resoluções mais altas. A vetorização de objetos poderia superar essa limitação, conforme proposto por Firigato [32], porém, considerando o ambiente GEE orientado a raster , as poucas tentativas nesse sentido são caracterizadas por uma execução de código muito lenta ou por um bloqueio no processamento devido a uma grande número de geometrias. As informações de GLCM, mesmo com a resolução S2 de 10 m, melhoraram tanto a classificação de classes LULC muito heterogêneas e complexas, como as áreas construídas (devido à sua alta entropia interna [62]) quanto a identificação daqueles trechos caracterizados por uma textura regular, como as culturas permanentes. Esta classe de LULC, incluindo principalmente olivais e vinhas com espaçamento entre árvores inferior ao S2 (e mesmo à resolução PS), foi incluída como um desafio para explorar a potencialidade OO em GEE. A acurácia muito boa obtida para esta classe, juntamente com a alcançada para as áreas construídas, demonstrou claramente uma grande potencialidade da metodologia OO proposta mesmo com dados S2. Diferentemente, a aplicação deste método em dados L8, utilizando SNIC, ou SNIC e GLCM não melhorou a saída do PB. Isso provavelmente se deve à impossibilidade com a resolução espacial L8 de ler texturas relevantes de manchas de paisagem dentro da área de estudo. Inesperadamente, o conjunto de dados PlanetScope , apesar de sua resolução espacial mais do que tripla, produziu resultados gerais inferiores em comparação ao S2, mesmo adotando uma abordagem OO. Este resultado provavelmente está relacionado à menor resolução temporal e espectral deste conjunto de dados, e aos poucos pontos de treinamento utilizados que, juntos, forneceram informações escassas para diferenciar adequadamente as várias classes agrícolas. Portanto, embora as culturas permanentes sejam bem reconhecidas tanto na abordagem PB quanto OO (com uma UA semelhante do S2 OO), a má classificação das culturas anuais e pastagens gerou uma comissão considerável em todas as três classes agrícolas. Isso pode sugerir que a resolução espacial de 3 m não forneceu informação textural suficiente para a separação efetiva das três classes agrícolas e que a maior resolução temporal e espectral S2, resumida pelas bandas medianas e pelas estatísticas do índice espectral resultou, neste quesito, mais eficaz. O uso de um conjunto de dados PS inicial mais oportuno e estendido pode ajudar a melhorar a precisão do LULC produzido usando essa fonte de dados. Machine Translated by Google Sensor Remoto 2020, 12, 3776 14 de 17 [CrossRef] Materiais Complementares: Os seguintes estão disponíveis online em http://www.mdpi.com/2072-4292/12/22/3776/s1, Tabela S1: Matrizes de confusão PB e OO para L8, Tabela S2: Matrizes de confusão PB e OO para S2, Tabela S3: Matrizes de confusão PB e OO para PS. Os códigos GEE que processam dados S2, desenvolvidos nesta pesquisa, estão disponíveis gratuitamente on-line em https://code.earthengine.google.com/? accept_repo=users/mvizzari/Tassi_Vizzari_RS2020. Referências 5. Conclusões 4. 3. 2. Shalaby, A.; Tateishi, R. Sensoriamento remoto e GIS para mapeamento e monitoramento da cobertura da terra e mudanças no uso da terra na zona costeira noroeste do Egito. Aplic. Geogr. 2007, 27. [CrossRef] 9. Financiamento: Esta pesquisa não recebeu financiamento externo Contribuições dos Autores: Conceituação, MV e AT; metodologia, MV e AT; software, AT; preparaçãodo projeto original , AT; redação— revisão e edição, MV Todos os autores leram e concordaram com a versão publicada do manuscrito. Vizzari, M.; Hilal, M.; Sigura, M.; Antognelli, S.; Joly, D. Análise de gradiente urbano-rural-natural com dados CORINE: Uma aplicação para a França metropolitana. Landsc. Plano Urbanístico. 2018, 171. [CrossRef] 7. Vizzari, M.; Sigura, M. Sequências de paisagem ao longo do gradiente urbano-rural-natural: Uma nova abordagem geoespacial para identificação e análise. Landsc. Plano Urbanístico. 2015, 140, 42-55. [CrossRef] 5. Lata. J. Sensor Remoto 2018, 67–68. [CrossRef] Conflitos de interesse: Os autores declaram não haver conflito de interesse. 6. Hermosilla, T.; Wulder, MA; Branco, JC; Coopers, NC; Hobart, GW Mapas Anuais de Classificação da Cobertura do Solo Informados sobre Distúrbios dos Ecossistemas Florestais do Canadá para uma Série Temporal Landsat de 29 Anos. Griffiths, P.; van der Linden, S.; Kuemmerle, T.; Hostert, P. Um algoritmo de composição Landsat baseado em pixel para mapeamento de cobertura de terra de grande área. IEEE J. Sel. Topo. Aplic. Terra Obs. Sensor Remoto 2013, 6. [CrossRef] 8. Blaschke, T. Análise de imagem baseada em objetos para sensoriamento remoto. ISPRS J. Photogramm. Sensor Remoto 2010, 65, 2-16. [CrossRef] 11. Messina, G.; Pena, JM; Vizzari, M.; Modica, G. Uma comparação de imagens multiespectrais de UAV e satélites no monitoramento da cultura da cebola. Um pedido no 'Cipolla Rossa di Tropea' (Itália). Sensor Remoto 2020, 12, 3424. [CrossRef] 1. Pfeifer, M.; Disney, M.; Quaife, T.; Marchant, R. Ecossistemas terrestres do espaço: Uma revisão de produtos de observação da Terra para aplicações de macroecologia. Globo. Eco Biogeografia 2012. [CrossRef] 10. Ren, X.; Malik, J. Aprendendo um modelo de classificação para segmentação. In Proceedings of the IEEE International Conference on Computer Vision, Nice, França, 13–16 de outubro de 2003. [CrossRef] GEE mostrou, mais uma vez, considerável versatilidade e adaptabilidade devido à sua arquitetura em nuvem, sua interface amigável e sua linguagem de script eficiente. Dentro do ambiente GEE, este trabalho desenvolveu e testou uma abordagem de classificação OO combinando o algoritmo SNIC para identificar clusters espaciais, o GLCM para calcular índices texturais de cluster e dois algoritmos de ML amplamente utilizados (RF e SVM) para realizar a classificação final. A abordagem foi implementada em um código amigável , útil para comparar as abordagens de classificação OO e PB, ajustando várias configurações e parâmetros de entrada. Na área de estudo, a abordagem OO produziu uma sensível melhoria na precisão dos conjuntos de dados S2 e PS. Apesar da menor resolução espacial, S2 obteve melhores resultados que PS graças à maior resolução temporal e espectral. Devido à menor resolução espacial e considerando as características da área de estudo, o método OO não produziu melhores resultados do que a abordagem PB nos dados L8. Nossa aplicação demonstrou a confiabilidade de toda a metodologia, embora a classificação OO, devido à sua maior complexidade, resulte mais computacionalmente exigente, e tenda a desacelerar (e às vezes bloquear) a execução do código GEE, principalmente usando dados de maior resolução. Gorelick, N.; Hancher, M.; Dixon, M.; Ilyushchenko, S.; Thau, D.; Moore, R. Sensoriamento Remoto do Ambiente Google Earth Engine: Análise geoespacial em escala planetária para todos. Sensor Remoto Ambiente. 2017, 202. Solano, F.; Di Fazio, S.; Modica, G. Uma metodologia baseada em imagens GEOBIA e WorldView-3 para derivar índices de vegetação em detalhes de copas de árvores em pomares de oliveiras. Int. J. Appl. Terra Obs. Geoinf. 2019, 83, 101912. Machine Translated by Google http://dx.doi.org/10.1016/j.rse.2017.06.031 http://www.mdpi.com/2072-4292/12/22/3776/s1 https://code.earthengine.google.com/?accept_repo=users/mvizzari/Tassi_Vizzari_RS2020 http://dx.doi.org/10.1016/j.apgeog.2006.09.004 http://dx.doi.org/10.1016/j.landurbplan.2017.11.005 http://dx.doi.org/10.1016/j.landurbplan.2015.04.001 http://dx.doi.org/10.1080/07038992.2018.1437719 http://dx.doi.org/10.1109/JSTARS.2012.2228167 http://dx.doi.org/10.1016/j.isprsjprs.2009.06.004 http://dx.doi.org/10.3390/rs12203424 http://dx.doi.org/10.1111/j.1466-8238.2011.00712.x http://dx.doi.org/10.1016/j.jag.2019.101912 [CrossRef] 15 de 17Sensor Remoto 2020, 12, 3776 13. Flandres, D.; Hall-Beyer, M.; Pereverzoff, J. Avaliação preliminar de software baseado em objeto eCognition para delineação de blocos de corte e extração de recursos. Lata. J. Remote Sens. 2003, 441–452. [CrossRef] Reconhecimento de padrões. Lett. 2006, 27, 294-300. [CrossRef] 24. Wang, Y.; Li, Z.; Zeng, C.; Xia, G.-S.; Shen, H. Um método de extração de água urbana que combina aprendizado profundo e Google Earth Engine. IEEE J. Sel. Topo. Aplic. Terra Obs. Sensor Remoto 2020, 13, 769–782. [CrossRef] 25. Cheng, G.; Han, J.; Lu, X. Classificação de Cenas de Imagens de Sensoriamento Remoto: Benchmark e Estado da Arte. 12. Achanta, R.; Süsstrunk, S. Superpixels e polígonos usando agrupamento simples não iterativo. In Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, EUA, 21 a 26 de julho de 2017. 15. Ghimire, B.; Rogan, J.; Galiano, V.; Panday, P.; Neeti, N. Uma avaliação de ensacamento, reforço e florestas aleatórias para classificação de cobertura da terra em Cape Cod, Massachusetts, EUA. GIScience Remote Sens. 2012, 623–643. 26. Abadi, M.; Barham, P.; Chen, J.; Chen, Z.; Davis, A.; Dean, J.; Devin, M.; Ghemawat, S.; Irving, G.; Isard, M.; et ai. TensorFlow: Um sistema para aprendizado de máquina em larga escala. In Proceedings of the 12th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2016, Savannah, GA, EUA, 2–4 de novembro de 2016. 14. Hall-Beyer, M. Diretrizes práticas para a escolha de texturas GLCM para uso em tarefas de classificação de paisagem em uma faixa de escalas espaciais moderadas. Int. J. Sensor Remoto 2017, 38, 1312–1338. [CrossRef] Proc. IEEE 2017, 105, 1865-1883. [CrossRef] [CrossRef] 22. De Luca, GN; Silva, JM; Cerasoli, S.; Araújo, J.; Campos, J.; Di Fazio, S.; Modica, G. Classificação da Cobertura do Solo Baseada em Objetos de Florestas de Sobreiro usando Imagens de UAV e Orfeo ToolBox. Sensor Remoto 2019, 11, 1238. [CrossRef] 28. Mahdianpari, M.; Salehi, B.; Mohammadimanesh, F.; Brisco, B.; Homayouni, S.; Gill, E.; DeLancey, ER; Bourgeau-Chavez, L. Big Data para um grande país: a primeira geração do mapa de inventário de zonas úmidas canadenses em uma resolução espacial de 10 m usando dados do Sentinel-1 e do Sentinel-2 na plataforma de computação em nuvem do Google Earth Engine. Lata. J. Sensor Remoto 2020, 46, 15–33. [CrossRef] 29. Paludo, A.; Becker, WR; Richetti, J.; Silva, LCDA; Johann, JA Mapeando soja e milho de verão com sensoriamento remoto na computação em nuvem Google Earth Engine no estado do Paraná–Brasil. Int. J. Dígito. Terra 2020, 1-13.