remotesensing-12-03776-v2 (1)

•

UFMS

Jhonnattan Oliveira

27/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Uma Análise de Componentes Principais (PCA) é aplicada aos sete principais índices GLCM para sintetizar
em uma banda as informações texturais usadas para a classificação OO. A abordagem proposta é
implementada em um código GEE amigável e disponível gratuitamente, útil para realizar a classificação OO,
ajustando vários parâmetros (por exemplo, escolher as bandas de entrada, selecionar o algoritmo de
classificação, testar várias escalas de segmentação) e compará-lo com uma abordagem PB . A precisão das
classificações OO e PB pode ser avaliada visualmente e por meio de duas matrizes de confusão que podem
ser usadas para calcular as estatísticas relevantes (do produtor, do usuário, precisão geral (OA)). A metodologia
proposta foi amplamente testada em uma área de estudo de 154 km2 , localizada na área do Lago Trasimeno
(centro da Itália), usando dados do Landsat 8 (L8), Sentinel 2 (S2) e PlanetScope (PS). A área foi selecionada
considerando seu complexo mosaico LULC composto principalmente por superfícies artificiais, cultivos anuais
e permanentes, pequenos lagos e áreas arborizadas. Na área de estudo, os vários testes produziram resultados
interessantes nos diferentes conjuntos de dados (OA: PB RF (L8 = 72,7%, S2 = 82%, PS = 74,2), PB SVM (L8
= 79,1%, S2 = 80,2%, PS = 74,8%), OO RF (L8 = 64%, S2 = 89,3%, PS = 77,9), OO SVM (L8 = 70,4, S2 =
86,9%, PS = 73,9)). A aplicação de código amplo demonstrou muito boa confiabilidade de todo o processo,
embora o processo de classificação OO tenha resultado, às vezes, muito exigente em dados de maior
resolução, considerando os recursos computacionais GEE disponíveis.
sensoriamento remoto
Artigo
1. Introdução
www.mdpi.com/journal/remotesensing
Andrea Tassi e Marco Vizzari *
GLCM; aprendizado de máquina; Floresta Aleatória (RF); Máquina de vetores de suporte (SVM); avaliação de precisão
Classificação LULC orientada a objetos no Google Earth
Algoritmos de Aprendizagem
Motor Combinando SNIC, GLCM e Máquina
Sensor Remoto 2020, 12, 3776; doi:10.3390/rs12223776
Departamento de Ciências Agrícolas, Alimentares e Ambientais, Universidade de Perugia, 06121 Perugia, Itália;
andreatassi23@gmail.com * Correspondência: marco.vizzari@unipg.it; Tel.: +39-075-585-6059
Recebido: 12 de outubro de 2020; Aceito: 13 de novembro de 2020; Publicado: 17 de novembro de 2020
Resumo: O Google Earth Engine (GEE) é uma plataforma de nuvem versátil na qual as abordagens de classificação de
uso da terra-cobertura (LULC) baseadas em pixels (PB) e orientadas a objetos (OO) podem ser implementadas, graças à
disponibilidade de vários estados funções de última geração que compreendem vários algoritmos de aprendizado de
máquina (ML). Abordagens OO, incluindo segmentação de objetos e análise de textura de objetos, ainda não são comuns
no ambiente GEE, provavelmente devido às dificuldades existentes em concatenar as funções apropriadas e ajustar os
vários parâmetros para superar os limites computacionais do GEE. Neste contexto, este trabalho tem como objetivo
desenvolver e testar uma abordagem de classificação OO combinando o algoritmo Simple Non-Iterative Clustering (SNIC)
para identificar clusters espaciais, a Matriz de Coocorrência de Nível de Cinza (GLCM) para calcular índices texturais de
cluster, e dois algoritmos de ML (Random Forest (RF) ou Support Vector Machine (SVM)) para realizar a classificação
final.
Palavras-chave: uso do solo cobertura do solo; Motor do Google Earth (GEE); Sentinela 2; Landsat 8; PlanetScope; SNIC;
O sensoriamento remoto por satélite (RS) fornece dados essenciais que auxiliam no mapeamento e no estudo da
superfície da Terra. Os arquivos de dados do RS, graças à crescente disponibilidade de satélites e ao aumento das
resoluções das imagens (radiométrica, espectral, espacial e temporal) estão em constante expansão, permitindo aos usuários
Machine Translated by Google
http://www.mdpi.com/journal/remotesensing
http://dx.doi.org/10.3390/rs12223776
Sensor Remoto 2020, 12, 3776 2 de 17
potencialmente acessar e analisar conjuntos de dados de séries temporais muito grandes, mas com tempo e custos
computacionais crescentes. Na última década, o processamento de dados RS mudou de estações de trabalho tradicionais
equipadas com hardware de última geração (e muitas vezes muito caro) e software RS, para plataformas baseadas em
nuvem que permitem aos usuários acessar e analisar instantaneamente grandes dados geoespaciais processados por
meio de interfaces amigáveis baseadas na web e linguagens de script eficazes. Dentre essas plataformas, o Google Earth
Engine (GEE) está alcançando um sucesso considerável por ser uma plataforma de análise geoespacial baseada em
nuvem que permite aos usuários resolver, de forma muito eficiente, os principais problemas relacionados ao gerenciamento
de quantidades imensamente grandes de dados, seu armazenamento, integração, processamento e análise [1].
O delineamento de objetos é realizado em uma etapa crucial baseada em um agrupamento e segmentação de imagens
visando agrupar pixels semelhantes em agrupamentos de imagens e convertê-los em vetores [9-11]. Nesse sentido, o
algoritmo Simple Non-Iterative Clustering (SNIC), disponível no GEE, mostrou-se muito eficiente em agrupar pixels
semelhantes e identificar potenciais objetos individuais [12]. Após a segmentação, o GEOBIA geralmente combina
informações espectrais e espaciais com as informações de textura e contexto da imagem para realizar a classificação
final do objeto [13]. No GEE, está disponível a Matriz de Coocorrência de Nível de Cinza (GLCM), um método muito
eficaz para a extração de 18 índices texturais de imagens em escala de cinza de 8 bits. Este recurso parece muito útil,
pois permite o aplicativo GEOBIA mesmo em imagens em tons de cinza. A aplicação subsequente da Análise de
Componentes Principais pode ajudar a reduzir efetivamente a alta dimensionalidade das saídas do GLCM em poucas
bandas representativas [14].
Os mapas LULC são muito úteis para analisar a composição e configuração da paisagem, e para detectar as mudanças
que estão ocorrendo na paisagem, bem como considerar as transformações com os gradientes do ambiente [3,4].
Compreender as mudanças do LULC e identificar espacialmente os hotspots de transformação são extremamente
relevantes para o monitoramento, planejamento e gestão de ecossistemas. Tais classificações geralmente requerem
uma etapa inicial voltada para a composição da imagem multitemporal para limitar a cobertura de nuvens e calcular
estatísticas de imagem e índices espectrais utilizados para melhorar a precisão da classificação. Nesse sentido, o GEE
permite que os usuários definam diferentes modus operandi para a combinação dos dados de entrada, permitindo criar
com eficiência conjuntos de dados compostos leves, sem nuvens, multitemporais e sem ter que se deparar com blocos
relacionados a imagens de recursos computacionais locais limitados [5,6].
A etapa de classificação, tantoem processos PB quanto em OO, pode ser realizada usando várias soluções.
Abordagens de classificação automática LULC comuns, aplicadas a dados RS, são baseadas em um cálculo
de assinaturas espectrais de classes LULC selecionadas usando dados de treinamento e discriminação baseada
em pixels entre diferentes tipos de cobertura do solo [7]. Graças às recentes melhorias nos algoritmos de
segmentação de imagens, as abordagens baseadas em objetos (chamadas Geographic Object-Based Image
Analysis—GEOBIA) estão se tornando mais populares em comparação com a análise e classificação de imagens
tradicionais, devido à sua capacidade de delinear e classificar a paisagem objetos ou manchas, em diferentes escalas [8].
Os recentes classificadores de Machine Learning (ML) demonstraram um desempenho superior em comparação
aos tradicionais de máxima verossimilhança [15] e não exigem nenhuma suposição sobre a distribuição dos
dados. Em particular, classificadores de ML não paramétricos, como Classification and Regression Trees (CART),
Random Forest (RF) e Support Vector Machine (SVM) foram relatados para fornecer resultados de classificação
LULC extremamente precisos de imagens de sensoriamento remoto [16,17 ]. O CART é um classificador de
árvore de decisão binária simples e funciona usando um limiar pré-definido [18], enquanto o RF é um classificador
de conjunto baseado na combinação de várias árvores do tipo CART. A RF é altamente eficiente e precisa, e é
um dos classificadores favoritos para classificação LULC [19,20], porque, geralmente, tem um desempenho
melhor do que outros classificadores populares [21]. O SVM é um classificador de bom desempenho, mas parece um pouco mais
Métodos orientados a objetos (OO) geralmente produzem melhores resultados em dados de maior resolução,
apesar dos maiores custos computacionais de segmentação e do uso de vários recursos para a classificação,
enquanto o uso da abordagem baseada em pixels (PB) é normalmente recomendado para menores resoluções.
Este último, como acontece com frequência, sofre o chamado efeito “sal-pimenta” em resoluções espaciais mais altas.
Uma aplicação típica de dados do RS é a produção de mapas de Uso do Solo/Cobertura do Solo (LULC),
que descrevem como a terra é usada para vários fins humanos, como agricultura ou áreas residenciais, ou as
características físicas da superfície da Terra (ou seja, corpos d'água , pastagens, rochas) [2].
Machine Translated by Google
Sensor Remoto 2020, 12, 3776 3 de 17
complexo, pois requer a escolha e ajuste de kernels e outros parâmetros de entrada [22,23]. A maioria desses
métodos de classificação depende de dados de treinamento de alta qualidade e de combinações adequadas de
recursos que afetam diretamente a estabilidade dos resultados da classificação [24]. A seleção e implementação
de tais recursos geralmente consomem tempo e exigem ampla habilidade de engenharia e conhecimento técnico.
Diferentemente, nas abordagens modernas de Deep Learning (DL), os recursos são implementados
automaticamente a partir de dados de entrada usando procedimentos de aprendizado baseados em redes
neurais que geram várias camadas de processamento. Essas camadas fornecem representações de recursos
mais eficazes por meio de vários níveis de abstração que resultam muito eficazes na descoberta de estruturas
complexas e informações discriminativas ocultas em dados multidimensionais [25]. Modelos DL também podem
ser utilizados em GEE através da plataforma TensorFlow [26]; no entanto, sua implementação não é direta para
usuários comuns do GEE, pois esses modelos devem ser desenvolvidos e treinados fora do GEE usando a API
GEE e a plataforma Google Colab. Assim, a aplicação de algoritmos de classificação ML comuns, como RF e
SVM, ainda é uma opção conveniente no ambiente GEE.
A matriz é usada para derivar uma série de estatísticas descritivas e analíticas (usuário, produtor e precisão geral
- OA - e estatística Kappa - K) úteis para interpretar e sintetizar o nível de precisão de um determinado mapa
LULC [16,41]. Apesar de sua ampla aplicação, a estatística kappa pode ser muito enganosa para avaliar ou
comunicar a precisão da classificação devido à sua alta dependência da variação da prevalência de classe [42].
Uma comparação automática entre os métodos PB e OO na classificação LULC,
O GEOBIA, incluindo tanto a segmentação de objetos quanto a análise de textura de objetos, ainda não é
comum no ambiente GEE, provavelmente devido às dificuldades existentes em concatenar as funções apropriadas
e ajustar os diversos parâmetros para superar os limites computacionais do GEE. O algoritmo SNIC tem sido
amplamente utilizado no GEE para identificar clusters espaciais e melhorar a classificação LULC. Por exemplo,
Mahdianpari et al. [27,28], para produzir o Canadian Wetland Inventory, implementaram uma classificação baseada
em objetos dos dados S2 e S1, com base no SNIC e RF, o que melhorou substancialmente a classificação do PB.
Paludo et ai. [29] mapearam soja e milho no Paraná, obtendo altíssima precisão, aplicando o SNIC e o classificador
Continuous Naive Bayes nos dados do Landsat-8, Sentinel-2 e SRTM+ (Shuttle Radar Topography Mission). Para
classificar o LULC do Irã, o SNIC deveria identificar segmentos nos dados S2 e aprimorar o resultado da
classificação do algoritmo de RF baseado em pixels usando um cálculo majoritário dentro de cada segmento [30].
Djerriri et ai. [31] propuseram uma abordagem orientada a objetos baseada na classificação de imagens S2 usando
agrupamento SNIC combinado com o classificador RF e os resultados foram mais precisos que os da abordagem
baseada em pixels. Firigato [32] realizou uma classificação RF de imagens de satélite de alta resolução usando
SNIC e posterior vetorização, e uma seleção de recursos baseada em NDVI significa gradiente de direções e
outras propriedades, como área, altura e largura. Em algumas pesquisas baseadas no GEE, a etapa de
segmentação foi desenvolvida fora do GEE. Por exemplo, Stromann et ai. [33] desenvolveram uma classificação
LULC SVM baseada em objetos, utilizando dados S1 e S2, através de uma etapa preliminar de segmentação
realizada em software comercial e uma posterior caracterização de características em GEE com base em GLCM.
Xiong et ai. [34] produziram um mapa de terras agrícolas de 30 m da África continental integrando algoritmos PB
e OO usando dados S2 e L8, usando SVM e RF; a etapa de segmentação foi baseada em uma segmentação
hierárquica recursiva realizada no supercomputador NASA Pleiades. O GLCM tem sido usado no GEE para derivar
índices texturais e melhorar a classificação LULC. Por exemplo, além da pesquisa acima citada de Stromann et al.
[33], Godinho et al. [35] combinaram bandas multiespectrais com os índices de vegetação e texturas GLCM para
melhorar a classificação LULC. Mananze et ai. [36] derivou um mapa de Cobertura do Solo de uma áreade estudo
em Moçambique a partir das bandas Landsat 7 e Landsat 8, índices de vegetação e características texturais
extraídas pelo GLCM. Radar e imagens ópticas foram combinados para mapear plantações de dendezeiros em
Sumatra, Indonésia, usando características texturais GLCM, derivadas de dados SAR (Synthetic Aperture Radar),
para melhorar a classificação [37].
Os usuários de mapas LULC precisam saber o quão precisos são os mapas para usar os dados de forma
mais coerente [38]. A abordagem de avaliação de precisão de classificação mais usada é na forma de uma matriz
de confusão baseada em uma comparação entre as saídas de classificação e dados de verdade [39,40].
Machine Translated by Google
a classificação OO ajusta vários parâmetros (por exemplo, escolha as bandas de entrada, selecione a classificação
RF ou SVM, teste várias escalas de segmentação) e compare com uma abordagem PB. A precisão de
A área de estudo de 154 km2 , selecionada para o desenvolvimento e teste da metodologia proposta, está
localizada ao redor do Lago Trasimeno, em Umbria, Itália Central (43ÿ060N, 12ÿ070E) (Figura 1).
está localizado ao redor do Lago Trasimeno, na Úmbria, Itália Central (43°06ÿN, 12°07ÿE) (Figura 1). Lago Lago
Trasimeno, o quarto maior lago italiano, está situado na parte noroeste da Umbria
índices e dois algoritmos de ML amplamente utilizados (RF e SVM) para realizar a classificação final. A abordagem
é implementada em um código GEE fácil de usar e disponível gratuitamente, útil para realizar o OO
Trasimeno, o quarto maior lago italiano, está situado na parte noroeste da Úmbria e tem uma superfície de cerca
de 120,73 km2 [45]. Desde março de 1995, a área tornou-se uma região
Neste contexto, este trabalho tem como objetivo desenvolver e testar uma abordagem de classificação OO
diversidade de espécies. Turismo, agricultura e pecuária são as atividades mais importantes na área de Trasimeno: as terras cultivadas cobrem cerca de 70% da área de captação do lago,
baseado em matrizes de confusão, pode ser muito útil para definir a melhor abordagem em termos de precisão
das várias classes LULC [43] e avaliar a melhoria alcançada com a abordagem OO,
imagem (c) e imagem infravermelha composta (d) com base em 10 m de resolução Sentinel 2 bandas.
Figura 1. Localização da área de estudo na Úmbria, Itália (a) e visão geral da área do Lago Trasimeno (b). RGB Figura 1. Localização da área de estudo na Úmbria, Itália (a) e visão geral da área do Lago Trasimeno (b).
Sensor Remoto 2020, 12, x PARA REVISÃO DE PEER 4 de 18
2. Materiais e métodos
2.1. Área de estudo
terrenos agrícolas (por exemplo, sementeiras, prados, vinhas, olivais), zonas arborizadas, pequenos lagos artificiais privados artificiais.
a precisão final é sempre condicionada pelas propriedades dos dados de entrada [44], pela qualidade das informações de treinamento
do treinamento e pelas peculiaridades das áreas de estudo.
2.1. Área de Estudo
A área de estudo de 154 km2 , selecionada para o desenvolvimento e teste da metodologia proposta,
combinando o algoritmo SNIC para identificar clusters espaciais, o GLCM para calcular a textura do cluster e dois
algoritmos de ML amplamente utilizados (RF e SVM) para realizar a classificação final. O proposto
2. Materiais e métodos
algoritmo RF ou SVM, testar várias escalas de segmentação) e compará-lo com uma abordagem PB. As duas
abordagens são avaliadas tanto visualmente quanto por meio de duas matrizes de confusão e suas respectivas
superfícies e muitos pequenos lagos artificiais privados.
agricultura intensiva com necessidades de irrigação está presente apenas em 28% da área [47]. A zona caracteriza-
se por um mosaico paisagístico multifuncional com elevada abundância e diversidade de
informações e as peculiaridades das áreas de estudo.
a precisão das duas abordagens é avaliada visualmente e por meio de duas matrizes de confusão e estatísticas
(precisão do produtor, do usuário e geral).
caracterizada por um mosaico paisagístico multifuncional com elevada abundância e diversidade de terrenos (ex.
suas estatísticas relacionadas (precisão do produtor, do usuário e geral).
A abordagem proposta é implementada em um código GEE fácil de usar e disponível gratuitamente, útil para realizar o ajuste
de classificação de vários parâmetros (por exemplo, escolher as bandas de entrada, selecionar o algoritmo de classificação
Neste contexto, este trabalho tem como objetivo desenvolver e testar uma abordagem de classificação OO
combinando o algoritmo SNIC para identificar clusters espaciais, o GLCM para calcular índices texturais de clusters
superfície de cerca de 120,73 km2 [45]. Desde março de 1995, a área tornou-se um parque natural regional [ 46].
O ecossistema lacustre é uma área de excepcional valor pela sua riqueza de flora e
Imagem RGB (c) e imagem infravermelha composta (d) baseada em bandas Sentinel 2 de resolução de 10 m.
das várias classes LULC [43] e avaliar a melhoria alcançada com a abordagem OO, uma vez que a
precisão final está sempre condicionada pelas propriedades dos dados de entrada [44], a qualidade dos
nível de um determinado mapa LULC [16,41]. Apesar de sua ampla aplicação, as estatísticas kappa podem ser muito enganosas Remote Sens. 2020, 12, 3776 para avaliar ou comunicar a precisão da classificação devido à sua alta dependência da variação da prevalência de
classe [42]. Uma comparação automática entre os métodos PB e OO na classificação LULC, com base em matrizes de confusão, pode ser
muito útil para definir a melhor abordagem em termos de precisão
4 de 17
[46]. O ecossistema lacustre é uma área de excepcional valor pela sua riqueza de flora e fauna e pela sua
fauna e pela sua diversidade de espécies. Turismo, agricultura e pecuária são os mais importantes
a área de Trasimeno: as terras cultivadas cobrem cerca de 70% da área de captação do lago, mesmo que
a agricultura intensiva com necessidades de irrigação esteja presente apenas em 28% da área [47]. A zona é
Machine Translated by Google
A área de estudo é caracterizada por um complexo mosaico paisagístico composto por seis classes LULC:
5 de 175 de 18Sensor Remoto 2020, 12, 3776 Sensor Remoto 2020, 12, x PARA REVISÃO PEER
Tabela 1. O número de pontos de validação para cada classe de Uso do Solo – Cobertura do Solo (LULC).
Figura 2. Fluxo de trabalho metodológico implementado no Google Earth Engine (GEE).
17
80
Número de pontos de validação
Figura 2. Fluxo de trabalho metodológico implementado no Google Earth Engine (GEE).
80
450Total
Tabela 1. O número de pontos de validação para cada classe de Uso do Solo – Cobertura do Solo (LULC).
Vegetação Ribeirinha ou Arbustos 17
Água
450
2): a composição do conjunto de dados inicial, a classificação LULC e a avaliação da acurácia. A etapa foi implementada em um roteiro
separado para agilizar a classificação e a avaliação da precisão
2.2. Dados de Amostra de Treinamento e Validação
2.2. Dadosde amostra de treinamento e validação
cada classe foi identificada através da interface GEE, usando o S2 RGB e infravermelho composto cada classe foi identificada através
da interface GEE, usando o S2 RGB e infravermelho composto
35
35
Água
os mesmos dados de treinamento e aplicando o classificador RF ou SVM. Este último foi realizado, para ambas as matrizes de confusão,
usando os mesmos dados de validação acima mencionados.
pequenos lagos privados. Para testar a usabilidade e confiabilidade de todo o procedimento, apenas 10 pontos para pequenos lagos
privados. Para testar a usabilidade e confiabilidade de todo o procedimento, apenas 10 pontos para
áreas construídas, incluindo assentamentos e outras superfícies artificiais; (2) culturas anuais, compreendendo (1) áreas construídas,
incluindo assentamentos e outras superfícies artificiais; (2) culturas anuais, compreendendo
de 450 pontos de validação foram gerados aleatoriamente e rotulados manualmente por meio de um visual 450 pontos de validação
foram gerados aleatoriamente e rotulados manualmente por meio de uma interpretação visual
40
40
A área de estudo é caracterizada por um complexo mosaico paisagístico composto por seis classes LULC: (1)
camadas e a camada de alta resolução do Google Maps, para coletar as informações de treinamento. Um total de camadas e a camada
de alta resolução do Google Maps, para coletar as informações de treinamento. Um total de
incluindo vinhas e olivais; (4) pastagens; bosques, compostos por pequenas e fragmentadas vinhas e olivais; (4) pastagens; matas,
compostas por pequenos e fragmentados
154
154
65 65
Total
várias culturas, como cereais, leguminosas para grãos e plantas hortícolas; (3) culturas permanentes, principalmente culturas diversas,
como cereais, leguminosas para grãos e plantas hortícolas; (3) culturas permanentes, principalmente
59 59
ajustes em relação às etapas subsequentes. As etapas de classificação e avaliação de precisão em um único script GEE. A primeira
inclui uma abordagem PB e OO, ambas usando o mesmo treinamento
Número de pontos de validação
pequenas áreas esparsas cobertas por arbustos; (6) corpos d'água que incluem o Lago Trasimeno e outras pequenas áreas esparsas
cobertas por arbustos; (6) corpos d'água que incluem o Lago Trasimeno e outros
métodos, através de uma matriz de confusão usando os mesmos dados de validação acima mencionados.
áreas; (5) vegetação ciliar e arbustos, incluindo a vegetação lacustre ou ribeirinha e outras áreas; (5) vegetação ciliar e arbustos,
incluindo a vegetação lacustre ou ribeirinha e outras
CLASSE
CLASSE
Construída
Construída
Culturas anuais
Culturas anuais
Culturas permanentes
Culturas permanentes
Pastagens Pastagens
Florestas Florestas
Vegetação Ribeirinha ou Arbustos
O fluxo de trabalho geral é composto por três etapas principais, implementadas em dois scripts GEE
(Figura a composição do conjunto de dados inicial, a classificação LULC e a avaliação da precisão. A primeira
2.3. Metodologia
O fluxo de trabalho geral é composto por três etapas principais, implementadas em dois scripts GEE (Figura 2):
procedimentos considerando também que a imagem composta base, uma vez gerada, requer menos do que as
etapas subsequentes. As etapas de classificação e avaliação de precisão foram implementadas
foram implementados em um único script GEE. A primeira inclui uma abordagem PB e OO, ambas usando dados
e aplicando o classificador RF ou SVM. Este último foi realizado, para ambos os métodos, por meio de uma
a primeira etapa foi implementada em um script separado para agilizar os procedimentos de classificação e
avaliação da precisão considerando também que a imagem composta base, uma vez gerada, requer menos ajustes
interpretação das mesmas camadas de base (Tabela 1). Esta abordagem é amplamente utilizada na literatura [48,49].
das mesmas camadas de base (Tabela 1). Esta abordagem é amplamente utilizada na literatura [48,49].
2.3. Metodologia
Machine Translated by Google
Sensor Remoto 2020, 12, 3776 6 de 17
Os resultados foram comparados preliminarmente em termos de precisão geral. Com base nisso, as
combinações de parâmetros OO e PB mais eficazes foram selecionadas para cada conjunto de dados e
comparadas visualmente e em termos de porcentagem da área total, precisão do usuário e do produtor das
classes LULC. O tempo de execução da classificação selecionada também foi medido e comparado.
A criação do conjunto de dados base é geralmente uma etapa crítica para cada classificação LULC. Nesta
aplicação, a composição deste conjunto de dados para os dados L8 e S2 inicia-se, no GEE, a partir de uma
coleção de imagens filtradas e mascaradas em nuvem. Em seguida, o Índice de Vegetação por Diferença
Normalizada (NDVI) e o Índice de Solo Nu (BSI) são calculados para cada imagem. O NDVI é frequentemente
utilizado para o mapeamento de mudanças na cobertura do solo [50,51] e, de acordo com Singh et al. [52], este
índice, utilizado na classificação LULC, produz uma melhora significativa na precisão da classificação. O BSI é
usado principalmente para destacar a diferença entre terras agrícolas e não agrícolas, graças à sua capacidade
aprimorada de identificar solo nu e terras em pousio [53]. Esses índices adicionais são comumente usados para
melhorar a classificação LULC. O aumento de dados foi implementado usando as principais estatísticas de NDVI
e BSI (média, desvio padrão e máximo) para gerar seis bandas adicionais contendo estatísticas principais dos
dois índices espectrais úteis para contabilizar a variabilidade sazonal das classes LULC.
Em detalhe, o código realiza uma coleta inicial de imagens filtradas pelo período específico de interesse (três
anos, de 1º de janeiro de 2017 a 31 de dezembro de 2019), a região de interesse (roi), o percentual máximo de
cobertura de nuvens (10), e a máscara de nuvem (maskS2clouds). O mascaramento de cobertura de nuvens para
S2 é calculado usando a banda QA60 fornecida no GEE com os dados de Refletância de Superfície S2. A banda
QA60 é uma camada de resolução de 60 m que combina nuvens densas e máscara de nuvens cirros [54]. O
mascaramento de cobertura de nuvens para L8 é realizado usando a banda “pixel_qa” fornecida no GEE com os
dados de refletância de superfície L8. Esta etapa de mascaramento de nuvens é coerente com Nyland et al. [55]
e Xye et al. [56] que sugerem selecionar imagens de entrada com cobertura máxima de nuvens e mais de três
anos para criar uma imagem composta muito eficaz. Esse processo de seleção produziu, para a área de estudo,
duas coleções de imagens, incluindo 43 imagens para a L8 e 119 imagens para a S2, nas quais são selecionadas
as “inBands” e computadas as bandas medianas. NDVI e BSI são calculados para cada imagem e as estatísticas
dos índices espectrais relativos são obtidas usando as funções redutoras apropriadas. A fase final de exportação
diz respeito apenas às bandas desejadas(“outBands”) previamente definidas. Nesta aplicação, para criar o
conjunto de dados S2 inicial, as bandas 2, 3, 4, 6, 8, NDVI média, NDVI Std. Dev. (Desvio Padrão) e média do BSI foram selecionados.
Para investigar a confiabilidade da abordagem proposta, verificar sua aplicabilidade em dados RS de
resolução diferente e avaliar a influência de alguns parâmetros de entrada importantes, o código foi amplamente
testado na área de estudo: (a) usando dados de três satélites diferentes - Landsat 8 (L8), Sentinel 2 (S2) e
PlanetScope (PS); (b) aplicação do classificador RF ou SVM; (c) incluir ou excluir informações de textura para a
abordagem OO; (d) usando diferentes distâncias de sementes para identificação espacial de agrupamentos.
• inBands, que são as bandas de entrada selecionadas entre as bandas L8 ou S2 disponíveis [45]; •
outBands, que são as bandas de saída do conjunto de dados final. Conforme indicado, eles são selecionados a partir da
mediana das inBands e na outra média, max e desvio padrão dos índices NDVI e BSI.
roi (região de interesse), polígono utilizado para delimitar a área de estudo;
2.3.1. Composição do conjunto de dados
•
• período de juros, com base na definição de data de início (MM-DD-AAAA) e data de término
As imagens PlanetScope foram escolhidas para testar o código em dados de maior resolução espacial considerando
que, no GEE, S2 é o dado de maior resolução espacial disponível para a área de estudo.
(MM'-DD'-AAAA');
Os requisitos de entrada a serem definidos para a execução do código são:
O código gera um conjunto de dados composto final calculando os valores médios de pixel para as bandas
selecionadas e adicionando ao composto as estatísticas dos índices espectrais selecionados entre os disponíveis.
A fase final é a exportação das bandas desejadas do conjunto de dados.
Machine Translated by Google
Sensor Remoto 2020, 12, 3776 7 de 17
A classificação LULC é baseada em uma abordagem supervisionada que, como de costume, precisa coletar dos
pontos de treinamento as informações necessárias utilizadas para treinar os classificadores [57]. Considerando o
objetivo específico desta pesquisa, duas abordagens (PB e OO) foram implementadas no GEE, ambas utilizando
alternativamente os classificadores RF ou SVM. Para realizar a classificação LULC, o código precisa deste conjunto
de entradas:
Em ambos os casos, a classificação depende do mesmo conjunto de dados composto inicial e dados de treinamento
criados anteriormente.
Para compor o conjunto de dados L8 inicial, bandas 2, 3, 4, 5, 6, 7, NDVI média, NDVI Std. Dev. e médias BSI foram
selecionadas. Diferentemente de L8 e S2, o conjunto de dados base para dados PS foi gerado através de uma etapa
de composição simplificada, calculando em pixel-base a mediana entre as 4 bandas multiespectrais de duas imagens
(30 de março de 2019 e 26 de agosto de 2020) coletadas durante a pesquisa e carregado para a nuvem GEE. Nesse
caso, para levar em conta a sazonalidade, duas bandas adicionais de NDVI, derivadas das duas imagens, foram
adicionadas ao conjunto de dados inicial.
A etapa de classificação OO combina uma etapa de agrupamento espacial, destinada a agrupar pixels
semelhantes e contíguos, um cálculo subsequente de índices texturais em uma base de agrupamento e uma etapa
final de classificação. Nesse sentido, o método proposto é baseado em um novo procedimento de duas etapas
combinando os algoritmos SNIC e GLCM, já aplicados separadamente no GEE. O SNIC é realizado nas mesmas
bandas utilizadas para a classificação PB, utilizando uma grade regular de sementes como entrada gerada pela função
“Image.Segmentation.seedGrid” que requer um espaçamento de localização de sementes em superpixel (em pixels).
•
• valpnts: pontos de validação gerados aleatoriamente e rotulados manualmente com o mesmo código LULC
• conjunto de dados: gerado anteriormente na etapa “Composição do conjunto de dados”.
2.3.2. Classificação LULC
aulas LULC;
usado para avaliar a precisão do modelo;
roi: região de interesse;
• newfc: uma coleção de recursos contendo todos os dados de treinamento rotulados com códigos correspondentes a
O código executa as classificações PA e OO LULC de acordo com as duas abordagens mencionadas.
Os dados de treinamento (pontos ou polígonos) podem ser convenientemente inseridos usando a interface
GEE e adicionando tantas coleções de recursos (incluindo mais geometrias) quanto as classes LULC desejadas.
Para melhorar a quantidade de informações supervisionadas, é criado um buffer com raio fixo (10 m) ao redor de
cada ponto. As informações de treinamento da propriedade “LULC” da coleção de recursos “Newfc” são usadas para
treinar o classificador escolhido. O conjunto de dados contendo os pontos de validação pode ser inserido usando a
interface GEE ou embutido em um ambiente GIS (por exemplo, QGIS [58]) e importado no formato shapefile. Este
conjunto de dados, conforme indicado, é usado para as avaliações de precisão dos dois métodos.
Na etapa de classificação PB, a imagem é rapidamente classificada por uma definição preliminar do
classificador RF, ou classificador SVM, e a fase de treinamento subsequente. Como geralmente realizado,
uma normalização de banda do conjunto de dados de entrada foi aplicada antes de aplicar a classificação
SVM. Para o classificador RF , o número de árvores foi fixado em 50, enquanto para o SVM foi aplicado um
kernel de função de base radial (RBF) (com gama = 1 e custo = 10). Para limpar toda a saída e reduzir o
efeito “sal e pimenta”, uma operação morfológica final (baseada em um modo focal) é realizada na classificação da saída.
Este último influencia o tamanho do cluster e pode ser variado para encontrar um valor ótimo. Na fase de teste de
código, vários espaçamentos de sementes (5, 10, 15, 20 para L8 e S2 e 35, 40, 45, 50 para PS) foram aplicados
nos diferentes conjuntos de dados e comparados em termos de OA. Estes valores foram identificados após alguns
testes gerais iniciais e considerando as características texturais das manchas de paisagem nas áreas de estudo.
O SNIC identifica os objetos (clusters) de acordo com os parâmetros de entrada e gera um raster multibanda,
incluindo os clusters e camadas adicionais contendo os valores médios das feições de entrada. O SNIC, no GEE,
exige a definição de alguns parâmetros principais: o “fator de compacidade” influencia a forma do cluster ( valores
maiores produzem clusters mais compactos); a “conectividade” (4 ou 8) define se considerarmos uma Torre ou Rainha
Machine Translated by Google
8 de 17Sensor Remoto 2020, 12, 3776
O algoritmo GLCM, conforme indicado, requer uma imagem de 8 bits em nível de cinza como entrada. Em
nosso código, esta imagem foi gerada através de uma combinação linear das bandas NIR, Red e Green da imagem
composta inicial, de acordo com a seguinte fórmula:
Um cálculo final é feito contando onúmero de pixels pertencentes a cada classe para calcular a
área total (km2 e porcentagem) para cada classe LULC. Todas essas operações são desenvolvidas
no domínio raster para acelerar a execução do código sem aplicar conversões ao domínio vetorial.
A matriz de confusão permite calcular a precisão geral (OA) e estatística kappa (K) e mostra onde
a classificação gera confusão (erros de omissão e comissão, quantificados respectivamente pela
precisão do usuário - UA e precisão do produtor - PA) entre as classes LULC produzindo imprecisões .
Então, após uma padronização adequada, uma PCA da métrica 7 GLCM mais relevante (Tabela 2), selecionada
de acordo com Hall-Beyer et al. [14], é aplicado para derivar uma única banda representativa (o primeiro PC) que
geralmente contém a grande maioria das informações texturais. A média de PC1 é então calculada em uma banda
separada para cada objeto incluído na banda de “clusters” do SNIC. A banda média do objeto PC1 é finalmente
adicionada àquelas extraídas do processo de segmentação SNIC. Nesse conjunto de dados, a mesma definição e
procedimento de treinamento da classificação RF ou SVM baseada em pixels é reproduzido para obter a classificação
LULC por meio da abordagem OO. Para superar as limitações computacionais do GEE, frente ao trabalho com dados
PS, foi necessário exportar a classificação final para um ativo antes de visualizar a classificação OO LULC final. O
teste inicial dos dados de PS foi realizado em uma janela menor dentro da área de estudo.
A acurácia de ambas as classificações LULC é avaliada por meio de uma matriz de confusão implementada no
GEE na qual o LULC vinculado aos pontos de validação é comparado estatisticamente com as classificações de saída.
A acurácia é tipicamente considerada como o grau de proximidade dos resultados aos valores aceitos como
verdadeiros [59], enquanto o coeficiente Kappa expressa a redução proporcional dos erros gerados por um processo
de classificação em comparação com o erro de uma classificação completamente aleatória [60] . Neste estudo, considerando a
contiguidade para mesclar clusters adjacentes; um “neighborhoodSize” para evitar artefatos de limite de ladrilho. Em
nossa aplicação, sempre considerando as características da área de estudo, esses parâmetros foram definidos da
seguinte forma: compacidade = 0, conectividade = 8 e tamanho da vizinhança = 256. As saídas do SNIC são variáveis
dependendo da escala de visualização. Assim, no código, foi necessário fixar uma escala de saída adequada dos
clusters através da função “reprojetar” (L8 = 30, S2 = 10, PS = 6). Para o L8 e S2 foi utilizada a resolução nativa,
enquanto, para a saída PS, foi escolhida meia resolução espacial para acelerar as etapas subsequentes.
Cinza = (0,3 × NIR) + (0,59 × VERMELHO) + (0,11 × VERDE) (1)
2.3.3. Avaliação de precisão
Entropia
Mede o contraste com base na variação local do nível de
cinza
Correlação
Mede a uniformidade ou energia da distribuição do nível de
cinza da imagem
Contraste
Momento de diferença inversa (IDM)
Segundo Momento Angular (ASM)
Variação
Tabela 2. Lista e breves descrições das métricas selecionadas da Matriz de Coocorrência de Nível de Cinza (GLCM).
Mede a dispersão da distribuição do nível de cinza para
enfatizar as bordas visuais das manchas de cobertura da terra
Mede o grau de desordem entre pixels na imagem
Mede a dependência linear dos níveis de cinza dos pixels
vizinhos
Soma Média (SAVG)
Bandas
Mede a média da distribuição da soma dos níveis de cinza da
imagem
Descrição
Mede a suavidade (homogeneidade) da distribuição do nível
de cinza
Machine Translated by Google
GLCM: 78,4% vs. 68%). Este classificador funciona um pouco melhor com a abordagem PB em dados PS também
observado nas saídas L8. Da mesma forma, uma distribuição muito anormal de culturas permanentes pode ser observada
A Figura 3 mostra as melhores saídas PB e OO para cada sensor selecionado considerando o descrito acima
Os resultados de OA dos vários testes realizados na área de estudo são relatados na Tabela 3. O melhor
saídas OA. Na Figura 4, a diferença entre as classificações selecionadas, também em termos de tamanho do cluster,
82%; PS: 77,9% vs. 74,8%). A incorporação da informação textural melhora a classificação OO
A classificação OO, pode ser observada para culturas permanentes, pastagens e culturas anuais, mas, considerando
centro, um trecho do Lago Trasimeno e a área multicultural vizinha. A porcentagem do total
S2, e 35, 40, 45, 50 para PS-em itálico), e. Os melhores resultados das abordagens PB e OO, para o
A área ocupada por cada classe, de acordo com as abordagens de classificação selecionadas, é relatada na Figura 5.
e as classes escolhidas para a classificação LULC. No código, as mesmas etapas foram aplicadas para avaliar e
o classificador Random Forest (RF) ou o Support Vector Machine (SVM), excluindo ou incluindo textural
como as características e a resolução dos dados de satélite, a distribuição dos pontos de validação,
informação (GLCM) para a abordagem OO, usando diferentes espaçamentos de sementes (5, 10, 15, 20 pixels para L8 e
usando dados de três dados de satélite diferentes (L8: Landsat 8; S2: Sentinel 2; PS: PlanetScope), aplicando
Tabela 3. Precisões gerais resultantes das abordagens baseadas em pixels (PB) e orientadas a objetos (OO),
matrizes de confusão, foram analisadas. É claro que muitos fatores podem influenciar a medição de precisões,
extensão. No entanto, comparando os mapas LULC com a saída OO S2 (Figura 3), uma
classificação. Água, matas, além das classificações L8, parecem mais semelhantes em seu total
comparar todas as classificações.
Dados PS (77,9% vs. 73,9%).
3. Resultados
nas saídas PB S2 e PB PS também.
enquanto, nos conjuntos de dados de resolução espacial mais alta, o método OO produz melhores resultados (S2: 89,3% vs.
54,668,0
74
73,9
61.1
89,3
86,9
82
SVM 80.2
Classificador Sáb PB
71,8
OO Sem GLCM
RF
70,4
71,7
58,9
83,3
82,4
76,7
72,4
61,3
58,438,7
76,3
82,983,6
80,9
RF
70,9
OO Com GLCM
PS
57,3
74,2
83,5
83,8
71,3
74,9
78,4
72,4
L8
73,1
84
73,6
70,4
72,7
82,2
84,2
67,6
5 (35) 10 (40) 15 (45) 20 (50) 5 (35) 10 (40) 15 (45) 20 (50)
SVM 74,8
83,8
86,2
48,7
77,9
64,4
RF
73,1
S2
três conjuntos de dados, estão destacados em negrito.
64,0
72,9
SVM 79.1
70,8
86,6
85,3
Abordagem OO (PB: 82% vs. 80,2%; OO com GLCM: 89,3% vs. 86,9%) e com a abordagem OO no
questões acima mencionadas em relação ao coeficiente Kappa [42], apenas o OA, PA e UA, derivados do
sua pequena cobertura de área, uma divergência relevante também pode ser observada para as áreas construídas, e a
Sensor Remoto 2020, 12, 3776 9 de 17
(74,8% vs. 74,2%). No entanto, o classificador RF obteve melhores resultados nos dados S2, tanto com o PB quanto com o
os resultados das várias abordagens de classificação. As principais discrepâncias, em relação ao S2
Os mapas LULC e as áreasrelacionadas das classes LULC mostram diferenças muito significativas entre
(S2: 89,3% vs. 86,6%; PS: 77,9% vs. 74%). O classificador SVM resulta mais eficaz em termos de OA em
para dados S2 e PS, embora o aumento em OA seja mais pronunciado para o conjunto de dados PS
em formação. Em dados L8, a abordagem PB tem um desempenho melhor do que a abordagem OB (79,1% vs. 78,4%),
ambas as abordagens PB e OO nos dados L8 de resolução mais baixa (PB: 79,1% vs. 72,7%; OO sem
configuração espacial de culturas permanentes, pastagens e vegetação ciliar e arbustos podem ser
OA (89,3%) é alcançado com os dados S2 usando o método OO e incluindo o GLCM textural
vegetação ciliar e arbustos também. As áreas construídas resultam particularmente subestimadas na L8
se mostra em uma interessante porção da área de estudo caracterizada pela presença das principais
Machine Translated by Google
Sensor Remoto 2020, 12, 3776 10 de 17
Figura 3. Imagem RGB, baseada em pixels (PB) e orientada a objetos (OO) Uso do solo – cobertura do solo (LULC)
(f) OO para Sentinela 2; (g) imagem RGB, (h) PB, (i) OO para PlanetScope. (f) OO para Sentinela 2; (g) imagem RGB, (h) PB, (i) OO para PlanetScope. (f) OO para Sentinela 2; (g) imagem RGB, (h) PB, (i) OO para PlanetScope.
Figura 4. Imagem RGB, classificação baseada em pixels (PB), cluster espacial (SC) identificado por Simple Non Figura 4. Imagem RGB, classificação baseada em pixels (PB), cluster espacial (SC) identificado por Simple Non Figura 4. RGB imagem, classificação baseada em pixels (PB), cluster espacial (SC) identificado por Simples
Agrupamento iterativo (SNIC) e classificações orientadas a objetos (OO) de uma parte da área de estudo. (uma)
Figura 3. Imagem RGB, baseada em pixels (PB) e orientada a objetos (OO) Uso do solo – cobertura do solo (LULC)
(a) imagem RGB, (b) PB, (c) SC, (d) OO para Landsat 8; (e) imagem RGB, (f) PB, (g) SC, (h) OO para Sentinel 2;
(i) imagem RGB, (j) PB, (k) SC, (l) OO para PlanetScope.
Agrupamento não iterativo (SNIC) e classificações orientadas a objetos (OO) de uma parte da área de estudo.
10 de 18
10 de 18
Sensor Remoto 2020, 12, x PARA REVISÃO PEER
Sens. Remoto 2020, 12, x PARA REVISÃO PEER
Figura 3. Imagem RGB, baseada em pixels (PB) e orientada a objetos (OO) Uso do solo – cobertura do solo (LULC)
classificações da área de estudo. (a) imagem RGB, (b) PB, (c) OO para Landsat 8; (d) imagem RGB, (e) PB, classificações da área de estudo. (a) imagem RGB, (b) PB, (c) OO para Landsat 8; (d) imagem RGB, (e) PB, classificações da área de estudo. (a) imagem RGB, (b) PB, (c) OO para Landsat 8; (d) imagem RGB, (e) PB,
Agrupamento iterativo (SNIC) e classificações orientadas a objetos (OO) de uma parte da área de estudo. (uma)
Machine Translated by Google
erros de comissão (ou inclusão) (Figura 6b). Como esperado, todas as abordagens testadas funcionam para as
outras classes LULC (culturas anuais, pastagens, florestas e corpos d'água) indicam apenas
quantificar a porcentagem de pontos de validação classificados corretamente para cada classe LULC, suporta
resultados, essas classes foram excluídas da Figura 6 e da análise seguinte. As outras classes LULC são
caracterizadas por resultados de classificação muito variáveis dos diferentes métodos. Como já é uma AP muito boa (pastagens e matas ciliares e arbustos, principalmente com a abordagem PB),
Uma visão mais profunda sobre a confiabilidade das saídas selecionadas e a acessibilidade dos vários
S1-S3). PA, quantificando a porcentagem de pontos de validação corretamente classificados para cada classe LULC, enquanto os campos são classificados um pouco melhor que o método OO. Culturas permanentes e ribeirinhas
subestimado na classificação L8. Água, matas, além das classificações L8, aparecem erros de inclusão (Figura
6b). Como esperado, todas as abordagens testadas funcionam muito bem na água
resultados de classificação muito variáveis dos diferentes métodos. Conforme já demonstrado pela OA, o S2
vegetação e arbustos podem ser observados nas saídas L8. Da mesma forma, uma distribuição muito
anormal de culturas permanentes pode ser observada também nas saídas PB S2 e PB PS. foram excluídos da Figura 6 e da análise seguinte. As outras classes LULC são caracterizadas por
(L8: Landsat 8, S2: Sentinel 2; PS: PlanetScope; PB: baseado em pixel; OO: orientado a objetos).
Assim, para melhorar a legibilidade dos gráficos e focar nos resultados mais interessantes, essas aulas
mais semelhantes em sua extensão total. No entanto, comparando os mapas LULC com a saída OO S2
(Figura 3), uma configuração espacial muito inconsistente de culturas permanentes, pastagens e classes de matas ciliares e matas (apenas L8 OO mostra 42% de erros de omissão de pontos de validação de matas).
Cultivos anuais cultivados Cultivos permanentes Pastagens Florestas Matas Ribeirinhas e Arbustos Água
11 de 17
muito bem nas classes de água e floresta (apenas L8 OO mostra 42% de erros de omissão de florestas
pequenas diferenças entre as duas abordagens na perspectiva do usuário.
áreas, bem como a vegetação ciliar e arbustos. As áreas edificadas resultam particularmente em
percentagem de pontos corretamente classificados nas classes LULC de saída, indica a comissão (ou a
considerando sua pequena área de cobertura, uma divergência relevante também pode ser observada
para a construção da interpretação dos erros de omissão (ou exclusão) (Figura 6a), enquanto o UA, medindo o
Figura 5. Percentagens da área total ocupada pelas classes LULC nas classificações selecionadas (L8: Figura 5. Percentagens da área total ocupada pelas classes LULC nas classificações selecionadas
imagem RGB, (b) PB, (c) SC, (d) OO para Landsat 8; (e) imagem RGB, (f) PB, (g) SC, (h) OO para Sentinel 2; Remote Sens. 2020, 12, 3776 (i) imagem RGB, (j) PB, (k) SC, (l) OO para PlanetScope.
Landsat 8, S2: Sentinela 2; PS: PlanetScope; PB: baseado em pixels; OO: orientado a objetos).
culturas permanentes, pastagens e áreas construídas. Apesar dos baixos erros de omissão do permanente
6,5
32,6
20.1
PS OOS2OO
11 de 18
19,7
22,6
3.4
8.4
3.8
13,0
19.1
PS PB
22,7
5,0 2,5
9,0
17,9
28.1
20,4
S2 PB
0,9
22.2
1,6
2.7
16,5
23,0
19,7
4.1
Sensor Remoto 2020, 12, x PARA REVISÃO DE PEER
28,0
22,6
7,8
30,3
4,0
22,4
13,9
9,0
12,4
5,0
L8OO
9,5
22,4
11,9
27.1
6,0
L8 PB
10,0
12.3
os resultados das várias abordagens de classificação. As principais discrepâncias, em comparação com a
classificação S2 OO, podem ser observadas para culturas permanentes, pastagens e culturas anuais, mas (Figura 6; as matrizes de confusão completas são relatadas nos Materiais Suplementares, Tabelas S1–S3). PA,
resolução espacial, mostram várias imprecisões. A abordagem PS OO geralmente tem um desempenho melhor do que a
demonstrado pelo OA, o S2 OO produz o melhor compromisso em todas as classes em termos de PA e UA. S2 PB
apresenta piores resultados principalmente na classificação de matas ciliares e arbustos,erros permanentes de inclusão muito baixos, mas erros de exclusão muito altos. resultados de PA e UA para PS, apesar da maior
mas suas saídas nos mapas são consideravelmente misturadas com outras classes. Áreas construídas do show PB
Os mapas LULC e as áreas relacionadas das classes LULC mostram diferenças muito significativas entre
as abordagens selecionadas é fornecida pela comparação de PA e UA derivadas das matrizes de confusão
pontos de validação). Assim, para melhorar a legibilidade dos gráficos e focar no L8 mais interessante, devido à
menor resolução espacial, geralmente tem um desempenho pior que o S2. Apenas algumas aulas mostram
medir a porcentagem de pontos corretamente classificados nas classes de saída LULC, indica o e pastagens,
enquanto este último é muitas vezes misturado com pastagens e florestas. Os resultados de precisão
vegetação e arbustos, como esperado considerando a resolução S2, são as classes LULC mais críticas para
culturas e áreas construídas, enquanto as pastagens são classificadas ligeiramente melhor do que o método OO.
Uma visão mais profunda da confiabilidade das saídas selecionadas e da acessibilidade dos vários OO
produz o melhor compromisso em todas as classes em termos de PA e UA. S2 PB mostra piores resultados
as classes LULC mais críticas para ambas as abordagens. A imprecisão dos moldes deve-se principalmente à
Culturas permanentes, matas ciliares e arbustos, como esperado considerando a resolução S2, são PB tanto do ponto de vista do produtor quanto do usuário. As classes mais problemáticas são, mais uma vez,
As abordagens selecionadas são fornecidas pela comparação de AP e AU derivadas das matrizes de confusão
(Figura 6; as matrizes de confusão completas são relatadas nos Materiais Suplementares, Tabelas principalmente na classificação de vegetação ciliar e arbustos, culturas permanentes e áreas construídas ,
suporta a interpretação dos erros de omissão (ou exclusão) (Figura 6a), enquanto o UA, ambas as
abordagens. A imprecisão dos formadores deve-se principalmente à comissão com culturas anuais
Machine Translated by Google
12 de 17Sensor Remoto 2020, 12, 3776
Sensor Remoto 2020, 12, x PARA REVISÃO PEER 12 de 18
As classes LULC de floresta e água são omitidas.
Figura 6. Comparação das precisões do produtor (a) e do usuário (b) das classes LULC das classificações selecionadas (L8:
Landsat 8, S2: Sentinel 2; PS: PlanetScope; PB: baseado em pixels; OO: orientado a objetos) .
classificações (L8: Landsat 8, S2: Sentinel 2; PS: PlanetScope; PB: baseado em pixels; OO: orientado a objetos).
culturas e áreas construídas, eles são caracterizados por erros de alta comissão em ambas as abordagens principalmente
Com relação ao tempo de execução das seis abordagens descritas acima selecionadas, como esperado, é
Figura 6. Comparação das acurácias do produtor (a) e do usuário (b) das classes LULC das
As classes LULC de floresta e água são omitidas.
Este trabalho desenvolveu com sucesso uma abordagem baseada em objetos combinando SNIC, GLCM e ML
PB one, desenvolvido com as mesmas bandas de entrada e algoritmo de classificação. A comparação pode ser
4. Algoritmos de
discussão em um código GEE amigável e de livre acesso. Esta última, amplamente comentada, permite a
plataforma que permite aos usuários acessar, observar e analisar dados geoespaciais em todo o planeta, classe e precisão geral. Essas medidas fornecem informações mais sólidas sobre a confiabilidade do
erros de comissão em ambas as abordagens principalmente devido à má classificação dos dados disponíveis das
culturas anuais (construídas livremente), e ao aumento dos recursos computacionais. Google Earth Engine (GEE)
erros de omissão dos cultivos permanentes e áreas construídas, eles são caracterizados por satélites de alta observação,
às resoluções crescentes de sensores, aos arquivos massivos de (muitas vezes
O uso de algoritmos de ML combinados com técnicas de análise orientada a objetos geográficos (GEOBIA)
florestas e corpos d'água) indicam apenas pequenas diferenças entre as duas abordagens da AP, mostram uma UA
muito boa na abordagem OO.
e bosques. Os resultados de precisão para as outras classes LULC (culturas anuais, pastagens, abordagem OO). As
culturas anuais e as classes de matas ciliares e arbustos, apesar da média
L8, devido à menor resolução espacial, geralmente apresenta desempenho pior que S2. Apenas algumas classes proporcionais à resolução da imagem e à complexidade do processamento. Assim, a abordagem OO,
as classes de vegetação e arbustos, apesar do PA médio, apresentam uma UA muito boa na abordagem OO.
plataforma que permite aos usuários acessar, observar e analisar dados geoespaciais em todo o planeta,
satélites de observação, às resoluções crescentes dos sensores, aos arquivos massivos de (muitas vezes gratuitamente)
a comissão com culturas anuais e pastagens, enquanto este último é muitas vezes misturado com pastagens devido à
má classificação das culturas anuais (áreas construídas têm erros de comissão menores no
up têm erros de comissão mais baixos na abordagem OO). As culturas anuais e ribeirinhas alcançaram um sucesso
considerável porque é uma análise e modelagem geoespacial baseada em nuvem gratuita
O mundo do sensoriamento remoto (RS) está em constante crescimento graças ao lançamento de um novo usuário da terra para definir e ajustar vários parâmetros de entrada e comparar os resultados da abordagem OO com um
do PB apresentam erros de inclusão muito baixos, mas erros de exclusão muito altos. Resultados PA e UA para PS, classificação LULC.
proporcional à resolução da imagem e à complexidade do processamento. Assim, a abordagem OO, sobre O uso de
algoritmos de ML combinados com técnicas de análise orientada a objetos geográficos (GEOBIA)
média, exige mais tempo do que o PB (L8: 15,76 s vs. 6,35 s; S2: 35,75 s vs. 4,11 s; PS: 75,25 s está em constante
evolução, e o GEE, como mostrado nesta pesquisa, é um ambiente eficaz construir
dados disponíveis, e ao aumento dos recursos computacionais. O Google Earth Engine (GEE) executou visualmente, avaliando os mapas LULC de saída e analisando as matrizes de precisão para um
perspectiva do usuário.
apresentam uma AP muito boa (campos e matas ciliares e arbustos, principalmente com o PB em média, é mais demorado do que o PB (L8: 15,76 s vs. 6,35 s; S2: 35,75 s vs. 4,11 s;
abordagem), mas suas saídas nos mapas são consideravelmente misturadas com outras classes. Áreas construídas PS: 75,25 s vs. 7,25 s). O tempo de execução do PS OO inclui a etapa de exportação necessária do
geralmente melhor que o PB tanto do ponto de vista do produtor quanto do usuário. As classes mais problemáticas são,
mais uma vez, culturas permanentes, pastagens e áreas construídas. Apesar da baixa O mundo do sensoriamento
remoto (RS) está em constante crescimento graças ao lançamento de nova terra
Em relação ao tempo de execução das seis abordagens descritas acima selecionadas,como esperado, é graças a
um enorme arquivo de dados pronto para uso que permite a experimentação de muitas aplicações.
classificação. e
processos de classificação.
graças a um enorme arquivo de dados pronto a usar que permite a experimentação de muitas aplicações.
apesar da maior resolução espacial, apresentam várias imprecisões. A abordagem PS OO realiza 4. Discussão
vs. 7,25 s). O tempo de execução do PS OO inclui a necessária etapa de exportação das imagens compostas
multitemporais LULC finais e implementa, de maneira direta, processamento de imagens complexas
alcançou um sucesso considerável porque é uma análise e modelagem geoespacial baseada em nuvem gratuita para uma determinada área de estudo. As matrizes permitem ao usuário calcular a precisão do usuário e do produtor para cada
Machine Translated by Google
Sensor Remoto 2020, 12, 3776 13 de 17
O SNIC resultou de forma muito eficaz no delineamento de objetos (neste caso, as manchas de paisagem),
embora, em sua aplicação ordinária dentro do GEE, seja baseado em uma grade de sementes espaçadas regularmente.
duas abordagens de classificação e sobre o possível valor agregado de usar uma abordagem OO. Na maioria dos
casos, conforme destacado na introdução, esta última proporciona maior precisão na classificação em comparação à
baseada em pixels, devido ao uso combinado de informações espectrais, espaciais e texturais. No entanto, como
mostrado neste estudo para os dados de L8 e outras pesquisas [44,47], os resultados são variáveis dependendo dos
conjuntos de dados de entrada, das classes de LULC selecionadas e das peculiaridades da área de estudo. Nesse
sentido, como mostrado neste aplicativo, o script pode ser convenientemente usado para comparar os resultados OO
e PB produzidos usando conjuntos de dados em diferentes resoluções, testar várias configurações e parâmetros de
entrada e selecionar vários algoritmos de classificação.
Nesse sentido, uma possível melhoria poderia ser o uso de sementes geradas identificando o mínimo ou máximo
local de variância [61]. Conforme mostrado neste aplicativo, testar as saídas de vários espaçamentos de sementes
pode ser muito útil para encontrar o tamanho de cluster mais eficaz, considerando também o tamanho das manchas
da paisagem. Em comparação com estudos anteriores, a abordagem proposta combinou SNIC com GLCM para
analisar as características texturais dos conjuntos de dados de entrada. Este é um algoritmo amplamente utilizado no
processamento de imagens que tem mostrado, também no GEE, um desempenho muito bom na caracterização das
texturas dos objetos através de uma ampla gama de índices texturais. No código, uma aplicação posterior de um PCA
nas sete métricas GLCM mais importantes permite ao usuário incluir na classificação OO uma única banda que
sintetiza a maioria das informações texturais disponíveis. Se necessário, considerando a variância relativa expressa
pelos PCs calculados pelo código, mais PCs poderiam ser selecionados e utilizados para a classificação. Essa etapa
resultou muito útil, pois dispensa o usuário da seleção das métricas de GLCM mais eficazes a serem utilizadas na
classificação.
Conforme indicado, toda a identificação do objeto e posterior caracterização textural foram desenvolvidas
no domínio raster no qual o GEE tem um desempenho muito bom. Tal abordagem, embora associada a uma
execução de código mais rápida, não permite considerar o tamanho e a forma do objeto, o que pode ser
muito importante para objetos regulares em resoluções mais altas. A vetorização de objetos poderia superar
essa limitação, conforme proposto por Firigato [32], porém, considerando o ambiente GEE orientado a raster ,
as poucas tentativas nesse sentido são caracterizadas por uma execução de código muito lenta ou por um
bloqueio no processamento devido a uma grande número de geometrias.
As informações de GLCM, mesmo com a resolução S2 de 10 m, melhoraram tanto a classificação de
classes LULC muito heterogêneas e complexas, como as áreas construídas (devido à sua alta entropia
interna [62]) quanto a identificação daqueles trechos caracterizados por uma textura regular, como as
culturas permanentes. Esta classe de LULC, incluindo principalmente olivais e vinhas com espaçamento
entre árvores inferior ao S2 (e mesmo à resolução PS), foi incluída como um desafio para explorar a
potencialidade OO em GEE. A acurácia muito boa obtida para esta classe, juntamente com a alcançada para
as áreas construídas, demonstrou claramente uma grande potencialidade da metodologia OO proposta mesmo com dados S2.
Diferentemente, a aplicação deste método em dados L8, utilizando SNIC, ou SNIC e GLCM não melhorou a
saída do PB. Isso provavelmente se deve à impossibilidade com a resolução espacial L8 de ler texturas
relevantes de manchas de paisagem dentro da área de estudo. Inesperadamente, o conjunto de dados
PlanetScope , apesar de sua resolução espacial mais do que tripla, produziu resultados gerais inferiores em
comparação ao S2, mesmo adotando uma abordagem OO. Este resultado provavelmente está relacionado
à menor resolução temporal e espectral deste conjunto de dados, e aos poucos pontos de treinamento
utilizados que, juntos, forneceram informações escassas para diferenciar adequadamente as várias classes
agrícolas. Portanto, embora as culturas permanentes sejam bem reconhecidas tanto na abordagem PB
quanto OO (com uma UA semelhante do S2 OO), a má classificação das culturas anuais e pastagens gerou
uma comissão considerável em todas as três classes agrícolas. Isso pode sugerir que a resolução espacial
de 3 m não forneceu informação textural suficiente para a separação efetiva das três classes agrícolas e que
a maior resolução temporal e espectral S2, resumida pelas bandas medianas e pelas estatísticas do índice
espectral resultou, neste quesito, mais eficaz. O uso de um conjunto de dados PS inicial mais oportuno e
estendido pode ajudar a melhorar a precisão do LULC produzido usando essa fonte de dados.
Machine Translated by Google
Sensor Remoto 2020, 12, 3776 14 de 17
[CrossRef]
Materiais Complementares: Os seguintes estão disponíveis online em http://www.mdpi.com/2072-4292/12/22/3776/s1, Tabela S1: Matrizes de
confusão PB e OO para L8, Tabela S2: Matrizes de confusão PB e OO para S2, Tabela S3: Matrizes de confusão PB e OO para PS. Os códigos
GEE que processam dados S2, desenvolvidos nesta pesquisa, estão disponíveis gratuitamente on-line em https://code.earthengine.google.com/?
accept_repo=users/mvizzari/Tassi_Vizzari_RS2020.
Referências
5. Conclusões
4.
3.
2. Shalaby, A.; Tateishi, R. Sensoriamento remoto e GIS para mapeamento e monitoramento da cobertura da terra e mudanças no uso da
terra na zona costeira noroeste do Egito. Aplic. Geogr. 2007, 27. [CrossRef]
9.
Financiamento: Esta pesquisa não recebeu financiamento externo
Contribuições dos Autores: Conceituação, MV e AT; metodologia, MV e AT; software, AT; preparaçãodo projeto original , AT; redação—
revisão e edição, MV Todos os autores leram e concordaram com a versão publicada do manuscrito.
Vizzari, M.; Hilal, M.; Sigura, M.; Antognelli, S.; Joly, D. Análise de gradiente urbano-rural-natural com dados CORINE: Uma aplicação
para a França metropolitana. Landsc. Plano Urbanístico. 2018, 171. [CrossRef]
7.
Vizzari, M.; Sigura, M. Sequências de paisagem ao longo do gradiente urbano-rural-natural: Uma nova abordagem geoespacial para
identificação e análise. Landsc. Plano Urbanístico. 2015, 140, 42-55. [CrossRef]
5.
Lata. J. Sensor Remoto 2018, 67–68. [CrossRef]
Conflitos de interesse: Os autores declaram não haver conflito de interesse.
6. Hermosilla, T.; Wulder, MA; Branco, JC; Coopers, NC; Hobart, GW Mapas Anuais de Classificação da Cobertura do Solo Informados
sobre Distúrbios dos Ecossistemas Florestais do Canadá para uma Série Temporal Landsat de 29 Anos.
Griffiths, P.; van der Linden, S.; Kuemmerle, T.; Hostert, P. Um algoritmo de composição Landsat baseado em pixel para mapeamento
de cobertura de terra de grande área. IEEE J. Sel. Topo. Aplic. Terra Obs. Sensor Remoto 2013, 6. [CrossRef]
8. Blaschke, T. Análise de imagem baseada em objetos para sensoriamento remoto. ISPRS J. Photogramm. Sensor Remoto 2010, 65,
2-16. [CrossRef]
11. Messina, G.; Pena, JM; Vizzari, M.; Modica, G. Uma comparação de imagens multiespectrais de UAV e satélites no monitoramento da
cultura da cebola. Um pedido no 'Cipolla Rossa di Tropea' (Itália). Sensor Remoto 2020, 12, 3424. [CrossRef]
1.
Pfeifer, M.; Disney, M.; Quaife, T.; Marchant, R. Ecossistemas terrestres do espaço: Uma revisão de produtos de observação da
Terra para aplicações de macroecologia. Globo. Eco Biogeografia 2012. [CrossRef]
10. Ren, X.; Malik, J. Aprendendo um modelo de classificação para segmentação. In Proceedings of the IEEE International Conference on
Computer Vision, Nice, França, 13–16 de outubro de 2003.
[CrossRef]
GEE mostrou, mais uma vez, considerável versatilidade e adaptabilidade devido à sua arquitetura em nuvem,
sua interface amigável e sua linguagem de script eficiente. Dentro do ambiente GEE, este trabalho desenvolveu e
testou uma abordagem de classificação OO combinando o algoritmo SNIC para identificar clusters espaciais, o
GLCM para calcular índices texturais de cluster e dois algoritmos de ML amplamente utilizados (RF e SVM) para
realizar a classificação final. A abordagem foi implementada em um código amigável , útil para comparar as
abordagens de classificação OO e PB, ajustando várias configurações e parâmetros de entrada. Na área de
estudo, a abordagem OO produziu uma sensível melhoria na precisão dos conjuntos de dados S2 e PS. Apesar
da menor resolução espacial, S2 obteve melhores resultados que PS graças à maior resolução temporal e
espectral. Devido à menor resolução espacial e considerando as características da área de estudo, o método OO
não produziu melhores resultados do que a abordagem PB nos dados L8. Nossa aplicação demonstrou a
confiabilidade de toda a metodologia, embora a classificação OO, devido à sua maior complexidade, resulte mais
computacionalmente exigente, e tenda a desacelerar (e às vezes bloquear) a execução do código GEE,
principalmente usando dados de maior resolução.
Gorelick, N.; Hancher, M.; Dixon, M.; Ilyushchenko, S.; Thau, D.; Moore, R. Sensoriamento Remoto do Ambiente Google
Earth Engine: Análise geoespacial em escala planetária para todos. Sensor Remoto Ambiente. 2017, 202.
Solano, F.; Di Fazio, S.; Modica, G. Uma metodologia baseada em imagens GEOBIA e WorldView-3 para derivar índices
de vegetação em detalhes de copas de árvores em pomares de oliveiras. Int. J. Appl. Terra Obs. Geoinf. 2019, 83, 101912.
Machine Translated by Google
http://dx.doi.org/10.1016/j.rse.2017.06.031
http://www.mdpi.com/2072-4292/12/22/3776/s1
https://code.earthengine.google.com/?accept_repo=users/mvizzari/Tassi_Vizzari_RS2020
http://dx.doi.org/10.1016/j.apgeog.2006.09.004
http://dx.doi.org/10.1016/j.landurbplan.2017.11.005
http://dx.doi.org/10.1016/j.landurbplan.2015.04.001
http://dx.doi.org/10.1080/07038992.2018.1437719
http://dx.doi.org/10.1109/JSTARS.2012.2228167
http://dx.doi.org/10.1016/j.isprsjprs.2009.06.004
http://dx.doi.org/10.3390/rs12203424
http://dx.doi.org/10.1111/j.1466-8238.2011.00712.x
http://dx.doi.org/10.1016/j.jag.2019.101912
[CrossRef]
15 de 17Sensor Remoto 2020, 12, 3776
13. Flandres, D.; Hall-Beyer, M.; Pereverzoff, J. Avaliação preliminar de software baseado em objeto eCognition para delineação de blocos de
corte e extração de recursos. Lata. J. Remote Sens. 2003, 441–452. [CrossRef]
Reconhecimento de padrões. Lett. 2006, 27, 294-300. [CrossRef]
24. Wang, Y.; Li, Z.; Zeng, C.; Xia, G.-S.; Shen, H. Um método de extração de água urbana que combina aprendizado profundo e Google Earth
Engine. IEEE J. Sel. Topo. Aplic. Terra Obs. Sensor Remoto 2020, 13, 769–782. [CrossRef]
25. Cheng, G.; Han, J.; Lu, X. Classificação de Cenas de Imagens de Sensoriamento Remoto: Benchmark e Estado da Arte.
12. Achanta, R.; Süsstrunk, S. Superpixels e polígonos usando agrupamento simples não iterativo. In Proceedings of the 30th IEEE Conference
on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, EUA, 21 a 26 de julho de 2017.
15. Ghimire, B.; Rogan, J.; Galiano, V.; Panday, P.; Neeti, N. Uma avaliação de ensacamento, reforço e florestas aleatórias para classificação
de cobertura da terra em Cape Cod, Massachusetts, EUA. GIScience Remote Sens. 2012, 623–643.
26. Abadi, M.; Barham, P.; Chen, J.; Chen, Z.; Davis, A.; Dean, J.; Devin, M.; Ghemawat, S.; Irving, G.; Isard, M.; et ai. TensorFlow: Um sistema
para aprendizado de máquina em larga escala. In Proceedings of the 12th USENIX Symposium on Operating Systems Design and
Implementation, OSDI 2016, Savannah, GA, EUA, 2–4 de novembro de 2016.
14. Hall-Beyer, M. Diretrizes práticas para a escolha de texturas GLCM para uso em tarefas de classificação de paisagem em uma faixa de
escalas espaciais moderadas. Int. J. Sensor Remoto 2017, 38, 1312–1338. [CrossRef]
Proc. IEEE 2017, 105, 1865-1883. [CrossRef]
[CrossRef]
22. De Luca, GN; Silva, JM; Cerasoli, S.; Araújo, J.; Campos, J.; Di Fazio, S.; Modica, G. Classificação da Cobertura do Solo Baseada em
Objetos de Florestas de Sobreiro usando Imagens de UAV e Orfeo ToolBox. Sensor Remoto 2019, 11, 1238. [CrossRef]
28. Mahdianpari, M.; Salehi, B.; Mohammadimanesh, F.; Brisco, B.; Homayouni, S.; Gill, E.; DeLancey, ER; Bourgeau-Chavez, L. Big Data para
um grande país: a primeira geração do mapa de inventário de zonas úmidas canadenses em uma resolução espacial de 10 m usando
dados do Sentinel-1 e do Sentinel-2 na plataforma de computação em nuvem do Google Earth Engine. Lata. J. Sensor Remoto 2020, 46,
15–33. [CrossRef]
29. Paludo, A.; Becker, WR; Richetti, J.; Silva, LCDA; Johann, JA Mapeando soja e milho de verão com sensoriamento remoto na computação
em nuvem Google Earth Engine no estado do Paraná–Brasil. Int. J. Dígito. Terra 2020, 1-13.