Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE GEOCIÊNCIAS PROGRAMA DE PÓS-GRADUAÇÃO EM GEOFÍSICA DISSERTAÇÃO DE MESTRADO Estimativa do perfil de densidade com o uso de machine e deep learning PATRICK SANTANA MATOS QUADROS Belém – Pará 2022 Dados Internacionais de Catalogação na Publicação (CIP) de acordo com ISBD Sistema de Bibliotecas da Universidade Federal do Pará Gerada automaticamente pelo módulo Ficat, mediante os dados fornecidos pelo(a) autor(a) Q1e Quadros, Patrick Santana Matos. Estimativa do perfil de densidade com o uso de machine e deep learning / Patrick Santana Matos Quadros. — 2022. 47 f. : il. color. Orientador(a): Prof. Dr. Carolina Barros da Silva Dissertação (Mestrado) - Universidade Federal do Pará, Instituto de Geociências, Programa de Pós-Graduação em Geofísica, Belém, 2022. 1. Redes neurais. 2. Machine learning. 3. Petrofísica. 4. Densidade. 5. Perfis de poço. I. Título. CDD 006.32 Powered by TCPDF (www.tcpdf.org) Dedico à minha família, que me deu todo o apoio durante este período e aos meus profes- sores e colegas que me deram o suporte que eu precisei. AGRADECIMENTOS Ao programa de Pós-Graduação em Geofísica da Universidade Federal do Pará. À fundação Capes pelo suporte financeiro enquanto fui bolsista do programa. À minha orientadora, Profa. Carolina Barros, juntamente com o professor José Jadsom pelo apoio durante o desenvolvimento deste trabalho. À Universidade Norueguesa de Ciência e Tecnologia (NTNU), ao Department of Energy, e ao RMOTC pelo fornecimento dos dados utilizados. RESUMO O presente trabalho tem como objetivo demonstrar a aplicabilidade de métodos de aprendizagem de máquina e aprendizagem profunda (usando redes neurais convolucionais) em comparação com a regressão múltipla por mínimos quadrados para a estimativa do perfil de densidade tendo como entrada os perfis de Raio Gama, Porosidade Neutrônica e Velocidade de onda P. Foram utilizados dados provenientes dos campos de Norne e Teapot Dome para mostrar a viabilidade de cada método em relação a previsões. A partir dos resultados obtidos foi observada uma importante vantagem da aprendizagem de máquina e aprendizagem profunda em comparação com técnicas mais tradicionais. Em relação a vantagem da aprendizagem de máquina, os resultados da CNN-1D mostraram- se superiores tanto para todos poços cegos em pelo menos 10 % em relação a método de regressão múltipla. Palavras-chaves: redes neurais; machine learning; petrofísica; densidade; perfis de poço ABSTRACT The goal of this study is to show how machine learning and deep learning approaches (using convolutional neural networks) compare to multiple least squares regression for density log estimation utilizing the Gamma Ray, Neutronic Porosity, and P-wave velocity logs as inputs. The feasibility of each method in regard to density projections was de- monstrated using data from the Norne and Teapot Dome fields. According to the findings, machine learning and deep learning have a significant advantage over more traditional te- chniques. The CNN-1D results were superior for all blind wells by at least 10% in terms of the least square method. Keywords: neural networks; machine learning; petrophysics; density; well logs LISTA DE FIGURAS 2.1 Fluxograma da metodologia, o qual mostra as etapas de pré-processamento, treinamento dos modelos e aplicação aos poços cegos. . . . . . . . . . . . . 4 2.2 Modelo esquemático da arquitetura do Random Forest. . . . . . . . . . . . 6 2.3 Modelo esquemático do SVR, evidenciando o kernel, os hiperplanos e a distância ϵ entre os hiperplanos e o kernel. . . . . . . . . . . . . . . . . . . 8 2.4 Modelo esquemático da MLP, no qual ni representa a quantidade de variá- veis de entrada, n1 o número de neurônios presentes na primeira camada oculta e nn o número de neurônios presentes na n-ésima camada oculta. . . 9 2.5 Arquiteturas dos modelos de MLP aplicados aos três casos (Caso I - Norne, Caso II - Teapot e Caso III - Norne e Teapot). . . . . . . . . . . . . . . . . 10 2.6 Modelo esquemático representando a arquitetura de uma CNN, tendo a entrada, as camadas convolucionais, a camada flatten, as camadas densas e o saída. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.7 Arquiteturas dos modelos de CNN-1D aplicados aos três casos. . . . . . . . 12 3.1 Remoção de outliers aplicada aos poços de treinamento do Caso I. . . . . . 13 3.2 Remoção de outliers aplicada aos poços de treinamento do Caso II. . . . . 14 3.3 Crossplots entre os poços de treinamento concatenados do Caso III, os quais mostram que os poços apresentam distribuições semelhantes. . . . . . . . . 14 3.4 Remoção de outliers aplicada aos poços de treinamento concatenados do Caso III. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.5 Gráficos de treinamento da CNN-1D correspondentes aos três casos, sendo a linha azul correspondente à curva de treinamento, e a laranjada à validação. O número de épocas foi controlado pela técnica EarlyStopping. . . . . . . . 16 3.6 Gráficos de treinamento da MLP correspondentes aos três casos, sendo a linha azul correspondente à curva de treinamento, e a laranjada à validação. Para este tipo de rede o número de épocas também foi controlado pela técnica EarlyStopping. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.7 Predições e valores reais de densidade para os Caso I, com destaque à zona no Blind1, na qual as redes subestimam os valores reais de densidade. . . . 18 3.8 Predições e valores reais de densidade para o Caso II. . . . . . . . . . . . . 19 3.9 Predições e valores reais de densidade para o Caso III. . . . . . . . . . . . 20 3.10 Predições aplicadas ao Blind 1 do Caso I, contendo o perfil de saturação, com o qual se pode notar que as redes subestimam os valores reais de densidade quando há um aumento significativo da Saturação de água na região. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.11 Gráficos de MSE para os Casos I, II e III. Como pode ser observado, a CNN- 1D é o estimador que apresenta o menor erro dentre todos os estimadores para todos os casos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.12 Erros relativos correspondentes ao Caso I, com os valores variando predo- minantemente entre −5% e 5%. . . . . . . . . . . . . . . . . . . . . . . . . 25 3.13 Erros relativos correspondentes ao Caso II, com os valores variando predo- minantemente entre −5% e 5%. . . . . . . . . . . . . . . . . . . . . . . . . 26 3.14 Erros relativos correspondentes ao Caso III, com os valores variando pre- dominantemente entre −10% e 10%. O aumento do erro em relação aos Casos I e II está relacionado ao uso de poços de diferentes campos. . . . . 27 3.15 Histogramas com as quantidades de amostras por valor de densidade cor- respondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poços Blind1 e Blind2 do Caso I. . . . . . . . . . . . . . . . 29 3.16 Histogramas com as quantidades de amostras por valor de densidade cor- respondentes à densidade real e à predita, juntamente com o Índice de Jaccard para os poço Blind1 e Blind2 do Caso II. . . . . . . . . . . . . . . 30 3.17 Histogramas com as quantidades de amostras por valor de densidade cor- respondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind1. . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.18 Histogramas com as quantidades de amostras por valor de densidade cor- respondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind2. . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.19 Histogramas com as quantidades de amostras por valor de densidade cor- respondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind3. . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.20 Histogramas com as quantidades de amostras por valor de densidadecor- respondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind4. . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1 Arquitetura de uma rede neural do tipo MLP para a representação do algoritmo de backpropagation. . . . . . . . . . . . . . . . . . . . . . . . . . 34 LISTA DE SÍMBOLOS, SIGLAS E ABREVIATURAS SÍMBOLOS VP Velocidade da onda P. SIGLAS NPHI - Porosidade Neutrônica GR - Raio Gama (Gamma Ray) ML - Machine Learning SVR - Support Vector Regression ABREVIATURAS i.e. isto é. e.g. por exemplo. SUMÁRIO 1 INTRODUÇÃO 1 2 METODOLOGIA 3 2.1 LOCALIDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 REMOÇÃO DE OUTLIERS . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 TIPOS DE ESTIMADORES UTILIZADOS . . . . . . . . . . . . . . . . . 5 2.3.1 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3.2 Support Vector Regression . . . . . . . . . . . . . . . . . . . 5 2.3.3 Perceptron multicamadas . . . . . . . . . . . . . . . . . . . . 6 2.3.4 Rede Neural Convolucional - 1D . . . . . . . . . . . . . . . . 7 2.3.5 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . 9 2.4 ESCALONAMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 RESULTADOS E DISCUSSÕES 13 3.1 REMOÇÃO DE OUTLIERS . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2 CRIAÇÃO DOS MODELOS . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3 APLICAÇÃO DOS MODELOS AOS POÇOS CEGOS . . . . . . . . . . . 18 3.4 ANÁLISE DA EFICÁCIA DOS ESTIMADORES COM A APLICAÇÃO DE MÉTRICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4 CONCLUSÃO 33 APÊNDICE A - ALGORITMO DE BACKPROPAGATION 34 REFERÊNCIAS 37 1 INTRODUÇÃO A densidade é uma propriedade física utilizada em diversas áreas da geofísica. Na petrofísica e física de rochas por exemplo, pode ser utilizada na avaliação de formação (Ellis and Singer, 2007), classificação de litofácies, sendo importante para à análise de AVO (Avseth et al., 2010), e na amarração poço-sísmica (Nery, 1990). Esta propriedade pode ser estimada por meio de métodos diretos e indiretos (Schön, 2011). Por meio do método direto as medidas são feitas em laboratório com a aferição da massa e do volume (ρ = m/v). Nos métodos indiretos com o uso perfis de perfilagem e utilização de equações empíricas, ou seja, com os parâmetros obtidos por meio de observações. Com avanço computacional nos últimos anos, o emprego de técnicas mais avançadas vem sendo utilizado especialmente na área de Aprendizagem de Máquinas (Machine Le- arning - ML). A criação de bibliotecas como o Keras (Chollet et al., 2015) e Scikit-Learn (Pedregosa et al., 2011) tornaram bem mais acessíveis as criações de redes neurais, já que apresentam várias funções implementadas (Géron, 2019). O emprego de aprendizagem de máquina permite que com a utilização de diversos cálculos estatísticos alguns dados possam ser estimados com uma melhor eficácia em comparação com técnicas tradicionais, e. g., a aplicação de regressão linear múltipla por mínimos quadrados. Na petrofísica, o emprego da utilização de diferentes tipos de redes neurais vem au- mentando nos últimos anos. Zhong et al. (2019) utiliza uma Rede Neural Convolucional (Convulutional Neural Network-CNN) para a estimativa da permeabilidade tendo como valores de entrada diferentes perfis, como Raio Gama e Porosidade, transformando os valores dos perfis de entrada em matrizes contendo os números binários. Uma outra abordagem do uso de CNN foi feita por Tembely et al. (2021), em que foram utilizadas as imagens obtidas por microtomografia computadorizada, também para a estimativa da permeabilidade, já que a distribuição espacial do espaço poroso é o principal indicativo desta propriedade. Tendo em vista a versatilidade deste tipo de rede neural, neste trabalho foi utilizada a CNN-1D. Para efeitos de comparação, foram utilizadas outras técnicas, sendo estas Multilayer Perceptron (MLP), Random Forest (RF), Suport Vector Regression (SVR) e também foi aplicada uma Regressão Linear Múltipla. Os perfis de entrada utilizados foram: VP , GR e NPHI. Este trabalho tem como objetivo o emprego de algumas arquiteturas (como as redes estão estruturadas) de redes neurais para a predição da densidade, tendo como parâme- tros de entrada Velocidade de onda P (VP ), Raio Gama (GR) e porosidade neutrônica (NPHI). Levando em consideração que a presença de outliers é considerada um empecilho para a aprendizagem de máquina, neste trabalho foi utilizada a técnica de detecção de outliers 1 2 Isolation Forest (IF) (Misra et al., 2019), a qual é um método não-supervisionado, baseado em árvores de decisão. As redes foram aplicadas em conjuntos de dados de poços provenientes dos campos de Norne e Teapot. Foi feita uma aplicação aos campos separadamente, e outra aplicação em conjunto para analisar o poder de generalização dos estimadores. As métricas utilizadas para essa análise foram: Erro Quadrático Médio (MSE - da sigla Mean Squared Error), Erro Relativo e Índice de Jaccard. Este trabalho está subdividido em Metodologia, na qual são abordados os campos onde os poços foram perfurados, os tipos de estimadores que foram utilizados, assim como seus hiper-parâmetros mais importantes, e em Resultados e discussões, onde são mostradas os gráficos representando as métricas utilizadas para a aferição da eficiência de cada estimador. 2 METODOLOGIA A metodologia utilizada neste trabalho foi organizada como mostrado no fluxograma da Figura 2.1.Primeiramente foi feita a seleção dos poços viáveis para serem trabalhados, i.e., os poços que contivessem todos os perfis desejados e que estes perfis apresentassem pelo menos uma correlação razoável com o perfil alvo (densidade). Foram escolhidos quatro poços de cada campo, e dentre os quatro poços escolhidos, foram selecionados dois poços para treinamento e dois poços cegos. Os perfis existentes não apresentam perfil de VP , logo, foi usada a equação VP = 3, 048 ∗ 105 DT , (2.1) obtendo, assim, o perfil de VP em unidade m/s a partir do perfil de tempo de trânsito (DT ). Os poços de treinamento foram concatenados, i.e., foram mesclados como se fossem um poço apenas. Nesses poços foi aplicada a remoção de outliers utilizando o algoritmo Isolation Forest. Os dados de treinamento foram separados em conjunto de treinamento, correspondendo a 70% e conjunto de teste/validação, correspondendo a 30%. Posteri- ormente, os dados de treinamento foram aplicados aos modelos. Aos poços cegos foi aplicada a remoção de spikes (picos de valores não condizentes com os valores adjacentes em um determinado sinal), e em seguida foi delimitado o intervalo de profundidade que apresentasse dados viáveis para a predição. Os modelos já treinados foram aplicados a esses dados e a qualidade da predição foi avaliada por meio de diferentes métricas. Foram considerados três casos distintos. O Caso I, o qual corresponde aos modelos gerados e aplicados apenas aos poços do campo de Norne, Caso II, relacionado unicamente aos poços do Campo do Teapot, e o Caso III, correspondente aos poços dos dois dois campos em conjunto. 2.1 LOCALIDADES Os poços utilizados neste trabalho são provenientes dos campos de Norne e Teapot Dome. O campo de Teapot Dome é localizado nos EUA, com sua maior porção no estado do Wyoming, e também estende-se aos estados do Colorado e Montana. As principais uni- dades estratigráficas foram identificadas no início do século XX, as quais incluem unidades desde o período Devoniano até o Cretáceo Superior. O campo apresenta nove unidades contendo óleo e seis unidades contendo água, incluindo arenitos terrestres, carbonatos marinhos e lacustrinos e plataformas siliciclásticas rasas (Friedmann and Stamp, 2005). O campo de Norne, localizado no mar do Norte, ao sul da Noruega, é subdividido em dois compartimentos principais. A Estrutura Principal de Norne foi descoberta em 1991 e apresenta 97% do óleo presente no campo. Análises realizadas em um dosquatro poços 3 4 INÍCIO Seleção dos poços com os perfis desejados Seleção dos poços com melhores correlações entre os perfis de entrada e a densidade Seleção dos poços de treinamento e poços cegos Inserção do perfil VP a partir do perfil de tempo de trânsito e escalonamento Tipos de poços Concatenação Remoção de outliers com Isolation Forest Separação entre dados de treinamento e dados de teste/validação Treinamento dos modelos Remoção de spikes Seleção do intervalo de profundidade Aplicação dos modelos aos poços cegos Análise dos resultados com o uso das métricas FIM TREINAMENTO C E G O Figura 2.1: Fluxograma da metodologia, o qual mostra as etapas de pré-processamento, treinamento dos modelos e aplicação aos poços cegos. perfurados mostraram a presença de uma coluna de 135m de rochas contendo hidrocarbo- netos, datadas do Jurássico inferior ao Jurássico Médio (Statoil, 2006). Os dados do campo do Teapot Dome foram obtidos de https://dataunderground.org/dataset/teapot-dome, e os dados do campo de Norne obtidos de https://wiki.seg.org/wiki/NorthSeaNornef ield. 2.2 REMOÇÃO DE OUTLIERS Outliers são considerados obstáculos para a aprendizagem de máquina, por isso, é importante que sejam removidos. Dentre as diversas técnicas de remoção existentes, para esse trabalho, foi utilizada a técnica Isolation Forest, a qual é um algoritmo baseado em Random Forest, desenvolvido por Liu et al. (2008). A detecção de outliers pode ser feita 5 com a utilização de todos os inputs ou apenas alguns deles. Para os casos desse trabalho, foram selecionados todos os perfis de entrada para a remoção dos outliers. 2.3 TIPOS DE ESTIMADORES UTILIZADOS 2.3.1 Random Forest Random Forest é uma arquitetura de rede do tipo ensamble baseado em árvores de decisão. Uma árvore de decisão funciona como um estimador, contudo, várias árvores podem ser utilizadas em conjunto gerando assim a arquitetura chamada de Floresta Ale- atória, ou Random Forest. Sua representação pode ser vista na Figura 2.2. As principais vantagens desse método são: • maior acurácia em relação a outros métodos ensamble, visto que por apresentar uma quantidade alta de estimadores, uma predição não tão satisfatória em um deles não afeta significativamente o resultado geral, • por apresentar um número baixo de hiperparâmetros, é mais fácil de se otimizar o modelo, e as principais desvantagens são: • maior sensibilidade a ruídos, • bastante suscetível ao overfitting, • alto custo computacional dependendo do número de árvores utilizadas no modelo. Os principais parâmetros desse tipo de rede são: • Número de estimadores - número de árvores presentes no modelo, • Profundidade máxima - número máximo de camadas de nós que as árvores devem ter. O modelo foi criado com o uso da biblioteca sklearn, e os hiperparâmetros foram estabelecidos de forma automática como uso da função GridSearchCV. 2.3.2 Support Vector Regression Support Vector Regression (SVR) é um tipo de rede baseada em Suppot Vector Ma- chine (SVM), o qual é utilizado para problemas de classificação. Os principais hiperparâ- metros da SVM são: 6 TREE-1 TREE-2 TREE-N OUTPUT = PRED-1 + PRED-2 + ... + PRED-N PRED-1 PRED-2 PRED-N N Figura 2.2: Modelo esquemático da arquitetura do Random Forest. • Hiperplano - fronteira que delimita o espaço. Para o caso da SVM funciona como uma fronteira que separa diferentes grupos de dados, já para o caso da SVR, o hiperplano deve passar por meio de um conjunto de dados de modo que abranja o maior número possível de dados. • Kernel - conjunto de funções que determinam o comportamento do hiperplano. • Linhas de fronteira - são duas linhas que ficam a uma distâcia ϵ do hiperplano, e definem a distância do hiperplano em que os dados podem ser inseridos a uma determinada classe (para o caso da SVM), ou que possam ser ajustados ao hiperplano (para a SVR). De forma análoga, o SVR utiliza os mesmos hiperparâmetros para regressão. A di- ferença é que para este caso, os valores de ajuste são aqueles definidos em torno do hiperplano e dentro do espaço definido pelas linhas de fronteira, como pode ser visto na Figura 2.3. Os parâmetros utilizados nos modelos de Random Forest e Support Vector Regression estão mostrados na tabela 2.1 2.3.3 Perceptron multicamadas Perceptron Multicamadas (MLP - da sigla em inglês Multilater Perceptron) é um tipo de rede baseado em perceptrons dispostos também em camadas ocultas. A primeira 7 SVR Random Forest Gamma Epsilon C Nº deárvores Máx. profundidade Caso I 0,1 0,04 10 100 14 Caso II 0,01 0,1 2 100 14 Caso III 0,01 0,05 4 100 14 Tabela 2.1: Tabela com os parâmetros dos modelos de Support Vector Regression e Ran- dom Forest para os Casos I, II e III. camada (inputs) consiste na quantidade de entradas que a rede em questão irá receber, ou seja, para o caso de um poço, o número de inputs deve ser equivalente ao número de perfis que serão utilizados para estimar alguma outra propriedade. Um modelo esquemático que representa este tipo de rede pode ser visto na Figura 2.4 e o algoritmo de backpropagation, o qual é utilizado para este tipo de rede está detalhado no Apêndice A. Os modelos utilizados neste trabalhos estão representados na Figura 2.5. Os parâmetros mais importantes deste tipo de rede são: quantidade de variáveis de entrada, número de camadas ocultas, número de neurônios por camada, função de ativa- ção, otimizador, número de épocas de treinamento e o tamanho dos batches, os quais são lotes em que o conjunto de treinamento é dividido. Este tipo de rede permite um maior controle para evitar o overffiting, isto é, o treina- mento em excesso. Para este trabalho foram utilizadas as seguintes técnicas: • Early Stopping - define o número ideal de épocas para treinamento com base nos valores de perdas obtidos durante o treinamento. Quando o erro do conjunto de validação começa a aumentar em detrimento ao erro do conjunto de treinamento, significa que o modelo começou a entrar em overfitting, isto é, a rede aprende exa- geradamente os padrões para o conjunto no qual está sendo treinada e perde a capacidade de generalização para outros conjuntos de dados. Quando isto ocorre, o Early Stopping interrompe o treinamento e retorna os valores dos pesos que obtive- ram o menor erro anteriormente para os dados de validação. • Dropout - esta técnica faz com que durante o treinamento alguns neurônios sejam desconectados momentaneamente e de forma aleatória. Desse modo, a rede treina com arquiteturas diferentes e no final obtém uma média dos resultados obtidos com as diferentes características, reduzindo assim as chances do modelo entrar em overfitting e aprimorando a capacidade de generalização. 2.3.4 Rede Neural Convolucional - 1D A arquitetura deste tipo de rede é similar à arquitetura da MLP, com a diferença de que são inseridas camadas convolucionais antes das camadas densas. As redes neurais 8 Y X ε ε f(x) f(x) + ε f(x) - ε Figura 2.3: Modelo esquemático do SVR, evidenciando o kernel, os hiperplanos e a dis- tância ϵ entre os hiperplanos e o kernel. convolucionais são redes construídas inicialmente com o objetivo de serem utilizadas para o reconhecimento de imagens. Além dos parâmetros já descritos na MLP, são também utilizados: número de camadas convolucionais, número de kernels por camada, dimensão dos kernels, valor do stride e padding. Teoricamente, matrizes são imagens cujos pixels correspondem a diferentes valores. Estas imagens são recebidas pela CNN e nas primeiras camadas, que são as camadas convolucionais, kernels com valores aleatórios percorrem a imagens, as quais tem suas dimensões reduzidas, passando assim para as camadas subsequentes, até chegarem nas camadas densas e a partir daí o processo é o mesmo da MLP. Os dados deste trabalho não são imagens, entretanto, partindo do pressuposto de que para uma rede neural imagens sejam matrizes, para este caso foram criadas imagens cujos valores são correspondentes aos valores dasvariáveis de entrada (GR, Vp e NPHI), e em formato unidimensional. A representação geral desse tipo de rede está mostrada na Figura 2.6, e as arquiteturas dos modelos usados neste trabalho estão representadas na Figura 2.7. As arquiteturas dos modelos de CNN e MLP foram representadas com a utilização de um algoritmo desenvolvido por Bäuerle et al. (2021) para a visualização de arquiteturas 9 ENTRADAS 1-CAMADA OCULTA n-CAMADA OCULTA SAÍDA X1 X2 Xni W1 W2 Wn1 W1 W2 Wnn Figura 2.4: Modelo esquemático da MLP, no qual ni representa a quantidade de variáveis de entrada, n1 o número de neurônios presentes na primeira camada oculta e nn o número de neurônios presentes na n-ésima camada oculta. de redes neurais construídas com o Keras. 2.3.5 Regressão Linear Múltipla Também foi criado um modelo de regressão linear múltipla, o qual é similar à regressão linear simples, com a diferença de que ao valor de saída depende de mais de uma variável de entrada, nesse caso, a densidade é a saída do produto das variáveis Vp, GR e NPHI com seus respectivos coeficientes, como mostrado na equação 2.2 ρ = Vp ∗X1 +GR ∗X2 +NPHI ∗X3, (2.2) na qual ρ representa a densidade, e X1, X2 e X3 os coeficientes calculados. 2.4 ESCALONAMENTO Como as variáveis apresentam valores de grandezas diferentes, é importante que seja aplicado um escalonamento aos dados, para que dessa maneira tenham os mesmos pesos para a rede. Neste trabalho foi utilizado o Standard Scaler, cuja equação é z = x− µ s , (2.3) 10 Caso I 70 Dense 70 Dropout 40 Dense 1 Dense Caso II 60 Dense 60 Dropout 50 Dense 1 Dense Caso III 50 Dense 50 Dropout 30 Dense 30 Dense 1 Dense Figura 2.5: Arquiteturas dos modelos de MLP aplicados aos três casos (Caso I - Norne, Caso II - Teapot e Caso III - Norne e Teapot). em que x corresponde à amostra, µ à média e s ao desvio padrão. Os modelos Random Forest, Support Vector Regression e Regressão Linear Múltipla foram construídos com o uso da biblioteca scikit-learn, e os modelos MLP e CNN-1D foram construídos com a 11 ENTRADA 1-CAMADA CONVOLUCIONAL n-CAMADA CONVOLUCIONAL FLATTEN 1-CAMADA OCULTA n-CAMADA OCULTA SAÍDA Figura 2.6: Modelo esquemático representando a arquitetura de uma CNN, tendo a en- trada, as camadas convolucionais, a camada flatten, as camadas densas e o saída. biblioteca Keras, a qual roda em cima do TensorFlow. Os cálculos das métricas de todos os modelos foram realizados com as funções da biblioteca scikit-learn. Para efeitos de reprodutibilidade da presente metodologia, é necessário levar em con- sideração que ela pode ser utilizada para estimar outros perfis, além da densidade, tendo outros perfis como entrada, e que o uso de diferentes tipos de processadores podem gerar resultados diferentes. Todo o algoritmo deste trabalho foi escrito com o uso da plataforma Google Colab, conectado a um ambiente de execução local contendo uma GPU do tipo NVIDIA Geforce MX 330 (2GB) e a um processador do tipo Intel Core i7, 11ª Geração. 12 Caso I 1 x 3 1 x 3 1 x 3 1 x 2 200 Conv1D 200 Dropout 50 Conv1D 100 Flatten 200 Dense 200 Dropout 90 Dense 1 Dense Caso II 1 x 3 1 x 3 1 x 3 1 x 2 200 Conv1D 200 Dropout 50 Conv1D 100 Flatten 50 Dense 50 Dropout 30 Dense 1 Dense Caso III 1 x 3 1 x 3 1 x 3 1 x 2 1 x 1 55 Conv1D 55 Dropout 35 Conv1D 15 Conv1D 15 Flatten 50 Dense 50 Dropout 30 Dense 30 Dense 1 Dense Figura 2.7: Arquiteturas dos modelos de CNN-1D aplicados aos três casos. 3 RESULTADOS E DISCUSSÕES Os resultados estão divididos em três partes principais: • Caso I - treinamento e aplicação aos poços cegos provenientes de Norne; • Caso II - treinamento e aplicação aos poços cegos provenientes do Teapot; • Caso III - treinamento e aplicação aos dados em conjunto de Norne e Teapot. Para todos os casos os dados foram separados em 70% para treinamento e 30% para teste/validação. 3.1 REMOÇÃO DE OUTLIERS A primeira etapa de pré-processamento, a qual consiste na remoção de outliers, foi executada com o uso do algoritmo Isolation Forest e os resultados estão mostrados nas Figuras 3.1, 3.2 e 3.4. 50 100 150 GR (API) 1.8 2.0 2.2 2.4 2.6 2.8 3.0 RH OB (g /c m ³) Inliers Outliers 2500 3000 3500 4000 4500 Vp (m/s) 0.1 0.2 0.3 0.4 NPHI (%) Remoção de outliers para o Caso I Figura 3.1: Remoção de outliers aplicada aos poços de treinamento do Caso I. Foi feita também uma análise de similaridade entre os poços, no que diz respeito a quão bem os perfis se assemelham por meio de um crossplot, visto na Figura 3.3. Pode- se observar que os perfis apresentam um comportamento similar, o que indica que as litologias possam apresentar características semelhantes, o que é um fator importante para o aprendizado de máquina no que se refere à capacidade de generalização dos modelos. 13 14 0 100 200 GR (API) 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 RH OB (g /c m ³) Inliers Outliers 3000 4000 5000 6000 Vp (m/s) 0.0 0.2 0.4 0.6 NPHI (%) Remoção de outliers para o caso II Figura 3.2: Remoção de outliers aplicada aos poços de treinamento do Caso II. 0 100 200 1.5 2.0 2.5 3.0 norne train 1 norne train 2 teapot train 1 teapot train 2 4000 6000 1.50 1.75 2.00 2.25 2.50 2.75 3.00 3.25 0.0 0.5 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Crossplots entre os dados de treinamento para o Caso III Figura 3.3: Crossplots entre os poços de treinamento concatenados do Caso III, os quais mostram que os poços apresentam distribuições semelhantes. 0 100 200 GR (API) 1.50 1.75 2.00 2.25 2.50 2.75 3.00 3.25 RH OB (g /c m ³) Inliers Outliers 3000 4000 5000 6000 Vp (m/s) 0.0 0.5 1.0 NPHI (%) Remoção de outliers para o caso III Figura 3.4: Remoção de outliers aplicada aos poços de treinamento concatenados do Caso III. 3.2 CRIAÇÃO DOS MODELOS Foi criado um modelo diferente de cada estimador para cada caso. Os modelos de CNN-1D construídos estão mostrados na Figura 2.7. 15 Para todas as arquiteturas de CNN-1D foi utilizado o otimizador RMSProp, proposto por Hinton et al. (2012) e descrito pela equação vt = βvt−1 + (1− β) ∗ g2t , wnew = wold − η√ vt + ϵ ∗ gt, (3.1) na qual vt corresponde à média exponencial dos quadrados dos gradientes, η à taxa de aprendizagem (definida por 0.001), gt ao gradiente em um tempo t, wnew aos pesos atu- alizados, wold aos pesos antigos, ϵ a uma constante da ordem de 10−6 para evitar o caso de uma divisão por zero, e β sendo uma constante geralmente igual a 0.95. Outros oti- mizadores como Adam e SGD foram testados, mas o RMSProp foi o qual gerou menores valores de erro. A função de ativação utilizada para os Casos I e II foi a Softsign, descrita por softsign(x) = x abs(x) + 1 , (3.2) e para o Caso III, a função ReLU, descrita por ReLU(x) = 0, para x < 0,x, para x ⩾ 0 , (3.3) foi a que obteve menores valores de erro durante o treinamento. Para o controle do número de épocas foi adotada a técnica EarlyStopping, com a paciência igual a 10, ou seja, se durante 10 épocas não houver mais diminuição do erro no conjunto de validação, o treinamento é interrompido. Para todos os modelos foi utilizada uma camada Dropout igual a 0.4 tanto para as camadas convolucionais quanto para as camadas densas. Para os modelos de MLP também foi utilizada a função de ativação Softsign nos modelos referentes aos Casos I e II, e a função ReLU ao Caso III, como também o otimizador RMSProp. A arquitetura da rede e as técnicas para evitar overfitting (Dropout e EarlyStopping) foram as mesmas utilizadas nos modelos de CNN-1D. Todos os parâmetros desses dois tipos de arquiteturas foram definidos manualmente. O gráfico de perda em relação ao número de épocas durante o treinamento pode ser visto na Figura 3.6. Os modelos de SVR e RF foram criados com o uso da biblioteca scikit-learn, e os hiper parâmetros foram definidos com o uso da ferramenta GridSearchCV, e caso necessário, os parâmetros foram ajustados manualmente para melhorar a capacidade de generalização aos poços cegos. A regressãolinear múltipla também foi aplicada dentro da biblioteca scikit-learn, com diferentes valores de coeficientes para cada caso. 16 0 10 20 epoch 0.0 0.2 0.4 lo ss Treinamento da CNN-1D (Caso I) train val 0 10 20 30 epoch 0.0 0.2 0.4 0.6 0.8 lo ss Treinamento da CNN-1D (Caso II) train val 0 5 10 15 Epoch 0.0 0.2 0.4 Lo ss Treinamento da CNN-1D (Caso III) train val Figura 3.5: Gráficos de treinamento da CNN-1D correspondentes aos três casos, sendo a linha azul correspondente à curva de treinamento, e a laranjada à validação. O número de épocas foi controlado pela técnica EarlyStopping. 17 0 2 4 6 8 epoch 0.00 0.25 0.50 0.75 lo ss Treinamento da MLP (Caso I).pdf train val 0 5 10 epoch 0.0 0.2 0.4 0.6 lo ss Treinamento da MLP (Caso II) train val 0 5 10 15 20 Época 0.0 0.5 1.0 Er ro Treinamento da MLP (Caso III) Treinamento Validação Figura 3.6: Gráficos de treinamento da MLP correspondentes aos três casos, sendo a linha azul correspondente à curva de treinamento, e a laranjada à validação. Para este tipo de rede o número de épocas também foi controlado pela técnica EarlyStopping. 18 3.3 APLICAÇÃO DOS MODELOS AOS POÇOS CEGOS Os modelos criados foram aplicados em poços cegos (i.e., poços que não foram uti- lizados durante o treinamento) para averiguar a capacidade de generalização de cada estimador. Os modelos preditos estão mostrados nas Figuras 3.7, 3.8 e 3.9. Todos os poços passaram, também, pela remoção de spikes, os quais são picos de valores que não fazem sentido em um determinado perfil, podendo ser gerados por erros de leitura da ferramenta. No Blind 1, há uma região em destaque, na qual as redes estimaram valores de densidade inferiores aos valores reais. Esta diferença está relacionada à um possível reservatório, como pode ser visto na Figura 3.10. 2.0 2.2 2.4 2.6 RHOB (g/cm³) 2950 3000 3050 3100 3150 3200 DE PT H (m ) Blind 1 Real MLP Random Forest Support Vector Regression Multiple Regression CNN-1D 2.2 2.4 2.6 2.8 RHOB (g/cm³) 2750 2800 2850 2900 2950 3000 3050 3100 Blind 2 Modelos aplicados para o Caso I Figura 3.7: Predições e valores reais de densidade para os Caso I, com destaque à zona no Blind1, na qual as redes subestimam os valores reais de densidade. 19 2.00 2.25 2.50 2.75 3.00 RHOB (g/cm³) 2600 2800 3000 3200 3400 3600 DE PT H (m ) Blind 1 Real MLP Random Forest Support Vector Regression Multiple Regression CNN-1D 2.2 2.4 2.6 RHOB (g/cm³) 3000 3100 3200 3300 3400 Blind 2 Modelos aplicados para o Caso II Figura 3.8: Predições e valores reais de densidade para o Caso II. 20 2 3 RHOB (g/cm³) 2950 3000 3050 3100 3150 3200 DE PT H (m ) Blind 1 2.0 2.5 3.0 RHOB (g/cm³) 2750 2800 2850 2900 2950 3000 3050 3100 Blind 2 2.0 2.5 RHOB (g/cm³) 800 850 900 950 1000 1050 1100 1150 Blind 3 Real MLP RF SVR Regressão Múltipla CNN-1D 2.0 2.5 RHOB (g/cm³) 920 940 960 980 1000 1020 1040 1060 Blind 4 Modelos aplicados para o Caso III Figura 3.9: Predições e valores reais de densidade para o Caso III. 21 2.00 2.25 2.50 RHOB (g/cm³) 2950 3000 3050 3100 3150 3200 DE PT H (m ) Densidades real e estimadas Real MLP Random Forest Support Vector Regression Multiple Regression CNN-1D 50 100 SW (%) Saturação de água (SW) Blind 1 do Caso I com o perfil de Saturação Figura 3.10: Predições aplicadas ao Blind 1 do Caso I, contendo o perfil de saturação, com o qual se pode notar que as redes subestimam os valores reais de densidade quando há um aumento significativo da Saturação de água na região. 22 3.4 ANÁLISE DA EFICÁCIA DOS ESTIMADORES COM A APLICAÇÃO DE MÉ- TRICAS Para análise de eficácia e capacidade de genarilzação dos estimadores, foram utilizadas as métricas MSE, Erro relativo e Índice de Similaridade de Jaccard. O MSE foi calculado a partir da equação MSE = 1 n n∑ i=1 (yi − ỹi)2, (3.4) em que n corresponde ao número de amostras, yi ao valor real e ỹi ao valor predito. Os gráficos com os valores obtidos estão mostrados na Figura 3.11. A partir dos resultados de MSE obtidos para os Casos I e II, é possível observar que a CNN-1D foi tipo de estimador que conseguiu obter menores valores de erro em comparação aos outros estimadores. Também é possível observar que para esses casos, a Regressão múltipla obteve um desempenho similar, e até melhor que outros algoritmos mais complexos, como Random Forest e SVR. Os resultados obtidos do MSE para o Caso III mostraram que embora tenham sido usados mais dados de treinamento provenientes do campo de Norne, as redes em geral reconheceram melhor os padrões dos dados provenientes do Teapot. Os valores de erro para o Caso III se mostraram superiores aos Casos I e II devido ao uso de diferentes tipos de conjuntos de dados, i.e., para que aumentem a capacidade de generalizar devem aprender padrões de diferentes campos ao mesmo tempo, fazendo assim com que o desempenho em comparação aos casos isolados venha a decair. Também foi possível observar que para o Caso III a regressão múltipla teve seu de- sempenho reduzido, o que torna possível deduzir que quando aplicados a diferentes tipos de campos ao mesmo tempo, este estimador perde sua capacidade de generalizar em com- paração aos demais algoritmos. Para os quatro poços cegos utilizados no Caso III, a regressão múltipla apresentou um valor de MSE inferior apenas à SVR para o Blind2, enquanto que para todos os outros poços cegos apresentou um valor de erro relativamente alto. Em contrapartida, a CNN-1D obteve valores de MSE inferiores em comparação aos outros algoritmos para todos os poços cegos. 23 Blind1 Blind20.000 0.002 0.004 0.006 0.008 0.010 0.012 0.0091 0.0054 0.0101 0.0066 0.0123 0.0062 0.0102 0.0066 0.0085 0.0054 MSE para o Caso I MLP Random Forest SVR Multiple Regression CNN-1D Blind1 Blind20.000 0.002 0.004 0.006 0.008 0.0074 0.0064 0.0089 0.0069 0.0077 0.0064 0.0082 0.0062 0.0068 0.0058 MSE para o Caso II MLP Random Forest SVR Multiple Regression CNN-1D Blind1 Blind2 Blind3 Blind40.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 Norne Teapot 0. 01 51 4 0. 02 43 3 0. 00 74 7 0. 00 74 90. 01 21 2 0. 01 84 3 0. 00 94 5 0. 00 79 5 0. 01 76 5 0. 01 82 4 0. 00 78 1 0. 00 75 1 0. 01 66 9 0. 02 97 2 0. 01 15 9 0. 01 03 6 0. 01 04 4 0 .0 16 13 0. 00 70 3 0. 00 67 1 MSE para o Caso III MLP Random Forest SVR Multiple Regression CNN-1D Figura 3.11: Gráficos de MSE para os Casos I, II e III. Como pode ser observado, a CNN- 1D é o estimador que apresenta o menor erro dentre todos os estimadores para todos os casos. 24 O erro relativo foi calculado com a equação REn = (ỹn − yn) yn ∗ 100, (3.5) em que ỹn é o valor predito e yn é o valor real, com o resultado em porcentagem. Os gráficos de erro relativo estão mostrados nas Figuras 3.12, 3.13 e 3.14. Para os Casos I e II é observado que o erro relativo está compreendido predominantemente entre −5% e 5%, enquanto que para o Caso III o erro aumenta para a ordem de −10% e 10%. Essa discrepância pode ser explicado pelo fato de que, assim como no MSE, para os casos I e II os modelos aprenderem padrões de poços do mesmo campo, enquanto que para o caso III os modelos extraíram características de diferentes campos, o que faz com que o erro aumente quando aplicado a um poço de um campo específico. Contudo, para esse caso, a capacidade de generalização é maior em comparação aos poços treinados em campos isolados. 25 10 5 0 5 10 2950 3000 3050 3100 3150 3200 DE PT H (m ) Blind 1 MLP Multiple Regression SVR Random Forest CNN-1D 10 5 0 5 10 2750 2800 2850 2900 2950 3000 3050 3100 Blind 2 Erro relativo para o Caso I (%) Figura 3.12: Erros relativos correspondentes ao Caso I, com os valores variando predomi- nantemente entre −5% e 5%. 26 10 5 0 5 10 2600 2800 3000 3200 3400 3600 DE PT H (m ) Blind 1 MLP Multiple Regression SVR Random Forest CNN-1D 10 5 0 5 10 3000 3100 3200 3300 3400Blind 2 Erro relativo para o Caso II (%) Figura 3.13: Erros relativos correspondentes ao Caso II, com os valores variando predo- minantemente entre −5% e 5%. 27 10 0 10 2950 3000 3050 3100 3150 3200 DE PT H (m ) Blind 1 10 0 10 2750 2800 2850 2900 2950 3000 3050 3100 Blind 2 10 0 10 800 850 900 950 1000 1050 1100 1150 Blind 3 10 0 10 920 940 960 980 1000 1020 1040 1060 Blind 4 MLP Regressão múltipla SVR Random Forest CNN-1D Erro relativo para o Caso III (%) Figura 3.14: Erros relativos correspondentes ao Caso III, com os valores variando predo- minantemente entre −10% e 10%. O aumento do erro em relação aos Casos I e II está relacionado ao uso de poços de diferentes campos. 28 O índice de similaridade de Jaccard é um valor que indica o quanto dois conjuntos de dados se assemelham no que diz respeito aos valores em comum. É definido pela equação J(A,B) = |A ∩B| |A|+ |B| − |A ∩B| , (3.6) na qual A e B representam os conjuntos, |A ∩B| representa o módulo da quantidade de valores em comum, i.e., a interseção. Os valores calculados foram reduzidos a duas casas decimais, de modo que a interseção considere valores cujas duas primeiras casas decimais sejam as mesmas. Com base nas Figuras 3.15, 3.16, 3.17, 3.18, 3.19 e 3.20 se pode observar que embora os valores de MSE sejam baixos para alguns casos, como para a CNN-1D, a qual apresenta os menores valores em relação aos outros estimadores para todos os casos, quando se trata do índice de Jaccard, os resultados no que se refere à eficácia podem demonstrar uma divergência. Esta discrepância pode ser explicada levando em consideração que o índice de Jaccard considere os valores absolutos em comum. Para um caso em que o MSE seja relativamente baixo, e o índice de Jaccard seja baixo, isto pode indicar que embora os dois conjuntos de dados não contenham tantos valores absolutos em comum, os resíduos, isto é, as diferenças entre os valores reais e preditos tendem a ser baixos. 29 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 39.46% MSE: 0.00848 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 37.30% MSE: 0.00907 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 45.84% MSE: 0.01012 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 49.50% MSE: 0.01230 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 41.50% MSE: 0.01021 Regressão múltipla Blind1 (Caso I) 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 63.56% MSE: 0.00537 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 63.07% MSE: 0.00544 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 61.05% MSE: 0.00659 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 62.31% MSE: 0.00623 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 62.23% MSE: 0.00658 Regressão múltipla Blind2 (Caso I) Figura 3.15: Histogramas com as quantidades de amostras por valor de densidade corres- pondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poços Blind1 e Blind2 do Caso I. 30 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 65.21% MSE: 0.00684 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 65.21% MSE: 0.00743 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 61.46% MSE: 0.00887 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 68.87% MSE: 0.00772 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 63.37% MSE: 0.00820 Regressão múltipla Blind1 (Caso II) 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 51.63% MSE: 0.00585 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 57.73% MSE: 0.00642 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 61.29% MSE: 0.00694 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 62.60% MSE: 0.00638 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 53.26% MSE: 0.00617 Regressão múltipla Blind2 (Caso II) Figura 3.16: Histogramas com as quantidades de amostras por valor de densidade corres- pondentes à densidade real e à predita, juntamente com o Índice de Jaccard para os poço Blind1 e Blind2 do Caso II. 31 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 45.80% MSE: 0.01044 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 44.82% MSE: 0.01514 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 58.72% MSE: 0.01212 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 45.11% MSE: 0.01765 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 45.71% MSE: 0.01669 Multiple regression Blind1 (Caso III) Figura 3.17: Histogramas com as quantidades de amostras por valor de densidade corres- pondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind1. 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 46.81% MSE: 0.01613 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 46.56% MSE: 0.02433 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 50.35% MSE: 0.01843 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 44.29% MSE: 0.01824 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 Jaccard Index: 43.43% MSE: 0.02972 Multiple regression Blind2 (Caso III) Figura 3.18: Histogramas com as quantidades de amostras por valor de densidade corres- pondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind2. 32 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 58.61% MSE: 0.00703 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 58.46% MSE: 0.00747 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 52.02% MSE: 0.00945 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 64.31% MSE: 0.00781 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 20 40 60 Jaccard Index: 58.32% MSE: 0.00945 Multiple regression Blind3 (Caso III) Figura 3.19: Histogramas com as quantidades de amostras por valor de densidade corres- pondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind3. 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 10 20 30 Jaccard Index: 62.07% MSE: 0.00671 Real CNN-1D 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 10 20 30 Jaccard Index: 59.36% MSE: 0.00749 MLP 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 10 20 30 Jaccard Index: 51.17% MSE: 0.00795 Random Forest 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 10 20 30 Jaccard Index: 54.92% MSE: 0.00751 SVR 2.0 2.2 2.4 2.6 RHOB (g/cm³) 0 10 20 30 Jaccard Index: 53.61% MSE: 0.01036 Multiple regression Blind4 (Caso III) Figura 3.20: Histogramas com as quantidades de amostras por valor de densidade corres- pondentes à densidade real e à predita, juntamente com o Índice de Jaccard para o poço Blind4. 4 CONCLUSÃO Neste trabalho foi feita uma abordagem acerca do uso de aprendizagem de máquina para a predição da densidade. Os resultados obtidos indicaram que os diferentes tipos de algoritmos dessa natureza demonstram uma considerável capacidade de generalização em comparação com técnicas mais tradicionais, como a regressão múltipla por mínimos quadrados. Especialmente para o caso da CNN-1D, os resultados enfatizaram que esse tipo de arquitetura demonstra uma performance superior aos demais algoritmos. Com base nos resultados do MSE obtidos, para os casos em que as redes foram trei- nadas e aplicadas a apenas um campo (Casos I e II), as redes de aprendizagem profunda (MLP e CNN) obtiveram os melhores resultados em comparação com as redes de apren- dizagem de máquina e a regressão múltipla. Para os casos em que houve o treinamento conjunto dos campos (Caso III), todos os algoritmos obtiveram erros inferiores aos erros obtidos pela regressão múltipla, sendo que dentre estes, a rede de aprendizagem profunda CNN-1D foi a que obteveos menores valores de erro. Tendo em vista que os diferentes algoritmos de modo geral apresentaram um conside- rável nível de confiabilidade, uma proposta a se considerar para trabalhos posteriores é o uso da CNN-1D de forma híbrida com algum outro tipo de arquitetura, a fim de se tirar proveito das qualidades de cada uma delas e usá-las em conjunto. 33 APÊNDICE A - ALGORITMO DE BACKPROPAGATION Para demonstrar esse algoritmo, será utilizada uma arquitetura, representada pela Figura 4.1, contendo i inputs, uma camada oculta com j neurônios e uma camada de saída contendo apenas um neurônio, visto que se trata de um problema de regressão. w11 w 21 w1 2 w22 wji w 1 w2 w j Xi X2 X1 � Σ Σ Σ ∫ ∫ ∫ g Φ(g) b1 b2 bj _Σ bout Figura 4.1: Arquitetura de uma rede neural do tipo MLP para a representação do algo- ritmo de backpropagation. A primeira etapa, com a propagação para frente, ou forward propagation é iniciada com os neurônios da camada oculta recebendo o somatório das entradas com os respectivos pesos, como mostrado na equação a seguir g1 = x1 ∗ w11 + x2 ∗ w12 + ...+ xi ∗ w1i + b1, g2 = x1 ∗ w21 + x2 ∗ w22 + ...+ xi ∗ w2i + b2, ... gj = x1 ∗ wj1 + x2 ∗ wj2 + ...+ xi ∗ wji + bj, (4.1) a qual, generalizando para todos os neurônios, se torna gj = i∑ i=1 xi ∗ wji + bj, (4.2) 34 35 e a saída do neurônio é dada pela função de ativação aplicada a gj, representado como ϕ(gj). Posteriormente, o neurônio da camada de saída irá receber o somatório das saídas dos neurônios da camada oculta com os respectivos pesos, tendo como saída y y = ϕ(g1) ∗ w1 + ϕ(g2) ∗ w2 + ...+ ϕ(gj) ∗ wj + bout, y = j∑ j=1 ϕ(gj) ∗ wj + bout. (4.3) A partir do valor de saída, é calculado o erro (E) em relação ao valor esperado (y). A métrica de erro utilizada neste trabalho foi a MSE, então E = (y − y)2. (4.4) Com o valor do erro, é necessário realizar o caminho inverso na rede neural, ou backwards propagation, a qual tem como objetivo atualizar os pesos a fim de que o erro diminua. Primeiramente deve-se calcular a derivada parcial do erro em relação a cada peso, porém, como erro não está em função dos pesos, é necessário que seja aplicada a regra da cadeia. ∂E ∂w1 = ∂E ∂y ∂y ∂w1 = 2(y − y)ϕ(g1), ∂E ∂w2 = ∂E ∂y ∂y ∂w2 = 2(y − y)ϕ(g2), ... ∂E ∂wj = ∂E ∂y ∂y ∂wj = 2(y − y)ϕ(gj), (4.5) e em relação ao bias: ∂E ∂bout = ∂E ∂y ∂y ∂bout = 2(y − y). (4.6) Para atualizar o valor dos pesos, é utilizado um otimizador. Neste trabalho foi utilizado o otimizador RMSProp, representado pela equação 3.1. Portanto, os valor atualizado dos pesos relacionados à camada de saída é dado por w1 = w1 − η√ vt − ϵ ∂E ∂w1 = w1 − η√ vt − ϵ ∗ 2(y − y)ϕ(g1), w2 = w2 − η√ vt − ϵ ∂E ∂w2 = w2 − η√ vt − ϵ ∗ 2(y − y)ϕ(g2), 36 ... wj = wj − η√ vt − ϵ ∂E ∂wj = wj − η√ vt − ϵ ∗ 2(y − y)ϕ(gj), (4.7) e de forma análoga, o bias é dado por bout = bout − η√ vt − ϵ ∂E ∂bout = bout − η√ vt − ϵ ∗ 2(y − y). (4.8) Para atualizar os pesos relacionados à camada ocultas o processo é similar. A derivada parcial do erro em relação ao peso w11 do primeiro neurônio é dada por ∂E ∂w11 = ∂E ∂y ∂y ∂ϕ(g1) ∂ϕ(g1) ∂g1 ∂g1 ∂w1 considerando o caso da função de ativação ser ReLU, a sua derivada é definida como ∂ϕ(g1) ∂g1 = ϕ′(g1) = 0, para g1 < 0,1, para g1 ⩾ 0 , (4.9) ∂E ∂w11 = 0, para g1 < 0 ,2(y − 1) ∗ w1 ∗ x1, para g1 ⩾ 0. (4.10) Para o caso em que a derivada parcial é diferente de zero, o peso w11 atualizado é dado por w11 = w11 − η√ vt − ϵ 2(y − 1)w1x1. (4.11) O mesmo procedimento é aplicado aos outros pesos e bias, e quando todas as amostras são recebidas pela rede, uma época é completada e o mesmo se repete por quantas épocas forem necessárias até que o erro venha a convergir para um mínimo desejado. REFERÊNCIAS Avseth, P., T. Mukerji, and G. Mavko, 2010, Quantitative seismic interpretation: Ap- plying rock physics tools to reduce interpretation risk: Cambridge university press. Bäuerle, A., van C. Onzenoodt, and T. Ropinski, 2021, Net2vis – a visual gram- mar for automatically generating publication-tailored cnn architecture visualizations: IEEE Transactions on Visualization and Computer Graphics, 27, 2980–2991, doi: 10.1109/TVCG.2021.3057483. Chollet, F., et al., 2015, Keras: https://github.com/fchollet/keras. Ellis, D. V., and J. M. Singer, 2007, Well logging for earth scientists, 692: Springer. Friedmann, S. J., and V. Stamp, 2005, Teapot dome: Site characterization of a co2- enhanced oil recovery site in eastern wyoming: Technical report, Lawrence Livermore National Lab.(LLNL), Livermore, CA (United States). Géron, A., 2019, Hands-on machine learning with scikit-learn, keras, and tensorflow: Concepts, tools, and techniques to build intelligent systems: O’Reilly Media. Hinton, G., N. Srivastava, and K. Swersky, 2012, Neural networks for machine learning lecture 6a overview of mini-batch gradient descent: Cited on, 14, 2. Liu, F. T., K. Ting, and Z.-H. Zhou, 2008, Isolation forest: 2008 eighth ieee international conference on data mining, IEEE, 413–422. Misra, S., O. Osogba, and M. Powers, 2019, Unsupervised outlier detection techniques for well logs and geophysical data: Mach. Learn. Subsurface Charact, 1. Nery, G. G., 1990, Perfilagem geofísica em poço aberto: Salvador, BA, 231p. Pedregosa, F., G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, 2011, Scikit-learn: Machine learning in Python: Journal of Machine Learning Research, 12, 2825–2830. Schön, J., 2011, Physical properties of rocks: A workbook, 8: Elsevier. Statoil, 2006, Annual reservoir development plans, norne and urd field. Tembely, M., A. M. AlSumaiti, and W. S. Alameri, 2021, Machine and deep learning for estimating the permeability of complex carbonate rock from x-ray micro-computed tomography: Energy Reports, 7, 1460–1472. Zhong, Z., T. R. Carr, X. Wu, and G. Wang, 2019, Application of a convolutional neural network in permeability prediction: A case study in the jacksonburg-stringtown oil field, west virginia, usa: Geophysics, 84, B363–B373. 37 e3e3a24072ecff5fda0af967ddf2eb6a4e298c102a8dcff7d7b1666027b7bfb0.pdf 5dfa53814b5c6b0df1a3612e79aedafb554fd60d959dde00f7b5a3ece713e854.pdf 5dfa53814b5c6b0df1a3612e79aedafb554fd60d959dde00f7b5a3ece713e854.pdf 5dfa53814b5c6b0df1a3612e79aedafb554fd60d959dde00f7b5a3ece713e854.pdf e3e3a24072ecff5fda0af967ddf2eb6a4e298c102a8dcff7d7b1666027b7bfb0.pdf
Compartilhar