Buscar

Análise de desempenho de modelos de aprendizagem de máquina para regressão

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 77 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 77 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 77 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE GEOCIÊNCIAS
PROGRAMA DE PÓS-GRADUAÇÃO EM GEOFÍSICA
DISSERTAÇÃO DE MESTRADO
Análise de desempenho de modelos de aprendizagem de
máquina para regressão na construção de perfis
petrofísicos: análise sobre o perfil de densidade
CELSO RAFAEL LIMA DE LIMA
Belém – Pará
2023
CELSO RAFAEL LIMA DE LIMA
Análise de desempenho de modelos de aprendizagem de
máquina para regressão na construção de perfis
petrofísicos: análise sobre o perfil de densidade
Dissertação apresentada ao Programa de Pós-Graduação
em Geofísica do Instituto de Geociências da Universi-
dade Federal do Pará para obtenção do título de Mestre
em Geofísica.
Área de concentração:
Petrofísica
Linha de pesquisa:
DESENVOLVIMENTO E APLICAÇÃO DE MÉTODOS
HEURÍSTICOS AO ESTUDO DE RESERVATÓRIOS
Orientador: Prof. Dr. José Jadsom Sampaio de Figueiredo
Belém – Pará
2023
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Dados Internacionais de Catalogação na Publicação (CIP) de acordo com ISBD 
Sistema de Bibliotecas da Universidade Federal do Pará 
Gerada automaticamente pelo módulo Ficat, mediante os dados fornecidos pelo(a) autor(a) 
 
 
 
L732a Lima, Celso Rafael Lima de. 
Análise de desempenho de modelos de aprendizagem de 
máquina para regressão na construção de perfis petrofísicos : 
análise sobre o perfil de densidade / Celso Rafael Lima de Lima. — 
2023. 
76 f. : il. color. 
 
Orientador(a): Prof. Dr. José Jadsom Sampaio de Figueiredo 
Dissertação (Mestrado) - Universidade Federal do Pará, 
Instituto de Geociências, Programa de Pós-Graduação em 
Geofísica, Belém, 2023. 
 
1. Perfil de Densidade. 2. Regressão por Aprendizagem de 
Máquinas. 3. Métodos de Otimização. I. Título. 
 
CDD 550 
 
Dedico esse trabalho à minha esposa Arlete
e ao meu filho Artur por serem as minhas
maiores motivações para realizá-lo.
AGRADECIMENTOS
A Deus, por ter permitido que eu tivesse saúde e determinação para não desanimar durante
a realização deste trabalho.
A minha esposa Arlete Furtado Bastos Lima que sempre me incentivou a não desistir no
percurso do Mestrado.
A toda minha família que sempre torceu por minhas conquistas acadêmicas e profissionais.
Ao meu amigo Igor Jesus de Sousa Sousa, que em nossas conversas durante a pandemia via
chamada de vídeo trocamos muitas ideias sobre nossos trabalhos e nos ajudamos muito.
Ao professor José Jadsom Sampaio de Figueiredo, por ter sido meu orientador e ter
desempenhado tal função com dedicação e amizade.
Ao meu amigo de trabalho e na vida João Wellington Amaral Perdigão de Souza que
sempre contribuiu para o meu desenvolvimento pessoal e profissional no nosso dia-a-dia
de trabalho, contribuiu direta e indiretamente na produção do trabalho.
À todos os alunos, monitores e estagiários que passaram pelos laboratórios da Geofísica.
Também gostaria de agradecer ao Programa de Pós-Graduação em Geofísica por toda
estrutura fornecida para realização desse trabalho.
Em Deus, nós confiamos. Todos os outros
devem trazer dados.
W. Edwards Deming
RESUMO
A densidade é uma grandeza física de grande importância para petrofísica e sísmica
de exploração. Por isso a sua estimativa através de equações empíricas foi objeto de
estudos ao longo do tempo. Este trabalho tem como objetivo construir perfis de densidade
aparente a partir de outros perfis petrófisicos. Foram usados métodos de aprendizagem
de máquina para regressão, com o foco na generalização de modelos. Foram utilizados
seis métodos de aprendizagem de máquina e nesses métodos foram utilizados dados de
4 regiões diferentes, com a finalidade de comparar a capacidade de cada método para
aprender diferentes padrões litológicos. Para cada método treinado, foi feita a otimização
de hiper-parâmetros através de um método de busca chamado GridSearch, do pacote
sklearn e posteriormente compara-lo com um método de busca desenvolvido no próprio
trabalho, o qual o chamamos de newSearch. Após os modelos treinados, foi efetuados
testes de predições em poços que não participaram do treinamento dos métodos. Para
o GridSearch foi obtido uma maior capacidade de generalização obtendo o erro médio
quadrático (MSE), na ordem de 10−3. Podemos concluir que a construção de perfil de
poço, para ter uma maior confiabilidade de precisão na sua construção, precisa conter
dados da mesma região do poço que está com seu perfil de densidade aparente construído,
geralmente perdendo desempenho por presença de diferentes ruídos de diferentes dados
incluídos no treinamento.
Palavras-chaves: perfil de densidade; regressão por aprendizagem de máquinas;
métodos de otimização.
ABSTRACT
Density is an important physical quantity in petrophysics and seismic exploration. As
a result, its estimation through empirical estimates has always occurred over time. The
goal of this work is to create apparent density profiles from other petrophysical profiles.
For regression, machine learning methods were used, with a focus on model generalization.
Five machine learning methods were used, and data from four different regions were used
in each method, allowing the ability of each method to learn different lithological patterns
to be compared. Hyper-parameters for each trained method are optimized using a search
method called gridSearchcv from the sklearn package, and then compared to a search
method developed in the work itself, which we call newSearch. Following the training
of the models, a prediction test was executed in wells that did not participate in the
method training. GridSearch demonstrated greater generalization capacity, with mean
square error (MSE) values in the 10− 3 range. Finally, the work concludes that, in order
to have greater precision and reliability in its construction, a well log must contain data
from the same region of the well that has its apparent density profile built, otherwise
performance is lost due to the presence of different noises of various data sets included in
the training.
Keywords: density log; machine learning regression; optimization Methods.
LISTA DE FIGURAS
1.1 Ilustração dos 3 (três) modelos estudados neste trabalho. A variação do
número de features de quatro para duas. O target para todos os modelos
foi a densidade (𝜌). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1 Ilustração simples dos elementos que constituem o Support Vector Regres-
sion (SVR) Linear. Adaptado de Awad and Khanna (2015). . . . . . . . . 6
2.2 Representação gráfica de 𝜖-SVR não linear. Uma função de mapeamento
2.12 é usada para transformar os dados do espaço de feature (A), onde
nenhuma separação linear dos dados é possível, para um espaço de kernel de
maior dimensão (B), onde os dados podem ser separados por um hiperplano
linear. Adaptado de Zhang and O’Donnell (2020a). . . . . . . . . . . . . . 8
2.3 Alguns exemplos de funções de perda: (a) linear, (b) quadratic, and (c)
Huber. Uma melhor descrição sobre essas funções podem ser encontradas
em Awad and Khanna (2015). . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Representação gráfica(A) e sequencia lógica (B) de uma Decision Tree sim-
ples. Adaptado de Zhang and Haghani (2015). . . . . . . . . . . . . . . . . 10
2.5 Ilustração demonstrativa de um arranjo k-NN, em que a estimada é definida
pela média dos target referentes ao ponto mais próximos do ponto de teste.
Adaptado de Hu et al. (2014). . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6 Diagrama representativo de um Perceptron simples. Esse conceito foi an-
tecessor ao MPL e Deep Learning. Fonte do Autor. . . . . . . . . . . . . . 14
2.7 Estrutura básica da rede MLP aplicado no método de predição usado neste
trabalho. Para essa MPL, temos 3 camadas ocultas. Esse foi o melhor
arranjo para os nossos dados. Fonte do autor. . . . . . . . . . . . . . . . . 14
3.1 Fluxograma de desenvolvimento do trabalho. Em que na primeira etapa é
separar os poços que serão utilizados para validação e treinamento. Após
a separação dos poços, é feito o pre-processamento dos dadosremovendo
outlier, concatenando e escalonando os dados de treino. Seguindo para o
treinamento dos modelos de aprendizado de máquina. . . . . . . . . . . . . 15
3.2 Remoção de Outlier aplicado em um perfil de densidade do Alaska. Fonte
do Autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 Nessa figura está representado um processo cross-validation de três etapas,
em que a região mais escura representa os dados de treinamento e a região
mais clara como os dados de teste. Dessa forma, é efetuado os treinos e
aplicado o teste dos modelos treinados nos dados de teste em cada etapa
variando a disposição treino/teste de acordo com as etapas, e no final é
definido como melhor modelo a melhor combinação treino/teste. Fonte:
Adaptado de Refaeilzadeh et al. (2009). . . . . . . . . . . . . . . . . . . . . 20
4.1 Cross-plot do conjunto de dados de treinamento com cada poço blind uti-
lizado no trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2 Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind de Penebscot. Visual-
mente é possível observar que o pior desempenho se deu para os métodos
LS e k-NN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Cross-plot dos perfis do dado de treinamento com os perfis do poço de
validação de Teapot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind de Teapot. Visual-
mente é possível observar que o pior desempenho se deu para os métodos
LS e MPL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.5 Gráficos de cross plot para mostrar a relação do target com cada feature
do conjunto de dado de treinamento e do poço blind do Alaska. . . . . . . 32
4.6 Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind do Alaska. Visual-
mente é possível observar que o pior desempenho se deu para os métodos
LS e k-NN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.7 Gráficos de cross plot para mostrar a relação do target com cada feature
do conjunto de dado de treinamento e do poço blind de Campos. . . . . . . 34
4.8 Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind do campo da Bacia de
Campos. Visualmente é possível observar que o pior desempenho se deu
para os métodos LS, SVR e k-NN. . . . . . . . . . . . . . . . . . . . . . . . 35
4.9 Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind de Cambo. Visual-
mente é possível observar que o pior desempenho se deu para os métodos
LS, RF e k-NN. Importante ressaltar que nehum poço de Cambo foi usado
no treinamento dos modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.10 Crossplots mostrando a relação do target com cada feature do conjunto de
dado de treinamento e do poço blind de Campos. . . . . . . . . . . . . . . 37
4.11 Crossplot entre a relação das features utilizadas no modelos C, nos conjunto
de dados de treinamento e cada poço blind. . . . . . . . . . . . . . . . . . . 38
4.12 Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind do campo de Norne.
Visivelmente é possível observar que nenhum modelo apresentou uma boa
eficiência, neste caso de predição do Modelo C. . . . . . . . . . . . . . . . . 39
4.13 Valores da métrica MSE em gráficos de Barras para os modelos A, B e
C. Neste caso, os gráficos são funções dos desempenhos dos métodos de
regressão aplicados aos diferentes dados de poços. . . . . . . . . . . . . . . 40
4.14 Valores da métrica R em gráficos de Barras para os modelos A, B e C. Neste
caso, os gráficos são funções dos desempenhos dos métodos de regressão
aplicados aos diferentes dados de poços. . . . . . . . . . . . . . . . . . . . . 41
4.15 Evolução do hiper-parâmetro 𝐶 de 0.1 até o valor ótimo, com todos os
outros hiper parâmetros em valor padrão. . . . . . . . . . . . . . . . . . . . 42
4.16 Evolução do hiper-parâmetro 𝐶 de 1 até o valor ótimo, após a otimização
dos hiper-parâmetro 𝜖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.17 Evolução do hiper-parâmetro 𝛾 de 0.1 até o valor ótimo, após a otimização
dos hiper-parâmetros 𝜖 e 𝐶. . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.18 Teste de predição do perfil de densidade a partir do modelo SVR. Esse
comparativo entre as etapas de otimização usando Newgrid proporcionou
melhor desempenho para 𝜀, 𝐶 e 𝛾, exceção para o dado de Peneboscot. . . 45
4.19 Comparação das predições dos perfis de densidade a partir dos modelos
de AM. Neste caso, com otimização Gridsearch e Newgrid sobre os dados
pre-processados para otimização Gridsearch. A spiores Predições se dar
para os dados de Alaska e Cambo. . . . . . . . . . . . . . . . . . . . . . . . 46
4.20 Gráfico em barra da métrica 𝑅 a partir dos ajustes com os modelos otimi-
zados por Newgrid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.21 Gráfico em barra da métrica MSE a partir dos ajustes com os modelos
otimizados por Newgrid. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
A–1 Localização dos Campos de exploração referente aos dados de poço utiliza-
dos no trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
A–2 Plot das features do conjunto de dados utilizados para treinamento dos
modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A–3 Plot das features do poço de teste de Campos. . . . . . . . . . . . . . . . . 60
LISTA DE TABELAS
3.1 Tabela mostra como foi definido os valores de feature para cada modelo
treinado nesse trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1 Hiper-parâmetros encontrados a partir do método de otimização do Grid-
Searchcv. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Métricas dos testes em poços blind a partir de modelos com 2 features. Nes-
sas tabelas foram definidos uma sequência de cores em relação à qualidade
das métricas para o teste em cada poço blind, Para os dois melhores valores,
definimos verde, para os dois valores intermediários, definimos amarelo e
para os dois valores inferiores, definimos vermelho. . . . . . . . . . . . . . . 26
4.3 Métricas dos testes em poços blind a partir de modelos com três features. . 26
4.4 Métricas dos testes em poços blind a partir de modelos com quatro features. 27
4.5 Correlação dos targets com as features dos poços de treino e validação de
Penebscot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Correlação entre as features e o target do poço de treino e validação de
Teapot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.7 Tabela de correlações entre target e features dos poços do Alaska para
treinamento (Alaska 2, 3 e 4) e o poço de validação (Alaska 5). . . . . . . . 32
4.8 Tabela de correlações entre target e features dos poços da Bacia de Campos
para treinamento (Campos 5 e 8) e o poço de validação (Campos 10). . . . 33
4.9 valores das métricas da otimização Newgrid. Como pode ser observado o
melhor desemepenho se deu para o dado do campo de Penebscot. . . . . . 47
A–1 Tabela mostra a relação das regiões com os trabalhos que contém as devidas
análises geológicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
A–2 Tabela com os endereços eletrônicos para o download dos dados utilizados
no trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
LISTA DE SÍMBOLOS, SIGLAS E ABREVIATURAS
SÍMBOLOS
𝜌 Densidade
Φ Porosidade
𝛽 Coeficiente da variável dependente na regressão linear𝑅 Coeficiente de Correlação
𝑅2 Coeficiente de determinação
∆𝑇 Tempo de Trânsito
𝜖 Epsilon
𝜕 Derivada Parcial
𝛽 Coeficiente da regressão linear
𝜔 Vetor de pesos
𝛾 Parâmetro do kernel
𝜇 Média
𝜎 Desvio Padrão
𝑧 Escalonamento
SIGLAS
𝑘𝑁𝑁 k-nearest neighbor
𝑀𝐿𝑃 Multi-layer Perceptron
𝑆𝑆𝐷 Social Ski-Driver
𝐴𝑀 Aprendizado de Maquina
𝐷𝐿 Deep Learning
𝐴𝑁𝑁 Artificial Neural Network
𝐴𝐺 Algoritmos Genéticos
𝐴𝑁𝐹𝐼𝑆 Adaptive Neural Fuzzy Inference System
𝐺𝑅 Gamma Ray
𝐼𝐿𝐷 Deep Induction Log
𝑁𝑃𝐻𝐼 Neutron Porosity
𝐿𝑆 Least Squares
𝑆𝑉 𝑅 Support Vector Regression
𝑅𝐹 Random Forest
𝐺𝐵 Gradient Boost
𝑀𝑄 Mínimos quadrados
𝑅𝐵𝐹 Radial Basis Function
𝐿𝑂𝐹 Local Outlier Factor
ABREVIATURAS
i.e. isto é.
SUMÁRIO
1 INTRODUÇÃO 1
1.1 OBJETIVOS GERAIS E ESPECÍFICOS . . . . . . . . . . . . . . . . . . 2
2 BASE TEÓRICA 4
2.1 MÉTODOS DE REGRESSÃO ESTATÍSTICOS . . . . . . . . . . . . . . 4
2.1.1 Mínimos quadrados (MQ) ou Least Squares (LS) . . . . . 4
2.1.2 Support Vector Regression (SVR) . . . . . . . . . . . . . . . 5
2.1.2.1 Modelo SVR linear . . . . . . . . . . . . . . . . . . . . 6
2.1.2.2 O truque do kernel ou kernel’s trick . . . . . . . . . . . 7
2.1.2.3 Kernel de Função de Base Radial ou Kernel Radial Ba-
sis Function (RBF) . . . . . . . . . . . . . . . . . . . . 7
2.1.2.4 Função de Perda (Loss function) . . . . . . . . . . . . . 8
2.1.3 Regressores baseados em Decision Tree . . . . . . . . . . . 9
2.1.3.1 Random Forest Regression (RFR) . . . . . . . . . . . . 10
2.1.3.2 Gradient Boosting Regression (GBR) . . . . . . . . . . 11
2.1.4 k-Nearest Neighbors (k-NN) . . . . . . . . . . . . . . . . . . . 11
2.1.5 Multilayer Perceptron (MLP) . . . . . . . . . . . . . . . . . 13
3 METODOLOGIA 15
3.1 DESCRIÇÃO DO CONJUNTO DE DADOS . . . . . . . . . . . . . . . . 16
3.2 PRE-PROCESSAMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.1 Remoção de Outliers . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 DESCRIÇÃO DO CONJUNTO DE DADOS . . . . . . . . . . . . . . . . 18
3.3.1 Target and Features . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3.2 Concatenação de dados . . . . . . . . . . . . . . . . . . . . . . 19
3.3.3 Escalonamento dos dados . . . . . . . . . . . . . . . . . . . . 19
3.3.3.1 Cross-validation . . . . . . . . . . . . . . . . . . . . . . 20
3.3.4 Hyperparameters-tuning . . . . . . . . . . . . . . . . . . . . . 21
3.3.5 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.6 Métricas de avaliação de desempenho das regressões . . . 21
3.3.6.1 Coeficientes de Correlação(𝑅) e de Determinação(𝑅2) . 21
3.3.6.2 Métrica MSE (Mean Squared Error) . . . . . . . . . . . 22
4 RESULTADOS 24
4.1 NEWGRID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5 DISCUSSÕES 49
6 CONCLUSÕES 51
REFERÊNCIAS 53
APÊNDICES 56
A– DESCRIÇÃO DOS DADOS E GEOLOGIA DAS REGIÕES 57
1 INTRODUÇÃO
Durante o procedimento na perfilagem de poços, podem ocorrer mudanças ambientais
próximas a superfície do poço. Destas, destacam-se desmoronamentos da superfície lateral
e infiltração do fluido de perfuração (Carrasquilla et al., 2022). Na análise de perfilagem
de poços é frequente a existência de incertezas nos dados coletados, e. g., ruídos e valores
nulos. Um dos perfis de poços mais afetados por essas incertezas é o da densidade aparente.
O desmoronamento é o principal fator que causa falhas nessas medidas (Ellis and Singer,
2007), pois as medidas de densidade são feitas através do contato sobre essa parede, e
para obter valores confiáveis, precisa-se ocorrer um bom contato da parede com o sensor
da ferramenta.
Neste contexto, em alguns trabalhos da literatura tiveram como objetivos propor mo-
delos (na maioria das vezes empíricos) para interpolar informações de perfis de poços
incompletos ou outros perfis petrofísicos que convencionalmente podem ser obtidos atra-
vés de análise de testemunhos. Em Wood (2020) foram criados modelos de predição de
saturação de água, permeabilidade e porosidade de poços localizados na Argélia. Neste
trabalho eles combinaram o K-nearest neighbour (kNN) com a rede neural de perceptron
multicamada (MLP) e apresentou um novo algoritmo híbrido para prever os valores da
permeabilidade, porosidade e saturação de água. No trabalho de Matinkia et al. (2022),
uma pesquisa combina o algoritmo Social Ski-Driver (SSD) com a rede neural perceptron
multicamada (MLP) e apresenta um novo algoritmo híbrido para prever o valor da per-
meabilidade da rocha. O desempenho desta nova técnica é comparado com dois outros
métodos híbridos. Em Handhal et al. (2020) são utilizados perfis de poço para estimar
carbono orgânico total que foram obtidos através de análise laboratorial de amostras de
corte e testemunho, com o auxilio do aprendizado de maquina. Apesar desses trabalhos
apresentarem excelentes ajustes com os dados utilizados em seus respectivos resultados,
são utilizado conjuntos de dados restrito à área de estudo, com modelos que são especia-
listas para área, mas com pouca capacidade de generalização.
No contexto da densidade, em relação a sua predição usando algoritmos inteligentes,
poucos trabalhos tem sido publicados nos últimos anos. No entanto, destacamos alguns
trabalhos relacionados a Aprendizado de maquina (AM) e Deep Learning (DL). Long et al.
(2016) usando Artificial Neural Network (ANN), Lógica Fuzzy e algoritmos genéticos (AG)
determinaram o perfil de densidade a 37 features relacionado a 8 dados de poços. Kim
et al. (2020) usou ferramentas de DL para reconstruir o perfil de densidade a partir do
Perfil Sônico. Ahmed et al. (2022) usou as técnicas Artificial Neural Network (ANN) and
Adaptive Neural Fuzzy Inference System (ANFIS) para obtenção do perfil de densidade.
Neste caso, eles usaram como features os parâmetros de perfuração mecânica. Em todos
estes casos, destaca-se que os métodos só foram aplicados para poços da mesma região e
1
2
poços poucos espessos (baixa profundidade).
1.1 OBJETIVOS GERAIS E ESPECÍFICOS
O objetivo principal desse trabalho, é a construção de modelos de regressão, que te-
nham a capacidade de reconstruir perfis de densidade aparente (essa metodologia também
permite a reconstrução de outros perfis de poço) através de métodos que otimizem a ge-
neralização dos modelos1. Para tal objetivo, foram estudados 3 (três) modelos, variando
o número de featurese para todos eles o target foi a densidade (𝜌). A Figura 1.1 mostra
quais foram as features em cada modelo. O modelo A tem como features : os perfis de
porosidade (𝜑), sônico (∆𝑇 ), raio-gama(GR) e indutivo (ILD). Já o modelo B tem como
features : sônico (∆𝑇 ), raio-gama(GR) e indutivo (ILD). O modelo C tem como features :
os perfis sônico (∆𝑇 ) e raio-gama(GR).
Figura 1.1: Ilustração dos 3 (três) modelos estudados neste trabalho. A variação do
número de features de quatro para duas. O target para todos os modelos foi a densidade
(𝜌).
Para tanto, nesse trabalho foram construídos os modelos utilizando poços de vários
campos de exploração utilizando dados de poço de regiões distintas, dessa maneira, os
modelos com mais informações ganham em capacidade de predição. Além disso, a me-
todologia conta com a otimização de hiper-parâmetros dos modelos de regressão, que faz
com que os métodos de regressão tenha melhor desempenho ao tipo de dado. Por fim,
esse trabalho conta com análises quantitativas e qualitativas a partir de relações métricas
entre valores preditos e reais.
Os métodos de regressão aplicados neste trabalho foram: Least-Squared (LS); Support
Vector Regression (SVR); métodos de regressão baseados em Arvore de Decisão, Random
Forest (RF) e Gradient Bosting (GB); k-Nearest Neighbors (k-NN) e o Multi-layer Per-
ceptron (MLP). Além disso, combinações de conjunto de dados e analises de desempenhos
foram feitos de acordo com o método e os dados utilizados em cada aplicação. Neste sen-
tido, trabalhou-se com casos reais utilizando-se como dados de treino 3 poços da região
1Generalização: Capacidadede um modelo regressão de estimar valores não utilizados no treinamento.
3
do Alaska, 1 poço de Penebscot, 1 poço do Tea Pot e 2 poços da Bacia de Campos. Para
os dados de blind2 foi utilizado 1 poço de cada região para validação dos modelos.
2Blind : Poços que não participam do conjunto de dados de teste e treinamento.
2 BASE TEÓRICA
2.1 MÉTODOS DE REGRESSÃO ESTATÍSTICOS
Neste capítulo será feito uma descrição das técnicas de aprendizado de máquina para
regressão utilizadas nesta pesquisa. O objetivo aqui é fazer uma breve explanação dos
conceitos básicos e fundamentais de cada método.
2.1.1 Mínimos quadrados (MQ) ou Least Squares (LS)
Os Mínimos quadrados é um método matemático utilizado para regressão linear a
partir de um modelo matemático predefinido. O caso mais simples de um modelo baseia-
se em
𝑦 = 𝛽0 + 𝛽𝑥+ 𝜖, (2.1)
em que 𝛽0 é o intercepto, 𝛽 é a inclinação da reta e 𝜖 é o resíduo associado ao ajuste.
Para um modelo com mais de uma variável de feature, a regressão passa ser multiva-
riada. Matematicamente esta pode ser modelada segundo :
𝑦 = 𝛽0 + 𝑥1𝛽1 + 𝑥2𝛽2 + 𝑥3𝛽3 + · · ·+ 𝑥𝑘𝛽𝑘 + 𝜖, (2.2)
no qual 𝛽0 é uma constante e os demais 𝛽´s são coeficientes de ajustes do modelo multiva-
riável. Matricialmente as variáveis podem ser representadas em colunas e em linhas estão
representados os registros do conjuntos de dados, ou seja as variáveis independentes. O
sistema matricial que representa esse modelo é dado por:⎛⎜⎜⎜⎜⎜⎜⎝
𝑦1
𝑦2
𝑦3
...
𝑦𝑛
⎞⎟⎟⎟⎟⎟⎟⎠ =
⎛⎜⎜⎜⎜⎜⎜⎝
1 𝑥11 𝑥21 ... 𝑥𝑘1
1 𝑥12 𝑥22 ... 𝑥𝑘2
1 𝑥13 𝑥23 ... 𝑥𝑘3
... ... ... ... ...
1 𝑥1𝑛 𝑥2𝑛 ... 𝑥𝑘𝑛
⎞⎟⎟⎟⎟⎟⎟⎠
⎛⎜⎜⎜⎜⎜⎜⎝
𝛽0
𝛽1
𝛽2
...
𝛽𝑘
⎞⎟⎟⎟⎟⎟⎟⎠+
⎛⎜⎜⎜⎜⎜⎜⎝
𝜖0
𝜖1
𝜖2
...
𝜖𝑘
⎞⎟⎟⎟⎟⎟⎟⎠ , (2.3)
no qual 𝑦𝑛 é o Target1, 𝑥𝑘𝑛 são as Features2 (neste caso, perfis dos poços), 𝑏𝑘’s são os
coeficientes de ajustes e 𝜖𝑘’s são os resíduos do ajuste.
A solução de mínimos quadrados simples e multivariável pode ser resolvida minimi-
1Target : valores de previsão do modelo
2Features: Termo usual na ciência de dados para se referir aos dados de feature do modelo.
4
5
zando as somas dos quadrados representados por
∑︁
𝜖2𝑖 = [𝜖1𝜖2 · · · 𝜖𝑘]
⎡⎢⎢⎢⎢⎣
𝜖1
𝜖2
...
𝜖𝑘
⎤⎥⎥⎥⎥⎦ = 𝜖′𝜖, (2.4)
e substituindo 𝜖 por 𝑦 − 𝑥𝛽, obtemos
𝑆(𝛽) = (𝑦 − 𝑥𝛽)𝑇 (𝑦 − 𝑥𝛽) = 𝑦𝑇𝑦 − 𝑦𝑇𝑥𝛽 + 𝑦𝑥𝑇𝛽𝑇 − 𝛽𝑇𝑥𝑇𝑦𝑥𝛽 (2.5)
no qual 𝑆 é a soma do quadrado dos resíduos.
Como a diferença 𝑆(𝛽) no ajuste deve ser mínima, temos que a derivada de 𝑆(𝛽) em
relação 𝛽 deve ser zero. Na equação 2.5, o primeiro termo não depende de 𝛽, o segundo
e o terceiro termos são iguais, e um quarto termo é uma forma quadrática dos elementos
de 𝛽. Logo, a derivada de 𝑆(𝛽) é dada por:
𝜕𝑆
𝜕𝑏
= −2𝑥𝑇𝑦 + 2𝑥𝑇𝑥𝑏 = 0, (2.6)
no qual
𝑥𝑇𝑥𝑏 = 𝑥𝑇𝑦, (2.7)
e os coeficientes podem ser dados por:
𝛽 = (𝑥𝑇 )−1𝑥𝑇𝑦. (2.8)
Resolvendo o sistema 2.8 é possível encontrar os melhores parâmetros no qual as features
(variáveis independentes) se ajustam ao target (no nosso caso é o perfil de densidade).
2.1.2 Support Vector Regression (SVR)
Assim como o método de MQ, o SVR pode também ser usado para realização do
procedimento de regressão. Este método busca a generalização da função regressão para
valores observados no target do modelo. Uma vantagem deste método é o equilíbrio da
complexidade do modelo e o erro de previsão, além de funcionar bem ao lidar com dados
de alta dimensão (Zhang and O’Donnell, 2020b). Como resultado, a otimização em SVR
é representada em termos de vetores de suporte (um pequeno conjunto de amostras de
dados de treinamento), onde a solução de otimização não depende da dimensão dos dados
de feature, mas apenas do número de vetores de suporte.
Este método introduz uma constante 𝜖 que representa o limiar de aceitabilidade do
erro nos dados de treinamento. Neste caso, os valores de resposta previstos das amostras
6
de treinamento possuem no máximo um desvio de 𝜖 dos valores de resposta observados (os
valores reais). O valor de 𝜖 define um "tubo"que expressa um limite para generalização
(linhas de contorno ou de decisão), em que o valor ótimo é definido por um limite que
obtém o maior número possível de valores válidos dentro do tubo 𝜖.
2.1.2.1 Modelo SVR linear
O propósito de SVR é estimar uma função com a restrição da estimativa dos ponto
dos dados de feature, em que o máximo valor de 𝜖 seja o desvio de seu valor de resposta
real, formando uma região de insensibilidade aos erros na amplitude 𝜖, neste caso as linhas
de contorno simetricamente divido pelo hiperplano que passa pela nuvens pontos (ver a
Figura 2.1).
Figura 2.1: Ilustração simples dos elementos que constituem o Support Vector Regression
(SVR) Linear. Adaptado de Awad and Khanna (2015).
Dado um conjunto de dados de treinamento (𝑥1, 𝑦1), ..., (𝑥𝑛, 𝑦𝑛), em que 𝑥𝑖 são os
dados de feature e 𝑦𝑖 são o target ou target. No caso de uma função linear, 𝑓 assume a
forma:
𝑦 = 𝑓(𝑥) = 𝑤𝑥+ 𝑏 = 𝑤𝑇𝑥± 𝑏, (2.9)
no qual 𝑤𝑇𝑥 denotam o produto escalar dos dados de feature 𝑥 e o vetor de pesos 𝑤 (ou
seja, os coeficiente) e o 𝑏 representa o intercepto das linhas de decisão (ou de contorno).
No 𝜖-SVR, a aproximação da função 𝑓 é feita encontrando um tubo insensível 𝜖 o mais
plano possível, formalmente chamado de planicidade, ou seja, procurando os melhores
7
valores de ajuste 𝑤. Isso pode ser feito minimizando a norma de 𝑤. Portanto, podemos
escrever a aproximação de 𝑓 da seguinte forma
𝑚𝑖𝑛𝑤
1
2
||𝑤||2,
𝑠𝑢𝑗𝑒𝑖𝑡𝑜𝑎
⎧⎨⎩𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 ⩽ 𝜖,𝑤𝑇𝑥𝑖 + 𝑏− 𝑦𝑖 ⩾ 𝜖.
(2.10)
Sob estas restrições, a ideia principal é: minimizar o erro, individualizando o hiper-
plano (ver a Figura 2.1) que maximiza a margem, tendo em conta que parte do erro é
tolerada.
2.1.2.2 O truque do kernel ou kernel’s trick
O uso do kernel no método SVR é feito para transformar os dados em um espaço de
maior dimensão, em que os dados serão lineares (Awad and Khanna, 2015). Em situações
em que os dados não são lineares no espaço de feature, o SVR de margem flexível pode
não encontrar um hiperplano para o conjunto de dados de treinamento em torna espaço
vetorial robusto que minimize os erros, podendo estimar incorretamente. Para conjunto
de dados não lineares é utilizado o kernel para levar a função estimada de um conjunto
de dados não lineares para o domínio do ker nel, tornando dados não lineares em dados
lineares em um novo domínio.
Quanto à função de kernel 𝑘(.), existem várias funções populares, como kernels lineares
(correspondentes ao modelo linear 𝜖-SVR), kernels polinomiais e kernels de função de base
radial (RBF, que tem origem do inglês para Radial Basis Fuction). A seleção de uma
função kernel depende da distribuição dos dados de feature. Por exemplo, o kernel linear,
que é o mais simples de todos, é útil quando a feature possui vetores de dados esparsos.
O kernel polinomial é amplamente utilizado no processamento de imagens. O kernel RBF
é um método em que melhor se aplica em estimativas de funções não-lineares.
2.1.2.3 Kernel de Função de Base Radial ou Kernel Radial Basis Function (RBF)
A representação matemática do kernel RBF é dado por:
𝑓(𝑥) = 𝜔𝑇𝜑(𝑥, 𝑥′), (2.11)
em que o 𝜔𝑇 é vetor de pesos e 𝜑(𝑥, 𝑥′) é um novo espaço de dados transformados pelo
kernel. As features 𝑥 e 𝑥′ são os dados de treinamento e teste. A equação para aplicar o
kernel RBF é descrita por
𝑘(𝑥, 𝑥′) = 𝑒𝑥𝑝
(︀
−𝛾||𝑥− 𝑥′||2
)︀
, (2.12)
8
em que 𝑥 é composto por dados de treinamento, 𝑥′ são os dados utilizado como feature
para prever o target e o 𝛾 é a variável de ajuste do RBF.
Na Figura 2.3 vemos os objetos originais (lado esquerdo do esquema) mapeados, ou
seja, rearranjados, usando um conjunto de funções matemáticas, conhecidas como espaço
das features. O processo de reorganização dos objetos é conhecido como mapeamento
(transformação). Observe que nesta nova configuração, os objetos mapeados (lado direito
do esquema) são linearmente separáveis, i.e, assim, ao invés de construir a curva complexa
(esquemático esquerdo -(A)), tudo o que temos a fazer é encontrar uma linha ótima que
possa colocar os pontos dentro do tubo 𝜖 ótimo.
Figura 2.2: Representação gráfica de 𝜖-SVR não linear. Uma função de mapeamento 2.12
é usada para transformar os dados do espaço de feature (A), onde nenhuma separação
linear dos dados é possível, para um espaço de kernel de maior dimensão (B), onde os
dados podem ser separados por um hiperplano linear. Adaptado de Zhang and O’Donnell
(2020a).
Para treinar um classificador ou regressor de vetores de suporte e otimizar nossa fun-
ção objetivo, temos que realizar operações com os vetores de maior dimensão no espaço
transformado. Em aplicações reais, pode haver muitas informações de feature de dados,
e a aplicação de transformações que envolvem muitas combinações polinomiais dessas
features levará a custos computacionais extremamente altos e impraticáveis.
2.1.2.4 Função de Perda (Loss function)
A função perda é calculada para penalizar valores que ultrapassam o limite deter-
minado por 𝜖, essa penalização é controlada pelo hiper-parâmetro 𝐶, que está atrelado
matematicamente à 𝜁 da Figura 2.1. A minimação da função com a função perda é
9
representada por
𝑚𝑖𝑛
1
2
||𝜔||+ 𝐶
𝑁∑︁
𝑖=1
𝜁𝑖 + 𝜁
*
𝑖 . (2.13)
A Figura 2.3 mostra a representação gráfica das funções de perda mais utilizadas no
SVR, seguida das respectivas equações dadas por:
𝐿1𝜀(𝑦, 𝑓(𝑥,𝑤)) =
{︃
0 |𝑦 − 𝑓(𝑥,𝑤)| ≤ 𝜀,
|𝑦 − 𝑓(𝑥,𝑤)| − 𝜀 ocaso contrário ,
𝐿2𝜀(𝑦, 𝑓(𝑥,𝑤)) =
{︃
0 |𝑦 − 𝑓(𝑥,𝑤)| ≤ 𝜀,
(|𝑦 − 𝑓(𝑥,𝑤)| − 𝜀)2 ocaso contrário ,
𝐿(𝑦, 𝑓(𝑥,𝑤)) =
{︃
𝑐|𝑦 − 𝑓(𝑥,𝑤)| − 𝑐2
2
|𝑦 − 𝑓(𝑥,𝑤)| > 𝑐,
1
2
|𝑦 − 𝑓(𝑥,𝑤)|2 |𝑦 − 𝑓(𝑥,𝑤)| ≤ 𝑐
(2.14)
no presente trabalho foi utilizado a função perda linear.
Figura 2.3: Alguns exemplos de funções de perda: (a) linear, (b) quadratic, and (c) Huber.
Uma melhor descrição sobre essas funções podem ser encontradas em Awad and Khanna
(2015).
2.1.3 Regressores baseados em Decision Tree
O Random Forest e o Gradient Bosting são métodos baseados em Decision Tree. Esses
métodos utilizam um conjunto de arvores de decisão sobre os dados. O Decision Tree é um
algoritmo utilizado para regressão e classificação. Tem uma estrutura que segue por nós
em que o algoritmo toma decisões a partir de condições definidas a partir do treinamento
da arvore. O nó é a parte da arvore em que direciona para determinada target de acordo
com a condição definida Myles et al. (2004).
A Figura 2.4 mostra o funcionamento do algoritmo de Decision Tree simples, a parte
(A) da Figura 2.4 mostra que antes de definir as sequencias lógicas para regressão, o
algoritmo faz um agrupamento automático dos dados, definindo cada região 𝑅. Com os
agrupamentos definidos, então o algoritmo monta uma estrutura do tipo "se, então"para
definir os targets, conforme é mostrado na parte B da Figura 2.4
10
Figura 2.4: Representação gráfica(A) e sequencia lógica (B) de uma Decision Tree simples.
Adaptado de Zhang and Haghani (2015).
O Random Forest e o Gradient Boost são métodos de ML do tipo ensemble. Técnicas
ensemble combinam um conjunto de modelos para encontrar uma melhor predição, tanto
binária (classificação) quanto de valores reais (regressão), nas tecnicas aplicadas no tra-
balho, são técnicas que aplicam conjuntos de Decision Tree’s para obter target predito. O
Random Forest e o Gradient Boosting utilizam múltiplas Decision Tree’s. O target desse
tipo de metodologia é definida por votação realizada pelo conjunto de Decision Tree no
caso da classificação, e no caso da regressão, o target é definida pela média dos valores
target das Decision Tree’s internas.
2.1.3.1 Random Forest Regression (RFR)
O algoritmo do Random Forest segue dois passos para a predição, descritos a seguir:
1) Executar o bootstrap, que consiste em separar o conjunto de dados de treinamento
em partes iguais e de maneira aleatória pelo numero de Decision Tree’s definido previa-
mente.
2) Definir aleatoriamente quais variáveis de feature serão utilizadas para cada Decision
Tree (Trevor Hastie, 2013). Essa aleatoriedade presente durante a construção dos mo-
11
delos internos do Random Forest, torna o algoritmo robusto em relação ao overfitting3,
portanto, o modelo não será afetado se ocorrer uma seleção exagerada de numero de
Decision Tree’s. No entanto, essa escolha aumentará o custo computacional, por isso é
recomendável ponderar o uso do número de Decision Tree’s na hora do treinamento.
2.1.3.2 Gradient Boosting Regression (GBR)
O algoritmo de Gradient Boosting pode ser descrito, de uma forma geral, semelhante
ao Random Forest na etapa do bootstrap criando todas as árvores de decisão em paralelo,
porém o treinamento das arvores é feito de maneira sequencial, ou seja, a arvore pos-
terior atualiza os valores dos ramos de acordo com os erros residuais da arvore anterior
sucessivamente.
A atualização de cada árvore depende do coeficiente 𝜆(no pacote sklearn utilizado no
trabalho, é definido por "𝑙𝑒𝑎𝑟𝑛𝑖𝑛𝑔_𝑟𝑎𝑡𝑒"), que indica a taxa de aprendizado. O ajuste
deste parâmetro controla o quanto pode ser variado os parâmetros internos das árvores
(ramos), ajustando o modelo aos dados de treinamento. Quanto menor este parâmetro,
mais lento e preciso o treinamento, o inverso também é verdadeiro. Os valores iniciais
para 𝜆 são da ordem de 0, 001. O segundo hiper-parâmetro controlado, como no Random
Forest, é determinado pelo número de árvores 𝐾(definido no parâmetro 𝑛_𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑠 no
sklearn). Um grande número de árvores de decisão pode levar a um alto custo compu-
tacional podendo ocasionando um modelo com overfiting. Por fim, tem-se o valor 𝐷 das
divisões em cada árvore, ele controla a complexidade do conjunto. Geralmente, 𝐷 = 1
tem um bom desempenho Max Kuhn (2013).
2.1.4 k-Nearest Neighbors (k-NN)
O método de regressão k-NN prevê valores reais usando as amostras de valores mais
próximos dos dados de treinamento. É um método não paramétrico e o modelo não
se limita a um modelo de equação. Em vez disso, sua construção é baseada apenas
nas amostras individuais dos dados de treinamento. Para prever uma nova amostra para
regressão, k-NN identifica os vizinhos mais próximos dessa amostra no espaço do preditor.
A resposta prevista para a nova amostra é então a média das respostas dos k-vizinhos.
O método k-NN básico, conforme descrito acima, depende de como o usuário define a
distância entre as amostras. A distância euclidiana (ou seja, a distância em linha reta
entre duas amostras) é a métrica comumente usada e é definida por (Max Kuhn, 2013)
(︃
𝑃∑︁
𝑗=1
(𝑥𝑎𝑗 − 𝑥𝑏𝑗)2
)︃ 1
2
, (2.15)
3Overfiting: Ocorre quando o modelo se ajusta muito ao conjunto de dados de treinamento,porém o
desempenho cai bruscamente quando se aplica em um dado de fora do conjunto de dados do treinamento
12
em que 𝑥𝑎 e 𝑥𝑏 é posição de duas amostras, a e b. A distância de Minkowski é uma
generalização da distância euclidiana e é definida por
(︃
𝑃∑︁
𝑗=1
|𝑥𝑎𝑗 − 𝑥𝑏𝑗|𝑞
)︃ 1
𝑞
, (2.16)
no qual q=2 é equivalente à distância euclidiana e q = 1 para a distância de Manhattan,
esta métrica é comumente usadas para amostras com preditores binários.
Como o método k-NN depende fundamentalmente da distância entre as amostras, a
escala dos preditores pode ter uma influência dramática nas distâncias entre as amostras.
Dados com preditores que estão em escalas muito diferentes gerarão distâncias que são
ponderadas para preditores que possuem as maiores escalas. Ou seja, preditores com as
maiores escalas contribuirão mais para a distância entre as amostras. Para evitar esse viés
potencial e permitir que cada preditor contribua igualmente para o cálculo da distância,
é recomendado que todos os preditores sejam centralizados e dimensionados antes de
executar o k-NN.
Além do problema de dimensionamento, o uso de distâncias entre amostras pode ser
problemático se um ou mais valores preditores de uma amostra estiveremausentes, pois
não é possível calcular a distância entre amostras. Se este for o caso, então o analista tem
algumas opções. Primeiro, amostras ou preditores podem ser excluídos da análise.
O tempo de computação, portanto, aumenta com o aumento do numero de dados
de treinamento, pois esses dados são carregados na memória e as distâncias entre a nova
amostra e todas as amostras de treinamento devem ser calculadas. Um exemplo ilustrativo
dos vizinhos mais próximos é mostrado em um espaço de características bidimensional na
Figura 2.5.
13
Figura 2.5: Ilustração demonstrativa de um arranjo k-NN, em que a estimada é definida
pela média dos target referentes ao ponto mais próximos do ponto de teste. Adaptado de
Hu et al. (2014).
2.1.5 Multilayer Perceptron (MLP)
O Perceptron é a menor unidade de uma rede neural, ele consiste matematicamente
em um modelo semelhante à uma regressão linear do tipo
𝑦 = 𝑤𝑥+ 𝑏, (2.17)
em que w é o vetor de pesos para cada dado de feature, x é o dado de feature, e b é o
termo independente, que é conhecido por bias. o target linear da equação passa por uma
função de ativação.
O bloco g(s) da Figura 2.6 representa a função de ativação, recebe o target da função
linear que vem do somatório anterior, e é transformado em uma função de saída não-linear.
Um exemplo de função de ativação é a função ReLU, que retorna 0 para todos os valores
negativos, e valor do target, quando positivos, tornando assim, os valores não centrados em
zero. É uma função com custo computacionalmente baixo, quando se compara com outras
funções de ativação não-lineares. Durante o treinamento da rede neural, alguns neurônios
tem seu pesos zerados, por zerar o target para valores negativos, aumentando assim a
velocidade do treinamento, necessitando treinar menos neurônios conforme o modelo vai
se ajustando. Por não ocorrer uma saturação para valores máximos, pode ocorrer saídas
discrepantes em relação às previsões. A função de ativação ReLU é hoje uma das funções
14
de ativação mais utilizadas no treinamento de redes neurais, apesar de suas limitações
(Schmidt-Hieber, 2020; Taud and Mas, 2018). o target da função de ativação RELU é
representada pela seguinte equação,
𝑓(𝑥) = 𝑚𝑎𝑥(0, 𝑥). (2.18)
P g(s) f(x)
x1
x2
x3
w1
w2
w3
b
Figura 2.6: Diagrama representativo de um Perceptron simples. Esse conceito foi ante-
cessor ao MPL e Deep Learning. Fonte do Autor.
O MLP é um método que consiste em uma rede neural com várias camadas. Este
método pode ser treinado pelo algoritmo de retro-propagação. Um vetor de feature deve
ser mapeado para um determinado conjunto de valores pela rede. Em muitos casos, o
target consistirá em um valor. Neste caso, a rede regride as variáveis independentes ou
portadoras fornecidas pelas features para a variável dependente (Murtagh, 1991). Será
visto como o Multilayer Perceptron permite que a regressão não linear seja realizada. A
Figura 2.7 mostra a estrutura do MLP utilizada no trabalho, que consiste em 3 camadas
escondidas, variando o número de neurônios em cada camada.
Figura 2.7: Estrutura básica da rede MLP aplicado no método de predição usado neste
trabalho. Para essa MPL, temos 3 camadas ocultas. Esse foi o melhor arranjo para os
nossos dados. Fonte do autor.
3 METODOLOGIA
Nesta seção, serão apresentados os passos realizados para a obtenção dos resultados
desta dissertação de mestrado. A metodologia deste trabalho pode ser compreendida por
meio do fluxograma apresentado na 3.1 e seus passos serão explicados nas próximas seções.
Dados de 
Treinamento
Poços de 
referencia 
para 
treinamento
Selecionar 
poços
Train/Test Para validação
Remoção de 
Outliers
Separação 
Target/Featues
Target Features (Modelo A) Features (Modelo C)Features (Modelo B)
Metodos de 
Machine 
Learning
Modelo A 
Modelo B 
Modelo C 
Concatenar 
dados
Escalonamento
GridSearch Melhores 
Hiper-Parâmetros
Poços 
cegos
Validação
Figura 3.1: Fluxograma de desenvolvimento do trabalho. Em que na primeira etapa é
separar os poços que serão utilizados para validação e treinamento. Após a separação
dos poços, é feito o pre-processamento dos dados removendo outlier, concatenando e
escalonando os dados de treino. Seguindo para o treinamento dos modelos de aprendizado
de máquina.
Importante ressaltar que os métodos de regressão, remoção de outliers, e otimização
(por exemplo, o GridSearch) foram utilizados a partir de rotinas presentes no scikit-learn
(Pedregosa et al., 2011). Esse framework é uma biblioteca de aprendizado de máquina
de software livre para a linguagem de programação Python. Também desenvolvemos uma
15
16
rotina de optimização de hiper-parâmetros. Este novo método foi chamado de NewGrid,
que consiste em uma rotina desenvolvida para o obtenção de resultado nesse trabalho, em
que é efetuada a busca por hiper-parâmetros separadamente e sequencialmente.
3.1 DESCRIÇÃO DO CONJUNTO DE DADOS
Como já foi dito na introdução, nesse trabalho são utilizados dados de poços de 6
campos de exploração, e de cada conjunto de poços de cada região é selecionado pelo
menos um poço para o treinamento e um poço para teste. No dataset de treinamento
foram utilizados dois poços do Alaska, um poço de Penebscot, um poço de Tea Pot e
dois poços de Campos. Esses dados foram concatenados via código, formando um grande
dataset de treinamento, contendo informações de todos os Campos de exploração. Para o
dataset de validação nesse trabalho, foi utilizado um poço diferente de cada região citada
no paragrafo anterior, além de um poço de Norne e um poço de Cambo, totalizando 6
poços de validação.
O principal objetivo desse trabalho, é a reconstrução dos perfis petrofísico, mais espe-
cificamente, o perfil de densidade aparente (RHOB) por meio das técnicas de aprendizado
de máquina (AM), a partir da informação de outros quatro perfis. Dentre eles são: perfil
sônico (DT), intensidade de raio gama (GR), porosidade neutrônica (NPHI) e indutivo
(ILD). Para cada técnica de ML são criados três modelos: A, B e C, conforme ilustrado
na tabela 3.1, com diferentes disposições de perfis features, o modelo A com os quatro
perfis de poço feature, o modelo B com 3 perfis (retirando o NPHI) e o C com 2 perfis
(retirando o NPHI e o ILD).
Neste trabalho foram aplicados 6 métodos de regressão aplicados nesse trabalho, com 3
modelos por técnica construindo assim, 18 modelos. Esses 18 modelos são validados em 1
poço de cada região utilizado no trabalho, e com uma quantidade de 6 poços de validação,
é obtido um total de 108 estimativas para serem discutidas no trabalho, para fins de uma
melhor ilustração, posteriormente é mostrado um conjunto de 3 tabelas mostrado as
métricas de desempenho dos modelos. Os trabalho foi desenvolvido a partir do diagrama
de blocos da figura 3.1 e serão descritas a etapas nas próximas subseções. Além dos
testes em cada poço blind retirado de cada campo em que tenha conjunto de dados no
treinamento, os modelos foram aplicados em poços de campos externos ao de treinamento,
são eles: Norne e Cambo. Para Cambo foram testados os três modelos de regressão e para
Norne foi testado apenas o modelo C, pois este campo não contém perfil de resistividade.
3.2 PRE-PROCESSAMENTO
O pré-processamento constitui toda a etapa de preparação dos dados, antecedendo
o treinamento dos modelos de regressão. Neste trabalho, o pré-processamento pode ser
definido em 5 etapas: remoção de outliers, separação de targets e features, concatenação
17
de dados, dimensionamento e separação de dados para treinamento e teste.
3.2.1 Remoção de Outliers
Outliers são valores que estão muito distantes da maioria dentro de um conjunto de
dados, dependendo da grandeza, em muitos casos, trata-se de um valor incorreto que
veio de um problema de medida ou do corrompimento do dado. E dados de perfis poço,
geralmente outliers são causado por um mal contato das ferramentas de medição com a
parede do poço como foi explicado na introdução do trabalho. A remoção de outliers é
fundamental para o treinamento de técnicasde aprendizado de máquina, pois o modelo
pode "aprender"predições equivocadas.
Nesse trabalho é utilizado como método para identificação de outliers o Local Outlier
Factor(LOF), é uma técnica que mede o desvio local da densidade de uma determinada
amostra em relação aos seus vizinhos. É considerado local, pois a pontuação da anomalia
depende de quão isolado o objeto está em relação à vizinhança circundante. Mais preci-
samente, a localidade é dada por k-vizinhos mais próximos, cuja distância é usada para
estimar a densidade local. Ao comparar a densidade local de uma amostra com as den-
sidades locais de seus vizinhos, pode-se identificar amostras que possuem uma densidade
substancialmente menor do que seus vizinhos. Estes são considerados outliers. O método
está detalhado no trabalho de Breunig et al. (2000).
A maior dificuldade de se aplicar essa técnica se deve ao fato que há necessidade de
análise ou conhecimento prévio das características do dado, pois é necessário ajustar dois
parâmetros do LOF para que seja identificado os outliers de forma coerente, os parâme-
tros são o números de vizinhos próximos e a porcentagem de contaminação existente do
dado. O número de vizinhos LOF calcula os pontos com mais vizinhos e considera com
inlier, sendo assim, classificando como outlier os pontos com vizinhos mais distantes, e
o parâmetro de contaminação é a porcentagem de dados que será considerado como ou-
tlier, então, por exemplo, definir o numero de contaminação igual à 0.1 e numero de 20
vizinhos, o algorítimo identificará 10% dos pontos com 20 vizinhos mais distantes como
outlier Após a identificação de outliers em determinado conjunto de dados, no desenvol-
vimento do trabalho foi feito um algoritmo que reconstrói uma nova matriz de dados, sem
os dados considerados outliers pelo algoritmo LOF. A Figura 3.2 mostra um exemplo de
remoção de outlier aplicado no trabalho.
Para esse trabalho foi utilizado os valores padrões definidos pelo pacote sklearn, defi-
nido pelo numero de vizinhos em 20 e considerando uma contaminação de 0.1.
18
Figura 3.2: Remoção de Outlier aplicado em um perfil de densidade do Alaska. Fonte do
Autor.
3.3 DESCRIÇÃO DO CONJUNTO DE DADOS
3.3.1 Target and Features
Na área de estudo das Ciências de Dados esses são dois conceitos fundamentais, os
target são os valores que os modelos de aprendizado de máquina tentam prever, o que
nesse trabalho é definido pela densidade aparente(RHOB). As features são os valores que
os modelos utilizam para calcular o target, nesse trabalho os perfis utilizados como features
são: porosidade neutrônica(NPHI), sônico(DT), Raio Gama(GR) e a resistividade(ILD)
A representação dos modelos criados nesse trabalho por método é mostrada na seguinte
tabela. Mostrando as features e o target usados para montar cada estrutura.
Tabela 3.1: Tabela mostra como foi definido os valores de feature para cada modelo
treinado nesse trabalho.
Model A Model B Model C
Features DT, NPHI, GR, ILD DT,GR, ILD DT, GR
Target RHOB
19
3.3.2 Concatenação de dados
Após a seleção do target e das features a serem utilizados nos modelos, é feita a
concatenação dos dados de perfis de poços utilizados para treinamento, esse procedimento
consiste em unir as matrizes de vetores fazendo com que se obtenha um grande vetor
contendo informação de todos os poços utilizados para treinamento. Essa concatenação
de dados tem como causa, um maior numero de informações dadas aos modelos, e como
efeito uma melhor generalização. Por conter mais informações no conjunto de dados
de treinamento, há a hipótese de que modelos com maior capacidade de complexidade
tenham melhores desempenhos nos ajustes.
3.3.3 Escalonamento dos dados
Não dimensionar os dados leva a resultados ruins porque as variáveis do processo são
medidas em escalas muito diferentes Gurden et al. (2001). O que acontece é que quando
as variáveis de treinamento são de escalas diferentes das variáveis cujos valores são de
maiores dimensões, essas variáveis acabam tendo pesos maiores na previsão. Assim, para
ter um melhor ajuste, é necessário realizar um dimensionamento ou normalização dos
dados.
Para escalonar os dados foi utilizada uma função implementada no sklearn, o Stan-
dartScaler. As equações utilizadas na implementação são baseados na média (𝜇) e o desvio
padrão(𝜎), calculados a partir das seguintes equações
𝜇 =
1
𝑁
𝑁∑︁
𝑖=1
𝑥𝑖, (3.1)
𝜎 =
⎯⎸⎸⎷ 1
𝑁
𝑁∑︁
𝑖=1
(𝑥𝑖 − 𝜇)2. (3.2)
O escalonamento é calculado nas variáveis escolhidas na seguinte equação
𝑧 =
𝑥− 𝜇
𝜎
. (3.3)
Nesse trabalho, foram escalonados apenas dos dados das features, pois o target na sua
real dimensão não trás nenhuma desvantagem para as predições.
20
3.3.3.1 Cross-validation
Figura 3.3: Nessa figura está representado um processo cross-validation de três etapas,
em que a região mais escura representa os dados de treinamento e a região mais clara
como os dados de teste. Dessa forma, é efetuado os treinos e aplicado o teste dos modelos
treinados nos dados de teste em cada etapa variando a disposição treino/teste de acordo
com as etapas, e no final é definido como melhor modelo a melhor combinação treino/teste.
Fonte: Adaptado de Refaeilzadeh et al. (2009).
A etapa de separação de dado de treino e teste, nesse trabalho é realizada pelo método
do cross-validation. O cross-validation é um método estatístico de avaliação e comparação
de algoritmos de aprendizado, dividindo os dados em dois segmentos: um usado para
aprender ou treinar um modelo e o outro usado para validar o modelo. Na validação
cruzada típica, os conjuntos de treinamento e validação devem ser cruzados em rodadas
sucessivas, de modo que cada ponto de dados tenha a chance de ser validado. A forma
básica de validação cruzada é a validação cruzada k-fold. Outras formas de validação
cruzada são casos especiais de validação cruzada k-fold ou envolvem rodadas repetidas de
validação cruzada kfold (Refaeilzadeh et al., 2009)
Na validação cruzada k-fold, os dados são primeiro divididos numero de elementos em
partes iguais, o numero de segmentos pode ser definido por k. Subsequentemente, k ite-
rações de treinamento e validação são realizadas de tal forma que dentro de cada iteração
uma dobra diferente dos dados é mantida para validação, enquanto as k-1 dobras restantes
são usadas para treinamento. A Figura 3.3 demonstra um exemplo dataset dividido em
três partes. A seção mais escura dos dados é usada para treinamento, enquanto as seções
mais claras são usadas para validação. Para aplicação desse trabalho, foi usado o cross-
validation com 𝑘 = 5, pelo motivo de ser um valor padrão do algoritmo do gridSearchcv,
que irá ser comentado na próxima seção.
21
3.3.4 Hyperparameters-tuning
Os hiper-parâmetros são parâmetros que pré-ajustam o modelo antes de treiná-los.
Após toda a preparação dos dados, o essa etapa do trabalho consiste em encontrar os
melhores hiper-parâmetros de cada método de regressão para cada conjunto de dados a
serem treinados. O método de busca dos melhores hiper-parâmetros foi o GridSearchcv,
é uma função disponível no pacote sklearn, em que o programador define quais os valores
a serem testado para cada hiper-parâmetros, e após essa definição, o GridSearchcv faz o
treinamento do modelo com todas as combinações possíveis entre os valores escolhidos para
a busca. Dessa forma, o GridSearch treina um modelo com cada combinação dos hiper-
parâmetros, então o modelo que fornecer o melhor ajuste no teste do cross-validation, é
escolhido o modelo para a validação em poços diferentes dos poços que estão incluídos no
conjunto de dados de treinamento.
3.3.5 Validação
O modelos de aprendizado de máquina passam por duas etapas de validação, a primeira
é a etapa testada no cross-validation mostrada anteriormente, está utilizada como etapa
do tuning dos hiper-parâmetros que busca o modelo o 𝑅2 mais próximo de 1. A segunda
etapa de validação é o teste em poços cegos, que são poços que foram separados para testes.
Após efetuar as predições nesses poços, é feitaa comparação da densidade predita com a
densidade real e a partir disso, são calculados os valores de MSE e R, que são métricas
que permitem avaliar o desempenho das regressões. O MSE, R e 𝑅2 são apresentados na
próxima subseção.
3.3.6 Métricas de avaliação de desempenho das regressões
Nessa seção é apresentada uma breve descrição teórica de cada métrica utilizada nas
validações das estimativas construídas no trabalho.
3.3.6.1 Coeficientes de Correlação(𝑅) e de Determinação(𝑅2)
O coeficiente de correlação de Pearson é originário de um trabalho conjunto entre Karl
Pearson e Francis Galton. Esse coeficiente é uma medida que mostra o grau de relaci-
onamento entre duas variáveis, observando o compartilhamento da variância, ou seja, o
coeficiente de correlação de Pearson é uma medida da variância compartilhada entre duas
variáveis (Mukaka, 2012). Para o presente trabalho, o coeficiente de correlação (𝑅) é
utilizado em dois momentos:
1- Obter a correlação entre os dados das feições com o target, para depois tentar analisar
esses valores com a qualidade da estimativa de cada método de regressão;
2- Observar a correlação entre o alvo previsto e o target ’s real, no caso do presente estudo,
22
a densidade aparente.
A equação utilizada para fazer o cálculo do coeficiente de correlação é dado por:
𝑅 =
∑︀𝑛
𝑖=1(𝑥𝑖 − �̄�)(𝑦𝑖 − 𝑦))√︀
[
∑︀𝑛
𝑖=1(𝑥𝑖 − �̄�)2][
∑︀𝑛
𝑖=1(𝑦𝑖 − 𝑦)2]
, (3.4)
em que, 𝑥𝑖 e 𝑦𝑖 são as variáveis em que estão se correlacionando e �̄� e 𝑦 são as médias dessas
variáveis. O coeficiente de determinação(𝑅2), possui valores que expressam a mesma ideia
de 𝑅. Matematicamente 𝑅2 é dado por:
𝑅2 = 1−
∑︀
𝑖(𝑦𝑖 − 𝑦𝑖)2∑︀
𝑖(𝑦𝑖 − 𝜇)2
, (3.5)
no qual 𝑦𝑖 é o valor real e o 𝑦𝑖 é o valor predito e o 𝑦 é a média do valor real.
A diferença entre essas duas métricas é que o 𝑅2 penaliza os piores ajustes através
de uma soma de erros quadráticos, tornando-a um valor mais rigoroso em termos de
valores previstos, obtendo assim informações sobre o quanto o modelo de regressão se
ajusta aos dados de treinamento .Esse rigor no ajuste permite entender melhor o grau de
generalização do modelo treinado. Essa generalização mostra o quão bem um determinado
modelo é capaz de se ajustar a dados diferentes dos que foram fornecidos no treinamento.
Quanto mais próximo de 1, menos generalizado é o modelo, assim se encaixando muito
bem nos dados de treinamento e a probabilidade de se encaixar bem nos dados externos
podem ser minimizados. No entanto, uma ajuste com um valor mais distante de 1, pode
fazer com que o modelo, consiga ter melhor desempenho em um dado externo. Em outras
palavras, o 𝑅2 mede quanto erro é aceito nas previsões sobre os dados de treinamento
para poder ajustar dados de diferentes fontes.
3.3.6.2 Métrica MSE (Mean Squared Error)
Além dos coeficientes de ajuste (R), este trabalho também utilizou outra métrica que
possui sua formulação baseadas em erros residuais. Dessa forma utilizamos como métrica
de erro MSE, que informa o quanto o modelo estimado está ajustado a partir de uma
medida usando uma média dos erros residuais. Matematicamente o MSE é dado por:
𝑀𝑆𝐸 =
∑︀𝑛
𝑖=1(𝑦𝑖 − 𝑦𝑖)2
𝑛
, (3.6)
no qual 𝑛 é número de amostras, 𝑦𝑖 é o valor real e 𝑦𝑖 é o valor predito.
Em resumo das métricas utilizadas neste trabalho, o 𝑅2 é a métrica que é utilizada
apenas do dados de teste que está dentro do conjunto de dados de treinamento, para
avaliar a generalização do modelo treinado. O 𝑅 e o MSE são utilizados para avaliar a
23
qualidade das estimativas aplicadas sobre os dados dos poços de validação, o 𝑅 mostra
o quanto os valores estimados conseguem acompanhar as variações dos dados reais, e o
MSE é a métrica focada em mostrar apenas as medias dos erros, com essas duas métricas
combinadas é possível avaliar a qualidade das estimativas, facilitando as comparações
entre cada teste de validação efetuado no trabalho.
4 RESULTADOS
Esse trabalho contém um conjunto de dados de treinamento de 4 áreas concatenados,
ocorreu um desbalanceamento na quantidade de dados de dentre os campos utilizados,
seguindo a ordem de relevância em termo de quantidade de dados dentro do conjunto
utilizado para treinamento. O conjunto de dados para treinamento contém 32838 pontos
de dados já após a remoção de outliers de contaminação de 10%, sendo 14837 pontos
de Penebscot, 9201 pontos de Teapot, 7045 pontos do Alaska e 1750 pontos de Campos.
A quantidade de dados de determinada região no conjunto de dados de treinamento é
importante para a predição em um perfil de outro poço dessa mesma região, além disso,
boas correlações entre features com o target são extremamente relevantes para a qualidade
das predições, pois os modelos aprendem mais padrões referente aos dados de treinamento.
A Tabela 4.1 mostra os hiper-parâmetros encontrados através do GridSearchcv mostrado
na metodologia (Capítulo 3).
Os hiper-parâmetros testados apresentaram valores próximos do padrão de cada mé-
todo em uma forma de tentativa e erro. Essa busca na tentativa e erro deu-se da seguinte
maneira:
1) São selecionados três valores iniciais de determinado parâmetro, sendo o um valor
central definido pelo padrão sklearn e os valores extremos são definidos através do co-
nhecimento prévio do programador para se definir, então iniciada a busca no GridSearch.
Caso o otimizador escolha como melhor hiper-parâmetro o valor central, então o próximo
teste será feito com o mesmo valor central e os novos valores extremos serão definidos entre
os pontos médios do ponto central com cada extremo da iteração anterior. Se o algoritmo
definir um dos extremos como valor ótimo, então este é definido novo ponto central, e os
novos valores extremos serão definidos pelo valor central mais/menos a diferença do valor
central com o centro da etapa anterior. Desta forma, o hiper-parâmetro é otimizado até
um nível de convergência aceitável, o qual é estabelecido pelo programador.
2) Esses testes são feitos paralelamente para todos hiper-parâmetros de cada método
de regressão, por esse motivo que são realizados os teste com três valores em cada rodada,
pois, o menor número de hiper-parâmetros a ser otimizado é três;
3) Em cada busca com três valores por hiper-parâmetros, nesse caso, são obtidas
27 combinações, e com o cross-validation multiplica essas combinações pelo numero de
divisões do cross-validation, que no caso do trabalho são cinco divisões, totalizando 135
testes. multirow
Para medição da performance do resultados, tomamos como base a avaliação das
métricas de ajuste das técnicas de regressão para fins de comparação de desempenho.
As Tabelas 4.2, 4.3 e 4.4 mostram os valores de R e MSE de cada teste em poço blind
utilizado no trabalho. E para cada poço foi elencado três níveis de ajuste para as duas
24
25
Tabela 4.1: Hiper-parâmetros encontrados a partir do método de otimização do GridSe-
archcv.
Method Hyper-parameters N features Best 𝑅2 cv
LS Sem otimização
4 -1.29
3 -1.29
2 -1.29
SVR
𝜖= 2e-2
4 -6.56C = 2
𝛾= 7e-3
𝜖= 1e-2
3 0.013C = 1e-2
𝛾= 1e-2
𝜖= 1e-2
2 -1.29C = 10
𝛾= 1e-2
RF
n_estimators = 97 4 0.14min_samples_split = 47
n_estimators = 87 3 0.11min_samples_split = 224
n_estimators = 2305 2 -0.28min_samples_split = 691
GB
n_estimators = 437
4 0.14learning_rate = 0.01
min_samples_split = 2
n_estimators = 104
3 0.01learning_rate = 0.1
min_samples_split = 3
n_estimators = 104
2 -0.55learning_rate = 0.1
min_samples_split = 3
KNN
n_neighbors = 4979
4 -0.02leaf_size = 1
p = 1
n_neighbors = 3696
3 -0.12leaf_size = 1
p = 1
n_neighbors = 3491
2 -0.15leaf_size = 1
p = 1
MLP
hidden_layer_sizes = (503, 503, 503)
4 -1.23alpha = 0.0001
epsilon = 1e-08
hidden_layer_sizes = (428, 428, 428)
3 -1.81alpha = 0.0001
epsilon = 1e-10
hidden_layer_sizes = (622, 622, 622)
2 -1.14alpha = 0.0001
epsilon = 1e-10
26
métricas utilizadas em cada técnica. Em verde, para os dois melhores ajustes, em amarelo
para os dois intermediários e em vermelho para os dois piores. Por exemplo, no poço doAlaska, os dois poços que teve os melhores valores de R foram o LS e o SVR, os dois
intermediários foram kNN e MLP e os dois piores foram RF e GB.
Tabela 4.2: Métricas dos testes em poços blind a partir de modelos com 2 features. Nessas
tabelas foram definidos uma sequência de cores em relação à qualidade das métricas
para o teste em cada poço blind, Para os dois melhores valores, definimos verde, para os
dois valores intermediários, definimos amarelo e para os dois valores inferiores, definimos
vermelho.
Alaska 5 Tea Pot 2 Penebscot 2 Campos 10 Norne 1 Cambo 1
MSE 0.009247 0.004333 0.009237 0.012895 0.044123 0.181321
LS
R 0.252904 0.202449 0.679533 0.683364 0.502237 0.701508
MSE 0.008359 0.007886 0.006995 0.012091 0.029504 0.294721
SVR
R 0.252146 0.448284 0.757479 0.547973 0.526182 0.809401
MSE 0.009318 0.004475 0.008459 0.011556 0.038514 0.157768
RF
R 0.150036 0.406065 0.685221 0.570893 0.301298 0.301298
MSE 0.010409 0.004569 0.007580 0.011459 0.041448 0.147798
GB
R 0.158306 0.455919 0.007580 0.576080 0.265546 0.265546
MSE 0.009204 0.003400 0.007645 0.011985 0.038527 0.136410
KNN
R 0.183894 0.450402 0.726410 0.578049 0.43854 0.692205
MSE 0.012038 0.006912 0.006842 0.011691 0.025767 0.141396
MLP
R 0.169727 0.433651 0.744088 0.584989 0.503864 0.029752
Tabela 4.3: Métricas dos testes em poços blind a partir de modelos com três features.
Alaska 2 Tea Pot 2 Penebscot 2 Campos 10 Cambo 1
MSE 0.008942 0.004363 0.009037 0.013232 0.185099
LS
R 0.245460 0.188483 0.684277 0.648139 0.669996
MSE 0.007701 0.004552 0.007252 0.013690 0.277782
SVR
R 0.208609 0.349563 0.764039 0.487579 0.695623
MSE 0.010792 0.015772 0.007114 0.009783 0.186159
RF
R 0.169336 0.262738 0.743664 0.652120 0.691136
MSE 0.006672 0.012108 0.006805 0.013793 0.164842
GB
R 0.298069 0.299925 0.749243 0.438167 0.463680
KNN MSE 0.008597 0.003476 0.007588 0.012993 0.138744
R 0.185660 0.433663 0.727845 0.506098 0.482659
MSE 0.017911 0.020489 0.009921 0.006095 0.073022
MLP
R 0.347852 0.427230 0.735404 0.810736 0.798066
27
Tabela 4.4: Métricas dos testes em poços blind a partir de modelos com quatro features.
Alaska 5 Tea Pot 2 Penebscot 2 Campos 10 Cambo 1
MSE 0.0071 0.007778 0.008263 0.016917 0.082361
LS
R 0.335095 -0.032239 0.675892 0.604276 0.569368
MSE 0.008981 0.004657 0.006354 0.021799 0.055878
SVR
R 0.058559 0.449664 0.766695 -0.09599 0.729265
MSE 0.008998 0.006892 0.006785 0.009027 0.049835
RF
R 0.280703 0.324391 0.761389 0.685844 0.761565
MSE 0.005495 0.005771 0.005967 0.016732 0.040221
GB
R 0.404168 0.318882 0.781014 0.250431 0.806791
MSE 0.006922 0.003531 0.007938 0.014326 0.075715
KNN
R 0.346883 0.411764 0.711931 0.43818 0.743455
MSE 0.015647 0.004826 0.007446 0.012602 0.073342
MLP
R 0.454815 0.43795 0.757049 0.620162 0.705696
O poço de validação que teve melhores ajustes foi o poço de Penebscot. Um dos
principais fatores para essa qualidade nos ajuste é a quantidade de dados de treinamento
que foi superior aos outros poços que de certa forma ocorre um enviesamento aos dados
de Penebscot, que consiste em torno da metade do conjunto de dados de treinamento.
Outro fator, é a boa correlação das features com o target tanto no poço que foi incluído
no dado de treinamento quanto no poço de validação (Penebscot 2). A correlação entre a
densidade (target) e os perfis de features pode ser observado na Tabela 4.5. Neste caso, o
perfil com menor correlação tanto no treinamento (train) quanto na validação (validation)
ocorreu para o perfil raio gama (GR).
Na Figura 4.1 é feito um cross-plot das features com o target dos dados que foram
concatenados para treinamento dos modelos com os poços de validação (os dados definidos
como "reference"são os dados de treinamento concatenados), observando visualmente que
os valores referentes à Penebscot ocupa uma "área"de dados superior aos outros poços
de validação, além de uma semelhança gráfica com os dados de treinamento. A Figura
4.2 mostra um corte dos ajustes aplicados ao poço blind de Penebscot. Nesses ajustes,
pode-se destacar, que SVR, RF, GB e o MLP são os métodos com melhores desempenhos,
conseguindo captar a maioria das variações e conseguindo um bom ajuste às amplitudes
das variações. Com os valor MSE na ordem de 10−3 e valores de R maior quando com-
parado à ajustes em outros poços, o que significa que os algoritmos ML conseguiu captar
as variações.
28
Tabela 4.5: Correlação dos targets com as features dos poços de treino e validação de
Penebscot.
RHOB
Train Validation
ILD 0.353641 0.59383
GR 0.015698 0.028308
DT -0.625484 -0.60184
NPHI -0.626452 -0.538579
Figura 4.1: Cross-plot do conjunto de dados de treinamento com cada poço blind utilizado
no trabalho.
29
2.25 2.50
ρB[g/cm3]
30
60
30
80
31
00
31
20
31
40
31
60
31
80
32
00
32
20
De
pt
h[
m
]
LS
Real
4 var
3 var
2 var
2.25 2.50
ρB[g/cm3]
30
60
30
80
31
00
31
20
31
40
31
60
31
80
32
00
32
20
SVR
2.25 2.50
ρB[g/cm3]
30
60
30
80
31
00
31
20
31
40
31
60
31
80
32
00
32
20
RF
2.25 2.50
ρB[g/cm3]
30
60
30
80
31
00
31
20
31
40
31
60
31
80
32
00
32
20
GB
2.25 2.50
ρB[g/cm3]
30
60
30
80
31
00
31
20
31
40
31
60
31
80
32
00
32
20
KNN
2.25 2.50
ρB[g/cm3]
30
60
30
80
31
00
31
20
31
40
31
60
31
80
32
00
32
20
MLP
Test in Penebscot (2)
Figura 4.2: Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind de Penebscot. Visualmente é possível
observar que o pior desempenho se deu para os métodos LS e k-NN.
O campo com segunda maior quantidade de dados no conjunto de treinamento foi
Tea Pot. Boas correlações nos dados de treinamento, fez com que as predições sobre
o poço de validação ocorresse com qualidade equivalente à proporção da quantidade de
dados. Como pode ser avaliado nas tabelas de métricas, os erros sobre predição no poço
de validação de Tea Pot, na maioria das estimativas teve um R superior à 0.4 e o MSE com
valores na terceira casa decimal, com exceção da estimativa utilizando Least Squares-LS
que teve o valor de R igual à 0.202449, porém, o MSE foi o segundo melhor, o que indica
um estimativas com poucas varições. A correlações nos dados do poço de Tea Pot são
mostradas na Tabela 4.6. A técnica com melhor ajuste foi o k-NN, que foi um método que
conseguiu capturar as variações dos valores reais(ver Figura 4.4). Observando a Figura
30
4.3 os dados de validação está dentro do conjunto de dados de treinamento na maior parte
dos conjunto dos dados, apenas com uma pequena parte de valores de GR estando fora
da região de dados de treinamento.
Tabela 4.6: Correlação entre as features e o target do poço de treino e validação de Teapot.
RHOB
Train Validation
ILD 0.196284 0.0558974
GR -0.326592 -0.181973
DT -0.629873 -0.29027
NPHI -0.70813 -0.115526
Figura 4.3: Cross-plot dos perfis do dado de treinamento com os perfis do poço de vali-
dação de Teapot.
31
2.25 2.50 2.75
ρB[g/cm3]
12
00
12
25
12
50
12
75
13
00
13
25
13
50
13
75
14
00
De
pt
h[
m
]
LS
Real
4 var
3 var
2 var
2.25 2.50 2.75
ρB[g/cm3]
12
00
12
25
12
50
12
75
13
00
13
25
13
50
13
75
14
00
SVR
2.25 2.50 2.75
ρB[g/cm3]
12
00
12
25
12
50
12
75
13
00
13
25
13
50
13
75
14
00
RF
2.25 2.50 2.75
ρB[g/cm3]
12
00
12
25
12
50
12
75
13
00
13
25
13
50
13
75
14
00
GB
2.25 2.50 2.75
ρB[g/cm3]
12
00
12
25
12
50
12
75
13
00
13
25
13
50
13
75
14
00
KNN
2.25 2.50 2.75
ρB[g/cm3]
12
00
12
25
12
50
12
75
13
00
13
25
13
50
13
75
14
00
MLP
Test in Tea Pot (2)
Figura 4.4: Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind de Teapot. Visualmente é possível
observar que o pior desempenho se deu para os métodos LS e MPL.
O ajuste no teste aplicado sobre o poço blind do campo do Alaska, teve como melhor
ajuste as técnicas do MLP e GB com 4 features, com destaque ao GB que teve o menor
MSE e segundo melhor R (0.4), o MLP, apesar de ter o maior R(0.45), está entre os
maiores valores deerro. A Figura 4.6 temos um corte das estimativas no poço blind do
Alaska, é possível perceber que os ajustes do MLP consegue capturar as variações do valor
real, porém os valores estão deslocados, o que justifica o maior valor de MSE. Observando
a Tabela 4.7 pode-se observar uma menor correlação das features com o target no conjunto
de dados de treinamento referente ao Alaska, isso justifica um menor valor de R em relação
aos ajustes dos outros blinds. A Figura 4.5 pode-se observar que os valores do poço blind
do Alaska está dentro da area do conjunto de dados de treinamento, apontando uma certa
32
similaridade entre os dados.
Tabela 4.7: Tabela de correlações entre target e features dos poços do Alaska para trei-
namento (Alaska 2, 3 e 4) e o poço de validação (Alaska 5).
RHOB
Alaska 2 Alaska 3 Alaska 4 Alaska 5 (Validation)
ILD -0.145727 0.294842 0.267812 -0.325947
GR 0.291251 -0.0124391 -0.0905072 0.167802
DT -0.250311 -0.377076 -0.415601 -0.196026
NPHI -0.322254 -0.428836 -0.212811 -0.222194
Figura 4.5: Gráficos de cross plot para mostrar a relação do target com cada feature do
conjunto de dado de treinamento e do poço blind do Alaska.
33
2.0 2.5
ρB[g/cm3]
59
0
60
0
61
0
62
0
63
0
64
0
65
0
De
pt
h[
m
]
LS
Real
4 var
3 var
2 var
2.0 2.5
ρB[g/cm3]
59
0
60
0
61
0
62
0
63
0
64
0
65
0
SVR
2.0 2.5
ρB[g/cm3]
59
0
60
0
61
0
62
0
63
0
64
0
65
0
RF
2.0 2.5
ρB[g/cm3]
59
0
60
0
61
0
62
0
63
0
64
0
65
0
GB
2.0 2.5
ρB[g/cm3]
59
0
60
0
61
0
62
0
63
0
64
0
65
0
KNN
2.0 2.5
ρB[g/cm3]
59
0
60
0
61
0
62
0
63
0
64
0
65
0
MLP
Test in Alaska (5)
Figura 4.6: Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind do Alaska. Visualmente é possível
observar que o pior desempenho se deu para os métodos LS e k-NN.
Os perfis da Figura 4.8 mostra um corte de ajustes aplicados sobre o poço blind da
Bacia de Campos. Apesar de Campos conter o menor conjunto de dados dentro do
conjunto de treinamento, esses dados são os que têm melhores correlações, o que significa
que os valores tem variações significantes entre os perfis de poço, o que permite que os
modelos de regressão identifique padrões dessas variações com mais facilidade, a Tabela
4.8 mostra as correlações dos dados dos perfis do poço blind utilizado em Campos. os
perfis da Figura 4.7 podemos ver os valores dos conjunto de dados do poço blind tem
similaridade com o conjunto de dados de treinamento.
Tabela 4.8: Tabela de correlações entre target e features dos poços da Bacia de Campos
para treinamento (Campos 5 e 8) e o poço de validação (Campos 10).
RHOB
Campos 5 Campos 8 Campos 10 (Validation)
ILD -0.140791 -0.609072 -0.666948
GR -0.362441 -0.277048 -0.216
DT -0.739897 -0.675256 -0.684553
NPHI -0.81277 -0.600197 -0.621171
34
Figura 4.7: Gráficos de cross plot para mostrar a relação do target com cada feature do
conjunto de dado de treinamento e do poço blind de Campos.
35
2.0 2.5
ρB[g/cm3]
29
40
29
60
29
80
30
00
30
20
30
40
30
60
30
80
31
00
De
pt
h[
m
]
LS
Real
Estimate 4 var
Estimate 3 var
Estimate 2 var
2.0 2.5
ρB[g/cm3]
29
40
29
60
29
80
30
00
30
20
30
40
30
60
30
80
31
00
SVR
2.0 2.5
ρB[g/cm3]
29
40
29
60
29
80
30
00
30
20
30
40
30
60
30
80
31
00
RF
2.0 2.5
ρB[g/cm3]
29
40
29
60
29
80
30
00
30
20
30
40
30
60
30
80
31
00
GB
2.0 2.5
ρB[g/cm3]
29
40
29
60
29
80
30
00
30
20
30
40
30
60
30
80
31
00
KNN
2.0 2.5
ρB[g/cm3]
29
40
29
60
29
80
30
00
30
20
30
40
30
60
30
80
31
00
MLP
Test in Campos (10)
Figura 4.8: Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind do campo da Bacia de Campos.
Visualmente é possível observar que o pior desempenho se deu para os métodos LS, SVR
e k-NN.
Os perfis da Figura 4.9 é um corte das estimativas aplicadas sobre um poço do Cambo,
como não há dados de Cambo no conjunto de dados para o treinamento dos modelos, é
coerente ajustes inferiores. Podemos destacar os ajustes do LS que apesar de teve um
desempenho estável, nos três modelos. Os modelos que melhor acompanhou as variações
GB com três features, MLP com três features e o SVR com duas features.
36
2 3
ρB[g/cm3]
25
40
25
60
25
80
26
00
26
20
26
40
De
pt
h[
m
]
LS
Real
4 var
3 var
2 var
2 3
ρB[g/cm3]
25
40
25
60
25
80
26
00
26
20
26
40
SVR
2 3
ρB[g/cm3]
25
40
25
60
25
80
26
00
26
20
26
40
RF
2 3
ρB[g/cm3]
25
40
25
60
25
80
26
00
26
20
26
40
GB
2 3
ρB[g/cm3]
25
40
25
60
25
80
26
00
26
20
26
40
KNN
2 3
ρB[g/cm3]
25
40
25
60
25
80
26
00
26
20
26
40
MLP
Test in Cambo (1)
Figura 4.9: Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind de Cambo. Visualmente é possível
observar que o pior desempenho se deu para os métodos LS, RF e k-NN. Importante
ressaltar que nehum poço de Cambo foi usado no treinamento dos modelos.
A Figura 4.11 mostra o gráfico de um cross-plot entre as features utilizados nos mo-
delos C, podemos destacar os dados do blind de Cambo tem uma região que fica fora da
região de dados do conjunto de dados de treinamento, pode ser um fator para a perda de
desempenho entre os ajustes dos modelos.
37
Figura 4.10: Crossplots mostrando a relação do target com cada feature do conjunto de
dado de treinamento e do poço blind de Campos.
38
Figura 4.11: Crossplot entre a relação das features utilizadas no modelos C, nos conjunto
de dados de treinamento e cada poço blind.
Os perfis da Figura 4.12 mostra os ajustes dos modelos C aplicados ao poço blind de
Norne. Podemos destacar que os dois métodos ensemble tiveram piore desempenhos, pode
ser observado na Figura 4.12, que da profundidade de 2850 m até 3000 m, o algorítimo
aparentemente não consegue identificar os padrões da curva real. Dentre os métodos
métodos SVR e MLP se destacam, MLP com o menor erro e o segundo melhor R e o SVR
que teve o menor erro e o segundo maior R.
39
2.0 2.5
ρB[g/cm3]
27
00
27
50
28
00
28
50
29
00
29
50
30
00
De
pt
h[
m
]
LS
Real
2 var
2.0 2.5
ρB[g/cm3]
27
00
27
50
28
00
28
50
29
00
29
50
30
00
SVR
2.0 2.5
ρB[g/cm3]
27
00
27
50
28
00
28
50
29
00
29
50
30
00
RF
2.0 2.5
ρB[g/cm3]
27
00
27
50
28
00
28
50
29
00
29
50
30
00
GB
2.0 2.5
ρB[g/cm3]
27
00
27
50
28
00
28
50
29
00
29
50
30
00
KNN
2.0 2.5
ρB[g/cm3]
27
00
27
50
28
00
28
50
29
00
29
50
30
00
MLP
Test in Norne (1)
Figura 4.12: Perfis de densidades real e preditos pelos métodos de AM. Neste caso, os
métodos de regressão foram aplicados no poço blind do campo de Norne. Visivelmente
é possível observar que nenhum modelo apresentou uma boa eficiência, neste caso de
predição do Modelo C.
As Figuras 4.13 e 4.14 mostram os gráficos em barra mostrando o MSE e o R de
cada ajuste do trabalho, a partir dos resultados das Tabelas 4.2, 4.3 e 4.4 mostradas
anteriormente.
40
Figura 4.13: Valores da métrica MSE em gráficos de Barras para os modelos A, B e C.
Neste caso, os gráficos são funções dos desempenhos dos métodos de regressão aplicados
aos diferentes dados de poços.
41
Figura 4.14: Valores da métrica R em gráficos de Barras para os modelos A, B e C. Neste
caso, os gráficos são funções dos desempenhos dos métodos de regressão aplicados aos
diferentes dados de poços.
4.1 NEWGRID
Outro método de otimização utilizado foi o NewGrid, que foi produzido nesse trabalho
através de um laço for para buscar cada hiper-parâmetro do método de regressão. Neste
caso, foram feitas novas buscas de Hiper-parâmetros do SVR para o modelo de quatro
features. A busca de novos parâmetros por uma análise gráfica em que se faz a variação
de um parâmetro com outros hiper-parâmetros fixos até encontrar o maior 𝑅2, após
encontrar esse hiper-parâmetro, ele é fixado, e se varia um próximo hiper-parâmetro até
ajustar todos os hiper-parâmetros desejados. Nessa etapa foi feito um novo

Outros materiais