Doubledeepqnetwork-Nascimento-2022

•
Humanas / Sociais

Estude com artigos
07/05/2023
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 79 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 79 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 79 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Trabalho de Conclusão de Curso - TCC

95.866 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Universidade Federal do Rio Grande do Norte
Centro de Tecnologia - CT
Centro de Ciências Exatas e da Terra - CCET
Mestrado Acadêmico em Ciências e Engenharia de
Petróleo - PPGCEP
DOUBLE DEEP Q-NETWORK NO
MÉTODO DE RECUPERAÇÃO
AVANÇADA INJEÇÃO DE ÁGUA EM
UM CAMPO DE PETRÓLEO
Kaline Juliana Silva do Nascimento
Natal - RN
Kaline Juliana Silva do Nascimento
DOUBLE DEEP Q-NETWORK NO PROCESSO DE
DECISÃO PARA O USO DO MÉTODO DE
RECUPERAÇÃO INJEÇÃO DE ÁGUA EM UM CAMPO
DE PETRÓLEO
Dissertação de Mestrado apresentada ao Pro-
grama de Pós-graduação em Ciências e Enge-
nharia de Petróleo da Universidade Federal
do Rio Grande do Norte como requisito para
a obtenção do grau de Mestre em Ciências e
Engenharia de Petróleo.
Universidade Federal do Rio Grande do Norte – UFRN
Centro de Tecnologia - CT
Centro de Ciências Exatas e da Terra - CCET
Programa de Pós-Graduação em Ciências e Engenharia do Petróleo - PPGCEP
Orientador: Doutor Adrião Dória Duarte Neto
Natal-RN
31 de janeiro de 2022
Nascimento, Kaline Juliana Silva do.
 Double deep q-network no método de recuperação avançada
injeção de água em um campo de petróleo / Kaline Juliana Silva
do Nascimento. - 2022.
 77 f.: il.
 Dissertação (mestrado) - Universidade Federal do Rio Grande
do Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-
graduação em Ciência e Engenharia do Petróleo.
 Orientador: Prof. Dr. Adrião Duarte Dória Neto.
 1. Sistema inteligente - Dissertação. 2. Double Deep Q-
Network - Dissertação. 3. Campo de petróleo - Dissertação. I.
Dória Neto, Adrião Duarte. II. Título.
RN/UF/BCZM CDU 553.982:628.16
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede
Elaborado por Ana Cristina Cavalcanti Tinoco - CRB-15/262
Dissertação de Mestrado sob o título DOUBLE DEEP Q-NETWORK NO MÉTODO DE
RECUPERAÇÃO AVANÇADA INJEÇÃO DE ÁGUA EM UM CAMPO DE PETRÓLEO
apresentada por Kaline Juliana Silva do Nascimento e aceita pelo Programa de Pós-
graduação em Ciência e Engenharia do Petróleo da Universidade Federal do Rio Grande do
Norte, sendo aprovada por todos os membros da banca examinadora abaixo especificada:
Dr Adrião Duarte Dória Neto
Presidente
UFRN
Dr Wilson da Mata
Examinador
UFRN
Membro interno a UFRN
Dr Marcos Allyson Felipe Rodrigues
Examinador
UFRN
Membro interno a UFRN
Dr Thiago Henrique Freire de Oliveira
Examinador
IFRN
Membro externo a UFRN
Natal-RN, 31 de janeiro de 2022.
Kaline Juliana Silva do Nascimento
DOUBLE DEEP Q-NETWORK NO PROCESSO DE
DECISÃO PARA O USO DO MÉTODO DE
RECUPERAÇÃO INJEÇÃO DE ÁGUA EM UM CAMPO
DE PETRÓLEO
Dissertação de Mestrado apresentada ao Pro-
grama de Pós-graduação em Ciências e Enge-
nharia de Petróleo da Universidade Federal
do Rio Grande do Norte como requisito para
a obtenção do grau de Mestre em Ciências e
Engenharia de Petróleo.
Trabalho aprovado. Natal-RN, 31 de janeiro de 2022
Dr Adrião Duarte Dória Neto
Orientador
Doutor Wilson da Mata
Examinador
Doutor Marcos Allyson Felipe
Rodrigues
Examinador
Doutor Thiago Henrique Freire de
Oliveira
Examinador
Natal-RN
2022
Dedico as pessoas mais importantes da minha vida:
Célia e Celina.
Agradecimentos
Inicialmente, a Deus pelo fôlego de vida e por todas as vezes que, mesmo perdida
na escrita, fui por Ele guiada a continuar.
Aos meus pais, Célia e Carlos (in memorian) por me apoiar, incentivar e terem
tanto orgulho do que nós, os filhos, fazemos. Serei eternamente grata a vocês. Amo demais!
Ao meu noivorido Marcelino pelo incentivo, por toda a cobrança e apoio em todos
os momentos durante a escrita desta dissertação. Você foi meu golpe de sorte! Te amo,
preto!
A minha filha Celina, que nem sabe, mas foi o maior motivo para a conclusão desta
dissertação. Te amo mais que tudo neste mundo, minha filha!
Ao professor e orientador Adrião Duarte, que além de excelente pesquisador,
professor e orientador, também consegue ser um humano incrível. Foi um presente ser
orientada peo senhor!
Aos professores Marcos Allyson e Wilson da Mata pela dedicação e cuidado com
este trabalho.
Ao Dr Thiago Freire pela parceria, bem como pela paciência e cuidado no entendi-
mento da simulação aqui feita. Sem sua ajuda eu não teria conseguido! Obrigada.
A minha xará, Kaline Souza, sempre tão prestativa e disposta a estudar. Parceria
de xarás que deu certo! Obrigada por tanto.
Aos meus irmãos, Karla e Hugo, por estarem ao meu lado em todos os momentos.
A minha pequena grande amiga, Fátima Mel, pela amizade sincera, de tantos
sorrisos e tão pura que temos. Obrigada amiga, por tornar tudo tão leve. Você é a minha
pessoa!
Ao meu amigo Cephas, pessoa que tanto me ajudou em disciplinas e com o editor
de textos usado para a escrita desta dissertação.
Aos amigos do laboratório: Kaline, Ramom, Luiz Paulo, Thiago, Max e Keylly
pelos dias de estudo regados a muito café no Labibs.
Aos amigos do laboratório de petróleo Daniele, Helton, Adson, Juli e Suzane pelos
momentos de estudo.
Aos professores do PPGCEP, principalmente professor Wilson, Jennys e Tacílio.
Vocês foram fundamentais!
Ao IFRN pelo suporte financeiro durante o afastamento.
Por fim, agradeço a todos os que participaram da minha formação até aqui, desde
trabalhadores terceirizados até os autores dos trabalhos que contribuíram com esta pesquisa.
O rio quando esquece onde nasce, ele seca e morre.
Provérbio africano de Olúségun Akínrúli.
DOUBLE DEEP Q-NETWORK NO MÉTODO DE RECUPERAÇÃO
AVANÇADA INJEÇÃO DE ÁGUA EM UM CAMPO DE PETRÓLEO
Autor: Kaline Juliana Silva do Nascimento
Orientador: Dr Adrião Duarte Dória Neto
Resumo
Se faz necessário, para aumentar a produção petrolífera, o desenvolvimento constante de
novas alternativas de explotação dos campos. A necessidade de otimização dos fatores
integrantes no processo de recuperação, requer muito cuidado em todas as recomendações
propostas para tal. Entre os elementos que integram a explotação petrolífera pode -se
ressaltar: Número de poços, espaço entre eles, modelo de malha de produção/injeção,
sistema de injeção de fluido, entre outros. Este trabalho tem como objetivo apresentar
o desenvolvimento e a aplicação de um sistema inteligente baseado na técnica de Apren-
dizagem Por Reforço Profundo em reservatórios de petróleos submetidos ao método de
recuperação avançada injeção de água. A simulação foi realizada com o simulador matemá-
tico STARS (Steam Thermal ans Advanced Process Reservoir Simulator) do grupo CGM
(Computer Modelling Group) considerando um reservatório homogêneos semissintéticos
com características similares aos encontrados no Nordeste Brasileiro. O algoritmo aplicado
foi o Double Deep Q-Network (DDQN), que consiste numa associação entre uma rede de
aprendizado profundo e o algoritmo Q-learning e tem como objetivo encontrar condições
operacionais favoráveis, tendo como finalidade a maximização do Valor Presente Líquido
(VPL) e o aumento significativo do Fator de Recuperação, com as ações de aumentar
ou não a vazão de injeção de água no início da produção em um horizonte de produção
estimada em 240 meses (20 anos). O uso do algoritmo proporcionou obter as condições
operaacionais ótimas que viabilizaram aumentos significativos no fator de recuperação do
campo, bem como no VPL e, consequentemente,a rentabilidade, havendo ainda a queda
dos custos com injeção de água, tratamento e descarte de água produzida, gerando assim
o aumento do tempo da viabilidade do projeto.
Palavras-chave: Campo de petróleo. Sistema inteligente. Aprendizado por Reforço Profundo.
Double Deep Q-Network. Análise econômica.
DOUBLE DEEP Q-NETWORK IN THE ADVANCED RECOVERY
METHOD INJECTION OF WATER IN AN OIL FIELD
Author: Kaline Juliana Silva do Nascimento
Supervisor: Adrião Duarte Dória Neto
Abstract
It is necessary, for the best oil production, the constant development of new alternatives
for the exploitation of the fields. The need to optimize the factors involved in this
process requiresgreat care in all the proposed recommendations. Among the elements
that make up oil exploration, the following stand out: Number of wells, space between
them, production/injection grid model, fluid injection system, among others. This work
aims to present the development and application of an intelligent system based on the
Deep Reinforcement Learning technique in oil reservoirs submitted to the advanced
waterflooding recovery method. The simulation was carried out with the mathematical
simulator STARS (Steam Thermal and Advanced Process Reservoir Simulator) from the
CGM (Computer Modeling Group) group, considering a homogeneous semi-synthetic
reservoir with characteristics similar to those found in Northeast Brazil. The applied
algorithm was the Double Deep Q-Network (DDQN), which consists of an association
between a deep learning network and the Q-learning algorithm and aims to find favorable
operating conditions, aiming to maximize the Net Present Value (NPV) and the significant
increase in the Recovery Factor, with actions to increase or not the water injection flow
rate at the beginning of production within a production horizon estimated at 240 months
(20 years). The use of the algorithm provided the optimal operating conditions that enabled
significant increases in the field’s recovery factor, as well as in the NPV and, consequently,
the profitability, with a drop in costs with water injection, treatment and disposal of
produced water, thus generating an increase in the project’s viability time.
Keywords: Oil field. Intelligent system. Deep Reinforcement Learning. Double Deep Q-
Network. Economic analysis.
Lista de ilustrações
Figura 1 – Classificação dos Métodos de Recuperação Avançados de Petróleo.Fonte:
Própria autora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Figura 2 – Injeção Periférica
Fonte: Rosa et al, 2006 . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Figura 3 – fonte: (ROSA; CARVALHO; XAVIER, 2006) . . . . . . . . . . . . . . 23
Figura 4 – Modelo de malha Five Spot Normal. Fonte: Própria autora. . . . . . . 24
Figura 5 – Modelo de malha nine spot normal.Fonte: Própria autora . . . . . . . . 25
Figura 6 – Modelo de malha Five Spot invertido. Fonte: Própria autora . . . . . . 25
Figura 7 – Modelo de malha nine spot invertido. Fonte: Própria autora . . . . . . 25
Figura 8 – Modelo de malha Five Spot Invertido Cruz - Fonte:Própria autora . . . 25
Figura 9 – Esquema generalista da simulação numérica de reservatórios. Fonte:
Própria autora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 10 – Representação gráfica de uma função degrau. Fonte: Própria autora . . 30
Figura 11 – Representação gráfica da Função Sigmóide. Fonte: Própria autora . . . 30
Figura 12 – Representação gráfica de uma função Tangente Sigmóide. Fonte: Própria
autora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 13 – Representação gráfica da função ReLU. Fonte: Própria autora . . . . . 31
Figura 14 – Rede com apenas 1 camada de neurônios, uma rede rasa com 4 unidades
de ativação. Fonte: Própria autora . . . . . . . . . . . . . . . . . . . . 32
Figura 15 – Rede neural com múltiplas camadas: três camadas ocultas.Fonte: Própria
autora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 16 – Interação Agente/Ambiente (SUTTON; BARTO, 2018) . . . . . . . . . 35
Figura 17 – Aprendizagem profunda aplicada a um problema de classificação. (GO-
ODFELLOW et al., 2016) . . . . . . . . . . . . . . . . . . . . . . . . . 38
Figura 18 – Fonte: própria autora . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Figura 19 – Nine Spot invertido 3D. Fonte: (SANTOS, 2019) . . . . . . . . . . . . 46
Figura 20 – Five Spot invertido 3D. Fonte: (SANTOS, 2019) . . . . . . . . . . . . . 46
Figura 21 – Five Spot invertido cruz 3D . . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 22 – Curvas de permeabilidade relativa ao sistema água-óleo. Fonte: (SAN-
TOS, 2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 23 – Curvas de permeabilidade relativa ao sistema gás-óleo. Fonte: (SANTOS,
2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 24 – Arquitetura do Sistema Inteligente Utilizado . . . . . . . . . . . . . . . 52
Figura 25 – Pseudocódigo do sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 26 – Metodologia do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 27 – Curvas de VPL com e sem implementação caso 1. . . . . . . . . . . . . 59
Figura 28 – Fator de recuperação caso 1 . . . . . . . . . . . . . . . . . . . . . . . . 60
Figura 29 – VPL caso 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Figura 30 – Fator de recuperação caso 04 . . . . . . . . . . . . . . . . . . . . . . . 62
Figura 31 – VPL caso 07 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Figura 32 – Fator de recuperação caso 07 . . . . . . . . . . . . . . . . . . . . . . . 64
Figura 33 – VPL Caso 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Figura 34 – FR Caso 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Figura 35 – Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Figura 36 – Caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Figura 37 – Caso 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Figura 38 – Caso 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Figura 39 – Caso 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Lista de tabelas
Tabela 1 – Propriedades da rocha-reservatório: . . . . . . . . . . . . . . . . . . . . 47
Tabela 2 – Composição do óleo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Tabela 3 – Custos das operações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Tabela 4 – Possíveis ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Tabela 5 – Experimentos selecionados . . . . . . . . . . . . . . . . . . . . . . . . . 55
Tabela 6 – Experimentos selecionados . . . . . . . . . . . . . . . . . . . . . . . . . 56
Tabela 7 – Tempo de aplicação de cada método e BSW . . . . . . . . . . . . . . . 57
Tabela 8 – Experimentos selecionados (100m) . . . . . . . . . . . . . . . . . . . . 58
Tabela 9 – Experimentos selecionados: 200m . . . . . . . . . . . . . . . . . . . . . 60
Tabela 10 – Experimentos selecionados (300m) . . . . . . . . . . . . . . . . . . . . 62
Tabela 11 – Experimentos selecionados(400m) . . . . . . . . . . . . . . . . . . . . . 65
Sumário
Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Introdução Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.1 Objetivos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.3 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Capítulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 ASPECTOS TEÓRICOS . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1 Métodos de Recuperação . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Métodos de Recuperação Avançada . . . . . . . . . . . . . . . . . . . . . 20
2.1.1.1 Injeção de água . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Esquemas de injeção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2.1 Injeção periférica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2.2 Injeção na base e no topo . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2.3 Injeção em malhas .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.3 Água produzida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3.1 Reinjeção da água produzida . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3.2 Descarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Simulação numérica de reservatórios e seus fundamentos . . . . . . 27
2.2.1 Simulação numérica de reservatórios . . . . . . . . . . . . . . . . . . . . . 27
3 APRENDIZADO POR REFORÇO PROFUNDO (DEEP REINFOR-
CEMENT LEARNING) . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.1 Redes Multilayer Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.2 Arquitetura das Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . 32
3.2 Processo de Decisão de Markov . . . . . . . . . . . . . . . . . . . . . 32
3.3 Aprendizado por Reforço (Reinforcement Learning) . . . . . . . . . . 34
3.3.1 Função Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.2 Algorítmo Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.4 Deep Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4.1 Deep Q-Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4.2 Double Deep Q-Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1 Ferramentas computacionais . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.1 STARS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.2 O Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.2 Modelos dos reservatórios . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 Modelo do Fluído e Condições Operacionais . . . . . . . . . . . . . . 49
5.4 Análise de Viabilidade Técnico-Econômica . . . . . . . . . . . . . . . 49
5.5 Modelagem do Sistema Inteligente . . . . . . . . . . . . . . . . . . . 50
5.5.1 Espaços de Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.5.2 Conjunto de Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.5.3 Recompensa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6 Sistema Inteligente Desenvolvido . . . . . . . . . . . . . . . . . . . . 52
5.6.1 Arquitetura do Sistema Inteligente utilizado . . . . . . . . . . . . . . . . . 52
5.6.2 Fluxograma da Metodologia do Trabalho . . . . . . . . . . . . . . . . . . 53
5.6.3 Diferenças entre sistemas inteligentes . . . . . . . . . . . . . . . . . . . . 54
6 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.1 Caracterização do experimento . . . . . . . . . . . . . . . . . . . . . . 55
6.2 Aplicação do algoritmo Double Deep Q-Network . . . . . . . . . . . 56
6.3 Malha de 100m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.4 Malha de 200m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.5 Malha de 300m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.6 Malha de 400m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.6.1 Demais casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7 CONCLUSÕES E TRABALHOS FUTUROS . . . . . . . . . . . . . 68
7.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
ANEXOS 72
ANEXO A – EXPERIMENTOS 2 E 3 - DIMENSÃO DE MALHA
DE 100M . . . . . . . . . . . . . . . . . . . . . . . . . 73
ANEXO B – EXPERIMENTOS 5 E 6 - DIMENSÃO DE MALHA
DE 200M . . . . . . . . . . . . . . . . . . . . . . . . . 75
ANEXO C – EXPERIMENTOS 8 E 9 - DIMENSÃO DE MALHA
DE 300M . . . . . . . . . . . . . . . . . . . . . . . . 76
ANEXO D – EXPERIMENTO 11 E 12- DIMENSÃO DE MALHA
DE 400M . . . . . . . . . . . . . . . . . . . . . . . . 78
17
1 Introdução
1.1 Introdução Geral
Na Engenharia de Reservatórios, uma das tarefas primárias e fundamentais é definir
uma estratégia de produção. Se faz necessário, entre outros, ter as características da rocha-
reservatório, localização Uma forma bastante eficiente para definir a melhor estratégia para
um campo petrolífero é usar simulação numérica de reservatórios. Simulação numérica de
reservatórios é o termo utilizado para simuladores computacionais aplicados a Engenharia
de reservatórios. Essa utilização se dá com a finalidade de otimizar a produção do campo,
ou seja, a maximização da recuperação dos recursos in situ presentes nos reservatório do
campo (SILVA, 2013).
Visando a otimização do campo, várias são as possibilidades de técnicas para a
aplicação em campos petrolíferos. Algoritmos convolutivos, Q-Learning, Lógica Fuzzy e
Deep Learning são exemplos de possíveis técnicas com ampla aplicabilidade nesta área.
Vista a necessidade de evolução e maximização de lucros na indústria, este trabalho
sugere o uso de ferramentas associadas como uma alternativa para o desenvolvimento de
um campo petrolífero submetido ao método de recuperação injeção de água, utilizando
a ferramenta Double Deep Q-Network treinada utilizando o método de Aprendizagem
por Reforço (AR). As ações passam por fechar ou reduzir a vazão da injeção de água
anteriormente administrada no poço injetor de um campo de petróleo. Utilizamos o
simulador matemático STARS (Steam Thermal and Advanced Process Reservoir Simulator)
versão 2016 da empresa Computer Modelling Group (CMG) para simular dados que se
aproximam dos reais. Aplicar as ações acima citadas visam maximizar a recompensa num
intervalo de tempo com a finalidade de maximizar o VPL (Valor Presente Líquido) numa
produção de 20 anos (240 meses).
1.2 Objetivos
1.2.1 Objetivos Gerais
Propor uma alternativa de sistema inteligente baseado no Double Deep Q-Network
numa abordagem de Aprendizado por Reforço como uma alternativa de otimização para
campos de petróleo que sejam submetidos ao método de recuperação avançado Injeção de
Água.
Capítulo 1. Introdução 18
1.2.2 Objetivos Específicos
• Promover a simulação de um reservatório com a finalidade de disponibilizar uma
alternativa de simulador numérico para reservatórios com características similares
aos do nordeste brasileiro.
• Desenvolver um algoritmo utilizando o método de Aprendizagem por Reforço associ-
ado ao Double Deep Q-Netwoork que automatize o desenvolvimento do campo de
petróleo submetido ao método Injeção de Água.
• Possibilitar a tomada de decisão a partir do algoritmo aqui estudado, possibilitando
melhores estratégias de controle analisando desde o início da produção até a sugestão
de fechamento do poço.
1.2.3 Organização do trabalho
Nesta sessão serão pontuados cada capítulo com suas informações básicas para a
estrutura deste trabalho.
Capítulo 1: No primeiro capitulo está a introdução com uma breve apresentação
dos conteúdos utilizados neste estudo, bem como os objetivos gerais e específicos e, por
fim, a organização detalhada do trabalho.
Capítulo 2: O segundo capítulo é de aspectos teóricos da engenharia de reserva-
tórios. Nele abordamos sobre os métodos de recuperação de um campo petrolífero, bem
como os esquemas de injeção, reaproveitamento de água produzida e, por fim, um pouco
sobre a simulação numérica de reservatórios.
Capítulo 3: Este capítulo foi escrito com a finalidade de embasar teóricamente
pontos específicos da Inteligência Artificial. Fez-se necessário abordar assuntos como Redes
Neurais Artificiais, Aprendizgem por reforço, Deep Learning, Deep Q-Network e Double
Deep Q-Network.
Capítulo4: No quarto capítulo, Estado da Arte, foi feito um apanhado geral
sobre trabalhos com temas similares. Trabalhos da área de Engenharia de reservatótios
que usam algum tipo de simulação numérica de reservatórios ou trabalhos da área de
Computação que usam técnicas usadas neste trabalho.
Capítulo 5: Quanto ao quinto capítulo, Metodologia e Proposta, desde as fer-
ramentas computacionais, modelos dos reservatórios, modelos de fluidos e as condições
operacionais utilizadas nas simulações. Foi passada a forma como o trabalho está sendo
feito, bem como a proposta deste sistema trabalho.
Capítulo 6: No sexto capítulo são apresentados os resultados do algoritmo baseado
em Double Deep-Q Network e são discutidos casos específicos am cada dimensão de malha
Capítulo 1. Introdução 19
aqui estudada.
Capítulo 7: Neste capítulo serão apresentadas as conclusões e possíveis trabalhos
futuros que podem seguir deste estudo.
20
2 Aspectos teóricos
2.1 Métodos de Recuperação
Os métodos de recuperação dos campos petrolíferos são quase tão antigos quanto a
exploração petrolífera e tem como objetivo obter uma melhor produção quando a energia
do poço já não é mais suficiente.
Hoje o mercado tem acesso a diversos métodos de recuperação. Recuperação
primária significa que os poços produzem com a energia do reservatorio. A escolha do
método a ser utilizado como método de recuperação avançada irá depender do tipo de óleo,
pressão, temperatura, profundidade, dentre tantos fatores que influenciam na produção do
petróleo.
Os métodos de recuperação avançada tem como objetivo aumentar a o fator de
recuperação do óleo no reservatório, o que só acontece quando se aumenta a eficiência do
varrido ou quando se melhora microscopicamente o deslocamento do óleo no reservatório. Os
métodos térmicos auxiliam na diminuição da viscosidade, enquanto os métodos quimicos
e miscíveis reduzem as tensões interfaciais e, em ambos os casos, há um aumento na
quantidade de óleo deslocado. Aumenta-se a eficiência volumétrica do varrido aumentando
a viscosidade do fluido deslocante (injeção de polímeros) ou reduzindo a do fluido deslocado
(injeção de vapor) (RODRIGUES, 2012)
2.1.1 Métodos de Recuperação Avançada
Segundo Bautista (2010) os métodos de recuperação avançada de óleo (Improved
Oil Recovery – IOR) a depender das condições do óleo e do reservatório, podem ser usados
desde o início da produção, sendo esses métodos divididos em:
• Métodos convencionais de recuperação de óleo: resultam do acréscimo da energia
natural por meio da injeção imiscível de gás e/ou injeção de água.
• Métodos especiais de recuperação de óleo (Enhanced Oil Recovery–EOR): re-
sultam da aplicação de processos menos convencionais, como métodos químicos como:
injeção de surfactantes e polímeros. Térmicos: injeção de vapor, injeção cíclica de vapor e
combustão in-situ. Miscíveis dióxido de carbono e nitrogênio. Maiores detalhes na Figura
1.
Capítulo 2. Aspectos teóricos 21
Figura 1 – Classificação dos Métodos de Recuperação Avançados de Petróleo.Fonte: Própria
autora
2.1.1.1 Injeção de água
Nos métodos convencionais de recuperação de um campo de petróleo, a injeção de
água tem como objetivo deslocar o óleo residual em direção ao poço produtor aumentando
sua produtividade.
A injeção de água é um método amplamente usado pelo seu baixo custo, fácil
manuseio e abundância.
2.1.2 Esquemas de injeção
A depender das condições do óleo e daa geometria, inclinação do reservatório, se
define o esquema de injeção.
Cada projeto é exclusivo, mas exitem pontos comuns como, por exemplo, existirem
poços produtoes e poços injetores. (QUEIROZ, 2005)
Encontrar o melhor esquema de injeção é necessário afim de otimizar a produção,
ou seja, ter uma maior produção com um menor custo.
Os principais tipos de injeção de água são: Injeção periférica, Injeção na base e no
topo e Injeção em malhas.
2.1.2.1 Injeção periférica
A Injeção Periférica ocorre quando os poços injetores são localizados na parte
externa do reservaório, injetam o fluido abaixo do contato entre óleo e água, ao redor dos
Capítulo 2. Aspectos teóricos 22
poços produtores que ficam no meio do reservatório.Na figura 2 temos ilustrações desse
tipo de injeção.
Figura 2 – Injeção Periférica
Fonte: Rosa et al, 2006
Ambas as ilustrações mostram os poços externos, que são injetores, injetam água na
periferia da rocha-reservatório na altura do reservatório de água, abaixo do reservatório de
óleo, impulsionando a água para os poços produtores que se situam mais ao topo e centro
do reservatório. A diferença entre imagens se dá apenas por visões de angulos distintos.
2.1.2.2 Injeção na base e no topo
As injeções na base e no topo ocorrem em reservatórios com certa inclinação. Dada
a inclinação, o local onde estão situados os poços injetores são fundamentais na diferença
entre elas(ROSA; CARVALHO; XAVIER, 2006).
Injeção na Base:
A especificidade necessária para a injeção na base é a necessidade de o poço injetor
estar alcançando locais mais profundos que os poços produtores.
Neste caso o líquido é injetado diretamente na água do reservatório empurrando o
óleo de baixo para cima, em direção aos poços produtores, aumentando assim a produção
do petróleo.
Injeção no topo:
Neste caso os poços injetores são mais rasos que os poços produtores.
Capítulo 2. Aspectos teóricos 23
Perceba que os poços injetores chegam a capa de gás, e, neste caso, o óleo é
empurrado para baixo afim de chegar aos poços produtores, por estes motivos há a de
injeção de um gás, aproveitando-se ainda da forma natural do reservatório.
Na figura 3 seguem os dois esquemas (base e topo):
Figura 3 – fonte: (ROSA; CARVALHO; XAVIER, 2006)
2.1.2.3 Injeção em malhas
Segundo (SILVA, 2017) o termo injeção de malhas se aplica ao agrupamento de
poços injetores e produtores de modo que seja mais eficiente a produção do campo. Várias
são as possibilidades de malhas. Neste trabalho são usados apenas em quatro tipos: Five
Spot normal, Five Spot invertido, Five Spot Invertido Cruz e Nine Spot invertido.
As malhas do tipo Spot Normal são caracterizadas por um poço produtor circun-
dado por poços injetores, enquanto malhas do tipo Spot Invertido tem como principal
característica um poço injetor cercado por poços produtores.
• Five Spot Normal: São cinco poços, onde um é o produtor e quatro são injetores.
O poço produtor se situa no meio dos poços injetores. A figura 4 traz a representação
de uma malha com o esquema Five Spot Normal.
• Nine spot normal: No modelo de malha nine spot normal há nove poços, onde
oito poços injetores cercam o poço produtor. Na figura 5 temos uma representação
da malha nine spot normal.
• Five Spot invertido: Neste modelo, assim como no anterior, são cinco poços com
um poco injetor central cercado por quatro poços produtores. Na figura 6 uma
representação do modelo de malha Five Spot Invertido.
Capítulo 2. Aspectos teóricos 24
Figura 4 – Modelo de malha Five Spot Normal. Fonte: Própria autora.
• Nine Spot invertido: No modelo de malha nine spot normal são nove poços
envolvidos, onde oito poços produtores cercam o poço injetor. Na figura 7 temos
uma representação da malha nine spot invertido.
• Five Spot invertido cruz:
Este tipo de malha é similar ao five Spot invertido, diferindo apenas no posicionamento
dos poços. A figura 8 mostra uma visão de cima de um poço com esse posicionamento
e tipos de poços.
Capítulo 2. Aspectos teóricos 25
Figura 5 – Modelo de malha nine spot normal.Fonte: Própria autora
Figura 6 – Modelo de malha Five Spot invertido. Fonte: Própria autora
Figura 7 – Modelo de malha nine spot invertido. Fonte: Própria autora
Figura 8 – Modelo de malha Five Spot Invertido Cruz - Fonte:Própria autora
Capítulo 2. Aspectos teóricos 26
2.1.3 Água produzida
Algumas estratégias são eficazes no gerenciamento de água cuja finalidade seja
diminuir os custos e aumentar as receitas da produção de óleo. É possível exemplificar a
otimização anteriormente posta com o aumento do fator de recuperação doóleo do campo.
Para o aumento do fator de produção, são importantes pontos dos aspectos econômicos no
gerenciamento da água produzida. Deste modo, existem diversas metodologias e parâmetros
a ser utilizados com a finalidade de avaliar economicamente estratégias de desenvolvimento
e gerenciamento dos reservatórios e sua água que, com uma maior frequência ocorre pela
avaliação do Valor Presente Líquido (VPL) que consiste no controle do fluxo de caixa.
O objetivo da análise é maximizar a receita tendo em vista a venda do óleo e todos os
detalhes envolvidos no processo.
2.1.3.1 Reinjeção da água produzida
(MAZO et al., 2013) pontua que nos últimos anos a indústria de exploração e
produção de petróleo e gás tem adotado cuidados maiores com o meio ambiente visando
reduzir ao máximo os impactos ambientais produzido por seus trabalhos. Sendo assim, a
reinjeção de água produzida tem ganho cada vez mais o papel principal nesta indústria,
uma vez que, este método reduz o impacto ambiental no meio superficial por diminuir
consideravelmente o desperdício de recursos.
Existem alguns benefícios diretos com a reinjeção de água produzida. (FURTADO
et al., 2005) lista dois deles:
1. Os custos para o uso na reinjeção de água produzida pode ser menor que no caso do
tratamento para descarte.
2. Pode haver uma redução na viscosidade do óleo causando num aumento na injetivi-
dade do poço devido a alta temperatura da água reinjetada.
Além da injeção de água produzida ainda existe a possibilidade de injeção de água
extrarreservatório, que deve ser administrada com bastante cautela devido a possibilidade
da presença de agentes contaminantes externos. Injetar água de rios (campos terrestres)
ou do mar (campos marítimos) pode conter partículas sólidas ou líquidas devem ser
consideradas na modelagem da injetividade quanto o dano de formação.
2.1.3.2 Descarte
As diretrizes para o descarte da água produzida são estabelecidas pela resolução
CONAMA n° 393/2007 (BRASIL, 2007), que indica que a água produzida poderá ser
lançada no mar desde que atenda a concentração média aritmética simples mensal de
Capítulo 2. Aspectos teóricos 27
óleos e graxas de até 29 mg.L-1 , com um valor máximo diário de 42 mg.L-1, medido por
gravimetria.
(THOMAS, 2001) ainda fala que o descarte de água produzida no mar tem sido
objeto de estudo. Alguns resultados revelam que não há grandes danos sensíveis ao meio
marinho desde que o sistema de descarte seja construído de modo a proporcionar grande
diluição do efluente.
2.2 Simulação numérica de reservatórios e seus fundamentos
A decisão para a explotação de um campo petrolífero requer responder uma série
de questionamentos e comparar diferentes possibilidades, como por exemplo:
• Quantos poços?
• Onde fica o melhor lugar pra furar?
• Qual tipo de poço?
• Qual método de recuperação usar?
• Qual a melhor vazão?
• Qual a recuperação final?
• Como ficará o fluxo de caixa?
uma das formas de se responder tantas perguntas é simular o comportamento do
re-servatório dadas diferentes estratégias. Normalmente a melhor estratégia é aquela que
maximiza os lucros.
Nesta seção daremos uma breve introdução sobre conceitos básicos da simulação
numérica de reservatórios e o que seu estudo pode otimizar na produção de um campo
petrolífero.
2.2.1 Simulação numérica de reservatórios
Desde a década de 1960 há o uso constante do termo Simulação Numérica de
Reservatórios vem sendo utilizado na indústria petrolífera como uma alternativa para a
otimização dos campos devido aos avanços computacionais na área(TERRY; ROGERS;
CRAFT, 2015).
Qualquer decisão importante sobre a estratégia de explotação de um campo passa
pela simulação numérica de reservatórios e o acerto nessas decisões comprometem milhões
ou até bilhões de dólares.
Capítulo 2. Aspectos teóricos 28
A simulação de reservatórios nos permite reproduzir/prever, com certa precisão, o
comportamento de reservatórios de petróleo a ser submetidos a diferentes estratégias de
produção. Para simular numericamente reservatórios é necessário levar em consideração
fatores como: geometria externa, distribuição espacial de propriedades, falhas (localização,
rejeito, transmissibilidades), posição dos contatos água-óleo e gás-óleo, saturações residuais
de água e óleo, compressibilidade, viscosidade, permeabilidade relativa e, ainda, preço do
petróleo (SANTOS, 2019).
Na figura 9 um esquema generalista da simulação numérica de reservatórios. A
entrada de dados com características fisicas do reservatório, tais como, dados do fluido,
dados do reservatório, dados do óleo, dados da geologia, dentre outros. O modelo mate-
mático ainda é alimentado por dados de outra natureza, as estratégias de produção, que
são: número de poços, locais dos poços, método de recuperação a ser aplicado, tempo de
aplicação, etc. Essa união de informações acerca do reservatório é passada num "filtro", o
algoritmo, que é o modelo matemático responsável por compilar as informações e gerar
um retorno com previsões de produção e estimação de valores arrecadados, para assim
haver a tomada de decisão quanto a qual a melhor estratégia a ser utilizada.
Figura 9 – Esquema generalista da simulação numérica de reservatórios. Fonte: Própria
autora
Segundo (SILVA, 2013) verifica-se o desempenho do reservatório com dados do
comportamento já visualizados nele. Quando o método consegue modelar bem o passado
se pode acreditar em uma boa previsão para o futuro do reservatório.
29
3 Aprendizado por Reforço Profundo (Deep
Reinforcement Learning)
Neste capítulo, será descrito alguns trabalhos relacionados ao estudo que abordam a
utilização de Deep Reinforcement Learning, que é, de modo geral, uma abordagem conjunta
de Deep Learning e o algorítmo Q-learning. Apresentaremos aqui a fundamentação teórica
básica do método de inteligência artificial usada neste trabalho, bem como todas as
ferramentas computacionais usadas para chegarmos ao alvo deste estudo, os quais são: O
Processo de Decisão de Markov, o Reinforcement Learning (RL), Deep Learning e, por
fim, o Deep Reinforcement Learning, mais especificamente o Double Deep Q-Learning.
3.1 Redes Neurais Artificiais
São estratégias matemáticas capazes de gerar funções mais complexas a partir de
funções mais simples. O objetivo é adaptar essas funções até que a saída da rede seja a
melhor possível.
O processo de aprendizagem de máquinas ocorre basicamente com um conjunto de
treinamento. O algoritmo, com um conjunto de dados prévio, “aprende” a saída e, quando
exposto a situações diferentes do seu conjunto de treinamento, calcula probabilidades para
expor o resultado baseado na maior chance de acerto (OLIVEIRA, 2021). Comumente
classificamos o aprendizado de máquinas em três possíveis distintos:
• Supervisionado: Existe um agente (humano) que conhece a saída desejada e aperfeiçoa
o algoritmo para obter o resultado desejado.
• Não-supervisionado: Sem a figura do agente, o objetivo é explorar um conjunto de
dados sem que haja referência para a saída.
• Aprendizado por reforço: Deseja-se estabelecer um conjunto de regras (políticas) com
o objetivo de maximizar o reforço. Este método será melhor explorado em seguida
por ser um dos objetos principais deste estudo.
Os elementos básicos de um neurônio artificial são:
• Entradas: As entradas são informações iniciais ou as informações fornecidas em no
início da rede neural.
• Pesos: Os pesos, ou ainda pesos Sinapticos ponderam cada informação inicial quanto
a sua importância ou força.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 30
• Somador: O somador faz a união de todas as informações já ponderadas. Age como
um combinador linear.
• Função de ativação: A função de ativação restringe a amplitude da saída do neurônio.
Essas funções tem, normalmente, como imagem o conjunto fechado [0; 1] ou, alterna-
tivamente, [−1; 1]. Ela pode ser vista como uma função restritiva que transforma
qualquer valor de saída num número real de baixo valor.
As funções de ativação mais usadas atualmentesão:
1. Função Degrau:
F (x) =
0; sex > a
1; c.c.
(3.1)
Na figura 10 uma representação gráfica da função degrau com a = 0.
Figura 10 – Representação gráfica de uma função degrau. Fonte: Própria autora
2. Função Sigmóide:
F (x) = 11 + e−kx (3.2)
para todo x ∈ R
Na figura 11 uma representação gráfica da função Sigmóide com k=1.
Figura 11 – Representação gráfica da Função Sigmóide. Fonte: Própria autora
3. Função Tangente Hiperbólica: A função Tangente Hiperbólica:
F (x) = e
x − e−x
ex + e−x (3.3)
Na figura 12 uma representação gráfica da função Tangente Hiperbólica.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 31
Figura 12 – Representação gráfica de uma função Tangente Sigmóide. Fonte: Própria
autora
4. Função ReLU: A função Unidade Linear Retificada, ou ReLU, é uma função de
ativação amplamente usada nas redes neurais multiplas camadas. Tendo sua lei
de formação definida por:
f(x) = max(0;x) (3.4)
esta função só irá ativar os neurônios quando o valor de x for positivo. Caso
contrário, a função assume zero. Na figura 13 a representação gráfica da função
ReLU.
Figura 13 – Representação gráfica da função ReLU. Fonte: Própria autora
3.1.1 Redes Multilayer Perceptron
As redes Multilayer Perceptron (MLP) são redes neurais com diversas camadas
de neurônios escondidas. Há a camada de entrada (recebimento da informação), algumas
camadas de processamento da informação e, por fim, a camada de saída do sinal. As
camadas de neurônios recebem informações simultâneas e os neurônios as processam ao
mesmo tempo. (HAYKIN, 2007) explica que o processador da MLP é o neurônio artificial
e que cada camada possui um número de nós igual a quantidade de neurônios de entrada
na rede.
O funcionamento da rede passa pelo funcionamento de cada neurônio. Pode-se
ainda colocar um viés (bias) somado a função de ativação em algum neurônio com a
finalidade de ajudar no treinamento da RNA, tornando a saída do neurônio não-nula.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 32
As redes neurais artificiais funcionam a partir de treinamento vindo de experiências
dos estados anteriores e, deste modo ela consegue fazer generalizações ou até aprendem
padrões (HAYKIN, 2007).
Existem três tipos de treinamento: Supervisionado, semi-supervisionado e auto-
supervisionado. No supervisionado há um direcionamento inicial quanto a informações de
entrada e expectativa de saída. Com isto é possível fazer a correção da função de ativação
ou até a implementação do viés. No auto-supervisionado a rede classifica os dados de
entrada de forma autônoma através do reconhecimento de padrões. Isso se dá através do
processo de competição e cooperação entre os neurônios. O semi-supervisionado é um
modelo intermediário entre o supervisionado e o auto-supervisionado.
3.1.2 Arquitetura das Redes Neurais Artificiais
São vários tipos distintos de redes neurais artificiais. Elas podem ter apenas duas
camadas de neurônios (figura 14), ou várias camadas (figura 15). Segundo (HAYKIN,
2007), a forma como ela está organizada tem uma relação direta com o algorítmo de
aprendizagem utilizado para treinar a rede. Aqui identificamos dois diferentes tipos de
redes, as quais são:
1. Rede Perceptron: As redes perceptron são aquelas com apenas uma camadas de
neurônios. Uma camada de neurônios de entrada e outra camada de neurônios de
saída.
Figura 14 – Rede com apenas 1 camada de neurônios, uma rede rasa com 4 unidades de
ativação. Fonte: Própria autora
2. Rede de múltiplas camadas: Nas redes neurais com múltiplas camadas, além das
camadas de entrada e de saída há uma ou mais camadas ocultas. Na figura 15 se
tem a representação de uma rede neural de múltiplas camadas (3).
3.2 Processo de Decisão de Markov
Processo de Decisão de Markov (Do inglês Markov Decision Process, MDP), são
chamados de Markov porque os processos modelados obedecem à propriedade de Markov,
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 33
Figura 15 – Rede neural com múltiplas camadas: três camadas ocultas.Fonte: Própria
autora
onde o estado atual depende apenas de um número fixo finito de estados anteriores, e o
tipo de MDP mais simples é o de primeira ordem, em que o estado atual depende apenas
do estado anterior e não de todos os estados anteriores e são chamados de processos
de decisão porque modelam a possibilidade de um agente interferir periodicamente no
sistema executando ações, diferentemente de Cadeias de Markov, onde não se trata de
como interferir no processo.
Este processo é uma formalização da tomada de decisões para um ambiente es-
tocástico totalmente observável com um modelo de transição de Markov e recompensas.
Neste processo, as ações influenciam não apenas as recompensas imediatas, como também
os estados seguintes e as recompensas futuras. MDPs representam o modelo do mundo
através de estados, ações, modelo de transição e recompensas.
Segundo (PELLEGRINI; WAINER, 2007), o Processo de Decisão de Markov é
descrito por um conjunto de ações denominado por uma tupla (S,A,T,R), onde cada letra
determina uma ação e pode-se descrevê-las por:
S: Um conjunto de estados onde o processo poderá estar;
A: Um conjunto de ações a ser executadas em diferentes estados do processo;
T:Uma função de probabilidade de o sistema passar do estado si para o estado
si+1, e o agente executou a ação a sendo si e si+1 elementos de S. Pode-se escrever
matematicamente tal função por:
T : SXAXS− > [0; 1]
T (si|si+1, a) = k
Onde k é um número real no intervalo [0; 1].
R: Função que dá a recompensa ou custo pela tomada de decisão a ∈ A, quando o
processo está no passo si ∈ S.
Para cada estado si são possíveis i ações denotadas por ai com ai ∈ A e i ∈ IN ,
sendo as ações e os estados em quantidade finita ou não.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 34
3.3 Aprendizado por Reforço (Reinforcement Learning)
Reinforcement Learning (RL) é uma das grandes áreas do Aprendizado de Máquina,
onde são estudados algoritmos que descrevem o comportamento de agentes em um ambiente,
buscando a maior recompensa por suas ações.
Pode-se resumir o método de RL como um agente que mapeia estados e ações de
modo que o retorno total seja maximizado. O objetivo é determinar um conjunto de regras
de políticas de controle que otimizem o desempenho. O RL é uma ferramenta de decisão
baseada na interação de um agente com o ambiente, adequada a estes tipos de problemas
e dando recompensas diretamente proporcionais ao sucesso de cada passo.
Segundo (LINS, 2020), junto ao agente e ao ambiente, o sistema de aprendizado
por reforço tem quatro principais elementos: política, sinal de reforço, função de valor e
um modelo do ambiente. O agente observa o estado si e a cada passo no sistema em que
ações são tomadas um sinal de reforço ri é fornecido ao agente. O objetivo do agente é
aprender uma política ótima que maximize o retorno esperado. O grande desafio é aprender
a mapear os estados em ações por tentativa e erro.
A estratégia que define o comportamento do agente a cada decisão é chamado de
política π e ocorre através dos retornos de estados e ações a serem tomadas. Uma política
é uma série de regras de decisão π = (d1, d2, ..., dn−1) sendo cada decisão uma função de
S− > A que é uma ação tomada dado o estado anterior (PUTERMAN, 2014).
De acordo com (OLIVEIRA, 2021) existem diversas formas de classificação das
políticas:
• Total: A cada estado existe uma regra de decisão associada;
• Parcial: Existem pontos de decisão, ou seja, não são todos os estados com regras de
decisão associada. Outra forma de classificá-las é em relação as épocas ou instantes
de decisão;
• Estacionária: A regra de decisão não depende do instante de decisão, se dt(s) =
d(s) ∗ t ∈ T . Também pode ser definida como π(s);
• Não-Estacionária: A regra de decisão ocorre de acordo com o instante de decisão,
dt(s). Pode ser quanto a ação que será tomada;
• Determinística: A cada estado apenas uma ação pode sertomada, dt : SA;
• Não-Determinística (estocástica ou random): A probabilidade de escolha é associada
a cada ação. Definindo a regra de ação por dt : Sρ(A(s)), sendo ρ uma função de
probabilidade.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 35
• Markoviana: Observando o estado atual se toma a ação;
• Não-Markoviana: A ação a ser escolhida será dependente das ações tomadas ao longo
do processo.
O Problema do RL é formalizado matematicamente por um Processo de Decisão
de Markov apenas com o detalhe do reforço a cada novo ciclo. A seguir vemos a ilustração
do Aprendizado por Reforço (Figura 16):
Figura 16 – Interação Agente/Ambiente (SUTTON; BARTO, 2018)
• ai é a i-ésima ação;
• si é o i-ésimo estado;
• si+1 é a ação no estado i+1;
• ri é a i-ésima recompensa;
• ri+1 é a recompensa para o estado i+1;
A estrutura básica da RL tem um agente que toma uma ação ai. Cada ação tem
influência no estado futuro si+1 do agente. O sucesso da ação é medido pela recompensa
ri atribuída a ela. A busca do sistema é chegar ao max(ri) com a menor quantidade de
ações possível.
3.3.1 Função Valor
(LINS, 2020) define a Função Valor como sendo uma estimativa baseada no retorno
acumulado esperado que associa um valor a um estado ou par de estado-ação. A função
de valor reflete a qualidade do agente realizar uma ação em um estado ou de estar em um
estado associado ao retorno esperado. Quando apenas o estado é levado em consideração,
chama-se a função valor de função valor-estado V (s), onde o conjunto domínio dessa
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 36
função é apenas S, por outro lado, no caso em que a ação também é considerada, a função
valor é denominada de função valor estado-ação Q(s, a) (função-Q) que tem a dupla SXA
em seu domínio.
No MDP, a política, chamada de π tem uma função valor associada a sua política
para cada estado definida pela função 3.5:
V π(s) = Eπ[ri|si = Eπ
∑
k
ykri+k+1|si = s] (3.5)
com k ∈ N .A função que maximiza V π é a chamada "ótima"para maximizar o
sistema.
A política π é classificada como total e consiste numa função de comportamento
que seleciona ações a cada estado.
ai = π(si−1) (3.6)
Ou seja, a i-ésima ação será fruto do comportamento da política no estado anterior.
A função Valor estado-ação é similar a do estado, a diferença está em ser uma
função da dupla estado e ação.
Qπ(s; a) = Eπ[Ri|si; ai = Eπ
∑
k
ykri+k+1|si = s; ai = a] (3.7)
Função de valor ótima Q′(s, a) pode ser estimada por:
Q′(s, a) = Es′ [r + γmaxQi(s′; a′)|s, a] (3.8)
Em RL o objetivo é treinar a rede neural para encontrar a política ideal π∗ que
maximiza o reforço, como ainda encontrar a função Q′(s; a) máxima alcançada por qualquer
política.
3.3.2 Algorítmo Q-Learning
O algoritmo de Aprendizado Por Reforço Q-learning busca encontrar a melhor
ação a ser tomada, dado o estado atual. Este algoritmo busca maximizar a recompensa
total. (WATKINS; DAYAN, 1992) afirma ser o algorítmo mais usado na aprendizagem
por reforço. Um método considerado off-policy por ter uma função (Q) que aprende com
ações que de fora da política atual, como executar ações aleatórias e, deste modo, chega
ao objetivo de recompensa máxima.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 37
(SANTOS, 2019) afirma neste método não há dependência entre a convergência
para valores ótimos de Q e a política que está sendo utilizada. A função-valor Q se aproxima
da Q∗ ótima por meio de atualizações da dupla estado-ação a cada vez em que ambos são
visitados, ou seja, a cada passo do algoritmo há uma melhora na função-valor e chega a
uma maior recompensa.
A expressão dos Q-valores no algoritmo Q-Learning, baseia-se na função ação-valor
a partir da Equação (3.1):
Qi+i(si; ai) = Qi(si; ai) + α[r + γmaxaQi(si+1; ai)−Qi(si; ai)] (3.9)
Onde:
• si é o estado atual:
• ai é a ação realizada no estado si;
• Qi(si, ai) é o valor atribuído a ação ai no estado si e representa o valor associado
dessa ação na maximização da função retorno acumulado;
• ré o reforço recebido;
• maxaQi(si+1; ai) é o maior valor de reforço Q aplicada uma ação a no estado futuro;
• α é a taxa de aprendizado tendo como função controlar a velocidade das atualizações
(pode assumir qualquer valor entre 0 e 1)
• γ é um fator de desconto e sua função é controlar a influência futura sobre a
recompensa imediata no instante atual. 0 ≥ γ ≥ 1. O valor assumido por γ depende
do quanto se quer considerar as recompensas futuras. O γ assume 1 quando há muita
força na recompensa futura. Quando γ assume um número entre 0 e 1, limita-se a
influência dessas recompensas. Quanto mais próximo a 1 maior a influência do γ. Se
gamma = 0, a recompensa imediata é maximizada.
Q-learning converge com a probabilidade 1, com o treinamento adequado, para
uma função de valor da ação de uma política de destino arbitrária. O Q-Learning pode
aprender a política ideal, mesmo quando as ações ocorrem de acordo com uma política
mais exploratória ou até aleatória.
3.3.3 Deep Learning
Redes neurais são organizações de neurônios artificiais onde cada célula realiza
cálculos simples e estabelecem uma relação com outros neurônios. Neste contexto, há
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 38
diversas possibilidades de organização das redes. Há redes com uma única camada e
outras com diversas camadas. As redes Deep Learning (DL) se diferenciam das outras pela
quantidade de camadas de processamento.
A figura 17 mostra um problema de classificação. Existem, neste caso, três possíveis
classificações para a imagem. A rede, para fazer a classificação, necessita de treinamento
com informações de todas as possiveis saídas (carro, pessoa ou animal). Cada camada da
rede é responsável por uma característica e, ao final da passagem das informaçoes por
todas as camadas, o algorítmo classifica da forma onde a probabilidade de acerto é maior.
Figura 17 – Aprendizagem profunda aplicada a um problema de classificação. (GOOD-
FELLOW et al., 2016)
As redes DL são redes neurais multicamadas de aprendizado profundo capazes de
processar grandes quantidades de dados através de um complexo algorítmo multicamadas.
De modo geral, se trata de grupos de neurônios onde cada camada é encarregada de verificar
uma informação específica (GOODFELLOW et al., 2016). Por exemplo, queremos de
algoritmos capazes de entender imagens naturais, formas de onda de áudio que representem
sons e documentos contendo várias palavras e/ou caracteres.
O processo de aprendizado ocorre com maior frequência utilizando métodos envol-
vendo gradientes do erro relacionados aos pesos. Deste modo é possível otimizar os pesos
de modo a obter a minimização do erro.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 39
3.3.4 Deep Reinforcement Learning
"A combinação deep learning e aprendizado por reforço devem criar uma nova
geração de máquinas capazes de aprender não apenas o que é ensinado, mas também por
conta pr´opria, característica inerente a todo ser vivo."(LECUN; BENGIO; HINTON,
2015)
DRL consiste numa união entre uma rede de aprendizado profundo que se utiliza o
método do aprendizagem por reforço. Consiste numa rede multicamadas, cada camada
responsável por uma característica, usando uma técnica que tem como objetivo treinar um
agente a interagir em um ambiente por meio de ações, recebendo recompensas ou punições
para atingir o objetivo de finalizar o processo maximizando a recompensa.
A seguir abordaremos Deep Learning baseado no aprendizado por reforço, mais
comumente chamado de Deep Q-Network, afunilando em das suas variantes mais comuns,
chamada de Double Deep Q-Network (DDQN).
3.3.4.1 Deep Q-Network
Quando o número de estados é muito grande, uma alternativa é a técnica Deep
Q-Network (DQN), que consiste em combinar Deep Learning e Q-Learning. O que faremos
é a substituição da tabela de valores Q por uma rede Deep Learning que aproxime os
valores de Q.
No DQN , o estadoatual Si é a entrada da rede neural, enquanto a saída é uma
função de estado e ação Q(s; a) mapeando todas as ações possíveis. Deste modo, a rede
DQN implementa a função Q, obtém o argmax e seleciona a ação com maior resposta da
Q minimizando o erro.
DQN usa a técnica de repetição por experiência. Esta técnica requisita o armazena-
mento de cada etapa do episódio que é vista na cadeia SARS. No decorrer do Q-learning,
retira-se um mini lote aleatório da memória e é feita uma atualização com base neste. A
amostra desse pequeno lote é devolvida a memória de repetição . Esta interação acaba por
remover a correlação em sequencias de observação e impulsiona bem o Q-learning.
Porém, redes neurais baseadas em DQN podem apresentar alguns tipos de problemas
e um deles ocorre, segundo (HASSELT; GUEZ; SILVER, 2016), o DQN supervaloriza
estados, ou seja, tendo o algoritmo chegado a ação com maior valor de Q, num dado estado
S, é provável que ele seja acima do real.
Uma possível solução para este tipo de problema é utilizar uma outra rede neural,
como uma auxiliar da primeira. Tal ANN é abordada em 3.3.4.2.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 40
3.3.4.2 Double Deep Q-Network
O operador Double Q-learning usa os mesmos valores em duas redes neurais
colaborativas para selecionar e avaliar uma ação com a finalidade de estimar o melhor
valor de Q, o que torna mais provável a melhor seleção de valores, estimando valores
superotimistas (HASSELT; GUEZ; SILVER, 2016). A figura 18 mostra a ideia básica do
DDQL.
Figura 18 – Fonte: própria autora
A dupla de redes neurais funciona de modo que, são cópias uma da outra, sendo
denominadas de modos distintos e com funções também diferentes. A primeira rede,
denominada rede principal(1) , enquanto a segunda rede é chamada rede alvo(2). A
rede alvo age em função da rede principal, de modo que, a rede (1) segue seu ritmo, enquanto
a rede (2) guarda os melhores resultados da principal. Em tempos pré-estabelecidos, a
rede alvo é atualizada, usando apenas os melhores resultados da rede principal. Nesta
atualização, a rede principal faz cópia dos pesos da rede alvo e segue estimando seus
melhores valores.
O DDQN remove o viés (bias) ocasionado pelo maxQ(s, a, w). O uso de cada rede
Q propicia finalidades distintas. A rede Q atual tem w (retorno atual) que é usada para
selecionar ações, enquanto a rede Q com w- (retorno anterior) é usada para avaliar ações
já tomadas em estados anteriores , uma vez que, se a ação foi assertiva para o problema
da rede, w- foi alto, caso não tenha sido, o retorno foi baixo.
Capítulo 3. Aprendizado por Reforço Profundo (Deep Reinforcement Learning) 41
Segundo (QIN; TANG; YE, 2019) valores ótimos de Q devem seguir a equação de
Bellman descrita logo a segiur:
Q ∗ (s, a) = Es′r + γmaxa′Q(s′, a′) ∗ |s, a (3.10)
Tratando r + γmaxa′Q(s′, a′, w) como objetivo principal, onde o que se quer é
minimizar a perda pelo gradiente descendente estocástico do Erro Quadrático Médio
abaixo:
I = r + γmaxa′Q(s′, a′, w−)−Q(s, a, w)2 (3.11)
O que é bastante bem-sucedido se tratando de Q-learning, porém é possível que
hajam problemas quando se usa redes neurais devido a uma possível alta correlação entre
exemplos e a alvos não-estacionários. Para resolver estes problema, (QIN; TANG; YE,
2019) sugere que sejam feitas algumas alterações:
• A remoção de correlações ocorre com a construção de um conjunto de dados a partir
da própia experiência do agente e o aplica-se o EMQ.
• Quanto a não-estacionaridade, basta fixar w-.
42
4 ESTADO DA ARTE
Neste capítulo, será descrito alguns trabalhos de pesquisadores relacionados ao
estudo da técnica de Aprendizagem por Reforço com a utilização do algoritmo Q-Learning
em conjunto com outros métodos de aprendizagem que são impulsionados por avanços
recentes.
4.1 Estado da Arte
(JÚNIOR, 2009) propõe o uso de uma técnica de Aprendizagem por Reforço -
especificamente o algoritmo Q-Learning como uma estratégia de exploração/explotação
para metaheurísticas GRASP e algoritmo Genético. No algoritmo Genético, o algoritmo
Q-Learning foi usado para gerar uma população inicial de alta aptidão, e após um
determinado número de gerações, caso a taxa de diversidade da população seja menor
do que um determinado limite L, ele é também utilizado em uma forma alternativa de
operador de cruzamento. Ambos os algoritmos foram aplicados com sucesso ao problema
do caixeiro viajante simétrico, que por sua vez, foi modelado como um processo de decisão
de Markov.
(OLIVEIRA, 2010) propõe o estudo preliminar de um sistema inteligente de auxílio
às tomadas de decisões, submetido ao processo de injeção de vapor cíclica e contínua, no
que diz respeito à otimização do desenvolvimento da produção de petróleo fornecendo a
maximização do VPL ao longo do tempo. O sistema foi implementado com o algoritmo
Q-Learning do método de aprendizado por reforço. Cada alternativa referiu-se a injetar
ou não injetar vapor de forma cíclica ou contínua no campo de produção. O resultado
alcançado foi que a injeção de vapor cíclica obteve os melhores resultados do VPL e em
menos tempo em comparação a injeção de vapor contínua.
(NAIR et al., 2015) propôs a utilização do Q-Learning em conjunto com uma
rede neural convolucional profunda (DCNN) realizando a atualização dos pesos sinápticos
a partir de mini lotes. Com essa proposta, o algoritmo foi capaz de aprender a jogar
diferentes jogos de Atari 2600 diretamente a partir de dados brutos (pixels). O agente
interage com o ambiente (imagens representativas de partes do problema) e toma decisões
(ações em um jostick), sem nenhum conhecimento prévio do problema. As Conv-Nets,
como também podem ser chamadas as redes DCNN, foram utilizadas para receber como
entrada os estados do problema, reduzindo sua dimensionalidade, tornando esta abordagem
um problema de aprendizagem tratável. O algoritmo foi denotado como Deep Q-Network
(DQN) dando origem ao termo aprendizagem por reforço profunda (DRL) .
Capítulo 4. ESTADO DA ARTE 43
(SILVA, 2017), desenvolveu um trabalho que oferece uma possibilidade de fer-
ramenta que dá suporte a decisão e automatiza a busca de opções cuja finalidade é
desenvolver campos de petróleo submetidos ao processo de recuperação injeção de água. O
algoritmo proposto traz a implementação de um sistema otimizador multiobjetivo que se
baseia no algoritmo genético NSGA-II (Non-Dominated Sorting Genetic Algorithm). Seu
objetivo foi analisar configurações que produzam maior VPL (Valor Presente Líquido) a
longo prazo e obteve resultados bastante satisfatórios.
(COSTA, 2017) propôs a utilização de uma técnica de clusterização na tentativa
de gerar agrupamentos melhores e paralelizou o problema. Neste trabalho os grupos de
nós foram separados pelo método k-means a partir de um critério de equilíbrio de carga,
estabelecido por um parâmetro τ usado para aumentar a eficiência do método proposto. Os
resultados mostram que a utilização do Q-Learning hierárquico paralelizado com equilíbrio
de carga pode ser uma opção viável na resolução de problemas reais de dimensões práticas.
(SANTOS, 2019) apresenta a implementação e a aplicação de um sistema inteligente
de apoio à decisão buscando alternativas para o desenvolvimento de um campo de petróleo,
submetido ao processo de injeção de água, utilizando Aprendizagem por Reforço (AR)
com base no algoritmo Q-Learning. O algoritmo consiste encontrar, em conjunto com
o simulador matemático STARS (Steam Thermal and Advanced Processes Reservoir
Simulator) da CMG (Computer Modelling Group), a política ótima (diminuir ou não
alterar a vazão de injeção de água inicial), em tempo hábil, que forneça como recompensa
o maior Valor Presente Líquido (VPL) em um horizonte de produção de 240 meses. Os
resultados mostram que a política ótima de injeção de água obtida usando a implementação
de AR possibilitou aumentos significativos no VPL e no Fator de Recuperação.
(LINS, 2020) Neste trabalho, o problema dos k-servos foi definido como uma tarefa
de aprendizagempor reforço profundo através do uso do algoritmo Q-Learning em conjunto
com uma rede neural de múltiplas camadas (MLP). A aplicabilidade do algoritmo proposto
foi ilustrada em um estudo de caso no qual diferentes configurações do problema foram
consideradas. O comportamento dos agentes foi analisado durante a fase de treinamento
e sua performance foi avaliada a partir de testes de desempenho que quantificaram a
qualidade das políticas de deslocamento dos servos geradas. Os resultados obtidos fornecem
uma visão promissora de sua utilização como solução alternativa ao problema dos k-servos.
O presente trabalho expõe um sistema de aprendizagem profunda com o algoritmo
double Deep Q-Network (algoritmo Q-Learning em conjunto com uma rede neural profunda)
com o objetivo de obter uma política (ótima) em um campo de petróleo submetido ao
processo de injeção de água de forma a alcançar recompensas melhores ao longo do tempo.
44
5 Metodologia
Neste capítulo é exposta a forma como este trabalho foi executado, incluindo os
softwares usados, os dados utilizados para tal execução e modelagem do reservatório alvo
do estudo, a características do fluido, ainda serão descritas as condições operacionais bem
como da rocha-reservatório, a formulação do problema exposto e estudado, a metodologia
e a análise do mesmo.
5.1 Ferramentas computacionais
Foram utilizadas algumas ferramentas computacionais para este estudo. Para o
trabaho aqui executado, necessitou-se utilizar ferramentas relacionadas a engenharia de
reservatórios quanto aquelas relacionadas a inteligência computacional e ainda de análise
de dados estatísticos.
5.1.1 STARS
O programa STARS foi desenvolvido pela empresa Computer Modelling Group
(CGM) utilizado na versão 2016. Foi utilizadol mais especificamente os módulos STARS,
RESULTS 3D e Graphs. Para a simulaçãos o processo de injeção de água utilizou-se o
STARS e um simulador trifásico de múltiplos componentes da CGM, este é numérico. Os
dados de entrada para este programa devem ter as seguintes informações:
• Configuração de malha;
• Propriedades físicas das rochas-reservatório;
• Propriedades dos fluidos;
• Condições de contorno (limites físicos do reservatório);
• Condições iniciais.
Além de algumas condições operacionais:
• Quantidade de poços;
• Método de recuperação avançado;
• Orientação do poço;
Capítulo 5. Metodologia 45
• Distribuição dos poços;
• geometria: raio;
• pressão max e min.
A compilação desses dados tem como saída, por exemplo, a produção de petróleo e
a vazão tanto de óleo quanto de água.
5.1.2 O Python
Python é uma linguagem direcionada ao objeto, de um tipo muito dinâmico e forte,
bastante interativa e interpretável. (BORGES, 2014)
A linguagem em Python tem sido amplamente usada na computação, principalmente
pela sua forma simples e pela capacidade de integração com outras linguagens.
A opção por usar esta linguagem se deu pela facilidade em formular o algorítmo e
ainda pelo fácil acesso a ele, além de ser uma das linguagens mais usadas atualmente.
Para a programação foi usado MacOS, como IDE o PyCharm, Python é a linguagem
e PyTorch como framework.
5.2 Modelos dos reservatórios
Para a execução deste trabalho o modelo-base usado foi o reservatório homogêneo,
semissintético, com características similares aos encontrados no nordeste brasileiro, com as
dimensões de 400mx400mx26m, sendo comprimento, largura e espessura respectivamente.
Nestes reservatórios o contato entre a água e o óleo acontece a 20m contando do topo do
reservatório. Quanto aos sistemas de injeção, estão sendo usadas três tipos distintos de
malhas:
• Nine Spot invertido;
• Five Spot Invertido;
• Five Spot Invertido cruz.
Os modelos aqui citados são descritos na subseção 2.1.2.3 deste trabalho, com
figuras representando a visão em duas dimensões do poço, enquanto nas figuras 19, 20 e
21 representando uma visão tridimensional do reservatório. Considerou-se ainda algumas
situações especiais nos reservatórios:
• Não existe fluxo de fluidos pelos limites dos reservatórios;
Capítulo 5. Metodologia 46
Figura 19 – Nine Spot invertido 3D. Fonte: (SANTOS, 2019)
Figura 20 – Five Spot invertido 3D. Fonte: (SANTOS, 2019)
Figura 21 – Five Spot invertido cruz 3D
Fonte: (SANTOS, 2019)
Capítulo 5. Metodologia 47
• Duas fases compõem o explorado: água e óleo;
• Não existem reações químicas que comprometam o estudo dentro do reservatório no
momento da exploração;
• Não há presença de corpos sólidos nos fluidos.
Foram considerados características similares as dos reservatórios encontrados no
nordeste brasileiro para caracterizar as rochas-reservatório deste estudo, com base em
estudos previamente realizados neste assunto. Tais características estão colocadas na tabela
1:
Tabela 1 – Propriedades da rocha-reservatório:
Propriedades da rocha-reservatório: n
Temperatura inicial (ºC) 64
Permeabilidade Horizontal, Kh (mD) 400
Permeabilidade Vertical, Kv (mD) 40
Porosidade (%) 23
Profundidade do reservatório – Topo (m) 687
Pressão de referência (pa) 1.462,16
Espessura da zona de óleo (m) 20
Espessura da zona de água (m) 6
Volume original do óleo (m3 std) 247.145
Volume original da água (m3 std) 180.840
Contato água-óleo – DWOC (m) 707
Condutividade térmica da rocha-reservatório (J/m-s-K) 1.7
Compressibilidade efetiva da rocha (kPa-1) 4.4x10−7
Fonte:(SILVA, 2017) modificado
Foram acrescentados gráficos com algumas curvas de permeabilidade relativa versus
saturação água-óleo na figura 22. É importante observar que para o reservatório saturado
com óleo e água, coexistem três fases no meio poroso.
Informações sobre o sistema gás-óleo também se fazem necessárias e estão expressas
na figura 23:
Foi utilizado o tratamento composicional que leva em consideração a pressão e
temperatura do reservatório, como ainda componentes em diversas fases presentes no meio
poroso.
Capítulo 5. Metodologia 48
Figura 22 – Curvas de permeabilidade relativa ao sistema água-óleo. Fonte: (SANTOS,
2019)
Figura 23 – Curvas de permeabilidade relativa ao sistema gás-óleo. Fonte: (SANTOS,
2019)
Capítulo 5. Metodologia 49
5.3 Modelo do Fluído e Condições Operacionais
Neste trabalho, o modelo do fluido usado foi o composicional realizado por Silva
(2014 Apud Silva, 2017).
A tabela 2, apresenta as composição do óleo, com os pseudocomponentes e suas
respectivas frações molares.
Tabela 2 – Composição do óleo
Pseudocomponentes Fração molar
N2 0,073
CH4 − C3H 0,45
IC4 −NC5 8,86
C6 − C9 34,03
C10 − C11 14,51
C12+ 40,07
Fonte:(SILVA, 2017) modificado
Além disso, no modelo de fluidos composicional observou-se que o componente
mais pesado foi o C12+ cuja fração molar é de 40,07%, massa específica e molecular,
respectivamente, de 0, 921g/cm3 e 687.
Ainda considera-se, para efeito de simulação do reservatório, um óleo médio com a
viscosidade de 17 cP, medido a 50°C com o API de 28,66.
5.4 Análise de Viabilidade Técnico-Econômica
Para análise técnico-econômica os custos considerados no projeto são mostrado na
tabela 3:
Os dados dos custos de elevação de fluidos e o de separação, transporte e tratamento
do óleo foram parcialmente obtidos de (SANTOS, 2019), salvo algumas atualizações de
valor.
Tabela 3 – Custos das operações
Dados Valor
Custo de perfuração e completação de um poço raso onshore (US$/poço) 400.000
Custo da água injetada (US$/m3) 3 - 10
Custo de elevação de fluidos (US$/m3) 5 - 10
Custo de separação, tratamento e descarte da água produzida (US$/m3). 3 - 10
Custo de transporte, separação e tratamento do óleo (US$/m3) 1 - 10
Preço do petróleo (US$/bbl.) 65
Tempo do projeto (meses) 240
TMA (% a.m.) 15
Capítulo 5. Metodologia 50
Para o cálculo do VPL, o valor da taxa mínima de atratividade (TMA) foi de 15%
a.a., ou seja, dentro de uma faixa utiliza pelas empresas petrolíferas que gira em torno de
10% a 20% a.a. (RODRIGUES, 2012).Além disso, foi considerado o preço de mercado do
petróleo em 65 US$/bblstd (Aproximadamente o valor cotado no dia 30/05/2021 que era
de US$68, 95 ), dado que é um fator de mercadoque varia diariamente.
5.5 Modelagem do Sistema Inteligente
Pretende-se com a modelagem a seguir obter um agente de aprendizado por reforço
profundo em um campo de petróleo com o objetivo de maximizar o VPL. Para isso o
agente interage com o ambiente, de modo a aprender dinamicamente a melhor decisão
(manter, reduzir ou fechar o poço) a ser tomada em cada estado do reservatório.
Usar uma rede neural como possível sistema inteligente num campo petrolífero,
possibilita algumas mudanças quanto a outros métodos anteriormente utilizados. Não há
restrição quanto a dimensionalidade, e ainda torna possível a adaptação para problemas
dinâmicos.
Como em todo problema de redes de aprendizado profundo ou Deep Learning,
necessita-se da definição de um espaço de estados, um conjunto de ações e uma função de
recompensa.
5.5.1 Espaços de Estados
Utilizou-se para esse sistema um espaço de estados contendo:
• Layout e dimensões de malhas;
• Produções de óleo, de água produzida e injetada;
• Preços do barril de óleo, da água produzida e injetada, da elevação de óleo e
tratamento (distribuídos em 10 faixas de valores distintos);
• Vazões de injeção de água.
Desse modo, o objetivo do sistema otimizador é sempre identificar qual a melhor
ação a ser tomada diante de qualquer estado em estudo. Um exemplo do espaço de estados
no ambiente é mostrado na tabela 4.
Capítulo 5. Metodologia 51
Tabela 4 – Possíveis ações
Estado Malha Inicial Malha Final Melhor Ação
1 Nine Spot Invertido - Injetar 1/2
2 Five Spot Invertido Nine Spot Invertido Não injetar
3 Five Spot Invertido Five Spot Invertido cruz Injetar 1/3
4 Five Spot Invertido Cruz Nine Spot Invertido Fechar o poço
5.5.2 Conjunto de Ações
Em cada estado st o agente pode tomar as seguintes ações at ∈ A(st) que vão
determinar ordens diferentes dependendo da posição em o agente estiver:
• Manter a vazão de injeção inicial;
• Reduzir a vazão de injeção de água a 1/2;
• Preços do barril de óleo, da água produzida e injetada, da elevação de óleo e
tratamento (distribuídos em 10 faixas de valores distintos);
• Vazões de injeção de água.
Diante disso, cada ação deve ser assumida com um critério de parada da injeção de
água no reservatório. O indicador utilizado foi a Razão Água-Óleo (RAO), que é a razão
entre as vazões de água e óleo (em condições-padrão). Ainda, quanto maior este indicador,
maior será o custo com o tratamento de água produzida, diante disso essa grandeza é
relevante para observar a viabilidade econômica do projeto. O cálculo da RAO é executado
com um valor predeterminado de BSW (Basic Sediments and Water), variando entre 90%
e 98%, onde corresponde ao percentual de água produzida em relação a produção total.
As equações da RAO e do BSW é dado por:
RAO = 11
BSW
−1
BSW = 11
RAO
+1
5.5.3 Recompensa
A recompensa é o valor que o algoritmo retorna após o agente ter tomado uma
determinada decisão. O indicador econômico usado, neste trabalho, foi o VPL. A maximi-
zação do VPL levará em consideração os investimentos feitos na etapa do desenvolvimento
do campo, bem como os custos de produção, tais como: elevação de óleo, tratamento e
separação dos fluidos e o preço de mercado do petróleo.
Os valores para os parâmetros do algoritmo foram baseados em (SANTOS, 2019):
• α = 0,1;
Capítulo 5. Metodologia 52
• γ = 0,9;
• � = 0,6.
5.6 Sistema Inteligente Desenvolvido
Neste ítem serão apresentados os resultados atingidos mediante da aplicação do
algoritmo Double Deep Q-Network no que diz respeito aos problemas submetidos aos
sistema inteligente desenvolvido nesta pesquisa.
5.6.1 Arquitetura do Sistema Inteligente utilizado
Figura 24 – Arquitetura do Sistema Inteligente Utilizado
O sistema inteligente alvo deste estudo pode ser visto em três etapas, as quais são:
• Inicialmente o sistema Deep Q-Network realiza a primeira ação;
• O STARS simula os dados vindos do DQN, calculando as curvas de produção;
• As curvas de produção aliadas aos parâmetros operacionais e taxas são utilizados
para o cálculo da função retorno (VPL);
• O VPL alimenta o agente como sua recompensa. Esta recompensa age como um
feedback para o ambiente, uma vez que, a melhora na recompensa é diretamente
proporcional ao aumento no VPL;
• O ciclo se reinicia até que o episódio seja finalizado com a obtenção da otimização
do sistema.
De um modo geral, o corpo do algoritmo está posto na figura 25:
Capítulo 5. Metodologia 53
Figura 25 – Pseudocódigo do sistema
5.6.2 Fluxograma da Metodologia do Trabalho
A figura 26 consiste num fluxograma com um resumo da metodologia do trabalho:
Figura 26 – Metodologia do trabalho
Capítulo 5. Metodologia 54
5.6.3 Diferenças entre sistemas inteligentes
No que se trata de sistemas inteligentes, a tentativa de resultados melhores deve
ser constante, uma vez que, o mínimo resultado melhor de retorno financeiro pode gerar o
aumento significativo no VPL.
Quanto ao sistema inteligente apresentado nesta dissertação, pode-se questionar
a necessidade, uma vez que este método é bastante discutido e por existirem inúmeros
outros trabalhos explorando o método de recuperação Injeção de água.
Algoritmos evolutivos, tais como NSGA-II, MOEA ou SPEA, pertencem a grande
área da Inteligência Artificial. De forma geral, são algoritmos que buscam solução aproxi-
mada por meio de otimização combinatória. Essa classe de algoritmos segue em evolução,
porém, ainda não são boas opções para lidar com problemas dinâmicos, onde a eminência
do problema ser modificado ao longo de sua resolução é algo possível.
Quanto ao algorítmo Q-learning, há uma vasta aplicabilidade, é um algorítmo
tabular (matricial), o que acaba gerando a "maldição da dimensionalidade", ou seja, mais
estados e/ou mais ações o torna inviável. É possível ver em problemas resolvidos pelo
algorítmo acima citado, com o acrécimo de atributos, a queda no desempenho, mesmo se
tratando de atributos úteis.
Em se tratando de sistemas inteligentes, algoritmos com base em Deep Learning
são uma tendência. Extremamente adaptáveis quanto a problemas dinâmicos, uma vez
que são passíveis de treinamento, a saída do algoritmo dependerá exclusivamente da
forma e do conjunto de treinamento. Quanto a dimensionalidade, esses algoritmos atuam
com redes neurais de múltiplas camadas onde cada camada é responsável por um nível
de complexidade, isso ajuda a construir uma generalização, característica importante e
atrativa de classe de algoritmos.
55
6 Resultados
Neste capítulo apresentamos resultados das superfícies de respostas e da aplicação
do algoritmo Deep Q-Network, mais especificamente o Double Q-Learning, em campos de
petróleo com dimensões e modelos de malha variados, com a finalidade de maximização
do VPL.
6.1 Caracterização do experimento
Para as respostas aqui apresentadas, foi utilizado os melhores retornos, analisando
os fatores de recuperação, bem como as configurações de malha mais rentáveis, dimensões
de malha e, principalmente, a viabilidade econômica do projeto. Ao todo, fizemos análise
de 81 condições operacionais distintas (tabela 5).
A dimensão de malha foi o parâmetro que mais apresentou influência no valor final,
por este motivo, avaliou-se três simulações com maiores valores de resposta, finalizando
portanto com doze experimentos que foram selecionados para a análise de viabilidade
econômica dada a superfície de resposta. Foram analisadas malhas de dimensão 100m,
200m, 300m e 400m, nos modelos de malha Five spot invertido cruz, Nine spot invertido e
Five spot invertido, todos a uma injeção inicial de 200m3/dia, com a completação do tipo
base por motivo de o estudo ser específico com injeção de água.
Os experimentos selecionados estão descritos na tabela 5.
Tabela 5 – Experimentos selecionados
Simulações Dimensão da malha Modelo de malha Injeção inicial m3/d
1 100m Five Spot Invertido cruz 200
2 100m Nine Spot Invertido 200
3 100m Five Spot Invertido 200
4 200m Five Spot Invertido Cruz 200
5 200m Nine Spot Invertido 200
6 200m Five Spot Invertido 200
7 300m Five Spot Invertido