Buscar

trabalho_concluido -2

Prévia do material em texto

Reduzindo a carga de trabalho manual: Um modelo de extração de dados OCR para 
validação de dados em certificado acadêmico PDF 
 
1. Introdução 
 Os documentos em PDF são amplamente utilizados em vários setores, por exemplo 
no setor educacional. Nesse setor, esse tipo de documento é essencial para a administração 
de processos acadêmicos e a emissão de certificados. As instituições educacionais geram 
uma quantidade significativa de documentos em PDF anualmente. Esse número pode ser 
deduzido analisando o número de matriculas no ensino superior. Segundo o INEP (2023) 
foram realizadas, em 2022, cerca de 9,5 milhões de matrículas. 
Esse grande número de arquivos atualmente é analisado de forma manual pelas instituições 
de ensino, se mostrando um processo ineficiente no tratamento dos documentos. O presente 
projeto surge da necessidade de reduzir a carga de trabalho manual, aumentando a eficiência 
no processo de validação de documentos acadêmicos e permitindo que recursos humanos 
sejam realocados para tarefas que requerem maior capacidade analítica e crítica. De acordo 
com Conga (2023), o uso de sistemas de inteligentes para o processamento de documentos 
leva a uma redução de 30 a 50% no tempo gasto em tarefas relacionadas a análise. Além 
disso erros causados por verificações manuais inadequadas geram um número significante 
de hora extra de trabalho (Gartner). 
 Diante dos dados e características apresentados, o presente projeto tem o objetivo de 
desenvolver um sistema para a extração de dados em arquivos PDF e a validação desses 
documentos. O sistema proposto pode auxiliar a transformação digital nas práticas 
administrativas das instituições educacionais, promovendo uma abordagem mais eficiente e 
menos propensa a erros. Para atingir esse objetivo, foram definidos os seguintes objetivos 
específicos: 
• Definir uma técnica para conseguir fazer a extração dos arquivos PDF. O presente 
projeto vai explorar como prova de conceito certificados de conclusão de curso; 
• Realizar a mineração do texto para conseguir catalogar os dados necessários; 
• Gerar um mecanismo de validação de dados encontrados no certificado; 
• Gerar um método para medir a precisão do sistema proposto. 
 
 Espera-se que com esse trabalho possam ser alcançar uma série de benefícios tanto 
operacionais quanto estratégicos na análise de documentos PDF. Dessa meta será visado 
reduzir um tempo significante na validação dos documentos, aumentar a produtividade e 
reduzir erros. 
Os resultados da pesquisa foram organizados da seguinte maneira: A seção dois 
expõe os referenciais teóricos, que fornecem as bases conceituais essenciais para a 
fundamentação do projeto. A seção três descreve a metodologia proposta para o 
desenvolvimento do sistema, enfatizando os aspectos cruciais para sua elaboração. Por fim, 
a seção quatro detalha o cronograma, organizando as atividades propostas temporalmente. 
 
2.Referencial teórico 
A inteligência artificial (IA) compreende uma gama de abordagens, desde 
metodologias formais, que priorizam a lógica e a racionalidade, até concepções mais 
abstratas que se concentram em modelos teóricos com o objetivo de simular o raciocínio 
humano e resolver problemas complexos. Princípios de psicologia, matemática e engenharia 
foram integrados no desenvolvimento de modelos computacionais para atingir essas 
capacidades. Em particular, a visão computacional surge como uma das áreas mais 
fascinantes da IA buscando não apenas entender, mas também recriar e expandir a 
capacidade visual humana. Este segmento da IA permite que máquinas interpretem e reajam 
ao mundo visual de maneira semelhante aos seres humanos, abrindo novas possibilidades 
para avanços tecnológicos em diversos campos, desde segurança até entretenimento 
interativo (RUSSELL; NORVIG, 2021) 
 
Expandindo as fronteiras da inteligência artificial (IA), a visão computacional emerge 
como uma das suas aplicações mais promissoras e desafiadoras. Ao explorar as 
complexidades da percepção visual humana, esta área da IA não se limita apenas a replicar, 
mas também a aprimorar e expandir nossa capacidade de processar e interpretar informações 
visuais. Essa área abrange o tratamento de imagens em diversos níveis, desde operações 
básicas até procedimentos mais elaborados, reconhecimento de padrões , detecção de 
objetos , tratamento e análises em dados tridimensionais , entre outros. (RUSSELL; NORVIG, 
2021, SZELISKI, 2021). 
Umas das técnicas para se trabalhar com dados de imagens são as neurais artificiais 
. À medida que as Redes Neurais Artificiais avançam, sua capacidade de emular funções 
cognitivas complexas do cérebro humano torna-se cada vez mais refinada. Essa evolução é 
evidenciada não apenas no desenvolvimento de modelos como o Perceptron, mas também 
na elaboração de estruturas mais especializadas, como as Redes Neurais multilayer 
perceptron (MLP) e Redes Neurais Convolucionais (CNN). Inspiradas pela organização do 
córtex visual humano, as CNN são particularmente adaptadas para analisar dados visuais, 
empregando camadas que imitam a maneira como os neurônios respondem a estímulos em 
uma região limitada do campo visual. Com sua habilidade única de preservar as relações 
espaciais e temporais em imagens, as CNN representam um salto notável no processamento 
de imagens e visão computacional, pavimentando o caminho para avanços revolucionários 
em aplicações que vão desde o reconhecimento facial automático até a análise de imagens 
médicas.(SILVA; PERES; BOSCARIOLI, 2016) 
 
Arquitetura CNN é caracterizada pela presença de camadas convolucionais que não 
só aplicam filtros para identificar e extrair padrões e características significativas das imagens, 
mas também realizam a redução de resolução espacial para minimizar sensibilidades a 
pequenas distorções. A implementação dessas técnicas permite que as CNNs ofereçam uma 
boa robustez , facilitando a tarefa de reconstruir a complexidade visual de forma hierárquica 
e sistemática. Este mecanismo de processamento faz das CNNs ferramentas essenciais para 
enfrentar desafios em áreas que requerem reconhecimento visual acurado, como análise de 
vídeo e reconhecimento de padrões em séries temporais, reconhecimento e extração de texto 
em imagens e processamento de linguagem natural.(SZELISKI, 2021) 
 
Para alcançar objetivo desse projeto de pesquisa foram analisados trabalhos do 
estado da arte para se verificar quais são as principais técnicas de extração de texto em 
imagens, mineração desses textos e a devida validação dos resultados alcançados. A partir 
dessas análises foi possível estabelecer a metodologia mais adequada para desenvolvimento 
do projeto .Para o levantamento bibliográfico foram consultadas as bases de artigos científicos 
ieeeexplore e scopus ;foram utilizadas as palavras chaves OCR e OCR PDF , resultando na 
analise detalhada de artigos. Dentre os artigos analisados destacam-se os trabalhos de Thi , 
Do Yoo(2023), Sugiyono et al. (2023)e Chakraborty, Liu e Hsu (2003). 
A pesquisa recente de Thi , Do e Yoo (2023) desenvolveu um sistema de 
Reconhecimento Óptico de Caracteres (OCR) destinado a extrair informações de capas de 
livros vietnamitas. A precisão do sistema foi de 84,06% por palavra, com taxas de WER de 
22,67% e CER de 22,41%, apontando para a eficácia do método, porém com margem para 
melhorias em precisão e velocidade de processamento. As dificuldades apontadas foram 
relacionadas a distinção entre categorias de texto como 'Autor' e 'Outros'devido à proximidade 
nas capas, o estudo emprega modelos como EAST e SAST e foram testados os modelos 
CRNN, SVTR e Transformer OCR .O uso de CNN se mostrou eficiente para extração de 
caracteres em imagem e será utilizada nesse projeto de pesquisa . 
O estudo realizado por Sugiyono et al. (2023) propõe um sistema de Reconhecimento 
Automático de Números de Placas (ANPR)que emprega a tecnologia de Reconhecimento 
Óptico de Caracteres (OCR), utilizando a engine OCR Tesseract. Este sistema foi capaz de 
localizar, segmentar e reconhecer automaticamente as placas de licença de veículos, . O 
sistema ANPR desenvolvido demonstra a aplicabilidade dessa tecnologia nesse contexto 
com uma precisão de 83,3%. A utilização da engine OCR Tesseract também foi considerada 
para o desenvolvimento do projeto proposto . 
Ja o estudo de Chakraborty, Liu e Hsu (2003) introduz uma metodologia para extração 
automática de Unidades de Informação Ancoráveis (AIUs) de documentos PDF visando a 
transformação desses documentos em formatos de hipermídia interativos, O estudo fez uso 
de tecnologia de Reconhecimento Óptico de Caracteres (OCR) para extrair textos de 
documentos PDF, O artigo não especifica a precisão exata dos métodos propostos, mas 
reconhece que o desempenho do OCR pode ser insatisfeito em documentos digitalizados 
devido à qualidade variável das digitalizações e ao layout complexo dos documentos. O 
trabalho analisado indica direções e pontos de atenção para problemas relacionados a 
qualidade do documento e layout, elementos que serão considerados e serão tratados no 
presente projeto. 
 
3.Metodologia 
Da análise dos trabalhos relacionados , de da preposição de um pypelyne de documentos foi 
definia a metodologia proposta para essa pesquisa. O processamento e validação de 
documentos será analisada de uma sequência de analises , organizado em um "pypelyne" , 
metodologia proposta prevê a analise da base de dados que será composta por certificado 
de conclusão de curso que serão gerados de forma sintética .,Extraídos dos documentos 
utilizando técnicas de OCR., Mineração dos textos extraídos para organização dos dados e 
validação .,E validação dos resultados alcançados. 
 
3.1. Análise da Base de Dados 
Na primeira etapa, será realizada uma análise da base de dados a ser utilizada no 
projeto. A base de dados será gerada de forma sintética, simulando certificados emitindo para 
obtenção ou validação de hora complementares todos em formato PDF, considerando fontes 
de caracteres diferentes . Nem uma informação de alunos será gerada para esse banco de 
dados, sendo os dados gerados fictícios. O processo da análise de dados será iniciado pela 
revisão da estrutura do documento; Esse passo se faz necessário para entender a estrutura 
do PDF , e identificar elementos presente como texto , tabelas e imagens. Em seguidas os 
campos que deverão ser extraídos e são relevantes para o projeto, serão analisados, como 
nome do aluno, quantidade de horas emitidas, informações do curso ou treinamento e data 
de realização. Validação de horas complementares considera esses dados para validação 
das horas. Por fim a base de dados será preparada para ser processada pelo pypelyne 
proposto , por exemplo padronização de nome de arquivo e definição de diretório. 
 
3.2. Extração de Dados com OCR 
A segunda etapa envolverá a extração de dados dos PDFs utilizando técnicas de 
Reconhecimento Óptico de Caracteres (OCR). Para construir o mecanismos de extração será 
usada a engine OCR Tesseract Kay (2007) Para utilizar essa engine no projeto proposto , 
será necessário realizar a sua configuração , para reconhecer o idioma dos documentos , uma 
outra configuração , será apontar a o conjunto de fontes utilizadas nos documentos . O 
processo de definir essas fontes serve como fine-turning do documento genérico , recurso 
capaz de melhoras significante a precisão dos caracteres . Apos a extração os serão tratados 
e estruturados para facilitar na mineração que será feita na etapa seguinte 
 
3.3 Mineração de Texto nos PDFs 
Na terceira etapa, será realizada a mineração do textos extraído dos PDFs para 
identificar padrões e informações relevantes. As técnicas a serem utilizadas para mineração 
de texto serão: análise de palavras-chave, em que as palavras chaves mais frequentes serão 
identificadas para servi de guia para encontrar termos importantes; encontrar os dados de 
nome do aluno, quantidade de horas, curso ou treinamento realizado e data de conclusão; e 
agrupar informações em categorias, com o objetivo de facilitar a análise e validação dos dados 
. 
 
3.4 Validação dos Resultados 
A quarta e última etapa consistirá na validação dos resultados obtidos durante as 
etapas anteriores. A validação será realizada comparando a saída do sistema com a saída 
esperada :Os resultados do sistema serão comparados com os dados esperados, verificando 
se as informações extraídas estão corretas. A partir da comparação, será calculada a taxa de 
erros e acertos para avaliar a eficácia do sistema. Com base nos resultados da validação, 
serão feitos ajustes para melhorar a precisão e reduzir erros. 
 
4. Cronograma de execução 
A organização das atividades que serão desenvolvidas no projeto é apresentada na tabela 1. 
 
 
 
 
 
 
 
 
 
 
 
Tabela 1 – Cronograma de atividades propostas no projeto de pesquisa. 
 
 
Atividades 
Meses 
1 2 3 4 5 6 7 8 9 10 11 12 
Planejamento e Configuração Inicial 
 x 
Desenvolvimento e Teste Inicial do OCR 
 x x x 
Treinamento do Modelo de OCR x x x 
Coleta de Dados e Validação dos Dados x x 
Análise Final dos Resultados 
 x x 
Preparação para Publicação e Divulgação 
 x x 
 
 
 
 
5 Referências 
CHAKRABORTY, A.; LIU, P.; HSU, L. Extracting anchorable information units from pdf files. 
In: 2003 International Conference on Multimedia and Expo. ICME ’03. Proceedings (Cat. 
No.03TH8698). Baltimore, MD, USA: IEEE, 2003. 
KAY, A. Tesseract: an open-source optical character recognition engine. Linux J., Belltown 
Media, Houston, TX, v. 2007, n. 159, p. 2, jul 2007. 
RUSSELL, S.; NORVIG, P. Inteligência artificial. Rio de Janeiro: LTC, 2021. 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com 
aplicações em R. Rio de Janeiro: Elsevier, 2016. 
SUGIYONO, A. Y. et al. Extracting information from vehicle registration plate using ocr 
tesseract. Procedia Computer Science, Elsevier BV, v. 227, p. 932–938, 2023. 
SZELISKI, R. Computer Vision: Algorithms and Applications. New York: Springer, 2021. 
THI, T. N.; DO, T.-H.; YOO, M. Implementation of ocr system on extracting information 
fromvietnamese book cover images. In: 2023 International Conference on Advanced 
Technologies for Communications (ATC). Da Nang, Vietnam: IEEE, 2023.

Continue navegando

Outros materiais