Baixe o app para aproveitar ainda mais
Prévia do material em texto
Reduzindo a carga de trabalho manual: Um modelo de extração de dados OCR para validação de dados em certificado acadêmico PDF 1. Introdução Os documentos em PDF são amplamente utilizados em vários setores, por exemplo no setor educacional. Nesse setor, esse tipo de documento é essencial para a administração de processos acadêmicos e a emissão de certificados. As instituições educacionais geram uma quantidade significativa de documentos em PDF anualmente. Esse número pode ser deduzido analisando o número de matriculas no ensino superior. Segundo o INEP (2023) foram realizadas, em 2022, cerca de 9,5 milhões de matrículas. Esse grande número de arquivos atualmente é analisado de forma manual pelas instituições de ensino, se mostrando um processo ineficiente no tratamento dos documentos. O presente projeto surge da necessidade de reduzir a carga de trabalho manual, aumentando a eficiência no processo de validação de documentos acadêmicos e permitindo que recursos humanos sejam realocados para tarefas que requerem maior capacidade analítica e crítica. De acordo com Conga (2023), o uso de sistemas de inteligentes para o processamento de documentos leva a uma redução de 30 a 50% no tempo gasto em tarefas relacionadas a análise. Além disso erros causados por verificações manuais inadequadas geram um número significante de hora extra de trabalho (Gartner). Diante dos dados e características apresentados, o presente projeto tem o objetivo de desenvolver um sistema para a extração de dados em arquivos PDF e a validação desses documentos. O sistema proposto pode auxiliar a transformação digital nas práticas administrativas das instituições educacionais, promovendo uma abordagem mais eficiente e menos propensa a erros. Para atingir esse objetivo, foram definidos os seguintes objetivos específicos: • Definir uma técnica para conseguir fazer a extração dos arquivos PDF. O presente projeto vai explorar como prova de conceito certificados de conclusão de curso; • Realizar a mineração do texto para conseguir catalogar os dados necessários; • Gerar um mecanismo de validação de dados encontrados no certificado; • Gerar um método para medir a precisão do sistema proposto. Espera-se que com esse trabalho possam ser alcançar uma série de benefícios tanto operacionais quanto estratégicos na análise de documentos PDF. Dessa meta será visado reduzir um tempo significante na validação dos documentos, aumentar a produtividade e reduzir erros. Os resultados da pesquisa foram organizados da seguinte maneira: A seção dois expõe os referenciais teóricos, que fornecem as bases conceituais essenciais para a fundamentação do projeto. A seção três descreve a metodologia proposta para o desenvolvimento do sistema, enfatizando os aspectos cruciais para sua elaboração. Por fim, a seção quatro detalha o cronograma, organizando as atividades propostas temporalmente. 2.Referencial teórico A inteligência artificial (IA) compreende uma gama de abordagens, desde metodologias formais, que priorizam a lógica e a racionalidade, até concepções mais abstratas que se concentram em modelos teóricos com o objetivo de simular o raciocínio humano e resolver problemas complexos. Princípios de psicologia, matemática e engenharia foram integrados no desenvolvimento de modelos computacionais para atingir essas capacidades. Em particular, a visão computacional surge como uma das áreas mais fascinantes da IA buscando não apenas entender, mas também recriar e expandir a capacidade visual humana. Este segmento da IA permite que máquinas interpretem e reajam ao mundo visual de maneira semelhante aos seres humanos, abrindo novas possibilidades para avanços tecnológicos em diversos campos, desde segurança até entretenimento interativo (RUSSELL; NORVIG, 2021) Expandindo as fronteiras da inteligência artificial (IA), a visão computacional emerge como uma das suas aplicações mais promissoras e desafiadoras. Ao explorar as complexidades da percepção visual humana, esta área da IA não se limita apenas a replicar, mas também a aprimorar e expandir nossa capacidade de processar e interpretar informações visuais. Essa área abrange o tratamento de imagens em diversos níveis, desde operações básicas até procedimentos mais elaborados, reconhecimento de padrões , detecção de objetos , tratamento e análises em dados tridimensionais , entre outros. (RUSSELL; NORVIG, 2021, SZELISKI, 2021). Umas das técnicas para se trabalhar com dados de imagens são as neurais artificiais . À medida que as Redes Neurais Artificiais avançam, sua capacidade de emular funções cognitivas complexas do cérebro humano torna-se cada vez mais refinada. Essa evolução é evidenciada não apenas no desenvolvimento de modelos como o Perceptron, mas também na elaboração de estruturas mais especializadas, como as Redes Neurais multilayer perceptron (MLP) e Redes Neurais Convolucionais (CNN). Inspiradas pela organização do córtex visual humano, as CNN são particularmente adaptadas para analisar dados visuais, empregando camadas que imitam a maneira como os neurônios respondem a estímulos em uma região limitada do campo visual. Com sua habilidade única de preservar as relações espaciais e temporais em imagens, as CNN representam um salto notável no processamento de imagens e visão computacional, pavimentando o caminho para avanços revolucionários em aplicações que vão desde o reconhecimento facial automático até a análise de imagens médicas.(SILVA; PERES; BOSCARIOLI, 2016) Arquitetura CNN é caracterizada pela presença de camadas convolucionais que não só aplicam filtros para identificar e extrair padrões e características significativas das imagens, mas também realizam a redução de resolução espacial para minimizar sensibilidades a pequenas distorções. A implementação dessas técnicas permite que as CNNs ofereçam uma boa robustez , facilitando a tarefa de reconstruir a complexidade visual de forma hierárquica e sistemática. Este mecanismo de processamento faz das CNNs ferramentas essenciais para enfrentar desafios em áreas que requerem reconhecimento visual acurado, como análise de vídeo e reconhecimento de padrões em séries temporais, reconhecimento e extração de texto em imagens e processamento de linguagem natural.(SZELISKI, 2021) Para alcançar objetivo desse projeto de pesquisa foram analisados trabalhos do estado da arte para se verificar quais são as principais técnicas de extração de texto em imagens, mineração desses textos e a devida validação dos resultados alcançados. A partir dessas análises foi possível estabelecer a metodologia mais adequada para desenvolvimento do projeto .Para o levantamento bibliográfico foram consultadas as bases de artigos científicos ieeeexplore e scopus ;foram utilizadas as palavras chaves OCR e OCR PDF , resultando na analise detalhada de artigos. Dentre os artigos analisados destacam-se os trabalhos de Thi , Do Yoo(2023), Sugiyono et al. (2023)e Chakraborty, Liu e Hsu (2003). A pesquisa recente de Thi , Do e Yoo (2023) desenvolveu um sistema de Reconhecimento Óptico de Caracteres (OCR) destinado a extrair informações de capas de livros vietnamitas. A precisão do sistema foi de 84,06% por palavra, com taxas de WER de 22,67% e CER de 22,41%, apontando para a eficácia do método, porém com margem para melhorias em precisão e velocidade de processamento. As dificuldades apontadas foram relacionadas a distinção entre categorias de texto como 'Autor' e 'Outros'devido à proximidade nas capas, o estudo emprega modelos como EAST e SAST e foram testados os modelos CRNN, SVTR e Transformer OCR .O uso de CNN se mostrou eficiente para extração de caracteres em imagem e será utilizada nesse projeto de pesquisa . O estudo realizado por Sugiyono et al. (2023) propõe um sistema de Reconhecimento Automático de Números de Placas (ANPR)que emprega a tecnologia de Reconhecimento Óptico de Caracteres (OCR), utilizando a engine OCR Tesseract. Este sistema foi capaz de localizar, segmentar e reconhecer automaticamente as placas de licença de veículos, . O sistema ANPR desenvolvido demonstra a aplicabilidade dessa tecnologia nesse contexto com uma precisão de 83,3%. A utilização da engine OCR Tesseract também foi considerada para o desenvolvimento do projeto proposto . Ja o estudo de Chakraborty, Liu e Hsu (2003) introduz uma metodologia para extração automática de Unidades de Informação Ancoráveis (AIUs) de documentos PDF visando a transformação desses documentos em formatos de hipermídia interativos, O estudo fez uso de tecnologia de Reconhecimento Óptico de Caracteres (OCR) para extrair textos de documentos PDF, O artigo não especifica a precisão exata dos métodos propostos, mas reconhece que o desempenho do OCR pode ser insatisfeito em documentos digitalizados devido à qualidade variável das digitalizações e ao layout complexo dos documentos. O trabalho analisado indica direções e pontos de atenção para problemas relacionados a qualidade do documento e layout, elementos que serão considerados e serão tratados no presente projeto. 3.Metodologia Da análise dos trabalhos relacionados , de da preposição de um pypelyne de documentos foi definia a metodologia proposta para essa pesquisa. O processamento e validação de documentos será analisada de uma sequência de analises , organizado em um "pypelyne" , metodologia proposta prevê a analise da base de dados que será composta por certificado de conclusão de curso que serão gerados de forma sintética .,Extraídos dos documentos utilizando técnicas de OCR., Mineração dos textos extraídos para organização dos dados e validação .,E validação dos resultados alcançados. 3.1. Análise da Base de Dados Na primeira etapa, será realizada uma análise da base de dados a ser utilizada no projeto. A base de dados será gerada de forma sintética, simulando certificados emitindo para obtenção ou validação de hora complementares todos em formato PDF, considerando fontes de caracteres diferentes . Nem uma informação de alunos será gerada para esse banco de dados, sendo os dados gerados fictícios. O processo da análise de dados será iniciado pela revisão da estrutura do documento; Esse passo se faz necessário para entender a estrutura do PDF , e identificar elementos presente como texto , tabelas e imagens. Em seguidas os campos que deverão ser extraídos e são relevantes para o projeto, serão analisados, como nome do aluno, quantidade de horas emitidas, informações do curso ou treinamento e data de realização. Validação de horas complementares considera esses dados para validação das horas. Por fim a base de dados será preparada para ser processada pelo pypelyne proposto , por exemplo padronização de nome de arquivo e definição de diretório. 3.2. Extração de Dados com OCR A segunda etapa envolverá a extração de dados dos PDFs utilizando técnicas de Reconhecimento Óptico de Caracteres (OCR). Para construir o mecanismos de extração será usada a engine OCR Tesseract Kay (2007) Para utilizar essa engine no projeto proposto , será necessário realizar a sua configuração , para reconhecer o idioma dos documentos , uma outra configuração , será apontar a o conjunto de fontes utilizadas nos documentos . O processo de definir essas fontes serve como fine-turning do documento genérico , recurso capaz de melhoras significante a precisão dos caracteres . Apos a extração os serão tratados e estruturados para facilitar na mineração que será feita na etapa seguinte 3.3 Mineração de Texto nos PDFs Na terceira etapa, será realizada a mineração do textos extraído dos PDFs para identificar padrões e informações relevantes. As técnicas a serem utilizadas para mineração de texto serão: análise de palavras-chave, em que as palavras chaves mais frequentes serão identificadas para servi de guia para encontrar termos importantes; encontrar os dados de nome do aluno, quantidade de horas, curso ou treinamento realizado e data de conclusão; e agrupar informações em categorias, com o objetivo de facilitar a análise e validação dos dados . 3.4 Validação dos Resultados A quarta e última etapa consistirá na validação dos resultados obtidos durante as etapas anteriores. A validação será realizada comparando a saída do sistema com a saída esperada :Os resultados do sistema serão comparados com os dados esperados, verificando se as informações extraídas estão corretas. A partir da comparação, será calculada a taxa de erros e acertos para avaliar a eficácia do sistema. Com base nos resultados da validação, serão feitos ajustes para melhorar a precisão e reduzir erros. 4. Cronograma de execução A organização das atividades que serão desenvolvidas no projeto é apresentada na tabela 1. Tabela 1 – Cronograma de atividades propostas no projeto de pesquisa. Atividades Meses 1 2 3 4 5 6 7 8 9 10 11 12 Planejamento e Configuração Inicial x Desenvolvimento e Teste Inicial do OCR x x x Treinamento do Modelo de OCR x x x Coleta de Dados e Validação dos Dados x x Análise Final dos Resultados x x Preparação para Publicação e Divulgação x x 5 Referências CHAKRABORTY, A.; LIU, P.; HSU, L. Extracting anchorable information units from pdf files. In: 2003 International Conference on Multimedia and Expo. ICME ’03. Proceedings (Cat. No.03TH8698). Baltimore, MD, USA: IEEE, 2003. KAY, A. Tesseract: an open-source optical character recognition engine. Linux J., Belltown Media, Houston, TX, v. 2007, n. 159, p. 2, jul 2007. RUSSELL, S.; NORVIG, P. Inteligência artificial. Rio de Janeiro: LTC, 2021. SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016. SUGIYONO, A. Y. et al. Extracting information from vehicle registration plate using ocr tesseract. Procedia Computer Science, Elsevier BV, v. 227, p. 932–938, 2023. SZELISKI, R. Computer Vision: Algorithms and Applications. New York: Springer, 2021. THI, T. N.; DO, T.-H.; YOO, M. Implementation of ocr system on extracting information fromvietnamese book cover images. In: 2023 International Conference on Advanced Technologies for Communications (ATC). Da Nang, Vietnam: IEEE, 2023.
Compartilhar