projetobernar6 - Copiar

•

MACKENZIE

Bernnardo Silva

03/05/2024

Prévia do material em texto

Reduzindo a carga de trabalho manual: Um modelo de extração de dados OCR para validação de dados em certificado acadêmico PDF
Resumo
1. Introdução
Os documentos em PDF são amplamente utilizados em vários setores, por exemplo no setor educacional. Nesse setor, esse tipo de documento é essencial para a administração de processos acadêmicos e a emissão de certificados. As instituições educacionais geram uma quantidade significativa de documentos em PDF anualmente. Esse numero pode ser deduzido analisando o numero de matriculas no ensino superior. Segundo o INEP (2023) foram realizadas, em 2022, cerca de 9,5 milhões de matriculas.
Esse grande numero de arquivos atualmente é analisado de forma manual pelas instituições de ensino, se mostrando um processo ineficiente no tratamento dos documentos. O presente projeto surge da necessidade de reduzir a carga de trabalho manual, aumentando a eficiência no processo de validação de documentos acadêmicos e permitindo que recursos humanos sejam realocados para tarefas que requerem maior capacidade analítica e crítica. De acordo com Conga (2023), o uso de sistemas de inteligentes para o processamento de documentos levam a uma redução de 30 a 50% no tempo gasto em tarefas relacionadas a analise. Além disso erros causados por verificações manuais inadequadas geram um numero significante de hora extra de trabalho (Gartner) .
Diante dos dados e características apresentados, o presente projeto tem o objetivo de desenvolver um sistema para a extração de dados em arquivos PDF e a validação desses documentos. O sistema proposto pode auxiliar a transformação digital nas práticas administrativas das instituições educacionais, promovendo uma abordagem mais eficiente e menos propensa a erros. Para atingir esse objetivo, foram definidos os seguintes objetivos específicos:
Definir uma técnica para conseguir fazer a extração dos arquivos PDF.O presente projeto vai explorar como prova de conceito certificados de conclusão de curso;
Realizar a mineração do texto para conseguir catalogar os dados necessários;
Gerar um mecanismos de validação de dados encontrados no certificado;
Gerar um método para medir a precisão do sistema proposto.
Espera-se que com esse trabalho possam ser alcançar uma série de benefícios tanto operacionais quanto estratégicos na analise de documentos PDF.Dessa meta sera visado reduzir um tempo significante na validação dos documentos, aumentar a produtividade e reduzir erros.
Para apresentar os resultados, da pesquisa foi dividido da seguinte forma. a sessão dois apresenta os referenciais teórico que irão apresentar as bases conceituais que será apresentado a base do projeto. A sessão três apresenta a metodologia proposta para o desenvolvimento do sistema, apresentando os aspectos relevantes para sua construção. a sessão quatro apresenta o cronograma, que atividades propostas são organizadas no tempo.
Referencial teórica
A inteligência artificial (IA) compreende uma gama de abordagens, desde metodologias formais, que priorizam a lógica e a racionalidade, até concepções mais abstratas que se concentram em modelos teóricos complexos. Princípios de psicologia, matemática e engenharia são integrados de forma que máquinas sejam capazes de simular o raciocínio humano e resolver problemas concretos. Um aspecto crucial, demonstrado pela habilidade das máquinas em passar no Teste de Turing, é a sua capacidade de exibir habilidades cognitivas comparáveis às humanas. Este campo é explorado detalhadamente no livro 'Inteligência Artificial', que discute essas interseções e aplicações. Em particular, a visão computacional surge como uma das áreas mais fascinantes da IA, buscando não apenas entender, mas também recriar e expandir a capacidade visual humana. Este segmento da IA permite que máquinas interpretem e reajam ao mundo visual de maneira semelhante aos seres humanos, abrindo novas possibilidades para avanços tecnológicos em diversos campos, desde segurança até entretenimento interativo. 'Inteligência Artificial" . Russell,Inteligência Artificial - Uma Abordagem Moderna. [Ano de Publicação], p. 1-2.
Expandindo as fronteiras da inteligência artificial (IA), a visão computacional emerge como uma das suas aplicações mais promissoras e desafiadoras. Ao explorar as complexidades da percepção visual humana, esta área da IA não se limita apenas a replicar, mas também a aprimorar e expandir nossa capacidade de processar e interpretar informações visuais. A visão computacional é, fundamentalmente, um esforço para emular a percepção visual humana, permitindo a criação de imagens em duas dimensões por meio do processamento de dados e informações. Essa área abrange o tratamento de imagens em diversos níveis, desde operações básicas até procedimentos mais elaborados. A eficácia na captura de imagens depende de vários fatores, incluindo a fonte de energia, o contexto da cena e o dispositivo receptor. Um desafio notório nesse campo é a capacidade de transmitir imagens tridimensionais, uma questão amplamente explorada por Russell em 'Inteligência Artificial - Uma Abordagem Moderna' [Ano de Publicação], p. 799, 803, 816. À medida que a tecnologia evolui, o desenvolvimento de Redes Neurais Artificiais torna-se uma continuação natural do estudo da visão computacional, prometendo avanços ainda mais significativos na forma como as máquinas interpretam e interagem com o mundo visual.
À medida que as Redes Neurais Artificiais avançam, sua capacidade de emular funções cognitivas complexas do cérebro humano torna-se cada vez mais refinada. Essa evolução é evidenciada não apenas no desenvolvimento de modelos como o Perceptron, mas também na elaboração de estruturas mais especializadas, como as Redes Neurais Convolucionais (RNCs). Inspiradas pela organização do córtex visual humano, as RNCs são particularmente adaptadas para analisar dados visuais, empregando camadas que imitam a maneira como os neurônios respondem a estímulos em uma região limitada do campo visual. Com sua habilidade única de preservar as relações espaciais e temporais em imagens, as RNCs representam um salto notável no processamento de imagens e visão computacional, pavimentando o caminho para avanços revolucionários em aplicações que vão desde o reconhecimento facial automático até a análise de imagens médicas." (SILVA; PERES; BOSCARIOLI,[Ano de Publicação],p.84-86,92)
"Seguindo os avanços introduzidos pelas Redes Neurais Artificiais, as Redes Neurais Convolucionais (CNNs) representam um desenvolvimento focado, destinado ao processamento eficiente de dados organizados em formatos de grade, como imagens digitais. As CNNs, uma subcategoria avançada de redes neurais profundas, são notavelmente aptas para essa função devido à sua arquitetura única. Essa arquitetura é caracterizada pela presença de camadas convolucionais que não só aplicam filtros para identificar e extrair padrões e características significativas das imagens, mas também realizam a redução de resolução espacial para minimizar sensibilidades a pequenas distorções. A implementação dessas técnicas permite que as CNNs ofereçam uma robustez impressionante, facilitando a tarefa de reconstruir a complexidade visual de forma hierárquica e sistemática. Este mecanismo de processamento faz das CNNs ferramentas essenciais para enfrentar desafios em áreas que requerem reconhecimento visual acurado, como análise de vídeo e reconhecimento de padrões em séries temporais e processamento de linguagem natural." (Visão Computacional: Algoritmos e Aplicações, 2ªed.,p. 291-300).
A pesquisa recente de Nguyen Thi et al. (2023) desenvolveu um sistema de Reconhecimento Óptico de Caracteres (OCR) destinado a extrair informações de capas de livros vietnamitas. A precisão do sistema foi de 84,06% por palavra, com taxas de WER de 22,67% e CER de 22,41%, apontando para a eficácia do método, porém com margem para melhorias em precisão e velocidade de processamento. As dificuldades incluíam a distinção entre categorias de texto como 'Autor' e'Outros' devido à proximidade nas capas, o estudo emprega modelos como EAST e SAST e foram testado foram testados os modelos CRNN, SVTR e Transformer OCR (Nguyen Thi et al., 2023).
O estudo realizado por Sugiyono et al. (2023) propõe um sistema de Reconhecimento Automático de Números de Placas (ANPR) que emprega a tecnologia de Reconhecimento Óptico de Caracteres (OCR), utilizando o algoritmo OCR Tesseract. Este sistema é capaz de localizar, segmentar e reconhecer automaticamente as placas de licença de veículos, uso de OCR para extração de placas em veículos. O sistema ANPR desenvolvido por Sugiyono et al. (2023) demonstra a aplicabilidade dessa tecnologia nesse contexto com uma precisão de 83,3%. (SUGIYONO et al., 2023) (sugiyono2023)
O estudo de Chakraborty, Liu e Hsu (2003) introduz uma metodologia para extração automática de Unidades de Informação Ancoráveis (AIUs) de documentos PDF visando a transformação desses documentos em formatos de hipermídia interativos, O estudo faz uso de tecnologia de Reconhecimento Óptico de Caracteres (OCR) para extrair textos de documentos PDF, O artigo não especifica a precisão exata dos métodos propostos, mas reconhece que o desempenho do OCR pode ser insatisfeito em documentos digitalizados devido à qualidade variável das digitalizações e ao layout complexo dos documentos.

Materiais e Métodos

Cronograma de execução
Elaboração do Projeto (1-2)
Preparação e Revisão da Literatura (3)
Aquisição de Materiais (4)
Desenvolvimento do Modelo de OCR (5)
Treinamento do Modelo de OCR (6)
Coleta de Dados e Validação dos Dados (7, 8 e 9)
Ajustes e Otimização do Modelo (9, 10)
Análise Final dos Resultados (10, 11)
Preparação para Publicação e Divulgação (12)
REFERÊNCIAS
RAUSCH, Johannes; MARTINEZ, Octavio; BISSIG, Fabian; ZHANG, Ce; FEUERIEGEL, Stefan. DocParser: Persificação de Estrutura de Documentos Hierárquicos a partir de Renderizações. Em: Anais da Conferência AAAI sobre Inteligência Artificial, 35o, 2021. Zurique , Suíça: ETHZ urique, 2021.
Martínek, J., Lenc, L., & Král, P. (2020). Sistema OCR eficiente para documentos históricos com dados mínimos de treinamento. Computação e Aplicações Neurais, 32(12), 16753-16766.
CASTRO, Leandro Nunes de; FERRARI, Daniel Gomes. Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplicações. 1ª ed. São Paulo: Saraiva, 2016.
Referência: DEÂNDHELA, Tathiane. Faça o Tempo Trabalhar para Você. 2ª ed. São Paulo: Editora Ser Mais, 2016.