projetobernar4 - Copiar

•

MACKENZIE

Bernnardo Silva

03/05/2024

Prévia do material em texto

Reduzindo a carga de trabalho manual: Um modelo de extração de dados OCR para validação de dados em certificado acadêmico PDF
Resumo
O
1. Introdução
Os documentos em PDF são amplamente utilizados em vários setores, por exemplo no setor educacional. Nesse setor, esse tipo de documento é essencial para a administração de processos acadêmicos e a emissão de certificados. As instituições educacionais geram uma quantidade significativa de documentos em PDF anualmente. Esse numero pode ser deduzido analisando o numero de matriculas no ensino superior. Segundo o INEP (2023) foram realizadas, em 2022, cerca de 9,5 milhões de matriculas.
Esse grande numero de arquivos atualmente é analisado de forma manual pelas instituições de ensino, se mostrando um processo ineficiente no tratamento dos documentos. O presente projeto surge da necessidade de reduzir a carga de trabalho manual, aumentando a eficiência no processo de validação de documentos acadêmicos e permitindo que recursos humanos sejam realocados para tarefas que requerem maior capacidade analítica e crítica. De acordo com Conga (2023), o uso de sistemas de inteligentes para o processamento de documentos levam a uma redução de 30 a 50% no tempo gasto em tarefas relacionadas a analise. Além disso erros causados por verificações manuais inadequadas geram um numero significante de hora extra de trabalho (Gartner) .
Diante dos dados e características apresentados, o presente projeto tem o objetivo de desenvolver um sistema para a extração de dados em arquivos PDF e a validação desses documentos. O sistema proposto pode auxiliar a transformação digital nas práticas administrativas das instituições educacionais, promovendo uma abordagem mais eficiente e menos propensa a erros. Para atingir esse objetivo, foram definidos os seguintes objetivos específicos:
Definir uma técnica para conseguir fazer a extração dos arquivos PDF.O presente projeto vai explorar como prova de conceito certificados de conclusão de curso;
Realizar a mineração do texto para conseguir catalogar os dados necessários;
Gerar um mecanismos de validação de dados encontrados no certificado;
Gerar um método para medir a precisão do sistema proposto.
Espera-se que com esse trabalho possam ser alcançar uma série de benefícios tanto operacionais quanto estratégicos na analise de documentos PDF.Dessa meta sera visado reduzir um tempo significante na validação dos documentos, aumentar a produtividade e reduzir erros.
Para apresentar os resultados, da pesquisa foi dividido da seguinte forma. a sessão dois apresenta os referenciais teórico que irão apresentar as bases conceituais que será apresentado a base do projeto. A sessão três apresenta a metodologia proposta para o desenvolvimento do sistema, apresentando os aspectos relevantes para sua construção. a sessão quatro apresenta o cronograma, que atividades propostas são organizadas no tempo.
Referencial teórica
Inteligência artificial Muitos pesquisadores não sabem definir uma forma certa muitos admitem algo abstrato , alguns optam para algo mais formal , chamada racionalidade precisamente fazer a "coisa certa ".A busca pela maquina com capacidade de imaginar , foi se dando forma , uma junção relacionada a psicologia envolvendo matemática e engenharia , com capacidade de realizar o teste de turing , assim temos uma maquina com capacidade de realizar problemas do mundo real . Russell,Inteligência Artificial - Uma Abordagem Moderna. [Ano de Publicação], p. 1-2.
.
A visão computacional é, fundamentalmente, um esforço para emular a percepção visual humana, permitindo a criação de imagens em duas dimensões por meio do processamento de dados e informações. Essa área abrange o tratamento de imagens em diversos níveis, desde operações básicas até procedimentos mais elaborados. A eficácia na captura de imagens depende de vários fatores, incluindo a fonte de energia, o contexto da cena e o dispositivo receptor. Um desafio notório nesse campo é a capacidade de transmitir imagens tridimensionais, uma questão amplamente explorada por Russell,Inteligência Artificial - Uma Abordagem Moderna. [Ano de Publicação], p. 799, 803, 816.
Ainda pouco se sabe do cérebro ,elemento principal do cérebro é o neurônio e que a capacidade de formação de redes de neurônios que trocam sinais via sinapses é o fator responsável pela mais importante característica dos humanos, é dividido em três partes: o corpo celular ou soma, os dendritos e o axônio uma função que mapeia entradas e saídas primeiro neurônio proposto foi em 1943, espalhado por Warren Sturgis McCulloch
neurônio mais interessante é o Perceptron . A grande questão que envolve o uso de um neurônio artificial na resolução de um problema é determinar cada uma das variáveis que compõem o modelo neuronal de acordo com as especificações do problema. Cada um dos atributos descritivos de um exemplar de entrada é associado a cada uma das entradas (xj, j = 1 ... d) do neurônio, possibilitando a apresentação de uma informação referente ao problema, e, portanto, o valor da variável d depende do problema sob resolução; a função de ativação é escolhida pelo projetista que configura o neurônio artificial, observando também algumas características do problema; cada uma das sinapses (ou pesos sinápticos) (woj, j = 1 ... d) é ajustada por meio de um algoritmo de treinamento (ou de aprendizado), de tal forma que a saída do neurônio (yo) seja a saída esperada na resolução do problema, pagina As atualizações dos pesos são realizadas com o objetivo de minimizar o erro produzido pelo neurônio e representam, portanto, o aprendizado (nesse caso, supervisionado). Esse processo é chamado também de treinamento , nteressante ainda notar que o processamento de um neurônio Perceptron pode ser interpretado geometricamente como resultando em um hiperplano de separação do espaço d-dimensional dos exemplares de entrada. Considerando o problema da porta lógica (SILVA; PERES; BOSCARIOLI,[Ano de Publicação],p.84-86,92)
Redes neurais convulsionais (CNNs) são uma classe de redes neurais profundas, muito eficientes no processamento de dados com uma topologia de grade, como imagens. Uma CNN consiste de uma ou mais camadas convulsionais com camadas de agrupamento (pooling) intercaladas, seguidas por uma ou mais camadas totalmente conectadas, como em redes neurais tradicionais. O processamento em cada camada convolucional não apenas aplica um filtro convolucional para a detecção de padrões e características, mas também utiliza a redução da resolução espacial (subsampling), proporcionando robustez a pequenas variações e distorções na imagem. Este tipo de rede é especificamente projetado para mapear automaticamente a representação hierárquica de imagens, o que torna as CNNs adequadas para tarefas de visão computacional, como reconhecimento de imagens e vídeo, processamento de séries temporais para reconhecimento de padrões, e processamento de linguagem natural (Visão Computacional: Algoritmos e Aplicações, 2ª ed., p. 291-300).
A pesquisa recente de Nguyen Thi et al. (2023) desenvolveu um sistema de Reconhecimento Óptico de Caracteres (OCR) destinado a extrair informações de capas de livros vietnamitas. A precisão do sistema foi de 84,06% por palavra, com taxas de WER de 22,67% e CER de 22,41%, apontando para a eficácia do método, porém com margem para melhorias em precisão e velocidade de processamento. As dificuldades incluíam a distinção entre categorias de texto como 'Autor' e 'Outros' devido à proximidade nas capas, o estudo emprega modelos como EAST e SAST e foram testado foram testados os modelos CRNN, SVTR e Transformer OCR (Nguyen Thi et al., 2023).
O estudo realizado por Sugiyono et al. (2023) propõe um sistema de Reconhecimento Automático de Números de Placas (ANPR) que emprega a tecnologia de Reconhecimento Óptico de Caracteres (OCR), utilizando o algoritmo OCR Tesseract. Este sistema é capaz de localizar, segmentar e reconhecer automaticamente as placas de licença de veículos, usode OCR para extração de placas em veículos. O sistema ANPR desenvolvido por Sugiyono et al. (2023) demonstra a aplicabilidade dessa tecnologia nesse contexto com uma precisão de 83,3%. (SUGIYONO et al., 2023) (sugiyono2023)
O estudo de Chakraborty, Liu e Hsu (2003) introduz uma metodologia para extração automática de Unidades de Informação Ancoráveis (AIUs) de documentos PDF visando a transformação desses documentos em formatos de hipermídia interativos, O estudo faz uso de tecnologia de Reconhecimento Óptico de Caracteres (OCR) para extrair textos de documentos PDF, O artigo não especifica a precisão exata dos métodos propostos, mas reconhece que o desempenho do OCR pode ser insatisfeito em documentos digitalizados devido à qualidade variável das digitalizações e ao layout complexo dos documentos.

Materiais e Métodos
Usaremos softwares de OCR como Tesseract OCR, ABBYY FineReader ou Google Cloud Vision API para automatizar a extração de texto de uma variedade de documentos PDF, que podem incluir relatórios técnicos, formulários preenchidos e contratos. Além disso, empregaremos computadores com poder de processamento suficiente, possivelmente equipados com GPUs, para suportar o software OCR e a análise de dados necessários para o desenvolvimento e avaliação do modelo proposto.
Local da pesquisa
Os Teses será conduzido na Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie - UPM (Higienópolis), em uma sala com espaço suficiente.
Riscos e Benefícios
Os riscos na participação deste estudo são mínimos e poderão envolver a falha na capitação
do texto extraído da imagem , exigindo verificação e uma possíveis correções. Ao digitalizar documentos sensíveis, podem surgir riscos relacionados à segurança da informação e à proteção de dados pessoais. Nos benefícios destacamos a automação de processos repetitivos e de baixo valor acrescentado libera funcionários para se concentrarem em tarefas mais estratégicas. Diminui-se a necessidade de mão de obra dedicada à entrada manual de dados, o que pode resultar em uma redução significativa de custos operacionais.
Cronograma de execução
Elaboração do Projeto (1-2)
Preparação e Revisão da Literatura (3)
Aquisição de Materiais (4)
Desenvolvimento do Modelo de OCR (5)
Treinamento do Modelo de OCR (6)
Coleta de Dados e Validação dos Dados (7, 8 e 9)
Ajustes e Otimização do Modelo (9, 10)
Análise Final dos Resultados (10, 11)
Preparação para Publicação e Divulgação (12)
REFERÊNCIAS
RAUSCH, Johannes; MARTINEZ, Octavio; BISSIG, Fabian; ZHANG, Ce; FEUERIEGEL, Stefan. DocParser: Persificação de Estrutura de Documentos Hierárquicos a partir de Renderizações. Em: Anais da Conferência AAAI sobre Inteligência Artificial, 35o, 2021. Zurique , Suíça: ETHZ urique, 2021.
Martínek, J., Lenc, L., & Král, P. (2020). Sistema OCR eficiente para documentos históricos com dados mínimos de treinamento. Computação e Aplicações Neurais, 32(12), 16753-16766.
CASTRO, Leandro Nunes de; FERRARI, Daniel Gomes. Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplicações. 1ª ed. São Paulo: Saraiva, 2016.
Referência: DEÂNDHELA, Tathiane. Faça o Tempo Trabalhar para Você. 2ª ed. São Paulo: Editora Ser Mais, 2016.