trabalho_concluido -2

•

Engenharias

0

dtf certo dtf certo

10/05/2024

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Eletrotécnica

13.749 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Reduzindo a carga de trabalho manual: Um modelo de extração de dados OCR para
validação de dados em certificado acadêmico PDF

1. Introdução
Os documentos em PDF são amplamente utilizados em vários setores, por exemplo
no setor educacional. Nesse setor, esse tipo de documento é essencial para a administração
de processos acadêmicos e a emissão de certificados. As instituições educacionais geram
uma quantidade significativa de documentos em PDF anualmente. Esse número pode ser
deduzido analisando o número de matriculas no ensino superior. Segundo o INEP (2023)
foram realizadas, em 2022, cerca de 9,5 milhões de matrículas.
Esse grande número de arquivos atualmente é analisado de forma manual pelas instituições
de ensino, se mostrando um processo ineficiente no tratamento dos documentos. O presente
projeto surge da necessidade de reduzir a carga de trabalho manual, aumentando a eficiência
no processo de validação de documentos acadêmicos e permitindo que recursos humanos
sejam realocados para tarefas que requerem maior capacidade analítica e crítica. De acordo
com Conga (2023), o uso de sistemas de inteligentes para o processamento de documentos
leva a uma redução de 30 a 50% no tempo gasto em tarefas relacionadas a análise. Além
disso erros causados por verificações manuais inadequadas geram um número significante
de hora extra de trabalho (Gartner).
Diante dos dados e características apresentados, o presente projeto tem o objetivo de
desenvolver um sistema para a extração de dados em arquivos PDF e a validação desses
documentos. O sistema proposto pode auxiliar a transformação digital nas práticas
administrativas das instituições educacionais, promovendo uma abordagem mais eficiente e
menos propensa a erros. Para atingir esse objetivo, foram definidos os seguintes objetivos
específicos:
• Definir uma técnica para conseguir fazer a extração dos arquivos PDF. O presente
projeto vai explorar como prova de conceito certificados de conclusão de curso;
• Realizar a mineração do texto para conseguir catalogar os dados necessários;
• Gerar um mecanismo de validação de dados encontrados no certificado;
• Gerar um método para medir a precisão do sistema proposto.

Espera-se que com esse trabalho possam ser alcançar uma série de benefícios tanto
operacionais quanto estratégicos na análise de documentos PDF. Dessa meta será visado
reduzir um tempo significante na validação dos documentos, aumentar a produtividade e
reduzir erros.
Os resultados da pesquisa foram organizados da seguinte maneira: A seção dois
expõe os referenciais teóricos, que fornecem as bases conceituais essenciais para a
fundamentação do projeto. A seção três descreve a metodologia proposta para o
desenvolvimento do sistema, enfatizando os aspectos cruciais para sua elaboração. Por fim,
a seção quatro detalha o cronograma, organizando as atividades propostas temporalmente.

2.Referencial teórico
A inteligência artificial (IA) compreende uma gama de abordagens, desde
metodologias formais, que priorizam a lógica e a racionalidade, até concepções mais
abstratas que se concentram em modelos teóricos com o objetivo de simular o raciocínio
humano e resolver problemas complexos. Princípios de psicologia, matemática e engenharia
foram integrados no desenvolvimento de modelos computacionais para atingir essas
capacidades. Em particular, a visão computacional surge como uma das áreas mais
fascinantes da IA buscando não apenas entender, mas também recriar e expandir a
capacidade visual humana. Este segmento da IA permite que máquinas interpretem e reajam
ao mundo visual de maneira semelhante aos seres humanos, abrindo novas possibilidades
para avanços tecnológicos em diversos campos, desde segurança até entretenimento
interativo (RUSSELL; NORVIG, 2021)

Expandindo as fronteiras da inteligência artificial (IA), a visão computacional emerge
como uma das suas aplicações mais promissoras e desafiadoras. Ao explorar as
complexidades da percepção visual humana, esta área da IA não se limita apenas a replicar,
mas também a aprimorar e expandir nossa capacidade de processar e interpretar informações
visuais. Essa área abrange o tratamento de imagens em diversos níveis, desde operações
básicas até procedimentos mais elaborados, reconhecimento de padrões , detecção de
objetos , tratamento e análises em dados tridimensionais , entre outros. (RUSSELL; NORVIG,
2021, SZELISKI, 2021).
Umas das técnicas para se trabalhar com dados de imagens são as neurais artificiais
. À medida que as Redes Neurais Artificiais avançam, sua capacidade de emular funções
cognitivas complexas do cérebro humano torna-se cada vez mais refinada. Essa evolução é
evidenciada não apenas no desenvolvimento de modelos como o Perceptron, mas também
na elaboração de estruturas mais especializadas, como as Redes Neurais multilayer
perceptron (MLP) e Redes Neurais Convolucionais (CNN). Inspiradas pela organização do
córtex visual humano, as CNN são particularmente adaptadas para analisar dados visuais,
empregando camadas que imitam a maneira como os neurônios respondem a estímulos em
uma região limitada do campo visual. Com sua habilidade única de preservar as relações
espaciais e temporais em imagens, as CNN representam um salto notável no processamento
de imagens e visão computacional, pavimentando o caminho para avanços revolucionários
em aplicações que vão desde o reconhecimento facial automático até a análise de imagens
médicas.(SILVA; PERES; BOSCARIOLI, 2016)

Arquitetura CNN é caracterizada pela presença de camadas convolucionais que não
só aplicam filtros para identificar e extrair padrões e características significativas das imagens,
mas também realizam a redução de resolução espacial para minimizar sensibilidades a
pequenas distorções. A implementação dessas técnicas permite que as CNNs ofereçam uma
boa robustez , facilitando a tarefa de reconstruir a complexidade visual de forma hierárquica
e sistemática. Este mecanismo de processamento faz das CNNs ferramentas essenciais para
enfrentar desafios em áreas que requerem reconhecimento visual acurado, como análise de
vídeo e reconhecimento de padrões em séries temporais, reconhecimento e extração de texto
em imagens e processamento de linguagem natural.(SZELISKI, 2021)

Para alcançar objetivo desse projeto de pesquisa foram analisados trabalhos do
estado da arte para se verificar quais são as principais técnicas de extração de texto em
imagens, mineração desses textos e a devida validação dos resultados alcançados. A partir
dessas análises foi possível estabelecer a metodologia mais adequada para desenvolvimento
do projeto .Para o levantamento bibliográfico foram consultadas as bases de artigos científicos
ieeeexplore e scopus ;foram utilizadas as palavras chaves OCR e OCR PDF , resultando na
analise detalhada de artigos. Dentre os artigos analisados destacam-se os trabalhos de Thi ,
Do Yoo(2023), Sugiyono et al. (2023)e Chakraborty, Liu e Hsu (2003).
A pesquisa recente de Thi , Do e Yoo (2023) desenvolveu um sistema de
Reconhecimento Óptico de Caracteres (OCR) destinado a extrair informações de capas de
livros vietnamitas. A precisão do sistema foi de 84,06% por palavra, com taxas de WER de
22,67% e CER de 22,41%, apontando para a eficácia do método, porém com margem para
melhorias em precisão e velocidade de processamento. As dificuldades apontadas foram
relacionadas a distinção entre categorias de texto como 'Autor' e 'Outros'devido à proximidade
nas capas, o estudo emprega modelos como EAST e SAST e foram testados os modelos
CRNN, SVTR e Transformer OCR .O uso de CNN se mostrou eficiente para extração de
caracteres em imagem e será utilizada nesse projeto de pesquisa .
O estudo realizado por Sugiyono et al. (2023) propõe um sistema de Reconhecimento
Automático de Números de Placas (ANPR)que emprega a tecnologia de Reconhecimento
Óptico de Caracteres (OCR), utilizando a engine OCR Tesseract. Este sistema foi capaz de
localizar, segmentar e reconhecer automaticamente as placas de licença de veículos, . O
sistema ANPR desenvolvido demonstra a aplicabilidade dessa tecnologia nesse contexto
com uma precisão de 83,3%. A utilização da engine OCR Tesseract também foi considerada
para o desenvolvimento do projeto proposto .
Ja o estudo de Chakraborty, Liu e Hsu (2003) introduz uma metodologia para extração
automática de Unidades de Informação Ancoráveis (AIUs) de documentos PDF visando a
transformação desses documentos em formatos de hipermídia interativos, O estudo fez uso
de tecnologia de Reconhecimento Óptico de Caracteres (OCR) para extrair textos de
documentos PDF, O artigo não especifica a precisão exata dos métodos propostos, mas
reconhece que o desempenho do OCR pode ser insatisfeito em documentos digitalizados
devido à qualidade variável das digitalizações e ao layout complexo dos documentos. O
trabalho analisado indica direções e pontos de atenção para problemas relacionados a
qualidade do documento e layout, elementos que serão considerados e serão tratados no
presente projeto.

3.Metodologia
Da análise dos trabalhos relacionados , de da preposição de um pypelyne de documentos foi
definia a metodologia proposta para essa pesquisa. O processamento e validação de
documentos será analisada de uma sequência de analises , organizado em um "pypelyne" ,
metodologia proposta prevê a analise da base de dados que será composta por certificado
de conclusão de curso que serão gerados de forma sintética .,Extraídos dos documentos
utilizando técnicas de OCR., Mineração dos textos extraídos para organização dos dados e
validação .,E validação dos resultados alcançados.

3.1. Análise da Base de Dados
Na primeira etapa, será realizada uma análise da base de dados a ser utilizada no
projeto. A base de dados será gerada de forma sintética, simulando certificados emitindo para
obtenção ou validação de hora complementares todos em formato PDF, considerando fontes
de caracteres diferentes . Nem uma informação de alunos será gerada para esse banco de
dados, sendo os dados gerados fictícios. O processo da análise de dados será iniciado pela
revisão da estrutura do documento; Esse passo se faz necessário para entender a estrutura
do PDF , e identificar elementos presente como texto , tabelas e imagens. Em seguidas os
campos que deverão ser extraídos e são relevantes para o projeto, serão analisados, como
nome do aluno, quantidade de horas emitidas, informações do curso ou treinamento e data
de realização. Validação de horas complementares considera esses dados para validação
das horas. Por fim a base de dados será preparada para ser processada pelo pypelyne
proposto , por exemplo padronização de nome de arquivo e definição de diretório.

3.2. Extração de Dados com OCR
A segunda etapa envolverá a extração de dados dos PDFs utilizando técnicas de
Reconhecimento Óptico de Caracteres (OCR). Para construir o mecanismos de extração será
usada a engine OCR Tesseract Kay (2007) Para utilizar essa engine no projeto proposto ,
será necessário realizar a sua configuração , para reconhecer o idioma dos documentos , uma
outra configuração , será apontar a o conjunto de fontes utilizadas nos documentos . O
processo de definir essas fontes serve como fine-turning do documento genérico , recurso
capaz de melhoras significante a precisão dos caracteres . Apos a extração os serão tratados
e estruturados para facilitar na mineração que será feita na etapa seguinte

3.3 Mineração de Texto nos PDFs
Na terceira etapa, será realizada a mineração do textos extraído dos PDFs para
identificar padrões e informações relevantes. As técnicas a serem utilizadas para mineração
de texto serão: análise de palavras-chave, em que as palavras chaves mais frequentes serão
identificadas para servi de guia para encontrar termos importantes; encontrar os dados de
nome do aluno, quantidade de horas, curso ou treinamento realizado e data de conclusão; e
agrupar informações em categorias, com o objetivo de facilitar a análise e validação dos dados
.

3.4 Validação dos Resultados
A quarta e última etapa consistirá na validação dos resultados obtidos durante as
etapas anteriores. A validação será realizada comparando a saída do sistema com a saída
esperada :Os resultados do sistema serão comparados com os dados esperados, verificando
se as informações extraídas estão corretas. A partir da comparação, será calculada a taxa de
erros e acertos para avaliar a eficácia do sistema. Com base nos resultados da validação,
serão feitos ajustes para melhorar a precisão e reduzir erros.

4. Cronograma de execução
A organização das atividades que serão desenvolvidas no projeto é apresentada na tabela 1.

Tabela 1 – Cronograma de atividades propostas no projeto de pesquisa.

Atividades
Meses
1 2 3 4 5 6 7 8 9 10 11 12
Planejamento e Configuração Inicial
x
Desenvolvimento e Teste Inicial do OCR
x x x
Treinamento do Modelo de OCR x x x
Coleta de Dados e Validação dos Dados x x
Análise Final dos Resultados
x x
Preparação para Publicação e Divulgação
x x

5 Referências
CHAKRABORTY, A.; LIU, P.; HSU, L. Extracting anchorable information units from pdf files.
In: 2003 International Conference on Multimedia and Expo. ICME ’03. Proceedings (Cat.
No.03TH8698). Baltimore, MD, USA: IEEE, 2003.
KAY, A. Tesseract: an open-source optical character recognition engine. Linux J., Belltown
Media, Houston, TX, v. 2007, n. 159, p. 2, jul 2007.
RUSSELL, S.; NORVIG, P. Inteligência artificial. Rio de Janeiro: LTC, 2021.
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com
aplicações em R. Rio de Janeiro: Elsevier, 2016.
SUGIYONO, A. Y. et al. Extracting information from vehicle registration plate using ocr
tesseract. Procedia Computer Science, Elsevier BV, v. 227, p. 932–938, 2023.
SZELISKI, R. Computer Vision: Algorithms and Applications. New York: Springer, 2021.
THI, T. N.; DO, T.-H.; YOO, M. Implementation of ocr system on extracting information
fromvietnamese book cover images. In: 2023 International Conference on Advanced
Technologies for Communications (ATC). Da Nang, Vietnam: IEEE, 2023.

Conteúdos escolhidos para você

74 pág.

2019_ViniciusDaSilvaCarvalho_tcc

UPE

Silmara Amorim

71 pág.

Dissertacao_JoaoGabrielJunqueira (1)

Keller Lima

78 pág.

automacao-de-captura-de-dados-em-documentos-pre-hospitalar

UFRJ

Aprendendo na Universidade

30 pág.

MINERAÇÃO-DE-TEXTOS-EM-R

UERJ

Bruna Lopes de Assis

44 pág.

Nathalia-Marislei

Cristina Castro

Perguntas dessa disciplina

Aplicando a radiciação, calcule Escolha uma opção: a. 7(21/2)/10 b. 7/10 c. 7(21/2)/5 d. 14/[5(21/2)] a. 7(21/2)/10 b. 7/10 c. 7*(21/2)/5 d. ...

Aprendendo Através de Exercícios

Aplicando a radiciação, calcule Escolha uma opção: a. 3(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2) a. 3(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2)

Aprendendo Através de Exercícios

Calcule Escolha uma opção: a. 25 b. 2,24 c. 5 d. 51/2 a. 25 b. 2,24 c. 5 d. 51/2

Aprendendo Através de Exercícios

Por Nodos: ???????? − ???? ????1 = ???? ????2 + ???? ????3 ???????? ????1 = 1 ????2 + 1 ????3 + 1 ????1 ???? ???????????? ???????? = ???????????? = ???? ????3 ???? = ???????? ????1 ????2????3????1 ????3????1 + ????2????...

Estudando com Questões

FATOR t-CRÍTICO (α=5%) n t-CRÍTICO 2 6,314 3 2,920 4 2,353 5 2,132 6 2,015 7 1,943 8 1,895 9 1,860 10 1,833 11 1,812 12 1,796 13 1,782 14 1,771 15...

Estudo Através de Questões

trabalho_concluido -2

Engenharias

Eletrotécnica

Continue navegando

Conteúdos escolhidos para você

Perguntas dessa disciplina

Aplicando a radiciação, calcule Escolha uma opção: a. 7(21/2)/10 b. 7/10 c. 7(21/2)/5 d. 14/[5(21/2)] a. 7(21/2)/10 b. 7/10 c. 7*(21/2)/5 d. ...

Aplicando a radiciação, calcule Escolha uma opção: a. 3(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2) a. 3(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2)

Calcule Escolha uma opção: a. 25 b. 2,24 c. 5 d. 51/2 a. 25 b. 2,24 c. 5 d. 51/2

Por Nodos: ???????? − ???? ????1 = ???? ????2 + ???? ????3 ???????? ????1 = 1 ????2 + 1 ????3 + 1 ????1 ???? ???????????? ???????? = ???????????? = ???? ????3 ???? = ???????? ????1 ????2????3????1 ????3????1 + ????2????...

FATOR t-CRÍTICO (α=5%) n t-CRÍTICO 2 6,314 3 2,920 4 2,353 5 2,132 6 2,015 7 1,943 8 1,895 9 1,860 10 1,833 11 1,812 12 1,796 13 1,782 14 1,771 15...

Outros materiais

trabalho_concluido -2

Engenharias

Eletrotécnica

Continue navegando

Conteúdos escolhidos para você

Perguntas dessa disciplina

Aplicando a radiciação, calcule Escolha uma opção: a. 7*(21/2)/10 b. 7/10 c. 7*(21/2)/5 d. 14/[5*(21/2)] a. 7*(21/2)/10 b. 7/10 c. 7*(21/2)/5 d. ...

Aplicando a radiciação, calcule Escolha uma opção: a. 3*(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2) a. 3*(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2)

Calcule Escolha uma opção: ﻿a. 25 b. 2,24 c. 5 d. 51/2 a. 25 b. 2,24 c. 5 d. 51/2

Por Nodos: ???????? − ???? ????1 = ???? ????2 + ???? ????3 ???????? ????1 = 1 ????2 + 1 ????3 + 1 ????1 ???? ???????????? ???????? = ???????????? = ???? ????3 ???? = ???????? ????1 ????2????3????1 ????3????1 + ????2????...

FATOR t-CRÍTICO (α=5%) n t-CRÍTICO 2 6,314 3 2,920 4 2,353 5 2,132 6 2,015 7 1,943 8 1,895 9 1,860 10 1,833 11 1,812 12 1,796 13 1,782 14 1,771 15...

Outros materiais

Aplicando a radiciação, calcule Escolha uma opção: a. 7(21/2)/10 b. 7/10 c. 7(21/2)/5 d. 14/[5(21/2)] a. 7(21/2)/10 b. 7/10 c. 7*(21/2)/5 d. ...

Aplicando a radiciação, calcule Escolha uma opção: a. 3(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2) a. 3(71/2)/7 b. 3/7 c. 21/(71/2) d. 1/(71/2)

Calcule Escolha uma opção: a. 25 b. 2,24 c. 5 d. 51/2 a. 25 b. 2,24 c. 5 d. 51/2