Recognition of handwritten digits using the signature features and Optimum-Path Forest Classifier

•

IFCE

Gustavo Siebra

23.05.2017

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Aprendizado de Máquina

288 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Abstract— There is a growing need for recognition of digits 
manuscripts for use in various situations, such as recognition of 
handwritten postal address digits for automated redirection of 
letters in the mail, acknowledgment of nominal values in bank 
checks. Recognition of handwritten digits faces great difficulty in 
dealing with intra-class variation due to different writing styles, 
different degrees of inclination of the characters. Optical 
character recognition systems, also known as OCR, identifying 
and recognizing printed characters through images, an already 
widespread functionality in scanners, mobile devices, among 
others. This paper presents the use of the classifier Optimum-
Path Forest (OPF) applied in handwriting recognition digits. A 
new feature extraction method is proposed using signature of the 
characters, and the OPF algorithm is used in the classification. 
According to the results presented, it appears that the detection 
and recognition of characters are being carried out satisfactorily 
in the Manhattan distance stood out with an average accuracy of 
99.53%, and get training times and test lower than the other 
methods such as It is the characteristic of OPF method. 
 
Keywords— Machine learning techniques, Pattern 
Recognition, Digital Image Processing, Computer Vision, OCR 
Applications, Optimum-Path Forest, OPF. 
I. INTRODUÇÃO 
 OMPUTADORES podem executar muitas operações 
com um tempo consideravelmente menor que os humanos 
poderiam fazer. Contudo, nem sempre, essa rapidez é a melhor 
escolha para resolver um problema. Muitas tarefas com as 
quais os computadores falham consideravelmente os humanos 
fazem melhor. Muitas dessas tarefas, nas quais os 
computadores perdem estão relacionadas à natureza 
interpretativa e de multiprocessamento do cérebro. Uma 
maneira simples de caracterizar bem a diferença entre o 
computador e Homem seria comparar o computador, que é 
uma máquina serial, com o nosso cérebro, que é altamente 
paralelo e possui como característica principal a capacidade de 
aprender coisas [1]. 
O reconhecimento ótico de caracteres (Optical Character 
Recognition - OCR) permite que uma máquina possa 
reconhecer automaticamente um caractere através de um 
mecanismo óptico. As tentativas da engenharia em reconhecer 
caracteres impressos, ou manuscritos, iniciaram antes da 
Segunda Guerra Mundial, mas isso não foi possível até a 
 
G. S. Lopes, Instituto Federal de Educação, Ciência e Tecnologia do Ceará 
(IFCE), Fortaleza, Ceará, Brasil, gustavo.lopes@ppgcc.ifce.edu.br 
D. C. da S. Vieira, Instituto Federal de Educação, Ciência e Tecnologia do 
Ceará (IFCE), Fortaleza, Ceará, Brasil, davidclifte@ppgcc.ifce.edu.br 
A. W. de O. Rodrigues, Instituto Federal de Educação, Ciência e 
Tecnologia do Ceará (IFCE), Fortaleza, Ceará, Brasil, wendell@ifce.edu.br 
P. P. Rebouças Filho, Instituto Federal de Educação, Ciência e Tecnologia 
do Ceará (IFCE), Fortaleza, Ceará, Brasil, pedrosarf@ifce.edu.br 
década de 50, quando a associação dos Bancos e a Indústria 
dos serviços financeiros criaram fundos para a pesquisa e 
desenvolvimento da tecnologia [2,3]. 
Existem muitos documentos de importância histórica, 
técnica e econômica que existem somente na forma impressa, 
como cartas nos correios que precisam ter o CEP reconhecido, 
cheques de banco onde o seu valor manuscrito e assinatura 
devem ser identificado, esse processo consome muito tempo e 
com alta possibilidade de erros. Um sistema OCR pode ajudar 
a reduzir os custos de digitalização destes documentos. 
Existem muitas técnicas bem sucedidas de implementação de 
OCR que vêm sendo aplicadas em áreas como reconhecimento 
de texto manuscrito, reconhecimento de texto impresso de 
forma mecânica, e reconhecimento de notas musicais [4-6]. 
O classificador de padrões OPF (Optimum-Path Forest), foi 
criado com o intuito de aliar eficiência no processo de 
treinamento, com eficácia na etapa de classificação dos dados, 
é um Framework, e também considerado um classificador de 
abordagem matemática simples e fundamentado em conceitos 
de Teoria dos grafos [7,8] vem sendo amplamente utilizado 
em aplicações de reconhecimento de padrões. 
Classificadores neurais tendem a possuir um desempenho 
significantemente melhor que outros tipos de classificadores 
nessa base. Algoritmos convolutivos lideram os registros das 
melhores taxas de classificação. O trabalho mais bem sucedido 
utiliza uma associação de redes convolutivas junto com o 
aumento da base de treinamento utilizando distorções 
elásticas, tendo obtido uma taxa de erro de 0,27%. 
Este trabalho propõe uma nova abordagem de extração e 
classificação de caracteres manuscritos baseado na extração de 
características usando a assinatura dos caracteres, e propõe a 
classificação de dígitos manuscritos utilizando o algoritmo de 
aprendizagem Optimum-Path Forest (OPF) mantendo uma 
taxa de erro equivalente ou menor que os classificadores atuais 
[9,10]. 
II. RECONHECIMENTO ÓPTICO DE CARACTERES 
Nesta seção é descrito a base de dados utilizada para este 
estudo, o Mixed National Institute of Standards and 
Technology (MNIST). Além disto, apresenta a abordagem 
proposta para extração dos atributos e para a classificação 
utilizando o método OPF. 
A. Base de Dados: MNIST 
O banco de dados Mixed National Institute of Standards 
and Technology (MNIST) [11], disponível em 
http://yann.lecun.com/exdb/mnist/. Há 60.000 imagens de 
formação (algumas dessas imagens de treinamento também 
podem ser utilizados para fins de validação cruzada), os 
C 
Recognition of Handwritten Digits Using the 
Signature Features and Optimum-Path Forest 
G. S. Lopes, D. C. da S. Vieira, A. W. O. Rodrigues and P. P. Rebouças Filho 
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016 2455
padrões foram obtidos de aproximadamente 250 autores 
diferentes. Todos estes dígitos são preto e branco de tamanho 
normalizado, e centrada em uma imagem de tamanho fixo, em 
que o centro de gravidade da intensidade encontra-se no centro 
da imagem com 28 x 28 pixels. Assim, a dimensionalidade de 
cada amostra vetor imagem é de 28 x 28 = 784, onde cada 
elemento é binário. 
Devido à grande quantidade de publicações utilizando a 
base MNIST [11], o que nos permite comparar resultados 
obtidos, foi adotado essa base para realização dos 
experimentos desta pesquisa. 
B. Extração de Características proposto basado na 
assinatura dos caracteres 
Em Processamento Digital de Imagens, a extração de 
características é a retirada de informações da imagem [12,13]. 
Sendo assim, este trabalho propõe as seguintes características 
para classificação dos caracteres [14]: 
- Aspecto: O aspecto é uma taxa que descreve quanto a 
largura de um objeto é comparada com sua altura. Isso é uma 
importante característica pois permite que seja classificado se 
um objeto é realmente um caractere ou não. 
- Área preenchida: É o percentual de pixels com 
intensidade maior que um limiar de um objeto em relação aos 
outros. 
- Projeção horizontal e vertical: Projeção consiste na 
contagem dos pixel existentes em uma determinada linha ou 
coluna com intensidade maior que um limiar. Neste trabalho 
foram computados estas projeções após o redimensionamento 
do caractere para um tamanho padrão. 
- Posição e valor de pico máximo horizontal e vertical: A 
posição e valor do pico máximo é utilizado para obter uma 
informação quanto a forma do caractere. 
A Tabela I exibe o valor médio e desvio padrão calculado 
em função das características extraída para cada dígito que 
será classificado. 
TABELA I 
ASPECTO (AS), ÁREA PREENCHIDA (AP), POSIÇÃO DE PICO 
MÁXIMO HORIZONTAL (PPH) E VERTICAL (PPV), VALOR DE PICO 
MÁXIMO HORIZONTAL (PVH) E VERTICAL (PVV) PARA CADA 
DÍGITODígito As(%) Ap(%) Pph(%) Ppv(%) Pvh(%) Pvv(%) 
0 92,5±15,7 54,9±7,4 24,0±14,7 26,3±13,2 23,2±5,1 24,7±6,1 
1 46,5±19,6 52,3±17,1 57,2±27,0 25,1±10,4 25,1±10,2 49,4±36 
2 96,0±18,9 48,2±7,3 30,2±9,7 33,5±8,5 23,8±5,5 27,8±7,0 
3 82,9±15,6 50,3±7,9 37,5±9,8 23,3±14,7 23,8±4,9 27,5±7,8 
4 82,4±15,5 43,9±6,5 32,4±13,7 23,8±4,0 23,0±6,5 30,9±8,5 
5 96,0±22,4 45,3±8,4 23,0±10,5 20,0±13,9 21,7±5,3 23,7±7,9 
6 76,1±15,3 52,2±6,9 22,1±10,6 31,4±5,3 22,5±5,0 34,1±10 
7 80,7±15,8 41,7±6,6 34,3±12,3 8,5±4,6 21,3±6,4 32,3±8,8 
8 79,7±16,1 55,8±8,7 25,8±12,0 16,0±10,9 25,5±4,8 27,3±8,9 
9 71,2±14,0 50,6±6,6 39,3±13,5 18,2±5,7 24,7±6,1 34,3±9,8 
 A Fig. 1 mostra as projeções horizontais 1(a) e verticais 
2(b) do dígitos de 0 - 9. No eixo das abscissas temos o valor 
da projeção no eixo horizontal ou vertical, um valor alto indica 
que na posição indicada temos uma intensidade de pixel maior 
naquela linha ou coluna. No eixo das ordenadas temos a qual 
dígito a projeção se refere. 
 
 
(a) 
 
(b) 
 
Figura 1. Projeção a)Horizontal e b) Vertical dos dígitos de 0-9. 
III. MÉTODO DE CLASSIFICAÇÃO 
O papel do classificador é dividir o espaço de 
características em regiões que correspondem as classes do 
problema em análise [15]. Neste trabalho, a abordagem 
proposta é usar o classificador Optimum-Path Forest (OPF). 
O OPF é um framework para classificar padrões baseado 
em partições de gráficos ótimos, em que cada amostra é 
representado como um nó de um grafo completo, e os arcos 
entre eles são ponderados pela distância dos seus vetores de 
características correspondentes [16]. 
A ideia por trás OPF é governar um processo de 
concorrência entre algumas amostras chave (protótipos), a fim 
de particionar o gráfico em árvores de caminhos ótimos 
(Optimum Path Trees - OPTs), que será enraizadas em cada 
protótipo. As amostras que pertencem ao mesmo OPT estão 
mais fortemente ligados à sua raiz (protótipo) do que para 
qualquer outro na floresta de caminho ótimo [16]. 
Protótipos atribuem os seus custos (i.e., seu caminho de 
menor peso ou o arco de peso máximo ao longo de um 
caminho) para cada nó, e o protótipo que oferecer o custo de 
Dí
git
o 
m
an
us
cr
ito
 
Números maior que um limiar na horizontal.
Números maior que um limiar na vertical.
Dí
git
o 
m
an
us
cr
ito
 
2456 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016
caminho ótimo vai conquistar esse nó, que será marcado com 
a etiqueta do mesmo protótipo [9]. 
Deixe 21= ZZZ ∪ ser o conjunto de dados marcado com 
a função λ, em que 1Z e 2Z são, respectivamente, o 
treinamento e teste os conjuntos tal que 1Z é usado para 
treinar um determinado classificador e 2Z é usado para 
avaliar sua precisão. Deixe 1ZS ⊆ é um conjunto de amostras 
de protótipo. Essencialmente, o classificador OPF cria uma 
partição ótima de características discreta do espaço tais que 
qualquer amostra 2Zs ∈ podem ser classificadas de acordo 
com esta partição. Esta partição é uma floresta de caminho 
ótimo (OPF) calculado em nℜ pelo Image Foresting 
Transform (IFT) algoritmo [16]. 
O algoritmo OPF pode ser usado com qualquer suavização 
na função de caminho de custo para cada grupo de amostra 
com propriedade semelhante [16]. 
Particularmente, usamos a função de caminho-cost maxf , 
que é calculado da seguinte forma: 
 

∞+
∈
contráriocaso
Ssse
smaxf
,0=)( 
 )},,(),({max=),( tsdmaxftsmaxf ππ ⋅ (1) 
Em que d(s,t) significa a distância entre amostras s e t, e o 
caminho π é definida como uma sequência de amostras 
adjacentes. 
Desta forma, temos que )(πmaxf calcular a distância 
máxima entre amostras adjacentes em pi, quando π não é um 
caminho trivial. 
O algoritmo OPF atribui um caminho ótimo P∗(s) de S para 
cada amostra s ∈ 1Z , formando uma floresta de caminhos P 
ideal (a função com nenhum ciclo que atribui a cada s ∈ 1Z \S 
seu antecessor P(s) em P∗(s) ou um marcador zero quando s ∈ 
S. 
Deixe R(s) ∈ S ser a raiz de P∗(s) que pode ser alcançado a 
partir de P(s). O algoritmo OPF calcula para cada s ∈ 1Z , o 
custo C(s) de P∗(s), o rótulo L(s) = λ(R(s)), e o predecessor 
P(s). 
O classificador OPF é composto por duas fases distintas: (i) 
formação e (ii) de classificação. Os passos consistem, 
essencialmente, em encontrar os protótipos e computar a 
floresta de caminhos ótimos, que é a união de todos os OPTs 
enraizadas em cada protótipo. 
Então, vamos dar uma amostra a partir da amostra de teste, 
ligue-o a todas as amostras da floresta de caminhos ótimos 
gerado na fase de treinamento e avaliamos qual nó ofereceu o 
melhor caminho para ele. 
Observe que este exemplo de teste não é permanentemente 
adicionados ao conjunto de treinamento, ou seja, é utilizada 
apenas uma vez. A implementação utilizado para o OPF neste 
trabalho foi a proposta por Papa et al. [17]. 
IV. RESULTADOS 
Os resultados obtidos utilizando a abordagem proposta 
foram obtidos por cinco repetições no software Microsoft 
Visual Studio Express 2012 em um processador de 2,40 GHz 
Core i5 Sony Vaio com 6GB de RAM. 
Na Fig. 2 temos os dígitos manuscritos utilizado para 
extrair as características e montar a base de dados que será 
usado no algoritmo de classificação. 
 
 
 
Figura 2. Dígitos manuscritos da base de dados MNIST obtidos pelo pré-
processamento do método proposto. 
 
Foram extraídos 22 atributos de cada caractere em 71.30 
segundos, de sessenta mil e dezoito amostras. Essas 
características foram armazenadas em um arquivo no formato 
TXT para que sejam utilizadas no classificador. A Tabela 2 
ilustra a quantidade de amostras por classe. 
 
TABELA II 
QUANTIDADE DE AMOSTRAS POR CLASSE 
 
Dígito Classe No de elementos 
0 1 5941 
1 2 6742 
2 3 5958 
3 4 6131 
4 5 5842 
5 6 5421 
6 7 5918 
7 8 6265 
8 9 5851 
9 10 5949 
 
Os testes foram executados usando o modelo holdout. Este 
método consiste em dividir o conjunto total de dados em dois 
subconjuntos mutuamente exclusivos, um para treinamento 
(estimação dos parâmetros) e outro para teste (validação). O 
conjunto de dados pode ser separado em quantidades iguais ou 
não [2]. Nesse trabalho a proporção é de 50% para dados de 
treinamento e 50% para teste. 
Para todos os parâmetros apresentados na Tabela 3 são 
apresentados os resultados obtidos usando a abordagem 
SIEBRA LOPES et al.: RECOGNITION OF HANDWRITTEN 2457
proposta com o método OPF para sete distâncias para 
reconhecer as 10 classes de dígitos. 
 
TABELA III 
ACURÁCIA (ACC), TEMPO DE TREINO, E TEMPO DE TESTE PARA 
CADA DISTÂNCIA DO CLASSIFICADOR OPF 
 
Distância Acc(%) Tempo de Treino Tempo de Teste 
BrayCurtis 88.23±0.11 134.80±0.81 0.00296±0.00004 
Canberra 98.10±0.04 148.623±0.17 0.00446±0.00005 
Chi-Square 84.38±0.21 526.00±0.77 0.01530±0.00181 
Euclidiana 99.30±0.04 97.04±1.26 0.00336±0.00009 
Gaussiana 98.59±0.03 120.65±0.22 0.00358±0.00003 
Manhattan 99.53±0.03 118.04±1.38 0.00360±0.00001 
Squared Chi-
Squared 98.85±0.06 791.65±0.63 0.01855±0.00004 
 
De acordo com os resultados apresentados na Tabela 3, a 
distância Manhattan destaca-se pela precisão um pouco 
superior às demais distâncias. Contata-se também que a 
distância Euclidiana destaca-se pelo menor tempo de treino e 
baixo tempo de teste, que são critérios importantes para 
aplicações embarcadas. 
Visando comparar os resultados obtidos com outros da 
literatura, as Tabelas 4 e 5 apresentam resultados obtidos em 
trabalhos anteriores, sendo a Tabela 4 os resultados obtidos 
por LeCun [18] e a Tabela 5 os resultados obtidos por outros 
autores [15, 20-32]. 
 
TABELA IV 
TAXA DE ACURÁCIA PARA DIFERENTES CLASSIFICADORES 
OBTIDA POR LE [18] 
 
Métodos Pré-Processamento 
Taxa de 
Acerto(%) 
(Classificadores Linear) 
linear classifier(1-layer NN) none 88.00 
linear classifier (1-layer NN) deskewing 91.60 
(K-vizinhos mais próximos) 
KNN, Euclidean (L2) none 95.00 
KNN, Euclidean (L2) (Non-Linear 
Classifiers) deskewing 97.60 
40 PCA + quadratic classifier none 96.70 
1000 RBF + linear classifier none 96.40 
( SVMs ) 
Reduced set SVM poly 5 deskewing 99.00 
Virtual SVM poly 9 none 99.20 
(Redes convolucionais) 
Boosted LeNet-4 [distortions] none 99.30 
LeNet-5 (no distortions) none 99.05 
LeNet-5 [distortions] none 99.20 
(Rede Neural) 
2-layer NN, 300 HU deskewing 98.40 
2-layer NN, 1000 hidden units none 95.50 
2-layer NN, 1000 HU, [distortions] none 96.20 
 
Analisando os resultados apresentados na Tabela 4, pode-se 
constatar que os classificadores baseados em redes neurais 
tendem a um desempenho significativamente melhor do que 
outros tipos de classificadores. Especificamente, a estrutura de 
convolução em redes neurais é responsável por um 
desempenho de excelente classificação. 
 
 
TABLE V 
TAXA DE ACERTO PARA A BASE MNIST POR DIFERENTES 
TRABALHOS 
 
 Referência Método Acc 
[20] AT&T human performance 99.8 
— Euclidean nearest neighbor 96.5 
[21] U Lige decision trees + sub-windows 97.37 
[22] RWTH one-sided tangent distance 98.1 
[23] AT&T neural net LeNet1 98.3 
[24] UC London products of experts 98.3 
[25] U Qu´ebec hyperplanes + support vector m. 98.5 
[25] TU Berlin support vector machine 98.6 
[23] AT&T neural net LeNet4 98.9 
[20] AT&T tangent distance 98.9 
[22] RWTH two-sided tangent d., virt. data 99.0 
[26] MPI, AT&T virtual SVM 99.2 
[27] U Singapore bio-inspired features + SVM 99.28 
[15] Caltech,MPI virtual SVM (jitter) 99.32 
[28] U Singapore deslant, biology-inspired features 99.41 
[29] Boston U cascaded shape context 99.42 
[15] Caltech,MPI deslant, virtual SVM (jitter,shift) 99.44 
[29] Boston U shape context matching 99.46 
[30] RWTH deformation model (IDM) 99.46 
[31] Hitachi preprocessing, support vector m. 99.58 
[32] Microsoft neural net + virtual data 99.58 
 
A Tabela 5 dá uma visão abrangente das taxas de acerto 
usada para os dados MNIST. Note que em algumas 
publicações (por exemplo, [19]), os autores explicitamente 
mostram o estado que todos os parâmetros do sistema foram 
escolhidos usando um subconjunto do conjunto de treinamento 
para validação, que, em seguida, exclui a overadaptation para 
o conjunto de teste. No entanto, existe a tendência de se 
avaliar um método com diferentes parâmetros ou diferente 
métodos várias vezes sobre os mesmos dados até o melhor 
desempenho parecer ter sido alcançado. Este procedimento 
leva a uma estimativa demasiado otimista da taxa de acerto do 
2458 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016
classificador, o número de parâmetros ajustados devem ser 
considerados quando julgar tais taxas de acerto [18], o que não 
dá para avaliar nos trabalhos citados. 
Para analisar os erros do método proposto, a Tabela 6 
apresenta os resultados de f-score e acurácia para cada um dos 
dígitos manuscritos, considerando os valores de 0 a 9 para a 
rodada média que obteve o desempenho 99,53% de acurácia 
em geral. 
 
TABLE VI 
TAXA DE ACURÁCIA E F-SCORE PARA O MÉTODO PROPOSTO 
CONSIDERANDO AS CLASSES SEPRADAMENTE, E DE FORMA 
GERAL 
 
Dígito acc f-score 
0 99.91 % 99.98 % 
1 99.81 % 99.96 % 
2 98.66 % 99.78 % 
3 99.43 % 99.89 % 
4 99.73 % 99.95 % 
5 98.96 % 99.73 % 
6 99.65 % 99.93 % 
7 99.82 % 99.96 % 
8 99.81 % 99.96 % 
9 99.72 % 99.95 % 
Geral 99.53 % 99.91 % 
 
Analisando os resultados obtidos, percebe-se que a acurácia 
de todos os dígitos é superior à 99%, exceto dos dígitos ‘2’ e 
‘5’. Isto ocorre porque em alguns casos estes dois números se 
confundem devido a assinatura na horizontal e a área dos 
mesmos possuírem informações próximas, onde os mesmos se 
diferenciam basicamente pela assinatura vertical. Sendo assim, 
como os caracteres da base MNIST são manuscritos, em 
alguns casos o erro é gerado. 
Para avaliar o classificar proposto na metodologia deste 
trabalho, o método OPF com a distância Manhatan, que obteve 
o melhor desempenho entre as distâncias do OPF foi 
submetido à uma análise de variação de percentual de treino e 
teste, e os resultados obtidos são apresentados na Tabela 7. 
 
TABLE VII 
 TAXA DE ACURÁCIA E F-SCORE PARA O MÉTODO PROPOSTO 
CONSIDERANDO AS CLASSES SEPRADAMENTE, E DE FORMA 
GERAL 
 
% treino / % teste 20/80 40/60 60/40 80/20 
ACC 99,25% 99,50% 99,53% 99,53 
Tempo de treino (s) 116,26 117,34 117,11 119,21 
Tempo de teste (s) 0,00354 0,00365 0,00371 0,00368 
 
Analisando os resultados obtidos na Tabela 7, pode-se 
constatar que o método OPF obtém valores acima de 99% em 
todos os testes, independente do percentual de treino utilizado. 
Vale ressaltar também que os tempos de treino e teste deste 
classificador pouco se alteram mesmo aumentando o número 
de dados utilizados para treino significativamente. 
A partir dos resultados obtidos pela abordagem proposta, 
pode-se constatar que a abordagem proposta de extração e 
classificação é similar às demais abordagens utilizadas em 
trabalhos anteriores. 
V. CONCLUSÃO 
Neste trabalho foi proposto a busca por um valor máximo 
para taxa de acerto da classificação de dígitos manuscritos 
utilizando o algoritmo de aprendizagem Optimum-Path Forest 
(OPF) para base de dados MNIST. 
A detecção e reconhecimento dos caracteres estão sendo 
realizados satisfatoriamente, em que a distância Manhatan se 
destacou com acurácia de 99.53% em média, se aproximando 
dos melhores métodos descritos na literatura que utilizam esta 
base de dados. O melhor tempo médio de treino e teste foi 
obtido pela distância Euclidiana, que tende a ser superior aos 
demais métodos devido à própria definição de treino e teste do 
OPF. 
Para trabalhos futuros, iremos testar outros métodos para 
extração de características, identificar os melhores atributos 
para classificação, usar uma base de caracteres e paralelizar o 
método OPF para diminuir o custo computacional usando 
General-Purpose computation on Graphics Processing Units 
(GPGPU). 
REFERÊNCIAS 
[1] D. M. P. A. de Lima and N. A. Jr. Introdução à redes neurais. CBPF-
NT, 6:21p, 1997. 
[2] Theodoridis, S.; Koutroumbas, K. Pattern Recognition. 4. ed. San 
Diego, California: Elsevier, 2009. 
[3] H. Schantz. The History of OCR: Optical Character Recognition. 
1982. 
[4] E. Cavalcanti Neto, E. S. Rebouças, J. L. Moraes, S. L. Gomes, P. P. 
Rebouças Filho. Development control parking access using techniques 
Digital Image Processing and Applied Computational Intelligence. 
IEEE Latin America Transactions, v. 13, p. 272-276, 2015. 
[5] E. Cavalcanti Neto, S. L. Gomes, P. P. Rebouças Filho, V. H. C. 
Albuquerque. Brazilian vehicle identification using a new embedded 
plate recognition system. Measurement, p. 36-46, 2015. 
[6] S. L. Gomes, E. S. Rebouças, P. P. Rebouças Filho. Reconhecimento 
Óptico de Caracteres para Reconhecimento das Sinalizações Verticais 
das vias de trânsito. Revista SODEBRAS, v. 9, p. 9-12, 2014. 
[7] J. P. Papa, A. X. Falcão, V. H. C. de Albuquerque, and J. M. R. S. 
Tavares. Efficient supervised optimum-path forest classification for 
large datasets. Pattern Recognition, 45(1):512–520, 2012. 
[8] J. P. Papa, A. X. Falcão, and C. T. N. Suzuki. Supervised pattern 
classification based on optimum-path forest. International Journal of 
Imaging Systems and Technology, 19(2):120–131, 2009. 
[9] A. X. Falcão, J. Stolfi, and R. A. Lotufo. The image foresting transform 
theory, algorithms, and applications. IEEE Transactions on Pattern 
Analysis and Machine Intelligence, 26(1):19–29, 2004. 
[10] J.P.Papa, C.T.N.S., and A.X.Falcão. Libopf: library for the design of 
optimum-path forest classifiers. IEEE Transactions on Power Systems, 
26, 2009. 
[11]D. Keysers. Comparison and Combination of State-of-the-art 
Techniques for Handwritten Character Recognition: Topping the 
MNIST Benchmark, 2006. 
[12] P. P. Rebouças Filho, P. C. Cortez, A. C. S. Barros e V. H. C. 
Albuquerque. Novel Adaptive Balloon Active Contour Method based 
on internal force for image segmentation - A systematic evaluation on 
synthetic and real images. Expert Systems with Applications, v. 41, p. 
7707-7721, 2014. 
[13] G. L. B. Ramalho, P. P. Rebouças Filho, F. N. S. Medeiros, P. C. 
Cortez. Lung disease detection using feature extraction and extreme 
SIEBRA LOPES et al.: RECOGNITION OF HANDWRITTEN 2459
learning machine. Revista Brasileira de Engenharia Biomédica, v. 30, 
p. 207-214, 2014. 
[14] Gonzales RC, Woods R. Digital image processing. 3th ed. New Jersey: 
Pearson Prentice Hall, 2010. 
[15] D. DeCoste and B. Scho¨lkopf. Training Invariant Support Vector 
Machines. Machine Learning, 46(1-3):161–190, 2002. 
[16] A. X. Falcão, J. Stolfi, and R. A. Lotufo. The image foresting transform 
theory, algorithms, and applications. IEEE Transactions on Pattern 
Analysis and Machine Intelligence, 26(1):19–29, 2004. 
[17] J.P.Papa, C.T.N.S., and A.X.Falcão. Libopf: library for the design of 
optimum-path forest classifiers. IEEE Transactions on Power Systems, 
26, 2009. 
[18] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-Based 
Learning Applied to Document Recognition. Proc. of the IEEE, 
86(11):2278–2324, November 1998. 
[19] B. Schölkopf, P. Simard, A. Smola, and V. Vapnik. Prior Knowledge in 
Support Vector Kernels. In M. I. Jordan, M. J. Kearns, and S. A. Solla, 
editors, Advances in Neural Information Processing Systems 10, pages 
640–646. MIT Press, June 1998. 
[20] P. Simard, Y. Le Cun, and J. Denker. Efficient Pattern Recognition 
Using a New Transformation Distance. In S. Hanson, J. Cowan, and C. 
Giles, editors, Advances in Neural Information Processing Systems 5, 
pages 50–58, San Mateo, CA, 1993. Morgan Kaufmann. 
[21] R. Mare, P. Geurts, J. Piater, and L. Wehenkel. A Generic Aproach for 
Image Classification Based on Decision Tree Ensembles and Local 
Sub-Windows. In K.-S. Hong and Z. Zhang, editors, Proc. of the 6th 
Asian Conf. on Computer Vision, volume 2, pages 860–865, Jeju 
Island, Korea, January 2004. 
[22] D. Keysers, J. Dahmen, T. Theiner, and H. Ney. Experiments with an 
Extended Tangent Distance. In Proc. 15th Int. Conf. on Pattern 
Recognition, volume 2, pages 38–42, Barcelona, Spain, September 
2000. 
[23] L. Bottou, C. Cortes, J. S. Denker, H. Drucker, I. Guyon, L. Jackel, Y. 
Le Cun, U. Mu¨ller, E. Sa¨ckinger, P. Simard, and V. N. Vapnik. 
Comparison of Classifier Methods: A Case Study in Handwritten Digit 
Recognition. In Proc. of the Int. Conf. on Pattern Recognition, pages 
77–82, Jerusalem, Israel, October 1994. 
[24] G. Mayraz and G. Hinton. Recognizing Handwritten Digits Using 
Hierarchical Products of Experts. IEEE Trans. Pattern Analysis and 
Machine Intelligence, 24(2):189–197, February 2002. 
[25] B. Schölkopf. Support Vector Learning. Oldenbourg Verlag, Munich, 
1997. 
[26] B. Schölkopf, P. Simard, A. Smola, and V. Vapnik. Prior Knowledge in 
Support Vector Kernels. In M. I. Jordan, M. J. Kearns, and S. A. Solla, 
editors, Advances in Neural Information Processing Systems 10, pages 
640–646. MIT Press, June 1998. 
[27] L.-N. Teow and K.-F. Loe. Handwritten Digit Recognition with a Novel 
Vision Model that Extracts Linearly Separable Features. In Proc. 
CVPR 2000, Conf. On Computer Vision and Pattern Recognition, 
volume 2, pages 76–81, Hilton Head, SC, June 2000. 
[28] L.-N. Teow and K.-F. Loe. Robust Vision-Based Features and 
Classification Schemes for Off-Line Handwritten Digit Recognition. 
Pattern Recognition, 35(11):2355–2364, November 2002. 
[29] V. Athistos, J. Alon, and S. Sclaroff. Efficient Nearest Neighbor 
Classification Using a Cascade of Approximate Similarity Measures. In 
CVPR 2005, Int. Conf. on Computer Vision and Pattern Recognition, 
volume I, pages 486–493, San Diego, CA, June 2005. 
[30] D. Keysers, C. Gollan, and H. Ney. Local Context in Non-linear 
Deformation Models for Handwritten Character Recognition. In ICPR 
2004, 17th Int. Conf. on Pattern Recognition, volume IV, pages 511–
514, Cambridge, UK, August 2004. 
[31] C.-L. Liu, K. Nakashima, H. Sako, and H. Fujisawa. Handwritten Digit 
Recognition: Benchmarking of State-of-the-Art Techniques. Pattern 
Recognition, 36(10):2271–2285, October 2003. 
[32] P. Simard. Best Practices for Convolutional Neural Networks Applied 
to Visual Document Analysis. In 7th Int. Conf. Document Analysis and 
Recognition, pages 958–962, Edinburgh, Scotland, August 2003. 
 
Gustavo Siebra Lopes, received the Telecomunication 
Engineering from Instituto Federal de Ciência, Educação e 
Tecnologia do Ceará, Fortaleza, Ceara, Brazil, in 2014. His 
current researchs interest are applications in Computational 
Vision and Pattern Recognition. 
 
David Clifte da Silva Vieira, received the Telecomunication 
Engineering from Instituto Federal de Ciência, Educação e 
Tecnologia do Ceará, Fortaleza, Ceara, Brazil, in 2013. His 
current researchs interest are applications in Computational 
Vision and Pattern Recognition. 
 
Antonio Wendell de Oliveira Rodrigues. received his Ph.D. 
at Lille University of Science and Technology. Main area of 
research: GPU, MDE, HPC, and Computer Networks. 
Researcher and assistant professor at Federal Instittute of 
Ceara, Brazil. 
 
Pedro Pedrosa Rebouças Filho, received the PhD degree in 
Teleinformatics Engineering from Universidade Federal do 
Ceará, Fortaleza, Brazil, in 2013, and He is a professor at 
Instituto Federal de Ciência, Educação e Tecnologia do Ceará, 
Maracanaú, Ceara, Brazil. His current researchs interest are 
applications in Computational Vision and Machine Learning. 
2460 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016