Desenvolvimento de um Framework para o Reconhecimento Óptico de Caracteres

Desenvolvimento de um Desenvolvimento de um Framework Framework para o
Reconhecimento para o Reconhecimento Óptico de Caracteres Óptico de Caracteres Helder C. R. de Oliveira R. A.: 127.346-9 Orientador: Prof. Dr. Marco A. Piteri Co-Orientador: Prof. Dr. Almir O. Artero

Sumário • Introdução; • Objetivo; • Fundamentação Teórica; • Desenvolvimento
do Framework; • Trabalhos Futuros; • Conclusões; • Referências;

Introdução - O que é OCR? OCR OCR

Introdução - A Evolução do OCR • 1950: Aparecem as
primeiras máquinas de OCR; – 1954: A máquina de OCR no Reader's Digest; • 1960 – 1965: Primeira geração OCR; – Limitada a quantidade de fontes; • 1965 – 1975: Segunda geração OCR; – Máquinas para a leitura de cartas; • 1975 – 1985: Terceira geração OCR; – Documentos ruins, manuscritos, baixo custo, alta performance; • 1986 Hoje: → OCR e as pessoas; – Pacotes OCR, hardware barato.

Introdução - Onde estamos? Computação gráfica Dados Imagem Processamento de
imagens Visão computacional OCR

Introdução - O processo de OCR Pré-processamento ➢ Redução de
ruídos; ➢ Threshold; ➢ Binarização; ➢ . . . Análise do layout ➢ Identificação das formas; ➢ Localização e extração; ➢ Normalização; ➢ . . . Classificação ➢ Cálculo da distância; ➢ Redes neurais; ➢ K-Vizinhos mais próximos; ➢ ... Pós-processamento ➢ Correção ortográfica; ➢ Validação; ➢ ... Extração de Características ➢ Matriz de co-ocorrência; ➢ Código de Freeman; ➢ Distância borda-caractere; ➢ Zoneamento; ➢ ...

Introdução - Taxonomia Reconhecimento de caracteres Off-line On-line Caracteres Manuscritos
Impressos Textos completos Manuscritos Impressos . . .

Introdução - Relevância do tema • O uso de sistemas
de reconhecimento de caracteres aumenta; • Aplicações: – Reconhecimento de placas de veículos; – Auxílio para cegos; – Processamento de cheques; – Digitalização de documentos;

Introdução - Relevância do tema • Casos de uso: –
Projeto Gutenberg (década de 70); – World Digital Library (Bib. do Congresso Americano + UNESCO); – Biblioteca Brasiliana Guita e José Mindlin (~40.000 volumes); – Biblioteca Digital da Unesp; – Google Books, Google Goggles; – Biblioteca da Universidade de Heidelberg; – Europeana;

Introdução - Relevância do tema • Softwares: FreeOCR OCRFeeder

Introdução - Relevância do tema • Hardware?

Objetivo Desenvolvimento de um framework para o reconhecimento de caracteres
para subsidiar futuros trabalhos nesta área;

Fundamentação Teórica g(x , y) = { 0 se f
(x , y) < 128 255 se f ( x , y) ≥ 128 Pré-processamento Análise do layout Classificação Extração de Características • Assumindo que a imagem “não possua” ruídos:

Fundamentação Teórica Pré-processamento Análise do layout Classificação Extração de Características

Fundamentação Teórica 50 70 Pré-processamento Análise do layout Classificação Extração
de Características

Fundamentação Teórica 1 2 3 4 5 6 7 8
Código de Freeman: Pré-processamento Análise do layout Classificação Extração de Características 3 33 334 3345 . . . 33454558777...

Fundamentação Teórica Pré-processamento Análise do layout Classificação Extração de Características
Histogramas: Proj h (i) = ∑ j=1 n I (i , j) Proj v ( j) = ∑ i=1 m I (i , j)

Fundamentação Teórica Matriz de Co-ocorrência: Bastante utilizada para descrição de
texturas. Pré-processamento Análise do layout Classificação Extração de Características (29 10 10 7 ) 0 1 0 1 (12 2 6 0 ) 0 1 0 1 (1270 8 14 1778 ) (1333 12 8 1728 ) (1368 17 18 1689 ) (1408 26 29 1660 ) (1173 15 14 1899 ) Exemplo: Operadores

Fundamentação Teórica Entropia: Aleatoriedade dos elementos. 0 quando são iguais.
p ij = m ij n −∑ i=1 K ∑ j=1 K p ij log 2 p ij Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características (1270 8 14 1778 ) Entropia 1.04098

Fundamentação Teórica Uniformidade (Energia): Medida de Uniformidade entre [0, 1].
1 constante ∑ i=1 K ∑ j=1 K p ij 2 Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Uniformidade 0.506578 (1270 8 14 1778 ) p ij = m ij n

Fundamentação Teórica Contraste: Contraste de intensidade entre um pixel e
seu vizinho. 0 constante ∑ i=1 K ∑ j=1 K (i− j)2 p ij Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Contraste 0.00716612 (1270 8 14 1778 ) p ij = m ij n

Fundamentação Teórica Homogeneidade: Proximidade espacial dos elementos na diagonal. ∑
i=1 K ∑ j=1 K p ij 1+∣i− j∣ Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Homogeniedade 0.996417 (1270 8 14 1778 ) p ij = m ij n

Fundamentação Teórica Correlação: Correlação do pixel com seu vizinho. ∑
i=1 K ∑ j=1 K (i−m r )( j−m c ) p ij σ r σ c Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Correlação 0.985272 (1270 8 14 1778 ) p ij = m ij n m r = ∑ i=1 K i∑ j=1 K p ij m c = ∑ j=1 K j∑ i=1 K p ij σr 2 = ∑ i=1 K (i−m r )2 ∑ j=1 K p ij σc 2 = ∑ j=1 K ( j−m c )2 ∑ i=1 K p ij

Fundamentação Teórica Distância Borda-Caractere: Pré-processamento Análise do layout Classificação Extração
de Características Direções 23 23

Fundamentação Teórica Cálculos de distância: D Euclidiana (v 1, v
2 )= √∑ i =1 n (v 1i −v 2i )2 D Manhattan (v 1, v 2 )=∑ i= 1 n (∣v 1i −v 2i ∣) D Chebyshev (v 1, v 2 )=max i (∣v 1i −v 2i ∣) C (v 1, v 2 )= ∑ i= 1 n (v 1i − ̄ v 1 )×(v 2i − ̄ v 2 ) √∑ i= 1 n (v 1i − ̄ v 1 )2 ×∑ i =1 n (v 2i − ̄ v 2 )2 . . . . . . 1 2 3 n 1 2 3 n v 1 v 2 ? Coeficiente de correlação: Pré-processamento Análise do layout Classificação Extração de Características

Recursos materiais • Computador do tipo PC de configuração semelhante
aos existentes em nossos laboratórios (Hardware); • Compilador ANSI C++ (GCC) juntamente com o SDK Qt e a biblioteca de visão computacional OpenCV (software).

Desenvolvimento do Framework • Extensão da ferramenta hIP:

Desenvolvimento do Framework • Funcionalidades para OCR

Desenvolvimento do Framework • Janela para OCR:

Trabalhos Futuros • Adição de novos métodos: – Análise do
Layout: Sobreposição, correção de alinhamento, ... – Extratores de características: Curvas de Bezier, Zoneamento, Descritores de Fourier e Aproximação por Splines, ... – Classificadores: Rede neural, Cadeias de Markov, Linear Discriminant Analysis, K-Means, Local Binary Patterns, Árvores de Decisão, Teoria de Bayes, ... • Sistema de banco de dados;

Conclusões • Foram selecionados e implementados algoritmos relacionados as várias
etapas do processo de OCR: – Análise do Layout: Detecção e extração de linhas e caracteres; – Extração de atributos: Código de Freeman; Distância Borda-Caractere; Matriz de Co-Ocorrência (junto com outras medidas que a descrevem) e Cálculo dos Perfis de Projeção; – Classificadores: Distância Manhattan; Distância Euclidiana; Distância de Chebyshev e também o cálculo do coeficiente de correlação; • Framework foi desenvolvido faz uso de tecnologias atuais e que tem se tornado padrão no mercado, como a biblioteca Qt e a OpenCV, ambas são Open Source e multiplataforma.

Referências [1] MORI, S.; NISHIDA, H.; YAMADA, H. Optical character
recognition. [S.l.]: Wiley, 1999. (Wiley series in microwave and optical engineering). [2] JAIN, L.; LAZZERINI, B. Knowledge-based intelligent techniques in character recognition. [S.l.]: CRC Press, 1999. (The CRC Press international series on computational intelligence). [3] PARKER, J. R. Algorithms for image processing and computer vision. [S.l.]: Wiley Computing, 2010. 504 p. [4] CHERIET, M.; KHARMA, N.; LIU, C. Character recognition systems: a guide for students and practitioners. [S.l.]: Wiley-Interscience, 2007. [5] BUNKE, H.; WANG, P. Handbook of character recognition and document image analysis. [S.l.]: World Scientific, 1997. [6] DAVIES, E. Computer and Machine Vision: Theory, algorithms, practicalities. [S.l.]: Elsevier Science, 2012. [7] TRIER Øivind D.; JAIN, A. K.; TAXT, T. Feature extraction methods for character recognition - a survey. Pattern Recognition, v. 29, n. 4, p. 641 – 662, 1996. ISSN 0031-3203. [8] BIGUN, J. Vision with direction: a systematic introduction to image processing and computer vision. [S.l.]: Springer, 2006.

Referências [9] UCHIDA, S. et al. Character image patterns as
big data. In: Frontiers in Handwriting Recognition (ICFHR), 2012 International Conference on. [S.l.: s.n.], 2012. p. 479–484. [10] GONZALEZ, R.; WOODS, R. Digital image processing. [S.l.]: Prentice Hall, 2008. [11] BERTOLAMI, R.; BUNKE, H. Hidden markov model-based ensemble methods for offline handwritten text line recognition. Pattern Recognition, v. 41, n. 11, p. 3452 –3460, 2008. [12] NIXON, M.; AGUADO, A. Feature extraction and image processing. [S.l.]: Academic, 2008. [13] HULL, J. J. Document image skew detection: Survey and annotated bibliography. In: Document Analysis Systems II. Word Scientific. [S.l.]: World Scientific, 1998. p. 40–64. [14] MIRANDA, R. A. et al. Handwritten character recognition based on frequency, character-edge distances and densities. Anais do WVC 2013 - IX Workshop de Visão Computacional, 2013. Rio de Janeiro. [15] YAMPOLSKIY, R. Feature extraction approaches for optical character recognition. [S.l.]: Briviba Scientific Press, 2007.

Obrigado pela presença!

Desenvolvimento de um Framework para o Reconhec...

Desenvolvimento de um Framework para o Reconhecimento Óptico de Caracteres

More Decks by Helder Oliveira

Other Decks in Research

Featured

Transcript