Desenvolvimento de um Framework para o Reconhecimento Óptico de Caracteres

Desenvolvimento de um Framework para o Reconhecimento Óptico de Caracteres

Slides of presentation of bachelor degree in Computer Science

8e244a278535d94a99bb9864eff6abf9?s=128

Helder Oliveira

April 11, 2015
Tweet

Transcript

  1. Desenvolvimento de um Desenvolvimento de um Framework Framework para o

    Reconhecimento para o Reconhecimento Óptico de Caracteres Óptico de Caracteres Helder C. R. de Oliveira R. A.: 127.346-9 Orientador: Prof. Dr. Marco A. Piteri Co-Orientador: Prof. Dr. Almir O. Artero
  2. Sumário • Introdução; • Objetivo; • Fundamentação Teórica; • Desenvolvimento

    do Framework; • Trabalhos Futuros; • Conclusões; • Referências;
  3. Introdução - O que é OCR? OCR OCR

  4. Introdução - A Evolução do OCR • 1950: Aparecem as

    primeiras máquinas de OCR; – 1954: A máquina de OCR no Reader's Digest; • 1960 – 1965: Primeira geração OCR; – Limitada a quantidade de fontes; • 1965 – 1975: Segunda geração OCR; – Máquinas para a leitura de cartas; • 1975 – 1985: Terceira geração OCR; – Documentos ruins, manuscritos, baixo custo, alta performance; • 1986 Hoje: → OCR e as pessoas; – Pacotes OCR, hardware barato.
  5. Introdução - Onde estamos? Computação gráfica Dados Imagem Processamento de

    imagens Visão computacional OCR
  6. Introdução - O processo de OCR Pré-processamento ➢ Redução de

    ruídos; ➢ Threshold; ➢ Binarização; ➢ . . . Análise do layout ➢ Identificação das formas; ➢ Localização e extração; ➢ Normalização; ➢ . . . Classificação ➢ Cálculo da distância; ➢ Redes neurais; ➢ K-Vizinhos mais próximos; ➢ ... Pós-processamento ➢ Correção ortográfica; ➢ Validação; ➢ ... Extração de Características ➢ Matriz de co-ocorrência; ➢ Código de Freeman; ➢ Distância borda-caractere; ➢ Zoneamento; ➢ ...
  7. Introdução - Taxonomia Reconhecimento de caracteres Off-line On-line Caracteres Manuscritos

    Impressos Textos completos Manuscritos Impressos . . .
  8. Introdução - Relevância do tema • O uso de sistemas

    de reconhecimento de caracteres aumenta; • Aplicações: – Reconhecimento de placas de veículos; – Auxílio para cegos; – Processamento de cheques; – Digitalização de documentos;
  9. Introdução - Relevância do tema • Casos de uso: –

    Projeto Gutenberg (década de 70); – World Digital Library (Bib. do Congresso Americano + UNESCO); – Biblioteca Brasiliana Guita e José Mindlin (~40.000 volumes); – Biblioteca Digital da Unesp; – Google Books, Google Goggles; – Biblioteca da Universidade de Heidelberg; – Europeana;
  10. Introdução - Relevância do tema • Softwares: FreeOCR OCRFeeder

  11. Introdução - Relevância do tema • Hardware?

  12. Objetivo Desenvolvimento de um framework para o reconhecimento de caracteres

    para subsidiar futuros trabalhos nesta área;
  13. Fundamentação Teórica g(x , y) = { 0 se f

    (x , y) < 128 255 se f ( x , y) ≥ 128 Pré-processamento Análise do layout Classificação Extração de Características • Assumindo que a imagem “não possua” ruídos:
  14. Fundamentação Teórica Pré-processamento Análise do layout Classificação Extração de Características

  15. Fundamentação Teórica 50 70 Pré-processamento Análise do layout Classificação Extração

    de Características
  16. Fundamentação Teórica 1 2 3 4 5 6 7 8

    Código de Freeman: Pré-processamento Análise do layout Classificação Extração de Características 3 33 334 3345 . . . 33454558777...
  17. Fundamentação Teórica Pré-processamento Análise do layout Classificação Extração de Características

    Histogramas: Proj h (i) = ∑ j=1 n I (i , j) Proj v ( j) = ∑ i=1 m I (i , j)
  18. Fundamentação Teórica Matriz de Co-ocorrência: Bastante utilizada para descrição de

    texturas. Pré-processamento Análise do layout Classificação Extração de Características (29 10 10 7 ) 0 1 0 1 (12 2 6 0 ) 0 1 0 1 (1270 8 14 1778 ) (1333 12 8 1728 ) (1368 17 18 1689 ) (1408 26 29 1660 ) (1173 15 14 1899 ) Exemplo: Operadores
  19. Fundamentação Teórica Entropia: Aleatoriedade dos elementos. 0 quando são iguais.

    p ij = m ij n −∑ i=1 K ∑ j=1 K p ij log 2 p ij Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características (1270 8 14 1778 ) Entropia 1.04098
  20. Fundamentação Teórica Uniformidade (Energia): Medida de Uniformidade entre [0, 1].

    1 constante ∑ i=1 K ∑ j=1 K p ij 2 Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Uniformidade 0.506578 (1270 8 14 1778 ) p ij = m ij n
  21. Fundamentação Teórica Contraste: Contraste de intensidade entre um pixel e

    seu vizinho. 0 constante ∑ i=1 K ∑ j=1 K (i− j)2 p ij Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Contraste 0.00716612 (1270 8 14 1778 ) p ij = m ij n
  22. Fundamentação Teórica Homogeneidade: Proximidade espacial dos elementos na diagonal. ∑

    i=1 K ∑ j=1 K p ij 1+∣i− j∣ Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Homogeniedade 0.996417 (1270 8 14 1778 ) p ij = m ij n
  23. Fundamentação Teórica Correlação: Correlação do pixel com seu vizinho. ∑

    i=1 K ∑ j=1 K (i−m r )( j−m c ) p ij σ r σ c Caracterização da matriz de co-ocorrência: Pré-processamento Análise do layout Classificação Extração de Características Correlação 0.985272 (1270 8 14 1778 ) p ij = m ij n m r = ∑ i=1 K i∑ j=1 K p ij m c = ∑ j=1 K j∑ i=1 K p ij σr 2 = ∑ i=1 K (i−m r )2 ∑ j=1 K p ij σc 2 = ∑ j=1 K ( j−m c )2 ∑ i=1 K p ij
  24. Fundamentação Teórica Distância Borda-Caractere: Pré-processamento Análise do layout Classificação Extração

    de Características Direções 23 23
  25. Fundamentação Teórica Cálculos de distância: D Euclidiana (v 1, v

    2 )= √∑ i =1 n (v 1i −v 2i )2 D Manhattan (v 1, v 2 )=∑ i= 1 n (∣v 1i −v 2i ∣) D Chebyshev (v 1, v 2 )=max i (∣v 1i −v 2i ∣) C (v 1, v 2 )= ∑ i= 1 n (v 1i − ̄ v 1 )×(v 2i − ̄ v 2 ) √∑ i= 1 n (v 1i − ̄ v 1 )2 ×∑ i =1 n (v 2i − ̄ v 2 )2 . . . . . . 1 2 3 n 1 2 3 n v 1 v 2 ? Coeficiente de correlação: Pré-processamento Análise do layout Classificação Extração de Características
  26. Recursos materiais • Computador do tipo PC de configuração semelhante

    aos existentes em nossos laboratórios (Hardware); • Compilador ANSI C++ (GCC) juntamente com o SDK Qt e a biblioteca de visão computacional OpenCV (software).
  27. Desenvolvimento do Framework • Extensão da ferramenta hIP:

  28. Desenvolvimento do Framework • Funcionalidades para OCR

  29. Desenvolvimento do Framework • Janela para OCR:

  30. Trabalhos Futuros • Adição de novos métodos: – Análise do

    Layout: Sobreposição, correção de alinhamento, ... – Extratores de características: Curvas de Bezier, Zoneamento, Descritores de Fourier e Aproximação por Splines, ... – Classificadores: Rede neural, Cadeias de Markov, Linear Discriminant Analysis, K-Means, Local Binary Patterns, Árvores de Decisão, Teoria de Bayes, ... • Sistema de banco de dados;
  31. Conclusões • Foram selecionados e implementados algoritmos relacionados as várias

    etapas do processo de OCR: – Análise do Layout: Detecção e extração de linhas e caracteres; – Extração de atributos: Código de Freeman; Distância Borda-Caractere; Matriz de Co-Ocorrência (junto com outras medidas que a descrevem) e Cálculo dos Perfis de Projeção; – Classificadores: Distância Manhattan; Distância Euclidiana; Distância de Chebyshev e também o cálculo do coeficiente de correlação; • Framework foi desenvolvido faz uso de tecnologias atuais e que tem se tornado padrão no mercado, como a biblioteca Qt e a OpenCV, ambas são Open Source e multiplataforma.
  32. Referências [1] MORI, S.; NISHIDA, H.; YAMADA, H. Optical character

    recognition. [S.l.]: Wiley, 1999. (Wiley series in microwave and optical engineering). [2] JAIN, L.; LAZZERINI, B. Knowledge-based intelligent techniques in character recognition. [S.l.]: CRC Press, 1999. (The CRC Press international series on computational intelligence). [3] PARKER, J. R. Algorithms for image processing and computer vision. [S.l.]: Wiley Computing, 2010. 504 p. [4] CHERIET, M.; KHARMA, N.; LIU, C. Character recognition systems: a guide for students and practitioners. [S.l.]: Wiley-Interscience, 2007. [5] BUNKE, H.; WANG, P. Handbook of character recognition and document image analysis. [S.l.]: World Scientific, 1997. [6] DAVIES, E. Computer and Machine Vision: Theory, algorithms, practicalities. [S.l.]: Elsevier Science, 2012. [7] TRIER Øivind D.; JAIN, A. K.; TAXT, T. Feature extraction methods for character recognition - a survey. Pattern Recognition, v. 29, n. 4, p. 641 – 662, 1996. ISSN 0031-3203. [8] BIGUN, J. Vision with direction: a systematic introduction to image processing and computer vision. [S.l.]: Springer, 2006.
  33. Referências [9] UCHIDA, S. et al. Character image patterns as

    big data. In: Frontiers in Handwriting Recognition (ICFHR), 2012 International Conference on. [S.l.: s.n.], 2012. p. 479–484. [10] GONZALEZ, R.; WOODS, R. Digital image processing. [S.l.]: Prentice Hall, 2008. [11] BERTOLAMI, R.; BUNKE, H. Hidden markov model-based ensemble methods for offline handwritten text line recognition. Pattern Recognition, v. 41, n. 11, p. 3452 –3460, 2008. [12] NIXON, M.; AGUADO, A. Feature extraction and image processing. [S.l.]: Academic, 2008. [13] HULL, J. J. Document image skew detection: Survey and annotated bibliography. In: Document Analysis Systems II. Word Scientific. [S.l.]: World Scientific, 1998. p. 40–64. [14] MIRANDA, R. A. et al. Handwritten character recognition based on frequency, character-edge distances and densities. Anais do WVC 2013 - IX Workshop de Visão Computacional, 2013. Rio de Janeiro. [15] YAMPOLSKIY, R. Feature extraction approaches for optical character recognition. [S.l.]: Briviba Scientific Press, 2007.
  34. Obrigado pela presença!