Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Desenvolvimento de um Framework para o Reconhecimento Óptico de Caracteres

Desenvolvimento de um Framework para o Reconhecimento Óptico de Caracteres

Slides of presentation of bachelor degree in Computer Science

Helder Oliveira

April 11, 2015
Tweet

More Decks by Helder Oliveira

Other Decks in Research

Transcript

  1. Desenvolvimento de um
    Desenvolvimento de um
    Framework
    Framework para o Reconhecimento
    para o Reconhecimento
    Óptico de Caracteres
    Óptico de Caracteres
    Helder C. R. de Oliveira
    R. A.: 127.346-9
    Orientador: Prof. Dr. Marco A. Piteri
    Co-Orientador: Prof. Dr. Almir O. Artero

    View Slide

  2. Sumário

    Introdução;

    Objetivo;

    Fundamentação Teórica;

    Desenvolvimento do Framework;

    Trabalhos Futuros;

    Conclusões;

    Referências;

    View Slide

  3. Introdução - O que é OCR?
    OCR
    OCR

    View Slide

  4. Introdução - A Evolução do OCR

    1950: Aparecem as primeiras máquinas de OCR;
    – 1954: A máquina de OCR no Reader's Digest;

    1960 – 1965: Primeira geração OCR;
    – Limitada a quantidade de fontes;

    1965 – 1975: Segunda geração OCR;
    – Máquinas para a leitura de cartas;

    1975 – 1985: Terceira geração OCR;
    – Documentos ruins, manuscritos, baixo custo, alta performance;

    1986 Hoje:
    → OCR e as pessoas;
    – Pacotes OCR, hardware barato.

    View Slide

  5. Introdução - Onde estamos?
    Computação
    gráfica
    Dados
    Imagem
    Processamento de
    imagens
    Visão
    computacional
    OCR

    View Slide

  6. Introdução - O processo de OCR
    Pré-processamento

    Redução de ruídos;

    Threshold;

    Binarização;

    . . .
    Análise do layout

    Identificação das formas;

    Localização e extração;

    Normalização;

    . . .
    Classificação

    Cálculo da distância;

    Redes neurais;

    K-Vizinhos mais próximos;

    ...
    Pós-processamento

    Correção ortográfica;

    Validação;

    ...
    Extração de Características

    Matriz de co-ocorrência;

    Código de Freeman;

    Distância borda-caractere;

    Zoneamento;

    ...

    View Slide

  7. Introdução - Taxonomia
    Reconhecimento
    de caracteres
    Off-line On-line
    Caracteres
    Manuscritos Impressos
    Textos completos
    Manuscritos Impressos
    . . .

    View Slide

  8. Introdução - Relevância do tema

    O uso de sistemas de reconhecimento de caracteres aumenta;

    Aplicações:
    – Reconhecimento de placas de veículos;
    – Auxílio para cegos;
    – Processamento de cheques;
    – Digitalização de documentos;

    View Slide

  9. Introdução - Relevância do tema

    Casos de uso:
    – Projeto Gutenberg (década de 70);
    – World Digital Library (Bib. do Congresso Americano + UNESCO);
    – Biblioteca Brasiliana Guita e José Mindlin (~40.000 volumes);
    – Biblioteca Digital da Unesp;
    – Google Books, Google Goggles;
    – Biblioteca da Universidade de Heidelberg;
    – Europeana;

    View Slide

  10. Introdução - Relevância do tema

    Softwares:
    FreeOCR
    OCRFeeder

    View Slide

  11. Introdução - Relevância do tema

    Hardware?

    View Slide

  12. Objetivo
    Desenvolvimento de um framework para o
    reconhecimento de caracteres para subsidiar futuros
    trabalhos nesta área;

    View Slide

  13. Fundamentação Teórica
    g(x , y) =
    { 0 se f (x , y) < 128
    255 se f ( x , y) ≥ 128
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características

    Assumindo que a imagem “não possua” ruídos:

    View Slide

  14. Fundamentação Teórica
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características

    View Slide

  15. Fundamentação Teórica
    50
    70
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características

    View Slide

  16. Fundamentação Teórica
    1
    2
    3
    4
    5
    6
    7
    8
    Código de Freeman:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    3 33
    334
    3345
    . . .
    33454558777...

    View Slide

  17. Fundamentação Teórica
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    Histogramas:
    Proj
    h
    (i) = ∑
    j=1
    n
    I (i , j)
    Proj
    v
    ( j) = ∑
    i=1
    m
    I (i , j)

    View Slide

  18. Fundamentação Teórica
    Matriz de Co-ocorrência: Bastante utilizada para descrição de texturas.
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    (29 10
    10 7
    )
    0 1
    0
    1
    (12 2
    6 0
    )
    0 1
    0
    1
    (1270 8
    14 1778
    ) (1333 12
    8 1728
    ) (1368 17
    18 1689
    ) (1408 26
    29 1660
    ) (1173 15
    14 1899
    )
    Exemplo:
    Operadores

    View Slide

  19. Fundamentação Teórica
    Entropia: Aleatoriedade dos elementos. 0 quando são iguais.
    p
    ij
    =
    m
    ij
    n
    −∑
    i=1
    K

    j=1
    K
    p
    ij
    log
    2
    p
    ij
    Caracterização da matriz de co-ocorrência:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    (1270 8
    14 1778
    )
    Entropia
    1.04098

    View Slide

  20. Fundamentação Teórica
    Uniformidade (Energia): Medida de Uniformidade entre [0, 1]. 1 constante

    i=1
    K

    j=1
    K
    p
    ij
    2
    Caracterização da matriz de co-ocorrência:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    Uniformidade
    0.506578
    (1270 8
    14 1778
    )
    p
    ij
    =
    m
    ij
    n

    View Slide

  21. Fundamentação Teórica
    Contraste: Contraste de intensidade entre um pixel e seu vizinho. 0 constante

    i=1
    K

    j=1
    K
    (i− j)2 p
    ij
    Caracterização da matriz de co-ocorrência:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    Contraste
    0.00716612
    (1270 8
    14 1778
    )
    p
    ij
    =
    m
    ij
    n

    View Slide

  22. Fundamentação Teórica
    Homogeneidade: Proximidade espacial dos elementos na diagonal.

    i=1
    K

    j=1
    K p
    ij
    1+∣i− j∣
    Caracterização da matriz de co-ocorrência:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    Homogeniedade
    0.996417
    (1270 8
    14 1778
    )
    p
    ij
    =
    m
    ij
    n

    View Slide

  23. Fundamentação Teórica
    Correlação: Correlação do pixel com seu vizinho.

    i=1
    K

    j=1
    K (i−m
    r
    )( j−m
    c
    ) p
    ij
    σ
    r
    σ
    c
    Caracterização da matriz de co-ocorrência:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    Correlação
    0.985272
    (1270 8
    14 1778
    )
    p
    ij
    =
    m
    ij
    n
    m
    r
    = ∑
    i=1
    K
    i∑
    j=1
    K
    p
    ij
    m
    c
    = ∑
    j=1
    K
    j∑
    i=1
    K
    p
    ij
    σr
    2 = ∑
    i=1
    K
    (i−m
    r
    )2 ∑
    j=1
    K
    p
    ij
    σc
    2 = ∑
    j=1
    K
    ( j−m
    c
    )2 ∑
    i=1
    K
    p
    ij

    View Slide

  24. Fundamentação Teórica
    Distância Borda-Caractere:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características
    Direções
    23 23

    View Slide

  25. Fundamentação Teórica
    Cálculos de distância:
    D
    Euclidiana
    (v
    1,
    v
    2
    )=
    √∑
    i =1
    n
    (v
    1i
    −v
    2i
    )2
    D
    Manhattan
    (v
    1,
    v
    2
    )=∑
    i= 1
    n
    (∣v
    1i
    −v
    2i
    ∣)
    D
    Chebyshev
    (v
    1,
    v
    2
    )=max
    i
    (∣v
    1i
    −v
    2i
    ∣)
    C (v
    1,
    v
    2
    )=

    i= 1
    n
    (v
    1i
    − ̄
    v
    1
    )×(v
    2i
    − ̄
    v
    2
    )
    √∑
    i= 1
    n
    (v
    1i
    − ̄
    v
    1
    )2 ×∑
    i =1
    n
    (v
    2i
    − ̄
    v
    2
    )2
    .
    .
    .
    .
    .
    .
    1
    2
    3
    n
    1
    2
    3
    n
    v
    1
    v
    2
    ?
    Coeficiente de correlação:
    Pré-processamento
    Análise do
    layout
    Classificação
    Extração de
    Características

    View Slide

  26. Recursos materiais

    Computador do tipo PC de configuração semelhante aos existentes
    em nossos laboratórios (Hardware);

    Compilador ANSI C++ (GCC) juntamente com o SDK Qt e a biblioteca
    de visão computacional OpenCV (software).

    View Slide

  27. Desenvolvimento do Framework

    Extensão da ferramenta hIP:

    View Slide

  28. Desenvolvimento do Framework

    Funcionalidades para OCR

    View Slide

  29. Desenvolvimento do Framework

    Janela para OCR:

    View Slide

  30. Trabalhos Futuros

    Adição de novos métodos:
    – Análise do Layout: Sobreposição, correção de
    alinhamento, ...
    – Extratores de características: Curvas de Bezier,
    Zoneamento, Descritores de Fourier e Aproximação por
    Splines, ...
    – Classificadores: Rede neural, Cadeias de Markov, Linear
    Discriminant Analysis, K-Means, Local Binary Patterns,
    Árvores de Decisão, Teoria de Bayes, ...

    Sistema de banco de dados;

    View Slide

  31. Conclusões

    Foram selecionados e implementados algoritmos relacionados
    as várias etapas do processo de OCR:
    – Análise do Layout: Detecção e extração de linhas e
    caracteres;
    – Extração de atributos: Código de Freeman; Distância
    Borda-Caractere; Matriz de Co-Ocorrência (junto com
    outras medidas que a descrevem) e Cálculo dos Perfis de
    Projeção;
    – Classificadores: Distância Manhattan; Distância Euclidiana;
    Distância de Chebyshev e também o cálculo do coeficiente
    de correlação;

    Framework foi desenvolvido faz uso de tecnologias atuais e
    que tem se tornado padrão no mercado, como a biblioteca Qt
    e a OpenCV, ambas são Open Source e multiplataforma.

    View Slide

  32. Referências
    [1] MORI, S.; NISHIDA, H.; YAMADA, H. Optical character recognition. [S.l.]: Wiley, 1999. (Wiley
    series in microwave and optical engineering).
    [2] JAIN, L.; LAZZERINI, B. Knowledge-based intelligent techniques in character recognition.
    [S.l.]: CRC Press, 1999. (The CRC Press international series on computational intelligence).
    [3] PARKER, J. R. Algorithms for image processing and computer vision. [S.l.]: Wiley
    Computing, 2010. 504 p.
    [4] CHERIET, M.; KHARMA, N.; LIU, C. Character recognition systems: a guide for students and
    practitioners. [S.l.]: Wiley-Interscience, 2007.
    [5] BUNKE, H.; WANG, P. Handbook of character recognition and document image analysis.
    [S.l.]: World Scientific, 1997.
    [6] DAVIES, E. Computer and Machine Vision: Theory, algorithms, practicalities. [S.l.]: Elsevier
    Science, 2012.
    [7] TRIER Øivind D.; JAIN, A. K.; TAXT, T. Feature extraction methods for character recognition - a
    survey. Pattern Recognition, v. 29, n. 4, p. 641 – 662, 1996. ISSN 0031-3203.
    [8] BIGUN, J. Vision with direction: a systematic introduction to image processing and computer
    vision. [S.l.]: Springer, 2006.

    View Slide

  33. Referências
    [9] UCHIDA, S. et al. Character image patterns as big data. In: Frontiers in Handwriting
    Recognition (ICFHR), 2012 International Conference on. [S.l.: s.n.], 2012. p. 479–484.
    [10] GONZALEZ, R.; WOODS, R. Digital image processing. [S.l.]: Prentice Hall, 2008.
    [11] BERTOLAMI, R.; BUNKE, H. Hidden markov model-based ensemble methods for offline
    handwritten text line recognition. Pattern Recognition, v. 41, n. 11, p. 3452 –3460, 2008.
    [12] NIXON, M.; AGUADO, A. Feature extraction and image processing. [S.l.]: Academic, 2008.
    [13] HULL, J. J. Document image skew detection: Survey and annotated bibliography. In:
    Document Analysis Systems II. Word Scientific. [S.l.]: World Scientific, 1998. p. 40–64.
    [14] MIRANDA, R. A. et al. Handwritten character recognition based on frequency,
    character-edge distances and densities. Anais do WVC 2013 - IX Workshop de Visão
    Computacional, 2013. Rio de Janeiro.
    [15] YAMPOLSKIY, R. Feature extraction approaches for optical character recognition. [S.l.]:
    Briviba Scientific Press, 2007.

    View Slide

  34. Obrigado pela presença!

    View Slide