Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OCRで画像文字を 文字データに

OCRで画像文字を 文字データに

Kenichiro MATOHARA

May 22, 2022
Tweet

More Decks by Kenichiro MATOHARA

Other Decks in Technology

Transcript

  1. パッケージの導入 パッケージの導入 $ apt-cache search tesseract | grep ^tesseract-ocr- |

    wc -l 162 $ apt-cache search tesseract | grep ^tesseract-ocr- | grep -E "Japanese|English" tesseract-ocr-eng - tesseract-ocr language files for English tesseract-ocr-enm - tesseract-ocr language files for English, Middle (1100-1500) tesseract-ocr-jpn - tesseract-ocr language files for Japanese tesseract-ocr-jpn-vert - tesseract-ocr language files for Japanese (vertical) tesseract-ocr-script-jpan - tesseract-ocr data for Japanese script tesseract-ocr-script-jpan-vert - tesseract-ocr data for Japanese (vertical) script $ sudo apt install tesseract-ocr tesseract-ocr-eng tesseract-ocr-enm tesseract-ocr-jpn \ tesseract-ocr-jpn-vert tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert \ gimagereader 5 / 15
  2. $ dpkg -l | grep tesseract* ii gimagereader 3.4.0-2+b1 ii

    libtesseract4:amd64 4.1.1-2.1+b1 ii tesseract-ocr 4.1.1-2.1+b1 ii tesseract-ocr-eng 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-enm 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-jpn 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-jpn-vert 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-osd 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-script-jpan 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-script-jpan-vert 1:4.00~git30-7274cfa-1.1 6 / 15
  3. usage usage $ tesseract -h Usage: tesseract --help | --help-extra

    | --version tesseract --list-langs tesseract imagename outputbase [options...] [configfile...] OCR options: -l LANG[+LANG] Specify language(s) used for OCR. NOTE: These options must occur before any configfile. Single options: --help Show this help message. --help-extra Show extra help for advanced users. --version Show version information. --list-langs List available languages for tesseract engine. 7 / 15
  4. scriptにする scriptにする ocr.bash 1 任意の場所をマウスで領域選択 2 画像拡大 3 OCR処理,結果はprimaryへ 4

    処理終了をデスクトップ通知 ショートカットに登録して呼び出す #!/bin/bash IMAGEFILE=$(mktemp) import png:"${IMAGEFILE}" convert "${IMAGEFILE}" -resize 500% "${IMAGEFILE}" tesseract "${IMAGEFILE}" - -l jpn+eng --psm 1 | xsel notify-send 'ocr 📋️ (primary)' rm ${IMAGEFILE} 1 2 3 4 11 / 15
  5. NDLOCR NDLOCR OCR処理プログラム及び学習用データセットの公開について | NDLラ ボ NDLOCR 国立国会図書館(以下、「当館」とします。)が 令和3年度に株式会社モルフォAIソリューシ ョンズに委託して実施したOCR処理プログラ

    ムの研究開発事業の成果である、日本語の OCR処理プログラムです。 このプログラム は、国立国会図書館がCC BY 4.0ライセン スで公開するものです。なお、既存のライブラ リ等を利用している部分については寛容型オ ープンライセンスのものを採用しているため、 商用非商用を問わず自由な改変、利用が可能 です。 NDLOCR 国立国会図書館(以下、「当 館」とします。)が令和3年度に株式会社モル 13 / 15
  6. CUDA 11.1を利用しているので CUDA 11.1を利用しているので NVIDIAのGPUが必要 NVIDIAのGPUが必要 物理GPUが無い場合クラウドで実行可能 ※Google Colabは無料で試せるらしい(未確認) Google

    Cloud PlatformのCompute Engineを用いた NDLOCRアプリの実行 Google Colabを用いたNDLOCRアプリのVersion 2を作成 しました。 14 / 15