Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OCRで画像文字を 文字データに

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

OCRで画像文字を 文字データに

Avatar for Kenichiro MATOHARA

Kenichiro MATOHARA

May 22, 2022
Tweet

More Decks by Kenichiro MATOHARA

Other Decks in Technology

Transcript

  1. パッケージの導入 パッケージの導入 $ apt-cache search tesseract | grep ^tesseract-ocr- |

    wc -l 162 $ apt-cache search tesseract | grep ^tesseract-ocr- | grep -E "Japanese|English" tesseract-ocr-eng - tesseract-ocr language files for English tesseract-ocr-enm - tesseract-ocr language files for English, Middle (1100-1500) tesseract-ocr-jpn - tesseract-ocr language files for Japanese tesseract-ocr-jpn-vert - tesseract-ocr language files for Japanese (vertical) tesseract-ocr-script-jpan - tesseract-ocr data for Japanese script tesseract-ocr-script-jpan-vert - tesseract-ocr data for Japanese (vertical) script $ sudo apt install tesseract-ocr tesseract-ocr-eng tesseract-ocr-enm tesseract-ocr-jpn \ tesseract-ocr-jpn-vert tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert \ gimagereader 5 / 15
  2. $ dpkg -l | grep tesseract* ii gimagereader 3.4.0-2+b1 ii

    libtesseract4:amd64 4.1.1-2.1+b1 ii tesseract-ocr 4.1.1-2.1+b1 ii tesseract-ocr-eng 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-enm 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-jpn 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-jpn-vert 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-osd 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-script-jpan 1:4.00~git30-7274cfa-1.1 ii tesseract-ocr-script-jpan-vert 1:4.00~git30-7274cfa-1.1 6 / 15
  3. usage usage $ tesseract -h Usage: tesseract --help | --help-extra

    | --version tesseract --list-langs tesseract imagename outputbase [options...] [configfile...] OCR options: -l LANG[+LANG] Specify language(s) used for OCR. NOTE: These options must occur before any configfile. Single options: --help Show this help message. --help-extra Show extra help for advanced users. --version Show version information. --list-langs List available languages for tesseract engine. 7 / 15
  4. scriptにする scriptにする ocr.bash 1 任意の場所をマウスで領域選択 2 画像拡大 3 OCR処理,結果はprimaryへ 4

    処理終了をデスクトップ通知 ショートカットに登録して呼び出す #!/bin/bash IMAGEFILE=$(mktemp) import png:"${IMAGEFILE}" convert "${IMAGEFILE}" -resize 500% "${IMAGEFILE}" tesseract "${IMAGEFILE}" - -l jpn+eng --psm 1 | xsel notify-send 'ocr 📋️ (primary)' rm ${IMAGEFILE} 1 2 3 4 11 / 15
  5. NDLOCR NDLOCR OCR処理プログラム及び学習用データセットの公開について | NDLラ ボ NDLOCR 国立国会図書館(以下、「当館」とします。)が 令和3年度に株式会社モルフォAIソリューシ ョンズに委託して実施したOCR処理プログラ

    ムの研究開発事業の成果である、日本語の OCR処理プログラムです。 このプログラム は、国立国会図書館がCC BY 4.0ライセン スで公開するものです。なお、既存のライブラ リ等を利用している部分については寛容型オ ープンライセンスのものを採用しているため、 商用非商用を問わず自由な改変、利用が可能 です。 NDLOCR 国立国会図書館(以下、「当 館」とします。)が令和3年度に株式会社モル 13 / 15
  6. CUDA 11.1を利用しているので CUDA 11.1を利用しているので NVIDIAのGPUが必要 NVIDIAのGPUが必要 物理GPUが無い場合クラウドで実行可能 ※Google Colabは無料で試せるらしい(未確認) Google

    Cloud PlatformのCompute Engineを用いた NDLOCRアプリの実行 Google Colabを用いたNDLOCRアプリのVersion 2を作成 しました。 14 / 15