CameraX × ML KitでパスポートOCR機能を実装

CameraX × ML KitでパスポートOCR機能を実装 Doroid Kaigi 2022

自己紹介 • Yuto Akaike (@kaikecchi) • 株式会社令和トラベル所属 •
海外旅行予約アプリ「NEWT」の開発 • 個人で競馬予想アプリ「ダビフレ」の開発・運営

アジェンダ 1. なぜOCR機能を実装したのか 2. CameraXとML Kitの概要 3. パスポートOCR機能の実装 4. 精度向上への取り組み

OCRとは？

Optical Character Recognition(Reader) 紙などに書かれている文字を、カメラなどによって画像データとして取り込み、画像から文字を認識してテキストデータに変換する技術 CameraX ML Kit

面倒な入力作業をかんたんにする機能

パスポートOCR機能を実装した「NEWT」

海外旅行にはパスポート情報が必要

旅行者全員分の情報が必要

そこでOCR

面倒な入力作業を少しでもかんたんに

パスポートOCR機能を搭載するための選択肢 CameraX × ML Kit ライブラリA 精度・パフォーマンス良かなり良工数
標準比較的小費用無料数十万円 /year UIのカスタマイズ可一部可ギャラリーから選択画像の OCR 対応非対応メンテナンス状況 Googleが随時更新ここ数年更新無し既存アーキテクチャへの組み込み易難

パスポートOCR機能を搭載するための選択肢 CameraX × ML Kit ライブラリA 精度・パフォーマンス良かなり良工数
標準比較的小費用無料数十万円 /year UIのカスタマイズ可一部可ギャラリーから選択画像の OCR 対応非対応メンテナンス状況 Googleが随時更新ここ数年更新無し既存アーキテクチャへの組み込み易難 →精度面での見通しがついたので、拡張性の高さを重視

CameraX

CameraXの概要 • カメラアプリの開発を容易にするためのJetpackライブラリ • Andeoid5.0以上をサポート • Googleのラボで様々なデバイスが継続的にテストされている • Androidのライフサイクルに連動させて管理を任せられる •
4つのユースケースを提供 https://developer.android.com/training/camerax

4つのユースケース • プレビュー • 画像キャプチャ • 画像解析 • 動画キャプチャ

ML Kit

ML Kitの概要 • モバイルで機械学習の機能を利用できるSDK • 無料 • オンデバイスのSDKなのでオフラインでリアルタイムに動作 • 以前はML
Kit for Firebaseとして提供されていたが非推奨になり、現在はML Kitと、CloudベースのFirebase MLに分割 • Vision API と Natural Language API を提供 https://developers.google.com/ml-kit/guides

Vision API • バーコードスキャン • 顔検出 • テキスト認識 • 画像ラベリング
• 物体検出 & 追跡 • デジタルインク認識 • その他Beta版のAPIがいくつかある

テキスト認識画像内のテキストを認識してくれるAPI ML 言語対応 ML Kit Text Recognition ラテン文字 ML
Kit Text Recognition v2 (Beta) ラテン文字日本語、中国語、韓国語 Firebase ML (Cloud) Text tRecongnition 日本語含む100言語以上

依存関係

依存関係 UI構築にはJetpack Compose パーミッション取得にはAccompanist

カメラパーミッションを宣言 AndroidManifest

AndroidManifest MLのモデルをアプリインストール時にダウンロードする場合

パーミッション Accompanistを利用したパーミッション取得の全体像細かい制御が不要であれば、短いコードで構築可能

パーミッション rememberPermissio nState(CAMERA)で PermissionStateを取得・保持

パーミッション PermissionStateで画面を出し分け

パーミッションパーミッション要求は permissionState.launch PermissionRequest()。状態に応じてダイアログが表示される

パーミッション ScreenのOnStart時に毎回パーミッションを要求したいため、 LifecycleEventObserver を使用

起動戻る

PreviewView AndroidViewを使って Composableに PreviewViewを配置

PreviewView PreviewView、 LifecycleOwner、 CameraProviderFutur e、読み取り後の処理のラムダでカメラをセットアップ

プレビューユースケースプレビューユースケースを作成し、PreviewViewのSurafaceProviderをセット

CameraSelector 使用するカメラを指定し、CameraSelectorを作成

プレビュー表示 CameraProvider.bindT oLifecycleに、 lifecycleOwnerと CameraSelectorと previewユースケースを渡してスタート

画像解析ユースケース画像解析ユースケースを作成してPassportAnalyzerをセット

画像解析ユースケース

Analyzer ImageAnalysis.Analyzerを実装し、オーバーライドしたanalyze内で画像解析処理

Analyzer ML KitのTextRecognitionを取得しておく

Analyzer 画像と回転度から InputImageを作成

Analyzer TextRecognizer.proc essにInputImageを渡してテキスト認識登録したリスナー内で結果を受け取る

TargetRotation screenOrientationを縦固定にしている場合

TargetRotation 画面が回転し、回転度も再設定され認識する screenOrientationを縦固定にしている場合

TargetRotation 画面が回転し、回転度も再設定され認識する画面が回転せず認識しない screenOrientationを縦固定にしている場合

TargetRotation OrientationEventListenerなどから取得したデバイスの向きを、 ImageAnalysis.targetRotaionに動的に設定

TargetRotation OrientationEventListenerなどから取得したデバイスの向きを、 ImageAnalysis.targetRotaionに動的に設定画面は縦向きのままだが認識してくれる

Analyzer Text全文やTextBlock のListも取り出せる

TextBlock Block、Line、Elementのそれぞれが、矩形、コーナー座標、言語情報、その内部のテキストを持っている https://codelabs.developers.google.com/codelabs/mlkit-android#4

Analyzer 読み取った全文の中でパスポートのMRZを抽出できた場合のみ読み取り完了とし、 onRecognizedに渡す

パスポートのMRZ • Machine Readable Zoon • 機械でパスポート情報を読み取るために印字されているコード • パスポートのレイアウトや言語は
発行国によって様々だが、MRZ の仕様は国際標準として定められているこの部分

パスポートMRZの仕様 • 44桁 x 2行 • パスポートの場合は必ず「P<」から始まる •
発行国・氏名・パスポート番号・国籍・生年月日・性別・有効期限の情報が入る • 各情報の位置は定められている。例えば氏名は6 - 44桁目に入り、区切りや余白には<が使用される • 読み取りの整合性確認のためのCheck Digitも組み込まれている https://www.icao.int/publications/pages/publication.aspx?docnum=9303

MRZを抽出正規表現などでMRZの文字列のみを抽出

Analyzer 繰り返し解析する場合はImagePloxyをcolse する

OCRスタート CameraProvider.bindToLifecycleに、設定完了したImageAnalysisを追加

OCR起動読み取り

社内で精度検証を実施まずは簡易的な実装をして精度を検証。社内のエンジニア以外のメンバーにも検証に協力してもらい、読み取りミスのパターンを収集。

社内で精度検証を実施まずは簡易的な実装をして精度を検証。社内のエンジニア以外のメンバーにも検証に協力してもらい、読み取りミスのパターンを収集。 →端末によっては読み取りミスがちょこちょこ発生

変換ロジックやバリデーションを追加 P<<YAMADA<<1CHlR0<<<<<<c<<e<<<<<<<<<<<<<<<<< TT12345670JPN0001010F2201010<<<<<<<<<<<<<<01 P<<YAMADA<<ICHIRO<<<<<<<<<<<<<<<<<<<<<<<<<<< TT12345670JPN0001010F2201010<<<<<<<<<<<<<<01 0 → O 1,l →
I c,e → < 変換 MRZの仕様的に問題無いものは変換。一つに絞れないなど勝手に変換したらまずいものはバリデーションエラーで対応し、再試行や修正を促す。

リリース後のモニタリング読み取り精度はデバイスごとのカメラ性能に大きく依存ユーザーの多い主要メーカーの代表端末は実機で動作確認それ以外のメーカーや、メーカー内の様々な機種を網羅的するのは困難

リリース後のモニタリング読み取り精度はデバイスごとのカメラ性能に大きく依存ユーザーの多い主要メーカーの代表端末は実機で動作確認それ以外のメーカーや、メーカー内の様々な機種を網羅的するのは困難エラーや再試行イベントなどにログを仕込み、問題が発生していそうな端末の種類を特定できるように

まとめ

まとめ • 基本的なユースケースであれば少ないコードで実装できる • 精度やパフォーマンスは状況に応じた取り組みを • CameraX と ML Kit
の組み合わせで色々やってみよう

CameraX × ML Kitで パスポートOCR機能を実装

CameraX × ML Kitで パスポートOCR機能を実装

Other Decks in Programming

Featured

Transcript

CameraX × ML KitでパスポートOCR機能を実装

CameraX × ML KitでパスポートOCR機能を実装