Upgrade to Pro — share decks privately, control downloads, hide ads and more …

バクラクのAI-OCRを支える精度モニタリング -モニタリングドリブンの改善-

Tomoaki
July 12, 2023

バクラクのAI-OCRを支える精度モニタリング -モニタリングドリブンの改善-

MLOps LT大会 2023/7月 登壇資料
https://mlops.connpass.com/event/286716/

バクラクのAI-OCRを支える精度モニタリングについて紹介します。OCR技術は、ビジネスプロセスを効率化する上で必要不可欠な技術の一つですが、その精度を維持するためには、常にモニタリングが必要です。バクラクのMLチームでは、AI-OCRの精度モニタリングに重点的に取り組んでおりその内容を紹介します。

Tomoaki

July 12, 2023
Tweet

More Decks by Tomoaki

Other Decks in Programming

Transcript

  1. © 2023 LayerX Inc. 3 3 画像を入れてね 自己紹介 北岡 知晃(Tomoaki

    Kitaoka) 2019年〜現在 株式会社LayerX バクラク事業部 MLチーム Software Engineer • バクラクのリリース初期から AI-OCR機能の開発 趣味 • 筋トレ(クロスフィット・ウエイトリフティング) • ソーイング @tapioca_pudd
  2. © 2023 LayerX Inc. 5 5 * 資本準備金含む ** 全事業含む

    会社名     代表取締役  創業      資本金* 拠点 関連会社 取得認証 | 株式会社LayerX(レイヤーエックス) | 代表取締役CEO 福島 良典    代表取締役CTO 松本 勇気 | 2018年 | 112.6億円 | バクラク事業、Fintech事業、Privacy Tech事業 | 東京本社・中部支社・関西支社・九州支社 | 三井物産デジタル・アセットマネジメント   三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社 | 情報セキュリティマネジメントシステム、      JIIMA認証 提供プロダクト IS 747702 / ISO 27001 次世代プライバシー保護/秘匿化技術 国土交通省の「不動産情報の更なる 利活用に向けた調査・検証業務」における プライバシー保護技術検証も受託 バクラク事業 企業活動のインフラとなる 法人支出管理( BSM)SaaSを 開発・提供 Fintech事業 三井物産/三井住友信託銀行等との 合弁会社にて証券事業を展開 デジタル証券で資産運用できるサービス 「ALTERNA」を提供 Privacy Tech事業 LayerXの概要
  3. © 2023 LayerX Inc. 6 6 * 経費精算のSlack連携は申請内容の通知のみ 稟議・支払申請・経費精算・ワークフロー ・AIが領収書を5秒でデータ化

    ・承認はスマホのアプリから ・領収書の重複申請などミス防止機能 仕訳・支払処理効率化 ・AIが請求書を5秒でデータ化 ・仕訳データを自動学習、 手入力ゼロへ ・スキャン代行も実施 ・利用料無料 ・即時追加発行 ・最大1億円決済可能 法人カードの発行・管理 ・無料で始められる ・手入力ゼロで証憑管理 ・改正電子帳簿保存法に対応 帳票保存・ストレージ 「バクラク」シリーズラインナップ
  4. © 2023 LayerX Inc. 7 7 * 2023年6月時点 「バクラク」の成長 ✔ 高い継続率と顧客満足度を保持しながら、シリーズ累計の導入社数5,000社を突破

    ✔ 「バクラク請求書」がITreview Grid Award 2023 Winterの    請求書受領サービス 中小企業部門で最高位のLeader、同 総合部門でHigh Perfomerを受賞
  5. © 2023 LayerX Inc. 8 8 シリーズ累計導入社数 5,000社以上 卸売・小売 士業事務所

    非営利法人 製造 建設・運輸 卸売・小売 不動産・物品賃貸 施設・店舗運営 士業事務所 情報通信 金融・保険 非営利法人 ※一部企業様を抜粋して掲載しています(2023年5月時点)。 上場企業(プライム・スタンダード/グロース)や上場準備企業の導入実績も多数
  6. © 2023 LayerX Inc. 10 10 解決したい課題 • 請求書に記入されている項目(支払期日や支払金 額、取引先名など)を目視で確認して、ミスなく入

    力・管理することはとても負荷の高い仕事 ◦ 対応する枚数が数十、数百枚と増えるにつ れてミスが起こりやすい ◦ 帳票のフォーマットが多種に渡り読み取る ことが単純に大変 ◦ ミスは許されないためダブルチェック等確 認作業にもコストがかかってしまう 受けとった請求書を手入力でデータ化するという負荷の大きい作業をバクラクにする
  7. © 2023 LayerX Inc. 12 12 AI-OCR機能の入力と出力 請求書ファイル (画像・PDF) 請求書に記載の

    項目ごとの値 500,000 2021/02/28 株式会社テンプレ 支払期日 支払金額 取引先名 請求書ファイルを入力し、請求書に記載の必要項目ごとの値を出力してユーザーに提示
  8. © 2023 LayerX Inc. 13 13 AI-OCR機能で解いているタスク 請求書ファイル (画像・PDF) 請求書に記載の

    項目ごとの値 { “bbox”: [{"x": 0.3421, "y": 0.567},...], "word": “2021/2/28” },... 請求書内の 文字と座標 項目推定 文字検出 文字認識 500,000 2021/02/28 株式会社テンプレ 支払期日 支払金額 取引先名 「文字検出・文字認識」と「項目推定」のタスクに分解
  9. © 2023 LayerX Inc. 15 15 精度モニタリングのアーキテクチャ バクラク事業におけるデータ組織とデータ基盤 2023 https://tech.layerx.co.jp/entry/bakuraku-data-management-2023

    • データの収集はEmbulkというETLツールを利用して、BigQueryにデータウェアハウスを構築 • dbt (Data Build Tool) を利用してデータ変換を行い、redash・Looker Studioにてダッシュ ボード・アラート作成 • BigQueryにデータを流すところまではデータチームが主に担当し、それ以降はMLチームが担当
  10. © 2023 LayerX Inc. 16 16 モニタリング内容 モニタリング対象のデータ • daily・weeklyで正解率をテナントごとに集計し、特定の閾値を超えているテナントを抽出

    • 対象は全てのテナント( 5000+)であり、対象はOCRを利用する全てのサービス(バクラク請求書・申 請・経費精算・電子帳簿保存) モニタリングで実施していること • 毎日朝会にて15~30分ほど、MLチーム全員参加でモニタリングの時間を設ける • 抽出したテナントの帳票を確認し、不正解だった原因の分析 • 改善タスクの起票 ◦ モデルの改善 ◦ 前処理・後処理の改善 ◦ お客様へサービスの設定の案内 ◦ etc…
  11. © 2023 LayerX Inc. 17 17 なぜ毎日のモニタリングにコストを割くのか • 正解率が低い場合もいろんなケースがあり、調査してみないとその緊急度がわかりにくい ◦

    緊急度が低い例 ▪ 証憑に書いてない値をユーザーが入力している • 例:購買の申請の証憑として商品の画像をアップロード • 例:チャットツール上での一連の会話をスクショとして稟議の証憑として添付 ◦ 緊急度が高い例 ▪ 帳票に書いて項目の値が明記されているのにも関わらず読み取れていない • ユーザーのアップロードする帳票の傾向が急に変化し、現行のモデルでは対応できな いファイルが突然発生することがある • ユーザーの体験が悪化した場合に即座に検知して、対処する必要がある
  12. © 2023 LayerX Inc. 18 18 工夫している点: 分析に必要なデータを集約しファイルを探す時間を短縮 • 正解率という定量的なデータだけでは分析が難しいため、読み取れなかったファイルのデータや OCR

    の過程の中間生成ファイルを一覧で見れるページを内製のアノテーションツールに作成 • ダッシュボードにアノテーションツールへのリンクを設置し、精度が気になるテナントのファイルを簡単 に見れるようになっている バクラクデータ管理(アノテーションツール)
  13. © 2023 LayerX Inc. 19 19 モニタリングの効果 • 毎日何かしらの改善点を発見(粒度は大小いろいろ) ◦

    バックログのタスクのほとんどはモニタリングの時間で作られている ◦ 軽微な前処理・後処理のバグなどはすぐに修正してリリース • 課題に関して毎日同期的に話すことで、課題に対する理解と解像度が深まる ◦ 「なぜ読み取れてないのか」、「改善するにはどういうアプローチがあるか」といったディス カッションが自然と行われ、課題に対する理解と解像度が高まる。 • エンジニアのドメイン知識の獲得 ◦ 多様な書体、書式、言語、レイアウトの書類が存在し、100社あればそれぞれ独自の書類 がある ◦ エンジニアがドメインの理解を深めることが、結果的に改善のサイクルを早くする
  14. © 2023 LayerX Inc. 21 21 精度モニタリングの今後の課題 • モニタリングで得られた情報を集合知として蓄積 ◦

    テナントごとの傾向など気づいたことのログを残し、ダッシュボードで見れるよにし、集合 知として蓄積することで新規メンバーもキャッチアップしやすくしたい • ダッシュボード等の改善 ◦ 朝会でチーム全員の時間を利用しているので、必要なデータはなるべく一箇所に集約した り、クエリを再実行する場合はその時間を短縮したり、改善すべき点はまだまだたくさん • さらなる自動化 ◦ モニタリングで精度の低下を検知した場合、即座にアノテーションを行い改善に繋げられ る仕組みの構築 ◦ モニタリングで検知した情報を元にデータセットを自動で作成しモデルを作るなど
  15. © 2023 LayerX Inc. 22 22 We are hiring!! ML・ML

    Opsに関するあらゆる職種がオープンしています。あなたの力を貸してください! • データエンジニア • アナリティクスエンジニア • データアナリスト • データサイエンティスト • 機械学習エンジニア • MLOpsエンジニア • etc カジュアル面談からお気軽にどうぞ 採用情報 カジュアル面談