Upgrade to Pro — share decks privately, control downloads, hide ads and more …

バクラクのアノテーション基盤の伸びしろを考えてみた

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for sbrf248 sbrf248
April 18, 2024

 バクラクのアノテーション基盤の伸びしろを考えてみた

Avatar for sbrf248

sbrf248

April 18, 2024
Tweet

More Decks by sbrf248

Other Decks in Technology

Transcript

  1. © LayerX Inc. 2 バクラク事業部 機械学習チーム 機械学習エンジニア 伊藤 駿 (Shun

    Ito) 自己紹介 経歴 • 2020/04 〜 2023/12 株式会社エブリー ◦ データサイエンティスト ◦ データチームマネージャー • 2024/01〜 株式会社LayerX ◦ 機械学習エンジニア ◦ AI-OCR機能の開発
  2. © LayerX Inc. 4 バクラクシリーズラインナップ 仕訳・支払処理効率化 法人カードの発行・管理 稟議・支払申請・経費精算 帳票保存・ストレージ *

    経費精算のSlack連携は申請内容の通知のみ AIが領収書を5秒でデータ化 スマホアプリとSlack連携あり 領収書の重複申請などミス防止機能 AIが請求書を5秒でデータ化 仕訳・振込データを自動作成 稟議から会計までスムーズに連携 年会費無料で何枚でも発行可 インボイス制度・電帳法対応 すべての決済で1%以上の還元 AIが書類を5秒でデータ化 あらゆる書類の電子保管に対応 電子取引・スキャナ保存に完全対応 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 帳票発行 帳票の一括作成も個別作成も自由自在 帳票の作成・稟議・送付・保存を一本化 レイアウトや項目のカスタマイズも可能 ・ ・ ・
  3. © LayerX Inc. 7 • 内製ツールを使った社内アノテーション を進めている • 読み取り項目ごとに、座標の指定と 正解ラベルの値が入力できる

    • 手入力削減のための工夫 ◦ AI-OCRモデルによる事前 アノテーション ◦ 座標内の文字列抽出 ◦ etc. バクラクのアノテーション基盤 AI-OCR機能とアノテーション基盤
  4. © LayerX Inc. 9 アノテーションの改善は、大きく2つの観点から考えられる 1. 品質管理と効率化 ◦ どうやって速く正確にアノテーションするか ◦

    主にクラウドソーシング活用の文脈で研究されている 2. サンプリング ◦ どのデータをアノテーションするか ◦ 今回はこちらについて話します 現状のアノテーション基盤をさらに改善するには アノテーション改善の方向性
  5. © LayerX Inc. 10 学習に効果的なデータをサンプリングして重点的にアノテーションしたい • そのための一連の手法は能動学習 (Active Learning) と呼ばれる

    “効果的な”データを見つけるための2つの観点 • 不確実性サンプリング ◦ 機械学習モデルにとって予測が難しいデータを重点的にサンプリング • 多様性サンプリング ◦ 選ばれたデータの特性が互いに異なるようにサンプリング 『Human-in-the-Loop機械学習』 という書籍が体系的にまとめられていて参考になります https://www.kyoritsu-pub.co.jp/book/b10039888.html アノテーションにおけるサンプリングとは サンプリング
  6. © LayerX Inc. 11 機械学習モデルにとって予測が難しいデータを重点的にサンプリング 不確実性サンプリング サンプリング 不確実性サンプリングの例(最小確信度サンプリング) 0.8 0.1

    0.1 Class1 Class2 Class3 データ1に対する 予測結果 0.2 0.7 0.1 データ2に対する 予測結果 0.3 0.4 0.3 データ3に対する 予測結果 最大スコア 0.8 0.7 0.4 不確実性 小 大 • ラベルの無いデータから、機械学習モデルの決定境界近くに存在するデータを重視する 重点的にサンプリング
  7. © LayerX Inc. 13 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 不確実性サンプリングに注目した改善 • 新しい書類フォーマットへの対応

    ◦ 例えば請求書だけでも、事業規模や業界によってフォーマットは全く異なる ◦ 新しいお客様の帳票が学習データに無いフォーマットの場合、すぐには予測が難しい ◦ 不確実性サンプリングで難しい帳票をアノテーションし、いつの間にか読めない帳票が読める ようになる体験を素早く届ける バクラクのアノテーション基盤における改善案 バクラクにおける改善
  8. © LayerX Inc. 14 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 多様性サンプリングに注目した改善 • 学習データの量・質のバランス改善

    ◦ お客様に長く使っていただくほど、会社ごとに特有の帳票も多くアップロードされていく ◦ 似たような帳票が増えると、データサイズの増加に対して情報量があまり多くならない ◦ 多様性サンプリングで似た帳票に偏らない、量・質ともに適切な学習データを作ることで、 学習・モデル更新のサイクルを高速に回せる バクラクのアノテーション基盤における改善案 バクラクにおける改善