Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NineOCRの改善を⽀えるFeature Store / Feature Store Supporting NineOCR Improvements

Sansan R&D
November 10, 2023

NineOCRの改善を⽀えるFeature Store / Feature Store Supporting NineOCR Improvements

■イベント: Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-
https://sansan.connpass.com/event/299113/

■登壇概要
タイトル: NineOCRの改善を⽀えるFeature Store
発表者: 技術本部 研究開発部 Architectグループ 八藤丸 諒士

◉ 研究開発職 採用情報
https://media.sansan-engineering.com/randd

◉ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

November 10, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. - 改善されたこと - データ収集の所要時間が30⽇→8時間に短縮 - 活⽤事例 - 回転判定の更新 - 更新前

    - ⽂字認識器と回転判定器に依存関係があり、常に⽚⽅のモデルのみを更新するこ とができなかった - 更新後 - モデル間の結合がなくなり、⾮同期に改善を⾛らせることが可能になった - 着⼿から2週間でリリース - 軽微なモデル変更でもデータ収集がボトルネックとなっていたが、Feature Store の導⼊で解消された Feature Storeによって改善されたこと・活⽤事例①
  2. - 改善されたこと - 新しいデータの継続的な流⼊ - 活⽤事例 - ⽂字列検出器の更新 - 従来の学習データ

    - ピースを⼿動で切り抜くサービスを利⽤していたため、データを増やす ことが困難 - データドリフトへの対応が不可能 - Feature Store導⼊後の学習データ - 常に最新の学習データから検出器に適したデータをフィルタリングして 学習 Feature Storeによって改善されたこと・活⽤事例②
  3. - 改善されたこと - 検索が可能になった - 活⽤事例 - 異体字候補画像の抽出 - 異体字を含む名刺を検索、学習に使⽤

    - ex) 「吉-𠮷」 - 結果 - ほぼ全ての項⽬で精度が向上 - コスト削減 - 異体字候補を含む⽂字列は⼿動⼊⼒されていた - 縦横混在ピースの抽出 - 特徴的なミスをするので、苦⼿なパターンで検索 - ex) 「〒四」「〒の」 Feature Storeによって改善されたこと・活⽤事例③
  4. - リリースサイクルの完全⾃動化 - 評価項⽬の拡充が課題 - 現状 - 共通データ基盤”Colossus”に⽇々のNineOCRの評価を貯める仕組みは構築済み - LookerStudioで可視化しており、リリースの結果等を定例で確認している

    - カナリアリリース→全展開 or ロールバックまでの間GEESで検証 - 今後 - ビジネスKPIに直結するより多くの指標も監視対象に加えることで、改善サイクル を効率化、将来的には完全⾃動化することができると期待 今後の展望
  5. NineOCRにとってのMLOpsの理想形 Source repository CI / CD テスト・デプロイ ML Prediction Service

    精度監視 Model registry 検証・分析・モデル作成 Feature Store