Slide 1

Slide 1 text

Sansan株式会社 部署 名前 R&D⾃動評価基盤の取り組み Sansan技術本部 Sansan技術本部 研究開発部 Architectグループ 辻⽥ 美咲

Slide 2

Slide 2 text

辻⽥ 美咲 Sansan株式会社 技術本部 研究開発部 Architectグループ - 2021年 Sansan⼊社 - Architectグループ takowasaチーム所属 - DevOps/MLOps Engineer

Slide 3

Slide 3 text

Agenda - Sansan研究開発部とは - ⾃動評価基盤の設計 - 今後の展望

Slide 4

Slide 4 text

1.Sansan研究開発部とは

Slide 5

Slide 5 text

さまざまな事業領域に貢献するR&D 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・因果推論 データ可視化 プロダクトマネジメント 新規事業 営業/CS (社内課題) 解約阻⽌・利⽤促進(CS) 営業効率化(営業) SceneText Recognition Object Detection ⼊⼒の⾃動化 OCR/項⽬分割など 超解像 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 文書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメンデ ーション ラベル 予測 名寄せ RCT ABテスト ・効果検証 パネルデータ 分析 Sansan Labs (新機能開発) キーバリュー抽出 帳票のデータ化 Graph Neural Network

Slide 6

Slide 6 text

研究開発部内のメンバー構成 研究員 / データサイエンティスト MLOps / DevOps エンジニア データエンジニア / アナリティクスエンジニア プロダクトマネジャー プロダクト組織 主に名刺や帳票の⾼精度なデータ化や蓄積 されたデータからプロダクトの価値を⾼め るデータを活⽤した機能の研究開発からサ ービスリリースまで担う サービスの品質・可⽤性・セキュリティ・ オブザーバビリティを担保 また研究員による試⾏錯誤を増やし、継続 的に素早くリリースするためのデプロイ基 盤を構築・推進 研究開発部や全社で利⽤する分析基盤の設 計・開発をリード ⾃社のプロダクトから⽣まれるさまざまな ログやデータ連携パートナー企業などから のデータを、活⽤しやすい形で社内に提供 プロダクト組織と連携し、各プロダクトを 連続的・⾮連続的に成⻑させる機能開発・ 検証をリード

Slide 7

Slide 7 text

takowasaチームとは ~われわれはなぜここにいるのか~ - われわれは研究員と⼿を取り合い、 - 研究員の作る多くの価値を素早く提供する - 研究員が本質的な課題に向き合う時間を増やす

Slide 8

Slide 8 text

takowasaチームとは ~エレベーターピッチ~ R&Dの成果を顧客に迅速に安定して提供したい研究員のための、 takowasaというチームは、開発、運⽤における⾼可⽤性のあるプラクティスを開拓、浸透させるチームである。 われわれは研究員の認知負荷を減らし、ユーザ価値に向き合う時間を増やすことができる。 他チームとは違って、ベストプラクティスをR&D全体に浸透させることに向き合っている。 認知負荷 ベストプラクティスの 開拓、浸透 顧客への価値提供

Slide 9

Slide 9 text

2.⾃動評価基盤の設計

Slide 10

Slide 10 text

MLシステムの要素 出典:Hidden Technical Debt in Machine Learning Systems

Slide 11

Slide 11 text

ML開発フローの課題 アプリケーション基盤”Circuit” によって改善した部分 データ 収集 サービス 構築 評価 リリース 学習 A/B テスト 前処理 推論 機械学習システム ワークフロー MLプロジェクトにおいて⼤半を 占める前処理部分には、基盤が 存在しない。 ⾃動化等は各サービス担当者に 依存している。

Slide 12

Slide 12 text

⾃動評価基盤の⽬的 1. モデルやエンジンの評価を迅速化し、顧客価値の提供を加速 2. 認知負荷の軽減と研究者の本質的な課題に注⼒する時間の増加

Slide 13

Slide 13 text

⾃動評価基盤のアーキテクチャ

Slide 14

Slide 14 text

⾃動評価基盤のアーキテクチャ

Slide 15

Slide 15 text

⾃動評価基盤のアーキテクチャ

Slide 16

Slide 16 text

⾃動評価基盤の設計 評価スクリプトの統⼀性 - 各サービスのリポジトリ内に配置し、標準出⼒に 結果を出⼒ - 指定フォーマットに従えば、⾃動でデータ基盤に連携 - 研究員は評価コードの開発に集中ができる

Slide 17

Slide 17 text

⾃動評価基盤の設計 モデル精度のモニタリング - 定期的なモデル精度の監視とトラッキング - モデルのバージョン、学習データのバージョン情報なども⼀緒に保存 - 再現性の確保と分析の容易化 - モデルの性能や品質の変化を把握し、潜在的な問題を早期に検出

Slide 18

Slide 18 text

自動評価基盤の設計 評価結果のGitHub上での管理と可視化 - 評価結果をGitHub上のプルリクエストとして管理し、可視化 - チームメンバー間の共有を促進 - リリース判断のための情報を容易に利⽤可能にする

Slide 19

Slide 19 text

とあるサービスでの事例 評価結果をGitHub上で管理、可視化を始めたサービス - リードタイム - 2Q 199時間→3Q 138時間で61時間の削減 - リリース頻度 - 2Q 4回→3Q 10回で2.5倍に増加

Slide 20

Slide 20 text

3.今後の展望

Slide 21

Slide 21 text

今後やっていきたいこと - すべての仕組みを本格運⽤ - 評価スクリプトの統⼀、モデルのモニタリング、評価結果のGitHub管理 すべ てを組み込んだサービスはまだ無い - リリースの完全⾃動化 - Argo Workflowsを⽤いて評価ジョブの実⾏〜結果解析〜リリースを完全⾃動化 - 全サービス展開

Slide 22

Slide 22 text

No content