Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SansanにおけるData-Centricな取り組み / Data-Centric Initiatives at Sansan

SansanにおけるData-Centricな取り組み / Data-Centric Initiatives at Sansan

■イベント :第2回 Data-Centric AI勉強会
https://dcai-jp.connpass.com/event/289182/

■登壇概要

タイトル:SansanにおけるData-Centricな取り組み
発表者: 技術本部 研究開発部 SocSci Group 猿田 貴之

◉ 研究開発職 採用情報
募集中のポジションや関連記事など
https://media.sansan-engineering.com/

◉ Sansan Tech Blog
Sansanのものづくりを支えるメンバーのテックブログ(R&Dメンバーの連載も多数)

https://buildersbox.corp-sansan.com/

Sansan R&D

July 20, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. 写真が入ります 猿⽥ 貴之 Sansan株式会社 技術本部 研究開発部 SocSci Group 研究員 Sansan株式会社の研究開発部研究員として、Sansan内外の

    データ群を⽤いたアプリーションやプロダクトマネジメント に従事 慶應義塾⼤学院修⼠課程修了。新卒でメーカーのR&D部⾨で コンピュータビジョン、機械学習関連の研究開発などに従事。 その後スタートアップ2社でテクニカルプロダクトマネージャ ーやエンジニアリングマネージャーを経験
  2. © Sansan, Inc. 出会いから イノベーションを⽣み出す いつの時代も、世界を動かしてきたのは出会いです。 ⼈と⼈、企業と企業、 その出会いの連鎖が社会を前進させます。 私たちは出会いが持つ可能性を再発⾒し、 未来につなげることでビジネスを変えていきます。

    イノベーションにつながる新しい出会いを⽣み出す。 出会いの⼒でビジネスの課題にイノベーションを起こす。 そして、ビジネスの出会い、そのもののあり⽅を変えていきます。 Mission
  3. 会社概要 3 表参道本社 神山ラボ Sansan Innovation Lab 社 名 Sansan株式会社

    所在地 表参道本社 東京都渋⾕区神宮前5-52-2 ⻘⼭オーバルビル13F グループ 会社 Sansan Global Pte. Ltd.(シンガポール) Sansan Global Development Center, Inc.(フィリピン) Sansan Corporation(アメリカ) ログミー株式会社 株式会社ダイヤモンド企業情報編集社 クリエイティブサーベイ株式会社 株式会社⾔語理解研究所 従業員数 1,317 名(2023年5⽉31⽇時点) 2007年6⽉11⽇ 設 ⽴ ⽀店:⼤阪、名古屋 サテライトオフィス:徳島、京都、福岡、新潟 拠 点 寺⽥ 親弘 代表者
  4. 働き⽅を変えるDXサービス 4 ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供 ビジネスフローにおけるさまざまな分野でサービスを展開 請求 キャリア 管理 キャリアDX 営業 営業DX

    契約 契約DX 経理DX 個⼈向けDX 法⼈向けDX 必要な情報を すぐに⾒つけられる 情報の管理がしやすく すぐに共有できる 情報を分析・活⽤しやすく データに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅
  5. Data-CentricなSansan ⼈脈情報 コンタクト 情報 企業情報 その他情報 契約情報 請求情報 全社横断データ基盤 企業DB

    データ構造化 データ連携 データ連携 名寄せ BIツール In-house solution データプロダクト マネジメント Salesforce *Salesforceは Salesforce, Inc. の商標です。
  6. さまざまな事業領域に貢献するR&D 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・/因果推論 データ可視化 プロダクトマネジメント 解約阻⽌・利⽤促進(CS) 営業効率化(営業)

    SceneText Recognition Object Detection ⼊⼒の⾃動化 OCR/項⽬分割 など 超解像 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 ⽂書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメン デーション ラベル 予測 名寄せ RCT ABテスト・ 効果検証 パネルデータ 分析 Sansan Labs (新機能開発) キーバリュー抽出 帳票のデータ化 Graph Neural Network 新規事業 営業/CS (社内課題)
  7. NineOCR精度評価 12 実験内容 CER(↓) A社 7.39 B社 2.53 NineOCR 0.390

    Accuracy(↑) A社 68.4% B社 86.6% NineOCR 99.2% 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 評価指標 - Character Error Rate (CER) - Accuracy ⽐較対象 - A社: 名刺OCRの機能があり、項⽬単位で返却。 - B社: 汎⽤OCR。内製エンジンと組み合わせて項⽬判定。 データ構造化の取り組み
  8. MLOpsの取り組み Feature Store 13 - データ化プロセスで⽣成された OCR結果のキャッシュを、学習に 適した形式に変換して、保存してお くための基盤 -

    解約によるデータ削除をGEES(名 刺データ化システム)と連携するこ とで安全に⼤量のデータ保持を実現 - データ収集の所要時間を30⽇→8時 間に⼤幅に短縮 - その他にもデプロイ基盤や学習ジョ ブマネージドサービスやカナリアリ リースがある データ構造化の取り組み
  9. Bill One、Contract Oneにおける帳票からの項目抽出 14 - 名刺データ化によって培われた ノウハウによる⾼速 オペレーション⽴ち上げ - 新しい課題に対しての技術開発

    (グラフベースやルールベース、 固有表現抽出など) - 請求書の状態や項⽬によって ⼿法を切り替えている テキスト×座標 グラフベースエンコーダ Sequence Labeling Layers Graph Convolution Layers Transformer Layers Sequence Labeling Layers ご 請求 ⾦額 \ 99,000 (税込) … お⽀払い 期限 : 2023 年 4 ⽉ 20 ⽇ class:請求金額 class:支払期日 【構造化された請求書】 LayoutLMv2 テキスト×座標× 画像 データ構造化の取り組み
  10. 必要性と課題 データに基づく意思決定をするためには、データそのものだけでは不⼗分 データを継続的に収集、蓄積して活⽤しやすいように整備する全社横断データ基盤が必要 各部署でデータ基盤は整備されているが、データが分散してサイロ化している 全社横断データ基盤 - データ管理コストの増⼤ - 複数の部署で同じデータを管理している場合があり、データの重複が発⽣している -

    顧客の契約/利⽤情報がSalesforce、独⾃のKPIパネル、スプレッドシートなどに散財 - データ取得するまでの⼿間がかかる - 各部署で定められた接続⽅法にしたがってデータ基盤にアクセスしてデータ取得する必要がある - Salesforceなどデータ取得するために営業からエクスポートしてもらう必要があった - データ基盤で対応するためにアプリケーションエンジニアやインフラエンジニアが個別対応 データのサイロ化による影響
  11. 目指す姿 - 各プロダクト、CRM等のデータ、ログが⼀箇所に集約されている - オリジナルである必要はなく、データコピーで良い - テーブルジョインで横断的な分析が可能に - クエリ結果を早く得られることで、仮説検証サイクルを素早く回せる -

    メタデータが管理・統⼀されている - 分析で使いたいデータがどのテーブルにあるのか検索できる - そのデータにアクセスできる⼈、⽤途を関係者に聞かなくても各⾃で調べることができる - 安全にデータアクセスできる - 許可された社員のみが特定のデータにアクセスできる - 適切な承認フローを経て、承認された場合のみデータにアクセスできる - データの品質が担保されている - このデータはどこから来たのかがわかる(データリネージ) - データがしかるべきタイミングで更新されている 全社横断データ基盤
  12. システム概要 - Google Cloud Platform(GCP) - 格納されているデータ - 各プロダクトデータ -

    Data Hub基盤(Saleforce etc.) - プロダクトKPI - ・・・ - 個⼈単位で権限管理 - 委託データへのアクセスは事前 承認による有効期限つき 全社横断データ基盤
  13. R&D主導のデータプロダクトマネジメント ビジョン実現に 貢献度が⾼い ビジョン実現に 貢献度が低い 短期的な利益 貢献に繋がる 短期的な利益 貢献に繋がらない ビジョンへの投資

    理想 危険 ビジョン負債 Sansan PdM Sansan Labs Sansan Labs - Sansan Labsはデータ活⽤で ビジネス課題を解決する機能を 提供するプラットフォーム - 1つの新機能の企画からリリース までリードタイム2週間を⽬指し、 年間100機能のリリースを⽬指す - UXリサーチに時間をかける ⼀般的なプロダクトマネジメントと 異なり、⾼速にリリースすることで ユーザーからのフィードバックを もとに機能改善を進め、 本機能・新規事業化を⽬指す
  14. 開発プロセス 22 Week 0 Week 1 Week 2-3 企画 /

    リファインメント 要件定義 / プロトタイピング デザイン / バッチ開発 / フロント開発 / リリース 多数のアイディアを集める - 社内外ユーザーフィードバ ック - Sansan User Forum ユーザーからの投票企画 - 営業・CSと顧客との定期 MTGに同席 開発や運⽤の属⼈性を排除 ⾔語をpythonに統⼀し、テン プレートや社内ライブラリを 充実させることで開発・運⽤ の属⼈性を排除し、ノウハウ を蓄積して共有することが可 能 フロントエンド開発⼯数削減 データ分析という体験に⽐重 をおき、フロントエンドは⽐ 較的ローコードで開発できる フレームワークを⽤いること で開発⼯数を削減 開発基盤の統⼀による アーキテクトの負担減 Labs共通データベースの作 成やMLOps基盤(circuit) に乗せること研究員⾃⾝がリ リース作業やメンテナンスが できる 開発フェーズの明確化と 振り返り 1週間単位で開発フェーズを定 義することで、スケジュール からの遅れをより意識できる ようになった プロダクトバックログに まとめる - ペイン - カスタマージャーニー - 既存の解決策と Labsでの解決策 - 実現する・しない ストーリー - etc - (あまり作り込みすぎない) Sansan Labs
  15. リリースした機能 営業ポテンシャル分析 2023/03公開 業界ニュースランキング 2022/12公開 営業アクティビティレポート 2022/12公開 役職者接点状況チェック 2022/10公開 ⼈脈の浸透度を可視化する

    2022/07公開 役職者接点カバー率 2022/07公開 訪問ルートメーカー 2022/10公開 メディカル接点マップ 2022/11公開 類似企業検索 2022/11公開 企業パフォーマンス検索 2022/11公開 企業リレーションスコア 2022/12公開 Sansan Labs
  16. Data-CentricなSansan ⼈脈情報 コンタクト 情報 企業情報 その他情報 契約情報 請求情報 全社横断データ基盤 企業DB

    データ構造化 データ連携 データ連携 名寄せ BIツール In-house solution データプロダクト マネジメント Salesforce SansanのData-Centricな取り組みについてご紹介 ⁃ 名刺に特化したOCRエンジンNiceOCRだけでなく、Bill OneやContract Oneなど マルチプロダクトをスケールさせるための構造化技術 ⁃ 継続的に意思決定に活⽤される全社横断データ基盤構築 ⁃ R&D主導のデータプロダクトマネジメントSansan Labs