$30 off During Our Annual Pro Sale. View Details »

SansanにおけるData-Centricな取り組み / Data-Centric Initiatives at Sansan

SansanにおけるData-Centricな取り組み / Data-Centric Initiatives at Sansan

■イベント :第2回 Data-Centric AI勉強会
https://dcai-jp.connpass.com/event/289182/

■登壇概要

タイトル:SansanにおけるData-Centricな取り組み
発表者: 技術本部 研究開発部 SocSci Group 猿田 貴之

◉ 研究開発職 採用情報
募集中のポジションや関連記事など
https://media.sansan-engineering.com/

◉ Sansan Tech Blog
Sansanのものづくりを支えるメンバーのテックブログ(R&Dメンバーの連載も多数)

https://buildersbox.corp-sansan.com/

Sansan R&D

July 20, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. Sansanにおける
    Data-Centricな取り組み
    Sansan技術本部
    Sansan技術本部
    研究開発部
    猿田 貴之

    View Slide

  2. 写真が入ります
    猿⽥ 貴之
    Sansan株式会社
    技術本部 研究開発部 SocSci Group 研究員
    Sansan株式会社の研究開発部研究員として、Sansan内外の
    データ群を⽤いたアプリーションやプロダクトマネジメント
    に従事
    慶應義塾⼤学院修⼠課程修了。新卒でメーカーのR&D部⾨で
    コンピュータビジョン、機械学習関連の研究開発などに従事。
    その後スタートアップ2社でテクニカルプロダクトマネージャ
    ーやエンジニアリングマネージャーを経験

    View Slide

  3. © Sansan, Inc.
    出会いから
    イノベーションを⽣み出す
    いつの時代も、世界を動かしてきたのは出会いです。
    ⼈と⼈、企業と企業、
    その出会いの連鎖が社会を前進させます。
    私たちは出会いが持つ可能性を再発⾒し、
    未来につなげることでビジネスを変えていきます。
    イノベーションにつながる新しい出会いを⽣み出す。
    出会いの⼒でビジネスの課題にイノベーションを起こす。
    そして、ビジネスの出会い、そのもののあり⽅を変えていきます。
    Mission

    View Slide

  4. 会社概要
    3
    表参道本社
    神山ラボ
    Sansan Innovation Lab
    社 名 Sansan株式会社
    所在地
    表参道本社
    東京都渋⾕区神宮前5-52-2 ⻘⼭オーバルビル13F
    グループ
    会社
    Sansan Global Pte. Ltd.(シンガポール)
    Sansan Global Development Center, Inc.(フィリピン)
    Sansan Corporation(アメリカ)
    ログミー株式会社
    株式会社ダイヤモンド企業情報編集社
    クリエイティブサーベイ株式会社
    株式会社⾔語理解研究所
    従業員数 1,317 名(2023年5⽉31⽇時点)
    2007年6⽉11⽇
    設 ⽴
    ⽀店:⼤阪、名古屋
    サテライトオフィス:徳島、京都、福岡、新潟
    拠 点
    寺⽥ 親弘
    代表者

    View Slide

  5. 働き⽅を変えるDXサービス
    4
    ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供
    ビジネスフローにおけるさまざまな分野でサービスを展開
    請求 キャリア
    管理
    キャリアDX
    営業
    営業DX
    契約
    契約DX 経理DX
    個⼈向けDX
    法⼈向けDX
    必要な情報を
    すぐに⾒つけられる
    情報の管理がしやすく
    すぐに共有できる
    情報を分析・活⽤しやすく
    データに基づいた判断ができる
    SansanのDXサービスの活⽤で変わる働き⽅

    View Slide

  6. Data-CentricなSansan
    ⼈脈情報
    コンタクト
    情報
    企業情報
    その他情報
    契約情報
    請求情報
    全社横断データ基盤
    企業DB
    データ構造化
    データ連携
    データ連携
    名寄せ
    BIツール
    In-house
    solution
    データプロダクト
    マネジメント
    Salesforce
    *Salesforceは Salesforce, Inc. の商標です。

    View Slide

  7. Sansanはクラウド名刺管理サービスから営業DXサービ
    スへプロダクトを刷新し、「営業を強くするデータベー
    ス」へ進化しています
    インボイス管理サービス「Bill One」、契約DXサービス
    「Contract One」などマルチプロダクト戦略を取ってい
    るSansanにおける技術的なチャレンジをData-Centricに
    話します
    主にOCR技術含む⾮構造化データの構造化技術、全社
    横断データ基盤、データ基盤を活⽤したデータプロダク
    トマネジメントについて紹介します
    Data-Centricな取り組み

    View Slide

  8. さまざまな事業領域に貢献するR&D
    画像処理・画像認識 ⾃然⾔語処理 機械学習
    データサイエンス
    ・/因果推論
    データ可視化
    プロダクトマネジメント
    解約阻⽌・利⽤促進(CS)
    営業効率化(営業)
    SceneText
    Recognition
    Object Detection
    ⼊⼒の⾃動化
    OCR/項⽬分割
    など
    超解像
    特徴語判定
    会社
    キーワード
    固有表現抽出
    メール署名
    取り込み
    固有表現抽出
    ニュース
    配信
    ⽂書分類
    ResNet
    企業ロゴ
    抽出
    Graph
    Embeding
    レコメン
    デーション
    ラベル
    予測
    名寄せ
    RCT
    ABテスト・
    効果検証
    パネルデータ
    分析
    Sansan Labs
    (新機能開発)
    キーバリュー抽出
    帳票のデータ化
    Graph Neural Network
    新規事業
    営業/CS
    (社内課題)

    View Slide

  9. - データ構造化の取り組み
    - 全社横断データ基盤
    - Sansan Labs
    Agenda
    8

    View Slide

  10. データ化精度とコストのトレードオフ
    9
    データ構造化の取り組み
    データ化における⼈とコンピュータには、
    それぞれ⻑所と短所があり、データ化精
    度とコストの間にはトレードオフがある
    また、プロダクト(事業)におけるフェ
    ーズにおいてもこのトレードオフは変化
    する(流⼊量、流⼊タイミング、技術的
    課題)

    View Slide

  11. データ化のフロー
    10
    データ化のフローはマイクロタスク化されている
    各タスクは⾃動⼊⼒・インハウス⼊⼒・クラウド⼊⼒を組み合わせて処理される
    下記は名刺のデータ化のフロー
    データ構造化の取り組み
    データ化のフロー
    4
    分類した名刺情報の切⽚化
    3
    名刺項⽬の分類
    1 2
    スキャン・撮影 画像処理
    5
    データ⼊⼒

    View Slide

  12. NineOCR - 名刺に特化したOCRエンジン -
    11
    ⽂字列検出器と⽂字認識器を別々に学習して組み合わせている
    検出器
    認識器 株式会社 サン・グローバルジャパン
    ⽔上␣弘太郎
    [email protected]
    ピース切り出し
    データ構造化の取り組み

    View Slide

  13. NineOCR精度評価
    12
    実験内容
    CER(↓)
    A社 7.39
    B社 2.53
    NineOCR 0.390
    Accuracy(↑)
    A社 68.4%
    B社 86.6%
    NineOCR 99.2%
    名刺10,000枚に対するE-mailアドレスの認識精度を⽐較
    評価指標
    - Character Error Rate (CER)
    - Accuracy
    ⽐較対象
    - A社: 名刺OCRの機能があり、項⽬単位で返却。
    - B社: 汎⽤OCR。内製エンジンと組み合わせて項⽬判定。
    データ構造化の取り組み

    View Slide

  14. MLOpsの取り組み Feature Store
    13
    - データ化プロセスで⽣成された
    OCR結果のキャッシュを、学習に
    適した形式に変換して、保存してお
    くための基盤
    - 解約によるデータ削除をGEES(名
    刺データ化システム)と連携するこ
    とで安全に⼤量のデータ保持を実現
    - データ収集の所要時間を30⽇→8時
    間に⼤幅に短縮
    - その他にもデプロイ基盤や学習ジョ
    ブマネージドサービスやカナリアリ
    リースがある
    データ構造化の取り組み

    View Slide

  15. Bill One、Contract Oneにおける帳票からの項目抽出
    14
    - 名刺データ化によって培われた
    ノウハウによる⾼速
    オペレーション⽴ち上げ
    - 新しい課題に対しての技術開発
    (グラフベースやルールベース、
    固有表現抽出など)
    - 請求書の状態や項⽬によって
    ⼿法を切り替えている
    テキスト×座標
    グラフベースエンコーダ
    Sequence Labeling Layers
    Graph Convolution Layers
    Transformer Layers
    Sequence Labeling Layers
    ご 請求 ⾦額 \ 99,000 (税込) … お⽀払い 期限 : 2023 年 4 ⽉ 20 ⽇
    class:請求金額 class:支払期日
    【構造化された請求書】
    LayoutLMv2 テキスト×座標× 画像
    データ構造化の取り組み

    View Slide

  16. Agenda
    15
    - データ構造化の取り組み
    - 全社横断データ基盤
    - Sansan Labs

    View Slide

  17. 必要性と課題
    データに基づく意思決定をするためには、データそのものだけでは不⼗分
    データを継続的に収集、蓄積して活⽤しやすいように整備する全社横断データ基盤が必要
    各部署でデータ基盤は整備されているが、データが分散してサイロ化している
    全社横断データ基盤
    - データ管理コストの増⼤
    - 複数の部署で同じデータを管理している場合があり、データの重複が発⽣している
    - 顧客の契約/利⽤情報がSalesforce、独⾃のKPIパネル、スプレッドシートなどに散財
    - データ取得するまでの⼿間がかかる
    - 各部署で定められた接続⽅法にしたがってデータ基盤にアクセスしてデータ取得する必要がある
    - Salesforceなどデータ取得するために営業からエクスポートしてもらう必要があった
    - データ基盤で対応するためにアプリケーションエンジニアやインフラエンジニアが個別対応
    データのサイロ化による影響

    View Slide

  18. 目指す姿
    - 各プロダクト、CRM等のデータ、ログが⼀箇所に集約されている
    - オリジナルである必要はなく、データコピーで良い
    - テーブルジョインで横断的な分析が可能に
    - クエリ結果を早く得られることで、仮説検証サイクルを素早く回せる
    - メタデータが管理・統⼀されている
    - 分析で使いたいデータがどのテーブルにあるのか検索できる
    - そのデータにアクセスできる⼈、⽤途を関係者に聞かなくても各⾃で調べることができる
    - 安全にデータアクセスできる
    - 許可された社員のみが特定のデータにアクセスできる
    - 適切な承認フローを経て、承認された場合のみデータにアクセスできる
    - データの品質が担保されている
    - このデータはどこから来たのかがわかる(データリネージ)
    - データがしかるべきタイミングで更新されている
    全社横断データ基盤

    View Slide

  19. システム概要
    - Google Cloud Platform(GCP)
    - 格納されているデータ
    - 各プロダクトデータ
    - Data Hub基盤(Saleforce etc.)
    - プロダクトKPI
    - ・・・
    - 個⼈単位で権限管理
    - 委託データへのアクセスは事前
    承認による有効期限つき
    全社横断データ基盤

    View Slide

  20. 今後のチャレンジ
    - データマートを利⽤者でも簡単に
    作れるようにする
    - 利⽤者が⾃部署のデータとデータ
    基盤上のデータを組み合わせてア
    ドホックな分析可能にする
    - データリネージ&品質を管理するた
    めにdbt or Dataform導⼊(現状の
    ETL処置が複雑化しているため)
    全社横断データ基盤

    View Slide

  21. Agenda
    20
    - データ構造化の取り組み
    - 全社横断データ基盤
    - Sansan Labs

    View Slide

  22. R&D主導のデータプロダクトマネジメント
    ビジョン実現に
    貢献度が⾼い
    ビジョン実現に
    貢献度が低い
    短期的な利益
    貢献に繋がる
    短期的な利益
    貢献に繋がらない
    ビジョンへの投資 理想
    危険 ビジョン負債
    Sansan PdM
    Sansan Labs
    Sansan Labs
    - Sansan Labsはデータ活⽤で
    ビジネス課題を解決する機能を
    提供するプラットフォーム
    - 1つの新機能の企画からリリース
    までリードタイム2週間を⽬指し、
    年間100機能のリリースを⽬指す
    - UXリサーチに時間をかける
    ⼀般的なプロダクトマネジメントと
    異なり、⾼速にリリースすることで
    ユーザーからのフィードバックを
    もとに機能改善を進め、
    本機能・新規事業化を⽬指す

    View Slide

  23. 開発プロセス
    22
    Week 0
    Week 1
    Week 2-3
    企画 / リファインメント
    要件定義 / プロトタイピング
    デザイン / バッチ開発 / フロント開発 / リリース
    多数のアイディアを集める
    - 社内外ユーザーフィードバ
    ック
    - Sansan User Forum
    ユーザーからの投票企画
    - 営業・CSと顧客との定期
    MTGに同席
    開発や運⽤の属⼈性を排除
    ⾔語をpythonに統⼀し、テン
    プレートや社内ライブラリを
    充実させることで開発・運⽤
    の属⼈性を排除し、ノウハウ
    を蓄積して共有することが可

    フロントエンド開発⼯数削減
    データ分析という体験に⽐重
    をおき、フロントエンドは⽐
    較的ローコードで開発できる
    フレームワークを⽤いること
    で開発⼯数を削減
    開発基盤の統⼀による
    アーキテクトの負担減
    Labs共通データベースの作
    成やMLOps基盤(circuit)
    に乗せること研究員⾃⾝がリ
    リース作業やメンテナンスが
    できる
    開発フェーズの明確化と
    振り返り
    1週間単位で開発フェーズを定
    義することで、スケジュール
    からの遅れをより意識できる
    ようになった
    プロダクトバックログに
    まとめる
    - ペイン
    - カスタマージャーニー
    - 既存の解決策と
    Labsでの解決策
    - 実現する・しない
    ストーリー
    - etc
    - (あまり作り込みすぎない)
    Sansan Labs

    View Slide

  24. リリースした機能
    営業ポテンシャル分析
    2023/03公開
    業界ニュースランキング
    2022/12公開
    営業アクティビティレポート
    2022/12公開
    役職者接点状況チェック
    2022/10公開
    ⼈脈の浸透度を可視化する
    2022/07公開
    役職者接点カバー率
    2022/07公開
    訪問ルートメーカー
    2022/10公開
    メディカル接点マップ
    2022/11公開
    類似企業検索
    2022/11公開
    企業パフォーマンス検索
    2022/11公開
    企業リレーションスコア
    2022/12公開
    Sansan Labs

    View Slide

  25. GPT活⽤アプリケーション例
    セミナーの概要やスケジュール情報などをもとに、
    セミナー集客のための案内メールをAIが⾃動で⽣成します。
    有価証券報告書から企業動向と経営課題を5つのトピック
    に分けて要約。営業活動の情報収集を後押しします。
    Sansan Labs

    View Slide

  26. Data-CentricなSansan
    ⼈脈情報
    コンタクト
    情報
    企業情報
    その他情報
    契約情報
    請求情報
    全社横断データ基盤
    企業DB
    データ構造化
    データ連携
    データ連携
    名寄せ
    BIツール
    In-house
    solution
    データプロダクト
    マネジメント
    Salesforce
    SansanのData-Centricな取り組みについてご紹介
    ⁃ 名刺に特化したOCRエンジンNiceOCRだけでなく、Bill OneやContract Oneなど
    マルチプロダクトをスケールさせるための構造化技術
    ⁃ 継続的に意思決定に活⽤される全社横断データ基盤構築
    ⁃ R&D主導のデータプロダクトマネジメントSansan Labs

    View Slide

  27. Sansan 研究開発部
    募集ポジション紹介
    https://media.sansan-engineering.com/randd

    View Slide

  28. View Slide