Slide 1

Slide 1 text

Sansan株式会社 部署 名前 Sansan LabsのLLM活⽤から考える LLMプロジェクトの要点整理 Sansan技術本部 Sansan技術本部 研究開発部 ⻄⽥貴紀

Slide 2

Slide 2 text

⾃⼰紹介 Sansan株式会社の研究開発部にてマネジャー兼研究員として、 社会科学分野の研究員が所属するSocSciグループのマネジメ ントに従事。 因果推論の枠組みを⽤いたデータドリブンな意思決定でプロ ダクトのグロースをリードするプロジェクトやデータ活⽤で 社内/プロダクトの課題を解決するプロジェクトに取り組む。 6⽉からSansan事業部プロダクト室を兼務し、プロダクトマ ネジメントに挑戦中。 ⻄⽥ 貴紀 技術本部 研究開発部 SocSci Group マネジャー ◀ Sansan デジタル名刺

Slide 3

Slide 3 text

© Sansan, Inc. 出会いから イノベーションを⽣み出す いつの時代も、世界を動かしてきたのは出会いです。 ⼈と⼈、企業と企業、 その出会いの連鎖が社会を前進させます。 私たちは出会いが持つ可能性を再発⾒し、 未来につなげることでビジネスを変えていきます。 イノベーションにつながる新しい出会いを⽣み出す。 出会いの⼒でビジネスの課題にイノベーションを起こす。 そして、ビジネスの出会い、そのもののあり⽅を変えていきます。 Mission

Slide 4

Slide 4 text

働き⽅を変えるDXサービス 請求 ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供 ビジネスフローにおけるさまざまな分野でサービスを展開 名刺管理 名刺DX 営業 営業DX 契約 契約DX 経理DX 個⼈向けDX 法⼈向けDX 必要な情報を すぐに⾒つけられる 情報の管理がしやすく すぐに共有できる 情報を分析・活⽤しやすく データに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅

Slide 5

Slide 5 text

さまざまな事業領域に貢献するR&D 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・因果推論 データ可視化 プロダクトマネジメント 新規事業 営業/CS (社内課題) 解約阻⽌・利⽤促進(CS) 営業効率化(営業) SceneText Recognition Object Detection ⼊⼒の⾃動化 OCR/項⽬分割など 超解像 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 ⽂書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメンデ ーション ラベル 予測 名寄せ RCT ABテスト・ 効果検証 パネルデータ 分析 Sansan Labs (新機能開発) キーバリュー抽出 帳票のデータ化 Graph Neural Network

Slide 6

Slide 6 text

「#営業戦略⽴案」などの活⽤シーンを選び、実験的な機能を利⽤できるサービス リードタイム2週間、年間100リリースを⽬指しています! Sansan Labs

Slide 7

Slide 7 text

営業DXサービス「Sansan」のリリース Sansan LabsにGPTを活⽤した新機能を追加 〜セミナー集客メールの⾃動⽣成、有価証券報告書の要約が可能に〜 第1弾 Sansan LabsにGPTを活⽤した2つの新機能を実装 〜業界動向を5分で把握、特定の経営課題を持つ企業を検索可能に〜 第2弾

Slide 8

Slide 8 text

Sansan Labs セミナー集客メールメーカー セミナーの概要やスケジュール情報などをもとに、 セミナー集客のための案内メールをAIが ⾃動で⽣成します。

Slide 9

Slide 9 text

Sansan Labs 5分で読める有価証券報告書 有価証券報告書から企業動向と経営課題を 5つのトピックに分けて要約。 営業活動の情報収集を後押しします。

Slide 10

Slide 10 text

Sansan Labs 5分で読める有価証券報告書 経営・組織、市場環境、製品・サービス、 ガバナンス、その他の5つのトピックの 課題や現状を抽出し、要約して提⽰する

Slide 11

Slide 11 text

Sansan Labs 5分で読める業界動向 業界内の企業の有価証券報告書から、業 界の課題や市場環境を抽出・要約します。 営業活動の情報収集に活⽤できます。

Slide 12

Slide 12 text

Sansan Labs AI企業検索 -経営⽅針・経営課題- 経営⽅針・経営課題を⼊⼒すると、AIが 有価証券報告書の内容を分析・検索して 該当企業をリストアップします。

Slide 13

Slide 13 text

Sansan Labs AI企業検索 -経営⽅針・経営課題- DXを推進する製造業の企業 ⼊⼒ DXを推進する 経営⽅針・経営課題 業界 製造業 LangChain OutputParser ⼊⼒を分割 データを検索 GPTで結果を精査&説明 LangChain OutputParser

Slide 14

Slide 14 text

LLMの活⽤プロジェクトの進め⽅

Slide 15

Slide 15 text

- CRISP-DMとは、「Cross-industry standard process for data mining」の略であり、データマイニ ング・データサイエンス・AI開発などにおいて業界横断で標準的に使えるデータ分析プロセス CRISP-DMでLLMの活⽤ポイントをチェックする ビジネス理解 (Business Understanding) データ理解 (Data Understanding) データ準備・前処理 (Data Preparation) モデリング (Modeling) 評価 (Evaluation) デプロイ (Deployment)

Slide 16

Slide 16 text

解くべき問題を定量把握する ビジネス理解 (Business Understanding) - 解くべき課題を⾒極めるためにチェックすべき項⽬ - 課題がどれだけ重⼤/苦痛か?(課題解決にかけている時間/お⾦/⼯数は?) - どれくらいの頻度で発⽣しているか? - 今、どのように解決しているか? > 取り組んでいないのであれば重要な課題ではない可能性が⾼い > ⼀⽅で、課題に気づいてない可能性もある(ex. ウォークマン、iPad等) - 課題について定量把握することが重要 - 解決策においてLLMを利⽤した場合、コストに⾒合うかを考える必要がある

Slide 17

Slide 17 text

LLMと相性の良い課題の特徴 ビジネス理解 (Business Understanding) - ⾮構造化データを扱うケース - Ex. ⻑⽂の有価証券報告書を要約する - テキストの⽣成が必要なケース - Ex. セミナー集客メールメーカー - 情報抽出が必要なケース - Ex. 商談の通話⽂字起こしデータから必要な情報を抽出する

Slide 18

Slide 18 text

(補⾜) LLMの活⽤パターン - データを使わない - LLM⾃体における⽂章⽣成・情報抽出に全てを委ねる - 少数のサンプルを⽤意する - Few-shot Learning - インプットに対して与える事例を変更することも可能 - データベースを検索し、その結果をもとに回答を⽣成する - RAG(Retrieval Augmented Generation) - 質の⾼いデータベースでなければ、アウトプットも残念になる - LLMを追加学習する/⾃作する(本発表では触れません)

Slide 19

Slide 19 text

LLMにおける利⽤データの注意点 データ理解 (Data Understanding) - 処理するデータ量は多くないか? - ⼊⼒(プロンプト)と出⼒のテキストのサイズで利⽤のコストが決まる - センシティブな情報を扱ってないか? - 各社のプロダクトに定められたポリシーに従っているか? - LLMへのインプットが再学習等に利⽤されるか確認できているか? - 検索が可能なデータベースになっているか? - ⾃社データ等を⽤いた検索と組み合わせる場合 - Garbage in Garbage out

Slide 20

Slide 20 text

利⽤コストとパフォーマンス 内容 利⽤コストの注意点 データを使わない LLM⾃体における⽂章⽣成・情報 抽出に全てを委ねる 出⼒するテキストのサイズに注意。不要な出 ⼒内容は削ったり、出⼒の⽂字数に気をつけ る 少数のサンプルを⽤意する Few-shot Learning インプットに対して与える事例を 変更することも可能 いくつの事例を与えるのかが重要。事例が多 いと1回あたりのコストが⾼くなるので場合に よってはLLMの学習を検討した⽅が安くなる データベースを検索し、その結果をもと に回答を⽣成する RAG(Retrieval Augmented Generation) 質の⾼いデータベースでなければ、 アウトプットも残念になる 検索結果の内容をどれだけ⼊⼒に利⽤するか によってコストも左右される データ準備・前処理 (Data Preparation) モデリング (Modeling) - 基本的に「⼊⼒(プロンプト)と出⼒のテキストのサイズ」で利⽤のコストが決まる - ユーザーの⼊⼒を必要とする場合、コストの管理は重要になる - 出⼒までの時間はユーザー体験に影響を与えるので注視

Slide 21

Slide 21 text

評価データセットを作るのを厭わない 評価 (Evaluation) - どのタイミングでリリースするのかを決める上で、評価データセットを 先に作り、リリースの基準を設けることが重要 - 例えば、10件の⼊⼒/出⼒結果に対して評価者が7件利⽤可能といえばリリー スするなど - 評価の観点としては、3H(Helpful/ Honest/ Harmless) - リリースの基準がない状態だと、プロンプトの改善が⽣産的にならない - リリース後もユーザーフィードバック等で評価できるようにし、再度評価デ ータセットを作成し、その基準を満たした場合、リリースを⾏うようにする

Slide 22

Slide 22 text

Sansan LabsのLLM機能開発で 考えていたこと

Slide 23

Slide 23 text

“有価証券報告書”に着⽬ - 営業活動の様々なシーンに応じて価値提供できる拡張性がある - オープンデータであるため、セキュリティ・法務判断の論点も少ない - 年1回更新のデータであり、約4000社程度でデータサイズも⼤きすぎない リリースまでのスピードを重視 LLMと相性の良い条件 ・⾮構造化データを扱うケース ・情報抽出が必要なケース 営業の⽅が時間をかけているポイント インサイドセールス/フィールドセールス ・企業/業界理解(ミクロ/マクロ) マーケター/営業マネージャー ・営業戦略・リスト作成

Slide 24

Slide 24 text

5分で読める有価証券報告書 - 経営・組織、市場環境、製品・サービス、ガバナンス、その他の5つの トピックに分けて経営課題を抽出 - ※「経営⽅針、経営環境及び対処すべき課題等」の部分に限定 - 例)弊社の有価証券報告書で⾒ると、約6,000字から約400字程度に情報を圧縮 段階的に価値提供し、LLMの短所を克服 5分で読める業界動向 AI企業検索 ‒経営⽅針・経営課題- コスト削減 業界単位で要約する際のコスト削減 ユーザー体験 RAGにおけるレスポンスの短縮

Slide 25

Slide 25 text

CRISP-DMでLLMの活⽤ポイントを振り返る ビジネス理解 (Business Understanding) データ理解 (Data Understanding) 課題と利⽤データを定量把握し、LLM利⽤のコスト/ベネフィットを意識できた データ準備・前処理 (Data Preparation) モデリング (Modeling) • LLMの利⽤を段階的に⾏い、情報圧縮しながらコスト削減とレスポンス時間の短縮を実現 • GPT3.5/4を使い分けてコスト削減 Keep Problem / Try 評価 (Evaluation) • 評価データセットを先に作り、リリースの基準を設けることが重要 • リリースの基準が明確でないと、プロンプトの改善に時間を使ってしまいがち

Slide 26

Slide 26 text

We are hiring! もしくは Sansan R&D 採⽤

Slide 27

Slide 27 text

No content