Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理 / LLM Project Essentials from Sansan Labs' LLM Use

Sansan株式会社部署名前 Sansan LabsのLLM活⽤から考える LLMプロジェクトの要点整理 Sansan技術本部 Sansan技術本部研究開発部⻄⽥貴紀

⾃⼰紹介 Sansan株式会社の研究開発部にてマネジャー兼研究員として、社会科学分野の研究員が所属するSocSciグループのマネジメントに従事。因果推論の枠組みを⽤いたデータドリブンな意思決定でプロダクトのグロースをリードするプロジェクトやデータ活⽤で社内/プロダクトの課題を解決するプロジェクトに取り組む。 6⽉からSansan事業部プロダクト室を兼務し、プロダクトマネジメントに挑戦中。⻄⽥
貴紀技術本部研究開発部 SocSci Group マネジャー ◀ Sansan デジタル名刺

© Sansan, Inc. 出会いからイノベーションを⽣み出すいつの時代も、世界を動かしてきたのは出会いです。⼈と⼈、企業と企業、その出会いの連鎖が社会を前進させます。私たちは出会いが持つ可能性を再発⾒し、未来につなげることでビジネスを変えていきます。
イノベーションにつながる新しい出会いを⽣み出す。出会いの⼒でビジネスの課題にイノベーションを起こす。そして、ビジネスの出会い、そのもののあり⽅を変えていきます。 Mission

働き⽅を変えるDXサービス請求⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供ビジネスフローにおけるさまざまな分野でサービスを展開名刺管理名刺DX 営業営業DX 契約契約DX
経理DX 個⼈向けDX 法⼈向けDX 必要な情報をすぐに⾒つけられる情報の管理がしやすくすぐに共有できる情報を分析・活⽤しやすくデータに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅

さまざまな事業領域に貢献するR&D 画像処理・画像認識⾃然⾔語処理機械学習データサイエンス・因果推論データ可視化プロダクトマネジメント新規事業営業/CS
（社内課題）解約阻⽌・利⽤促進（CS）営業効率化（営業） SceneText Recognition Object Detection ⼊⼒の⾃動化 OCR/項⽬分割など超解像特徴語判定会社キーワード固有表現抽出メール署名取り込み固有表現抽出ニュース配信⽂書分類 ResNet 企業ロゴ抽出 Graph Embeding レコメンデーションラベル予測名寄せ RCT ABテスト・効果検証パネルデータ分析 Sansan Labs （新機能開発）キーバリュー抽出帳票のデータ化 Graph Neural Network

「#営業戦略⽴案」などの活⽤シーンを選び、実験的な機能を利⽤できるサービスリードタイム2週間、年間100リリースを⽬指しています！ Sansan Labs

営業DXサービス「Sansan」のリリース Sansan LabsにGPTを活⽤した新機能を追加〜セミナー集客メールの⾃動⽣成、有価証券報告書の要約が可能に〜第1弾 Sansan LabsにGPTを活⽤した2つの新機能を実装〜業界動向を5分で把握、特定の経営課題を持つ企業を検索可能に〜第2弾

Sansan Labs セミナー集客メールメーカーセミナーの概要やスケジュール情報などをもとに、セミナー集客のための案内メールをAIが⾃動で⽣成します。

Sansan Labs 5分で読める有価証券報告書有価証券報告書から企業動向と経営課題を 5つのトピックに分けて要約。営業活動の情報収集を後押しします。

Sansan Labs 5分で読める有価証券報告書経営・組織、市場環境、製品・サービス、ガバナンス、その他の５つのトピックの課題や現状を抽出し、要約して提⽰する

Sansan Labs 5分で読める業界動向業界内の企業の有価証券報告書から、業界の課題や市場環境を抽出・要約します。営業活動の情報収集に活⽤できます。

Sansan Labs AI企業検索 -経営⽅針・経営課題- 経営⽅針・経営課題を⼊⼒すると、AIが有価証券報告書の内容を分析・検索して該当企業をリストアップします。

Sansan Labs AI企業検索 -経営⽅針・経営課題- DXを推進する製造業の企業⼊⼒ DXを推進する経営⽅針・経営課題業界製造業
LangChain OutputParser ⼊⼒を分割データを検索 GPTで結果を精査&説明 LangChain OutputParser

LLMの活⽤プロジェクトの進め⽅

- CRISP-DMとは、「Cross-industry standard process for data mining」の略であり、データマイニング・データサイエンス・AI開発などにおいて業界横断で標準的に使えるデータ分析プロセス CRISP-DMでLLMの活⽤ポイントをチェックするビジネス理解
（Business Understanding）データ理解（Data Understanding）データ準備・前処理（Data Preparation）モデリング（Modeling）評価（Evaluation）デプロイ（Deployment）

解くべき問題を定量把握するビジネス理解（Business Understanding） - 解くべき課題を⾒極めるためにチェックすべき項⽬ - 課題がどれだけ重⼤/苦痛か？（課題解決にかけている時間/お⾦/⼯数は？） - どれくらいの頻度で発⽣しているか？
- 今、どのように解決しているか？ > 取り組んでいないのであれば重要な課題ではない可能性が⾼い > ⼀⽅で、課題に気づいてない可能性もある（ex. ウォークマン、iPad等） - 課題について定量把握することが重要 - 解決策においてLLMを利⽤した場合、コストに⾒合うかを考える必要がある

LLMと相性の良い課題の特徴ビジネス理解（Business Understanding） - ⾮構造化データを扱うケース - Ex. ⻑⽂の有価証券報告書を要約する -
テキストの⽣成が必要なケース - Ex. セミナー集客メールメーカー - 情報抽出が必要なケース - Ex. 商談の通話⽂字起こしデータから必要な情報を抽出する

（補⾜） LLMの活⽤パターン - データを使わない - LLM⾃体における⽂章⽣成・情報抽出に全てを委ねる - 少数のサンプルを⽤意する - Few-shot
Learning - インプットに対して与える事例を変更することも可能 - データベースを検索し、その結果をもとに回答を⽣成する - RAG（Retrieval Augmented Generation） - 質の⾼いデータベースでなければ、アウトプットも残念になる - LLMを追加学習する/⾃作する（本発表では触れません）

LLMにおける利⽤データの注意点データ理解（Data Understanding） - 処理するデータ量は多くないか？ - ⼊⼒（プロンプト）と出⼒のテキストのサイズで利⽤のコストが決まる - センシティブな情報を扱ってないか？
- 各社のプロダクトに定められたポリシーに従っているか？ - LLMへのインプットが再学習等に利⽤されるか確認できているか？ - 検索が可能なデータベースになっているか？ - ⾃社データ等を⽤いた検索と組み合わせる場合 - Garbage in Garbage out

利⽤コストとパフォーマンス内容利⽤コストの注意点データを使わない LLM⾃体における⽂章⽣成・情報抽出に全てを委ねる出⼒するテキストのサイズに注意。不要な出⼒内容は削ったり、出⼒の⽂字数に気をつける少数のサンプルを⽤意する
Few-shot Learning インプットに対して与える事例を変更することも可能いくつの事例を与えるのかが重要。事例が多いと1回あたりのコストが⾼くなるので場合によってはLLMの学習を検討した⽅が安くなるデータベースを検索し、その結果をもとに回答を⽣成する RAG（Retrieval Augmented Generation）質の⾼いデータベースでなければ、アウトプットも残念になる検索結果の内容をどれだけ⼊⼒に利⽤するかによってコストも左右されるデータ準備・前処理（Data Preparation）モデリング（Modeling） - 基本的に「⼊⼒（プロンプト）と出⼒のテキストのサイズ」で利⽤のコストが決まる - ユーザーの⼊⼒を必要とする場合、コストの管理は重要になる - 出⼒までの時間はユーザー体験に影響を与えるので注視

評価データセットを作るのを厭わない評価（Evaluation） - どのタイミングでリリースするのかを決める上で、評価データセットを先に作り、リリースの基準を設けることが重要 - 例えば、10件の⼊⼒/出⼒結果に対して評価者が7件利⽤可能といえばリリースするなど -
評価の観点としては、3H（Helpful/ Honest/ Harmless） - リリースの基準がない状態だと、プロンプトの改善が⽣産的にならない - リリース後もユーザーフィードバック等で評価できるようにし、再度評価データセットを作成し、その基準を満たした場合、リリースを⾏うようにする

Sansan LabsのLLM機能開発で考えていたこと

“有価証券報告書”に着⽬ - 営業活動の様々なシーンに応じて価値提供できる拡張性がある - オープンデータであるため、セキュリティ・法務判断の論点も少ない - 年1回更新のデータであり、約4000社程度でデータサイズも⼤きすぎないリリースまでのスピードを重視 LLMと相性の良い条件・⾮構造化データを扱うケース
・情報抽出が必要なケース営業の⽅が時間をかけているポイントインサイドセールス/フィールドセールス・企業/業界理解（ミクロ/マクロ）マーケター/営業マネージャー・営業戦略・リスト作成

5分で読める有価証券報告書 - 経営・組織、市場環境、製品・サービス、ガバナンス、その他の５つのトピックに分けて経営課題を抽出 - ※「経営⽅針、経営環境及び対処すべき課題等」の部分に限定 - 例）弊社の有価証券報告書で⾒ると、約6,000字から約400字程度に情報を圧縮段階的に価値提供し、LLMの短所を克服 5分で読める業界動向
AI企業検索 ‒経営⽅針・経営課題- コスト削減業界単位で要約する際のコスト削減ユーザー体験 RAGにおけるレスポンスの短縮

CRISP-DMでLLMの活⽤ポイントを振り返るビジネス理解（Business Understanding）データ理解（Data Understanding）課題と利⽤データを定量把握し、LLM利⽤のコスト/ベネフィットを意識できたデータ準備・前処理（Data
Preparation）モデリング（Modeling） • LLMの利⽤を段階的に⾏い、情報圧縮しながらコスト削減とレスポンス時間の短縮を実現 • GPT3.5/4を使い分けてコスト削減 Keep Problem / Try 評価（Evaluation） • 評価データセットを先に作り、リリースの基準を設けることが重要 • リリースの基準が明確でないと、プロンプトの改善に時間を使ってしまいがち

We are hiring! もしくは Sansan R&D 採⽤

Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理 / LLM Proj...

Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理 / LLM Project Essentials from Sansan Labs' LLM Use

Sansan R&D

More Decks by Sansan R&D

Other Decks in Technology

Featured

Transcript

Sansan株式会社部署名前 Sansan LabsのLLM活⽤から考える LLMプロジェクトの要点整理 Sansan技術本部 Sansan技術本部研究開発部⻄⽥貴紀

働き⽅を変えるDXサービス請求⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供ビジネスフローにおけるさまざまな分野でサービスを展開名刺管理名刺DX 営業営業DX 契約契約DX

さまざまな事業領域に貢献するR&D 画像処理・画像認識⾃然⾔語処理機械学習データサイエンス・因果推論データ可視化プロダクトマネジメント新規事業営業/CS

「#営業戦略⽴案」などの活⽤シーンを選び、実験的な機能を利⽤できるサービスリードタイム2週間、年間100リリースを⽬指しています！ Sansan Labs

Sansan Labs セミナー集客メールメーカーセミナーの概要やスケジュール情報などをもとに、セミナー集客のための案内メールをAIが⾃動で⽣成します。

Sansan Labs 5分で読める有価証券報告書有価証券報告書から企業動向と経営課題を 5つのトピックに分けて要約。営業活動の情報収集を後押しします。

Sansan Labs 5分で読める有価証券報告書経営・組織、市場環境、製品・サービス、ガバナンス、その他の５つのトピックの課題や現状を抽出し、要約して提⽰する

Sansan Labs 5分で読める業界動向業界内の企業の有価証券報告書から、業界の課題や市場環境を抽出・要約します。営業活動の情報収集に活⽤できます。

Sansan Labs AI企業検索 -経営⽅針・経営課題- 経営⽅針・経営課題を⼊⼒すると、AIが有価証券報告書の内容を分析・検索して該当企業をリストアップします。

Sansan Labs AI企業検索 -経営⽅針・経営課題- DXを推進する製造業の企業⼊⼒ DXを推進する経営⽅針・経営課題業界製造業

LLMの活⽤プロジェクトの進め⽅

LLMと相性の良い課題の特徴ビジネス理解（Business Understanding） - ⾮構造化データを扱うケース - Ex. ⻑⽂の有価証券報告書を要約する -

（補⾜） LLMの活⽤パターン - データを使わない - LLM⾃体における⽂章⽣成・情報抽出に全てを委ねる - 少数のサンプルを⽤意する - Few-shot

LLMにおける利⽤データの注意点データ理解（Data Understanding） - 処理するデータ量は多くないか？ - ⼊⼒（プロンプト）と出⼒のテキストのサイズで利⽤のコストが決まる - センシティブな情報を扱ってないか？

Sansan LabsのLLM機能開発で考えていたこと

CRISP-DMでLLMの活⽤ポイントを振り返るビジネス理解（Business Understanding）データ理解（Data Understanding）課題と利⽤データを定量把握し、LLM利⽤のコスト/ベネフィットを意識できたデータ準備・前処理（Data

We are hiring! もしくは Sansan R&D 採⽤