Slide 1

Slide 1 text

Sansan株式会社 部署 名前 LLMの出⼒制御問題とSansan Labsに おける「Output Parsers」の活⽤ Sansan技術本部 Sansan技術本部 研究開発部SocSciグループ Juan Martinez

Slide 2

Slide 2 text

写真が入ります Juan Martinez(@Just1n14n) Sansan株式会社 技術本部 研究開発部 SocSci Group 研究員 エルサルバドル⼈。慶應義塾⼤学経済学研究科博⼠課程終了。 2016年からウェブ開発の業務をしてきた。 Sansan株式会社の研究開発部研究員として、Sansan Labsの アプリ開発、開発業務の効率化、LLMの活⽤や社会ネットワーク の研究に従事。

Slide 3

Slide 3 text

LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ - SansanとSansan Labsについて - LLMの出⼒制御問題 - Sansan LabsにおけるLLMの課題: AI企業検索の事例とOutput Parsersの活⽤

Slide 4

Slide 4 text

SansanとSansan Labsについて

Slide 5

Slide 5 text

働き⽅を変えるDXサービス 請求 ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供 ビジネスフローにおけるさまざまな分野でサービスを展開 名刺管理 名刺DX 営業 営業DX 契約 法務DX 経理DX 個⼈向けDX 法⼈向けDX 必要な情報を すぐに⾒つけられる 情報の管理がしやすく すぐに共有できる 情報を分析・活⽤しやすく データに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅

Slide 6

Slide 6 text

Sansan Labsについて 5 営業業務の効率化や営業戦略の⾼度化、提案の質の向上など、さまざまな営業活動に活⽤できる Sansanに蓄積したビジネスの接点にまつわるデータが、 さまざまな切り⼝で分析・可視化される実験的な機能を、いち早く利⽤できます。 ポイント プロダクトだと解決しにくいロングテールの課題を解くアプリケーションを提供できる ボトムアップに仮説検証するアプリケーションをリリースすることもできる

Slide 7

Slide 7 text

Sansan LabsにおけるLLMの活⽤ ⽂章執筆 セミナー集客メールメーカー 議事録メーカー 情報抽出 5分で読める有価証券報告書 5分で読める業界動向 RAG AI企業検索 -経営⽅針・経営課題-

Slide 8

Slide 8 text

LLMの出⼒制御問題

Slide 9

Slide 9 text

LLMの出⼒制御問題 AIの整合性: ⼈が望む通りに⾏動するAIエージェントを 作ることができるか?どう作るか? 整合性の最も⼀般的な現れの1つは ハルシネーション: 提供されたソースコンテンツに無意味また は忠実でない⽣成結果。 https://www.newyorker.com/culture/cover-story/cover-story-2023-11-20

Slide 10

Slide 10 text

ハルシネーションの分類 - 事実性のハルシネーション: LLMが⽣成する内容が現実の事実や⼀般的な常識と⽭盾することを指す - 忠実性のハルシネーション: 指⽰や⽂脈とLLMの出⼒の相違のこと - 指⽰の無視 - ⽂脈情報との相違 - 出⼒の⽭盾

Slide 11

Slide 11 text

Sansan LabsにおけるLLMの課題: AI企業検索の事例とOutput Parsersの活⽤

Slide 12

Slide 12 text

AI企業検索について 概要: 経営⽅針・経営課題を⼊⼒すると、AIが有価証券報告書の内容を分析・検索して 該当企業をリストアップします。 対応可能な検索: - DXを推進する製造業の企業 - 新型コロナウイルス感染症の影響を受けている企業

Slide 13

Slide 13 text

AI企業検索について

Slide 14

Slide 14 text

RAGを⽤いてハルシネーションの問題を解決してみる ボット ドキュメント 検索エンジン “海外展開を考えている Webサービスの企業” 回答関連企業

Slide 15

Slide 15 text

発⽣する問題 - 検索エンジンの精度 - クエリーは⾃由すぎてノイズが多い - 既存のデータに存在しない情報を求められた場合はどうする(例:拠点情報など) - 忠実性のハルシネーション: - ⽂脈情報との相違:検索結果に含まれていない情報で回答してしまう

Slide 16

Slide 16 text

Output Parsersで解決してみる Output Parser:LLMの出⼒をPythonオブジェクトに変換する。そのため、情報抽出に とても役に⽴つ。LangChainのPydantic Output Parserは特に便利: - LLMに望ましい出⼒の書式(JSON)の指⽰を作ってくれる(few-shot) - LLMの出⼒を適宜パースする(Pydantic Object) 企業検索ボットでは⼆つのOutput Parserを⽤いている: - Query Info Parser:ユーザーのクエリからの「課題」と「業界」抽出 - Response Summary Parser: - 回答の⽂章 - 回答に含まれた企業のID - ユーザーのクエリに回答できたかどうか:できなかった場合はボットの回答を無視して、 ボットが質問に対応できない旨をユーザーに伝える

Slide 17

Slide 17 text

AI企業検索 -経営⽅針・経営課題-におけるハルシネーション対策 ボット 検索エンジン (業界) { “response”: “海外展開を検討している。。。”, “company_ids”: [“123”, “456”, “789”], “could_answer_question”: true } 課題 業界 ドキュメント 検索エンジン (経営課題) “海外展開を考えている Webサービスの企業”

Slide 18

Slide 18 text

Output Parserの弱点 JSON Parseエラーの発⽣に構えるべき(意外と難しい) - Few-Shot Promptingが効果的 - LangChainのOutput Fixing ParserやRetry Parserで対応できる - OpenAI APIの最新版のJSONモードの活⽤

Slide 19

Slide 19 text

参考⽂献 - Lei Huang, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, & Ting Liu. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. (https://arxiv.org/abs/2311.05232) - Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, & Geoffrey Irving. (2021). Alignment of Language Agents. (https://arxiv.org/abs/2103.14659) - LangChain Output Parsers: https://python.langchain.com/docs/modules/model_io/output_parsers/

Slide 20

Slide 20 text

https://media.sansan-engineering.com/randd Sansan 研究開発部 採⽤情報

Slide 21

Slide 21 text

No content