LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ / LLM Output Control Issues and the Use of "Output Parsers" in Sansan Labs

Sansan株式会社部署名前 LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ Sansan技術本部 Sansan技術本部研究開発部SocSciグループ
Juan Martinez

写真が入ります Juan Martinez（@Just1n14n） Sansan株式会社技術本部研究開発部 SocSci Group 研究員エルサルバドル⼈。慶應義塾⼤学経済学研究科博⼠課程終了。
2016年からウェブ開発の業務をしてきた。 Sansan株式会社の研究開発部研究員として、Sansan Labsのアプリ開発、開発業務の効率化、LLMの活⽤や社会ネットワークの研究に従事。

LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ - SansanとSansan Labsについて - LLMの出⼒制御問題 - Sansan
LabsにおけるLLMの課題： AI企業検索の事例とOutput Parsersの活⽤

SansanとSansan Labsについて

働き⽅を変えるDXサービス請求⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供ビジネスフローにおけるさまざまな分野でサービスを展開名刺管理名刺DX 営業営業DX 契約法務DX
経理DX 個⼈向けDX 法⼈向けDX 必要な情報をすぐに⾒つけられる情報の管理がしやすくすぐに共有できる情報を分析・活⽤しやすくデータに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅

Sansan Labsについて 5 営業業務の効率化や営業戦略の⾼度化、提案の質の向上など、さまざまな営業活動に活⽤できる Sansanに蓄積したビジネスの接点にまつわるデータが、さまざまな切り⼝で分析・可視化される実験的な機能を、いち早く利⽤できます。ポイントプロダクトだと解決しにくいロングテールの課題を解くアプリケーションを提供できるボトムアップに仮説検証するアプリケーションをリリースすることもできる

Sansan LabsにおけるLLMの活⽤⽂章執筆セミナー集客メールメーカー議事録メーカー情報抽出 5分で読める有価証券報告書 5分で読める業界動向 RAG AI企業検索
-経営⽅針・経営課題-

LLMの出⼒制御問題

LLMの出⼒制御問題 AIの整合性: ⼈が望む通りに⾏動するAIエージェントを作ることができるか？どう作るか？整合性の最も⼀般的な現れの1つはハルシネーション：提供されたソースコンテンツに無意味または忠実でない⽣成結果。 https://www.newyorker.com/culture/cover-story/cover-story-2023-11-20

ハルシネーションの分類 - 事実性のハルシネーション: LLMが⽣成する内容が現実の事実や⼀般的な常識と⽭盾することを指す - 忠実性のハルシネーション: 指⽰や⽂脈とLLMの出⼒の相違のこと - 指⽰の無視 -
⽂脈情報との相違 - 出⼒の⽭盾

Sansan LabsにおけるLLMの課題： AI企業検索の事例とOutput Parsersの活⽤

AI企業検索について概要：経営⽅針・経営課題を⼊⼒すると、AIが有価証券報告書の内容を分析・検索して該当企業をリストアップします。対応可能な検索： - DXを推進する製造業の企業 - 新型コロナウイルス感染症の影響を受けている企業

AI企業検索について

RAGを⽤いてハルシネーションの問題を解決してみるボットドキュメント検索エンジン “海外展開を考えている Webサービスの企業” 回答関連企業

発⽣する問題 - 検索エンジンの精度 - クエリーは⾃由すぎてノイズが多い - 既存のデータに存在しない情報を求められた場合はどうする（例：拠点情報など） - 忠実性のハルシネーション: -
⽂脈情報との相違：検索結果に含まれていない情報で回答してしまう

Output Parsersで解決してみる Output Parser：LLMの出⼒をPythonオブジェクトに変換する。そのため、情報抽出にとても役に⽴つ。LangChainのPydantic Output Parserは特に便利： - LLMに望ましい出⼒の書式（JSON）の指⽰を作ってくれる（few-shot） -
LLMの出⼒を適宜パースする（Pydantic Object）企業検索ボットでは⼆つのOutput Parserを⽤いている： - Query Info Parser：ユーザーのクエリからの「課題」と「業界」抽出 - Response Summary Parser： - 回答の⽂章 - 回答に含まれた企業のID - ユーザーのクエリに回答できたかどうか：できなかった場合はボットの回答を無視して、ボットが質問に対応できない旨をユーザーに伝える

AI企業検索 -経営⽅針・経営課題-におけるハルシネーション対策ボット検索エンジン（業界） { “response”: “海外展開を検討している。。。”, “company_ids”: [“123”,
“456”, “789”], “could_answer_question”: true } 課題業界ドキュメント検索エンジン（経営課題） “海外展開を考えている Webサービスの企業”

Output Parserの弱点 JSON Parseエラーの発⽣に構えるべき（意外と難しい） - Few-Shot Promptingが効果的 - LangChainのOutput Fixing
ParserやRetry Parserで対応できる - OpenAI APIの最新版のJSONモードの活⽤

参考⽂献 - Lei Huang, Weĳiang Yu, Weitao Ma, Weihong Zhong,
Zhangyin Feng, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, & Ting Liu. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. (https://arxiv.org/abs/2311.05232) - Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, & Geoffrey Irving. (2021). Alignment of Language Agents. (https://arxiv.org/abs/2103.14659) - LangChain Output Parsers: https://python.langchain.com/docs/modules/model_io/output_parsers/

https://media.sansan-engineering.com/randd Sansan 研究開発部採⽤情報

LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ /...

LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ / LLM Output Control Issues and the Use of "Output Parsers" in Sansan Labs

Sansan R&D

More Decks by Sansan R&D

Featured

Transcript

Sansan株式会社部署名前 LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ Sansan技術本部 Sansan技術本部研究開発部SocSciグループ

写真が入ります Juan Martinez（@Just1n14n） Sansan株式会社技術本部研究開発部 SocSci Group 研究員エルサルバドル⼈。慶應義塾⼤学経済学研究科博⼠課程終了。

LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ - SansanとSansan Labsについて - LLMの出⼒制御問題 - Sansan

SansanとSansan Labsについて

働き⽅を変えるDXサービス請求⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供ビジネスフローにおけるさまざまな分野でサービスを展開名刺管理名刺DX 営業営業DX 契約法務DX

Sansan LabsにおけるLLMの活⽤⽂章執筆セミナー集客メールメーカー議事録メーカー情報抽出 5分で読める有価証券報告書 5分で読める業界動向 RAG AI企業検索