Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ / LLM Output Control Issues and the Use of "Output Parsers" in Sansan Labs

Sansan R&D
November 29, 2023
700

LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤ / LLM Output Control Issues and the Use of "Output Parsers" in Sansan Labs

■イベント:実践LLMエンジニアリング
https://generative-ai-conf.connpass.com/event/299210/

■登壇概要
タイトル:LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤
発表者:技術本部 研究開発部 SocSciグループ Juan Martinez

◉ 研究開発職 採用情報
https://media.sansan-engineering.com/randd

◉ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

November 29, 2023
Tweet

More Decks by Sansan R&D

Transcript

  1. Sansan株式会社
    部署 名前
    LLMの出⼒制御問題とSansan Labsに
    おける「Output Parsers」の活⽤
    Sansan技術本部
    Sansan技術本部
    研究開発部SocSciグループ
    Juan Martinez

    View full-size slide

  2. 写真が入ります
    Juan Martinez(@Just1n14n)
    Sansan株式会社
    技術本部 研究開発部 SocSci Group 研究員
    エルサルバドル⼈。慶應義塾⼤学経済学研究科博⼠課程終了。
    2016年からウェブ開発の業務をしてきた。
    Sansan株式会社の研究開発部研究員として、Sansan Labsの
    アプリ開発、開発業務の効率化、LLMの活⽤や社会ネットワーク
    の研究に従事。

    View full-size slide

  3. LLMの出⼒制御問題とSansan Labsにおける「Output Parsers」の活⽤
    - SansanとSansan Labsについて
    - LLMの出⼒制御問題
    - Sansan LabsにおけるLLMの課題:
    AI企業検索の事例とOutput Parsersの活⽤

    View full-size slide

  4. SansanとSansan Labsについて

    View full-size slide

  5. 働き⽅を変えるDXサービス
    請求
    ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供
    ビジネスフローにおけるさまざまな分野でサービスを展開
    名刺管理
    名刺DX
    営業
    営業DX
    契約
    法務DX 経理DX
    個⼈向けDX
    法⼈向けDX
    必要な情報を
    すぐに⾒つけられる
    情報の管理がしやすく
    すぐに共有できる
    情報を分析・活⽤しやすく
    データに基づいた判断ができる
    SansanのDXサービスの活⽤で変わる働き⽅

    View full-size slide

  6. Sansan Labsについて
    5
    営業業務の効率化や営業戦略の⾼度化、提案の質の向上など、さまざまな営業活動に活⽤できる
    Sansanに蓄積したビジネスの接点にまつわるデータが、
    さまざまな切り⼝で分析・可視化される実験的な機能を、いち早く利⽤できます。
    ポイント プロダクトだと解決しにくいロングテールの課題を解くアプリケーションを提供できる
    ボトムアップに仮説検証するアプリケーションをリリースすることもできる

    View full-size slide

  7. Sansan LabsにおけるLLMの活⽤
    ⽂章執筆
    セミナー集客メールメーカー
    議事録メーカー
    情報抽出
    5分で読める有価証券報告書
    5分で読める業界動向
    RAG
    AI企業検索
    -経営⽅針・経営課題-

    View full-size slide

  8. LLMの出⼒制御問題

    View full-size slide

  9. LLMの出⼒制御問題
    AIの整合性:
    ⼈が望む通りに⾏動するAIエージェントを
    作ることができるか?どう作るか?
    整合性の最も⼀般的な現れの1つは
    ハルシネーション:
    提供されたソースコンテンツに無意味また
    は忠実でない⽣成結果。
    https://www.newyorker.com/culture/cover-story/cover-story-2023-11-20

    View full-size slide

  10. ハルシネーションの分類
    - 事実性のハルシネーション:
    LLMが⽣成する内容が現実の事実や⼀般的な常識と⽭盾することを指す
    - 忠実性のハルシネーション:
    指⽰や⽂脈とLLMの出⼒の相違のこと
    - 指⽰の無視
    - ⽂脈情報との相違
    - 出⼒の⽭盾

    View full-size slide

  11. Sansan LabsにおけるLLMの課題:
    AI企業検索の事例とOutput Parsersの活⽤

    View full-size slide

  12. AI企業検索について
    概要:
    経営⽅針・経営課題を⼊⼒すると、AIが有価証券報告書の内容を分析・検索して
    該当企業をリストアップします。
    対応可能な検索:
    - DXを推進する製造業の企業
    - 新型コロナウイルス感染症の影響を受けている企業

    View full-size slide

  13. AI企業検索について

    View full-size slide

  14. RAGを⽤いてハルシネーションの問題を解決してみる
    ボット
    ドキュメント
    検索エンジン
    “海外展開を考えている
    Webサービスの企業”
    回答関連企業

    View full-size slide

  15. 発⽣する問題
    - 検索エンジンの精度
    - クエリーは⾃由すぎてノイズが多い
    - 既存のデータに存在しない情報を求められた場合はどうする(例:拠点情報など)
    - 忠実性のハルシネーション:
    - ⽂脈情報との相違:検索結果に含まれていない情報で回答してしまう

    View full-size slide

  16. Output Parsersで解決してみる
    Output Parser:LLMの出⼒をPythonオブジェクトに変換する。そのため、情報抽出に
    とても役に⽴つ。LangChainのPydantic Output Parserは特に便利:
    - LLMに望ましい出⼒の書式(JSON)の指⽰を作ってくれる(few-shot)
    - LLMの出⼒を適宜パースする(Pydantic Object)
    企業検索ボットでは⼆つのOutput Parserを⽤いている:
    - Query Info Parser:ユーザーのクエリからの「課題」と「業界」抽出
    - Response Summary Parser:
    - 回答の⽂章
    - 回答に含まれた企業のID
    - ユーザーのクエリに回答できたかどうか:できなかった場合はボットの回答を無視して、
    ボットが質問に対応できない旨をユーザーに伝える

    View full-size slide

  17. AI企業検索 -経営⽅針・経営課題-におけるハルシネーション対策
    ボット
    検索エンジン
    (業界)
    {
    “response”: “海外展開を検討している。。。”,
    “company_ids”: [“123”, “456”, “789”],
    “could_answer_question”: true
    }
    課題
    業界
    ドキュメント
    検索エンジン
    (経営課題)
    “海外展開を考えている
    Webサービスの企業”

    View full-size slide

  18. Output Parserの弱点
    JSON Parseエラーの発⽣に構えるべき(意外と難しい)
    - Few-Shot Promptingが効果的
    - LangChainのOutput Fixing ParserやRetry Parserで対応できる
    - OpenAI APIの最新版のJSONモードの活⽤

    View full-size slide

  19. 参考⽂献
    - Lei Huang, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng,
    Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, &
    Ting Liu. (2023). A Survey on Hallucination in Large Language Models:
    Principles, Taxonomy, Challenges, and Open Questions.
    (https://arxiv.org/abs/2311.05232)
    - Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir
    Mikulik, & Geoffrey Irving. (2021). Alignment of Language Agents.
    (https://arxiv.org/abs/2103.14659)
    - LangChain Output Parsers: https://python.langchain.com/docs/modules/model_io/output_parsers/

    View full-size slide

  20. https://media.sansan-engineering.com/randd
    Sansan 研究開発部
    採⽤情報

    View full-size slide