LLMマルチエージェントのアプリケーション設計のコツと未来

LLMマルチエージェントのアプリケーション設計のコツと未来 2024.11.06 # pharmax_tech_collabo

（C）PharmaX Inc. 2024 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラマイブームはLLMとRust X：@ueeeeniki

（C）PharmaX Inc. 2024 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 4 個人でも勉強会コミュニティ StudyCoも運営自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 5 医療アドバイザーに体調のことをいつでも気軽に相談できる
相談型医療体験 30種類以上の漢方薬からあなたに合ったものを月毎に提案パーソナライズ漢方薬定期的に漢方をお届けし、一人ひとりに寄り添うかかりつけ医療を提供継続的なかかりつけ一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」

（C）PharmaX Inc. 2024 All Rights Reserve 6 患者向けチャットシステムと薬剤師向け管理画面を自作患者とのスムーズなコミュニケーション薬剤師向け管理画面
チャット形式での診断・相談・購入患者向けチャットシステム

（C）PharmaX Inc. 2024 All Rights Reserve 7 技術スタック生成AIはLangChainエコシステムに全面的に乗っかっているフロントエンド
バックエンド BI 生成AI インフラストラクチャーその他

（C）PharmaX Inc. 2024 All Rights Reserve 8 今回対象とするアプリケーション • ユーザーからのメッセージを受信したタイミングで
LLMによる返信のサジェストが作られ、一部のメッセージは自動送信＆必要があれば薬剤師が確認・修正して送る ◦ 自動で送る場合は当然精度が重要 ◦ サジェストされる場合も、そのまま送信することができれば、返信速度が速くなる＆生産性が高くなるので精度が高いことはやはり重要 • 管理画面上でボタンを押す（ショートカットキーをタイプする）ことでもチャットがサジェストされる薬剤師にチャットの返答をサジェッションするために LLMを活用している

（C）PharmaX Inc. 2024 All Rights Reserve 9 今回対象とするアプリケーション

（C）PharmaX Inc. 2024 All Rights Reserve 10 YOJOにおけるフローエンジニアリング ① ②
④ • ①ルールベースでLLM処理可能かを判定 • ②LLMで会話を分類しLLM処理可能かを判定 • ③LLMで次のフェーズに移るべきかどうかを判定 • ④LLMでメッセージを作成 • ⑤LLMで作成されたメッセージを評価（LLM-as-a-Judge）し、一定の水準を下回ったら再生成して、クリアしたもののみをサジェストする現時点では精度高くメッセージ提案できないため薬剤師が対応 ③ ⑤ ※②〜⑤： GPT-4o

（C）PharmaX Inc. 2024 All Rights Reserve 11 フローエンジニアリングの概要とメリット・デメリット YOJOではフローエンジニアリングを実践することで、高性能なメッセージのサジェストを実現している •
特定のタスクに特化したプロンプトを与えられた LLMプログラムをエージェントと呼ぶ（ 1プロンプト1エージェント） • 小さなエージェントを組み合わせることで処理系全体を実現することをフローエンジニアリングと呼び、処理系全体の精度を向上させることができる • エージェントのタスクを小さくすることでプロンプトの肥大化を避け、保守性を向上させることもできる ◦ 巨大なプロンプトは変更の影響をコントロールできなくなっていく • 一方で、最終的な出力までに複数の処理が行われるため、処理系全体のレスポンス速度は遅くなる&コスト高になる傾向にある

（C）PharmaX Inc. 2024 All Rights Reserve 12 LangGraphで実際に構築したグラフルール1 ルール2
LLM-メッセージ作成 _ 分類4 LLM-会話分類 LLM-メッセージ作成 _ 分類1 LLM-メッセージ作成 _ 分類2 LLM-メッセージ作成 _ 分類3 LLM-フェーズ切替 LangGraphで作成したグラフはmermaidで出力しテストにも使用している

（C）PharmaX Inc. 2024 All Rights Reserve 13 LangSmithによるトレーシング rule1 ①
② ③ ④ ⑤ ・・・ rule2 ④ ⑤ ① ② ④ ③ ⑤ ※②〜⑤： GPT-4o

（C）PharmaX Inc. 2024 All Rights Reserve 14 CloudRunをフル活用したインフラ構成 LangGraph環境はCloudRunに載せてバックエンド APIサーバーとgRPCで通信
DBには read only gRPCで通信

15 （C）PharmaX Inc. 2024 All Rights Reserve フローエンジニアリングの設計のコツ

（C）PharmaX Inc. 2024 All Rights Reserve 16 フローエンジニアリングを活用したデザインフローエンジニアリングによる処理系の設計フローエンジニアリングでは、タスクを分割しエージェントを組合わせて最終的な目的を達成する
単一の巨大プロンプトを活用したデザイン

（C）PharmaX Inc. 2024 All Rights Reserve 17 単一の巨大プロンプトのイメージ 1つのエージェントに多くのタスクを任せる方式は、プロンプトの肥大化を招く ##
質問分類のルール ### 労務系有給や休暇などの就業規則に関わる質問は労務として扱うーーーー ### 人事系社内の教育制度、採用活動などに関わる質問は人事として扱う（略）ーーーーーーーーーーーーーーー ## 回答作成のルール ### 労務系の質問への回答のルール ①〇〇 ②□□ ③△△ ーーーー ### 人事系の質問への回答のルール ①〇〇 ②□□ （略）

（C）PharmaX Inc. 2024 All Rights Reserve 18 単一の巨大プロンプトの分割 1つのプロンプトで行おうとしている複数のタスクを分割することができるはず ##
質問分類のルール ### 労務系有給や休暇などの就業規則に関わる質問は労務として扱うーーーー ### 人事系社内の教育制度、採用活動などに関わる質問は人事として扱う（略）ーーーーーーーーーーーーーーー ## 回答作成のルール ### 労務系の質問への回答のルール ①〇〇 ②□□ ③△△ ーーーー ### 人事系の質問への回答のルール ①〇〇 ②□□ （略） ①質問分類質問回答作成 ②労務系質問回答作成 ③人事系質問回答作成

（C）PharmaX Inc. 2024 All Rights Reserve 19 フローエンジニアリングの設計のコツと未来フローエンジニアリングの設計にはプロンプトエンジニアリング力とソフトウェア設計力の両方が必要 •
まずは大きなタスク単位からプロンプトエンジニアリングを行い、精度が出ないと感じたら適切な単位に分割する ◦ フローエンジニアリングは実装コストも大きいので、無理して分割しすぎないようにしている • データセットを使ってプロンプトエンジニアリングを行いながら ◦ 正答率の評価が可能なものは人手で正答率を評価 ◦ メッセージ作成のような正答率の評価が難しいものは、 LLM-as-a-Judgeでの評価+目視での定性的な評価も行う • 精度向上はリリース後にも可能なので、この時点では精度向上に拘泥しすぎない

（C）PharmaX Inc. 2024 All Rights Reserve 20 マルチエージェントは不要になるか • LLMがより賢くになれば、1エージェントで複数のタスクをこなせるようになるとは予想している
◦ （CoTのように）途中のタスクの結果も出力することができれば、原理的には複数のタスクをこなすことは決して不可能ではない • 一方で、複雑なフローのルールを言語化するのは難しいため、 many-shotが必要になり、あまりに複雑なタスクを任せすぎると組み合わせが膨大になる ◦ many-shotによる精度向上と、ロングコンテキストによる管理負荷の増大 &精度低下、マルチエージェントによる実装コストの増加のバランスで LLMが賢くなればエージェント数を減らすことはできるが、フローエンジニアリングの発想は今後も有用

21 （C）PharmaX Inc. 2024 All Rights Reserve レスポンス速度向上のための工夫

（C）PharmaX Inc. 2024 All Rights Reserve 22 チャットアプリケーションにおける返信速度の重要性 • LINEで薬剤師が返答するというサービスの特性上、数分〜
10分程度の待ち時間は許容されると考えていた ◦ アンケートでも返信速度に対する不満は多くはなかった • 実際には、LLMのサジェスト機能を導入して返信速度が早くなった結果、ユーザーからの返信率・返信速度、さらには購入率までもが向上した ◦ 感覚的には、ユーザーは10秒以内でLINEを閉じず、30秒以内でスマホを閉じないという境界があるのではないか？ ◦ レスポンス速度の担保の重要性を悟ったチャットアプリケーションでは、 LLMを活用して返信速度を向上できればポジティブな影響がある

（C）PharmaX Inc. 2024 All Rights Reserve 23 投機的な並列実行による処理時間の短縮処理結果が無駄になることを許容して投機的に実行することで、処理時間を短縮することができる ①

（C）PharmaX Inc. 2024 All Rights Reserve 24 投機的な並列実行による処理時間の短縮処理結果が無駄になることを許容して投機的に実行することで、処理時間を短縮することができる ①
②

（C）PharmaX Inc. 2024 All Rights Reserve 25 投機的な並列実行による処理時間の短縮処理結果が無駄になることを許容して投機的に実行することで、処理時間を短縮することができる作成した回答は捨てる
① ② ③

（C）PharmaX Inc. 2024 All Rights Reserve 26 まとめマルチエージェントLLMチャットボットの設計のコツと未来 &速度向上戦略について話した
• LLMアプリケーションでは精度とレスポンス速度を高次元で両立させることは重要 • フローエンジニアリングを実践することで、精度は向上するが、処理系全体のレスポンス速度は遅くなってしまう可能性がある • LLMが賢くなればエージェント数を減らすことはできるが、フローエンジニアリングの発想は今後も有用 • 投機的な並列処理を行うことで処理時間を短縮することができる ◦ 投機的な処理を行うことで、コストは割高になるので、リリース後にデータセットを収集し、一部の処理のML化、あるいは安価のモデルのfine-tuningを行うことでコストダウンも狙う

LLMマルチエージェントのアプリケーション設計のコツと未来

LLMマルチエージェントのアプリケーション設計のコツと未来

PharmaX（旧YOJO Technologies）開発チーム

More Decks by PharmaX（旧YOJO Technologies）開発チーム

Featured

Transcript