LLMアプリケーションのデバッグ・テスト・評価・監視を楽にするLangSmith

Slide 1

Slide 1 text

LLMアプリケーションのデバッグ・テスト・評価・監視を楽にする LangSmith 2024/02/24 第32回勉強会

Slide 2

Slide 2 text

自己紹介 ● 名前: 西岡賢一郎 ○ Twitter: @ken_nishi ○ note: https://note.com/kenichiro ○ YouTube: 【経営xデータサイエンスx開発】西岡賢一郎のチャンネル (https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg) ● 経歴 ○ 東京大学で位置予測アルゴリズムを研究し博士 (学術) を取得 ○ 東京大学の博士課程在学中にデータサイエンスをもとにしたサービスを提供する株式会社トライディアを設立 ○ トライディアを別のIT会社に売却し、CTOとして3年半務め、2021年10月末にCTOを退職 ○ CDPのスタートアップ (Sr. PdM)・株式会社データインフォームド (CEO)・株式会社ディースタッツ (CTO) ○ 自社および他社のプロダクト開発チーム・データサイエンスチームの立ち上げ経験

Slide 3

Slide 3 text

本日のお話 ● LLMアプリケーションのデバッグ ● LangSmith ● デモ

Slide 4

Slide 4 text

LLMアプリケーションのデバッグ

Slide 5

Slide 5 text

LLMアプリケーションの課題 LLMアプリケーション開発においては、さまざまな問題が発生する。これらの問題には以下が含まれる。 ● モデル呼び出しの失敗: 原因としてはネットワークエラー、API制限の超過、認証エラーなどがある。 ● 出力のフォーマットエラー: 期待したフォーマットと異なる出力が生成されることがある。 ● ネストされたモデルのエラー: 複数のモデルを組み合わせる際に、どの段階で誤った出力が生じたかの特定が困難である。これらの問題への対処には、適切なデバッグ手法とツールの利用が求められる。

Slide 6

Slide 6 text

LLMアプリケーションのデバッグが難しい理由 LLMアプリケーションのデバッグにおける困難は、以下の点に集約される。 ● 非決定性: LLMの応答は非決定的であり、同一の入力から異なる結果が生じうる。この性質は、予測可能性の低下を招き、デバッグを複雑化する。 ● 複雑なチェーンとエージェント: 複数のステップやコンポーネントから成るチェーンやエージェントの使用は、相互作用の複雑さを増す。これにより、エラーの特定が難しくなる。 ● パフォーマンス評価の難しさ: 正確性、レイテンシー、トークン使用量など、多岐にわたる指標を考慮し、測定及び最適化する必要がある。これらの複合的な要因は、パフォーマンスの評価を困難にする。 ● 共同デバッグの障壁: 特にローカル環境での作業において、チーム内でのデバッグ情報の共有が難しい。デバッグ情報の不足は、協働を妨げる。これらの課題は、LLMアプリケーション開発の効率と効果を低下させ、解決策の模索を要する。

Slide 7

Slide 7 text

LLMアプリケーションのデバッグ方法 ● LLMアプリケーションのデバッグ方法は、以下のステップに基づいている。 ○ ログの確認: エラーメッセージやAPI応答を通じて問題を把握する。 ○ 単体テストの実施: 各モデルの呼び出しを個別にテストし、問題箇所を特定する。 ○ 出力の検証: 期待されるフォーマットに従って出力が生成されているか検証する。 ○ 段階的デバッグの適用: ネストされた呼び出しを段階ごとにデバッグし、各ステップの出力を確認する。 ● デフォルト状態では、ログが不十分でデバッグが難しいことがある。デバッグを効率化する方法は、外部ツールの使用有無によって二つに分けられる。 ○ 外部ツールを使用しない場合: LangChainの Verbose ModeやDebug Modeを活用する。 ○ 外部ツールを使用する場合: LangSmithなどのツールを利用する。

Slide 8

Slide 8 text

外部ツールを使用しないデバッグ外部ツールを使用しないデバッグでは、 Debug ModeやVerbose Modeが利用される。 ● Debug Modeの活用: set_debugや langchain.debug = Trueを設定することで、LangChainの各コンポーネント（チェーン、モデル、エージェント、ツール、リトリーバ）が受け取った入力と生成した出力を表示する。 ● Verbose Modeの活用: set_verboseや langchain.verbose = Trueを設定すると、入力と出力が読みやすい形で出力される。ただし、特定の生の出力（例: LLM呼び出しのトークン使用統計）のログは省略される。

Slide 9

Slide 9 text

LangSmith

Slide 10

Slide 10 text

LangSmithの概要 ● LangSmithとは: LangChainによって開発されたツールで、信頼性の高い LLMアプリケーションの構築を支援する。 ● 目的: プロンプト、チェーン、エージェントのパフォーマンスを向上させ、 Production環境での信頼性を確保する。 ● 特徴: トレーシング機能がデフォルトで有効になっており、LLM、チェーン、エージェントへの全呼び出しを自動でログに記録する。 ● LangChainのCallbackと似ているが、LangChainのCallback一つのイベントに対して使用されるのに対し、LangSmithは環境変数を設定するだけですべてのイベントログの収集が可能

Slide 11

Slide 11 text

LangSmithのデバッグ支援機能 ● 入力と出力の可視化: LangSmithは、LLM呼び出しの正確な入力と出力を明確に表示し、デバッグを容易にする。 ● イベントシーケンスの追跡: 複雑なチェーンやエージェントの動作を可視化し、各ステップの入出力と実行順序を明確にする。 ● プロンプトの編集: Playground機能を使ってプロンプトを編集し、出力の変化を確認できる。

Slide 12

Slide 12 text

LangSmithの共同デバッグとデータセット管理 ● 共同デバッグ: "Share"ボタンを用いて、デバッグ情報を共有し、チーム内での協力を促進する。 ● データセットの収集と管理: 不具合や期待外れの出力をデータポイントとして収集し、"Add to Dataset" 機能でデータセットに追加する。これにより、将来のデバッグやテストが容易になる。 ● モニタリングと評価: アプリケーションのモニタリングを通じてパフォーマンスを追跡し、人間による評価や自動評価メトリクスを用いて品質を保証する。

Slide 13

Slide 13 text

Playground機能で出力の調整 ● ModelやらParameterをUI上で変更可能 ● System, AI, Human, Chatなどに加えて、Toolや FunctionなどもUI上で与えることができる。 ● Token数の確認やAnnotationも可能。

Slide 14

Slide 14 text

Hubでプロンプトを取得 ● LangChain Hubは、LangChainおよび一般的なLLM 用のプロンプトを発見、共有、バージョン管理するためのツールである。 ● プロンプトのインスピレーションを得たり、自分のプロンプトを世界と共有するのに適している。 ● 現在はLangChainのプロンプトテンプレートをサポートしており、今後さらに多くのオブジェクトタイプが追加される予定である。 ● 残念ながら、日本語のプロンプトはない

Slide 15

Slide 15 text

デモ LangSmithの基本機能の紹介 ● https://smith.langchain.com/ ○ 2月中旬にGA版 (General Availability Version)がリリース ● LangChainとLangSmithとの連携 ● LangSmith上でのログの確認方法 ● ソースコード: https://github.com/knishioka/machine -learning-workshop/blob/main/langcha in/langsmith.ipynb