LangChainキャッチアップ - LangChain Expression Languageを完全に理解する

by Masahiro Nishimi

Slide 1

Slide 1 text

LangChainキャッチアップ LangChain Expression Languageを完全に理解する @mah_lab / Masahiro Nishimi 2024/01/10

Slide 2

Slide 2 text

LangChain v0.1へのアップデート（★1/6リリース）インテグレーション系のコンポーネント（様々なデータフォーマットからのデータ取込など） LCELとLangChainのコアとなる抽象化（Language Model、Document Loader、Embedding Model、Retrieverなど）より高レベルな実装（特定目的のためのチェーンやエージェント） FastAPIをラップして LangChainオブジェクトのエンドポイントを配備 LLMアプリデバッグのための運用ツール LangChain、LangChain-Community、LangChain-Coreの3つのライブラリにLangChainが分割されたのがv0.1の大きな特徴 LangChainやLangChain-Communityの機能実装を進めるために、LLMアプリケーション実装の共通プロトコルの実装として LangChain-Coreが整備されていく。その共通プロトコルとして大きな役割を果たすのがLangChain Expression Language（以下LCEL）。LangChainの理解、ならびにLLMアプリケーション開発に必要な抽象化を学ぶ手段として、LCELを学ぶ価値が出てくる。また、LangSmithをフル活用して開発とデバッグを回していきたいときにも、LangChainと言うか、LCELを活用してコードを書いていくことになるだろう。

Slide 3

Slide 3 text

ChatModelのインポート元が変更に例えばChatOpenAIクラスであれば、これまで langchain.chat_models.openai もしくは langchain_community.chat_models.openai から読み込んでいたと思うが、参照元が langchain_openai.chat_models など、モデル毎に別パッケージを読み込む形に変更になっている。

Slide 4

Slide 4 text

LangChain Expression Languageを完全に理解した概念図 Runnable Runnable Runnable Runnable Chain 入力出力中間データ中間データ中間データ RunnableMap Prompt ChatModel OutputParser 中間データ中間データ中間データ LCELとはRunnableプロトコルを実装したクラスのインスタンスをパイプで繋ぎ合わせてコンポーネント化するための仕組みである

Slide 5

Slide 5 text

Runnableプロトコルのインターフェース同期 stream レスポンスをチャンク毎に出力 for s in chain.stream({"topic": "bears"}): print(s.content, end="", flush=True) invoke レスポンス全体を出力 chain.invoke({"topic": "bears"}) #=> AIMessage(content="...") batch 複数インプットを一括実行 chain.batch([{"topic": "bears"}, {"topic": "cats"}]) #=> [AIMessage(content="..."), AIMessage(content="...")] 非同期 astream 非同期でチャンクを出力 async for s in chain.astream({"topic": "bears"}): print(s.content, end="", flush=True) ainvoke 非同期でレスポンス全体を出力 await chain.ainvoke({"topic": "bears"}) abatch 非同期で複数インプットを一括実行 await chain.abatch([{"topic": "bears"}, {"topic": "cats"}]) astream_log 最終的なレスポンスに加え、中間ステップもチャンク毎に出力する async for chunk in retrieval_chain.astream_log( "where did harrison work?", include_names=["Docs"], diff=False ): print("-" * 70) print(chunk) Runnableプロトコルを実装したクラスは以下のメソッドを呼び出すことができる

Slide 6

Slide 6 text

LCELウォークスルー Runnableを実装していないクラスのインスタンスはinvokeできない ChatPromptTemplateはRunnableを実装しているのでinvokeを実行できる ChatPromptTemplateはRunnableを実装しているのでinvokeを実行できる RunnablePassthroughで入力値をcontext変数に割り当てている ChatOpenAIはRunnableを実装しているのでinvokeを実行できる StrOutputParserはRunnableを実装しているのでinvokeを実行できるどのタイミングでもinvokeを呼べることが分かっているとデバッグのときに役に立つ

Slide 7

Slide 7 text

RunnableLambda Runnableを実装しているクラスのインスタンスであれば何でもパイプで繋げることができるので、 RunnableLambdaを利用して例のようなコードを書くことができる。（意味はないけど） LCELの理解のためには逆にLLMから離れたコードを書いてみると良い場合もある。

Slide 8

Slide 8 text

RunnableParallel / RunnablePassthrough

Slide 9

Slide 9 text

RunnableBranch

Slide 10

Slide 10 text

Runnableプロトコルのインプット／アウトプット形式コンポーネントに応じてインプットとアウトプットの形式のペアが異なるコンポーネントインプット形式アウトプット形式 Prompt 辞書型 PromptValue ChatModel 文字列、ChatMessageのリストかPromptValue ChatMessage LLM 文字列、ChatMessageのリストかPromptValue 文字列 OutputParser LLMかChatModelのアウトプットパーサー毎に異なる Retriever 文字列 Documentのリスト Tool 文字列、辞書型、またはツール毎の仕様ツール毎に異なる代表的なパーサー説明 StrOutputParser 文字列に変換する CommaSeparatedListO utputParser カンマ区切りの文字列を配列に変換 JsonOutputParser JSON型の文字列を辞書型に変換（Pydanticモデルを指定して、JSONの型を指定することもできる） PydanticParser Pydanticモデルを指定し値を割り当てる OutputFixingParser ラップしたパーサーでエラーが発生した場合、エラー情報を渡してLLMにリトライさせることができる RetryWithErrorOutpu tParser ラップしたパーサーでエラーが発生した場合、元の同じ入力を渡してLLMにリトライさせることができる ※ LCELのチェインの過程で現在どんな型になっているかが分かっていないと予期せぬ不具合が埋め込まれてしまうことがある。注意する必要あり。

Slide 11

Slide 11 text

JsonOutputParserを利用した例モデルがJSON文字列を返してくれないのでパーサーでエラーになっている。単にパーサーだけJsonOutputParserを指定しても良い感じにJSONにしてくれるわけではない。 JSONにするようプロンプトに含める必要がある。

Slide 12

Slide 12 text

JsonOutputParserを利用した例 JsonOutputParserにPydanticモデルを指定し、所定の形でJSON化するよう指定している。 JsonOutputParserを指定するだけでなく、get_format_instructions()メソッドで得られるプロンプトを、指定するプロンプトに含めておく必要がある。ちなみにここでlambdaを使用しているのは、辞書型のオブジェクトをチェインに含める場合、各キーの値はRunnableである必要があるため。プロンプトを確認すると、所定の形のJSONにするための指示が含まれていることがわかる。

Slide 13

Slide 13 text

JsonOutputParserを利用した例最終的に無事指定したJSONが出力されており、パースにも成功していることがわかる。