Function calling機能をPLaMo2に実装するには / PFN LLMセミナー

Function calling機能を PLaMo2に実装するには 2025/10/01 PLaMo LLMセミナー LLM推論最適化チーム Shintarou Okada（GitHub: @okdshin）

2 Function calling   ご存知ですか？

3 Function callingとは LLMが Function=外部のツールを呼び出せるようにする仕組み

4 Function callingとは LLMが • ツールを選んで • 引数パラメータを生成する機能

5 Function callingとは LLMが • ツールを選んで • 引数パラメータを生成する機能 ⚠
Function calling自体は Functionを実行しない

6 Function calling自体は Functionを実行しない銀行口座から 5000兆円引き出して 

7 Function calling自体は Functionを実行しない銀行口座から 5000兆円引き出して  {“name”: “withdraw_from_ account”,
“arguments”: {“value”: 500000000000000 0, “unit”: “yen”}}

8 Function calling自体は Functionを実行しない銀行口座から 5000兆円引き出して  {“name”: “withdraw_from_ account”,
“arguments”: {“value”: 500000000000000 0, “unit”: “yen”}} ツール選択と引数パラメータの生成のみ

9 汎用AgentにはFunction callingが不可欠 Function calling対応 LLM推論API ユーザの要求 • 利用可能ツールのリスト •
ユーザの要求 Agentアプリ • ClaudeDesktop • CodexCLI など

10 汎用AgentにはFunction callingが不可欠 Function calling対応 LLM推論API • 選択ツール名 • 引数パラメータ
or 通常メッセージ Agentアプリ • ClaudeDesktop • CodexCLI などユーザの要求 • 利用可能ツールのリスト • ユーザの要求 Function calling

11 汎用AgentにはFunction callingが不可欠 Function calling対応 LLM推論API Agentの返信 • 選択ツール名 •
引数パラメータ or 通常メッセージ Agentアプリ • ClaudeDesktop • CodexCLI などユーザの要求 • 利用可能ツールのリスト • ユーザの要求 🔨ツール実行！ Function calling

12 Functionの引数は必ず適合するJSONで出す 🔨ツール実行！が成功するには、 • Agentアプリで利用可能なツールを選択 • 引数パラメータは ◦ 選んだツールに適合するデータ
◦ ✅適正なJSON

13 Functionの引数は必ず適合するJSONで出す 🔨ツール実行！が成功するには、 • Agentアプリで利用可能なツールを選択 • 引数パラメータは ◦ 選んだツールに適合するデータ ◦
✅適正なJSON {“value”: 5000000000000000, “unit”: “yen”}}}}}} {“value”: 5000000000000000} (unitが⽋けている) “withdraw_from_bank” (bankではなくaccount)

14 “withdraw_from_bank” (bankではなくaccount) Functionの引数は必ず適合するJSONで出すツール実行！が成功するには、 • Agentアプリが利用可能なツールを選択 • 引数パラメータは ◦
選んだツールに適合する形式 ◦ 適正なJSON {“value”: 5000000000000000, “unit”: “yen”}} {“value”: 5000000000000000} (unitが⽋けている) “withdraw_from_bank” 確率的にtokenをサンプリングしているLLMには荷が重い……

15 Functionの引数は必ず適合するJSONで出すツール実行！が成功するには、 • Agentアプリが利用可能なツールを選択 • 引数パラメータは ◦ 選んだツールに適合する形式 ◦
適正なJSON {“value”: 5000000000000000, “unit”: “yen”}} {“value”: 5000000000000000} (unitが⽋けている) “withdraw_from_bank” 確率的にtokenをサンプリングしているLLMには荷が重い…… Guided decodingで解決！

16 Guided decodingで必ずJSON（Guided JSON） • PLaMoを動かしている vLLMの機能 • リクエスト時に JSONSchema
= JSONの文法を指定

17 Guided decodingで必ずJSON（Guided JSON） • PLaMoを動かしている vLLMの機能 • リクエスト時に JSONSchema
= JSONの文法を指定 • 文法に従った JSON文字列を確実に LLMから出力させることができる

18 引用元一般的なJSON Schemaの例

19 tool_choice=autoの難しさ Function calling対応 LLM推論API Agentの返信 Agentアプリ • ClaudeDesktop •
CodexCLI など Guided decodingすると必ず JSON文字列が出てきてしまう • 選択ツール名 • 引数パラメータ or 通常メッセージ

20 tool_choice=autoの難しさ Function calling対応 LLM推論API Agentアプリ • ClaudeDesktop • CodexCLI
など Guided decodingすると必ず JSON文字列が出てきてしまう • 選択ツール名 • 引数パラメータ or 通常メッセージ V.S.

など Guided decodingすると必ず JSON文字列が出てきてしまう • 選択ツール名 • 引数パラメータ or 通常メッセージ V.S. ツール呼び出しが不要な場合は通常のメッセージを返したい e.g.「ハロー」には「ハロー」

など Guided decodingすると必ず JSON文字列が出てきてしまう • 選択ツール名 • 引数パラメータ or 通常メッセージ V.S. ツール呼び出しが不要な場合は通常のメッセージを返したい Function calling対応 LLM推論API Agentアプリ • ClaudeDesktop • CodexCLI など Agentアプリは tool_choice=autoが前提

24 これまでのPLaMoのFunction calling PLaMo-2.0-Primeでは tool_choice =<named-function>のみ対応

25 これまでのPLaMoのFunction calling PLaMo-2.0-Primeでは tool_choice =<named-function>のみ対応リクエスト時にどのツールを呼び出すかユーザが決める

26 これまでのPLaMoのFunction calling PLaMo-2.0-Primeでは tool_choice =<named-function>のみ対応高度なAgentの実装NG リクエスト時にどのツールを呼び出すかユーザが決める

27 これからのPLaMoのFunction calling PLaMo-2.1-Primeでは tool_choice=autoにも対応

28 これからのPLaMoのFunction calling PLaMo-2.1-Primeでは tool_choice=autoにも対応 • ツールを呼び出すか • どのツールを選ぶか LLMが決める

29 これからのPLaMoのFunction calling PLaMo-2.1-Primeでは tool_choice=autoにも対応 • ツールを呼び出すか • どのツールを選ぶか LLMが決める
高度なAgentの実装OK

30 • FC用の特製データセットで学習 • Instruction modelとのモデルマージ • リバースプロキシで tool_choice=auto対応 PLaMo-2.1-PrimeのFunction
calling実装

31 • FC用の特製データセットで学習 • Instruction modelとのモデルマージ • リバースプロキシで tool_choice=auto対応 PLaMo-2.1-PrimeのFunction
calling実装精度を保ちながらモデルがJSON を出せるようにする修正

32 PLaMo-2.1-PrimeのFunction calling実装 • FC用の特製データセットで学習 • Instruction modelとのモデルマージ • リバースプロキシで
tool_choice=auto対応

33 リバースプロキシでtool_choice=auto対応 Guided decodingすると必ず JSON文字列が出てきてしまう通常メッセージ V.S.

34 リバースプロキシでtool_choice=auto対応 Guided decodingすると必ず JSON文字列が出てきてしまう通常メッセージ V.S. 最大2回リクエストで解決 🤝

35 リバースプロキシでtool_choice=auto対応リバースプロキシ FCを要素とする JSON Listを Guided decodingでリクエスト

36 リバースプロキシでtool_choice=auto対応リバースプロキシ FCを要素とする JSON Listを Guided decodingでリクエストリバースプロキシでの
JSON Schema作成の疑似コード

37 リバースプロキシでtool_choice=auto対応リバースプロキシ FCを要素とする JSON Listを Guided decodingでリクエストツールのリスト
からツール選択と引数パラメータのための JSON Schema = FCのJSON Schema

38 リバースプロキシでtool_choice=auto対応リバースプロキシ FCを要素とする JSON Listを Guided decodingでリクエスト FCのJSONを要素とする
ListのJSON Schema

39 リバースプロキシでtool_choice=auto対応リバースプロキシ FCを要素とする JSON Listを Guided decodingでリクエスト

40 リバースプロキシでtool_choice=auto対応リバースプロキシ [ {name: ..., arguments: {...}} ]
中身のあるリストが返ってきたパターン

41 リバースプロキシでtool_choice=auto対応リバースプロキシ [{tool_name: ..., arguments: {...}}] 中身のあるリストが返ってきたパターン
中身のFCを返す

42 リバースプロキシでtool_choice=auto対応リバースプロキシ [ ] ←空のリスト空のリストが返ってきたパターン

43 リバースプロキシでtool_choice=auto対応リバースプロキシ空のリストが返ってきたパターン Guided decodingなしで再度リクエスト

44 リバースプロキシでtool_choice=auto対応リバースプロキシ通常のメッセージ空のリストが返ってきたパターン Guided decodingなしで再度リクエスト

45 リバースプロキシでtool_choice=auto対応リバースプロキシ通常のメッセージ空のリストが返ってきたパターン Guided decodingなしで再度リクエスト
通常のメッセージを返す

46 PLaMo-2.1-PrimeのFunction calling実装 • FC用の特製データセットで学習 • Instruction modelとのモデルマージ • リバースプロキシで
tool_choice=auto対応

47 PLaMo-2.1-PrimeのFunction calling実装 • FC用の特製データセットで学習 • Instruction modelとのモデルマージ •
リバースプロキシで tool_choice=auto対応リバースプロキシの挙動に合わせてデータを準備

48 PLaMo-2.1-PrimeのFunction calling実装 • FC用の特製データセットで学習 • Instruction modelとのモデルマージ •
リバースプロキシで tool_choice=auto対応リバースプロキシの挙動に合わせてデータを準備特に、Guided decoding有効かモデルが知るための入力プロンプトが入っている

49 • FC用の特製データセットで学習 • Instruction modelとのモデルマージ • リバースプロキシで tool_choice=auto対応
リバースプロキシの挙動に合わせてデータを準備 PLaMo-2.1-PrimeのFunction calling実装 Guided decoding有効時は JSONを出しやすく！特に、Guided decoding有効かモデルが知るための入力プロンプトが入っている

50 PLaMo-2.1-PrimeのFunction Calling性能 • GPT-5-miniに勝利 • GPT-5に匹敵 ※GPT-5系はツール呼び出しをせず、 •
自身の知識を使って答える • ユーザと対話しようとするため、スコアとしては低くなっているこれは対話的なユースケースによっては望ましい場合がある

51 PLaMo-2.1-PrimeのFunction Calling性能 • GPT-5-miniに勝利 • GPT-5に匹敵 ※GPT-5系はツール呼び出しをせず、 •
自身の知識を使って答える • ユーザと対話しようとするため、スコアとしては低くなっているこれは対話的なユースケースによっては望ましい場合がある User: Could you stop the washing machine in the utility room? Ground Truth: { "ControlAppliance.execute": { "command": [ "다용도실, 통돌이, 중지" ] } } Live Multiple • 多言語でワイルドなベンチ • より難しい

52 Function calling機能をPLaMo2に実装するには • Function callingはLLMが ◦ ツールを選び ◦ 引数パラメータを生成
する機能 • Guided decodingで必ずJSONを出せる • ただし、tool_choice=autoではJSONを出すかどうか =Guided decodingするかどうかの切替えが必要 • PLaMo-2.1-Primeでは ◦ FC用の特製データセットで学習 ◦ instruction modelとのモデルマージ ◦ リバースプロキシでGuided decodingするかどうかを切り替え

53 LLM推論最適化チームでは、 PLaMoの性能向上に一緒に取り組む仲間を募集しています！ • LLMのコスト効率改善（スループット向上・レイテンシ改善・省GPUメモリ化） ◦ 重み/KV Cache量子化、CUDAカーネル実装、推論フレームワークの改善など ◦
最新の手法を実際にサービスとしてデプロイできるようにする • Guided Decodingなど推論レイヤの技術開発 • vLLMのオープンソース開発ご興味のある方は、ぜひアンケートからカジュアル面談にご応募ください！ We’re Hiring!

Function calling機能をPLaMo2に実装するには / PFN LLMセミナー

Function calling機能をPLaMo2に実装するには / PFN LLMセミナー

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript