AIエージェント開発を加速させるLLM実験基盤

1 © PKSHA Technology All rights reserved. AIエージェント開発を加速させるLLM実験基盤株式会社
PKSHA Technology 藤岡和真 2025年6月11日

2 © PKSHA Technology All rights reserved. PKSHA Technology 2023年4月入社
CEO室ソフトウエアエンジニア藤岡和真ふじおかかずま X: @kakka_q # 自己紹介 • CS修士→PKSHA バックエンド多めのSaaS ソフトウエアエンジニア • PKSHA AIヘルプデスクの生成AI機能の新規開発と運用を担当 • 2025年4月からCEO室に異動し、新規事業開発に注力 # 趣味・推しツール • 趣味：変わったスマホを使う（iOS/Androidを行ったり来たり、 Googleが使えないスマホ、折りたたみスマホなど...） • 推しツール：Kagi Search, ghq-peco, ChatGPT # 発表 • Podcast: 聴くエンジニアtype 108-110 • Tech Blog: Azure AI Searchで構築するBtoB SaaSのProduction RAG • デスク記事: AIベンチャー・PKSHAグループで働くみんなのデスク環境国産AI製品が生まれる職場をチェック

3 © PKSHA Technology All rights reserved. これまで伝言ゲーム型で行われてきた採用業務を、AI活用によるデータ循環型に転換。企業の生産性向上と求職者の体験向上を実現する。人事採用領域全体の改革を実現するプロダクト
/ ソリューション群マッチング JD ビルダーレジュメビルダースキル診断書類選考AI ダイレクトスカウター面接官トレーニング面接官 Copilot AI面接キャリア相談/ メンタルサポートBot 企業求職者/ 就業者学習支援AI 業務支援 Copilot ① 採用 ③ フォロー ② (企業との) マッチング現在提供中のソリューション

4 © PKSHA Technology All rights reserved. タスク明確化 ✖ 全員検証で
AIエージェントの改善サイクルを加速させる LLM実験基盤が目指す世界

5 © PKSHA Technology All rights reserved. ある日突然「AIエージェント」を作る必要が！！お題：コードリファクタリング AIエージェント
• フレームワークでそれっぽいMVPは完成！ • でも、正直なんか微妙... どうすれば良い「AIエージェント」になる？ • Devinみたいにするにはどうすれば？

6 © PKSHA Technology All rights reserved. AIエージェント開発は難しいタスク定義の曖昧さ •
LLMが”何でもできそう”に見える • LLMが複雑性を抱え込んで、何を解くか不明瞭なことが多い • ゴールが定性的（良いリファクタリングとは？） LLM制御の困難さ • どう指示すれば狙った結果が返るか読めない • モデルやパラメータ、プロンプトの書き方、プロンプトに含む情報によって出力が大きく左右される

7 © PKSHA Technology All rights reserved. 制御方法 • モデルプロバイダーが用意しているcookbook
• 論文を通して効果が検証されたもの • Chain-of-Thought(CoT), Few-Shot Prompting, etc… • その他Tips集 • Prompt Engineering Guide • オライリー・ジャパン『LLMのプロンプトエンジニアリング』 LLM-as-a-Judgeによる自動評価 • 何を評価するかはタスク定義を定めてから LLM制御の困難さは一定解あり

8 曖昧なフィードバック性能検証曖昧なタスク定義 AI Agent開発

9 © PKSHA Technology All rights reserved. タスク定義は現場にありドメインエキスパートと現場のデータが必須 •
ドメインエキスパートだけがタスクのゴールを知っている • 何が解ければ良いか、何をもって解けたとするか、評価できる評価 • 手動評価：ドメインエキスパート • 自動評価：データセットを使った評価 • 現場のデータを使ったデータセットが必要

10 © PKSHA Technology All rights reserved. Goodコード / Badコード
• 関数名がリーダブル/docstring・型ヒントの有無 • 0 未満のチェック、負数で無限再帰 • 再帰関数の深さ上限をケア

11 明確なフィードバック性能検証明確なタスク定義とドメインエキスパート AI Agent開発

12 明確なフィードバック性能検証明確なタスク定義とドメインエキスパート AI Agent開発実験基盤で加速！

13 © PKSHA Technology All rights reserved. 1. 非エンジニアでも実験できるチャットの実験環境
2. ドメインエキスパートのフィードバックを素早く反映できる 3. プロダクトデータ(現場のデータ) を実験環境に同期できる 3つのOSSを融合して実現 LLM実験基盤

14 © PKSHA Technology All rights reserved. LLM実験基盤 - データを貯める
AI Agent App Other LLM Langfuse エンジニアプロダクトデータを監視 &Langfuseに保存本番用のLLMモデルを利用

15 © PKSHA Technology All rights reserved. LLM実験基盤 - チャットで実験
AI Agent App Other LLM チャット形式で実験 Open WebUI Langfuse ドメインエキスパート /CS/PdM/etc… エンジニア実験用のLLMモデルを利用プロダクトデータを監視 &Langfuseに保存本番用のLLMモデルを利用プロダクトデータから追実験

16 © PKSHA Technology All rights reserved. LLM実験基盤 - 素早く改善
AI Agent App Other LLM チャット形式で実験 Open WebUI Open WebUI Pipelines Langfuse ドメインエキスパート /CS/PdM/etc… エンジニア実験結果をパイプして Langfuseに保存実験用のLLMモデルを利用プロダクトデータを監視 &Langfuseに保存本番用のLLMモデルを利用プロダクトデータから追実験追実験結果からプロンプト改善

LiteLLM マルチLLMプロバイダーのOSS • モデルを変えた追実験に利用 • 様々なLLMを集約して一つのAPIから利用可能 • SDKとしても利用可能だが、今回はProxy Serverとして利用

Open WebUI LLMチャットUIのOSS • 多様なLLMと互換性を持ち、 LiteLLMと直結できる • RAGも可能 • Open WebUI Pipelinesで任意のスクリプトを差し込めるので、 Langfuseとはそこから連携

20 © PKSHA Technology All rights reserved. LLM実験基盤 - 構築
構築は全てAWSにセルフホスト(データが外部に流れない) • 実装は全てTerraform • Langfuse構築は、KDDIアジャイル開発センター株式会社の『Langfuseを導入してLLMアプリケーション開発を劇的に進化させる』とコードを参考にさせていただいています🙏 • 複雑めな構成をコスト削減意識して実装されていて本当にありがたかった • Open WebUIとLiteLLMも似た構成でデプロイ

21 © PKSHA Technology All rights reserved. LLM実験基盤の導入構築・導入してみての感想 •
誰でも簡単検証 & デバッグスピード⤴ • 非エンジニアの追実験からタスク定義を明確にする議論が発生 • ビジネス職の方のドメイン理解が深く、ドメインエキスパート化 • Langfuseの導入でコスト可視化ができたのは良かった今後の期待 • Langfuseを使い込んで行きたい • 現場データをデータセット化し、LLM-as-a-Judgeで自動QAすればさらに加速 • プロンプトマネジメント機能はまだ触れてないので、UXが気になる

23 © PKSHA Technology All rights reserved. AIエージェント開発に興味のある方 https://www.pkshatech.com/recruitment/ PKSHA
TechnologyではAIエージェント開発に興味がある方を絶賛採用中です！興味のある方・もっと深く知りたい方は、是非上記の URL（右側のQRコード）からご応募いただけると幸いです採用関係無く、技術談義大好きなのでX(@kakka_q)へフォロー・お声がけいただけると嬉しいです！！！

AIエージェント開発を加速させるLLM実験基盤

AIエージェント開発を加速させるLLM実験基盤

PKSHA Technology

More Decks by PKSHA Technology

Featured

Transcript

1 © PKSHA Technology All rights reserved. AIエージェント開発を加速させるLLM実験基盤株式会社

2 © PKSHA Technology All rights reserved. PKSHA Technology 2023年4月入社

3 © PKSHA Technology All rights reserved. これまで伝言ゲーム型で行われてきた採用業務を、AI活用によるデータ循環型に転換。企業の生産性向上と求職者の体験向上を実現する。人事採用領域全体の改革を実現するプロダクト

4 © PKSHA Technology All rights reserved. タスク明確化 ✖ 全員検証で

5 © PKSHA Technology All rights reserved. ある日突然「AIエージェント」を作る必要が！！お題：コードリファクタリング AIエージェント

6 © PKSHA Technology All rights reserved. AIエージェント開発は難しいタスク定義の曖昧さ •

7 © PKSHA Technology All rights reserved. 制御方法 • モデルプロバイダーが用意しているcookbook

8 曖昧なフィードバック性能検証曖昧なタスク定義 AI Agent開発

9 © PKSHA Technology All rights reserved. タスク定義は現場にありドメインエキスパートと現場のデータが必須 •

10 © PKSHA Technology All rights reserved. Goodコード / Badコード

11 明確なフィードバック性能検証明確なタスク定義とドメインエキスパート AI Agent開発

12 明確なフィードバック性能検証明確なタスク定義とドメインエキスパート AI Agent開発実験基盤で加速！

13 © PKSHA Technology All rights reserved. 1. 非エンジニアでも実験できるチャットの実験環境

14 © PKSHA Technology All rights reserved. LLM実験基盤 - データを貯める

15 © PKSHA Technology All rights reserved. LLM実験基盤 - チャットで実験

16 © PKSHA Technology All rights reserved. LLM実験基盤 - 素早く改善

17 © PKSHA Technology All rights reserved. LLM実験基盤 - コンポーネント:

18 © PKSHA Technology All rights reserved. LLM実験基盤 - コンポーネント:

19 © PKSHA Technology All rights reserved. LLM実験基盤 - コンポーネント:

20 © PKSHA Technology All rights reserved. LLM実験基盤 - 構築

21 © PKSHA Technology All rights reserved. LLM実験基盤の導入構築・導入してみての感想 •

22 © PKSHA Technology All rights reserved. 裏話 • 2025/06/04にLangfuseの全ての機能がOSS化

23 © PKSHA Technology All rights reserved. AIエージェント開発に興味のある方 https://www.pkshatech.com/recruitment/ PKSHA