Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIエージェント開発を加速させるLLM実験基盤

Avatar for PKSHA Technology PKSHA Technology
June 11, 2025
850

 AIエージェント開発を加速させるLLM実験基盤

Avatar for PKSHA Technology

PKSHA Technology

June 11, 2025
Tweet

Transcript

  1. 2 © PKSHA Technology All rights reserved. PKSHA Technology 2023年4月入社

    CEO室 ソフトウエアエンジニア 藤岡 和真 ふじおか かずま X: @kakka_q # 自己紹介 • CS修士→PKSHA バックエンド多めのSaaS ソフトウエアエンジニア • PKSHA AIヘルプデスクの生成AI機能の新規開発と運用を担当 • 2025年4月からCEO室に異動し、新規事業開発に注力 # 趣味・推しツール • 趣味:変わったスマホを使う(iOS/Androidを行ったり来たり、 Googleが使えないスマホ、折りたたみスマホなど...) • 推しツール:Kagi Search, ghq-peco, ChatGPT # 発表 • Podcast: 聴くエンジニアtype 108-110 • Tech Blog: Azure AI Searchで構築するBtoB SaaSのProduction RAG • デスク記事: AIベンチャー・PKSHAグループで働くみんなのデスク環 境 国産AI製品が生まれる職場をチェック
  2. 3 © PKSHA Technology All rights reserved. これまで伝言ゲーム型で行われてきた採用業務を、AI活用によるデータ循環型に転換。 企業の生産性向上と求職者の体験向上を実現する。 人事採用領域全体の改革を実現するプロダクト

    / ソリューション群 マッチング JD ビルダー レジュメ ビルダー スキル 診断 書類選考AI ダイレクト スカウター 面接官 トレーニング 面接官 Copilot AI面接 キャリア相談/ メンタルサポートBot 企業 求職者/ 就業者 学習支援AI 業務支援 Copilot ① 採用 ③ フォロー ② (企業との) マッチング 現在提供中の ソリューション
  3. 4 © PKSHA Technology All rights reserved. タスク明確化 ✖ 全員検証で

    AIエージェントの改善サイクル を加速させる LLM実験基盤が目指す世界
  4. 5 © PKSHA Technology All rights reserved. ある日突然「AIエージェント」を作る必要が!! お題:コードリファクタリング AIエージェント

    • フレームワークでそれっぽいMVPは完成! • でも、正直なんか微妙... どうすれば良い「AIエージェント」になる? • Devinみたいにするにはどうすれば?
  5. 6 © PKSHA Technology All rights reserved. AIエージェント開発は難しい タスク定義の曖昧さ •

    LLMが”何でもできそう”に見える • LLMが複雑性を抱え込んで、何を解くか不明瞭なことが多い • ゴールが定性的(良いリファクタリングとは?) LLM制御の困難さ • どう指示すれば狙った結果が返るか読めない • モデルやパラメータ、プロンプトの書き方、プロンプトに含む情報によって出力が 大きく左右される
  6. 7 © PKSHA Technology All rights reserved. 制御方法 • モデルプロバイダーが用意しているcookbook

    • 論文を通して効果が検証されたもの • Chain-of-Thought(CoT), Few-Shot Prompting, etc… • その他Tips集 • Prompt Engineering Guide • オライリー・ジャパン『LLMのプロンプトエンジニアリング』 LLM-as-a-Judgeによる自動評価 • 何を評価するかはタスク定義を定めてから LLM制御の困難さは一定解あり
  7. 9 © PKSHA Technology All rights reserved. タスク定義は現場にあり ドメインエキスパートと現場のデータが必須 •

    ドメインエキスパートだけがタスクのゴールを知っている • 何が解ければ良いか、何をもって解けたとするか、評価できる 評価 • 手動評価:ドメインエキスパート • 自動評価:データセットを使った評価 • 現場のデータを使ったデータセットが必要
  8. 10 © PKSHA Technology All rights reserved. Goodコード / Badコード

    • 関数名がリーダブル/docstring・型ヒントの有無 • 0 未満のチェック、負数で無限再帰 • 再帰関数の深さ上限をケア
  9. 13 © PKSHA Technology All rights reserved. 1. 非エンジニアでも実験できる チャットの実験環境

    2. ドメインエキスパートのフィード バックを素早く反映できる 3. プロダクトデータ(現場のデータ) を実験環境に同期できる 3つのOSSを融合して実現 LLM実験基盤
  10. 14 © PKSHA Technology All rights reserved. LLM実験基盤 - データを貯める

    AI Agent App Other LLM Langfuse エンジニア プロダクトデータを監視 &Langfuseに保存 本番用のLLMモデル を利用
  11. 15 © PKSHA Technology All rights reserved. LLM実験基盤 - チャットで実験

    AI Agent App Other LLM チャット形式で実験 Open WebUI Langfuse ドメインエキスパート /CS/PdM/etc… エンジニア 実験用のLLMモデル を利用 プロダクトデータを監視 &Langfuseに保存 本番用のLLMモデル を利用 プロダクトデータ から追実験
  12. 16 © PKSHA Technology All rights reserved. LLM実験基盤 - 素早く改善

    AI Agent App Other LLM チャット形式で実験 Open WebUI Open WebUI Pipelines Langfuse ドメインエキスパート /CS/PdM/etc… エンジニア 実験結果をパイプして Langfuseに保存 実験用のLLMモデル を利用 プロダクトデータを監視 &Langfuseに保存 本番用のLLMモデル を利用 プロダクトデータ から追実験 追実験結果から プロンプト改善
  13. 17 © PKSHA Technology All rights reserved. LLM実験基盤 - コンポーネント:

    Langfuse LLMデータ基盤のOSS • 実験基盤の肝 • LLMの呼び出し結果を一元管理 • Callbackを設定すれば、個人情報 マスキングも可能
  14. 18 © PKSHA Technology All rights reserved. LLM実験基盤 - コンポーネント:

    LiteLLM マルチLLMプロバイダーのOSS • モデルを変えた追実験に利用 • 様々なLLMを集約して一つのAPIか ら利用可能 • SDKとしても利用可能だが、今回 はProxy Serverとして利用
  15. 19 © PKSHA Technology All rights reserved. LLM実験基盤 - コンポーネント:

    Open WebUI LLMチャットUIのOSS • 多様なLLMと互換性を持ち、 LiteLLMと直結できる • RAGも可能 • Open WebUI Pipelinesで任意のス クリプトを差し込めるので、 Langfuseとはそこから連携
  16. 20 © PKSHA Technology All rights reserved. LLM実験基盤 - 構築

    構築は全てAWSにセルフホスト(データが外部に流れない) • 実装は全てTerraform • Langfuse構築は、KDDIアジャイル開発センター株式会社の『Langfuseを 導入してLLMアプリケーション開発を劇的に進化させる』とコードを参 考にさせていただいています🙏 • 複雑めな構成をコスト削減意識して実装されていて本当にありがたかった • Open WebUIとLiteLLMも似た構成でデプロイ
  17. 21 © PKSHA Technology All rights reserved. LLM実験基盤の導入 構築・導入してみての感想 •

    誰でも簡単検証 & デバッグスピード⤴ • 非エンジニアの追実験からタスク定義を明確にする議論が発生 • ビジネス職の方のドメイン理解が深く、ドメインエキスパート化 • Langfuseの導入でコスト可視化ができたのは良かった 今後の期待 • Langfuseを使い込んで行きたい • 現場データをデータセット化し、LLM-as-a-Judgeで自動QAすればさらに加速 • プロンプトマネジメント機能はまだ触れてないので、UXが気になる
  18. 22 © PKSHA Technology All rights reserved. 裏話 • 2025/06/04にLangfuseの全ての機能がOSS化

    • Langfuse内で実験検証ができるLLM Playgroundがセルフホスト版 からも利用可能に! • 複雑構成不要Langfuse内で完結🎉 • Langfuseに賭けよう
  19. 23 © PKSHA Technology All rights reserved. AIエージェント開発に興味のある方 https://www.pkshatech.com/recruitment/ PKSHA

    TechnologyではAIエージェント開発に興味が ある方を絶賛採用中です! 興味のある方・もっと深く知りたい方は、是非上記の URL(右側のQRコード)からご応募いただけると幸 いです 採用関係無く、技術談義大好きなのでX(@kakka_q)へフォロー・お声 がけいただけると嬉しいです!!!