[JaSST nano vol.33] AI がAIをテストする？Azure Prompt flowを使った感想とLLMのテストについて

AI がAIをテストする？ Azure Prompt flowを使った感想とLLMのテストについて株式会社おもしろテクノロジー Ibuki Noro

©︎ OMOTECH 自己紹介野呂歩希Ibuki Noro @Norotororo 株式会社おもしろテクノロジー代表取締役 ex.
ソニーGM&O, eXmotion 北陸先端科学技術大学院大学東京社会人コース(情報科学) Keyword: ソフトウェア工学, Agile, DevOps, 組込み, 新規事業初LTです！！ JaSST nano ありがとうなの！！

©︎ OMOTECH この発表では以下のことを話します • ツールの機能紹介 • 動作のデモ • 便利だと思った機能 •
LLMを使ったアプリケーションのテストについて

©︎ OMOTECH Azure Prompt flowとは Azure Machine Learning プロンプトフローは、大規模言語モデル
(LLM) によって動作する AI アプリケーションの開発サイクル全体を合理化するために設計された開発ツールです。 LLM ベースの AI アプリケーションの勢いが世界中で拡大し続ける中、Azure Machine Learning プロンプトフローは、AI アプリケーションのプロトタイプ作成、実験、反復、デプロイのプロセスを簡素化する包括的なソリューションを提供します。 https://learn.microsoft.com/ja-jp/azure/machine-learning/prompt-flow/overview-what-is-prompt-flow Microsoft 公式文書より

©︎ OMOTECH 何ができる？（機能一部抜粋） • ローコードかつ多様な機能で LLMのプロンプトの開発ができる • AIを使ったプロンプトの評価ができる

Demo ©︎ OMOTECH

©︎ OMOTECH 参考情報：Prompt flowの便利な特徴 • AzureのGUIだけでなく、VS Code（エディタ）上でもGUIでの開発ができる • VS Code
Extensionとして提供 • CLIでの実行もできる • ローカル実行が可能 • リポジトリで開発しているアプリケーションを呼び出すことも可能 • GPTを使った評価以外にも多数のオプションがある • ベクトル評価，RAGのパラメータをどれくらい使っているか？ etc • かなりマニアックな印象 • そのままDocker imageにしてアプリケーションにすることもできる

©︎ OMOTECH AIがいい感じにテストしてくれるんだ！ LLMのテストはなんもしなくていいじゃん！ラッキー！

©︎ OMOTECH んなわけがない

©︎ OMOTECH ここからはテストの話

©︎ OMOTECH Q. そもそもなんでそのソフトウェアは LLMを搭載することになったのでしょうか？

©︎ OMOTECH A. ゆるい（=厳密でない）入力に対していい感じの出力を返したいから ※発表者の私見です A. 流行ってるから

©︎ OMOTECH LLMのテストは厄介 • 基本：自然言語の入力に対して、その内容に沿った自然言語を出力する • LLMはタスクに対して汎用性能を持つ • [参考情報] GPT-4:
米国司法試験合格, 大学院試験合格 • 実際にアプリを開発してみると、最初からなんとなく動いてしまう • 一方で、精度100%は厳しい。いい感じの落とし所を探す必要性。 • プロダクトとしていい感じであることをテストするためには？ https://openai.com/research/gpt-4

©︎ OMOTECH タスクの抽象度を変えて評価する例) LLMにレシピを出力させる機能の確認項目レシピが出力できることイタリア料理のレシピ和食のレシピ
中華のレシピパスタ寿司ラーメン餃子抽象度が高すぎるこれだけではちょっと不安適切な抽象度ある程度は網羅できそう組み合わせテストもできそう ex. イタリア風おにぎり … 細かすぎるどこまで評価すればいいのかが不明瞭大量の良質なデータがあればこの粒度でテストすることも可能抽象度高低補足：リリース後の入出力の精度監視・データの更新はMust

[JaSST nano vol.33] AI がAIをテストする？Azure Prompt f...

[JaSST nano vol.33] AI がAIをテストする？Azure Prompt flowを使った感想とLLMのテストについて

norotororo

More Decks by norotororo

Other Decks in Technology

Featured

Transcript

AI がAIをテストする？ Azure Prompt flowを使った感想とLLMのテストについて株式会社おもしろテクノロジー Ibuki Noro

©︎ OMOTECH 自己紹介野呂歩希Ibuki Noro @Norotororo 株式会社おもしろテクノロジー代表取締役 ex.

©︎ OMOTECH この発表では以下のことを話します • ツールの機能紹介 • 動作のデモ • 便利だと思った機能 •

©︎ OMOTECH Azure Prompt flowとは Azure Machine Learning プロンプトフローは、大規模言語モデル

©︎ OMOTECH 何ができる？（機能一部抜粋） • ローコードかつ多様な機能で LLMのプロンプトの開発ができる • AIを使ったプロンプトの評価ができる

Demo ©︎ OMOTECH

©︎ OMOTECH 参考情報：Prompt flowの便利な特徴 • AzureのGUIだけでなく、VS Code（エディタ）上でもGUIでの開発ができる • VS Code

©︎ OMOTECH AIがいい感じにテストしてくれるんだ！ LLMのテストはなんもしなくていいじゃん！ラッキー！

©︎ OMOTECH んなわけがない

©︎ OMOTECH ここからはテストの話

©︎ OMOTECH Q. そもそもなんでそのソフトウェアは LLMを搭載することになったのでしょうか？

©︎ OMOTECH A. ゆるい（=厳密でない）入力に対していい感じの出力を返したいから ※発表者の私見です A. 流行ってるから

©︎ OMOTECH いい感じの出力を返していると言えるためには？

©︎ OMOTECH LLMのテストは厄介 • 基本：自然言語の入力に対して、その内容に沿った自然言語を出力する • LLMはタスクに対して汎用性能を持つ • [参考情報] GPT-4:

©︎ OMOTECH タスクの抽象度を変えて評価する例) LLMにレシピを出力させる機能の確認項目レシピが出力できることイタリア料理のレシピ和食のレシピ

©︎ OMOTECH （追加で）LLMの特有の観点 • ハルシネーション • 言語による精度・出力の偏り • プロンプトインジェクション etc…

©︎ OMOTECH Channel Subscribe チャンネル登録 Goodボタン @Norotororo ※ありません ※ありません ※あります、ご意見お待ちしております！

ご清聴ありがとうございました ©︎ OMOTECH