Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt f...
Search
norotororo
February 20, 2024
Technology
0
140
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt flowを使った感想とLLMのテストについて
JaSST nano vol.33で使用した発表資料です。Demoの部分は後ほど更新します...
norotororo
February 20, 2024
Tweet
Share
More Decks by norotororo
See All by norotororo
会社紹介資料v1.0.0
norotororo
0
950
Other Decks in Technology
See All in Technology
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
740
250627 関西Ruby会議08 前夜祭 RejectKaigi「DJ on Ruby Ver.0.1」
msykd
PRO
2
320
Node-REDのFunctionノードでMCPサーバーの実装を試してみた / Node-RED × MCP 勉強会 vol.1
you
PRO
0
120
Delegating the chores of authenticating users to Keycloak
ahus1
0
120
Navigation3でViewModelにデータを渡す方法
mikanichinose
0
220
BigQuery Remote FunctionでLooker Studioをインタラクティブ化
cuebic9bic
3
320
Tech-Verse 2025 Keynote
lycorptech_jp
PRO
0
220
AIエージェント最前線! Amazon Bedrock、Amazon Q、そしてMCPを使いこなそう
minorun365
PRO
15
5.3k
変化する開発、進化する体系時代に適応するソフトウェアエンジニアの知識と考え方(JaSST'25 Kansai)
mizunori
1
230
【PHPカンファレンス 2025】PHPを愛するひとに伝えたい PHPとキャリアの話
tenshoku_draft
0
120
プロダクトエンジニアリング組織への歩み、その現在地 / Our journey to becoming a product engineering organization
hiro_torii
0
130
Snowflake Summit 2025全体振り返り / Snowflake Summit 2025 Overall Review
mtpooh
2
400
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
39
1.9k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
For a Future-Friendly Web
brad_frost
179
9.8k
Visualization
eitanlees
146
16k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Testing 201, or: Great Expectations
jmmastey
42
7.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
Practical Orchestrator
shlominoach
188
11k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Automating Front-end Workflow
addyosmani
1370
200k
Transcript
AI がAIをテストする? Azure Prompt flowを使った感想とLLMのテストについて 株式会社おもしろテクノロジー Ibuki Noro
©︎ OMOTECH 自己紹介 野呂 歩希Ibuki Noro @Norotororo 株式会社おもしろテクノロジー 代表取締役 ex.
ソニーGM&O, eXmotion 北陸先端科学技術大学院大学 東京社会人コース(情報科学) Keyword: ソフトウェア工学, Agile, DevOps, 組込み, 新規事業 初LTです!! JaSST nano ありがとうなの!!
©︎ OMOTECH この発表では以下のことを話します • ツールの機能紹介 • 動作のデモ • 便利だと思った機能 •
LLMを使ったアプリケーションのテストについて
©︎ OMOTECH Azure Prompt flowとは Azure Machine Learning プロンプト フローは、大規模言語モデル
(LLM) によって動作する AI アプリケーションの開発サイクル全体を合理化するために設計された開発ツールです。 LLM ベースの AI アプリケーションの勢いが世界中で拡大し続ける中、Azure Machine Learning プロンプト フローは、AI アプリケーションのプロトタイプ作成、実験、反復、デプロイの プロセスを簡素化する包括的なソリューションを提供します。 https://learn.microsoft.com/ja-jp/azure/machine-learning/prompt-flow/overview-what-is-prompt-flow Microsoft 公式文書より
©︎ OMOTECH 何ができる? (機能一部抜粋) • ローコードかつ多様な機能で LLMのプロンプトの開発ができる • AIを使ったプロンプトの評価ができる
Demo ©︎ OMOTECH
©︎ OMOTECH 参考情報:Prompt flowの便利な特徴 • AzureのGUIだけでなく、VS Code(エディタ)上でもGUIでの開発ができる • VS Code
Extensionとして提供 • CLIでの実行もできる • ローカル実行が可能 • リポジトリで開発しているアプリケーションを呼び出すことも可能 • GPTを使った評価以外にも多数のオプションがある • ベクトル評価,RAGのパラメータをどれくらい使っているか? etc • かなりマニアックな印象 • そのままDocker imageにしてアプリケーションにすることもできる
©︎ OMOTECH AIがいい感じにテストしてくれるんだ! LLMのテストはなんもしなくていいじゃん! ラッキー!
©︎ OMOTECH んなわけがない
©︎ OMOTECH ここからはテストの話
©︎ OMOTECH Q. そもそもなんでそのソフトウェアは LLMを搭載することになったのでしょうか?
©︎ OMOTECH A. ゆるい(=厳密でない)入力に対して いい感じの出力を返したいから ※発表者の私見です A. 流行ってるから
©︎ OMOTECH いい感じの出力を返している と言えるためには?
©︎ OMOTECH LLMのテストは厄介 • 基本:自然言語の入力に対して、その内容に沿った自然言語を出力する • LLMはタスクに対して汎用性能を持つ • [参考情報] GPT-4:
米国司法試験合格, 大学院試験合格 • 実際にアプリを開発してみると、最初からなんとなく動いてしまう • 一方で、精度100%は厳しい。いい感じの落とし所を探す必要性。 • プロダクトとしていい感じであることをテストするためには? https://openai.com/research/gpt-4
©︎ OMOTECH タスクの抽象度を変えて評価する 例) LLMにレシピを出力させる機能の確認項目 レシピが出力できること イタリア料理 のレシピ 和食 のレシピ
中華 のレシピ パスタ 寿司 ラーメン 餃子 抽象度が高すぎる これだけではちょっと不安 適切な抽象度 ある程度は網羅できそう 組み合わせテストもできそう ex. イタリア風おにぎり … 細かすぎる どこまで評価すればいいのかが不明瞭 大量の良質なデータがあれば この粒度でテストすることも可能 抽象度 高 低 補足:リリース後の入出力の精度監視・データの更新はMust
©︎ OMOTECH (追加で)LLMの特有の観点 • ハルシネーション • 言語による精度・出力の偏り • プロンプトインジェクション etc…
このあたりの知見をみんなで共有したいです!
©︎ OMOTECH Channel Subscribe チャンネル登録 Goodボタン @Norotororo ※ありません ※ありません ※あります、ご意見お待ちしております!
この発表がおもしろいと思った人は
ご清聴ありがとうございました ©︎ OMOTECH