Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt f...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
norotororo
February 20, 2024
Technology
0
160
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt flowを使った感想とLLMのテストについて
JaSST nano vol.33で使用した発表資料です。Demoの部分は後ほど更新します...
norotororo
February 20, 2024
Tweet
Share
More Decks by norotororo
See All by norotororo
会社紹介資料v1.0.0
norotororo
0
1.8k
Other Decks in Technology
See All in Technology
OCI Database Management サービス詳細
oracle4engineer
PRO
1
7.4k
今こそ学びたいKubernetesネットワーク ~CNIが繋ぐNWとプラットフォームの「フラッと」な対話
logica0419
5
540
コスト削減から「セキュリティと利便性」を担うプラットフォームへ
sansantech
PRO
3
1.6k
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
270
Red Hat OpenStack Services on OpenShift
tamemiya
0
140
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
1
390
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
170
配列に見る bash と zsh の違い
kazzpapa3
3
170
Why Organizations Fail: ノーベル経済学賞「国家はなぜ衰退するのか」から考えるアジャイル組織論
kawaguti
PRO
1
220
AWS Network Firewall Proxyを触ってみた
nagisa53
1
250
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
780
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
340
Featured
See All Featured
Faster Mobile Websites
deanohume
310
31k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
58
50k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
BBQ
matthewcrist
89
10k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
Fireside Chat
paigeccino
41
3.8k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
1
58
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
110
Are puppies a ranking factor?
jonoalderson
1
2.7k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
RailsConf 2023
tenderlove
30
1.3k
Transcript
AI がAIをテストする? Azure Prompt flowを使った感想とLLMのテストについて 株式会社おもしろテクノロジー Ibuki Noro
©︎ OMOTECH 自己紹介 野呂 歩希Ibuki Noro @Norotororo 株式会社おもしろテクノロジー 代表取締役 ex.
ソニーGM&O, eXmotion 北陸先端科学技術大学院大学 東京社会人コース(情報科学) Keyword: ソフトウェア工学, Agile, DevOps, 組込み, 新規事業 初LTです!! JaSST nano ありがとうなの!!
©︎ OMOTECH この発表では以下のことを話します • ツールの機能紹介 • 動作のデモ • 便利だと思った機能 •
LLMを使ったアプリケーションのテストについて
©︎ OMOTECH Azure Prompt flowとは Azure Machine Learning プロンプト フローは、大規模言語モデル
(LLM) によって動作する AI アプリケーションの開発サイクル全体を合理化するために設計された開発ツールです。 LLM ベースの AI アプリケーションの勢いが世界中で拡大し続ける中、Azure Machine Learning プロンプト フローは、AI アプリケーションのプロトタイプ作成、実験、反復、デプロイの プロセスを簡素化する包括的なソリューションを提供します。 https://learn.microsoft.com/ja-jp/azure/machine-learning/prompt-flow/overview-what-is-prompt-flow Microsoft 公式文書より
©︎ OMOTECH 何ができる? (機能一部抜粋) • ローコードかつ多様な機能で LLMのプロンプトの開発ができる • AIを使ったプロンプトの評価ができる
Demo ©︎ OMOTECH
©︎ OMOTECH 参考情報:Prompt flowの便利な特徴 • AzureのGUIだけでなく、VS Code(エディタ)上でもGUIでの開発ができる • VS Code
Extensionとして提供 • CLIでの実行もできる • ローカル実行が可能 • リポジトリで開発しているアプリケーションを呼び出すことも可能 • GPTを使った評価以外にも多数のオプションがある • ベクトル評価,RAGのパラメータをどれくらい使っているか? etc • かなりマニアックな印象 • そのままDocker imageにしてアプリケーションにすることもできる
©︎ OMOTECH AIがいい感じにテストしてくれるんだ! LLMのテストはなんもしなくていいじゃん! ラッキー!
©︎ OMOTECH んなわけがない
©︎ OMOTECH ここからはテストの話
©︎ OMOTECH Q. そもそもなんでそのソフトウェアは LLMを搭載することになったのでしょうか?
©︎ OMOTECH A. ゆるい(=厳密でない)入力に対して いい感じの出力を返したいから ※発表者の私見です A. 流行ってるから
©︎ OMOTECH いい感じの出力を返している と言えるためには?
©︎ OMOTECH LLMのテストは厄介 • 基本:自然言語の入力に対して、その内容に沿った自然言語を出力する • LLMはタスクに対して汎用性能を持つ • [参考情報] GPT-4:
米国司法試験合格, 大学院試験合格 • 実際にアプリを開発してみると、最初からなんとなく動いてしまう • 一方で、精度100%は厳しい。いい感じの落とし所を探す必要性。 • プロダクトとしていい感じであることをテストするためには? https://openai.com/research/gpt-4
©︎ OMOTECH タスクの抽象度を変えて評価する 例) LLMにレシピを出力させる機能の確認項目 レシピが出力できること イタリア料理 のレシピ 和食 のレシピ
中華 のレシピ パスタ 寿司 ラーメン 餃子 抽象度が高すぎる これだけではちょっと不安 適切な抽象度 ある程度は網羅できそう 組み合わせテストもできそう ex. イタリア風おにぎり … 細かすぎる どこまで評価すればいいのかが不明瞭 大量の良質なデータがあれば この粒度でテストすることも可能 抽象度 高 低 補足:リリース後の入出力の精度監視・データの更新はMust
©︎ OMOTECH (追加で)LLMの特有の観点 • ハルシネーション • 言語による精度・出力の偏り • プロンプトインジェクション etc…
このあたりの知見をみんなで共有したいです!
©︎ OMOTECH Channel Subscribe チャンネル登録 Goodボタン @Norotororo ※ありません ※ありません ※あります、ご意見お待ちしております!
この発表がおもしろいと思った人は
ご清聴ありがとうございました ©︎ OMOTECH