Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt f...
Search
norotororo
February 20, 2024
Technology
0
160
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt flowを使った感想とLLMのテストについて
JaSST nano vol.33で使用した発表資料です。Demoの部分は後ほど更新します...
norotororo
February 20, 2024
Tweet
Share
More Decks by norotororo
See All by norotororo
会社紹介資料v1.0.0
norotororo
0
1.9k
Other Decks in Technology
See All in Technology
クラウド時代における一時権限取得
krrrr38
1
160
型を書かないRuby開発への挑戦
riseshia
0
180
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
44k
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1.1k
OSSで構築するIT基盤管理実践事例: NetBox・Snipe-IT・FreeRADIUS+PrivacyIDEA / Practical Case Studies of IT Infrastructure Management Using OSS
nttcom
0
200
パネルディスカッション資料 (at Tableau Now! - 2026-02-26)
yoshitakaarakawa
0
1.1k
開発組織の課題解決を加速するための権限委譲 -する側、される側としての向き合い方-
daitasu
4
250
kintone開発のプラットフォームエンジニアの紹介
cybozuinsideout
PRO
0
820
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
7
7.1k
男(監査)はつらいよ - Policy as CodeからAIエージェントへ
ken5scal
5
730
LINE Messengerの次世代ストレージ選定
lycorptech_jp
PRO
19
7.4k
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
1.6k
Featured
See All Featured
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
51k
Into the Great Unknown - MozCon
thekraken
40
2.3k
Accessibility Awareness
sabderemane
0
73
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
140
Speed Design
sergeychernyshev
33
1.6k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
68
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
110
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
99
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Transcript
AI がAIをテストする? Azure Prompt flowを使った感想とLLMのテストについて 株式会社おもしろテクノロジー Ibuki Noro
©︎ OMOTECH 自己紹介 野呂 歩希Ibuki Noro @Norotororo 株式会社おもしろテクノロジー 代表取締役 ex.
ソニーGM&O, eXmotion 北陸先端科学技術大学院大学 東京社会人コース(情報科学) Keyword: ソフトウェア工学, Agile, DevOps, 組込み, 新規事業 初LTです!! JaSST nano ありがとうなの!!
©︎ OMOTECH この発表では以下のことを話します • ツールの機能紹介 • 動作のデモ • 便利だと思った機能 •
LLMを使ったアプリケーションのテストについて
©︎ OMOTECH Azure Prompt flowとは Azure Machine Learning プロンプト フローは、大規模言語モデル
(LLM) によって動作する AI アプリケーションの開発サイクル全体を合理化するために設計された開発ツールです。 LLM ベースの AI アプリケーションの勢いが世界中で拡大し続ける中、Azure Machine Learning プロンプト フローは、AI アプリケーションのプロトタイプ作成、実験、反復、デプロイの プロセスを簡素化する包括的なソリューションを提供します。 https://learn.microsoft.com/ja-jp/azure/machine-learning/prompt-flow/overview-what-is-prompt-flow Microsoft 公式文書より
©︎ OMOTECH 何ができる? (機能一部抜粋) • ローコードかつ多様な機能で LLMのプロンプトの開発ができる • AIを使ったプロンプトの評価ができる
Demo ©︎ OMOTECH
©︎ OMOTECH 参考情報:Prompt flowの便利な特徴 • AzureのGUIだけでなく、VS Code(エディタ)上でもGUIでの開発ができる • VS Code
Extensionとして提供 • CLIでの実行もできる • ローカル実行が可能 • リポジトリで開発しているアプリケーションを呼び出すことも可能 • GPTを使った評価以外にも多数のオプションがある • ベクトル評価,RAGのパラメータをどれくらい使っているか? etc • かなりマニアックな印象 • そのままDocker imageにしてアプリケーションにすることもできる
©︎ OMOTECH AIがいい感じにテストしてくれるんだ! LLMのテストはなんもしなくていいじゃん! ラッキー!
©︎ OMOTECH んなわけがない
©︎ OMOTECH ここからはテストの話
©︎ OMOTECH Q. そもそもなんでそのソフトウェアは LLMを搭載することになったのでしょうか?
©︎ OMOTECH A. ゆるい(=厳密でない)入力に対して いい感じの出力を返したいから ※発表者の私見です A. 流行ってるから
©︎ OMOTECH いい感じの出力を返している と言えるためには?
©︎ OMOTECH LLMのテストは厄介 • 基本:自然言語の入力に対して、その内容に沿った自然言語を出力する • LLMはタスクに対して汎用性能を持つ • [参考情報] GPT-4:
米国司法試験合格, 大学院試験合格 • 実際にアプリを開発してみると、最初からなんとなく動いてしまう • 一方で、精度100%は厳しい。いい感じの落とし所を探す必要性。 • プロダクトとしていい感じであることをテストするためには? https://openai.com/research/gpt-4
©︎ OMOTECH タスクの抽象度を変えて評価する 例) LLMにレシピを出力させる機能の確認項目 レシピが出力できること イタリア料理 のレシピ 和食 のレシピ
中華 のレシピ パスタ 寿司 ラーメン 餃子 抽象度が高すぎる これだけではちょっと不安 適切な抽象度 ある程度は網羅できそう 組み合わせテストもできそう ex. イタリア風おにぎり … 細かすぎる どこまで評価すればいいのかが不明瞭 大量の良質なデータがあれば この粒度でテストすることも可能 抽象度 高 低 補足:リリース後の入出力の精度監視・データの更新はMust
©︎ OMOTECH (追加で)LLMの特有の観点 • ハルシネーション • 言語による精度・出力の偏り • プロンプトインジェクション etc…
このあたりの知見をみんなで共有したいです!
©︎ OMOTECH Channel Subscribe チャンネル登録 Goodボタン @Norotororo ※ありません ※ありません ※あります、ご意見お待ちしております!
この発表がおもしろいと思った人は
ご清聴ありがとうございました ©︎ OMOTECH