Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt f...
Search
norotororo
February 20, 2024
Technology
0
120
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt flowを使った感想とLLMのテストについて
JaSST nano vol.33で使用した発表資料です。Demoの部分は後ほど更新します...
norotororo
February 20, 2024
Tweet
Share
More Decks by norotororo
See All by norotororo
会社紹介資料v1.0.0
norotororo
0
480
Other Decks in Technology
See All in Technology
開発生産性向上! 育成を「改善」と捉えるエンジニア育成戦略
shoota
2
460
podman_update_2024-12
orimanabu
1
290
日本版とグローバル版のモバイルアプリ統合の開発の裏側と今後の展望
miichan
1
140
PHPerのための計算量入門/Complexity101 for PHPer
hanhan1978
5
660
株式会社ログラス − エンジニア向け会社説明資料 / Loglass Comapany Deck for Engineer
loglass2019
3
32k
生成AIのガバナンスの全体像と現実解
fnifni
1
210
普通のエンジニアがLaravelコアチームメンバーになるまで
avosalmon
0
120
DevFest 2024 Incheon / Songdo - Compose UI 조합 심화
wisemuji
0
150
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
syossan27
2
180
Microsoft Azure全冠になってみた ~アレを使い倒した者が試験を制す!?~/Obtained all Microsoft Azure certifications Those who use "that" to the full will win the exam! ?
yuj1osm
2
120
ハイテク休憩
sat
PRO
2
180
[Ruby] Develop a Morse Code Learning Gem & Beep from Strings
oguressive
1
190
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
A Tale of Four Properties
chriscoyier
157
23k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
4 Signs Your Business is Dying
shpigford
182
21k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Producing Creativity
orderedlist
PRO
342
39k
Making Projects Easy
brettharned
116
6k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Transcript
AI がAIをテストする? Azure Prompt flowを使った感想とLLMのテストについて 株式会社おもしろテクノロジー Ibuki Noro
©︎ OMOTECH 自己紹介 野呂 歩希Ibuki Noro @Norotororo 株式会社おもしろテクノロジー 代表取締役 ex.
ソニーGM&O, eXmotion 北陸先端科学技術大学院大学 東京社会人コース(情報科学) Keyword: ソフトウェア工学, Agile, DevOps, 組込み, 新規事業 初LTです!! JaSST nano ありがとうなの!!
©︎ OMOTECH この発表では以下のことを話します • ツールの機能紹介 • 動作のデモ • 便利だと思った機能 •
LLMを使ったアプリケーションのテストについて
©︎ OMOTECH Azure Prompt flowとは Azure Machine Learning プロンプト フローは、大規模言語モデル
(LLM) によって動作する AI アプリケーションの開発サイクル全体を合理化するために設計された開発ツールです。 LLM ベースの AI アプリケーションの勢いが世界中で拡大し続ける中、Azure Machine Learning プロンプト フローは、AI アプリケーションのプロトタイプ作成、実験、反復、デプロイの プロセスを簡素化する包括的なソリューションを提供します。 https://learn.microsoft.com/ja-jp/azure/machine-learning/prompt-flow/overview-what-is-prompt-flow Microsoft 公式文書より
©︎ OMOTECH 何ができる? (機能一部抜粋) • ローコードかつ多様な機能で LLMのプロンプトの開発ができる • AIを使ったプロンプトの評価ができる
Demo ©︎ OMOTECH
©︎ OMOTECH 参考情報:Prompt flowの便利な特徴 • AzureのGUIだけでなく、VS Code(エディタ)上でもGUIでの開発ができる • VS Code
Extensionとして提供 • CLIでの実行もできる • ローカル実行が可能 • リポジトリで開発しているアプリケーションを呼び出すことも可能 • GPTを使った評価以外にも多数のオプションがある • ベクトル評価,RAGのパラメータをどれくらい使っているか? etc • かなりマニアックな印象 • そのままDocker imageにしてアプリケーションにすることもできる
©︎ OMOTECH AIがいい感じにテストしてくれるんだ! LLMのテストはなんもしなくていいじゃん! ラッキー!
©︎ OMOTECH んなわけがない
©︎ OMOTECH ここからはテストの話
©︎ OMOTECH Q. そもそもなんでそのソフトウェアは LLMを搭載することになったのでしょうか?
©︎ OMOTECH A. ゆるい(=厳密でない)入力に対して いい感じの出力を返したいから ※発表者の私見です A. 流行ってるから
©︎ OMOTECH いい感じの出力を返している と言えるためには?
©︎ OMOTECH LLMのテストは厄介 • 基本:自然言語の入力に対して、その内容に沿った自然言語を出力する • LLMはタスクに対して汎用性能を持つ • [参考情報] GPT-4:
米国司法試験合格, 大学院試験合格 • 実際にアプリを開発してみると、最初からなんとなく動いてしまう • 一方で、精度100%は厳しい。いい感じの落とし所を探す必要性。 • プロダクトとしていい感じであることをテストするためには? https://openai.com/research/gpt-4
©︎ OMOTECH タスクの抽象度を変えて評価する 例) LLMにレシピを出力させる機能の確認項目 レシピが出力できること イタリア料理 のレシピ 和食 のレシピ
中華 のレシピ パスタ 寿司 ラーメン 餃子 抽象度が高すぎる これだけではちょっと不安 適切な抽象度 ある程度は網羅できそう 組み合わせテストもできそう ex. イタリア風おにぎり … 細かすぎる どこまで評価すればいいのかが不明瞭 大量の良質なデータがあれば この粒度でテストすることも可能 抽象度 高 低 補足:リリース後の入出力の精度監視・データの更新はMust
©︎ OMOTECH (追加で)LLMの特有の観点 • ハルシネーション • 言語による精度・出力の偏り • プロンプトインジェクション etc…
このあたりの知見をみんなで共有したいです!
©︎ OMOTECH Channel Subscribe チャンネル登録 Goodボタン @Norotororo ※ありません ※ありません ※あります、ご意見お待ちしております!
この発表がおもしろいと思った人は
ご清聴ありがとうございました ©︎ OMOTECH