Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt f...
Search
norotororo
February 20, 2024
Technology
170
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[JaSST nano vol.33] AI がAIをテストする?Azure Prompt flowを使った感想とLLMのテストについて
JaSST nano vol.33で使用した発表資料です。Demoの部分は後ほど更新します...
norotororo
February 20, 2024
More Decks by norotororo
See All by norotororo
会社紹介資料v1.0.0
norotororo
0
2.1k
Other Decks in Technology
See All in Technology
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
1.8k
Sync と Async ─ useSyncExternalStore を使う者の岐路
kakehashi
PRO
1
110
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
810
AI活用を推進するために ファインディが下した、一つの小さな決断
starfish719
0
280
Databricks における 生成AIガバナンスの実践
taka_aki
1
370
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
0
220
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
230
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
420
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
210
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
18
6k
新しいVibe Codingと”自走”について
watany
5
270
Featured
See All Featured
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
Prompt Engineering for Job Search
mfonobong
0
340
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
200
The agentic SEO stack - context over prompts
schlessera
0
800
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Building an army of robots
kneath
306
46k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
Paper Plane (Part 1)
katiecoart
PRO
0
8.8k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Transcript
AI がAIをテストする? Azure Prompt flowを使った感想とLLMのテストについて 株式会社おもしろテクノロジー Ibuki Noro
©︎ OMOTECH 自己紹介 野呂 歩希Ibuki Noro @Norotororo 株式会社おもしろテクノロジー 代表取締役 ex.
ソニーGM&O, eXmotion 北陸先端科学技術大学院大学 東京社会人コース(情報科学) Keyword: ソフトウェア工学, Agile, DevOps, 組込み, 新規事業 初LTです!! JaSST nano ありがとうなの!!
©︎ OMOTECH この発表では以下のことを話します • ツールの機能紹介 • 動作のデモ • 便利だと思った機能 •
LLMを使ったアプリケーションのテストについて
©︎ OMOTECH Azure Prompt flowとは Azure Machine Learning プロンプト フローは、大規模言語モデル
(LLM) によって動作する AI アプリケーションの開発サイクル全体を合理化するために設計された開発ツールです。 LLM ベースの AI アプリケーションの勢いが世界中で拡大し続ける中、Azure Machine Learning プロンプト フローは、AI アプリケーションのプロトタイプ作成、実験、反復、デプロイの プロセスを簡素化する包括的なソリューションを提供します。 https://learn.microsoft.com/ja-jp/azure/machine-learning/prompt-flow/overview-what-is-prompt-flow Microsoft 公式文書より
©︎ OMOTECH 何ができる? (機能一部抜粋) • ローコードかつ多様な機能で LLMのプロンプトの開発ができる • AIを使ったプロンプトの評価ができる
Demo ©︎ OMOTECH
©︎ OMOTECH 参考情報:Prompt flowの便利な特徴 • AzureのGUIだけでなく、VS Code(エディタ)上でもGUIでの開発ができる • VS Code
Extensionとして提供 • CLIでの実行もできる • ローカル実行が可能 • リポジトリで開発しているアプリケーションを呼び出すことも可能 • GPTを使った評価以外にも多数のオプションがある • ベクトル評価,RAGのパラメータをどれくらい使っているか? etc • かなりマニアックな印象 • そのままDocker imageにしてアプリケーションにすることもできる
©︎ OMOTECH AIがいい感じにテストしてくれるんだ! LLMのテストはなんもしなくていいじゃん! ラッキー!
©︎ OMOTECH んなわけがない
©︎ OMOTECH ここからはテストの話
©︎ OMOTECH Q. そもそもなんでそのソフトウェアは LLMを搭載することになったのでしょうか?
©︎ OMOTECH A. ゆるい(=厳密でない)入力に対して いい感じの出力を返したいから ※発表者の私見です A. 流行ってるから
©︎ OMOTECH いい感じの出力を返している と言えるためには?
©︎ OMOTECH LLMのテストは厄介 • 基本:自然言語の入力に対して、その内容に沿った自然言語を出力する • LLMはタスクに対して汎用性能を持つ • [参考情報] GPT-4:
米国司法試験合格, 大学院試験合格 • 実際にアプリを開発してみると、最初からなんとなく動いてしまう • 一方で、精度100%は厳しい。いい感じの落とし所を探す必要性。 • プロダクトとしていい感じであることをテストするためには? https://openai.com/research/gpt-4
©︎ OMOTECH タスクの抽象度を変えて評価する 例) LLMにレシピを出力させる機能の確認項目 レシピが出力できること イタリア料理 のレシピ 和食 のレシピ
中華 のレシピ パスタ 寿司 ラーメン 餃子 抽象度が高すぎる これだけではちょっと不安 適切な抽象度 ある程度は網羅できそう 組み合わせテストもできそう ex. イタリア風おにぎり … 細かすぎる どこまで評価すればいいのかが不明瞭 大量の良質なデータがあれば この粒度でテストすることも可能 抽象度 高 低 補足:リリース後の入出力の精度監視・データの更新はMust
©︎ OMOTECH (追加で)LLMの特有の観点 • ハルシネーション • 言語による精度・出力の偏り • プロンプトインジェクション etc…
このあたりの知見をみんなで共有したいです!
©︎ OMOTECH Channel Subscribe チャンネル登録 Goodボタン @Norotororo ※ありません ※ありません ※あります、ご意見お待ちしております!
この発表がおもしろいと思った人は
ご清聴ありがとうございました ©︎ OMOTECH