プロンプトの「効きやすい / 効きにくい」これってモデルの性能にも言えますか？

プロンプトの効きやすい / 効きにくいこれってモデルの性能にも言えますか？ Sakusakumura (さくさくむら)

2 自己紹介 • さくさくむら (@sakkusakumura) AIアイネスフウジンローカルで動くキャラクターAI UmamusumeKeyCtrl シーン自動識別＆自動キーマッピング切り替え

3 自己紹介 • さくさくむら (@sakkusakumura)

4 プロンプトの効きやすさこのプロンプトは… 「効きやすい or 効きにくい」このモデルは… 「プロンプトでロールプレイできる」「指定された書式でないと上手く動かない」「ひと工夫すると良い感じになる」

5 効きやすさって何？モデルのプロンプトを解釈する能力 • few shot • 深呼吸 •
マッドサイエンティスト • 亡きおばあちゃんの遺言 + 泣き落とし • cot どの程度思った通りの回答が出るか「効きやすさ」を制御する手法 :

6 意図に沿った出力を促すプロンプトユーザが期待する出力を得られるかが基準画像出典：LLMをゼロからトレーニングするためのベストプラクティス, Weights & Biases Large Language
Models as Optimizers (一部改変)

7 モデルのプロンプトを解釈する能力 • rinna, llama-2のプロンプトフォーマット • 「このモデルはzero/few shot性能が高い」 • 「モデルの性能的にプロンプトでロールプレイさせられない」
• 「プロンプトの構成次第では内容を読み取ってくれる」モデルとプロンプトの関係性の例: 使えるプロンプトの形式や内容に対する柔軟さ（モデルが入力をどの程度正しく解釈できるか？）

8 モデルのプロンプトを解釈する能力 • そうは思わない、4Bでも効くことは効く（ただし柔軟性）「13Bからじゃないとプロンプト効かないよね」＠ローカルLLM界隈

9 トレーニングと柔軟性の関係 • llava-1.5の事例（Vision & Language Model） • 12ベンチマーク中11のベンチマークで最高の性能を達成学習データがある程度柔軟性を規定している説
画像出典：LImproved Baselines with Visual Instruction Tuning ゲーム画面：ウマ娘プリティーダービー, ©Cygames, Inc.

10 Llava-1.5での工夫 • llava-1.5の事例 • llavaには元々短い応答を求めるタスクが含まれていなかった • トレーニングデータを追加することで性能を大幅に向上（502→1197）学習データがある程度柔軟性を規定している説
画像出典：LImproved Baselines with Visual Instruction Tuning

11 Llava-1.5での工夫 • “Answer with the option’s letter from the
given choices directly.“ (与えられた選択肢から直接選択肢の文字を答えてください) • プロンプトの柔軟性を下げる代わりにモデルのパフォーマンスを上げたとも取れる柔軟性をある程度制限することで性能を高める画像出典：LImproved Baselines with Visual Instruction Tuning

12 下流タスクへのチューニングとの関係 AIアイネスの事例 • 8月モデルと9月モデルが存在 instructionチューニングがどのくらい上手くいったかにも影響 9月モデルでは性能が向上 • 出力文字数の増加 •
より自然な応答 • 口調の安定 • キャラ設定への忠実度上昇

13 AIアイネスの比較 • 日常会話（日英） • 要約（不安定）８月モデル応答文字数：19.38 文の数：1.31 •
日常会話（日英） • プロフィールに基づいた会話 • 提供された事実に基づく会話 • キャッチフレーズの生成 • 箇条書きでの応答 • 要約（不安定）９月モデル応答文字数：34.40 文の数：1.70

14 AIアイネスでの工夫 9月モデルの特徴 • 学習データの見直し • 学習時のプロンプトフォーマット改良 • ハイパーパラメータの再調整 •
全モデルの人による定性評価ベースモデルの能力をより引き継げている

15 9月モデル開発での知見思っていたよりベースモデルの賢さが重要モデルの性能を活かしつつキャラの特徴を挿入できる？ • 性能の劣化を抑えつつキャラの特徴を加えることが可能（上手くやれば） • 以前学習したことを上書きしているようなもの •
トレーニング手法についてリサーチを続ける必要あり

意図通りの出力が得られるか 16 モデルを使う際の効きやすさを話す場合… プロンプトに対する柔軟性モデルの性能として効きやすさを話す場合… を議論している

17 まとめプロンプトの「効きやすさ」「モデルのプロンプトへの柔軟性」と言った方がより正確 1. モデルをどの程度意図に従わせることができるか 2. 入力されたプロンプトの解釈能力どの程度入力を柔軟に処理できるかモデルの性能のことを言うなら…

18 まとめプロンプトに対する柔軟性 1. 3B, 4Bでもプロンプトは効く 2. トレーニングがどの程度上手くいくかに左右される・ハイパーパラメータだけでなくプロンプトにも影響される・上手くいけばベースモデルの性能をある程度保持しつつ
変更したい部分だけ変えられるかも・ただしモデルサイズが上がると柔軟性はもっと高くなる

19 リンク集さくさくむら Twitter note note記事: 論文紹介: LLaVA-1.5 (Improved Baselines
with Visual Instruction Tuning) Improved Baselines with Visual Instruction Tuning その他: AIアイネス開発記録（note） LLMファインチューニングのためのNLPと深層学習入門（note）

プロンプトの「効きやすい / 効きにくい」これってモデルの性能にも言えますか？

プロンプトの「効きやすい / 効きにくい」これってモデルの性能にも言えますか？

Sakusakumura

More Decks by Sakusakumura

Other Decks in Technology

Featured

Transcript