Slide 1

Slide 1 text

プロンプトの 効きやすい / 効きにくい これってモデルの性能にも言えますか? Sakusakumura (さくさくむら)

Slide 2

Slide 2 text

2 自己紹介 • さくさくむら (@sakkusakumura) AIアイネスフウジン ローカルで動くキャラクターAI UmamusumeKeyCtrl シーン自動識別&自動キーマッピング切り替え

Slide 3

Slide 3 text

3 自己紹介 • さくさくむら (@sakkusakumura)

Slide 4

Slide 4 text

4 プロンプトの効きやすさ このプロンプトは… 「効きやすい or 効きにくい」 このモデルは… 「プロンプトでロールプレイできる」 「指定された書式でないと上手く動かない」 「ひと工夫すると良い感じになる」

Slide 5

Slide 5 text

5 効きやすさって何? モデルのプロンプトを 解釈する能力 • few shot • 深呼吸 • マッドサイエンティスト • 亡きおばあちゃんの遺言 + 泣き落とし • cot どの程度思った通りの 回答が出るか 「効きやすさ」を制御する手法 :

Slide 6

Slide 6 text

6 意図に沿った出力を促すプロンプト ユーザが期待する出力を得られるかが基準 画像出典:LLMをゼロからトレーニング するためのベストプラクティス, Weights & Biases Large Language Models as Optimizers (一部改変)

Slide 7

Slide 7 text

7 モデルのプロンプトを解釈する能力 • rinna, llama-2のプロンプトフォーマット • 「このモデルはzero/few shot性能が高い」 • 「モデルの性能的にプロンプトでロールプレイさせられない」 • 「プロンプトの構成次第では内容を読み取ってくれる」 モデルとプロンプトの関係性の例: 使えるプロンプトの形式や内容に対する柔軟さ (モデルが入力をどの程度正しく解釈できるか?)

Slide 8

Slide 8 text

8 モデルのプロンプトを解釈する能力 • そうは思わない、4Bでも効くことは効く(ただし柔軟性) 「13Bからじゃないとプロンプト効かないよね」@ローカルLLM界隈

Slide 9

Slide 9 text

9 トレーニングと柔軟性の関係 • llava-1.5の事例(Vision & Language Model) • 12ベンチマーク中11のベンチマークで最高の性能を達成 学習データがある程度柔軟性を規定している説 画像出典:LImproved Baselines with Visual Instruction Tuning ゲーム画面:ウマ娘プリティーダービー, ©Cygames, Inc.

Slide 10

Slide 10 text

10 Llava-1.5での工夫 • llava-1.5の事例 • llavaには元々短い応答を求めるタスクが含まれていなかった • トレーニングデータを追加することで性能を大幅に向上 (502→1197) 学習データがある程度柔軟性を規定している説 画像出典:LImproved Baselines with Visual Instruction Tuning

Slide 11

Slide 11 text

11 Llava-1.5での工夫 • “Answer with the option’s letter from the given choices directly.“ (与えられた選択肢から直接選 択肢の文字を答えてください) • プロンプトの柔軟性を下げる代 わりにモデルのパフォーマンス を上げたとも取れる 柔軟性をある程度制限することで性能を高める 画像出典:LImproved Baselines with Visual Instruction Tuning

Slide 12

Slide 12 text

12 下流タスクへのチューニングとの関係 AIアイネスの事例 • 8月モデルと9月モデルが存在 instructionチューニングがどのくらい上手くいったかにも影響 9月モデルでは性能が向上 • 出力文字数の増加 • より自然な応答 • 口調の安定 • キャラ設定への忠実度上昇

Slide 13

Slide 13 text

13 AIアイネスの比較 • 日常会話(日英) • 要約(不安定) 8月モデル 応答文字数:19.38 文の数:1.31 • 日常会話(日英) • プロフィールに基づいた会話 • 提供された事実に基づく会話 • キャッチフレーズの生成 • 箇条書きでの応答 • 要約(不安定) 9月モデル 応答文字数:34.40 文の数:1.70

Slide 14

Slide 14 text

14 AIアイネスでの工夫 9月モデルの特徴 • 学習データの見直し • 学習時のプロンプトフォーマット改良 • ハイパーパラメータの再調整 • 全モデルの人による定性評価 ベースモデルの能力をより引き継げている

Slide 15

Slide 15 text

15 9月モデル開発での知見 思っていたよりベースモデルの賢さが重要 モデルの性能を活かしつつキャラの特徴を挿入できる? • 性能の劣化を抑えつつキャラの特徴を加えることが可能 (上手くやれば) • 以前学習したことを上書きしているようなもの • トレーニング手法についてリサーチを続ける必要あり

Slide 16

Slide 16 text

意図通りの出力が得られるか 16 モデルを使う際の効きやすさを話す場合… プロンプトに対する柔軟性 モデルの性能として効きやすさを話す場合… を議論している

Slide 17

Slide 17 text

17 まとめ プロンプトの「効きやすさ」 「モデルのプロンプトへの柔軟性」と言った方がより正確 1. モデルをどの程度意図に従わせることができるか 2. 入力されたプロンプトの解釈能力 どの程度入力を柔軟に処理できるか モデルの性能のことを言うなら…

Slide 18

Slide 18 text

18 まとめ プロンプトに対する柔軟性 1. 3B, 4Bでもプロンプトは効く 2. トレーニングがどの程度上手くいくかに左右される ・ハイパーパラメータだけでなくプロンプトにも影響される ・上手くいけばベースモデルの性能をある程度保持しつつ 変更したい部分だけ変えられるかも ・ただしモデルサイズが上がると柔軟性はもっと高くなる

Slide 19

Slide 19 text

19 リンク集 さくさくむら Twitter note note記事: 論文紹介: LLaVA-1.5 (Improved Baselines with Visual Instruction Tuning) Improved Baselines with Visual Instruction Tuning その他: AIアイネス開発記録(note) LLMファインチューニングのためのNLPと深層学習入門(note)