プロンプトの「効きやすい / 効きにくい」 これってモデルの性能にも言えますか?
by
Sakusakumura
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
プロンプトの 効きやすい / 効きにくい これってモデルの性能にも言えますか? Sakusakumura (さくさくむら)
Slide 2
Slide 2 text
2 自己紹介 • さくさくむら (@sakkusakumura) AIアイネスフウジン ローカルで動くキャラクターAI UmamusumeKeyCtrl シーン自動識別&自動キーマッピング切り替え
Slide 3
Slide 3 text
3 自己紹介 • さくさくむら (@sakkusakumura)
Slide 4
Slide 4 text
4 プロンプトの効きやすさ このプロンプトは… 「効きやすい or 効きにくい」 このモデルは… 「プロンプトでロールプレイできる」 「指定された書式でないと上手く動かない」 「ひと工夫すると良い感じになる」
Slide 5
Slide 5 text
5 効きやすさって何? モデルのプロンプトを 解釈する能力 • few shot • 深呼吸 • マッドサイエンティスト • 亡きおばあちゃんの遺言 + 泣き落とし • cot どの程度思った通りの 回答が出るか 「効きやすさ」を制御する手法 :
Slide 6
Slide 6 text
6 意図に沿った出力を促すプロンプト ユーザが期待する出力を得られるかが基準 画像出典:LLMをゼロからトレーニング するためのベストプラクティス, Weights & Biases Large Language Models as Optimizers (一部改変)
Slide 7
Slide 7 text
7 モデルのプロンプトを解釈する能力 • rinna, llama-2のプロンプトフォーマット • 「このモデルはzero/few shot性能が高い」 • 「モデルの性能的にプロンプトでロールプレイさせられない」 • 「プロンプトの構成次第では内容を読み取ってくれる」 モデルとプロンプトの関係性の例: 使えるプロンプトの形式や内容に対する柔軟さ (モデルが入力をどの程度正しく解釈できるか?)
Slide 8
Slide 8 text
8 モデルのプロンプトを解釈する能力 • そうは思わない、4Bでも効くことは効く(ただし柔軟性) 「13Bからじゃないとプロンプト効かないよね」@ローカルLLM界隈
Slide 9
Slide 9 text
9 トレーニングと柔軟性の関係 • llava-1.5の事例(Vision & Language Model) • 12ベンチマーク中11のベンチマークで最高の性能を達成 学習データがある程度柔軟性を規定している説 画像出典:LImproved Baselines with Visual Instruction Tuning ゲーム画面:ウマ娘プリティーダービー, ©Cygames, Inc.
Slide 10
Slide 10 text
10 Llava-1.5での工夫 • llava-1.5の事例 • llavaには元々短い応答を求めるタスクが含まれていなかった • トレーニングデータを追加することで性能を大幅に向上 (502→1197) 学習データがある程度柔軟性を規定している説 画像出典:LImproved Baselines with Visual Instruction Tuning
Slide 11
Slide 11 text
11 Llava-1.5での工夫 • “Answer with the option’s letter from the given choices directly.“ (与えられた選択肢から直接選 択肢の文字を答えてください) • プロンプトの柔軟性を下げる代 わりにモデルのパフォーマンス を上げたとも取れる 柔軟性をある程度制限することで性能を高める 画像出典:LImproved Baselines with Visual Instruction Tuning
Slide 12
Slide 12 text
12 下流タスクへのチューニングとの関係 AIアイネスの事例 • 8月モデルと9月モデルが存在 instructionチューニングがどのくらい上手くいったかにも影響 9月モデルでは性能が向上 • 出力文字数の増加 • より自然な応答 • 口調の安定 • キャラ設定への忠実度上昇
Slide 13
Slide 13 text
13 AIアイネスの比較 • 日常会話(日英) • 要約(不安定) 8月モデル 応答文字数:19.38 文の数:1.31 • 日常会話(日英) • プロフィールに基づいた会話 • 提供された事実に基づく会話 • キャッチフレーズの生成 • 箇条書きでの応答 • 要約(不安定) 9月モデル 応答文字数:34.40 文の数:1.70
Slide 14
Slide 14 text
14 AIアイネスでの工夫 9月モデルの特徴 • 学習データの見直し • 学習時のプロンプトフォーマット改良 • ハイパーパラメータの再調整 • 全モデルの人による定性評価 ベースモデルの能力をより引き継げている
Slide 15
Slide 15 text
15 9月モデル開発での知見 思っていたよりベースモデルの賢さが重要 モデルの性能を活かしつつキャラの特徴を挿入できる? • 性能の劣化を抑えつつキャラの特徴を加えることが可能 (上手くやれば) • 以前学習したことを上書きしているようなもの • トレーニング手法についてリサーチを続ける必要あり
Slide 16
Slide 16 text
意図通りの出力が得られるか 16 モデルを使う際の効きやすさを話す場合… プロンプトに対する柔軟性 モデルの性能として効きやすさを話す場合… を議論している
Slide 17
Slide 17 text
17 まとめ プロンプトの「効きやすさ」 「モデルのプロンプトへの柔軟性」と言った方がより正確 1. モデルをどの程度意図に従わせることができるか 2. 入力されたプロンプトの解釈能力 どの程度入力を柔軟に処理できるか モデルの性能のことを言うなら…
Slide 18
Slide 18 text
18 まとめ プロンプトに対する柔軟性 1. 3B, 4Bでもプロンプトは効く 2. トレーニングがどの程度上手くいくかに左右される ・ハイパーパラメータだけでなくプロンプトにも影響される ・上手くいけばベースモデルの性能をある程度保持しつつ 変更したい部分だけ変えられるかも ・ただしモデルサイズが上がると柔軟性はもっと高くなる
Slide 19
Slide 19 text
19 リンク集 さくさくむら Twitter note note記事: 論文紹介: LLaVA-1.5 (Improved Baselines with Visual Instruction Tuning) Improved Baselines with Visual Instruction Tuning その他: AIアイネス開発記録(note) LLMファインチューニングのためのNLPと深層学習入門(note)