Upgrade to Pro — share decks privately, control downloads, hide ads and more …

プロンプトの「効きやすい / 効きにくい」 これってモデルの性能にも言えますか?

プロンプトの「効きやすい / 効きにくい」 これってモデルの性能にも言えますか?

Sakusakumura

October 12, 2023
Tweet

More Decks by Sakusakumura

Other Decks in Technology

Transcript

  1. 5 効きやすさって何? モデルのプロンプトを 解釈する能力 • few shot • 深呼吸 •

    マッドサイエンティスト • 亡きおばあちゃんの遺言 + 泣き落とし • cot どの程度思った通りの 回答が出るか 「効きやすさ」を制御する手法 :
  2. 7 モデルのプロンプトを解釈する能力 • rinna, llama-2のプロンプトフォーマット • 「このモデルはzero/few shot性能が高い」 • 「モデルの性能的にプロンプトでロールプレイさせられない」

    • 「プロンプトの構成次第では内容を読み取ってくれる」 モデルとプロンプトの関係性の例: 使えるプロンプトの形式や内容に対する柔軟さ (モデルが入力をどの程度正しく解釈できるか?)
  3. 11 Llava-1.5での工夫 • “Answer with the option’s letter from the

    given choices directly.“ (与えられた選択肢から直接選 択肢の文字を答えてください) • プロンプトの柔軟性を下げる代 わりにモデルのパフォーマンス を上げたとも取れる 柔軟性をある程度制限することで性能を高める 画像出典:LImproved Baselines with Visual Instruction Tuning
  4. 13 AIアイネスの比較 • 日常会話(日英) • 要約(不安定) 8月モデル 応答文字数:19.38 文の数:1.31 •

    日常会話(日英) • プロフィールに基づいた会話 • 提供された事実に基づく会話 • キャッチフレーズの生成 • 箇条書きでの応答 • 要約(不安定) 9月モデル 応答文字数:34.40 文の数:1.70
  5. 19 リンク集 さくさくむら Twitter note note記事: 論文紹介: LLaVA-1.5 (Improved Baselines

    with Visual Instruction Tuning) Improved Baselines with Visual Instruction Tuning その他: AIアイネス開発記録(note) LLMファインチューニングのためのNLPと深層学習入門(note)