宮脇+'23 - Prompt Engineering サーベイ

Slide 1

Slide 1 text

Prompt Engineering について Shumpei Miyawaki keywalker,inc. / Tohoku Univ. @catshun_

Slide 2

Slide 2 text

P.1 • ChatGPT で⾃然⾔語処理は終わるのか︖ / ⾔語処理学会第29回年次⼤会 (2023) https://www.youtube.com/watch?v=TXgOrYUPs_s&t=2s • ⿊橋教授（京都⼤学）- ChatGPT の仕組みと社会へのインパクト / NII 教育機関 DX シンポ (2023) https://www.nii.ac.jp/event/upload/20230303-04_Kurohashi.pdf • NTT ⼈間情報研究所 – NLP と Vision-and-Language の基礎・最新動向 (1) / DEIM Tutorial Part 1: NLP (2023) https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp • 松尾教授（東京⼤学）- AI の進化と⽇本の戦略 / (2023) https://note.com/akihisa_shiozaki/n/n4c126c27fd3d • 横井助教（東北⼤学）- ChatGPT と⾃然⾔語処理 / ⾔語の意味の計算と最適輸送 / Workshop OT (2023) https://speakerdeck.com/eumesy/chatgpt-and-intro-of-ot-for-nlp • 岡崎教授（東京⼯業⼤学）- ⼤規模⾔語モデルの脅威と驚異 (2023) https://speakerdeck.com/chokkan/20230327_riken_llm • ⽇本ディープラーニング協会 - JDLA緊急企画︕「⽣成AIの衝撃」〜 ChatGPTで世界はどう変わるのか︖ 〜 (2023) https://www.youtube.com/live/TVaB5R4-uOE?feature=share 本資料を読む前に以下の参照をオススメします (1/2)

Slide 34

Slide 34 text

P.38 • RL は⼀貫して有効 • 低資源でも DSP が効果的 https://arxiv.org/abs/2302.11520 • LLM による望ましい振る舞いを誘導するため Policy LM を⽤いて要求に沿った⼿がかりを与える • Policy LM は、以下の２段階で学習される • 教師あり微調整（SFT）︓要約では textrank で抽出したキーワードを出⼒として学習する • 強化学習（RL）︓要約では ROUGE-Avg, 対話では SacreBLEU を報酬とする • 要約・タスク指向対話の低資源設定で DSP w/ SFT+RL の有効性を実証 Directional Stimulus Prompting (DSP) [Li+’23, ICLR] 要約対象 Article: CNN 8 年ぶりにテレビの伝説的な⼈物が戻ってきた。 4⽉1 ⽇放送の “The Price is Right” で “come on down!” と⾔われ登場したのは、司会の Drew Carey ではなく、本テレビの進⾏役を務めていたおなじみの⼈であった。 2007年に降板するまで 35 年間、本テレビ番組の司会を務めた Bob Barker である。元気な 91歳の Barker は、本番組の第⼀プログラムである “Lucky Seven” を担当した後、司会を Carey に引き継ぎました。 8 年の間、番組から離れていたにもかかわらず、Barker は⾒事な復活を果たしました。要約例（正解） Bob Barker が⽔曜⽇に “The Price Is Right” の司会に復帰しました。 Barker は 91歳で 2007年に司会を引退していました。標準プロンプト Q: 上記の記事を 2-3 ⽂で簡潔にまとめてください。 DS プロンプト Q: 上記の記事を、ヒントに基づいて 2-3 ⽂で簡潔にまとめてください。ヒント: Bob Barker; TV; 4⽉1⽇; “The Price Is Right”; 2007年; 91歳図1. 要約タスクにおける DSP の例表1. 対話応答⽣成による評価（MultiWOZ 2.1）図3. 学習データサイズ別の要約評価（CNN/DailyMail MultiWOZ 2.1）対数尤度に基づく学習⽬的を⽤いた SFT では不⼗分 (Inform+Success) * 0.5 + BLEU ユーザ要求を満たすエンティティの割合 (?) 解決したユーザ要求の割合

Slide 50

Slide 50 text

P.59 （推論パス 𝑅!） 𝑠" !: アリストテレスは BC 322 に死亡。 𝑠! !: ラップトップは 1980 年に開発。 𝑠# !: 故に使⽤していない。 𝑠$ !: 答えは No （推論パス 𝑅"） 𝑠" ": アリストテレスは 2000 年に死亡。 𝑠! ": ラップトップは 1980 年に開発。 𝑠# ": 故に使⽤した。 𝑠$ ": 答えは Yes https://arxiv.org/abs/2301.00303 • CoT によって分解された推論パスに対して関連する外部知識を検索し再考する RR を提案 • GPT-3 を⽤いて常識/時間/表形式の推論において、RR が faithful な説明を⽣成することを実証 Rethinking with Retrieval (RR) [He+’22] ③ NLI モデルで含意度・⽭盾度を算出 ④ 推論パスごとに faithfulness のスコア 𝑓%& 𝑅' を計算表1. RR は⼀貫して良い性能を⽰す (StrategyQA) (TempQA) (INFOTABS) （類似している場合）MPNet による類似度が⾼いとスコアが⾼くなる（類似してない場合）NLI による含意度が⾼いとスコアが⾼くなる ! 𝑃 = argmax #( $ {#),⋯ ,#*} ) )*+ , 𝟙 𝑃) = 𝑃 𝑓-. 𝑅) 𝑓%& 𝑅+ = ( ' ∈- sim 𝑠' +, 𝑘' + × sim 𝑠' +, 𝑘' + ≥ 0.5 + entail 𝑠' +, 𝑘' + × sim 𝑠' +, 𝑘' + < 0.5 − contradict 𝑠' +, 𝑘' + ② 全ての 𝑠 % & に対して top-10 を BM25 で検索し、MPNet で最も類似する関連知識を取得 NLI による⽭盾度が低いとスコアが⾼くなる（質問）アリストテレスはラップトップを使⽤したか？ CoT + Self-Consistency （予測 / 𝑃） No （外部知識 𝐾!） 𝑘" !: アリストテレスは BC 322 に死亡。 𝑘! !: ラップトップは 1980 年に開発。 𝑘# !: hoge 𝑘$ !: fuga （外部知識 𝐾"） 𝑘" ": アリストテレスは BC322 に死亡。 𝑘! ": ラップトップは 1980 年に開発。 𝑘# ": hoge 𝑘$ ": fuga 𝑓!" 𝑅# = 0.20 𝑓!" 𝑅$ = 𝟎. 𝟗𝟎 表3. 動的検索に用いるクエリの対象は分解後のサブ質問の方が良い分解前の質問分解後のサブ質問検索クエリの対象 BM25: DPR: BM25+DPR: 77.73 58.52 77.29 図1. 常識推論における RR の概要 ① 質問を複数の推論パスに分解

Slide 53

Slide 53 text

P.63 質問ローマ議定書は 3 名の⾸相によって署名された。うち 1 名はなぜ暗殺された︖（HotPotQA） 𝑡 = 1 思考ローマ議定書を検索して、3 名の⾸相を⾒つけ彼らが暗殺された理由を⾒つける。⾏動 Search [ローマ議定書] 結果 1934.03.17 にローマでイタリア、オーストリア、ハンガリーの三国間で締結された国際協定。べニート・ムッソリーニ (伊)、エンゲルベルト・ドルフース (墺)、ゲンベシュ・ジュラ (洪) の 3 名の⾸相によって署名。すべての議定書は 1934.07.12 に発効し、1934.12.12 に国際連盟の条約シリーズに登録された。 𝑡 = 2 思考 3 名の⾸相はムッソリーニ,ドルフース, ジュラだった。ムッソリーニを検索し、彼がなぜ暗殺されたかを⾒つける必要がある。⾏動 Search [べニート・ムッソリーニ] 結果べニート・ムッソリーニ(1883.07.29 ‒ 1945.04.28) は、イタリアの政治家・ジャーナリストで、National Fascist Party を創設。 1922 年のローマ進軍から 1943 年までイタリア⾸相を務め、 1919 年の Italian Fasces of Combat 設⽴から、 1945 年にイタリア・パルチザンによって処刑されるまで Duceöf Italian fascism として活動した。 𝑡 = 3 思考ムッソリーニは、第⼆次世界⼤戦中の枢軸国崩壊の⼀環として暗殺された。ゆえにローマ議定書は 3 名の⾸相によって署名され、うち 1 名は第⼆次世界⼤戦の⼀部として暗殺されたのです。⾏動 Finish [第⼆次世界⼤戦] reflection 調印に関わった⾸相の⼀⼈を検索してすぐに回答しようとした。各⾸相を検索し、それぞれのページで死亡情報を調べ、より多くの情報を得てから回答すべきでした。 • ReAct 推論において各出⼒に対し、不合理な予測の検出・reflection・推論の再実⾏を導⼊ Reflexion [Shinn+’23] (1/2) https://arxiv.org/abs/2303.11366

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text