Slide 1

Slide 1 text

大規模言語モデル 活用技術の最前線 電気通信大学 人工知能先端研究センター 稲葉 通将

Slide 2

Slide 2 text

自己紹介 電気通信大学 人工知能先端研究センター 准教授 研究テーマ: • 知的対話システム,対話処理 • 人狼知能 (人狼ゲーム + 人工知能) チュートリアルの経緯: • ハヤカワ新書「ChatGPTの頭の中」の監訳を担当 → • 数式処理ソフトMathematicaの開発者として知られる スティーヴン・ウルフラムによるChatGPTの解説書

Slide 3

Slide 3 text

大規模言語モデル(LLM: Large Language Model) 大規模言語モデルとは • 大規模な(学習するパラメータが大量の) ニューラルネットワークに基づく言語モデルを • 大規模なテキストデータを用いて • 大規模な計算環境で学習したもの 例:MetaのLLaMA2 • 700億パラメータのモデル • 2兆トークン(≒単語)のテキストデータ • 2000台のNVIDIA A100 80GB GPU で学習

Slide 4

Slide 4 text

Zhao+, Survey of Large Language Models, 2023 より 熾烈な開発競争

Slide 5

Slide 5 text

日本語LLMまとめ https://github.com/llm-jp/awesome-japanese-llm 日本語を中心に学習されたLLMも数多く構築

Slide 6

Slide 6 text

ChatGPT

Slide 7

Slide 7 text

OpenAI, GPT-4 Technical Report, 2023 GPT-4 いくつかのテストでは上位10%に入る成績

Slide 8

Slide 8 text

OpenAI, GPT-4 Technical Report, 2023 GPT-4 日本語でも比較的高い 性能

Slide 9

Slide 9 text

Kasai+, Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations, 2023 日本の医師国家試験に合格 • GPT-4は2018~2023のすべての年の試験で合格点 • ただし,禁忌肢(絶対に選んではいけない選択肢)を何度か選択 • 例:医療行為として安楽死を提案 • 人間による間違いとGPT-4による間違いは相関(赤色が間違えた問題)

Slide 10

Slide 10 text

Google, PaLM2 Technical Report, 2023 ソースコード生成: PaLM2 (Google Bard) 文字列中の「s」の数を数える Rustのコード + トルコ語の コメントを生成 ソースコードを含むテキスト データでも学習しているため こういったことが可能に

Slide 11

Slide 11 text

LLMを「使う技術」 • LLMの「構築」だけではなく,「使い方」に関する研究も激化 • 「使い方」に関する研究は企業・大学問わず活発 本チュートリアルでは LLMを「使う技術」に焦点を当て, 最新の技術を紹介するとともに, みなさんがLLMを賢く使うヒントを提供

Slide 12

Slide 12 text

今回のチュートリアル 対象とすること ✔ LLMはどのようなことができるか ✔ LLMの性能を最大限引き出すための技術・研究の解説 ✔ プロンプト設計の実例紹介 対象としないこと ❌ LLMの動作原理・理論の解説 ❌ LLMを構築するための技術解説 LLMの原理や理論を知りたい方は以下がおすすめ • 「大規模言語モデル」東北大 岡崎先生 https://speakerdeck.com/chokkan/llm • 「大規模言語モデルの理論と可能性」東京大 宮尾先生 https://www.youtube.com/watch?v=8-58PkqCek4 • 「基盤モデルの技術と展望」東京大 岩澤先生 https://speakerdeck.com/yusuke0519/jsai2023-tutorial-ji- pan-moderunoji-shu-tozhan-wang

Slide 13

Slide 13 text

LLMはどのようなことが できるか?

Slide 14

Slide 14 text

Gilardi, ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks, 2023 アノテーションをChatGPTにやらせてみた • テキストに対するアノテーションの正確さをChatGPTと人で比較 • いくつかのタスクではChatGPTが訓練された人を超える正解率 • ほとんどの場合,AMTで行うよりも正確 (かつコストも安い) アノテーションの方法としてLLMは有力な選択肢

Slide 15

Slide 15 text

He+, Large Language Models as Zero-Shot Conversational Recommenders, 2023 LLMに基づく推薦対話システム • システムが対話を行いながら推薦を行う推薦対話システムをLLMを 用いてZero-shot設定(学習データなし)で構築 • 既存の学習に基づくシステムよりも高い性能を確認 Zero-shot設定でもタスクを効率よく解ける場合がある

Slide 16

Slide 16 text

Wang+ Voyager: An Open-Ended Embodied Agent with Large Language Models, 2023. GPT-4にマインクラフトをプレイさせる • 現在の状況をテキスト化し,達成すべきタスクをGPT-4で生成 • タスクを解くためのソースコードも生成 • コードの実行結果および実行エラーを取得 GPT-4がマイクラの知識を 持っているためプレイ可能

Slide 17

Slide 17 text

Arenas+, Language to Rewards for Robotic Skill Synthesis, 2023. Google DeepMind LLMを用いてロボットを制御 • ハードウェアに依存したコードを直接生成するのは困難 → LLMにより報酬を与えるコードを生成 • 四足歩行ロボットとロボットアームで設計されたタスクの90%を達成

Slide 18

Slide 18 text

Zhu+, Large Language Models can Learn Rules, 2023. Google DeepMind ルールの学習 • LLMの事前学習に含まれない推論ルール もin-context learningで学習可能 • 性能が高いモデルほど向上幅が大きい

Slide 19

Slide 19 text

Liang+, Can large language models provide useful feedback on research papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (1/3) • PDFから構造化されたテキストを抽出 • 所定のフォーマットに従う査読結果を出力するように指示

Slide 20

Slide 20 text

Liang+, Can large language models provide useful feedback on research papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (2/3) • 不採択論文に対する人間とGPT-4のコメントの一致率が高い (d) • 人と人で多く重複したコメントとGPT-4のコメントの重複率が高い(e,f)

Slide 21

Slide 21 text

Liang+, Can large language models provide useful feedback on research papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (3/3) • GPT-4が生成した査読の質を アンケート評価 (n=308) • 人間のフィードバックに劣る ものが多いが有用なコメントも 存在 • 査読コメント作成補助や論文の 推敲には有望という意見が多数 GitHubリポジトリには論文を アップロードして コメントを生成するWebサーバの コードもあり

Slide 22

Slide 22 text

LLMを使う技術

Slide 23

Slide 23 text

プロンプトとは? • LLMは文字列を入力として受け取り,入力された文字列に 続く文字列を予測・生成するモデル • プロンプト = LLMに入力する文字列 • LLMではプロンプトをうまく設計することで様々なタスクを 解くことが可能 今日は本当に良い 天気ですね。 LLM LLMに対して適切に質問や指示を与え,最適な出力を得る ための技術をプロンプトエンジニアリングと呼ぶ

Slide 24

Slide 24 text

Brown+, Language Models are Few-Shot Learners, 2020, OpenAI In-Context Learning LLMは少数の例をあたえると,追加学習無しでタスクを実行可能 Few-shot 例 解かせたいタスク LLMによる生成結果 勾配降下法による学習とプロンプトによる学習は等価で あるという仮説も [*1] [*1] Oswald+, Transformers learn in-context by gradient descent, 2023

Slide 25

Slide 25 text

Brown+, Language Models are Few-Shot Learners, 2020, OpenAI いくつ例が必要か (GPT-3) • プロンプトに含める例は多ければ多いほど性能が高くなる傾向 • 自然言語によるタスク説明は例が少ない場合重要 例の与え方

Slide 26

Slide 26 text

Wei+, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 2022, Google Research Chain-of-Thought (CoT) Prompting • 問題をLLMに回答させる際,回答だけではなく回答に至る思考の過程 も生成させることで性能が向上 プロンプトを書くのがやや大変になるが,やらない理由は無い 例の与え方

Slide 27

Slide 27 text

Kojima+, Large Language Models are Zero-Shot Reasoners, NeurIPS2022 Zero-shot CoT Prompting • CoTではFew-shotで例を与える必要があったが,「Let’s think step by step.」をつければ例なし(Zero-shot)でCoT的な回答を生成可能 • Few-shotの例を加えるとさらに性能が向上 CoTプロンプト作成のために とりあえずこれでLLMに 作らせるのも有効 指示の方法

Slide 28

Slide 28 text

Wang+, Self-Consistency Improves Chain of Thought Reasoning in Language Models, ICLR2023 CoTにおける自己一貫性の活用 (1/2) • CoTプロンプトを使用し,サンプリングにより複数の生成結果を獲得 • ChatGPTのAPIにおけるtemperatureを設定することで実現可能 • 多数決により最終的な回答を決定 生成結果の 使い方

Slide 29

Slide 29 text

Wang+, Self-Consistency Improves Chain of Thought Reasoning in Language Models, ICLR2023 CoTにおける自己一貫性の活用 (2/2) • サンプリング数は5個でも性能向上が見込める • サンプル間の一貫性が高かった問題ほど正解率が高い シンプルだが有効.コストは数倍~数十倍 生成結果の 使い方

Slide 30

Slide 30 text

Wang+, Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models, ACL2023. Plan-and-Solve: プランを立てさせる • 最初にプランを立てさせ,その後プランを実行するよう指示 プランに基づいて行動させるというプロンプトは様々な状況で有効 指示の方法

Slide 31

Slide 31 text

Zheng+, Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, 2023, Google DeepMind Step-Back Prompting • 問題を解くための 前提や原理を問う質問 (Stepback Question)を 行う • その回答をもとにCoT で回答を生成 プランに加えて前提 知識が必要なタスク に有効 指示の方法

Slide 32

Slide 32 text

Zhang+, Auto-CoT: Automatic Chain of Thought Prompting in Large Language Models, ICLR2023. Auto-CoT: Few-shot例の自動生成 Few-shot例の多様性が重要という結果.多様性を考慮した例を 自動で決定できる方法があるならそうした方が良い • データセットをクラスタリングし,そこからサンプリング • Zero-shot CoTを使ってFew-shot例を作成 • 作成したFew-shot例を含めたプロンプトでタスクを解く 例の与え方

Slide 33

Slide 33 text

Lanchantin+, Learning to Reason and Memorize with Self-Notes, 2023, Meta AI LLMにメモを取らせる • LLMは長期記憶と多段階推論が苦手 • 問題文中に「メモ」を生成させ,メモを用いた推論を行わせるように プロンプトを設計 例の与え方

Slide 34

Slide 34 text

Chen+, Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks, 2022 Program of Thought • 思考過程のかわりにソースコードを生成 • ソースコードの実行結果を出力として得る 例の与え方

Slide 35

Slide 35 text

Lyu+, Faithful Chain-of-Thought Reasoning, 2022 Faithful Chain-of-Thought: PoTの一般化 • LLMにより問題を機械が 得意な形式に「翻訳」 • Python • Datalog • Planning Domain Definition Language (PDDL) など • 翻訳結果をSolverで 解いて回答を得る コード生成で解ける タスクであれば 試す価値あり 例の与え方

Slide 36

Slide 36 text

Fu+, Complexity-Based Prompting for Multi-Step Reasoning, ICLR2023. 思考のステップ数が多いと性能向上 (1/2) • CoTにおけるFew-shotサンプルは回答に至るステップ数が多いもの を用いると性能が上がる • 自己一貫性を用いる場合もステップ数でソートし,上位N件で多数決 をとると性能向上 生成結果の 使い方

Slide 37

Slide 37 text

Fu+, Complexity-Based Prompting for Multi-Step Reasoning, ICLR2023. 思考のステップ数が多いと性能向上 (2/2) • CoT注釈がない場合も, 問題文の長いものを Few-shotにいれるだけで 性能は向上 難しい問題の例を プロンプトに 含める ことが重要 生成結果の 使い方

Slide 38

Slide 38 text

Yao+, Tree of Thoughts: Deliberate Problem Solving with Large Language Models, 2023, Google DeepMind. Tree-of-Thought: 探索と評価に基づくCoT • 探索や先読みが必要なタスクのためのCoT戦略 • 複数のプランをLLMが生成 • 各プランを理由とともにLLMが評価 (自己一貫性も活用) • 高い評価のプランをもとに次のプランを複数生成, を繰り返す 生成結果の 使い方

Slide 39

Slide 39 text

Yao+, Tree of Thoughts: Deliberate Problem Solving with Large Language Models, 2023, Google DeepMind. Tree-of-Thought: 探索と評価に基づくCoT • タスクによっては性能が大きく向上 • LLMは先読みが苦手な傾向 先読みや探索が重要なタスクの場合に有効 生成結果の 使い方

Slide 40

Slide 40 text

Yao, ReAct: Synergizing Reasoning and Acting in Language Models, ICLR2023 ReAct (Reason + Action) Prompting (1/2) • 次に必要な行動(Action)とその理由を生成 • 行動の実行から得られた結果から次の行動と理由を生成,を繰り返す 例の与え方

Slide 41

Slide 41 text

Yao, ReAct: Synergizing Reasoning and Acting in Language Models, ICLR2023 ReAct (Reason + Action) Prompting (2/2) • ReAct単体ではなく,CoT-SC(自己一貫性)と併用すると良い • 外部知識(検索)の活用により幻覚(Hallucination)が大きく低下 LLMによる幻覚の問題が大きい場合は試す価値あり Tree-of-Thoughtとの併用も有効? 例の与え方

Slide 42

Slide 42 text

Zhou+, Least-to-Most Prompting Enables Complex Reasoning in Large Language Models, ICLR2023 Least-to-Most:サブ問題への分割 • 主問題の回答に必要なサブ問題を生成 • サブ問題への回答を生成し,次に必要なサブ問題を生成 を繰り返す • 多段階推論が必要な問題にもCoTに比べて強い 例の与え方

Slide 43

Slide 43 text

Madaan+, Self-Refine: Iterative Refinement with Self-Feedback, 2023. Self-Refine: LLM自身に出力を修正させる (1/2) • LLMの出力をLLM自身が評価・コメント (Feedback) • Feedbackをもとに出力を修正 (Refine) を繰り返す 生成結果の 使い方

Slide 44

Slide 44 text

Madaan+, Self-Refine: Iterative Refinement with Self-Feedback, 2023. Self-Refine: LLM自身に出力を修正させる (2/2) フィードバックのための Few-shot Exampleを 頑張って作る必要がある (対話応答生成の例→) 多くのタスクで有効だが, プロンプト作成にコツが必要 生成結果の 使い方

Slide 45

Slide 45 text

Yang+, Large Language Models as Optimizers, 2023, Google DeepMind LLMによるプロンプトの最適化 (1/2) • 「Let’s think step by step」のような回答の前に与える インストラクションをLLMにより最適化 • インストラクションとそのスコアをFew-shotで与え,に入る インストラクションを生成 メタプロンプトの例 プロンプト 最適化

Slide 46

Slide 46 text

Yang+, Large Language Models as Optimizers, 2023, Google DeepMind LLMによるプロンプトの最適化 (2/2) 「深呼吸をしてステップバイステップで取り組みましょう」という 人へのアドバイスっぽいインストラクションが得られた どういうプロンプトがいいか不明な場合はそれもLLMにやらせることが可能 プロンプト 最適化

Slide 47

Slide 47 text

Fernando, Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, 2023, Google Deepmind 遺伝的アルゴリズムによるプロンプト最適化 • プロンプトをLLMにより進化させ,最適なプロンプトを獲得 • プロンプトを変異させるためのプロンプトも進化させる 性能は向上するが,コストが大きすぎる プロンプト 最適化

Slide 48

Slide 48 text

ここまでのまとめ • LLMはIn-context Learningにより適切なプロンプトを を与えることで様々なタスクが解ける • LLMを使う技術 • どのように例を与えるか? • Chain-of-Thought, Program-of-Thought, ReAct, Least-to-Most • どのように指示するか? • Zero-shot CoT, Plan-and-Solve • 生成結果をどう使うか • 自己一貫性, Tree-of-Thought, Self-Refine • どうやって良いプロンプトを作るか • プロンプト最適化, 遺伝的アルゴリズム

Slide 49

Slide 49 text

Tips & 雑多な話題

Slide 50

Slide 50 text

Liu+, Lost in the Middle: How Language Models Use Long Contexts, 2023 LLMは長い入力をどの程度上手に利用できるか? • 質問と複数の文書が与えられ,回答を生成するタスクで実験 • 正解を含む文書の位置によって正解率が変わるかを調査 • 全てのモデルで最初と最後にある場合に正解率が向上 重要な情報はプロンプトの最初と最後に書くことが重要

Slide 51

Slide 51 text

Xu+, Re-Reading Improves Reasoning in Language Models, 2023 Re-reading • プロンプトに問題文を2回入れると性能が向上 • CoTと組み合わせるとより良い • 多くの回数入れれば入れるほどいいわけではない

Slide 52

Slide 52 text

Wang+, Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration, 2023. Microsoft Research Asia 複数のペルソナによる自己コラボレーション(1/2) • 単一のLLMに複数の ペルソナを割り当て, 議論させる • 割り当てるべき ペルソナもLLMに 生成させる • ペルソナ無し,及び 事前に定義した ペルソナを用いる よりも高い性能 • ハルシネーション (幻覚)も低減

Slide 53

Slide 53 text

Wang+, Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration, 2023. Microsoft Research Asia 複数のペルソナによる自己コラボレーション(2/2) • ドメイン知識が必要なタスクではペルソナを割り当てることが有効 • 複数のドメイン知識が必要な場合,異なる専門知識を持つ複数の ペルソナを割り当てることが有効

Slide 54

Slide 54 text

Deshpande+, Toxicity in ChatGPT: Analyzing Persona-assigned Language Models, 2023. LLMにペルソナを与えることの副作用 • 性的指向や人種,特定の人名を LLMのペルソナとして設定 • 不適切な発言の頻度が大きく 増加する場合があることを確認

Slide 55

Slide 55 text

Chen+, ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs, 2023 複数LLMによる円卓会議 • 最初に各LLMに回答と説明と確信度を生成 • 他のLLMの回答を参考に,各LLMは自身の回答を修正 • すべてのLLMの回答が一致するまで回答生成と修正を繰り返す 単一のLLMよりも高い性能を達成可能 (ただしコストは増加)

Slide 56

Slide 56 text

Liu+, LLM-Rec: Personalized Recommendation via Prompting Large Language Models, 2023, Meta AI LLMを用いたアイテム説明文の拡張に基づく推薦 • 映画の説明文と関連する映画の説明文をLLMに与え,どういう人に おすすめであるかという拡張推薦文を生成 • ユーザ埋め込み,説明文,拡張推薦文を用いて推薦スコアを計算

Slide 57

Slide 57 text

Asahara+ SumRec: A Framework for Recommendation using Open-Domain Dialogue, 2023 (to Appear) 我々も似たような取り組みを実施(宣伝) • 雑談対話から観光地を推薦するタスクを対象 • LLMを用いて情報抽出・拡張 • 対話から話者の情報を含んだ話者要約を生成 • 観光地説明文からどのような人におすすめ であるかを説明する観光地推薦文を生成 • これらの情報から話者の観光地へのスコアを予測 ChatGPT ChatGPT 対話履歴 観光地 説明文 観光地 推薦文 話者要約 スコア 予測器 スコア LLMによる情報 拡張・抽出は下流 タスクに有効

Slide 58

Slide 58 text

OpenAI, GPT-4 Technical Report, 2023 (再掲) GPT-4 日本語

Slide 59

Slide 59 text

Deng+, Multilingual Jailbreak Challenges in Large Language Models, 2023 マイナーな言語ほど不適切な生成が増加 • LLMの学習データに占める割合が少ない言語の性能は低い • マイナーな言語の文を生成する場合,不適切な生成を行う割合も 増加 LLMで構築したサービスを多言語展開する場合は注意が必要

Slide 60

Slide 60 text

Liu+, Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study, 2023. 量子化と性能の分析 • LLMをローカルマシンで動かす際,メモリ消費量を抑えるため パラメータをより少ないビットで保持する量子化を行う場合がある • 量子化する際のビット数と性能の関係を調査 4-bit量子化までは性能は大きく変わらないため,使用してOK

Slide 61

Slide 61 text

Kirchenbauer+, A Watermark for Large Language Models, 2023 LLMへの電子透かし • すべてのトークンをブラックリスト or ホワイトリストに振り分ける • 生成時にブラックリストのトークン を出しにくいように調整 • 生成文に含まれるブラックリスト トークンの統計分析により検出 すでにクローズドなLLMには 電子透かしが含まれている ・・・かもしれない

Slide 62

Slide 62 text

実践編 プロンプト設計とその方法

Slide 63

Slide 63 text

どのLLMを使うべきか? •日本語を中心に学習されたLLMも複数構築されている • LLM-jp-13B (LLM-jp, 国立情報学研究所) • PLaMo-13B (Preferred Networks) • Japanese StableLM Alpha (Stability AI) などなど •OpenAIのLLMが現状多くの人にとってベターな選択 • GPT-4は日本語タスクでも上記の日本語LLMよりも高い性能 • 金銭的コストが小さい • 初期投資が不要 • GPT-3.5-turboは高速かつ安い

Slide 64

Slide 64 text

Nejumi LLMリーダーボードより (10/22時点) https://wandb.ai/wandb/LLM_evaluation_Japan/reports/Nejumi-LLM---Vmlldzo0NTUzMDE2 日本語ベンチ マークの性能

Slide 65

Slide 65 text

どうやって使うか? OpenAI API • HTTPでリクエストすれば良いのでプログラミング言語はなんでも • Pythonは公式のライブラリが存在 LangChain (Python / TypeScript) • LLM活用のためのライブラリ • OpenAIのものも含め,多くのLLMが使用可能 • 検索エンジンとの連携やPDFやWord形式のファイルの利用が容易

Slide 66

Slide 66 text

プロンプトを試行錯誤して作成する ChatGPT(無料版)よりもOpenAI Playground https://platform.openai.com/playground メリット:生成が早い,GPT-4が使える,APIのオプションが設定可能 デメリット:お金がかかる(従量課金)

Slide 67

Slide 67 text

実例紹介:対話システムライブコンペティション6 • シチュエーションに沿ったマルチモーダル対話システムを 構築し,その性能を競うコンペティション • 私(稲葉)は運営委員として参加 • 急遽(予選の前日)ベースラインシステムを作成することになった • バーチャルエージェントを使用するため,表情や動作も重要な要素 • 時間がないので,応答生成の部分だけをLLMのプロンプトで作成した

Slide 68

Slide 68 text

シチュエーションの概要 • ユウキ(ユーザ)とシズカ(システム)のゼミの教員である小林先生 が,新しく二人の所属する映画サークルの顧問となる • 来週の土曜日に誕生日を迎える小林先生の誕生日パーティーを兼ねて, サークルのメンバーを集めて歓迎会と称して飲み会を開く • 小林先生への誕生日プレゼントも用意したい • ユウキはシズカと一緒に企画を立てることにしたが,そろそろ準備を しなければ間に合わない • ユウキは授業終了後にシズカを大学のカフェに呼び出した • シズカは「盛大な歓迎会」を企画したいと考えている 上記シチュエーションに沿ったシズカの対話システムを作る

Slide 69

Slide 69 text

考えたこと •明確にペルソナを定義することが重要 • ペルソナを用いた一連の研究からの知見 •対話のプランを立てたほうがよい • Plan-and-Solve より •多様で高品質な対話例が必要 • Few-shotとして含める例の重要性からの知見

Slide 70

Slide 70 text

実際に作成したプロンプト (1/4) 何を生成するか という大目標を書く 指定された シチュエーション 豪華な歓迎会に固執する 場合があったため追加 映画好きキャラ付け ==タスク説明== あなたはシズカとしてユウキと会話してください. ==シズカ(あなた)のペルソナ=== ・名前はシズカ ・女性 ・20歳の大学2年生 ・映画サークルに所属 ・参加費が1人8000円くらいの豪華な歓迎会をしたい ・小林先生にはなにか誕生日プレゼントも渡したい ・ユウキとは同じ学年の映画サークル仲間 ・敬語は使わない ・素直な性格 ・最近「風と共に去りぬ」を鑑賞し,勇気をもらったと感じた ==会話している場所== 大学のカフェ ポイント:明確なペルソナ定義 ポイント:タスクの説明文を入れる & 重要なことを最初に書く

Slide 71

Slide 71 text

実際に作成したプロンプト (2/4) 指定された シチュエーション の続き ==状況== ・映画サークルの顧問の教員が交替し,今月から新しく顧問と なった小林先生の歓迎会の企画する ・ユウキとシズカのゼミの教員である小林先生が映画サークル の顧問となる ・前の顧問の先生が退職したので,ユウキとシズカとで,小林 先生に新たな顧問となってほしいと相談したところ,快く 引き受けてもらえた. ・来週の土曜日に誕生日を迎える小林先生の誕生日パーティー を兼ねて,サークルのメンバーを集めて歓迎会を行いたい ==対話の流れ== ・あなた(シズカ)は盛大な歓迎会をしたいと考えているが, 対話を進める中でユウキの言うことを受け入れる ・歓迎会の概要が決まったあとは小林先生への誕生日 プレゼントについて相談する ・小林先生へのプレゼントが決まったら,最近見た映画に ついて話す ポイント:大まかな方向性を書いておく 対話のプランを書く

Slide 72

Slide 72 text

実際に作成したプロンプト (3/4) ==対話例1== [ユウキ]そろそろ準備しないとね [シズカ]せっかくだから歓迎会は盛大にやりたいよね [ユウキ]そんなに盛大にやらなくてもいいと思うな [シズカ]小林先生は誕生日だし,お祝いしようよ [ユウキ]豪華にする必要は無いんじゃないかな? [シズカ]でも顧問を引き受けてくれたんだよ [ユウキ]シズカはどこで歓迎会をやるのがいいと 思う? [シズカ]おしゃれなイタリアンを貸し切るのはどう? たぶん一人8000円くらいで足りると思う [ユウキ]8000円は高すぎない?4000円くらいにした ほうがいいと思うよ. 高すぎると参加できない人も多くなるかもしれないし [シズカ]うーん,じゃあ予算は6000円くらいでどう? [ユウキ]4000円じゃだめかな? [シズカ]じゃあ5000円で. [ユウキ]じゃあそうしよう. [シズカ]お店はどうする? [ユウキ]駅前にいい感じの居酒屋が あったよね.あそこはどう? [シズカ]なんて名前のお店? [ユウキ]名前は忘れちゃったんだけど,内装が すごくおしゃれで行ってみたいと思ってたんだ [シズカ]いいね.そこにしようよ. 予約はユウキにお願いしていい? [ユウキ]わかった.やっておくよ [シズカ]あと,小林先生への誕生日 プレゼントはどうしよう? [ユウキ]何がいいかな?花束とか? [シズカ]お酒はどう?小林先生はワインが好 きって言っていたし,ワインとか [ユウキ]いいと思う [シズカ]じゃあ私が買っておくね. [ユウキ]あと他に決めることってあったっけ? [シズカ]特に無いんじゃないかな. そういえば最近風と共に去りぬを見たよ.

Slide 73

Slide 73 text

実際に作成したプロンプト (4/4) [ユウキ]へーどうだった? [シズカ]なんていうか,勇気をもらえる映画だったよ [ユウキ]そうなんだ.どんな話なの? [シズカ]南北戦争の頃のアメリカの話なんだけど, 主人公のスカーレットがすごく魅力的なんだよね [ユウキ]へー,そうなんだ [シズカ]4時間近くあってすごく長いんだけど, おすすめだよ [ユウキ]今度見てみるよ ==対話例2== [ユウキ]そろそろ準備しないとね [シズカ]せっかくだから歓迎会は盛大にやりたいよね [ユウキ]僕は学内でやるのがいいと思うな [シズカ] ポイント:プランに沿った 質の高い対話例を含める できれば複数の対話例を作成し, 多様性を高めるとさらに良い (時間がなかったので1対話のみ) ここに現在進行中の対話 履歴を書き,LLMが続き (シズカの発話)を生成

Slide 74

Slide 74 text

被験者60名との対話による予選 (10/9~13) 事後アンケートによる評価項目は以下の三点 1. 文脈に沿った発話内容かどうか 2. 文脈に沿ったジェスチャー・表情を表出できているか 3. 文脈に沿った間や音声の強弱を用いて発話できているか ⇒作成したベースラインは2.と3.を一切考慮していない 予選の結果: • 9チーム中X位☺ • 外部参加(大学,個人,企業) 8チーム + 私の作成したベースライン

Slide 75

Slide 75 text

時間があればこうしたであろう改善点 発話の前に発話の意図を出力させる • 発話単位のプランニング (CoT + Plan-and-Solve) • 例: 動作と表情も出力させる • 例: [ユウキ]シズカはどこで歓迎会をやるのがいいと思う? [シズカ] (豪華な歓迎会を提案する)おしゃれなイタリアンを貸し切るのはどう? たぶん一人8000円くらいで足りると思う [ユウキ]8000円は高すぎない?4000円くらいにした ほうがいいと思うよ. 高すぎると参加できない人も多くなるかもしれないし [シズカ] (指摘されたことについて考える)うーん, (高すぎるという指摘に基づき,意見を修正する)じゃあ予算は6000円くらいでどう? [シズカ]じゃあ,小林先生への誕生日プレゼントはどうしよう?(動作:首を傾げる) [ユウキ]何がいいかな?花束とか? [シズカ]お酒はどう?小林先生はワインが好きって言っていたし,ワインとか (表情:笑顔,動作:両手を前に出す)

Slide 76

Slide 76 text

意外だった点 • ベースラインシステムはGPT-3.5-turboとGPT-4の 2バージョンで実行 • 結果として,GPT-3.5-turboのほうが高評価 • GPT-4は生成スピードがかなり遅い • GPT-4のほうがより適切な応答を生成可能だが,音声認識のエラー は一定の割合で生じるため,応答品質の差を感じづらかった 宣伝:対話システムライブコンペティションの決勝は 12月12日に対話システムシンポジウム@国語研(立川)で開催 どのLLMを用いるのが適切かは 使われる状況によって異なる

Slide 77

Slide 77 text

本チュートリアルのまとめ ✔LLMはどのようなことができるか? • 単純作業からMinecraftのプレイ,ロボットの制御など範囲は 広がり続けている ✔LLMの性能を最大限引き出すための技術・研究の解説 • In-Context Learningによる様々なタスクへの適応 • Chain-of-Thought, ReAct, Self-Refine などなど ✔プロンプト設計の実例紹介 • シチュエーションに沿ったマルチモーダル対話システム