Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」

 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」

近年,国内外の企業および研究機関において大規模言語モデルの開発競争が激化している.それに伴い,大規模言語モデルの性能を最大限に引き出すための研究も活発に行われており,大きな発展を見せている.本チュートリアルでは,自身の研究や業務で大規模言語モデルを使いたいと考えている初学者を主な対象とし,Chain of ThoughtやReActを始めとする大規模言語モデルを使うために役立つ技術や知見を最新の研究成果に基づいて紹介する.

Michimasa Inaba

October 29, 2023
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 電気通信大学 人工知能先端研究センター 准教授 研究テーマ: • 知的対話システム,対話処理 • 人狼知能 (人狼ゲーム

    + 人工知能) チュートリアルの経緯: • ハヤカワ新書「ChatGPTの頭の中」の監訳を担当 → • 数式処理ソフトMathematicaの開発者として知られる スティーヴン・ウルフラムによるChatGPTの解説書
  2. 大規模言語モデル(LLM: Large Language Model) 大規模言語モデルとは • 大規模な(学習するパラメータが大量の) ニューラルネットワークに基づく言語モデルを • 大規模なテキストデータを用いて

    • 大規模な計算環境で学習したもの 例:MetaのLLaMA2 • 700億パラメータのモデル • 2兆トークン(≒単語)のテキストデータ • 2000台のNVIDIA A100 80GB GPU で学習
  3. Kasai+, Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations,

    2023 日本の医師国家試験に合格 • GPT-4は2018~2023のすべての年の試験で合格点 • ただし,禁忌肢(絶対に選んではいけない選択肢)を何度か選択 • 例:医療行為として安楽死を提案 • 人間による間違いとGPT-4による間違いは相関(赤色が間違えた問題)
  4. Google, PaLM2 Technical Report, 2023 ソースコード生成: PaLM2 (Google Bard) 文字列中の「s」の数を数える

    Rustのコード + トルコ語の コメントを生成 ソースコードを含むテキスト データでも学習しているため こういったことが可能に
  5. 今回のチュートリアル 対象とすること ✔ LLMはどのようなことができるか ✔ LLMの性能を最大限引き出すための技術・研究の解説 ✔ プロンプト設計の実例紹介 対象としないこと ❌

    LLMの動作原理・理論の解説 ❌ LLMを構築するための技術解説 LLMの原理や理論を知りたい方は以下がおすすめ • 「大規模言語モデル」東北大 岡崎先生 https://speakerdeck.com/chokkan/llm • 「大規模言語モデルの理論と可能性」東京大 宮尾先生 https://www.youtube.com/watch?v=8-58PkqCek4 • 「基盤モデルの技術と展望」東京大 岩澤先生 https://speakerdeck.com/yusuke0519/jsai2023-tutorial-ji- pan-moderunoji-shu-tozhan-wang
  6. Gilardi, ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks, 2023 アノテーションをChatGPTにやらせてみた •

    テキストに対するアノテーションの正確さをChatGPTと人で比較 • いくつかのタスクではChatGPTが訓練された人を超える正解率 • ほとんどの場合,AMTで行うよりも正確 (かつコストも安い) アノテーションの方法としてLLMは有力な選択肢
  7. He+, Large Language Models as Zero-Shot Conversational Recommenders, 2023 LLMに基づく推薦対話システム

    • システムが対話を行いながら推薦を行う推薦対話システムをLLMを 用いてZero-shot設定(学習データなし)で構築 • 既存の学習に基づくシステムよりも高い性能を確認 Zero-shot設定でもタスクを効率よく解ける場合がある
  8. Wang+ Voyager: An Open-Ended Embodied Agent with Large Language Models,

    2023. GPT-4にマインクラフトをプレイさせる • 現在の状況をテキスト化し,達成すべきタスクをGPT-4で生成 • タスクを解くためのソースコードも生成 • コードの実行結果および実行エラーを取得 GPT-4がマイクラの知識を 持っているためプレイ可能
  9. Arenas+, Language to Rewards for Robotic Skill Synthesis, 2023. Google

    DeepMind LLMを用いてロボットを制御 • ハードウェアに依存したコードを直接生成するのは困難 → LLMにより報酬を与えるコードを生成 • 四足歩行ロボットとロボットアームで設計されたタスクの90%を達成
  10. Zhu+, Large Language Models can Learn Rules, 2023. Google DeepMind

    ルールの学習 • LLMの事前学習に含まれない推論ルール もin-context learningで学習可能 • 性能が高いモデルほど向上幅が大きい
  11. Liang+, Can large language models provide useful feedback on research

    papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (1/3) • PDFから構造化されたテキストを抽出 • 所定のフォーマットに従う査読結果を出力するように指示
  12. Liang+, Can large language models provide useful feedback on research

    papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (2/3) • 不採択論文に対する人間とGPT-4のコメントの一致率が高い (d) • 人と人で多く重複したコメントとGPT-4のコメントの重複率が高い(e,f)
  13. Liang+, Can large language models provide useful feedback on research

    papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (3/3) • GPT-4が生成した査読の質を アンケート評価 (n=308) • 人間のフィードバックに劣る ものが多いが有用なコメントも 存在 • 査読コメント作成補助や論文の 推敲には有望という意見が多数 GitHubリポジトリには論文を アップロードして コメントを生成するWebサーバの コードもあり
  14. プロンプトとは? • LLMは文字列を入力として受け取り,入力された文字列に 続く文字列を予測・生成するモデル • プロンプト = LLMに入力する文字列 • LLMではプロンプトをうまく設計することで様々なタスクを

    解くことが可能 今日は本当に良い 天気ですね。 LLM LLMに対して適切に質問や指示を与え,最適な出力を得る ための技術をプロンプトエンジニアリングと呼ぶ
  15. Brown+, Language Models are Few-Shot Learners, 2020, OpenAI In-Context Learning

    LLMは少数の例をあたえると,追加学習無しでタスクを実行可能 Few-shot 例 解かせたいタスク LLMによる生成結果 勾配降下法による学習とプロンプトによる学習は等価で あるという仮説も [*1] [*1] Oswald+, Transformers learn in-context by gradient descent, 2023
  16. Brown+, Language Models are Few-Shot Learners, 2020, OpenAI いくつ例が必要か (GPT-3)

    • プロンプトに含める例は多ければ多いほど性能が高くなる傾向 • 自然言語によるタスク説明は例が少ない場合重要 例の与え方
  17. Wei+, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 2022,

    Google Research Chain-of-Thought (CoT) Prompting • 問題をLLMに回答させる際,回答だけではなく回答に至る思考の過程 も生成させることで性能が向上 プロンプトを書くのがやや大変になるが,やらない理由は無い 例の与え方
  18. Kojima+, Large Language Models are Zero-Shot Reasoners, NeurIPS2022 Zero-shot CoT

    Prompting • CoTではFew-shotで例を与える必要があったが,「Let’s think step by step.」をつければ例なし(Zero-shot)でCoT的な回答を生成可能 • Few-shotの例を加えるとさらに性能が向上 CoTプロンプト作成のために とりあえずこれでLLMに 作らせるのも有効 指示の方法
  19. Wang+, Self-Consistency Improves Chain of Thought Reasoning in Language Models,

    ICLR2023 CoTにおける自己一貫性の活用 (1/2) • CoTプロンプトを使用し,サンプリングにより複数の生成結果を獲得 • ChatGPTのAPIにおけるtemperatureを設定することで実現可能 • 多数決により最終的な回答を決定 生成結果の 使い方
  20. Wang+, Self-Consistency Improves Chain of Thought Reasoning in Language Models,

    ICLR2023 CoTにおける自己一貫性の活用 (2/2) • サンプリング数は5個でも性能向上が見込める • サンプル間の一貫性が高かった問題ほど正解率が高い シンプルだが有効.コストは数倍~数十倍 生成結果の 使い方
  21. Wang+, Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language

    Models, ACL2023. Plan-and-Solve: プランを立てさせる • 最初にプランを立てさせ,その後プランを実行するよう指示 プランに基づいて行動させるというプロンプトは様々な状況で有効 指示の方法
  22. Zheng+, Take a Step Back: Evoking Reasoning via Abstraction in

    Large Language Models, 2023, Google DeepMind Step-Back Prompting • 問題を解くための 前提や原理を問う質問 (Stepback Question)を 行う • その回答をもとにCoT で回答を生成 プランに加えて前提 知識が必要なタスク に有効 指示の方法
  23. Zhang+, Auto-CoT: Automatic Chain of Thought Prompting in Large Language

    Models, ICLR2023. Auto-CoT: Few-shot例の自動生成 Few-shot例の多様性が重要という結果.多様性を考慮した例を 自動で決定できる方法があるならそうした方が良い • データセットをクラスタリングし,そこからサンプリング • Zero-shot CoTを使ってFew-shot例を作成 • 作成したFew-shot例を含めたプロンプトでタスクを解く 例の与え方
  24. Lanchantin+, Learning to Reason and Memorize with Self-Notes, 2023, Meta

    AI LLMにメモを取らせる • LLMは長期記憶と多段階推論が苦手 • 問題文中に「メモ」を生成させ,メモを用いた推論を行わせるように プロンプトを設計 例の与え方
  25. Chen+, Program of Thoughts Prompting: Disentangling Computation from Reasoning for

    Numerical Reasoning Tasks, 2022 Program of Thought • 思考過程のかわりにソースコードを生成 • ソースコードの実行結果を出力として得る 例の与え方
  26. Lyu+, Faithful Chain-of-Thought Reasoning, 2022 Faithful Chain-of-Thought: PoTの一般化 • LLMにより問題を機械が

    得意な形式に「翻訳」 • Python • Datalog • Planning Domain Definition Language (PDDL) など • 翻訳結果をSolverで 解いて回答を得る コード生成で解ける タスクであれば 試す価値あり 例の与え方
  27. Fu+, Complexity-Based Prompting for Multi-Step Reasoning, ICLR2023. 思考のステップ数が多いと性能向上 (1/2) •

    CoTにおけるFew-shotサンプルは回答に至るステップ数が多いもの を用いると性能が上がる • 自己一貫性を用いる場合もステップ数でソートし,上位N件で多数決 をとると性能向上 生成結果の 使い方
  28. Fu+, Complexity-Based Prompting for Multi-Step Reasoning, ICLR2023. 思考のステップ数が多いと性能向上 (2/2) •

    CoT注釈がない場合も, 問題文の長いものを Few-shotにいれるだけで 性能は向上 難しい問題の例を プロンプトに 含める ことが重要 生成結果の 使い方
  29. Yao+, Tree of Thoughts: Deliberate Problem Solving with Large Language

    Models, 2023, Google DeepMind. Tree-of-Thought: 探索と評価に基づくCoT • 探索や先読みが必要なタスクのためのCoT戦略 • 複数のプランをLLMが生成 • 各プランを理由とともにLLMが評価 (自己一貫性も活用) • 高い評価のプランをもとに次のプランを複数生成, を繰り返す 生成結果の 使い方
  30. Yao+, Tree of Thoughts: Deliberate Problem Solving with Large Language

    Models, 2023, Google DeepMind. Tree-of-Thought: 探索と評価に基づくCoT • タスクによっては性能が大きく向上 • LLMは先読みが苦手な傾向 先読みや探索が重要なタスクの場合に有効 生成結果の 使い方
  31. Yao, ReAct: Synergizing Reasoning and Acting in Language Models, ICLR2023

    ReAct (Reason + Action) Prompting (1/2) • 次に必要な行動(Action)とその理由を生成 • 行動の実行から得られた結果から次の行動と理由を生成,を繰り返す 例の与え方
  32. Yao, ReAct: Synergizing Reasoning and Acting in Language Models, ICLR2023

    ReAct (Reason + Action) Prompting (2/2) • ReAct単体ではなく,CoT-SC(自己一貫性)と併用すると良い • 外部知識(検索)の活用により幻覚(Hallucination)が大きく低下 LLMによる幻覚の問題が大きい場合は試す価値あり Tree-of-Thoughtとの併用も有効? 例の与え方
  33. Zhou+, Least-to-Most Prompting Enables Complex Reasoning in Large Language Models,

    ICLR2023 Least-to-Most:サブ問題への分割 • 主問題の回答に必要なサブ問題を生成 • サブ問題への回答を生成し,次に必要なサブ問題を生成 を繰り返す • 多段階推論が必要な問題にもCoTに比べて強い 例の与え方
  34. Madaan+, Self-Refine: Iterative Refinement with Self-Feedback, 2023. Self-Refine: LLM自身に出力を修正させる (1/2)

    • LLMの出力をLLM自身が評価・コメント (Feedback) • Feedbackをもとに出力を修正 (Refine) を繰り返す 生成結果の 使い方
  35. Madaan+, Self-Refine: Iterative Refinement with Self-Feedback, 2023. Self-Refine: LLM自身に出力を修正させる (2/2)

    フィードバックのための Few-shot Exampleを 頑張って作る必要がある (対話応答生成の例→) 多くのタスクで有効だが, プロンプト作成にコツが必要 生成結果の 使い方
  36. Yang+, Large Language Models as Optimizers, 2023, Google DeepMind LLMによるプロンプトの最適化

    (1/2) • 「Let’s think step by step」のような回答の前に与える インストラクションをLLMにより最適化 • インストラクションとそのスコアをFew-shotで与え,<INS>に入る インストラクションを生成 メタプロンプトの例 プロンプト 最適化
  37. Yang+, Large Language Models as Optimizers, 2023, Google DeepMind LLMによるプロンプトの最適化

    (2/2) 「深呼吸をしてステップバイステップで取り組みましょう」という 人へのアドバイスっぽいインストラクションが得られた どういうプロンプトがいいか不明な場合はそれもLLMにやらせることが可能 プロンプト 最適化
  38. Fernando, Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, 2023, Google Deepmind

    遺伝的アルゴリズムによるプロンプト最適化 • プロンプトをLLMにより進化させ,最適なプロンプトを獲得 • プロンプトを変異させるためのプロンプトも進化させる 性能は向上するが,コストが大きすぎる プロンプト 最適化
  39. ここまでのまとめ • LLMはIn-context Learningにより適切なプロンプトを を与えることで様々なタスクが解ける • LLMを使う技術 • どのように例を与えるか? •

    Chain-of-Thought, Program-of-Thought, ReAct, Least-to-Most • どのように指示するか? • Zero-shot CoT, Plan-and-Solve • 生成結果をどう使うか • 自己一貫性, Tree-of-Thought, Self-Refine • どうやって良いプロンプトを作るか • プロンプト最適化, 遺伝的アルゴリズム
  40. Liu+, Lost in the Middle: How Language Models Use Long

    Contexts, 2023 LLMは長い入力をどの程度上手に利用できるか? • 質問と複数の文書が与えられ,回答を生成するタスクで実験 • 正解を含む文書の位置によって正解率が変わるかを調査 • 全てのモデルで最初と最後にある場合に正解率が向上 重要な情報はプロンプトの最初と最後に書くことが重要
  41. Xu+, Re-Reading Improves Reasoning in Language Models, 2023 Re-reading •

    プロンプトに問題文を2回入れると性能が向上 • CoTと組み合わせるとより良い • 多くの回数入れれば入れるほどいいわけではない
  42. Wang+, Unleashing Cognitive Synergy in Large Language Models: A Task-Solving

    Agent through Multi-Persona Self-Collaboration, 2023. Microsoft Research Asia 複数のペルソナによる自己コラボレーション(1/2) • 単一のLLMに複数の ペルソナを割り当て, 議論させる • 割り当てるべき ペルソナもLLMに 生成させる • ペルソナ無し,及び 事前に定義した ペルソナを用いる よりも高い性能 • ハルシネーション (幻覚)も低減
  43. Wang+, Unleashing Cognitive Synergy in Large Language Models: A Task-Solving

    Agent through Multi-Persona Self-Collaboration, 2023. Microsoft Research Asia 複数のペルソナによる自己コラボレーション(2/2) • ドメイン知識が必要なタスクではペルソナを割り当てることが有効 • 複数のドメイン知識が必要な場合,異なる専門知識を持つ複数の ペルソナを割り当てることが有効
  44. Deshpande+, Toxicity in ChatGPT: Analyzing Persona-assigned Language Models, 2023. LLMにペルソナを与えることの副作用

    • 性的指向や人種,特定の人名を LLMのペルソナとして設定 • 不適切な発言の頻度が大きく 増加する場合があることを確認
  45. Chen+, ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse

    LLMs, 2023 複数LLMによる円卓会議 • 最初に各LLMに回答と説明と確信度を生成 • 他のLLMの回答を参考に,各LLMは自身の回答を修正 • すべてのLLMの回答が一致するまで回答生成と修正を繰り返す 単一のLLMよりも高い性能を達成可能 (ただしコストは増加)
  46. Liu+, LLM-Rec: Personalized Recommendation via Prompting Large Language Models, 2023,

    Meta AI LLMを用いたアイテム説明文の拡張に基づく推薦 • 映画の説明文と関連する映画の説明文をLLMに与え,どういう人に おすすめであるかという拡張推薦文を生成 • ユーザ埋め込み,説明文,拡張推薦文を用いて推薦スコアを計算
  47. Asahara+ SumRec: A Framework for Recommendation using Open-Domain Dialogue, 2023

    (to Appear) 我々も似たような取り組みを実施(宣伝) • 雑談対話から観光地を推薦するタスクを対象 • LLMを用いて情報抽出・拡張 • 対話から話者の情報を含んだ話者要約を生成 • 観光地説明文からどのような人におすすめ であるかを説明する観光地推薦文を生成 • これらの情報から話者の観光地へのスコアを予測 ChatGPT ChatGPT 対話履歴 観光地 説明文 観光地 推薦文 話者要約 スコア 予測器 スコア LLMによる情報 拡張・抽出は下流 タスクに有効
  48. Deng+, Multilingual Jailbreak Challenges in Large Language Models, 2023 マイナーな言語ほど不適切な生成が増加

    • LLMの学習データに占める割合が少ない言語の性能は低い • マイナーな言語の文を生成する場合,不適切な生成を行う割合も 増加 LLMで構築したサービスを多言語展開する場合は注意が必要
  49. Liu+, Do Emergent Abilities Exist in Quantized Large Language Models:

    An Empirical Study, 2023. 量子化と性能の分析 • LLMをローカルマシンで動かす際,メモリ消費量を抑えるため パラメータをより少ないビットで保持する量子化を行う場合がある • 量子化する際のビット数と性能の関係を調査 4-bit量子化までは性能は大きく変わらないため,使用してOK
  50. Kirchenbauer+, A Watermark for Large Language Models, 2023 LLMへの電子透かし •

    すべてのトークンをブラックリスト or ホワイトリストに振り分ける • 生成時にブラックリストのトークン を出しにくいように調整 • 生成文に含まれるブラックリスト トークンの統計分析により検出 すでにクローズドなLLMには 電子透かしが含まれている ・・・かもしれない
  51. どのLLMを使うべきか? •日本語を中心に学習されたLLMも複数構築されている • LLM-jp-13B (LLM-jp, 国立情報学研究所) • PLaMo-13B (Preferred Networks)

    • Japanese StableLM Alpha (Stability AI) などなど •OpenAIのLLMが現状多くの人にとってベターな選択 • GPT-4は日本語タスクでも上記の日本語LLMよりも高い性能 • 金銭的コストが小さい • 初期投資が不要 • GPT-3.5-turboは高速かつ安い
  52. どうやって使うか? OpenAI API • HTTPでリクエストすれば良いのでプログラミング言語はなんでも • Pythonは公式のライブラリが存在 LangChain (Python /

    TypeScript) • LLM活用のためのライブラリ • OpenAIのものも含め,多くのLLMが使用可能 • 検索エンジンとの連携やPDFやWord形式のファイルの利用が容易
  53. シチュエーションの概要 • ユウキ(ユーザ)とシズカ(システム)のゼミの教員である小林先生 が,新しく二人の所属する映画サークルの顧問となる • 来週の土曜日に誕生日を迎える小林先生の誕生日パーティーを兼ねて, サークルのメンバーを集めて歓迎会と称して飲み会を開く • 小林先生への誕生日プレゼントも用意したい •

    ユウキはシズカと一緒に企画を立てることにしたが,そろそろ準備を しなければ間に合わない • ユウキは授業終了後にシズカを大学のカフェに呼び出した • シズカは「盛大な歓迎会」を企画したいと考えている 上記シチュエーションに沿ったシズカの対話システムを作る
  54. 実際に作成したプロンプト (1/4) 何を生成するか という大目標を書く 指定された シチュエーション 豪華な歓迎会に固執する 場合があったため追加 映画好きキャラ付け ==タスク説明==

    あなたはシズカとしてユウキと会話してください. ==シズカ(あなた)のペルソナ=== ・名前はシズカ ・女性 ・20歳の大学2年生 ・映画サークルに所属 ・参加費が1人8000円くらいの豪華な歓迎会をしたい ・小林先生にはなにか誕生日プレゼントも渡したい ・ユウキとは同じ学年の映画サークル仲間 ・敬語は使わない ・素直な性格 ・最近「風と共に去りぬ」を鑑賞し,勇気をもらったと感じた ==会話している場所== 大学のカフェ ポイント:明確なペルソナ定義 ポイント:タスクの説明文を入れる & 重要なことを最初に書く
  55. 実際に作成したプロンプト (2/4) 指定された シチュエーション の続き ==状況== ・映画サークルの顧問の教員が交替し,今月から新しく顧問と なった小林先生の歓迎会の企画する ・ユウキとシズカのゼミの教員である小林先生が映画サークル の顧問となる

    ・前の顧問の先生が退職したので,ユウキとシズカとで,小林 先生に新たな顧問となってほしいと相談したところ,快く 引き受けてもらえた. ・来週の土曜日に誕生日を迎える小林先生の誕生日パーティー を兼ねて,サークルのメンバーを集めて歓迎会を行いたい ==対話の流れ== ・あなた(シズカ)は盛大な歓迎会をしたいと考えているが, 対話を進める中でユウキの言うことを受け入れる ・歓迎会の概要が決まったあとは小林先生への誕生日 プレゼントについて相談する ・小林先生へのプレゼントが決まったら,最近見た映画に ついて話す ポイント:大まかな方向性を書いておく 対話のプランを書く
  56. 実際に作成したプロンプト (3/4) ==対話例1== [ユウキ]そろそろ準備しないとね [シズカ]せっかくだから歓迎会は盛大にやりたいよね [ユウキ]そんなに盛大にやらなくてもいいと思うな [シズカ]小林先生は誕生日だし,お祝いしようよ [ユウキ]豪華にする必要は無いんじゃないかな? [シズカ]でも顧問を引き受けてくれたんだよ [ユウキ]シズカはどこで歓迎会をやるのがいいと

    思う? [シズカ]おしゃれなイタリアンを貸し切るのはどう? たぶん一人8000円くらいで足りると思う [ユウキ]8000円は高すぎない?4000円くらいにした ほうがいいと思うよ. 高すぎると参加できない人も多くなるかもしれないし [シズカ]うーん,じゃあ予算は6000円くらいでどう? [ユウキ]4000円じゃだめかな? [シズカ]じゃあ5000円で. [ユウキ]じゃあそうしよう. [シズカ]お店はどうする? [ユウキ]駅前にいい感じの居酒屋が あったよね.あそこはどう? [シズカ]なんて名前のお店? [ユウキ]名前は忘れちゃったんだけど,内装が すごくおしゃれで行ってみたいと思ってたんだ [シズカ]いいね.そこにしようよ. 予約はユウキにお願いしていい? [ユウキ]わかった.やっておくよ [シズカ]あと,小林先生への誕生日 プレゼントはどうしよう? [ユウキ]何がいいかな?花束とか? [シズカ]お酒はどう?小林先生はワインが好 きって言っていたし,ワインとか [ユウキ]いいと思う [シズカ]じゃあ私が買っておくね. [ユウキ]あと他に決めることってあったっけ? [シズカ]特に無いんじゃないかな. そういえば最近風と共に去りぬを見たよ.
  57. 実際に作成したプロンプト (4/4) [ユウキ]へーどうだった? [シズカ]なんていうか,勇気をもらえる映画だったよ [ユウキ]そうなんだ.どんな話なの? [シズカ]南北戦争の頃のアメリカの話なんだけど, 主人公のスカーレットがすごく魅力的なんだよね [ユウキ]へー,そうなんだ [シズカ]4時間近くあってすごく長いんだけど, おすすめだよ

    [ユウキ]今度見てみるよ ==対話例2== [ユウキ]そろそろ準備しないとね [シズカ]せっかくだから歓迎会は盛大にやりたいよね [ユウキ]僕は学内でやるのがいいと思うな [シズカ] ポイント:プランに沿った 質の高い対話例を含める できれば複数の対話例を作成し, 多様性を高めるとさらに良い (時間がなかったので1対話のみ) ここに現在進行中の対話 履歴を書き,LLMが続き (シズカの発話)を生成
  58. 時間があればこうしたであろう改善点 発話の前に発話の意図を出力させる • 発話単位のプランニング (CoT + Plan-and-Solve) • 例: 動作と表情も出力させる

    • 例: [ユウキ]シズカはどこで歓迎会をやるのがいいと思う? [シズカ] (豪華な歓迎会を提案する)おしゃれなイタリアンを貸し切るのはどう? たぶん一人8000円くらいで足りると思う [ユウキ]8000円は高すぎない?4000円くらいにした ほうがいいと思うよ. 高すぎると参加できない人も多くなるかもしれないし [シズカ] (指摘されたことについて考える)うーん, (高すぎるという指摘に基づき,意見を修正する)じゃあ予算は6000円くらいでどう? [シズカ]じゃあ,小林先生への誕生日プレゼントはどうしよう?(動作:首を傾げる) [ユウキ]何がいいかな?花束とか? [シズカ]お酒はどう?小林先生はワインが好きって言っていたし,ワインとか (表情:笑顔,動作:両手を前に出す)
  59. 意外だった点 • ベースラインシステムはGPT-3.5-turboとGPT-4の 2バージョンで実行 • 結果として,GPT-3.5-turboのほうが高評価 • GPT-4は生成スピードがかなり遅い • GPT-4のほうがより適切な応答を生成可能だが,音声認識のエラー

    は一定の割合で生じるため,応答品質の差を感じづらかった 宣伝:対話システムライブコンペティションの決勝は 12月12日に対話システムシンポジウム@国語研(立川)で開催 どのLLMを用いるのが適切かは 使われる状況によって異なる