IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」

大規模言語モデル活用技術の最前線電気通信大学人工知能先端研究センター稲葉通将

自己紹介電気通信大学人工知能先端研究センター准教授研究テーマ： • 知的対話システム，対話処理 • 人狼知能 (人狼ゲーム
+ 人工知能) チュートリアルの経緯： • ハヤカワ新書「ChatGPTの頭の中」の監訳を担当 → • 数式処理ソフトMathematicaの開発者として知られるスティーヴン・ウルフラムによるChatGPTの解説書

大規模言語モデル(LLM: Large Language Model) 大規模言語モデルとは • 大規模な(学習するパラメータが大量の) ニューラルネットワークに基づく言語モデルを • 大規模なテキストデータを用いて
• 大規模な計算環境で学習したもの例：MetaのLLaMA2 • 700億パラメータのモデル • 2兆トークン(≒単語)のテキストデータ • 2000台のNVIDIA A100 80GB GPU で学習

Zhao+, Survey of Large Language Models, 2023 より熾烈な開発競争

日本語LLMまとめ https://github.com/llm-jp/awesome-japanese-llm 日本語を中心に学習されたLLMも数多く構築

ChatGPT

OpenAI, GPT-4 Technical Report, 2023 GPT-4 いくつかのテストでは上位10%に入る成績

OpenAI, GPT-4 Technical Report, 2023 GPT-4 日本語でも比較的高い性能

Kasai+, Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations,
2023 日本の医師国家試験に合格 • GPT-4は2018～2023のすべての年の試験で合格点 • ただし，禁忌肢(絶対に選んではいけない選択肢)を何度か選択 • 例：医療行為として安楽死を提案 • 人間による間違いとGPT-4による間違いは相関(赤色が間違えた問題)

Google, PaLM2 Technical Report, 2023 ソースコード生成: PaLM2 (Google Bard) 文字列中の「s」の数を数える
Rustのコード + トルコ語のコメントを生成ソースコードを含むテキストデータでも学習しているためこういったことが可能に

LLMを「使う技術」 • LLMの「構築」だけではなく，「使い方」に関する研究も激化 • 「使い方」に関する研究は企業・大学問わず活発本チュートリアルでは LLMを「使う技術」に焦点を当て，最新の技術を紹介するとともに，みなさんがLLMを賢く使うヒントを提供

今回のチュートリアル対象とすること ✔ LLMはどのようなことができるか ✔ LLMの性能を最大限引き出すための技術・研究の解説 ✔ プロンプト設計の実例紹介対象としないこと ❌
LLMの動作原理・理論の解説 ❌ LLMを構築するための技術解説 LLMの原理や理論を知りたい方は以下がおすすめ • 「大規模言語モデル」東北大岡崎先生 https://speakerdeck.com/chokkan/llm • 「大規模言語モデルの理論と可能性」東京大宮尾先生 https://www.youtube.com/watch?v=8-58PkqCek4 • 「基盤モデルの技術と展望」東京大岩澤先生 https://speakerdeck.com/yusuke0519/jsai2023-tutorial-ji- pan-moderunoji-shu-tozhan-wang

LLMはどのようなことができるか？

Gilardi, ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks, 2023 アノテーションをChatGPTにやらせてみた •
テキストに対するアノテーションの正確さをChatGPTと人で比較 • いくつかのタスクではChatGPTが訓練された人を超える正解率 • ほとんどの場合，AMTで行うよりも正確 (かつコストも安い) アノテーションの方法としてLLMは有力な選択肢

He+, Large Language Models as Zero-Shot Conversational Recommenders, 2023 LLMに基づく推薦対話システム
• システムが対話を行いながら推薦を行う推薦対話システムをLLMを用いてZero-shot設定(学習データなし)で構築 • 既存の学習に基づくシステムよりも高い性能を確認 Zero-shot設定でもタスクを効率よく解ける場合がある

Wang+ Voyager: An Open-Ended Embodied Agent with Large Language Models,
2023. GPT-4にマインクラフトをプレイさせる • 現在の状況をテキスト化し，達成すべきタスクをGPT-4で生成 • タスクを解くためのソースコードも生成 • コードの実行結果および実行エラーを取得 GPT-4がマイクラの知識を持っているためプレイ可能

Arenas+, Language to Rewards for Robotic Skill Synthesis, 2023. Google
DeepMind LLMを用いてロボットを制御 • ハードウェアに依存したコードを直接生成するのは困難 → LLMにより報酬を与えるコードを生成 • 四足歩行ロボットとロボットアームで設計されたタスクの90%を達成

Zhu+, Large Language Models can Learn Rules, 2023. Google DeepMind
ルールの学習 • LLMの事前学習に含まれない推論ルールもin-context learningで学習可能 • 性能が高いモデルほど向上幅が大きい

Liang+, Can large language models provide useful feedback on research
papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (1/3) • PDFから構造化されたテキストを抽出 • 所定のフォーマットに従う査読結果を出力するように指示

papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (2/3) • 不採択論文に対する人間とGPT-4のコメントの一致率が高い (d) • 人と人で多く重複したコメントとGPT-4のコメントの重複率が高い(e,f)

papers? A large-scale empirical analysis, 2023 LLMによる論文査読 (3/3) • GPT-4が生成した査読の質をアンケート評価 (n=308) • 人間のフィードバックに劣るものが多いが有用なコメントも存在 • 査読コメント作成補助や論文の推敲には有望という意見が多数 GitHubリポジトリには論文をアップロードしてコメントを生成するWebサーバのコードもあり

LLMを使う技術

プロンプトとは？ • LLMは文字列を入力として受け取り，入力された文字列に続く文字列を予測・生成するモデル • プロンプト = LLMに入力する文字列 • LLMではプロンプトをうまく設計することで様々なタスクを
解くことが可能今日は本当に良い天気ですね。 LLM LLMに対して適切に質問や指示を与え，最適な出力を得るための技術をプロンプトエンジニアリングと呼ぶ

Brown+, Language Models are Few-Shot Learners, 2020, OpenAI In-Context Learning
LLMは少数の例をあたえると，追加学習無しでタスクを実行可能 Few-shot 例解かせたいタスク LLMによる生成結果勾配降下法による学習とプロンプトによる学習は等価であるという仮説も [*1] [*1] Oswald+, Transformers learn in-context by gradient descent, 2023

Brown+, Language Models are Few-Shot Learners, 2020, OpenAI いくつ例が必要か (GPT-3)
• プロンプトに含める例は多ければ多いほど性能が高くなる傾向 • 自然言語によるタスク説明は例が少ない場合重要例の与え方

Wei+, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 2022,
Google Research Chain-of-Thought (CoT) Prompting • 問題をLLMに回答させる際，回答だけではなく回答に至る思考の過程も生成させることで性能が向上プロンプトを書くのがやや大変になるが，やらない理由は無い例の与え方

Kojima+, Large Language Models are Zero-Shot Reasoners, NeurIPS2022 Zero-shot CoT
Prompting • CoTではFew-shotで例を与える必要があったが，「Let’s think step by step.」をつければ例なし(Zero-shot)でCoT的な回答を生成可能 • Few-shotの例を加えるとさらに性能が向上 CoTプロンプト作成のためにとりあえずこれでLLMに作らせるのも有効指示の方法

Wang+, Self-Consistency Improves Chain of Thought Reasoning in Language Models,
ICLR2023 CoTにおける自己一貫性の活用 (1/2) • CoTプロンプトを使用し，サンプリングにより複数の生成結果を獲得 • ChatGPTのAPIにおけるtemperatureを設定することで実現可能 • 多数決により最終的な回答を決定生成結果の使い方

Wang+, Self-Consistency Improves Chain of Thought Reasoning in Language Models,
ICLR2023 CoTにおける自己一貫性の活用 (2/2) • サンプリング数は5個でも性能向上が見込める • サンプル間の一貫性が高かった問題ほど正解率が高いシンプルだが有効．コストは数倍～数十倍生成結果の使い方

Wang+, Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language
Models, ACL2023. Plan-and-Solve: プランを立てさせる • 最初にプランを立てさせ，その後プランを実行するよう指示プランに基づいて行動させるというプロンプトは様々な状況で有効指示の方法

Zheng+, Take a Step Back: Evoking Reasoning via Abstraction in
Large Language Models, 2023, Google DeepMind Step-Back Prompting • 問題を解くための前提や原理を問う質問 (Stepback Question)を行う • その回答をもとにCoT で回答を生成プランに加えて前提知識が必要なタスクに有効指示の方法

Zhang+, Auto-CoT: Automatic Chain of Thought Prompting in Large Language
Models, ICLR2023. Auto-CoT: Few-shot例の自動生成 Few-shot例の多様性が重要という結果．多様性を考慮した例を自動で決定できる方法があるならそうした方が良い • データセットをクラスタリングし，そこからサンプリング • Zero-shot CoTを使ってFew-shot例を作成 • 作成したFew-shot例を含めたプロンプトでタスクを解く例の与え方

Lanchantin+, Learning to Reason and Memorize with Self-Notes, 2023, Meta
AI LLMにメモを取らせる • LLMは長期記憶と多段階推論が苦手 • 問題文中に「メモ」を生成させ，メモを用いた推論を行わせるようにプロンプトを設計例の与え方

Chen+, Program of Thoughts Prompting: Disentangling Computation from Reasoning for
Numerical Reasoning Tasks, 2022 Program of Thought • 思考過程のかわりにソースコードを生成 • ソースコードの実行結果を出力として得る例の与え方

Lyu+, Faithful Chain-of-Thought Reasoning, 2022 Faithful Chain-of-Thought: PoTの一般化 • LLMにより問題を機械が
得意な形式に「翻訳」 • Python • Datalog • Planning Domain Definition Language (PDDL) など • 翻訳結果をSolverで解いて回答を得るコード生成で解けるタスクであれば試す価値あり例の与え方

Fu+, Complexity-Based Prompting for Multi-Step Reasoning, ICLR2023. 思考のステップ数が多いと性能向上 (1/2) •
CoTにおけるFew-shotサンプルは回答に至るステップ数が多いものを用いると性能が上がる • 自己一貫性を用いる場合もステップ数でソートし，上位N件で多数決をとると性能向上生成結果の使い方

Fu+, Complexity-Based Prompting for Multi-Step Reasoning, ICLR2023. 思考のステップ数が多いと性能向上 (2/2) •
CoT注釈がない場合も，問題文の長いものを Few-shotにいれるだけで性能は向上難しい問題の例をプロンプトに含めることが重要生成結果の使い方

Yao+, Tree of Thoughts: Deliberate Problem Solving with Large Language
Models, 2023, Google DeepMind. Tree-of-Thought: 探索と評価に基づくCoT • 探索や先読みが必要なタスクのためのCoT戦略 • 複数のプランをLLMが生成 • 各プランを理由とともにLLMが評価 (自己一貫性も活用) • 高い評価のプランをもとに次のプランを複数生成，を繰り返す生成結果の使い方

Yao+, Tree of Thoughts: Deliberate Problem Solving with Large Language
Models, 2023, Google DeepMind. Tree-of-Thought: 探索と評価に基づくCoT • タスクによっては性能が大きく向上 • LLMは先読みが苦手な傾向先読みや探索が重要なタスクの場合に有効生成結果の使い方

Yao, ReAct: Synergizing Reasoning and Acting in Language Models, ICLR2023
ReAct (Reason + Action) Prompting (1/2) • 次に必要な行動(Action)とその理由を生成 • 行動の実行から得られた結果から次の行動と理由を生成，を繰り返す例の与え方

Yao, ReAct: Synergizing Reasoning and Acting in Language Models, ICLR2023
ReAct (Reason + Action) Prompting (2/2) • ReAct単体ではなく，CoT-SC(自己一貫性)と併用すると良い • 外部知識(検索)の活用により幻覚(Hallucination)が大きく低下 LLMによる幻覚の問題が大きい場合は試す価値あり Tree-of-Thoughtとの併用も有効？例の与え方

Zhou+, Least-to-Most Prompting Enables Complex Reasoning in Large Language Models,
ICLR2023 Least-to-Most：サブ問題への分割 • 主問題の回答に必要なサブ問題を生成 • サブ問題への回答を生成し，次に必要なサブ問題を生成を繰り返す • 多段階推論が必要な問題にもCoTに比べて強い例の与え方

Madaan+, Self-Refine: Iterative Refinement with Self-Feedback, 2023. Self-Refine: LLM自身に出力を修正させる (1/2)
• LLMの出力をLLM自身が評価・コメント (Feedback) • Feedbackをもとに出力を修正 (Refine) を繰り返す生成結果の使い方

Madaan+, Self-Refine: Iterative Refinement with Self-Feedback, 2023. Self-Refine: LLM自身に出力を修正させる (2/2)
フィードバックのための Few-shot Exampleを頑張って作る必要がある（対話応答生成の例→）多くのタスクで有効だが，プロンプト作成にコツが必要生成結果の使い方

Yang+, Large Language Models as Optimizers, 2023, Google DeepMind LLMによるプロンプトの最適化
(1/2) • 「Let’s think step by step」のような回答の前に与えるインストラクションをLLMにより最適化 • インストラクションとそのスコアをFew-shotで与え，<INS>に入るインストラクションを生成メタプロンプトの例プロンプト最適化

Yang+, Large Language Models as Optimizers, 2023, Google DeepMind LLMによるプロンプトの最適化
(2/2) 「深呼吸をしてステップバイステップで取り組みましょう」という人へのアドバイスっぽいインストラクションが得られたどういうプロンプトがいいか不明な場合はそれもLLMにやらせることが可能プロンプト最適化

Fernando, Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, 2023, Google Deepmind
遺伝的アルゴリズムによるプロンプト最適化 • プロンプトをLLMにより進化させ，最適なプロンプトを獲得 • プロンプトを変異させるためのプロンプトも進化させる性能は向上するが，コストが大きすぎるプロンプト最適化

ここまでのまとめ • LLMはIn-context Learningにより適切なプロンプトをを与えることで様々なタスクが解ける • LLMを使う技術 • どのように例を与えるか？ •
Chain-of-Thought, Program-of-Thought, ReAct, Least-to-Most • どのように指示するか？ • Zero-shot CoT, Plan-and-Solve • 生成結果をどう使うか • 自己一貫性, Tree-of-Thought, Self-Refine • どうやって良いプロンプトを作るか • プロンプト最適化，遺伝的アルゴリズム

Tips & 雑多な話題

Liu+, Lost in the Middle: How Language Models Use Long
Contexts, 2023 LLMは長い入力をどの程度上手に利用できるか？ • 質問と複数の文書が与えられ，回答を生成するタスクで実験 • 正解を含む文書の位置によって正解率が変わるかを調査 • 全てのモデルで最初と最後にある場合に正解率が向上重要な情報はプロンプトの最初と最後に書くことが重要

Xu+, Re-Reading Improves Reasoning in Language Models, 2023 Re-reading •
プロンプトに問題文を2回入れると性能が向上 • CoTと組み合わせるとより良い • 多くの回数入れれば入れるほどいいわけではない

Wang+, Unleashing Cognitive Synergy in Large Language Models: A Task-Solving
Agent through Multi-Persona Self-Collaboration, 2023. Microsoft Research Asia 複数のペルソナによる自己コラボレーション(1/2) • 単一のLLMに複数のペルソナを割り当て，議論させる • 割り当てるべきペルソナもLLMに生成させる • ペルソナ無し，及び事前に定義したペルソナを用いるよりも高い性能 • ハルシネーション (幻覚)も低減

Wang+, Unleashing Cognitive Synergy in Large Language Models: A Task-Solving
Agent through Multi-Persona Self-Collaboration, 2023. Microsoft Research Asia 複数のペルソナによる自己コラボレーション(2/2) • ドメイン知識が必要なタスクではペルソナを割り当てることが有効 • 複数のドメイン知識が必要な場合，異なる専門知識を持つ複数のペルソナを割り当てることが有効

Deshpande+, Toxicity in ChatGPT: Analyzing Persona-assigned Language Models, 2023. LLMにペルソナを与えることの副作用
• 性的指向や人種，特定の人名を LLMのペルソナとして設定 • 不適切な発言の頻度が大きく増加する場合があることを確認

Chen+, ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse
LLMs, 2023 複数LLMによる円卓会議 • 最初に各LLMに回答と説明と確信度を生成 • 他のLLMの回答を参考に，各LLMは自身の回答を修正 • すべてのLLMの回答が一致するまで回答生成と修正を繰り返す単一のLLMよりも高い性能を達成可能 (ただしコストは増加)

Liu+, LLM-Rec: Personalized Recommendation via Prompting Large Language Models, 2023,
Meta AI LLMを用いたアイテム説明文の拡張に基づく推薦 • 映画の説明文と関連する映画の説明文をLLMに与え，どういう人におすすめであるかという拡張推薦文を生成 • ユーザ埋め込み，説明文，拡張推薦文を用いて推薦スコアを計算

Asahara+ SumRec: A Framework for Recommendation using Open-Domain Dialogue, 2023
(to Appear) 我々も似たような取り組みを実施（宣伝) • 雑談対話から観光地を推薦するタスクを対象 • LLMを用いて情報抽出・拡張 • 対話から話者の情報を含んだ話者要約を生成 • 観光地説明文からどのような人におすすめであるかを説明する観光地推薦文を生成 • これらの情報から話者の観光地へのスコアを予測 ChatGPT ChatGPT 対話履歴観光地説明文観光地推薦文話者要約スコア予測器スコア LLMによる情報拡張・抽出は下流タスクに有効

OpenAI, GPT-4 Technical Report, 2023 (再掲) GPT-4 日本語

Deng+, Multilingual Jailbreak Challenges in Large Language Models, 2023 マイナーな言語ほど不適切な生成が増加
• LLMの学習データに占める割合が少ない言語の性能は低い • マイナーな言語の文を生成する場合，不適切な生成を行う割合も増加 LLMで構築したサービスを多言語展開する場合は注意が必要

Liu+, Do Emergent Abilities Exist in Quantized Large Language Models:
An Empirical Study, 2023. 量子化と性能の分析 • LLMをローカルマシンで動かす際，メモリ消費量を抑えるためパラメータをより少ないビットで保持する量子化を行う場合がある • 量子化する際のビット数と性能の関係を調査 4-bit量子化までは性能は大きく変わらないため，使用してOK

Kirchenbauer+, A Watermark for Large Language Models, 2023 LLMへの電子透かし •
すべてのトークンをブラックリスト or ホワイトリストに振り分ける • 生成時にブラックリストのトークンを出しにくいように調整 • 生成文に含まれるブラックリストトークンの統計分析により検出すでにクローズドなLLMには電子透かしが含まれている・・・かもしれない

実践編プロンプト設計とその方法

どのLLMを使うべきか？ •日本語を中心に学習されたLLMも複数構築されている • LLM-jp-13B (LLM-jp, 国立情報学研究所) • PLaMo-13B (Preferred Networks)
• Japanese StableLM Alpha (Stability AI) などなど •OpenAIのLLMが現状多くの人にとってベターな選択 • GPT-4は日本語タスクでも上記の日本語LLMよりも高い性能 • 金銭的コストが小さい • 初期投資が不要 • GPT-3.5-turboは高速かつ安い

Nejumi LLMリーダーボードより (10/22時点) https://wandb.ai/wandb/LLM_evaluation_Japan/reports/Nejumi-LLM---Vmlldzo0NTUzMDE2 日本語ベンチマークの性能

どうやって使うか？ OpenAI API • HTTPでリクエストすれば良いのでプログラミング言語はなんでも • Pythonは公式のライブラリが存在 LangChain (Python /
TypeScript) • LLM活用のためのライブラリ • OpenAIのものも含め，多くのLLMが使用可能 • 検索エンジンとの連携やPDFやWord形式のファイルの利用が容易

プロンプトを試行錯誤して作成する ChatGPT(無料版)よりもOpenAI Playground https://platform.openai.com/playground メリット：生成が早い，GPT-4が使える，APIのオプションが設定可能デメリット：お金がかかる(従量課金)

実例紹介：対話システムライブコンペティション6 • シチュエーションに沿ったマルチモーダル対話システムを構築し，その性能を競うコンペティション • 私(稲葉)は運営委員として参加 • 急遽(予選の前日)ベースラインシステムを作成することになった • バーチャルエージェントを使用するため，表情や動作も重要な要素
• 時間がないので，応答生成の部分だけをLLMのプロンプトで作成した

シチュエーションの概要 • ユウキ（ユーザ）とシズカ（システム）のゼミの教員である小林先生が，新しく二人の所属する映画サークルの顧問となる • 来週の土曜日に誕生日を迎える小林先生の誕生日パーティーを兼ねて，サークルのメンバーを集めて歓迎会と称して飲み会を開く • 小林先生への誕生日プレゼントも用意したい •
ユウキはシズカと一緒に企画を立てることにしたが，そろそろ準備をしなければ間に合わない • ユウキは授業終了後にシズカを大学のカフェに呼び出した • シズカは「盛大な歓迎会」を企画したいと考えている上記シチュエーションに沿ったシズカの対話システムを作る

考えたこと •明確にペルソナを定義することが重要 • ペルソナを用いた一連の研究からの知見 •対話のプランを立てたほうがよい • Plan-and-Solve より •多様で高品質な対話例が必要 •
Few-shotとして含める例の重要性からの知見

実際に作成したプロンプト (1/4) 何を生成するかという大目標を書く指定されたシチュエーション豪華な歓迎会に固執する場合があったため追加映画好きキャラ付け ==タスク説明==
あなたはシズカとしてユウキと会話してください． ==シズカ(あなた)のペルソナ=== ・名前はシズカ・女性・20歳の大学2年生・映画サークルに所属・参加費が1人8000円くらいの豪華な歓迎会をしたい・小林先生にはなにか誕生日プレゼントも渡したい・ユウキとは同じ学年の映画サークル仲間・敬語は使わない・素直な性格・最近「風と共に去りぬ」を鑑賞し，勇気をもらったと感じた ==会話している場所== 大学のカフェポイント：明確なペルソナ定義ポイント：タスクの説明文を入れる & 重要なことを最初に書く

実際に作成したプロンプト (2/4) 指定されたシチュエーションの続き ==状況== ・映画サークルの顧問の教員が交替し，今月から新しく顧問となった小林先生の歓迎会の企画する・ユウキとシズカのゼミの教員である小林先生が映画サークルの顧問となる
・前の顧問の先生が退職したので，ユウキとシズカとで，小林先生に新たな顧問となってほしいと相談したところ，快く引き受けてもらえた．・来週の土曜日に誕生日を迎える小林先生の誕生日パーティーを兼ねて，サークルのメンバーを集めて歓迎会を行いたい ==対話の流れ== ・あなた(シズカ)は盛大な歓迎会をしたいと考えているが，対話を進める中でユウキの言うことを受け入れる・歓迎会の概要が決まったあとは小林先生への誕生日プレゼントについて相談する・小林先生へのプレゼントが決まったら，最近見た映画について話すポイント：大まかな方向性を書いておく対話のプランを書く

実際に作成したプロンプト (3/4) ==対話例1== [ユウキ]そろそろ準備しないとね [シズカ]せっかくだから歓迎会は盛大にやりたいよね [ユウキ]そんなに盛大にやらなくてもいいと思うな [シズカ]小林先生は誕生日だし，お祝いしようよ [ユウキ]豪華にする必要は無いんじゃないかな？ [シズカ]でも顧問を引き受けてくれたんだよ [ユウキ]シズカはどこで歓迎会をやるのがいいと
思う？ [シズカ]おしゃれなイタリアンを貸し切るのはどう？たぶん一人8000円くらいで足りると思う [ユウキ]8000円は高すぎない？4000円くらいにしたほうがいいと思うよ．高すぎると参加できない人も多くなるかもしれないし [シズカ]うーん，じゃあ予算は6000円くらいでどう？ [ユウキ]4000円じゃだめかな？ [シズカ]じゃあ5000円で． [ユウキ]じゃあそうしよう． [シズカ]お店はどうする？ [ユウキ]駅前にいい感じの居酒屋があったよね．あそこはどう？ [シズカ]なんて名前のお店？ [ユウキ]名前は忘れちゃったんだけど，内装がすごくおしゃれで行ってみたいと思ってたんだ [シズカ]いいね．そこにしようよ．予約はユウキにお願いしていい？ [ユウキ]わかった．やっておくよ [シズカ]あと，小林先生への誕生日プレゼントはどうしよう？ [ユウキ]何がいいかな？花束とか？ [シズカ]お酒はどう？小林先生はワインが好きって言っていたし，ワインとか [ユウキ]いいと思う [シズカ]じゃあ私が買っておくね． [ユウキ]あと他に決めることってあったっけ？ [シズカ]特に無いんじゃないかな．そういえば最近風と共に去りぬを見たよ．

実際に作成したプロンプト (4/4) [ユウキ]へーどうだった？ [シズカ]なんていうか，勇気をもらえる映画だったよ [ユウキ]そうなんだ．どんな話なの？ [シズカ]南北戦争の頃のアメリカの話なんだけど，主人公のスカーレットがすごく魅力的なんだよね [ユウキ]へー，そうなんだ [シズカ]４時間近くあってすごく長いんだけど，おすすめだよ
[ユウキ]今度見てみるよ ==対話例2== [ユウキ]そろそろ準備しないとね [シズカ]せっかくだから歓迎会は盛大にやりたいよね [ユウキ]僕は学内でやるのがいいと思うな [シズカ] ポイント：プランに沿った質の高い対話例を含めるできれば複数の対話例を作成し，多様性を高めるとさらに良い (時間がなかったので1対話のみ) ここに現在進行中の対話履歴を書き，LLMが続き (シズカの発話)を生成

被験者60名との対話による予選 (10/9～13) 事後アンケートによる評価項目は以下の三点 1. 文脈に沿った発話内容かどうか 2. 文脈に沿ったジェスチャー・表情を表出できているか 3. 文脈に沿った間や音声の強弱を用いて発話できているか ⇒作成したベースラインは2.と3.を一切考慮していない
予選の結果： • 9チーム中X位☺ • 外部参加(大学，個人，企業) 8チーム + 私の作成したベースライン

時間があればこうしたであろう改善点発話の前に発話の意図を出力させる • 発話単位のプランニング (CoT + Plan-and-Solve) • 例：動作と表情も出力させる
• 例： [ユウキ]シズカはどこで歓迎会をやるのがいいと思う？ [シズカ] (豪華な歓迎会を提案する)おしゃれなイタリアンを貸し切るのはどう？たぶん一人8000円くらいで足りると思う [ユウキ]8000円は高すぎない？4000円くらいにしたほうがいいと思うよ．高すぎると参加できない人も多くなるかもしれないし [シズカ] (指摘されたことについて考える)うーん， (高すぎるという指摘に基づき，意見を修正する)じゃあ予算は6000円くらいでどう？ [シズカ]じゃあ，小林先生への誕生日プレゼントはどうしよう？(動作：首を傾げる) [ユウキ]何がいいかな？花束とか？ [シズカ]お酒はどう？小林先生はワインが好きって言っていたし，ワインとか (表情：笑顔，動作：両手を前に出す)

意外だった点 • ベースラインシステムはGPT-3.5-turboとGPT-4の 2バージョンで実行 • 結果として，GPT-3.5-turboのほうが高評価 • GPT-4は生成スピードがかなり遅い • GPT-4のほうがより適切な応答を生成可能だが，音声認識のエラー
は一定の割合で生じるため，応答品質の差を感じづらかった宣伝：対話システムライブコンペティションの決勝は 12月12日に対話システムシンポジウム@国語研(立川)で開催どのLLMを用いるのが適切かは使われる状況によって異なる

本チュートリアルのまとめ ✔LLMはどのようなことができるか？ • 単純作業からMinecraftのプレイ，ロボットの制御など範囲は広がり続けている ✔LLMの性能を最大限引き出すための技術・研究の解説 • In-Context Learningによる様々なタスクへの適応 •
Chain-of-Thought, ReAct, Self-Refine などなど ✔プロンプト設計の実例紹介 • シチュエーションに沿ったマルチモーダル対話システム

IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」

IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」

Other Decks in Technology

Featured

Transcript