Upgrade to Pro — share decks privately, control downloads, hide ads and more …

武蔵大学 AIの社会浸透研究会 第3回公開セミナー 大規模言語モデルがもたらす対話システム技術の変革

Mikio Nakano
June 16, 2024
560

武蔵大学 AIの社会浸透研究会 第3回公開セミナー 大規模言語モデルがもたらす対話システム技術の変革

対話システム、すなわち、人間と言葉で情報を授受するシステムを構築する技術は、人間同士の対話の分析とモデル化をベースに、機械学習技術を取り入れながら発展して来ました。しかしながら、ChatGPTを始めとする大規模言語モデルの登場は、対話システム技術を大きく変えようとしています。大規模言語モデルにより、今まではできなかった自然な応答の生成や、システム開発者が想定していないユーザ発話への対応も可能になってきています。対話システムに関するすべての課題が解決されたわけではありませんが、残された課題を回避するために、今まで研究されてきた対話システムとは異なるタイプのシステムが構築されるよ うになってきています。本講演では、対話システム技術の今までの発展を概観した後、大規模言語モデル時代の対話システム技術の展望を述べます。

Mikio Nakano

June 16, 2024
Tweet

Transcript

  1. 自己紹介 • 株式会社C4A研究所 代表取締役 ◦ 対話システムの技術コンサルティング・設計・実装 ◦ 対話システム構築フレームワークDialBBを公開 • 大阪大学招へい教授,名古屋大学客員教授、名古屋

    工業大学客員教授 ◦ 対話システムの基礎・応用研究 • 株式会社Nextremer社外取締役 • 対話システム“構築”の研究開発~30年 2024/6/11 © C4A Research Institute, Inc. 2
  2. DialBBの紹介 • 対話システム構築フレームワーク • 対話システム・情報技術の教材として開発 • モジュールを組み合わせて様々なタイプの対話システムをローコードで構築可能 • 高い拡張性 •

    GitHubでソースコードを公開(https://github.com/c4a-ri/dialbb) • 非商用利用向けにライセンス • ノーコードで対話システムを作れるツールも開発中 2024/6/11 © C4A Research Institute, Inc. 3 中野 幹生, 駒谷 和範, 情報技術の教材としての対話システム構築フレームワークDialBB, 人工知能学会全国大会論文集, 2023
  3. 対話システムとは • 言語によって人間と情報を授受するシステム • 対話システムの分類 ◦ タスクの有無・種類(レストラン予約、雑談、etc.) ◦ 話題の範囲(野球、食べ物、etc.) ◦

    入出力の種類(モダリティ)(テキスト、音声、画像、etc.) ◦ 対話参加者の数(1対1、1対多、etc.) © C4A Research Institute, Inc. 6 2024/6/11 中野 幹生:身近になった対話システム:1.対話システムを知ろう -自然言語による機械と人間とのコミュニケーション-, 情報処理,Vol. 62, No. 10, pp. e1-e6, 2021.
  4. 対話システムの例 2024/6/11 © C4A Research Institute, Inc. 7 スマートフォン上 のアシスタント

    FAQチャットボット カウンセリング バーチャルエージェント 雑談対話ロボット
  5. 対話システムの社会的価値 • 24時間365日いつでも応対できる ⇒ ワークライフバランスの促進 • 人手をかけずに多くの人から情報を引き出せる • GUI入力では得られない情報が得られる ◦

    感情、興味、パーソナリティなど • 人が応対するよりも本音で話してもらえる* • 人のコミュニケーションの仲立ちをすることで、人間同士のコミュニケーションを良くする ◦ ソーシャルインクルージョン 2024/6/11 © C4A Research Institute, Inc. 8 *Lucas et al, It’s only a computer: Virtual humans increase willingness to discloseComputers in Human Behavior 37, 94-100, 2014
  6. 対話システムのアーキテクチャの例 (1) フレームベースシステム 2024/6/11 © C4A Research Institute, Inc. 9

    言語理解 談話理解 発話選択 言語生成 対話状態 (意図理解結果・ 状況理解結果・ DB検索結果等) 新宿の中華 を探して 個室をご希 望ですか? ドメインのDB [ジャンル:中華料理 エリア:新宿 個室:- 検索結果:-] [ジャンル:- エリア:- 個室:ー 検索結果:-] {“タイプ”: “検索条件指定”, “スロット”: {“ジャンル”: “中華料理”, “エリア: “新宿”}} {“タイプ”: “個室質問”} このフレームを使っ てDBを操作
  7. 対話システムのアーキテクチャの例 (2) 状態遷移ネットワークベースシステム 2024/6/11 © C4A Research Institute, Inc. 10

    場所やジャンルを 言ってください。 もう一度お願いします *n*件見つかり ました。個室がよ いなどあります か? タイプ= 検索条件指定 その他 言語理解 対話管理&発話生成 エリアとジャンルのスロッ ト値でDBを検索し、 検索結果を変数list に、結果の個数を変 数nにセット 新宿の中華を探して {“タイプ”:”検索条件指定”, “スロット”:{“ジャンル”: “中華料理”, “エリア”:”新宿”}} 遷移の条件 遷移時のアクション 実用システムでよく使われている
  8. 対話システムのアーキテクチャの例 (3) 用例ベース対話システム 2024/6/11 © C4A Research Institute, Inc. 11

    ユーザ発話 システム発話 こんにちは • こんにちは!お元気ですか? いい天気ですね • そうですね.気持ちいいです 昨日眠れなかった • 今日はよく寝られるといいですね おなかすいた • 早くご飯食べられるといいですね どんなラーメンが好き? • ラーメンは一蘭が大好きです 昨日寝られな かったんだよね 近いものを検索 用例ベース 出力 FAQチャットボットなどでもよく用いられる ユーザ発話
  9. 対話システムのアーキテクチャの例 (4) パターンに基づく雑談システム 2024/6/11 © C4A Research Institute, Inc. 12

    ユーザ発話: *眠い* システム発話:少し休んだ方がいいですよ ユーザ: 今日は眠いな システム:少し休んだ方がいいですよ 直前のシステム発話:ラーメンは好きですか? ユーザ発話: *うん* システム発話:どんなタイプのラーメンが好きで すか? システム:ラーメンは好きですか? ユーザ:うん、好きだよ システム:どんなタイプのラーメンが好きです か? パターン 実行例
  10. 統計モデル・機械学習の導入 • 言語理解 ◦ ユーザの発話は多様 ⇒ 様々な発話を理解する必要がある ◦ キーワード抽出だけでは精度が低い ⇒

    大量のデータからモデルを学習 • 用例ベース ◦ 文の近さを測る距離尺度をデータから学習 2024/6/11 © C4A Research Institute, Inc. 13 新宿のイタリア料理店を探して 新宿のイタリアン イタリア料理、新宿 。。。 その他のモジュールでも機械学習の研究 が盛んにおこなわれたが、実用システムで はあまり使われていない 単純なモデルから深層ニューラルネットワーク(DNN)に進化
  11. 対話システムの評価 • ユーザ満足度 ◦ タスク成功率 - コスト(会話にかかった時間、不適切な応答の割合など) • ユーザ体験(UX) ◦

    システムの使いやすさ、対話の印象、対話から得られる感動 2024/6/11 © C4A Research Institute, Inc. 14 これらの尺度をよくするために、機械学習モデルやルールを改善していく
  12. 研究開発対象のシステムの拡大 2024/6/11 © C4A Research Institute, Inc. 16 狭い範囲の発話を正し く理解するシステム

    • フライト情報 • 天気予報 • レストラン検索 正しく理解できなくても会話を続ける ことでメリットがあるシステム • 雑談 • 傾聴 • サーベイ・インタビュー (スマホで代替可能)
  13. End-to-end対話システム • 系列変換モデルを利用 ◦ 対話履歴から次の発話を生成 • 対話データのみから対話モデルを学習 2024/6/11 © C4A

    Research Institute, Inc. 18 <EOS> <BOS> ラーメン 食べ たい ラーメン ラーメン 良い ね 良い ね <EOS> ニューラルネットワーク (エンコーダ) ニューラルネットワーク (デコーダ) 数値ベクトル 対話状態を表す数値ベクトル 非タスク指向型対話システム(雑談システム)の研究のブーム(論文が書きやすい) • つまらない応答や矛盾した応答をどう抑制するか? • パーソナリティの表出 Vinyals, Oriol, and Quoc Le. "A neural conversational model." arXiv preprint arXiv:1506.05869 (2015).
  14. Transformerの登場 高速・高精度で長い系列が扱 える系列変換モデル 2024/6/11 © C4A Research Institute, Inc. 19

    高性能な雑談システム (Google Meena, Facebook BlenderBot) NTTの雑談 対話システム GPT (Generative Pretrained Model) 文章の続きを生成する LINE HyperCLOVA 対話システムライブコンペティション で好成績 Vaswani et al. "Attention is all you need." Advances in neural information processing systems 30 (2017) Sugiyama et al. Empirical Analysis of Training Strategies of Transformer-Based Japanese Chit-Chat Systems. SLT 2022 Yamazaki et al. An Open-Domain Avatar Chatbot by Exploiting a Large Language Model. SIGDIAL 2023: 428-432 Roller et al. "Recipes for building an open-domain chatbot.", EACL 2021 Adiwardana et al. "Towards a human-like open-domain chatbot." arXiv preprint arXiv:2001.09977 (2020)
  15. ChatGPTの衝撃 • 単に続きを生成するだけではなく、指示に応じた応答を生成 • 文脈にあった非常に自然な応答が生成される • タスクを自然言語で自由に書ける ◦ 「翻訳して」「要約して」「考えて」「関西弁で話して」 ◦

    今までは問題ごとにモデルを作ったりプログラムを書いたりしていた • 例を与えることでモデルの学習なしでタスクの性能を上げられる 2024/6/11 © C4A Research Institute, Inc. 20 ChatGPT以外にも様々な大規模言語モデル(LLM: Large- Language Model) がある (Claude, Gemini, etc.)
  16. LLMだけを用いて対話システムを作る (1) 2024/6/11 © C4A Research Institute, Inc. 21 プロンプト作成

    対話の履歴 +最新のユーザ発話 システム発話 LLMのAPIを呼び出す 応答取得 DialBBを使って簡 単に構築可能 プロンプトテン プレート 参考:稲葉: IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 対話システムライブコンペ ティションで上位の成績
  17. LLMだけを用いて対話システムを作る (2) • 各ターンで以下のようなプロンプト(指示)を与えて発話を生成する 2024/6/11 © C4A Research Institute, Inc.

    22 # タスク説明 - あなたは対話システムで、ユーザと話しながら食事の記録を取ります。 - 何を食べたか順に質問していきます。 - 塩分過多や糖分過多な食事の場合はやんわりと、健康的な食事をするよ うに言ってください。 - 「現在までの対話」に続くシステムの発話を50文字くらいで生成してください。 # あなたのペルソナ - 50代女性で、穏やかな性格です。 - ユーザとは長い付き合いで、フレンドリーに話します。 - 食事の記録を取る仕事に慣れています。 # 対話の流れ - 最初に挨拶します - 昨日の夕飯に何を食べたかを聞きます。 - メインのおかず、主食、副菜、汁物、デザートなどを全部聞き出します。 - ユーザが食べたものについてポジティブなリアクションをします。 - 昨日の夕飯を食べてなかったら、心配そうになぜ食べなかったのか聞きま す。 # 対話例 システム: こんにちは ユーザ: こんにちは システム: 昨日の夕食は何を食べましたか? ユーザ: ハンバーグを食べました システム: それは美味しそうですね。ごはんやパンを食べましたがか? ユーザ: ごはんを食べました。 システム: ごはんですね。ハンバーグにはやはり白米ですよね。ハン バーグ以外のおかずは食べましたか? ユーザ: 付け合わせの野菜とサラダを食べました。 システム: サラダは健康的ですね。何か汁物は飲みましたか? ユーザ: スープを飲みました。 システム: ハンバーグとごはんと野菜とサラダとスープですね。バランス がとれてますね。今日はありがとうございました。 # 現在までの対話 システム:こんにちは。私はあなたの食事の記録係です。昨日の夕食に ついてお尋ねします。昨日の夕食は何を召し上がりましたか? ユーザ: 刺身を食べました この部分は実 行時に変更
  18. LLMだけを用いて対話システムを作る (3) 2024/6/11 © C4A Research Institute, Inc. 23 S:

    こんにちは。私はあなたの食事の記録係です。昨日の夕食についてお尋ねします。昨日の 夕食は何を召し上がりましたか? U: 刺身を食べました S: 刺身、新鮮で美味しそうですね。ごはんやパンなど主食は何を召し上がりましたか? U: ごはんです S: ごはんと刺身、素敵な組み合わせですね。刺身以外のおかずは何か召し上がりましたか? U: 冷奴と茄子のそぼろ餡です S: 冷奴と茄子のそぼろ餡、栄養バランスが良さそうですね。何か汁物は召し上がりました か? U: いや飲んでないです S: そうですか、汁物は飲まなかったんですね。体には水分も大切ですよ。デザートは何か召 し上がりましたか? U: ちょっとあとでキウイを食べました S: キウイ、ビタミンCが豊富で良いですね。でも、次回は汁物も摂るようにしましょうね。 今日はありがとうございました。 対話例 OpenAI GPT-4利用
  19. LLMだけを用いた対話システムの問題 • ハルシネーション ◦ 事実と異なることを生成する • 対話の流れをコントロールするのが 難しい • DB検索との連携ができない

    2024/6/11 © C4A Research Institute, Inc. 24 User: 釜山でお土産買うとしたら何がいいですか? System: 釜山なら、海鮮を使った加工品や韓国の伝統菓子が おすすめですよ!他に何かご質問はありますか? User: 韓国の伝統菓子って例えば何ですか? System: 韓国の伝統菓子といえば、「ヨット*」や「ハング ワ」が有名ですね。甘さ控えめでお土産にもピッタリです よ!他に何か質問はありますか? User: ヨットやハングワってどんなものですか? System: 「ヨット」は韓国の焼き菓子で、シナモン風味が特 徴です。「ハングワ」は色とりどりの伝統的な和菓子ですよ。 他に何か質問はありますか? ハルシネーションはRAG (Retrieval- Augmented Generation) を使っても残る *ヤッカの間違いではないかと思われる
  20. LLMを活かした対話アプリケーション • ハルシネーションがあっても大きな問題に ならないもの ◦ 英会話練習 ◦ 面接練習 ◦ etc.

    2024/6/11 © C4A Research Institute, Inc. 25 正しいことしか言ってはいけないシステムは LLMだけでは作れない インタビューや傾聴は微妙
  21. LLMを用いた言語理解・談話理解 • 例を与えて問題を理解さ せる • 少量の例で高い精度 2024/6/11 © C4A Research

    Institute, Inc. 26 # タスク 入力発話を発話タイプに分類するととも に、スロットを抽出してJSON形式で返し てください。 # 発話タイプの種類 - 天気を聞く - 気温を聞く # スロットの種類 - 日付 - 地名 # 例 - 入力: “東京の明日の天気を教えて” 出力: {“タイプ”:”天気を聞く” “スロット“: {“日付“: “明日”, “地名”: “東京}} - 入力: “札幌の水曜の最高気温は?” 出力: {“タイプ”:“気温を聞く” “スロット”: {“日付”: “水曜”, “地名”: “札幌}} # 入力 “京都の木曜日の天気が知りたい”
  22. LLMを用いたタスク指向型対話システム 2024/6/11 © C4A Research Institute, Inc. 27 談話理解 (スロット抽出)

    対話の履歴 +最新のユーザ発話 DB検索 発話生成 システム発話 LLM LLM Hudeček & Dusek: Are Large Language Models All You Need for Task-Oriented Dialogue?, SIGDIAL 2023 U:新宿のレストラン S:ジャンルを言ってください U:和食がいい S:個室などの希望はあ りますか? {”ジャンル”: ”和食”, ”エリア”: ”新宿”} {”ジャンル”: ”和食”, ”エリア”: ”新宿”, “ヒット数”: 165}
  23. LLMを部分的に利用する対話システム • 状態遷移ネットワークの中でLLMを使う 2024/6/11 © C4A Research Institute, Inc. 28

    対話の履歴を与えて LLMに条件判定や発 話生成を行わせる 昨日晩は何を 食べましたか? (食べたものに 関する雑談発 話を生成) (雑談に 飽きた) その他 (何か食 べた) なぜ食べな かったので すか? 食べたも のをDB に記録 (理由を 言った) 理由をDB に記録 その他 対話の流れをわかりやす くコントロールできる 対話ロボットコンペティショ ン2023の上位のチーム はこのタイプが多い LLM LLM LLM LLM 条件判定 条件判定 生成 条件判定
  24. これからの対話システムに必要な技術 2024/6/11 © C4A Research Institute, Inc. 32 LLMの知識 ソフトウェ

    アエンジニ アリング 人文科学 ・社会科学 ・UX研究の 知見 プロンプト&ルール • 相手の言葉を繰り返す • ポジティブな反応をする • 適度に自己開示をする • Etc. • システム構築技術 • ツールの知識 • DBとの連携 LLMができること・できないことを理解する
  25. LLMの進化による マルチモーダル対話の高度化 2024/6/11 © C4A Research Institute, Inc. 33 近い将来できそうなこと

    マルチモーダルを扱う 基盤モデル(FM) 高速化 音声、ユーザの顔画像、周り の状況などから、ユーザの意 図や感情を統合的に理解 音声、エージェントの表情やジェ スチャなどを統合的に出力 1対1対話・マルチパーティ対 話における自然な話者交替
  26. 多観点での評価 2024/6/11 © C4A Research Institute, Inc. 34 研究での評価 (ユーザ満足度、ユーザ

    体験の一次元評価) これらのバランスを勘案 してアーキテクチャと要 素技術を決める必要 • 例:使用料収入、対話から得られるユーザの要望を知る、人件費削減 オーナー価値(必ずしもユーザ価値と一致しない) • 例:間違ったことをシステムが言うリスク、悪用リスク、個人情報漏洩リスク リスク • 例: 人件費、データ収集費、サーバ運用費、外部API利用費 システム開発コスト、運用コスト 技術進化した対話システムをいろいろな場面で使ってもらうための評価 Nakano et al. Evaluating Dialogue Systems from the System Owners‘ Perspectives, IWSDS 2024 竹内・中野:AIサービスシステムを多観点で評価するための参照モデル, 信学会SC研究会, 2024.6
  27. 参考資料・サイト • 岡崎:大規模言語モデルの開発、 2024年度 人工知能学会全国大会(第38回) チュートリアル講演 • 西田、西田、風戸:大規模言語モデル入門、ソフトウェアエンジニアリングシンポジウム2023 • 対話システムライブコンペティション6

    • 対話ロボットコンペティション2023 • 東中:私のブックマーク「対話システム」 • 中野:対話システムシンポジウム10周年記念企画 対話システム研究の10年を振り返っ て:これまでとこれから 2024/6/11 © C4A Research Institute, Inc. 39