武蔵大学 AIの社会浸透研究会第3回公開セミナー大規模言語モデルがもたらす対話システム技術の変革

武蔵大学 AIの社会浸透研究会第3回公開セミナー大規模言語モデルがもたらす対話システム技術の変革中野幹生株式会社C4A研究所 2024/6/11 ©
C4A Research Institute, Inc. 1

自己紹介 • 株式会社C4A研究所代表取締役 ◦ 対話システムの技術コンサルティング・設計・実装 ◦ 対話システム構築フレームワークDialBBを公開 • 大阪大学招へい教授，名古屋大学客員教授、名古屋
工業大学客員教授 ◦ 対話システムの基礎・応用研究 • 株式会社Nextremer社外取締役 • 対話システム“構築”の研究開発～30年 2024/6/11 © C4A Research Institute, Inc. 2

DialBBの紹介 • 対話システム構築フレームワーク • 対話システム・情報技術の教材として開発 • モジュールを組み合わせて様々なタイプの対話システムをローコードで構築可能 • 高い拡張性 •
GitHubでソースコードを公開（https://github.com/c4a-ri/dialbb） • 非商用利用向けにライセンス • ノーコードで対話システムを作れるツールも開発中 2024/6/11 © C4A Research Institute, Inc. 3 中野幹生, 駒谷和範, 情報技術の教材としての対話システム構築フレームワークDialBB, 人工知能学会全国大会論文集, 2023

本日のお話 • 大規模言語モデル以前の対話システムの研究開発 • 大規模言語モデルがもたらした技術進化 • これからの対話システムの研究開発 2024/6/11 © C4A
Research Institute, Inc. 4

大規模言語モデル以前の対話システムの研究開発 2024/6/11 © C4A Research Institute, Inc.
5

対話システムとは • 言語によって人間と情報を授受するシステム • 対話システムの分類 ◦ タスクの有無・種類（レストラン予約、雑談、etc.） ◦ 話題の範囲（野球、食べ物、etc.） ◦
入出力の種類（モダリティ）（テキスト、音声、画像、etc.） ◦ 対話参加者の数（1対1、1対多、etc.） © C4A Research Institute, Inc. 6 2024/6/11 中野幹生：身近になった対話システム：1．対話システムを知ろう -自然言語による機械と人間とのコミュニケーション-，情報処理，Vol. 62, No. 10, pp. e1-e6, 2021.

対話システムの例 2024/6/11 © C4A Research Institute, Inc. 7 スマートフォン上のアシスタント
FAQチャットボットカウンセリングバーチャルエージェント雑談対話ロボット

対話システムの社会的価値 • 24時間365日いつでも応対できる ⇒ ワークライフバランスの促進 • 人手をかけずに多くの人から情報を引き出せる • GUI入力では得られない情報が得られる ◦
感情、興味、パーソナリティなど • 人が応対するよりも本音で話してもらえる* • 人のコミュニケーションの仲立ちをすることで、人間同士のコミュニケーションを良くする ◦ ソーシャルインクルージョン 2024/6/11 © C4A Research Institute, Inc. 8 *Lucas et al, It’s only a computer: Virtual humans increase willingness to discloseComputers in Human Behavior 37, 94-100, 2014

対話システムのアーキテクチャの例 (1) フレームベースシステム 2024/6/11 © C4A Research Institute, Inc. 9
言語理解談話理解発話選択言語生成対話状態（意図理解結果・状況理解結果・ DB検索結果等）新宿の中華を探して個室をご希望ですか？ドメインのDB [ジャンル：中華料理エリア：新宿個室：－検索結果：－] [ジャンル：－エリア：－個室：ー検索結果：－] {“タイプ”: “検索条件指定”, “スロット”: {“ジャンル”: “中華料理”, “エリア: “新宿”}} {“タイプ”: “個室質問”} このフレームを使ってDBを操作

対話システムのアーキテクチャの例 (2) 状態遷移ネットワークベースシステム 2024/6/11 © C4A Research Institute, Inc. 10
場所やジャンルを言ってください。もう一度お願いします *n*件見つかりました。個室がよいなどありますか？タイプ= 検索条件指定その他言語理解対話管理&発話生成エリアとジャンルのスロット値でDBを検索し、検索結果を変数list に、結果の個数を変数nにセット新宿の中華を探して {“タイプ”：”検索条件指定”, “スロット”：{“ジャンル”: “中華料理”, “エリア”：”新宿”}} 遷移の条件遷移時のアクション実用システムでよく使われている

対話システムのアーキテクチャの例 (3) 用例ベース対話システム 2024/6/11 © C4A Research Institute, Inc. 11
ユーザ発話システム発話こんにちは • こんにちは！お元気ですか？いい天気ですね • そうですね．気持ちいいです昨日眠れなかった • 今日はよく寝られるといいですねおなかすいた • 早くご飯食べられるといいですねどんなラーメンが好き？ • ラーメンは一蘭が大好きです昨日寝られなかったんだよね近いものを検索用例ベース出力 FAQチャットボットなどでもよく用いられるユーザ発話

対話システムのアーキテクチャの例 (4) パターンに基づく雑談システム 2024/6/11 © C4A Research Institute, Inc. 12
ユーザ発話： *眠い* システム発話：少し休んだ方がいいですよユーザ：今日は眠いなシステム：少し休んだ方がいいですよ直前のシステム発話：ラーメンは好きですか？ユーザ発話： *うん* システム発話：どんなタイプのラーメンが好きですか？システム：ラーメンは好きですか？ユーザ：うん、好きだよシステム：どんなタイプのラーメンが好きですか？パターン実行例

統計モデル・機械学習の導入 • 言語理解 ◦ ユーザの発話は多様 ⇒ 様々な発話を理解する必要がある ◦ キーワード抽出だけでは精度が低い ⇒
大量のデータからモデルを学習 • 用例ベース ◦ 文の近さを測る距離尺度をデータから学習 2024/6/11 © C4A Research Institute, Inc. 13 新宿のイタリア料理店を探して新宿のイタリアンイタリア料理、新宿。。。その他のモジュールでも機械学習の研究が盛んにおこなわれたが、実用システムではあまり使われていない単純なモデルから深層ニューラルネットワーク（DNN）に進化

対話システムの評価 • ユーザ満足度 ◦ タスク成功率－コスト（会話にかかった時間、不適切な応答の割合など） • ユーザ体験（UX） ◦
システムの使いやすさ、対話の印象、対話から得られる感動 2024/6/11 © C4A Research Institute, Inc. 14 これらの尺度をよくするために、機械学習モデルやルールを改善していく

難しい問題 • 想定外（DBの枠外）の事象を表す言葉の意味をとらえて正しく応答すること • あらかじめ与えたルールや知識の範囲からはずれたフローで対話を行うこと • システムを複雑にせずに音声・マルチモーダル入力を扱うこと ◦
音声認識誤りへの対処 ◦ 発話区間検出誤りへの対処 ◦ 話者交替 ◦ 画像から得られる情報の利用 2024/6/11 © C4A Research Institute, Inc. 15

研究開発対象のシステムの拡大 2024/6/11 © C4A Research Institute, Inc. 16 狭い範囲の発話を正しく理解するシステム
• フライト情報 • 天気予報 • レストラン検索正しく理解できなくても会話を続けることでメリットがあるシステム • 雑談 • 傾聴 • サーベイ・インタビュー（スマホで代替可能）

大規模言語モデルがもたらした技術進化 2024/6/11 © C4A Research Institute, Inc. 17

End-to-end対話システム • 系列変換モデルを利用 ◦ 対話履歴から次の発話を生成 • 対話データのみから対話モデルを学習 2024/6/11 © C4A
Research Institute, Inc. 18 <EOS> <BOS> ラーメン食べたいラーメンラーメン良いね良いね <EOS> ニューラルネットワーク（エンコーダ）ニューラルネットワーク（デコーダ）数値ベクトル対話状態を表す数値ベクトル非タスク指向型対話システム（雑談システム）の研究のブーム（論文が書きやすい） • つまらない応答や矛盾した応答をどう抑制するか？ • パーソナリティの表出 Vinyals, Oriol, and Quoc Le. "A neural conversational model." arXiv preprint arXiv:1506.05869 (2015).

Transformerの登場高速・高精度で長い系列が扱える系列変換モデル 2024/6/11 © C4A Research Institute, Inc. 19
高性能な雑談システム（Google Meena, Facebook BlenderBot） NTTの雑談対話システム GPT (Generative Pretrained Model) 文章の続きを生成する LINE HyperCLOVA 対話システムライブコンペティションで好成績 Vaswani et al. "Attention is all you need." Advances in neural information processing systems 30 (2017) Sugiyama et al. Empirical Analysis of Training Strategies of Transformer-Based Japanese Chit-Chat Systems. SLT 2022 Yamazaki et al. An Open-Domain Avatar Chatbot by Exploiting a Large Language Model. SIGDIAL 2023: 428-432 Roller et al. "Recipes for building an open-domain chatbot.", EACL 2021 Adiwardana et al. "Towards a human-like open-domain chatbot." arXiv preprint arXiv:2001.09977 (2020)

ChatGPTの衝撃 • 単に続きを生成するだけではなく、指示に応じた応答を生成 • 文脈にあった非常に自然な応答が生成される • タスクを自然言語で自由に書ける ◦ 「翻訳して」「要約して」「考えて」「関西弁で話して」 ◦
今までは問題ごとにモデルを作ったりプログラムを書いたりしていた • 例を与えることでモデルの学習なしでタスクの性能を上げられる 2024/6/11 © C4A Research Institute, Inc. 20 ChatGPT以外にも様々な大規模言語モデル（LLM: Large- Language Model) がある (Claude, Gemini, etc.)

LLMだけを用いて対話システムを作る (1) 2024/6/11 © C4A Research Institute, Inc. 21 プロンプト作成
対話の履歴＋最新のユーザ発話システム発話 LLMのAPIを呼び出す応答取得 DialBBを使って簡単に構築可能プロンプトテンプレート参考：稲葉: IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」対話システムライブコンペティションで上位の成績

LLMだけを用いて対話システムを作る (2) • 各ターンで以下のようなプロンプト（指示）を与えて発話を生成する 2024/6/11 © C4A Research Institute, Inc.
22 # タスク説明 - あなたは対話システムで、ユーザと話しながら食事の記録を取ります。 - 何を食べたか順に質問していきます。 - 塩分過多や糖分過多な食事の場合はやんわりと、健康的な食事をするように言ってください。 - 「現在までの対話」に続くシステムの発話を50文字くらいで生成してください。 # あなたのペルソナ - ５０代女性で、穏やかな性格です。 - ユーザとは長い付き合いで、フレンドリーに話します。 - 食事の記録を取る仕事に慣れています。 # 対話の流れ - 最初に挨拶します - 昨日の夕飯に何を食べたかを聞きます。 - メインのおかず、主食、副菜、汁物、デザートなどを全部聞き出します。 - ユーザが食べたものについてポジティブなリアクションをします。 - 昨日の夕飯を食べてなかったら、心配そうになぜ食べなかったのか聞きます。 # 対話例システム：こんにちはユーザ：こんにちはシステム：昨日の夕食は何を食べましたか？ユーザ：ハンバーグを食べましたシステム：それは美味しそうですね。ごはんやパンを食べましたがか？ユーザ：ごはんを食べました。システム：ごはんですね。ハンバーグにはやはり白米ですよね。ハンバーグ以外のおかずは食べましたか？ユーザ：付け合わせの野菜とサラダを食べました。システム：サラダは健康的ですね。何か汁物は飲みましたか？ユーザ：スープを飲みました。システム：ハンバーグとごはんと野菜とサラダとスープですね。バランスがとれてますね。今日はありがとうございました。 # 現在までの対話システム：こんにちは。私はあなたの食事の記録係です。昨日の夕食についてお尋ねします。昨日の夕食は何を召し上がりましたか？ユーザ：刺身を食べましたこの部分は実行時に変更

LLMだけを用いて対話システムを作る (3) 2024/6/11 © C4A Research Institute, Inc. 23 S:
こんにちは。私はあなたの食事の記録係です。昨日の夕食についてお尋ねします。昨日の夕食は何を召し上がりましたか？ U: 刺身を食べました S: 刺身、新鮮で美味しそうですね。ごはんやパンなど主食は何を召し上がりましたか？ U: ごはんです S: ごはんと刺身、素敵な組み合わせですね。刺身以外のおかずは何か召し上がりましたか？ U: 冷奴と茄子のそぼろ餡です S: 冷奴と茄子のそぼろ餡、栄養バランスが良さそうですね。何か汁物は召し上がりましたか？ U: いや飲んでないです S: そうですか、汁物は飲まなかったんですね。体には水分も大切ですよ。デザートは何か召し上がりましたか？ U: ちょっとあとでキウイを食べました S: キウイ、ビタミンCが豊富で良いですね。でも、次回は汁物も摂るようにしましょうね。今日はありがとうございました。対話例 OpenAI GPT-4利用

LLMだけを用いた対話システムの問題 • ハルシネーション ◦ 事実と異なることを生成する • 対話の流れをコントロールするのが難しい • DB検索との連携ができない
2024/6/11 © C4A Research Institute, Inc. 24 User: 釜山でお土産買うとしたら何がいいですか？ System: 釜山なら、海鮮を使った加工品や韓国の伝統菓子がおすすめですよ！他に何かご質問はありますか？ User: 韓国の伝統菓子って例えば何ですか？ System: 韓国の伝統菓子といえば、「ヨット*」や「ハングワ」が有名ですね。甘さ控えめでお土産にもピッタリですよ！他に何か質問はありますか？ User: ヨットやハングワってどんなものですか？ System: 「ヨット」は韓国の焼き菓子で、シナモン風味が特徴です。「ハングワ」は色とりどりの伝統的な和菓子ですよ。他に何か質問はありますか？ハルシネーションはRAG (Retrieval- Augmented Generation) を使っても残る *ヤッカの間違いではないかと思われる

LLMを活かした対話アプリケーション • ハルシネーションがあっても大きな問題にならないもの ◦ 英会話練習 ◦ 面接練習 ◦ etc.
2024/6/11 © C4A Research Institute, Inc. 25 正しいことしか言ってはいけないシステムは LLMだけでは作れないインタビューや傾聴は微妙

LLMを用いた言語理解・談話理解 • 例を与えて問題を理解させる • 少量の例で高い精度 2024/6/11 © C4A Research
Institute, Inc. 26 # タスク入力発話を発話タイプに分類するとともに、スロットを抽出してJSON形式で返してください。 # 発話タイプの種類 - 天気を聞く - 気温を聞く # スロットの種類 - 日付 - 地名 # 例 - 入力: “東京の明日の天気を教えて” 出力： {“タイプ”：”天気を聞く” “スロット“: {“日付“: “明日”, “地名”: “東京}} - 入力: “札幌の水曜の最高気温は？” 出力： {“タイプ”：“気温を聞く” “スロット”: {“日付”: “水曜”, “地名”: “札幌}} # 入力 “京都の木曜日の天気が知りたい”

LLMを用いたタスク指向型対話システム 2024/6/11 © C4A Research Institute, Inc. 27 談話理解（スロット抽出）
対話の履歴＋最新のユーザ発話 DB検索発話生成システム発話 LLM LLM Hudeček & Dusek: Are Large Language Models All You Need for Task-Oriented Dialogue?, SIGDIAL 2023 U：新宿のレストラン S：ジャンルを言ってください U：和食がいい S：個室などの希望はありますか？ {”ジャンル”: ”和食”, ”エリア”: ”新宿”} {”ジャンル”: ”和食”, ”エリア”: ”新宿”, “ヒット数”: 165}

LLMを部分的に利用する対話システム • 状態遷移ネットワークの中でLLMを使う 2024/6/11 © C4A Research Institute, Inc. 28
対話の履歴を与えて LLMに条件判定や発話生成を行わせる昨日晩は何を食べましたか？（食べたものに関する雑談発話を生成）（雑談に飽きた）その他（何か食べた）なぜ食べなかったのですか？食べたものをDB に記録（理由を言った）理由をDB に記録その他対話の流れをわかりやすくコントロールできる対話ロボットコンペティション2023の上位のチームはこのタイプが多い LLM LLM LLM LLM 条件判定条件判定生成条件判定

LLMによって可能になったこと • あらゆる入力に対して概ね自然な応答を生成すること • 与えた設定に従って対話をすること • プロンプトを工夫することで、対話に関する様々な知見を考慮した発話生成を行うこと • 簡単に高精度な言語理解部・談話理解部を構築すること
• 対話履歴から簡単に情報を抽出すること 2024/6/11 © C4A Research Institute, Inc. 29

まだできないこと • 確実に正しい応答だけをすること • あらゆる文を正しく理解すること • 理解できないときや答えられないときに、「できない」ということ • テキスト以外の情報を簡単に使うこと 2024/6/11
© C4A Research Institute, Inc. 30

これからの対話システムに必要な技術 2024/6/11 © C4A Research Institute, Inc. 32 LLMの知識ソフトウェ
アエンジニアリング人文科学・社会科学・UX研究の知見プロンプト&ルール • 相手の言葉を繰り返す • ポジティブな反応をする • 適度に自己開示をする • Etc. • システム構築技術 • ツールの知識 • DBとの連携 LLMができること・できないことを理解する

LLMの進化によるマルチモーダル対話の高度化 2024/6/11 © C4A Research Institute, Inc. 33 近い将来できそうなこと
マルチモーダルを扱う基盤モデル（FM）高速化音声、ユーザの顔画像、周りの状況などから、ユーザの意図や感情を統合的に理解音声、エージェントの表情やジェスチャなどを統合的に出力 1対１対話・マルチパーティ対話における自然な話者交替

多観点での評価 2024/6/11 © C4A Research Institute, Inc. 34 研究での評価（ユーザ満足度、ユーザ
体験の一次元評価）これらのバランスを勘案してアーキテクチャと要素技術を決める必要 • 例：使用料収入、対話から得られるユーザの要望を知る、人件費削減オーナー価値（必ずしもユーザ価値と一致しない） • 例：間違ったことをシステムが言うリスク、悪用リスク、個人情報漏洩リスクリスク • 例：人件費、データ収集費、サーバ運用費、外部API利用費システム開発コスト、運用コスト技術進化した対話システムをいろいろな場面で使ってもらうための評価 Nakano et al. Evaluating Dialogue Systems from the System Owners‘ Perspectives, IWSDS 2024 竹内・中野：AIサービスシステムを多観点で評価するための参照モデル, 信学会SC研究会, 2024.6

おわりに • 対話システムが解決できる課題はたくさんある • 大規模言語モデルが対話システム構築のハードルを下げた ◦ 機械学習・統計的言語処理の知識は必須ではない • 課題を認識している人が、対話システム技術者が少し手助けするだけでシステムを構築できるようになる必要
◦ 対話システム構築ツールが重要（DialBBなど） 2024/6/11 © C4A Research Institute, Inc. 35

追記：これからの対話システム研究 • 対話システム研究は四半世紀ぶりのパラダイムシフトを迎えている ◦ 2000年前後に統計モデル・機械学習が使われれるようになった時以来 • 今後は対話システムの構築プロセスや構築ツールなど、定量評価になじまないものも研究する必要が出てくるだろう 2024/6/11 ©
C4A Research Institute, Inc. 37

参考文献 • 袖（編）：[小特集] 身近になった対話システム、情報処理2021年10月号 • 東中、稲葉、水上：Pythonでつくる対話システム、オーム社 • 東中：AIの雑談力、KADOKAWA、2021 • 井上、河原：音声対話システムー基礎から実践までー、オーム社、2022
• 東中：対話システムの作り方、近代科学社、2023 2024/6/11 © C4A Research Institute, Inc. 38

参考資料・サイト • 岡崎：大規模言語モデルの開発、 2024年度人工知能学会全国大会（第38回）チュートリアル講演 • 西田、西田、風戸：大規模言語モデル入門、ソフトウェアエンジニアリングシンポジウム2023 • 対話システムライブコンペティション6
• 対話ロボットコンペティション2023 • 東中：私のブックマーク「対話システム」 • 中野：対話システムシンポジウム10周年記念企画対話システム研究の10年を振り返って：これまでとこれから 2024/6/11 © C4A Research Institute, Inc. 39

武蔵大学 AIの社会浸透研究会第3回公開セミナー大規模言語モデルがもたらす対話システム技術の変革

武蔵大学 AIの社会浸透研究会第3回公開セミナー大規模言語モデルがもたらす対話システム技術の変革

Mikio Nakano

Featured

Transcript