第48回MLOps勉強会 - DialOps: リアルタイムかつマルチモーダルな会話AIエージェントにおける継続的な開発・運用の枠組みの検討と実践

DialOps : リアルタイムかつマルチモーダルな会話AIエージェントにおける継続的な開発・運用の枠組みの検討と実践株式会社エキュメノポリス吉川
禎洋 Funded by Online Language Learning AI Assistant that Grows with People (JPNP20006), New Energy and Industrial Technology Development Organization (NEDO), 2020-2024. XR Communication Infrastructure for Realizing High-Immersion Interaction Experiences with Conversational AI Agents (JPJ012368C06301), the National Institute of Information and Communications Technology (NICT), 2022-2024.

2 Introduction | 自己紹介吉川禎洋（YOSHIKAWA Sadahiro） @sadahry • 現職:
リサーチエンジニア ◦ 社会人大学院（JAIST）にて音声対話研究（修士） ◦ 国際会議での登壇経験あり ◦ Kaggle Expert • 前職: データエンジニア ◦ クラウドを中心になんでもやる • 関心: システムとの対話（e.g., 会話のテンポ）を人がどう感じるのか • 好きなプロダクト: BASE Food

Introduction | 会社紹介 2022年5月創業早稲田大学発スタートアップ

Introduction | 研究実績国際学会で日本初のBest Paper賞

Don’t think. Just talk! あなたをよく知るAIパートナーとの日々の会話をするだけ Introduction | プロダクト

Values | Don’t think, just talk! 6 能力を引き出す対話インタラクション技術
InteLLA: Face-to-Faceの会話を通してユーザーの潜在能力や潜在ニーズを自然に引き出す。対話シナリオ・パーソナライゼーション技術 Plands: 診断結果・学習ゴール・学習履歴にもとづいて英会話カリキュラムを提供。人の成長を促す診断技術 Gnowsis: 現状分析と次の達成目標までのプロセス管理はAIにお任せ。深層学習モデルにより専門家を凌駕する判定精度をマーク。 1. 2. 3. 特許出願済特許出願済特許出願済

Introduction | 会話AIエージェント InteLLA - Intelligent Language Learning Assistant [Saeki
et al. 2024] 英会話におけるスピーキング能力判定と会話練習サービスを教育団体やビジネス業界へ展開 7 [Saeki et al. 2024] Mao Saeki, Hiroaki Takatsu, Fuma Kurata, Shungo Suzuki, Masaki Eguchi, Ryuki Matsuura, Kotaro Takizawa, Sadahiro Yoshikawa, and Yoichi Matsuyama. "InteLLA: Intelligent Language Learning Assistant for Assessing Language Proﬁciency through Interviews and Roleplays." In Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 385-399. 2024 Best Paper Award.

8 C ommon E uropean F ramework of R eference
for Languages Council of Europe, 2001 スピーキング能力判定とは？

9 Range The variety of vocabulary and grammar the speaker
can use. Accuracy How correctly the speaker uses language structures (grammar, vocabulary). Coherence How logically ideas are organized and linked in speech. Phonology Pronunciation, intonation, and how well sounds are articulated. Fluency The ability to speak smoothly without unnecessary pauses or hesitation. Interaction The ability to engage with others, responding appropriately and managing conversation. スピーキング能力判定 | CEFRの定義 Overall The combined ability to communicate effectively in spoken language. A1 A2 B1 B2 C1 C2 Beginner Mastery Phonology Coherence Fluency Accuracy Interactio n Range

10 Interviewer Interviewee(s) 能力判定手法 | 人による能力判定 • OPI では言語レベルの上限を観察
• 言語レベルの上限は言語的な破綻によって導かれうる

能力判定手法 | システムに応用可能な手法 11 A1 A2 B1 B2 C1 C2
Warm-up Level check Probe Level check Probe Cool down Level Up 対話破綻対話破綻 Topics CEFR Level ACTFL OPI [Liskin-Gasparro 2003] のプロトコルを基に、システムはユーザーの言語習熟度に応じてトピックの複雑さをリアルタイムに調整しながら対話を進める Topic 最近の休日の出来事について語る、または身近なテーマについて意見を述べる [Liskin-Gasparro 2003] J Liskin‐Gasparro, Judith E. "The ACTFL proﬁciency guidelines and the oral proﬁciency interview: A brief history and analysis of their survival." Foreign Language Annals 36, no. 4 (2003): 483-490. Level Up

12 能力判定手法 | デモ映像

13 1. リアルタイムな対話戦略システムは、ユーザーの言語レベルに基づいて質問を調整し、習熟度を効果的に評価する必要がある 2. マルチモーダルなインタラクションユーザーは、話題の開始や傾聴の動作など、言語的および非言語的対話スキルの両方を実証する必要がある 3.
少ないリソースでの動作システムはさまざまな環境で動作し、低スペックのクライアントデバイスからアクセスできる必要がある能力判定手法 | システムの必要条件 [Saeki et al. 2024] Mao Saeki, Hiroaki Takatsu, Fuma Kurata, Shungo Suzuki, Masaki Eguchi, Ryuki Matsuura, Kotaro Takizawa, Sadahiro Yoshikawa, and Yoichi Matsuyama. "InteLLA: Intelligent Language Learning Assistant for Assessing Language Proﬁciency through Interviews and Roleplays." In Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 385-399. 2024 Best Paper Award.

14 Client-side Server-side システム構成 | 会話AIエージェント InteLLA [Saeki et al.
2024] モジュラー設計 : 複数モジュールを同時に動作させるアーキテクチャを採用し、各モジュールが連携することで高速なリアルタイム処理を実現サーバサイドレンダリング : さまざまな環境のクライアントデバイスでの動作を保証するため、バーチャルエージェントはサーバレンダリングし、WebRTCによりユーザーとの双方向通信を実現 [Saeki et al. 2024] Mao Saeki, Hiroaki Takatsu, Fuma Kurata, Shungo Suzuki, Masaki Eguchi, Ryuki Matsuura, Kotaro Takizawa, Sadahiro Yoshikawa, and Yoichi Matsuyama. "InteLLA: Intelligent Language Learning Assistant for Assessing Language Proﬁciency through Interviews and Roleplays." In Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 385-399. 2024 Best Paper Award.

Opsの検討 | 継続的な開発・運用の方法論の不在 15 これまで対話研究領域のなかで大規模な商用化はされてこなかったため、会話AIエージェントの開発と運用の方法論は語られてこなかった。

Opsの検討 | DialOps の定義 [Yoshikawa et al. 2024] 16 会話AIエージェントにおける開発と運用の統合（Dialogue
System Operations）を DevOpsとMLOpsとの違いに着目して整理した [Yoshikawa et al. 2024] Sadahiro Yoshikawa, Mao Saeki, Hiroaki Takatsu, Fuma Kurata and Yoichi Matsuyama, DialOps：大規模な対話システムの継続的開発・運用管理の枠組みの検討と実践 , 第102回言語・音声理解と対話処理研究会, 人工知能学会 (2024)

DialOpsの整理 | DevOps, MLOpsとの共通点 17 DevOps • コミュニケーションツール活用 •
アジャイル開発導入 • 進捗管理ツール活用 • ソースコードバージョン管理 • 単体テスト • コード承認前テスト • 環境構築のコード化 • 自動ビルド/デプロイ • アプリケーション・インフラの監視 • アラート通知 • インシデント用テンプレート • etc. MLOps • 学習データ管理 • アノテーション • 特徴量抽出器の開発 • ソースコードバージョン管理 • ハイパーパラメータ管理 • オフライン評価 • 機械学習モデルバージョン管理 • インフラのコード化 • GPU供給 • サーバの死活監視 • 自動ビルド/デプロイ • オンライン評価 • etc. 開発方針が決まってしまえばDockerコンテナ群に過ぎないため DevOpsとMLOpsの知見が応用できる [Yoshikawa et al. 2024] Sadahiro Yoshikawa, Mao Saeki, Hiroaki Takatsu, Fuma Kurata and Yoichi Matsuyama, DialOps：大規模な対話システムの継続的開発・運用管理の枠組みの検討と実践 , 第102回言語・音声理解と対話処理研究会, 人工知能学会 (2024)

18 場当たり的に会話AIエージェントを組み上げてしまうと長期的な保守の課題と技術負債 [Sculley et al. 2015] の問題が発生しうる -> Opsの重要性
DialOpsの整理 | MLOpsとの共通点 [Sculley et al. 2015] D. Sculley, Gary Holt, Daniel Golovin, Eugene Davydov, Todd Phillips, Dietmar Ebner, Vinay Chaudhary, Michael Young, Jean-Francois Crespo, and Dan Dennison. Hidden technical debt in machine learning systems. In Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 2, NIPS’15, page 2503–2511, Cambridge, MA, USA, 2015.

19 ML models: 入力が一定であればその結果は概ね決定論的であり，再現性がある Dialogue Systems: 外部要因の影響で結果が変わるため，再現性が低い • 例１：ネットワーク遅延により一部の対話が聞き取れず，後続の対話に支障が出る •
例２：キャラクター表現や“AI”に対する印象が悪く，挽回の余地がない • 例３：試験に緊張しすぎてうまく話せない -> 状況把握のための多面的なメトリクス取得が必要 -> 主観的なフィードバックが改善には不可欠 DialOps特有の問題 | システムの外部要因の影響

DialOps特有の問題 | 対話のリアルタイム性 20 ML models: 推論レイテンシは速いほどよい Dialogue Systems: 状況に応じた発話内容・タイミングの推論が必要
• 例１：速すぎる返答は発話をオーバーラップする [Raux and Eskenazi, 2009] • 例２：発話継続/話者交替の予測 [Sacks 1974, Skantze 2021, Kurata 2023, Inoue 2024] • 例３：0秒で返答することが必ずしも自然ではない [Yoshikawa 2024] -> レイテンシ測定だけでなくそのタイミングや前後の文脈も把握すべき

DialOps特有の問題 | さまざまな時間単位での評価 21 ML models: 入出力データの時系列による評価 Dialogue Systems: さまざまな時間単位での評価
• 基本単位: 音節，単語，節，文章 [Jurafsky 2000] • 談話単位: 発話権，隣接ペア，主導権，話題 [Sacks 1974] • 非言語・パラ言語: 視線，うなずき [Ward 2000, Kawahara 2013, Ishii 2013, Kobayashi 2013] • 短期から長期の推移: エンゲージメント，ラポール，感情，親密さ [Bickmore 2005, Pecune 2018, Arimoto 2024, Kurata 2024, Jiang 2024] -> ひとつの改善にたいする解析対象の選択肢が多い

DialOpsの実践 | これまでの実践 1〜 100〜 1000〜 10,000〜同時接続数時間研究フェーズ
オンプレフェーズコンテナ化フェーズスケールフェーズ N = 1 計画・開発 • １人で設計 • １人で開発デリバリー・運用 • Mac上にデプロイ • 映像による確認リードタイム • 即時反映デプロイの頻度 • ほぼ毎日平均修復時間 • 数時間変更失敗率 • 高

オンプレフェーズコンテナ化フェーズスケールフェーズ N = 2〜100 計画・開発 • １人で設計 • ２〜３人で開発デリバリー・運用 • 各Macへデプロイリードタイム • 1週間~3ヶ月デプロイの頻度 • 3ヶ月ごと平均修復時間 • １週間変更失敗率 • 60% 計画・開発 • １人で設計 • １人で開発デリバリー・運用 • Mac上にデプロイ • 映像による確認リードタイム • 即時反映デプロイの頻度 • ほぼ毎日平均修復時間 • 数時間変更失敗率 • 高

オンプレフェーズコンテナ化フェーズスケールフェーズ N = 100〜1000 計画・開発 • 対話設計とシナリオ設計の分離 • ~15人で開発デリバリー・運用 • 自動デプロイ • 映像による確認 • メトリクス監視リードタイム • 1週間~3ヶ月デプロイの頻度 • 2週間ごと平均修復時間 • 数時間変更失敗率 • ~10% 規模の拡大 • Mac mini から Dockerコンテナへ • オートスケールサービスの導入 • メトリクスによるサービス状態の監視 • 映像評価対象をランダムサンプリング化 • ユーザーフィードバックの自動集計開発体制の変更 • Agile開発の導入 • シナリオ作成チームの独立コスト/リスクへの対応 • コンテナイメージサイズ削減 • 推論モジュール量子化 • CGポリゴン最適化 • GPT3.5サービス停止の回避ユーザーの多様化による対応 • ネットワーク帯域の削減 • ノイズに頑強なターンテイキングモデル • 英会話初心者レベルへの対応

DialOpsの実践 | 騒音ノイズに強い話者交替モデル [Kurata et al. 2023] 25 [Kurata et
al. 2023] Fuma Kurata, Mao Saeki, Shinya Fujie and Yoichi Matsuyama, Multimodal turn-taking model using visual cues for end-of-utterance prediction in spoken dialogue systems, Proc. Interspeech 2023, pp.2658-2662, 2023. 会話中の騒音への対処は大きな課題のひとつであり、その問題へ対処したモデル

DialOpsの実践 | 低コストな改善アプローチ 26 会話AIエージェントの抜本的な改善や機能追加には時間を要するケースが多い高速にイテレーションを回すため、抜本的な修正の前にすぐ導入できる工夫を採用するケースもある • e.g.1, 会話練習: 初学者向けの聞き返し例の提示
• e.g.2, 会話練習: 音量の可視化による発話の促進

DialOpsの実践 | これからの実践 1〜 100〜 1000〜 10,000〜同時接続数時間研究フェーズ
オンプレフェーズコンテナ化フェーズスケールフェーズ N = 10,000〜 • 新キャラクターの実装 • 対話戦略の拡大 • 対話機能リリース前の自動テスト • 詳細なフィードバックの収集と自動対話評価 • 外部要因を除外できる対話評価・分析基盤計画・開発 • 対話設計とシナリオ設計の分離 • ~15人で開発デリバリー・運用 • 自動デプロイ • 映像による確認 • メトリクス監視リードタイム • 1週間~3ヶ月デプロイの頻度 • 2週間ごと平均修復時間 • 数時間変更失敗率 • ~10% 計画・開発 • １人で設計 • １人で開発デリバリー・運用 • Mac上にデプロイ • 映像による確認リードタイム • 即時反映デプロイの頻度 • ほぼ毎日平均修復時間 • 数時間変更失敗率 • 高計画・開発 • １人で設計 • ２〜３人で開発デリバリー・運用 • 各Macへデプロイリードタイム • 1週間~3ヶ月デプロイの頻度 • 3ヶ月ごと平均修復時間 • １週間変更失敗率 • 60%

今後の展望 | 対話戦略の拡大とその分析基盤 28 今後、幅広いユーザーのニーズに深く対応していくための研究・開発を進めていくそして、新たな対話戦略には新たな改善指標、便利な分析基盤が必要となる e.g., 対話改善 • ユーザーのインタラクションを引き出す対話戦略
• 複数キャラクターの実装 • 新たなスピーキング能力判定 e.g., 分析基盤 • ユーザーからのフィードバックデータの収集 • 外部要因（e.g., 騒音, ネットワーク遅延, 緊張）の考慮 • 対話に利用されるMLモデルの継続的な評価基盤

今後の展望 | 会話AIエージェントの信頼性保証 29 ユーザー規模の拡大とハイステークテストの要望に答えるため会話AIエージェントの信頼性を更に向上していく e.g., • SLA/SLOの厳格化 •
エラーバジェットの導入 • オブザーバビリティの向上 • 会話AIエージェント機能の標準化

今後の展望 | 開発自動化/効率化 30 ニーズや機能の多様化に対応するためデプロイ頻度を向上させる e.g., • 多様な会話シナリオの作成自動化 • 新規キャラクター作成の効率化

今後の展望 | リリース前の動作テストの改善 31 高頻度な機能強化はリードタイムと変更失敗率が悪化するリスクがある特にリリース前の動作テストの改善が求められる e.g., • デバッグUIの拡張 •
自動テストの拡張 • マルチモーダルシミュレータの構築

We are hiring!! 32 • MLOpsエンジニア... 話者交替/対話破綻/能力判定モデルの継続的な精度保証 • リサーチサイエンティスト... 対話戦略の研究開発
• フルスタックエンジニア... デバッグUIやシミュレータなど開発自動化/効率化の推進 • データエンジニア... 対話分析基盤の拡張以下も募集中です！ • MLインフラやWebRTCインフラ構築に興味がある方 • ゲームエンジンや低レイヤでのシステム最適化の経験がある方

ありがとうございました！採用 https://equ.ai/careers 33 カジュアル面談（DMください） https://x.com/sadahry

第48回MLOps勉強会 - DialOps: リアルタイムかつマルチモーダルな会話AIエージ...

第48回MLOps勉強会 - DialOps: リアルタイムかつマルチモーダルな会話AIエージェントにおける継続的な開発・運用の枠組みの検討と実践

Sadahiro Yoshikawa

More Decks by Sadahiro Yoshikawa

Other Decks in Technology

Featured

Transcript

DialOps : リアルタイムかつマルチモーダルな会話AIエージェントにおける継続的な開発・運用の枠組みの検討と実践株式会社エキュメノポリス吉川

2 Introduction | 自己紹介吉川禎洋（YOSHIKAWA Sadahiro） @sadahry • 現職:

Introduction | 会社紹介 2022年5月創業早稲田大学発スタートアップ

Introduction | 研究実績国際学会で日本初のBest Paper賞

Don’t think. Just talk! あなたをよく知るAIパートナーとの日々の会話をするだけ Introduction | プロダクト

Values | Don’t think, just talk! 6 能力を引き出す対話インタラクション技術

Introduction | 会話AIエージェント InteLLA - Intelligent Language Learning Assistant [Saeki

8 C ommon E uropean F ramework of R eference

9 Range The variety of vocabulary and grammar the speaker

10 Interviewer Interviewee(s) 能力判定手法 | 人による能力判定 • OPI では言語レベルの上限を観察

能力判定手法 | システムに応用可能な手法 11 A1 A2 B1 B2 C1 C2

12 能力判定手法 | デモ映像

14 Client-side Server-side システム構成 | 会話AIエージェント InteLLA [Saeki et al.

Opsの検討 | 継続的な開発・運用の方法論の不在 15 これまで対話研究領域のなかで大規模な商用化はされてこなかったため、会話AIエージェントの開発と運用の方法論は語られてこなかった。

Opsの検討 | DialOps の定義 [Yoshikawa et al. 2024] 16 会話AIエージェントにおける開発と運用の統合（Dialogue

DialOpsの整理 | DevOps, MLOpsとの共通点 17 DevOps • コミュニケーションツール活用 •

18 場当たり的に会話AIエージェントを組み上げてしまうと長期的な保守の課題と技術負債 [Sculley et al. 2015] の問題が発生しうる -> Opsの重要性

DialOps特有の問題 | 対話のリアルタイム性 20 ML models: 推論レイテンシは速いほどよい Dialogue Systems: 状況に応じた発話内容・タイミングの推論が必要

DialOps特有の問題 | さまざまな時間単位での評価 21 ML models: 入出力データの時系列による評価 Dialogue Systems: さまざまな時間単位での評価

DialOpsの実践 | これまでの実践 1〜 100〜 1000〜 10,000〜同時接続数時間研究フェーズ

DialOpsの実践 | これまでの実践 1〜 100〜 1000〜 10,000〜同時接続数時間研究フェーズ

DialOpsの実践 | これまでの実践 1〜 100〜 1000〜 10,000〜同時接続数時間研究フェーズ

DialOpsの実践 | 騒音ノイズに強い話者交替モデル [Kurata et al. 2023] 25 [Kurata et

DialOpsの実践 | これからの実践 1〜 100〜 1000〜 10,000〜同時接続数時間研究フェーズ

今後の展望 | 会話AIエージェントの信頼性保証 29 ユーザー規模の拡大とハイステークテストの要望に答えるため会話AIエージェントの信頼性を更に向上していく e.g., • SLA/SLOの厳格化 •

今後の展望 | 開発自動化/効率化 30 ニーズや機能の多様化に対応するためデプロイ頻度を向上させる e.g., • 多様な会話シナリオの作成自動化 • 新規キャラクター作成の効率化

今後の展望 | リリース前の動作テストの改善 31 高頻度な機能強化はリードタイムと変更失敗率が悪化するリスクがある特にリリース前の動作テストの改善が求められる e.g., • デバッグUIの拡張 •

We are hiring!! 32 • MLOpsエンジニア... 話者交替/対話破綻/能力判定モデルの継続的な精度保証 • リサーチサイエンティスト... 対話戦略の研究開発

ありがとうございました！採用 https://equ.ai/careers 33 カジュアル面談（DMください） https://x.com/sadahry