Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第48回MLOps勉強会 - DialOps: リアルタイムかつマルチモーダルな会話AIエージ...

Avatar for sadahry sadahry
January 21, 2025
460

第48回MLOps勉強会 - DialOps: リアルタイムかつマルチモーダルな会話AIエージェントにおける継続的な開発・運用の枠組みの検討と実践

Avatar for sadahry

sadahry

January 21, 2025
Tweet

More Decks by sadahry

Transcript

  1. DialOps : リアルタイム かつマルチモーダル な 会話AIエージェント における 継続的な開発・運用の枠組みの検討と実践 株式会社エキュメノポリス 吉川

    禎洋 Funded by Online Language Learning AI Assistant that Grows with People (JPNP20006), New Energy and Industrial Technology Development Organization (NEDO), 2020-2024. XR Communication Infrastructure for Realizing High-Immersion Interaction Experiences with Conversational AI Agents (JPJ012368C06301), the National Institute of Information and Communications Technology (NICT), 2022-2024.
  2. 2 Introduction | 自己紹介 吉川 禎洋(YOSHIKAWA Sadahiro) @sadahry • 現職:

    リサーチエンジニア ◦ 社会人大学院(JAIST)にて音声対話研究(修士) ◦ 国際会議での登壇経験あり ◦ Kaggle Expert • 前職: データエンジニア ◦ クラウドを中心になんでもやる • 関心: システムとの対話(e.g., 会話のテンポ)を人がどう感じるのか • 好きなプロダクト: BASE Food
  3. Values | Don’t think, just talk! 6 能力を引き出す 対話インタラクション技 術

    InteLLA: Face-to-Faceの会話を通して ユーザーの潜在能力や潜在ニーズを自然 に引き出す。 対話シナリオ・ パーソナライゼーション技術 Plands: 診断結果・学習ゴール・学習履歴に もとづいて英会話カリキュラムを提供。 人の成長を促す診断技術 Gnowsis: 現状分析と次の達成目標までのプ ロセス管理はAIにお任せ。深層学習モデルに より専門家を凌駕する判定精度をマーク。 1. 2. 3. 特許出願済 特許出願済 特許出願済
  4. Introduction | 会話AIエージェント InteLLA - Intelligent Language Learning Assistant [Saeki

    et al. 2024] 英会話におけるスピーキング能力判定と会話練習サービスを教育団体やビジネス業界へ展開 7 [Saeki et al. 2024] Mao Saeki, Hiroaki Takatsu, Fuma Kurata, Shungo Suzuki, Masaki Eguchi, Ryuki Matsuura, Kotaro Takizawa, Sadahiro Yoshikawa, and Yoichi Matsuyama. "InteLLA: Intelligent Language Learning Assistant for Assessing Language Proficiency through Interviews and Roleplays." In Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 385-399. 2024 Best Paper Award.
  5. 8 C ommon E uropean F ramework of R eference

    for Languages Council of Europe, 2001 スピーキング能力判定とは?
  6. 9 Range The variety of vocabulary and grammar the speaker

    can use. Accuracy How correctly the speaker uses language structures (grammar, vocabulary). Coherence How logically ideas are organized and linked in speech. Phonology Pronunciation, intonation, and how well sounds are articulated. Fluency The ability to speak smoothly without unnecessary pauses or hesitation. Interaction The ability to engage with others, responding appropriately and managing conversation. スピーキング能力判定 | CEFRの定義 Overall The combined ability to communicate effectively in spoken language. A1 A2 B1 B2 C1 C2 Beginner Mastery Phonology Coherence Fluency Accuracy Interactio n Range
  7. 能力判定手法 | システムに応用可能な手法 11 A1 A2 B1 B2 C1 C2

    Warm-up Level check Probe Level check Probe Cool down Level Up 対話破綻 対話破綻 Topics CEFR Level ACTFL OPI [Liskin-Gasparro 2003] のプロトコルを基に、システムはユーザーの言語習熟度に応じてトピッ クの複雑さをリアルタイムに調整しながら対話を進める Topic 最近の休日の出来事 について語る、または 身近なテーマについ て意見を述べる [Liskin-Gasparro 2003] J Liskin‐Gasparro, Judith E. "The ACTFL proficiency guidelines and the oral proficiency interview: A brief history and analysis of their survival." Foreign Language Annals 36, no. 4 (2003): 483-490. Level Up
  8. 13 1. リアルタイムな対話戦略 システムは、ユーザーの言語レベルに基づいて質問を調整し、習 熟度を効果的に評価する必要がある 2. マルチモーダルなインタラクション ユーザーは、話題の開始や傾聴の動作など、言語的および非言 語的対話スキルの両方を実証する必要がある 3.

    少ないリソースでの動作 システムはさまざまな環境で動作し、低スペックのクライアントデ バイスからアクセスできる必要がある 能力判定手法 | システムの必要条件 [Saeki et al. 2024] Mao Saeki, Hiroaki Takatsu, Fuma Kurata, Shungo Suzuki, Masaki Eguchi, Ryuki Matsuura, Kotaro Takizawa, Sadahiro Yoshikawa, and Yoichi Matsuyama. "InteLLA: Intelligent Language Learning Assistant for Assessing Language Proficiency through Interviews and Roleplays." In Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 385-399. 2024 Best Paper Award.
  9. 14 Client-side Server-side システム構成 | 会話AIエージェント InteLLA [Saeki et al.

    2024] モジュラー設計 : 複数モジュールを同時に動作させるアーキテクチャを採用し、各モジュールが連携することで高速 なリアルタイム処理を実現 サーバサイドレンダリング : さまざまな環境のクライアントデバイスでの動作を保証するため、バーチャルエージェ ントはサーバレンダリングし、WebRTCによりユーザーとの双方向通信を実現 [Saeki et al. 2024] Mao Saeki, Hiroaki Takatsu, Fuma Kurata, Shungo Suzuki, Masaki Eguchi, Ryuki Matsuura, Kotaro Takizawa, Sadahiro Yoshikawa, and Yoichi Matsuyama. "InteLLA: Intelligent Language Learning Assistant for Assessing Language Proficiency through Interviews and Roleplays." In Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 385-399. 2024 Best Paper Award.
  10. Opsの検討 | DialOps の定義 [Yoshikawa et al. 2024] 16 会話AIエージェントにおける開発と運用の統合(Dialogue

    System Operations)を DevOpsとMLOpsとの違いに着目して整理した [Yoshikawa et al. 2024] Sadahiro Yoshikawa, Mao Saeki, Hiroaki Takatsu, Fuma Kurata and Yoichi Matsuyama, DialOps:大規模な対話システムの継続的開発・運用管理の枠組みの検討と実践 , 第102回言語・音声理解と対話処理研究会, 人工知能学会 (2024)
  11. DialOpsの整理 | DevOps, MLOpsとの共通点 17 DevOps • コミュニケーション ツール活用 •

    アジャイル開発導入 • 進捗管理ツール活用 • ソースコードバージョ ン管理 • 単体テスト • コード承認前テスト • 環境構築のコード化 • 自動ビルド/デプロイ • アプリケーション・イ ンフラの監視 • アラート通知 • インシデント用テンプ レート • etc. MLOps • 学習データ管理 • アノテーション • 特徴量抽出器の開発 • ソースコードバージョ ン管理 • ハイパーパラメータ管 理 • オフライン評価 • 機械学習モデルバー ジョン管理 • インフラのコード化 • GPU供給 • サーバの死活監視 • 自動ビルド/デプロイ • オンライン評価 • etc. 開発方針が決まってしまえばDockerコンテナ群に過ぎないため DevOpsとMLOpsの知見が応用できる [Yoshikawa et al. 2024] Sadahiro Yoshikawa, Mao Saeki, Hiroaki Takatsu, Fuma Kurata and Yoichi Matsuyama, DialOps:大規模な対話システムの継続的開発・運用管理の枠組みの検討と実践 , 第102回言語・音声理解と対話処理研究会, 人工知能学会 (2024)
  12. 18 場当たり的に会話AIエージェントを組み上げてしまうと 長期的な保守の課題と技術負債 [Sculley et al. 2015] の問題が発生しうる -> Opsの重要性

    DialOpsの整理 | MLOpsとの共通点 [Sculley et al. 2015] D. Sculley, Gary Holt, Daniel Golovin, Eugene Davydov, Todd Phillips, Dietmar Ebner, Vinay Chaudhary, Michael Young, Jean-Francois Crespo, and Dan Dennison. Hidden technical debt in machine learning systems. In Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 2, NIPS’15, page 2503–2511, Cambridge, MA, USA, 2015.
  13. 19 ML models: 入力が一定であればその結果は概ね決定論的であり,再現性がある Dialogue Systems: 外部要因の影響で結果が変わるため,再現性が低い • 例1:ネットワーク遅延により一部の対話が聞き取れず,後続の対話に支障が出る •

    例2:キャラクター表現や“AI”に対する印象が悪く,挽回の余地がない • 例3:試験に緊張しすぎてうまく話せない -> 状況把握のための多面的なメトリクス取得が必要 -> 主観的なフィードバックが改善には不可欠 DialOps特有の問題 | システムの外部要因の影響
  14. DialOps特有の問題 | 対話のリアルタイム性 20 ML models: 推論レイテンシは速いほどよい Dialogue Systems: 状況に応じた発話内容・タイミングの推論が必要

    • 例1:速すぎる返答は発話をオーバーラップする [Raux and Eskenazi, 2009] • 例2:発話継続/話者交替の予測 [Sacks 1974, Skantze 2021, Kurata 2023, Inoue 2024] • 例3:0秒で返答することが必ずしも自然ではない [Yoshikawa 2024] -> レイテンシ測定だけでなくそのタイミングや前後の文脈も把握すべき
  15. DialOps特有の問題 | さまざまな時間単位での評価 21 ML models: 入出力データの時系列による評価 Dialogue Systems: さまざまな時間単位での評価

    • 基本単位: 音節,単語,節,文章 [Jurafsky 2000] • 談話単位: 発話権,隣接ペア,主導権,話題 [Sacks 1974] • 非言語・パラ言語: 視線,うなずき [Ward 2000, Kawahara 2013, Ishii 2013, Kobayashi 2013] • 短期から長期の推移: エンゲージメント,ラポール,感情,親密さ [Bickmore 2005, Pecune 2018, Arimoto 2024, Kurata 2024, Jiang 2024] -> ひとつの改善にたいする解析対象の選択肢が多い
  16. DialOpsの実践 | これまでの実践 1〜 100〜 1000〜 10,000〜 同時接続数 時間 研究フェーズ

    オンプレ フェーズ コンテナ化フェーズ スケールフェーズ N = 1 計画・開発 • 1人で設計 • 1人で開発 デリバリー・運用 • Mac上にデプロイ • 映像による確認 リードタイム • 即時反映 デプロイの頻度 • ほぼ毎日 平均修復時間 • 数時間 変更失敗率 • 高
  17. DialOpsの実践 | これまでの実践 1〜 100〜 1000〜 10,000〜 同時接続数 時間 研究フェーズ

    オンプレ フェーズ コンテナ化フェーズ スケールフェーズ N = 2〜100 計画・開発 • 1人で設計 • 2〜3人で開発 デリバリー・運用 • 各Macへデプロイ リードタイム • 1週間~3ヶ月 デプロイの頻度 • 3ヶ月ごと 平均修復時間 • 1週間 変更失敗率 • 60% 計画・開発 • 1人で設計 • 1人で開発 デリバリー・運用 • Mac上にデプロイ • 映像による確認 リードタイム • 即時反映 デプロイの頻度 • ほぼ毎日 平均修復時間 • 数時間 変更失敗率 • 高
  18. DialOpsの実践 | これまでの実践 1〜 100〜 1000〜 10,000〜 同時接続数 時間 研究フェーズ

    オンプレ フェーズ コンテナ化フェーズ スケールフェーズ N = 100〜1000 計画・開発 • 対話設計とシナリオ 設計の分離 • ~15人で開発 デリバリー ・運用 • 自動デプロイ • 映像による確認 • メトリクス監視 リードタイム • 1週間~3ヶ月 デプロイの頻度 • 2週間ごと 平均修復時間 • 数時間 変更失敗率 • ~10% 規模の拡大 • Mac mini から Dockerコンテナへ • オートスケールサービスの導入 • メトリクスによるサービス状態の監視 • 映像評価対象をランダムサンプリング化 • ユーザーフィードバックの自動集計 開発体制の変更 • Agile開発の導入 • シナリオ作成チームの独立 コスト/リスクへの対応 • コンテナイメージサイズ削減 • 推論モジュール量子化 • CGポリゴン最適化 • GPT3.5サービス停止の回避 ユーザーの多様化による対応 • ネットワーク帯域の削減 • ノイズに頑強なターンテイキングモデル • 英会話初心者レベルへの対応
  19. DialOpsの実践 | 騒音ノイズに強い話者交替モデル [Kurata et al. 2023] 25 [Kurata et

    al. 2023] Fuma Kurata, Mao Saeki, Shinya Fujie and Yoichi Matsuyama, Multimodal turn-taking model using visual cues for end-of-utterance prediction in spoken dialogue systems, Proc. Interspeech 2023, pp.2658-2662, 2023. 会話中の騒音への対処は大きな課題のひとつであり、その問題へ対処したモデル
  20. DialOpsの実践 | これからの実践 1〜 100〜 1000〜 10,000〜 同時接続数 時間 研究フェーズ

    オンプレ フェーズ コンテナ化フェーズ スケールフェーズ N = 10,000〜 • 新キャラクターの実装 • 対話戦略の拡大 • 対話機能リリース前の 自動テスト • 詳細なフィードバック の収集と自動対話評価 • 外部要因を除外できる 対話評価・分析基盤 計画・開発 • 対話設計とシナリオ 設計の分離 • ~15人で開発 デリバリー ・運用 • 自動デプロイ • 映像による確認 • メトリクス監視 リードタイム • 1週間~3ヶ月 デプロイの頻度 • 2週間ごと 平均修復時間 • 数時間 変更失敗率 • ~10% 計画・開発 • 1人で設計 • 1人で開発 デリバリー・運用 • Mac上にデプロイ • 映像による確認 リードタイム • 即時反映 デプロイの頻度 • ほぼ毎日 平均修復時間 • 数時間 変更失敗率 • 高 計画・開発 • 1人で設計 • 2〜3人で開発 デリバリー・運用 • 各Macへデプロイ リードタイム • 1週間~3ヶ月 デプロイの頻度 • 3ヶ月ごと 平均修復時間 • 1週間 変更失敗率 • 60%
  21. 今後の展望 | 対話戦略の拡大とその分析基盤 28 今後、幅広いユーザーのニーズに深く対応していくための研究・開発を進めていく そして、新たな対話戦略には新たな改善指標、便利な分析基盤が必要となる e.g., 対話改善 • ユーザーのインタラクションを引き出す対話戦略

    • 複数キャラクターの実装 • 新たなスピーキング能力判定 e.g., 分析基盤 • ユーザーからのフィードバックデータの収集 • 外部要因(e.g., 騒音, ネットワーク遅延, 緊張)の考慮 • 対話に利用されるMLモデルの継続的な評価基盤
  22. We are hiring!! 32 • MLOpsエンジニア... 話者交替/対話破綻/能力判定モデルの継続的な精度保証 • リサーチサイエンティスト... 対話戦略の研究開発

    • フルスタックエンジニア... デバッグUIやシミュレータなど開発自動化/効率化の推進 • データエンジニア... 対話分析基盤の拡張 以下も募集中です! • MLインフラやWebRTCインフラ構築に興味がある方 • ゲームエンジンや低レイヤでのシステム最適化の経験がある方