Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について

Ken57
January 21, 2025

AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について

AWS ML-Loftの発表資料です。
https://ml-loft.connpass.com/event/342058/

Ken57

January 21, 2025
Tweet

More Decks by Ken57

Other Decks in Research

Transcript

  1. Copyright © RevComm Inc. contents 1. 自己紹介 2. 会社紹介 3.

    MiiTelの概要 4. MiiTelでの音声処理の流れと研究紹介 5. LLMを用いた音声モデルの学習データ生成 6. まとめ
  2. Copyright © RevComm Inc. 自己紹介 3 • 2007年3月 筑波大学大学院博士前期課程卒業 •

    2007年4月 - 2010年3月 日本ヒューレット・パッカード株式会社 • 2010年4月 - 2013年3月 筑波大学大学院博士後期課程 • 2013年4月 - 2019年12月 株式会社ドワンゴ • 2019年12月 - 株式会社RevComm 略歴 発表者 石塚 賢吉, 博士(工学), プリンシパルリサーチエンジニア 職務 • 初期はMiiTelの全文検索、音声認識、単語頻度ダッシュボードの機能開発など 様々なタスクを担当していた • 現在はMiiTelの音声処理周りの研究開発に集中している
  3. Copyright © RevComm Inc. MiiTelとは 7 MiiTel が提供する価値 音声解析プラットフォーマーとして会話の可視化と解析を通じ、企業の生産性と売上向上に貢献します。 ラストワンマイルの会話をビックデータとして資産化し、各企業におけるAI活用の可能性を最大化していきます。

    ダッシュボード(統計表示) 文字起こし ビッグデータ化・資産化 ビジネス音声コミュニケーション 商談状況の把握・共有 商談成功・失敗要因の特定 商談の蓄積 トーク解析 感情認識 出現単語 トレンド分析 生成AI 議事録作成 Web会議 対面での 会議 電話 録音・録画 気づき AI解析 議事録の自動作成 営業活動の分類・共有 業務の効率化 スキルレベルの可視化 セルフコーチングによる成長 コミュニケーションスキル向上
  4. Copyright © RevComm Inc. MiiTelの音声処理の概要 (話者ダイヤリゼーション) 10 話者ダイヤリゼーション 音声認識結果を利用しない音声解析処理 音声認識

    音声認識結果を利用する音声解析処理 DB • MiiTelでは大きく分けて2タイプの音声データを扱う ◦ 1chに複数の人の発話音声が含まれる音声 ▪ RecPod (スマートフォンによる録音) ▪ 話者ごとに録音された音声データを提供 していないアプリなど (ZoomPhone, etc ) ◦ 話者ごとに録音された多チャンネルの音声 ▪ MiiTel Phone ▪ 話者ごとに録音された音声データを提供 しているアプリなど (Zoom, etc)
  5. Copyright © RevComm Inc. 話者ダイヤリゼーション(Speaker Diarization)の処理の流れ 13 Speech Speech Speech

    Speech Speech Speech Speech Speech Speech Speech Activity Detection Speaker Change Detection 入力された 音声信号
  6. Copyright © RevComm Inc. 話者ダイヤリゼーション(Speaker Diarization)の処理の流れ 14 Speech Speech Speech

    Speech Speech Speech Speech Speech Speech Speech Activity Detection Speaker Change Detection Speech Turn Representation 入力された 音声信号
  7. Copyright © RevComm Inc. 話者ダイヤリゼーション(Speaker Diarization)の処理の流れ 15 Speech Speech Speech

    Speech Speech Speech Speech Speech Speech Speaker A Speaker A Speaker C Speaker C Speaker B Speech Activity Detection Speaker Change Detection Speech Turn Representation Speech Turn Clustering 入力された 音声信号
  8. Copyright © RevComm Inc. RevCommでの話者ダイヤリゼーションの研究紹介 • 下記の状況下で、いつ、誰が話しているかを精度良く推定できないことがある ◦ 音声品質が悪い ◦

    複数の似た声質の話者が話している • 話者ダイヤリゼーションが上手くいかない時のユーザからのクレームへの対処には コストがかかりがち ◦ ユーザからは「音声認識ができていない」などの曖昧な表現でのクレームが来る ◦ 下記の切り分けが必要となり、エンジニアが駆り出される ▪ システムトラブルか? ▪ 話者ダイヤリゼーションの問題? ▪ 音声認識の問題? 16 参考: 石塚賢吉, Chang Zeng, 大野正樹, 橋本泰一, 音声品質と話者の声質の特徴量に基づいた Speaker Diarization Error Rate の自動推定, 日本音響学会第153回(2025年春季)研究発表会
  9. Copyright © RevComm Inc. RevCommでの話者ダイヤリゼーションの研究紹介 • 音声信号を入力として、音声品質の特徴量と、話者の声質の特徴量から話者ダイヤリゼーションの エラー率(Diarization Error Rate)を自動推定する研究を行っている

    ◦ 「音声品質と話者の声質の特徴量に基づいた Speaker Diarization Error Rate の自動推定」 というタイトルで2025年春の音響学会で発表予定 17 参考: 石塚賢吉, Chang Zeng, 大野正樹, 橋本泰一, 音声品質と話者の声質の特徴量に基づいた Speaker Diarization Error Rate の自動推定, 日本音響学会第153回(2025年春季)研究発表会 Audio Signal Audio Quality Feature Extracter Speaker’s Voice Characteristics Feature Extracter Regression Model Diarization Error Rate
  10. Copyright © RevComm Inc. MiiTelの音声処理の概要 (話者ダイヤリゼーションのまとめ) 18 話者ダイヤリゼーション 音声認識結果を利用しない音声解析処理 音声認識

    音声認識結果を利用する音声解析処理 DB 話者ダイヤリゼーションのまとめ • 話者ダイヤリゼーションとは、音声信号を入力として いつ、誰が話しているかを推定する処理である • 音声品質が悪いとき、複数の似た声質の話者が 話している時の精度に課題あり
  11. Copyright © RevComm Inc. MiiTelの音声処理の概要 (音声認識結果を利用しない音声解析処理) 19 話者ダイヤリゼーション 音声認識結果を利用しない音声解析処理 音声認識

    音声認識結果を利用する音声解析処理 DB • 音声認識結果を利用しない 解析処理の例 ◦ Volume解析 ◦ 保留音判定 ◦ 留守電判定 ◦ 無音、被り判定 ◦ 基本周波数・抑揚算出 ◦ Talk・Listen比率
  12. Copyright © RevComm Inc. MiiTelの音声処理の概要 (音声認識) 20 話者ダイヤリゼーション 音声認識結果を利用しない音声解析処理 音声認識

    音声認識結果を利用する音声解析処理 DB • 話者ダイヤリゼーションで得られた 音声区間ごとに音声認識を実行
  13. Copyright © RevComm Inc. 音声認識モデルの種類 21 CTC Transducer Attention Encoder-Decoder

    • Encoderの出力をもとにフレーム ごとのトークンを予測する • 計算コスト: 小 • Joint Networkを通じて過去の出力とコ ンテクストを利用して次の出力を予測す る ◦ コンテクストを活用できる • 計算コスト: 中 • End2endの音声認識モデルが主流になっている。 Softmax Encoder H(X) Prediction Network Joint Network Softmax Encoder H(X) Decoder Attention Softmax Encoder H(X) ・・・ • Attentionメカニズムを用いて、 デコーダがエンコーダのすべての出力 を参照しながら出力を生成する ◦ コンテクストを効果的に活用できる • 計算コスト: 大 ◦ 音声の長さと出力の長さに応じて 計算コストが指数関数的に増加する
  14. Copyright © RevComm Inc. 音声認識モデルの種類 22 CTC Transducer Attention Encoder-Decoder

    • Encoderの出力をもとにフレーム ごとのトークンを予測する • 計算コスト: 小 • Joint Networkを通じて過去の出力とコ ンテクストを利用して次の出力を予測す る ◦ コンテクストを活用できる • 計算コスト: 中 • End2endの音声認識モデルが主流になっている。 Softmax Prediction Network Joint Network Softmax Encoder H(X) Decoder Attention Softmax Encoder H(X) ・・・ • Attentionメカニズムを用いて、 デコーダがエンコーダのすべての出力 を参照しながら出力を生成する ◦ コンテクストを効果的に活用できる • 計算コスト: 大 ◦ 音声の長さと出力の長さに応じて 計算コストが指数関数的に増加する Encoder H(X) • Encoderについては、様々なモデルが提案されている ◦ Transformer ◦ Conformer ◦ E-Branchformer, Zipformer, FastConformer, etc. • 学習データやNNのパラメータサイズだけでなく、こうしたモデル構造の差も 音声認識の精度と計算コストに影響する
  15. Copyright © RevComm Inc. MiiTelの音声認識 23 • MiiTelの音声認識では、バッチ音声認識、リアルタイム音声認識、多言語音声認識など 用途に応じて音声認識モデルを使い分けている ◦

    MiiTel Phoneでは、1日約30万件, 約1万時間の通話を処理している (※1) ◦ Whisper large-v3などをベースとするモデルは、高精度で多言語の音声認識が可能だが、 モデルが巨大であるため、計算コストが大きい • MiiTelでの日本語の音声認識については、RevCommで構築した軽量なモデルで 音声認識している ◦ MiiTelの通話内容を人手で書き起こして、独自の音声コーパスを構築し、 音声認識モデルを学習している ◦ 推論エンジン (ONNX, OpenVINO)による高速化にも取り組んでいる ※1: 2024年12月のデータから算出
  16. Copyright © RevComm Inc. MiiTelの日本語の音声認識モデルの精度 24 ▼音声認識正答率(自主調査結果) RevComm A社 B社

    C社 D社 94.2% 89.1% 86.8% 78.6% 78.1% 76.0% E社 ▼高い音声認識率の背景   • 累計2億回を超えるビジネス領域特化の音声データ蓄積 • トップクラスの学術機関との共同研究開発実績 自主調査内容: ・RevCommの音声認識モデルと他社API・モデルの精度を比較 ・評価指標:正解テキストと音声認識モデルの認識したテキストを比較し、       文字単位で誤りがあった割合を算出。100%からその割合を引いたもの 日本語のビジネス対話領域で、グローバルIT大手、国内大手の音声認識モデルを超える音声認識精度を実現しています。
  17. Copyright © RevComm Inc. MiiTelの日本語の音声認識モデルの特徴 25 • MiiTelの通話内容を人手で書き起こして、独自の音声コーパスを構築し、 音声認識モデルを学習している ◦

    ビジネスドメインの表現に強い ◦ 営業の電話応対の評価を行うために、話し言葉の言い淀みや繰り返しを 聞こえた通りに書き起こせる
  18. Copyright © RevComm Inc. RevCommでの音声認識関連の研究紹介 26 • End-to-end speech-to-punctuated-text recognition

    (J.Nozaki, Interspeech2022) ◦ 従来の音声認識システムの出力するテキストには句読点が含まれないため、 音声認識処理の後段でテキスト情報から句読点を予測するモデルを用いて句読点を 挿入するのが一般的であった ◦ 音声を入力として句読点の付いたテキストをEnd-to-Endで認識するモデルを考案した ▪ 音響情報を使用しながら頑健に句読点を予測することで、音声認識エラー率を 犠牲にすることなく、従来方式よりも高い句読点予測精度を実現した 参考: J.Nozaki, T.Kawahara, K.Ishizuka, and T.Hashimoto. End-to-end speech-to-punctuated-text recognition. In Proc. Interspeech 2022. 従来方 式 提案方式
  19. Copyright © RevComm Inc. MiiTelの音声処理の概要 (音声認識まとめ) 27 話者ダイヤリゼーション 音声認識結果を利用しない解析処理 音声認識

    音声認識結果を利用する解析処理 DB 音声認識のまとめ • 音声認識モデルの精度とスピードに特に影響する要素 ◦ 学習データ ◦ モデルサイズ ◦ モデル構造 • MiiTelの日本語音声認識モデルの特徴 ◦ 軽量 ◦ ビジネス語彙に強く、話し言葉の言い淀みなども 聞こえた通りに書き起こす
  20. Copyright © RevComm Inc. MiiTelの音声処理の概要 (音声感情認識) 28 話者ダイヤリゼーション 音声認識結果を利用しない解析処理 音声認識

    音声認識結果を利用する解析処理 DB • 音声認識結果を利用する解析処理の例 ◦ 音声感情認識 ◦ キーワードマッチング ◦ 話速
  21. Copyright © RevComm Inc. MiiTelの音声処理の概要 (音声感情認識) 29 話者ダイヤリゼーション 音声認識結果を利用しない解析処理 音声認識

    音声認識結果を利用する解析処理 DB • 音声認識結果を利用する解析処理の例 ◦ 音声感情認識 ◦ キーワードマッチング ◦ 話速
  22. Copyright © RevComm Inc. 音声感情認識 30 • 音声とテキストを利用した音声感情認識の手法 ◦ テキスト:

    音声認識結果 ◦ State of the artな手法 [Mirsamadi+, 2017] ▪ BLSTMで時系列的な情報を捉える ▪ Self-attentionで重要な音響セグメントと単語に注目する • 改善可能なポイント ◦ 音声認識は感情音声に対して頑健でない ▪ 音声認識誤りが発生しやすい ◦ 誤認識された単語が、Self-attentionによりフォーカス されてしまう可能性がある Dense Dense Bi-LSTM Self-attention Dense Spectrogram etc. ASR Result Bi-LSTM Self-attention Dense Word-embedding Input (Utterance) Output (Emotion Class) Acoustic feature extractor Text feature extractor Emotion classifier 参考: J Santoso, T Yamada, S Makino, K Ishizuka, T Hiramura, Speech Emotion Recognition Based on Attention Weight Correction Using Word-Level Confidence Measure, Interspeech 2021,
  23. Copyright © RevComm Inc. 音声感情認識 31 Dense Dense Bi-LSTM Self-attention

    Dense Spectrogram etc. ASR Result Bi-LSTM Self-attention Dense Word-embedding Input (Utterance) Output (Emotion Class) Acoustic feature extractor Text feature extractor Emotion classifier • アイデア ◦ 誤認識された単語にSelf-Attentionで注目してしまう事を防ぎ、 音声感情認識精度の向上を目指す ◦ Self-Attentionの重みを単語レベルの単語信頼度で 補正する ◦ IEMOCAPデータセットを用いて評価し、2021年時点での SOTAの精度を達成し、Interspeech2021で発表した Dense Confidence 参考: J Santoso, T Yamada, S Makino, K Ishizuka, T Hiramura, Speech Emotion Recognition Based on Attention Weight Correction Using Word-Level Confidence Measure, Interspeech 2021,
  24. Copyright © RevComm Inc. 音声感情認識モデルの高速化と計算コスト削減 • DNNモデルをサーバサイドで運用する上で、推論時の計算コスト削減が重要となる • AWSではInf2インスタンスという、深層学習モデルの推論に特化した インスタンスが提供されている

    • 下記の4通りのインスタンスで先述の音声感情認識モデルの推論を行い、 計算コストを比較する ◦ データセットはRevCommの社内データセット(677サンプル, 74分)を利用 32 Instance type GPU AWS Inferentia Software c6in.2xlarge No No torch, onnxruntime g5.xlarge Yes No torch, onnxruntime-gpu inf1.xlarge No Yes torch, torch-neuron inf2.xlarge No Yes torch, torch-neuronx AWS Neuron 参考: AWS Inf2の導入による音声感情認識の爆速化とコスト削減 ( https://tech.revcomm.co.jp/speedup-and-cost-reduction-by-introducing-inf2 )
  25. Copyright © RevComm Inc. 音声感情認識モデルの高速化と計算コスト削減 33 音声感情認識のPyTorchモデルをCPUインスタンスで実行した結果を基準とし、相対的な指標で評価する • 高速化率 ◦

    新しく導入したモデルが既存のモデルと比較して、どれだけ推論速度が改善したかを示す指標 ▪ PyTorchモデルをCPUで実行したときの1推論あたりの平均レイテンシー / 各モデルの1推論あたりの平均レイテンシー • コスト削減率 ◦ 新たに導入したモデルが既存のモデルと比較して、どれだけコストを削減できたかを評価する指標 ▪ 1 - 各モデルの1推論あたりの平均コスト / PyTorchモデルをCPUで実行したときの1推論あたりの平均コスト ▪ 平均コストは平均レイテンシーとオンデマンドインスタンスの価格表から算出 参考: AWS Inf2の導入による音声感情認識の爆速化とコスト削減 ( https://tech.revcomm.co.jp/speedup-and-cost-reduction-by-introducing-inf2 )
  26. Copyright © RevComm Inc. 音声感情認識モデルの高速化と計算コスト削減 34 Model PyTorch ONNX ONNX

    ONNX AWS Neuron AWS Neuron Instance c6in.2xlarge c6in.2xlarge c6in.2xlarge g5.xlarge inf1.xlarge inf2.xlarge 浮動小数点数 32 bit floating point (fp32) fp32 int8 fp32 16 bit brain floating point (bf16) bf16 高速化率 - 1.19 2.01 23.57 9.58 57.55 コスト削減率 - 0.16 0.50 0.89 0.94 0.98 精度変化 - 0.000 -0.005 -0.007 -0.008 -0.008 音声感情認識のPyTorchモデルをCPUインスタンスで実行した結果を基準とし、相対的な指標で評価する • 高速化 ◦ 音声感情認識モデルはONNXやGPU、Inf1 & Inf2インスタンスを使うことで高速化を達成できる ◦ inf2.xlargeを使った推論はONNXモデルをGPUで動かした場合の推論速度より2倍程度早くなっている 参考: AWS Inf2の導入による音声感情認識の爆速化とコスト削減 ( https://tech.revcomm.co.jp/speedup-and-cost-reduction-by-introducing-inf2 )
  27. Copyright © RevComm Inc. 音声感情認識モデルの高速化と計算コスト削減 35 Model PyTorch ONNX ONNX

    ONNX AWS Neuron AWS Neuron Instance c6in.2xlarge c6in.2xlarge c6in.2xlarge g5.xlarge inf1.xlarge inf2.xlarge 浮動小数点数 32 bit floating point (fp32) fp32 int8 fp32 16 bit brain floating point (bf16) bf16 高速化率 - 1.19 2.01 23.57 9.58 57.55 コスト削減率 - 0.16 0.50 0.89 0.94 0.98 精度変化 - 0.000 -0.005 -0.007 -0.008 -0.008 音声感情認識のPyTorchモデルをCPUインスタンスで実行した結果を基準とし、相対的な指標で評価する • コスト削減 ◦ 特にInf1 & Inf2インスタンスのコスト削減率が高い ◦ 1推論あたりの平均レイテンシーが短く、インスタンスの価格がGPUインスタンスより安価である 参考: AWS Inf2の導入による音声感情認識の爆速化とコスト削減 ( https://tech.revcomm.co.jp/speedup-and-cost-reduction-by-introducing-inf2 )
  28. Copyright © RevComm Inc. MiiTelの音声処理の概要 (音声認識結果を利用する解析処理のまとめ) 36 話者ダイヤリゼーション 音声認識結果を利用しない解析処理 音声認識

    音声認識結果を利用する解析処理 DB 音声認識結果を利用する解析処理のまとめ • 音声認識結果を利用する解析処理の例として、 音声感情認識について説明した • 音声認識テキストの特徴と音声特徴をもとに 音声感情認識を行っている ◦ 音声認識誤り対策についても解説 • AWS Inf2の利用で計算コストを削減
  29. Copyright © RevComm Inc. LLMを用いた音声モデルの学習データ生成(2) 39 • Large Language Model(LLM)を用いた機械学習モデルの学習データ生成

    ◦ LLMは大規模なDNNモデルであるため、推論時の計算コストが大きい ▪ 十分な対価が得られるタスクに使う必要がある ◦ 一方で、膨大な量のテキストで学習されているLLMは高い汎化能力を持ち、 様々な用途に応用できるため、機械学習モデルの学習データの自動アノテーションにも 適している可能性がある ◦ 音声コンテンツの書き起こしテキストなどからLLMで感情カテゴリを推測し、 それらを弱ラベルとして感情認識モデルを学習する研究が行われている (T. Gong,2023)
  30. Copyright © RevComm Inc. LLMを用いた感情アノテーションの研究紹介 40 • 「こんな時間に電話をかけられると迷惑です」という発話が含まれる音声データがあった として、LLMで感情アノテーションをする場合、まず音声認識してテキストを得た後、 LLMに下記のような質問をすることで感情アノテーションを得ることが可能

    • アイデア ◦ 音声データの音響的な特徴(話速、音量、高さ)を言語化し、LLMに対する質問に加える ことで、より高精度な感情アノテーションを得たい 「こんな時間に電話をかけられると迷惑です」と言っている人はどのような感情を 持っていますか?平常、喜び、悲しみ、怒りの4種類のどれかで答えてください。 「こんな時間に電話をかけられると迷惑です」と大声で言っている人はどのような感情を 持っていますか?平常、喜び、悲しみ、怒りの4種類のどれかで答えてください。 参考: J. Santoso, K. Ishizuka and T. Hashimoto, "Large Language Model-Based Emotional Speech Annotation Using Context and Acoustic Feature for Speech Emotion Recognition," ICASSP 2024
  31. Copyright © RevComm Inc. LLMを用いた感情アノテーションの研究紹介 41 参考: J. Santoso, K.

    Ishizuka and T. Hashimoto, "Large Language Model-Based Emotional Speech Annotation Using Context and Acoustic Feature for Speech Emotion Recognition," ICASSP 2024 • IEMOCAPデータセットによる評価の結果、コンテクストとテキストの音響特徴表現を与えることで、LLMは 人手とほぼ変わらない精度で感情をアノテーションできることが示された (J .Santoso, ICASSP2024) Acoustic feature extractor Conversion of acoustic feature to text LLM (single utterance prompt example) Answer with either one of [neutral, happy, sad, angry]. M speaks “Who did you marry?” with high pitch. How does M feel? M feels (conversation prompt example) Answer with either one of [neutral, happy, sad, angry]. Given the following conversation sequence: M (high pitch): “So what’s up? What’s new?” F (low pitch): “Well Vegas was awesome.” M (normal pitch): “Yeah. I heard.” F (high pitch): And, um, I got married.” M (high pitch): “Shut up. No-in Vegas?” F (high pitch):”Year. In the old town part.” M (high pitch):”Who did you marry?” How does M feel? M feels. (description of acoustic feature example) Speaking rate: (slow / normal / fast) speaking rate Articulation rate: (slow / normal / fast) articulation rate PItch: (low / normal / high) pitch Loudness: (quiet / normal loudness / loud) speaking rate Intensity: (low / normal / high) intensity acoustic feature set • loudness • pitch • speaking rate • etc Description of acoustic feature (text) Text content (transcription) Prompt Emotion Class Input Speech
  32. Copyright © RevComm Inc. まとめ 43 • トーク解析AI MiiTelの音声処理と研究例について解説した ◦

    話者ダイヤリゼーション ◦ 音声認識結果を利用しない音声解析処理 ◦ 音声認識 ◦ 音声認識結果を利用する音声解析処理 (音声感情認識) • プロダクト環境での機械学習モデル運用では、モデルの精度だけでなく モデルの規模や計算コストも考慮する必要がある • LLMは音声モデルの学習データを低コストで生成することにも応用できる