堅牢な留守電検出システムの構築

nocall.aiによる堅牢な留守電検出システムの構築 nocall株式会社 CTO 森本タカヒロ

自己紹介森本尊礼 Morimoto Takahiro 経歴明治大学商学部卒。ベイズ統計を中心とした機械学習研究に従事。ColBERTの日本語評価に関する論文を執筆個人開発者としてハイパーカジュアルゲームを開発。1年間で8本のカジュアルゲームを開発・リリース
2023年10月よりnocall.aiにCTOとして参画し、2ヶ月でnocall.aiをリリース現在はプロダクトマネージャー兼エンジニアとして開発をリードし、自然な会話が可能なAI電話ソリューションの開発に注力前職は女装コンカフェ嬢 SNS 取締役CTO nocall株式会社 @1MoNo2Prod

→自分たちでより精度の高い解決策を開発する必要性背景・課題 Twilioの自動判定機能の精度 ❌ デフォルトで60%程度の精度 AI架電では「リアルタイムの留守電検出」が大きな課題課題の本質「人間か？留守電か？」の素早い
判定がの鍵文字起こし→LLMによる判定は高コスト。リアルタイム性にも欠ける会話中に判断して、留守電だったら専用メッセージを吹き込みたい

留守電サンプル対話型音声応答 (IVR) 人間と区別のつかない合成音声実際の人間の声の留守電これらを実際の人間による応答と区別することが難しい

技術的アプローチモデル選定 wav2vec2-large-xlsr-53-japaneseを採用 →facebook/wav2vec2-large-xlsr-53をファインチューニングし、日本語音声認識に特化データセット訓練データ: 668件 human: 258件
voicemail: 410件評価データ: 126件 human: 63件 voicemail: 63件弊社の実際の電話から収集した高品質な音声ログを使用音声モデル「wav2vec2」を使用し、高精度な留守電検出モデルを独自開発 wav2vec2とは事前学習された音声認識モデルで、少ないデータでも効率的にファインチューニング可能

Accuracy: 98.41% 精度・評価

実際の音声サンプルとモデルによる判定をデモしてみますデモ・実例

今後の課題現状のwav2vecモデルは大きすぎて推論コストが高い解決策：モデルのプルーニングや知識蒸留による軽量化を検討モデルサイズ・コスト先行研究で、無音部分のスペクトル解析で「機械vs人間」の判別方法を提示している合成音声→静的なノイズ人間の応答→環境ノイズが混在代替手法の模索現在の約600件のデータでは長期的な性能改善には不十分解決策：弊社の1日数千件の通話データを活用、データ拡張と継続学習で強化
データ不足

03 コンピューターと人間が会話する未来を作る会話

03 ヒューマノイドにキーボードでタイピングして指示を出す未来はありえない人と同じ形を持つ存在に対しては、自然な会話で指示を出すのが当たり前になるはずです。そこで私たちが目指しているのは、チューリングテストを突破するほど自然な音声会話モデルローカルデバイスで動作するほど小さなモデルこれが実現すれば、インターネット接続に依存せず、低レイテンシーでリアルタイムに会話が可能になります。
私たちは、「人と機械が自然に会話する未来」をつくっていきます。

MoshiやSesameを超えたくないですか？

採用 Typescript / Next.js / node.js フルスタックエンジニア Speech-to-Text / LLM
/ 合成音声 / E2E 機械学習エンジニア

ポッドキャスト

@1MoNo2Prod

堅牢な留守電検出システムの構築

堅牢な留守電検出システムの構築

森本タカヒロ

More Decks by 森本タカヒロ

Featured

Transcript

nocall.aiによる堅牢な留守電検出システムの構築 nocall株式会社 CTO 森本タカヒロ

→自分たちでより精度の高い解決策を開発する必要性背景・課題 Twilioの自動判定機能の精度 ❌ デフォルトで60%程度の精度 AI架電では「リアルタイムの留守電検出」が大きな課題課題の本質「人間か？留守電か？」の素早い

留守電サンプル対話型音声応答 (IVR) 人間と区別のつかない合成音声実際の人間の声の留守電これらを実際の人間による応答と区別することが難しい

技術的アプローチモデル選定 wav2vec2-large-xlsr-53-japaneseを採用 →facebook/wav2vec2-large-xlsr-53をファインチューニングし、日本語音声認識に特化データセット訓練データ: 668件 human: 258件

Accuracy: 98.41% 精度・評価

実際の音声サンプルとモデルによる判定をデモしてみますデモ・実例

03 コンピューターと人間が会話する未来を作る会話

MoshiやSesameを超えたくないですか？

採用 Typescript / Next.js / node.js フルスタックエンジニア Speech-to-Text / LLM

ポッドキャスト

@1MoNo2Prod

堅牢な留守電 検出システムの構築

堅牢な留守電 検出システムの構築

More Decks by 森本タカヒロ

Featured

Transcript

堅牢な留守電検出システムの構築

堅牢な留守電検出システムの構築