p 仕事は?: n COO @ Human Dataware Lab. Co., Ltd. n Researcher @ TARVO Inc. n Collaborative researcher @ NU p 専門は?: n 音声・環境音処理全般 (VC, TTS, etc.) p 好きなモノは?: n Custom Keyboard (最近は60%) n (Neo) Vim 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 最近のお気に入り 60% (かわいい) カスタムキーボード沼の住人 My neovim startup
n 2017年のリリース以降の開発の歴史を振り返り 2. ESPnetで出来ること n 2024年のESPnetで出来ることを紹介 3. ESPnetの最近の開発アイテムと今後の計画 n OWSMやESPnetEzなどの最近の開発トピックを紹介 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 ESPnetのコンセプトや出来ることをなんとなく理解し、 叩き台として触ってみたくなっていただけたら幸いです!
n End-to-End型のニューラルネットモジュール n Kaldiのデータ構造を利用した共通のTrainerモジュール n 任意の音声処理タスクが記述可能なTaskモジュール p Kaldi-styleを受け継いだ実験レシピ n 単一のシェルスクリプトの実行だけで再現実験が可能 n データの前処理・学習・評価などの全ての手順を内包 n 再現実験のハードルをできるだけガン下げ 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 高い拡張性から20個近い音声処理タスクをサポート 180以上のコーパスに対する250ものレシピが存在
p End-to-End型音声認識モデルの登場 n 摩訶不思議なC++コードに頼らなくても良いシンプルさ n 系列から系列への変換として音声認識以外にも適応可 n なにより自分でスクラッチでモデルを作れる楽しさ! 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 の誕生 みんなにこの楽しさを共有しよう! ※ ちなみにこのESPnetのロゴはTakaaki Horiさん (現 Apple) の作
p 各音声処理タスクで統一的な作りにしよう! n 実行方法やデータ構造を音声処理タスク間で統一化 n 普段はASRしかやらないけどな〜という人もサクッと 新しいタスクで実験することが可能 p やっぱり性能はSOTAを目指そう! n なんだかんだやっぱり性能が大事 n 目ぼしいモデル構造が出るたびに主要タスクで検証 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」
研究ベンチマークとして使われるものは絶対あります! n なかったら Issue を立ててください! n 評価結果も学習済モデルも公開 p もちろん日本語データセットも豊富にサポート n ASR: CSJ / Reazonspeech / Laboro-TV / Jtubespeech n TTS: JSUT / JVS / つくよみちゃんコーパス n SVS: JUST song / きりたんコーパス / その他諸々 p 自前データセットのレシピ化ももちろん可能 n 各種タスク用のTEMPLATEレシピあり n Kaldi形式のデータディレクトリを整備するスクリプトを 書けば再現実験可能な自前レシピが完成! 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」
Multipurpose Spoken Language Translation Toolkit,” arXiv preprint arXiv:2304.04596, 2023 より引用 p ST / SST / S2ST のベンチマーク n Must-C (for ST & SST / English -> X) n CVSS-C (for S2ST / X -> English) FAIRと同等以上の性能を実現!
ボスである渡部さんがふわっと大体把握ぐらい p 様々な問題の発生 n 修正or新機能の追加でコンフィグの互換性がなくなる n うっかりミスで他のタスクに影響してしまう n 依存パッケージが増える + バージョン互換性がなくなる 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 人間によるチェックの限界の訪れ
Unit & Integration test / Configチェックを自動化 n GithubがOSSに対して大盤振る舞いなので使いまくる n プライベートで換算すると大変なお金がかかっている 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 ESPnetで毎回テストしている組み合わせ / 主要OS・バージョンはある程度網羅
n Python上で整形してそのままフィードしたい n ちょこっとファインチューニングしたいだけなのに面倒 p Jupyter Notebookで作業したい n ターミナルでコマンドを叩くのだるい n ブラウザでNotebookをポチポチするだけが良い 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 Pythonネイティブにより優しい ESPnet-Easy (ESPnetEz) を作ろう!
X. Chang, et al. “Exploration of Efficient End-to-End ASR using Discretized Input from Self-Supervised Learning,” arXiv preprint arXiv:2305.18108, 2023 より引用 重複記号の削除・サブワード化で爆速で学習が可能! (Librispeech 960hがシングルGPUで1日かからない!!)
p 言語判定対応 p 発話レベルのタイムスタンプ対応 (≒ VAD) p 英語への翻訳対応 (X→English) p チャンクベースにより任意の長さの発話に対応 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」 モデルしか公開されておらず1から再現することは不可能 l どんな学習データを使っているのか? l どうやって学習させているのか? l 潜在的なバイアスの問題があるのではないか?
Whisperを全てOSSで再現するプロジェクト n ESPnetでWhisper-styleの学習ができるように拡張 n すべてをオープンソースでリリースして再現可能に p 大学レベルでは難しいレベルのGPUリソースを利用 n A100 を 120,000 時間分利用 n AWS (On-demand)換算で $400,000≒6,000万円 n リソースの兼ね合いから数回の試行のみ 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」
p 再現可能な音声基盤のモデルの提供 n 再現性・説明可能性を持った基盤モデルを作りたい p 基盤モデルをより使いまわしやすいような改良 n レシピはどちらかというとスクラッチ学習を前提 n ESPnet-Easyのような簡単に他のデータを使える形も模索 2024/03/01 音声言語情報処理合同研究発表会 「音声処理ツールキットESPnetの現在と未来」
を紹介しました! 1. ESPnetの歴史 n 2017年のリリース以降の開発の歴史を振り返り 2. ESPnetで出来ること n 2024年のESPnetで出来ることを紹介 (おまけ) ESPnetのメンテナンス n 肥大化するリポジトリのメンテナンスについて紹介 3. ESPnetの最近の開発アイテムと今後の計画 n OWSMやESPnetEzなどの最近の開発トピックを紹介 ESPnet触ってみたくなっていただけたら幸いです!