Whisperが学習したデータ
■ 膨大かつ教師つきのデータセットを使うのは初
● 既存手法は、少ない教師つきデータか、膨大な教師なしデータでしか
学習できていない
■ 総計68万時間(約78年)になる
● 従来使われる教師つきデータのおよそ10倍のサイズ
● データ増しによる性能改善の余地はまだある(scaling law)
■ 三分の一が非英語
● 公式ブログではスペイン語・韓国語の認識例が挙げられている
● もちろん日本語音声も認識可能
● 99言語に対応との紹介も
■ Zero-shotで頑丈性を評価
6