Whisperに耳をすませば

by Henry Cui

Slide 1

Slide 1 text

Whisperに耳をすませば機械学習の社会実装勉強会第16回 Henry 2022/10/30

Slide 2

Slide 2 text

自己紹介 ■ 東京大学理学部情報科学科 ■ 同大学大学院情報理工学系研究科コンピュター科学専攻 ■ 博士（情報理工学）取得 ● ICMLなどの国際・国内学会・ジャーナルに論文発表 ● 学振DC2・理研AIPセンター研究パートタイマー ● AIPチャレンジなどの競争的研究費取得・外国大学への訪問 ■ 在学中に株式会社パンハウスを共同創業 2

Slide 3

Slide 3 text

内容 ■ Whisperとは ■ 誰でも試せるデモ ■ Whisperを使ったアプリケーション 3

Slide 4

Slide 4 text

Whisperは音声認識モデル Whisperは最近OpenAIがオープンソースした音声認識モデルで、学習済み重みも公開されている特徴は以下三つ ■ シンプルなEnd-to-end Transformerベースのモデル ■ 膨大な教師つき学習データ ■ 多タスクで訓練されて、多タスクを遂行できる 4

Slide 5

Slide 5 text

Whisperのモデル構造 ■ シンプルな End-to-end モデル ■ Transformerベース ■ 多タスク対応のため、タスクを指定するトークンがある 5

Slide 6

Slide 6 text

Whisperが学習したデータ ■ 膨大かつ教師つきのデータセットを使うのは初 ● 既存手法は、少ない教師つきデータか、膨大な教師なしデータでしか学習できていない ■ 総計68万時間（約78年）になる ● 従来使われる教師つきデータのおよそ10倍のサイズ ● データ増しによる性能改善の余地はまだある(scaling law) ■ 三分の一が非英語 ● 公式ブログではスペイン語・韓国語の認識例が挙げられている ● もちろん日本語音声も認識可能 ● 99言語に対応との紹介も ■ Zero-shotで頑丈性を評価 6

Slide 7

Slide 7 text

Whisperが遂行できるタスク ■ 公式ブログによると、以下のタスクが遂行できる ● 言語認識 ■ 与えれた音声の言語を答える ● フレーズのタイムスタンプ ■ 音声にある各フレーズのタイムスタンプを答える ● 多言語スピーチ文字起こし ■ 音声にある言語そのままの文字起こし ● スピーチの英語翻訳 ■ 音声にある言語を英語に翻訳した文字起こし ■ ほとんどの音声・文字に関わるアプリケーションをカバー 7

Slide 8

Slide 8 text

内容 ■ Whisperとは ■ 誰でも試せるデモ ■ Whisperを使ったアプリケーション 8

Slide 9

Slide 9 text

Webページとコマンドラインツール ■ https://huggingface.co/spaces/openai/whisper ■ pip install git+https://github.com/openai/whisper.git でインストールすれば、whisper audio.mp3 --model medium のように推論できる ■ HuggingFaceの一つのモデルとしても使える 9

Slide 10

Slide 10 text

内容 ■ Whisperとは ■ 誰でも試せるデモ ■ Whisperを使ったアプリケーション 10

Slide 11

Slide 11 text

YouWhisper ■ Youtube動画の自動字幕生成 ■ https://huggingface.co/spaces/sensahin/YouWhisper ■ ソースコードなどのファイルも参照可能 11

Slide 12

Slide 12 text

Podcastの文字起こし ■ https://twitter.com/1littlecoder/status/15744743569225400 32 12

Slide 13

Slide 13 text

日本語アクセントの英語も ■ https://twitter.com/sleepy_yoshi/status/157371909458654 8224 13

Slide 14

Slide 14 text

スペイン語の歌も行ける ■ https://twitter.com/eoteromuras/status/1573009151600508 939 14

Slide 15

Slide 15 text

一方で精度が高くない言語もある ■ https://twitter.com/silasmorkgard/status/15735939518268 45696 15

Slide 16

Slide 16 text

DeepLと組んでより流暢な日本語に ■ https://twitter.com/Taro32546/status/15772600919332167 69 16

Slide 17

Slide 17 text

無音の場合にはまだ弱い ■ https://twitter.com/smly/status/1581663054366138368 ■ 短く切れば回避できる 17

Slide 18

Slide 18 text

古い映画の字幕を作ってみたら酷かった ■ https://blog.takuya-andou.com/entry/youtube_whisper3 18

Slide 19

Slide 19 text

まとめ ■ OpenAIのWhisperモデルは膨大な学習データのおかげで、多数のタスクで高性能を達成した ■ 無音やマイナー言語などの場合にはまだ弱い時がある ■ アプリケーションが多く展望される 19