Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Whisperに耳をすませば

Henry Cui
October 30, 2022

 Whisperに耳をすませば

Henry Cui

October 30, 2022
Tweet

More Decks by Henry Cui

Other Decks in Technology

Transcript

  1. Whisperに耳をすませば
    機械学習の社会実装勉強会第16回
    Henry
    2022/10/30

    View Slide

  2. 自己紹介
    ■ 東京大学理学部情報科学科
    ■ 同大学大学院情報理工学系研究科コンピュター科学専攻
    ■ 博士(情報理工学)取得
    ● ICMLなどの国際・国内学会・ジャーナルに論文発表
    ● 学振DC2・理研AIPセンター研究パートタイマー
    ● AIPチャレンジなどの競争的研究費取得・外国大学への訪問
    ■ 在学中に株式会社パンハウスを共同創業
    2

    View Slide

  3. 内容
    ■ Whisperとは
    ■ 誰でも試せるデモ
    ■ Whisperを使ったアプリケーション
    3

    View Slide

  4. Whisperは音声認識モデル
    Whisperは最近OpenAIがオープンソースした音声認識モデル
    で、学習済み重みも公開されている
    特徴は以下三つ
    ■ シンプルなEnd-to-end Transformerベースのモデル
    ■ 膨大な教師つき学習データ
    ■ 多タスクで訓練されて、多タスクを遂行できる
    4

    View Slide

  5. Whisperのモデル構造
    ■ シンプルな End-to-end モデル
    ■ Transformerベース
    ■ 多タスク対応のため、タスクを指定するトークンがある
    5

    View Slide

  6. Whisperが学習したデータ
    ■ 膨大かつ教師つきのデータセットを使うのは初
    ● 既存手法は、少ない教師つきデータか、膨大な教師なしデータでしか
    学習できていない
    ■ 総計68万時間(約78年)になる
    ● 従来使われる教師つきデータのおよそ10倍のサイズ
    ● データ増しによる性能改善の余地はまだある(scaling law)
    ■ 三分の一が非英語
    ● 公式ブログではスペイン語・韓国語の認識例が挙げられている
    ● もちろん日本語音声も認識可能
    ● 99言語に対応との紹介も
    ■ Zero-shotで頑丈性を評価
    6

    View Slide

  7. Whisperが遂行できるタスク
    ■ 公式ブログによると、以下のタスクが遂行できる
    ● 言語認識
    ■ 与えれた音声の言語を答える
    ● フレーズのタイムスタンプ
    ■ 音声にある各フレーズのタイムスタンプを答える
    ● 多言語スピーチ文字起こし
    ■ 音声にある言語そのままの文字起こし
    ● スピーチの英語翻訳
    ■ 音声にある言語を英語に翻訳した文字起こし
    ■ ほとんどの音声・文字に関わるアプリケーションをカバー
    7

    View Slide

  8. 内容
    ■ Whisperとは
    ■ 誰でも試せるデモ
    ■ Whisperを使ったアプリケーション
    8

    View Slide

  9. Webページとコマンドラインツール
    ■ https://huggingface.co/spaces/openai/whisper
    ■ pip install git+https://github.com/openai/whisper.git でイン
    ストールすれば、whisper audio.mp3 --model medium のよう
    に推論できる
    ■ HuggingFaceの一つのモデルとしても使える
    9

    View Slide

  10. 内容
    ■ Whisperとは
    ■ 誰でも試せるデモ
    ■ Whisperを使ったアプリケーション
    10

    View Slide

  11. YouWhisper
    ■ Youtube動画の自動字幕生成
    ■ https://huggingface.co/spaces/sensahin/YouWhisper
    ■ ソースコードなどのファイルも参照可能
    11

    View Slide

  12. Podcastの文字起こし
    ■ https://twitter.com/1littlecoder/status/15744743569225400
    32
    12

    View Slide

  13. 日本語アクセントの英語も
    ■ https://twitter.com/sleepy_yoshi/status/157371909458654
    8224
    13

    View Slide

  14. スペイン語の歌も行ける
    ■ https://twitter.com/eoteromuras/status/1573009151600508
    939
    14

    View Slide

  15. 一方で精度が高くない言語もある
    ■ https://twitter.com/silasmorkgard/status/15735939518268
    45696
    15

    View Slide

  16. DeepLと組んでより流暢な日本語に
    ■ https://twitter.com/Taro32546/status/15772600919332167
    69
    16

    View Slide

  17. 無音の場合にはまだ弱い
    ■ https://twitter.com/smly/status/1581663054366138368
    ■ 短く切れば回避できる
    17

    View Slide

  18. 古い映画の字幕を作ってみたら酷かった
    ■ https://blog.takuya-andou.com/entry/youtube_whisper3
    18

    View Slide

  19. まとめ
    ■ OpenAIのWhisperモデルは膨大な学習データのおかげで、
    多数のタスクで高性能を達成した
    ■ 無音やマイナー言語などの場合にはまだ弱い時がある
    ■ アプリケーションが多く展望される
    19

    View Slide