Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperに耳をすませば
Search
Henry Cui
October 30, 2022
Technology
0
230
Whisperに耳をすませば
Henry Cui
October 30, 2022
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
0
86
Direct Preference Optimization
zchenry
0
280
Diffusion Model with Perceptual Loss
zchenry
0
240
レンズの下のLLM / LLM under the Lens
zchenry
0
150
Go with the Prompt Flow
zchenry
0
140
Mojo Dojo
zchenry
1
180
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
380
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
170
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
85
Other Decks in Technology
See All in Technology
rootlessコンテナのすゝめ - 研究室サーバーでもできる安全なコンテナ管理
kitsuya0828
3
380
複雑なState管理からの脱却
sansantech
PRO
1
140
EventHub Startup CTO of the year 2024 ピッチ資料
eventhub
0
110
Terraform未経験の御様に対してどの ように導⼊を進めていったか
tkikuchi
2
430
開発生産性を上げながらビジネスも30倍成長させてきたチームの姿
kamina_zzz
2
1.7k
Evangelismo técnico: ¿qué, cómo y por qué?
trishagee
0
360
なぜ今 AI Agent なのか _近藤憲児
kenjikondobai
4
1.3k
【令和最新版】AWS Direct Connectと愉快なGWたちのおさらい
minorun365
PRO
5
750
SREが投資するAIOps ~ペアーズにおけるLLM for Developerへの取り組み~
takumiogawa
1
130
IBC 2024 動画技術関連レポート / IBC 2024 Report
cyberagentdevelopers
PRO
0
110
安心してください、日本語使えますよ―Ubuntu日本語Remix提供休止に寄せて― 2024-11-17
nobutomurata
1
990
TanStack Routerに移行するのかい しないのかい、どっちなんだい! / Are you going to migrate to TanStack Router or not? Which one is it?
kaminashi
0
580
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
840
The Pragmatic Product Professional
lauravandoore
31
6.3k
Thoughts on Productivity
jonyablonski
67
4.3k
Designing for Performance
lara
604
68k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
93
16k
Visualization
eitanlees
145
15k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Fireside Chat
paigeccino
34
3k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
Navigating Team Friction
lara
183
14k
Transcript
Whisperに耳をすませば 機械学習の社会実装勉強会第16回 Henry 2022/10/30
自己紹介 ▪ 東京大学理学部情報科学科 ▪ 同大学大学院情報理工学系研究科コンピュター科学専攻 ▪ 博士(情報理工学)取得 • ICMLなどの国際・国内学会・ジャーナルに論文発表 •
学振DC2・理研AIPセンター研究パートタイマー • AIPチャレンジなどの競争的研究費取得・外国大学への訪問 ▪ 在学中に株式会社パンハウスを共同創業 2
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 3
Whisperは音声認識モデル Whisperは最近OpenAIがオープンソースした音声認識モデル で、学習済み重みも公開されている 特徴は以下三つ ▪ シンプルなEnd-to-end Transformerベースのモデル ▪ 膨大な教師つき学習データ ▪
多タスクで訓練されて、多タスクを遂行できる 4
Whisperのモデル構造 ▪ シンプルな End-to-end モデル ▪ Transformerベース ▪ 多タスク対応のため、タスクを指定するトークンがある 5
Whisperが学習したデータ ▪ 膨大かつ教師つきのデータセットを使うのは初 • 既存手法は、少ない教師つきデータか、膨大な教師なしデータでしか 学習できていない ▪ 総計68万時間(約78年)になる • 従来使われる教師つきデータのおよそ10倍のサイズ
• データ増しによる性能改善の余地はまだある(scaling law) ▪ 三分の一が非英語 • 公式ブログではスペイン語・韓国語の認識例が挙げられている • もちろん日本語音声も認識可能 • 99言語に対応との紹介も ▪ Zero-shotで頑丈性を評価 6
Whisperが遂行できるタスク ▪ 公式ブログによると、以下のタスクが遂行できる • 言語認識 ▪ 与えれた音声の言語を答える • フレーズのタイムスタンプ ▪
音声にある各フレーズのタイムスタンプを答える • 多言語スピーチ文字起こし ▪ 音声にある言語そのままの文字起こし • スピーチの英語翻訳 ▪ 音声にある言語を英語に翻訳した文字起こし ▪ ほとんどの音声・文字に関わるアプリケーションをカバー 7
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 8
Webページとコマンドラインツール ▪ https://huggingface.co/spaces/openai/whisper ▪ pip install git+https://github.com/openai/whisper.git でイン ストールすれば、whisper audio.mp3
--model medium のよう に推論できる ▪ HuggingFaceの一つのモデルとしても使える 9
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 10
YouWhisper ▪ Youtube動画の自動字幕生成 ▪ https://huggingface.co/spaces/sensahin/YouWhisper ▪ ソースコードなどのファイルも参照可能 11
Podcastの文字起こし ▪ https://twitter.com/1littlecoder/status/15744743569225400 32 12
日本語アクセントの英語も ▪ https://twitter.com/sleepy_yoshi/status/157371909458654 8224 13
スペイン語の歌も行ける ▪ https://twitter.com/eoteromuras/status/1573009151600508 939 14
一方で精度が高くない言語もある ▪ https://twitter.com/silasmorkgard/status/15735939518268 45696 15
DeepLと組んでより流暢な日本語に ▪ https://twitter.com/Taro32546/status/15772600919332167 69 16
無音の場合にはまだ弱い ▪ https://twitter.com/smly/status/1581663054366138368 ▪ 短く切れば回避できる 17
古い映画の字幕を作ってみたら酷かった ▪ https://blog.takuya-andou.com/entry/youtube_whisper3 18
まとめ ▪ OpenAIのWhisperモデルは膨大な学習データのおかげで、 多数のタスクで高性能を達成した ▪ 無音やマイナー言語などの場合にはまだ弱い時がある ▪ アプリケーションが多く展望される 19