Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperを使ったみて_思ったこと.pdf
Search
narita1980
December 01, 2023
0
86
Whisperを使ったみて_思ったこと.pdf
narita1980
December 01, 2023
Tweet
Share
More Decks by narita1980
See All by narita1980
Glide(グライド)で PWAアプリを作ってみた!
narita1980
0
500
#雑プットのススメ
narita1980
0
160
Laravel LT会 with もくもく #1
narita1980
0
590
Featured
See All Featured
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
170
Site-Speed That Sticks
csswizardry
13
1.1k
Un-Boring Meetings
codingconduct
0
200
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.1k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
From π to Pie charts
rasagy
0
130
YesSQL, Process and Tooling at Scale
rocio
174
15k
Producing Creativity
orderedlist
PRO
348
40k
SEO for Brand Visibility & Recognition
aleyda
0
4.2k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
56
Transcript
Whisperを使ったみて 思ったこと 2023/08/29 Uncode合同会社 成田 孝
Uncode合同会社代表 小学校からプログラミングしてます 趣味:読書、サウナ、猫 システム開発、プログラミングスクール、エンジニアコミ ュニティの運営 自己紹介
余談
「子ネコの写真」を見ると集中力が維持できる 2012年の広島大学大学院総合科学研究科で、幼い動物のかわい い写真をみた後には、注意を必要とする作業の成績がよくなる ことが実験によってわかりました。 幼い動物(子犬や子猫)の写真7 枚を好きな順番に並び換えるという作業を1 分半行わせたとこ ろ、手先の器用さを必要とする課題(実験1 )や指定された数字を数列から探して数える課題 (実験2
)の成績が、写真を見る前と比べて、それぞれ44% 、16% 向上しました。 出典:広島大学
None
気を取り直して
とある音声を文章化、そして文章を元に特定のフォーマット へ変換するツールの作成依頼 文章を元に特定のフォーマットへ変換する方法については ChatGPTによるナレッジがあった 音声を文章化する部分についてなるべくコストをかけずに作 成したい 経緯
APIで連携できるもの お金がかからない 実装が楽 音声テキスト化の方法を調査する 要件
OpenAI社でライブラリを 提供している???
Whisper使えそう! ChatGPTのAPIもどうせ使うので相性良いかも。。。
OpenAI社から提供されてる音声をテキスト化するモデル 日本語を含む99言語対応 対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 Whisperとは? https://github.com/openai/whisper
OpenAI社で使う場合の料金 $0.006/分(日本円で0.88 円)かかります。
対応しているファイル形式(mp3, mp4, mpeg, mpga, m4a, wav, and webm) 一回で処理できるファイルサイズは25MBまで。それ以上 大きくなる場合は音声ファイルを分割して処理して上げる
必要あり PyPIでライブラリ提供しているので、インストールするも の楽(pip install openai-whisper) Whisper使ってみて
ローカルPC(4CPU、8GB)にインストールして使ってみ たが、すごい時間かかった。 音声ファイル:118秒 Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 翻訳の精度もLargeでないと全然使えなかった 残念だったこと
None
音声ファイル:118秒 ローカルPC Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 有料版 large-v2:13秒(圧勝。。。) しかも精度もLargeなので良い! 有料だがOpenAI社のAPIなら
使うのも簡単 サンプルソース
None
ローカルPC版はスペックの問題で時間がかかってしまった が、クラウドでやれば時間早くできるかも ローカルPCで実装するにしてもAPI呼び出すにしてもどっ ちも実装が楽ちん まとめ