Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperを使ったみて_思ったこと.pdf
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
narita1980
December 01, 2023
0
86
Whisperを使ったみて_思ったこと.pdf
narita1980
December 01, 2023
Tweet
Share
More Decks by narita1980
See All by narita1980
Glide(グライド)で PWAアプリを作ってみた!
narita1980
0
500
#雑プットのススメ
narita1980
0
160
Laravel LT会 with もくもく #1
narita1980
0
590
Featured
See All Featured
Odyssey Design
rkendrick25
PRO
2
550
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
The Cost Of JavaScript in 2023
addyosmani
55
9.8k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
490
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.3k
Believing is Seeing
oripsolob
1
86
Build your cross-platform service in a week with App Engine
jlugia
234
18k
WCS-LA-2024
lcolladotor
0
480
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
200
GraphQLとの向き合い方2022年版
quramy
50
14k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
73
So, you think you're a good person
axbom
PRO
2
2k
Transcript
Whisperを使ったみて 思ったこと 2023/08/29 Uncode合同会社 成田 孝
Uncode合同会社代表 小学校からプログラミングしてます 趣味:読書、サウナ、猫 システム開発、プログラミングスクール、エンジニアコミ ュニティの運営 自己紹介
余談
「子ネコの写真」を見ると集中力が維持できる 2012年の広島大学大学院総合科学研究科で、幼い動物のかわい い写真をみた後には、注意を必要とする作業の成績がよくなる ことが実験によってわかりました。 幼い動物(子犬や子猫)の写真7 枚を好きな順番に並び換えるという作業を1 分半行わせたとこ ろ、手先の器用さを必要とする課題(実験1 )や指定された数字を数列から探して数える課題 (実験2
)の成績が、写真を見る前と比べて、それぞれ44% 、16% 向上しました。 出典:広島大学
None
気を取り直して
とある音声を文章化、そして文章を元に特定のフォーマット へ変換するツールの作成依頼 文章を元に特定のフォーマットへ変換する方法については ChatGPTによるナレッジがあった 音声を文章化する部分についてなるべくコストをかけずに作 成したい 経緯
APIで連携できるもの お金がかからない 実装が楽 音声テキスト化の方法を調査する 要件
OpenAI社でライブラリを 提供している???
Whisper使えそう! ChatGPTのAPIもどうせ使うので相性良いかも。。。
OpenAI社から提供されてる音声をテキスト化するモデル 日本語を含む99言語対応 対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 Whisperとは? https://github.com/openai/whisper
OpenAI社で使う場合の料金 $0.006/分(日本円で0.88 円)かかります。
対応しているファイル形式(mp3, mp4, mpeg, mpga, m4a, wav, and webm) 一回で処理できるファイルサイズは25MBまで。それ以上 大きくなる場合は音声ファイルを分割して処理して上げる
必要あり PyPIでライブラリ提供しているので、インストールするも の楽(pip install openai-whisper) Whisper使ってみて
ローカルPC(4CPU、8GB)にインストールして使ってみ たが、すごい時間かかった。 音声ファイル:118秒 Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 翻訳の精度もLargeでないと全然使えなかった 残念だったこと
None
音声ファイル:118秒 ローカルPC Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 有料版 large-v2:13秒(圧勝。。。) しかも精度もLargeなので良い! 有料だがOpenAI社のAPIなら
使うのも簡単 サンプルソース
None
ローカルPC版はスペックの問題で時間がかかってしまった が、クラウドでやれば時間早くできるかも ローカルPCで実装するにしてもAPI呼び出すにしてもどっ ちも実装が楽ちん まとめ