Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperを使ったみて_思ったこと.pdf
Search
narita1980
December 01, 2023
89
0
Share
Whisperを使ったみて_思ったこと.pdf
narita1980
December 01, 2023
More Decks by narita1980
See All by narita1980
Glide(グライド)で PWAアプリを作ってみた!
narita1980
0
510
#雑プットのススメ
narita1980
0
170
Laravel LT会 with もくもく #1
narita1980
0
600
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.1k
Designing Experiences People Love
moore
143
24k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
320
The SEO Collaboration Effect
kristinabergwall1
1
450
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
A Tale of Four Properties
chriscoyier
163
24k
Abbi's Birthday
coloredviolet
2
7.6k
Chasing Engaging Ingredients in Design
codingconduct
0
190
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
910
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
It's Worth the Effort
3n
188
29k
The Language of Interfaces
destraynor
162
26k
Transcript
Whisperを使ったみて 思ったこと 2023/08/29 Uncode合同会社 成田 孝
Uncode合同会社代表 小学校からプログラミングしてます 趣味:読書、サウナ、猫 システム開発、プログラミングスクール、エンジニアコミ ュニティの運営 自己紹介
余談
「子ネコの写真」を見ると集中力が維持できる 2012年の広島大学大学院総合科学研究科で、幼い動物のかわい い写真をみた後には、注意を必要とする作業の成績がよくなる ことが実験によってわかりました。 幼い動物(子犬や子猫)の写真7 枚を好きな順番に並び換えるという作業を1 分半行わせたとこ ろ、手先の器用さを必要とする課題(実験1 )や指定された数字を数列から探して数える課題 (実験2
)の成績が、写真を見る前と比べて、それぞれ44% 、16% 向上しました。 出典:広島大学
None
気を取り直して
とある音声を文章化、そして文章を元に特定のフォーマット へ変換するツールの作成依頼 文章を元に特定のフォーマットへ変換する方法については ChatGPTによるナレッジがあった 音声を文章化する部分についてなるべくコストをかけずに作 成したい 経緯
APIで連携できるもの お金がかからない 実装が楽 音声テキスト化の方法を調査する 要件
OpenAI社でライブラリを 提供している???
Whisper使えそう! ChatGPTのAPIもどうせ使うので相性良いかも。。。
OpenAI社から提供されてる音声をテキスト化するモデル 日本語を含む99言語対応 対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 Whisperとは? https://github.com/openai/whisper
OpenAI社で使う場合の料金 $0.006/分(日本円で0.88 円)かかります。
対応しているファイル形式(mp3, mp4, mpeg, mpga, m4a, wav, and webm) 一回で処理できるファイルサイズは25MBまで。それ以上 大きくなる場合は音声ファイルを分割して処理して上げる
必要あり PyPIでライブラリ提供しているので、インストールするも の楽(pip install openai-whisper) Whisper使ってみて
ローカルPC(4CPU、8GB)にインストールして使ってみ たが、すごい時間かかった。 音声ファイル:118秒 Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 翻訳の精度もLargeでないと全然使えなかった 残念だったこと
None
音声ファイル:118秒 ローカルPC Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 有料版 large-v2:13秒(圧勝。。。) しかも精度もLargeなので良い! 有料だがOpenAI社のAPIなら
使うのも簡単 サンプルソース
None
ローカルPC版はスペックの問題で時間がかかってしまった が、クラウドでやれば時間早くできるかも ローカルPCで実装するにしてもAPI呼び出すにしてもどっ ちも実装が楽ちん まとめ