Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperを使ったみて_思ったこと.pdf
Search
narita1980
December 01, 2023
0
51
Whisperを使ったみて_思ったこと.pdf
narita1980
December 01, 2023
Tweet
Share
More Decks by narita1980
See All by narita1980
Glide(グライド)で PWAアプリを作ってみた!
narita1980
0
390
#雑プットのススメ
narita1980
0
110
Laravel LT会 with もくもく #1
narita1980
0
450
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
25
2k
Imperfection Machines: The Place of Print at Facebook
scottboms
261
12k
Code Review Best Practice
trishagee
56
15k
Web development in the modern age
philhawksworth
203
10k
The Cost Of JavaScript in 2023
addyosmani
19
3.9k
Happy Clients
brianwarren
92
6.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
649
58k
GraphQLの誤解/rethinking-graphql
sonatard
55
9.3k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
358
22k
The Brand Is Dead. Long Live the Brand.
mthomps
49
29k
Making Projects Easy
brettharned
109
5.5k
What's in a price? How to price your products and services
michaelherold
238
11k
Transcript
Whisperを使ったみて 思ったこと 2023/08/29 Uncode合同会社 成田 孝
Uncode合同会社代表 小学校からプログラミングしてます 趣味:読書、サウナ、猫 システム開発、プログラミングスクール、エンジニアコミ ュニティの運営 自己紹介
余談
「子ネコの写真」を見ると集中力が維持できる 2012年の広島大学大学院総合科学研究科で、幼い動物のかわい い写真をみた後には、注意を必要とする作業の成績がよくなる ことが実験によってわかりました。 幼い動物(子犬や子猫)の写真7 枚を好きな順番に並び換えるという作業を1 分半行わせたとこ ろ、手先の器用さを必要とする課題(実験1 )や指定された数字を数列から探して数える課題 (実験2
)の成績が、写真を見る前と比べて、それぞれ44% 、16% 向上しました。 出典:広島大学
None
気を取り直して
とある音声を文章化、そして文章を元に特定のフォーマット へ変換するツールの作成依頼 文章を元に特定のフォーマットへ変換する方法については ChatGPTによるナレッジがあった 音声を文章化する部分についてなるべくコストをかけずに作 成したい 経緯
APIで連携できるもの お金がかからない 実装が楽 音声テキスト化の方法を調査する 要件
OpenAI社でライブラリを 提供している???
Whisper使えそう! ChatGPTのAPIもどうせ使うので相性良いかも。。。
OpenAI社から提供されてる音声をテキスト化するモデル 日本語を含む99言語対応 対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 Whisperとは? https://github.com/openai/whisper
OpenAI社で使う場合の料金 $0.006/分(日本円で0.88 円)かかります。
対応しているファイル形式(mp3, mp4, mpeg, mpga, m4a, wav, and webm) 一回で処理できるファイルサイズは25MBまで。それ以上 大きくなる場合は音声ファイルを分割して処理して上げる
必要あり PyPIでライブラリ提供しているので、インストールするも の楽(pip install openai-whisper) Whisper使ってみて
ローカルPC(4CPU、8GB)にインストールして使ってみ たが、すごい時間かかった。 音声ファイル:118秒 Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 翻訳の精度もLargeでないと全然使えなかった 残念だったこと
None
音声ファイル:118秒 ローカルPC Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 有料版 large-v2:13秒(圧勝。。。) しかも精度もLargeなので良い! 有料だがOpenAI社のAPIなら
使うのも簡単 サンプルソース
None
ローカルPC版はスペックの問題で時間がかかってしまった が、クラウドでやれば時間早くできるかも ローカルPCで実装するにしてもAPI呼び出すにしてもどっ ちも実装が楽ちん まとめ