Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperを使ったみて_思ったこと.pdf
Search
narita1980
December 01, 2023
0
83
Whisperを使ったみて_思ったこと.pdf
narita1980
December 01, 2023
Tweet
Share
More Decks by narita1980
See All by narita1980
Glide(グライド)で PWAアプリを作ってみた!
narita1980
0
490
#雑プットのススメ
narita1980
0
150
Laravel LT会 with もくもく #1
narita1980
0
560
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
920
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Building an army of robots
kneath
306
46k
Done Done
chrislema
185
16k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
Documentation Writing (for coders)
carmenintech
74
5k
GraphQLとの向き合い方2022年版
quramy
49
14k
Transcript
Whisperを使ったみて 思ったこと 2023/08/29 Uncode合同会社 成田 孝
Uncode合同会社代表 小学校からプログラミングしてます 趣味:読書、サウナ、猫 システム開発、プログラミングスクール、エンジニアコミ ュニティの運営 自己紹介
余談
「子ネコの写真」を見ると集中力が維持できる 2012年の広島大学大学院総合科学研究科で、幼い動物のかわい い写真をみた後には、注意を必要とする作業の成績がよくなる ことが実験によってわかりました。 幼い動物(子犬や子猫)の写真7 枚を好きな順番に並び換えるという作業を1 分半行わせたとこ ろ、手先の器用さを必要とする課題(実験1 )や指定された数字を数列から探して数える課題 (実験2
)の成績が、写真を見る前と比べて、それぞれ44% 、16% 向上しました。 出典:広島大学
None
気を取り直して
とある音声を文章化、そして文章を元に特定のフォーマット へ変換するツールの作成依頼 文章を元に特定のフォーマットへ変換する方法については ChatGPTによるナレッジがあった 音声を文章化する部分についてなるべくコストをかけずに作 成したい 経緯
APIで連携できるもの お金がかからない 実装が楽 音声テキスト化の方法を調査する 要件
OpenAI社でライブラリを 提供している???
Whisper使えそう! ChatGPTのAPIもどうせ使うので相性良いかも。。。
OpenAI社から提供されてる音声をテキスト化するモデル 日本語を含む99言語対応 対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 Whisperとは? https://github.com/openai/whisper
OpenAI社で使う場合の料金 $0.006/分(日本円で0.88 円)かかります。
対応しているファイル形式(mp3, mp4, mpeg, mpga, m4a, wav, and webm) 一回で処理できるファイルサイズは25MBまで。それ以上 大きくなる場合は音声ファイルを分割して処理して上げる
必要あり PyPIでライブラリ提供しているので、インストールするも の楽(pip install openai-whisper) Whisper使ってみて
ローカルPC(4CPU、8GB)にインストールして使ってみ たが、すごい時間かかった。 音声ファイル:118秒 Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 翻訳の精度もLargeでないと全然使えなかった 残念だったこと
None
音声ファイル:118秒 ローカルPC Tiny:107.5秒 Medium:286.3秒 Large:1193.2秒 有料版 large-v2:13秒(圧勝。。。) しかも精度もLargeなので良い! 有料だがOpenAI社のAPIなら
使うのも簡単 サンプルソース
None
ローカルPC版はスペックの問題で時間がかかってしまった が、クラウドでやれば時間早くできるかも ローカルPCで実装するにしてもAPI呼び出すにしてもどっ ちも実装が楽ちん まとめ