Whisperを使ったみて_思ったこと.pdf

Whisperを使ったみて思ったこと 2023/08/29 Uncode合同会社成田　孝

Uncode合同会社代表小学校からプログラミングしてます趣味：読書、サウナ、猫システム開発、プログラミングスクール、エンジニアコミュニティの運営自己紹介

余談

「子ネコの写真」を見ると集中力が維持できる 2012年の広島大学大学院総合科学研究科で、幼い動物のかわいい写真をみた後には、注意を必要とする作業の成績がよくなることが実験によってわかりました。幼い動物（子犬や子猫）の写真7 枚を好きな順番に並び換えるという作業を1 分半行わせたところ、手先の器用さを必要とする課題（実験1 ）や指定された数字を数列から探して数える課題（実験2
）の成績が、写真を見る前と比べて、それぞれ44% 、16% 向上しました。出典：広島大学

気を取り直して

とある音声を文章化、そして文章を元に特定のフォーマットへ変換するツールの作成依頼文章を元に特定のフォーマットへ変換する方法については ChatGPTによるナレッジがあった音声を文章化する部分についてなるべくコストをかけずに作成したい経緯

APIで連携できるものお金がかからない実装が楽音声テキスト化の方法を調査する要件

OpenAI社でライブラリを提供している？？？

Whisper使えそう！ ChatGPTのAPIもどうせ使うので相性良いかも。。。

OpenAI社から提供されてる音声をテキスト化するモデル日本語を含む99言語対応対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 Whisperとは？　　https://github.com/openai/whisper

OpenAI社で使う場合の料金 $0.006/分（日本円で0.88 円）かかります。

対応しているファイル形式（mp3, mp4, mpeg, mpga, m4a, wav, and webm）一回で処理できるファイルサイズは25MBまで。それ以上大きくなる場合は音声ファイルを分割して処理して上げる
必要あり PyPIでライブラリ提供しているので、インストールするもの楽（pip install openai-whisper） Whisper使ってみて

ローカルPC（4CPU、8GB）にインストールして使ってみたが、すごい時間かかった。音声ファイル：118秒 Tiny：107.5秒 Medium：286.3秒 Large：1193.2秒翻訳の精度もLargeでないと全然使えなかった残念だったこと

音声ファイル：118秒ローカルPC Tiny：107.5秒 Medium：286.3秒 Large：1193.2秒有料版 large-v2：13秒（圧勝。。。）しかも精度もLargeなので良い！有料だがOpenAI社のAPIなら

使うのも簡単サンプルソース

ローカルPC版はスペックの問題で時間がかかってしまったが、クラウドでやれば時間早くできるかもローカルPCで実装するにしてもAPI呼び出すにしてもどっちも実装が楽ちんまとめ

Whisperを使ったみて_思ったこと.pdf

Whisperを使ったみて_思ったこと.pdf

narita1980

More Decks by narita1980

Featured

Transcript

Whisperを使ったみて思ったこと 2023/08/29 Uncode合同会社成田　孝

Uncode合同会社代表小学校からプログラミングしてます趣味：読書、サウナ、猫システム開発、プログラミングスクール、エンジニアコミュニティの運営自己紹介

余談

気を取り直して

APIで連携できるものお金がかからない実装が楽音声テキスト化の方法を調査する要件

OpenAI社でライブラリを提供している？？？

Whisper使えそう！ ChatGPTのAPIもどうせ使うので相性良いかも。。。

OpenAI社から提供されてる音声をテキスト化するモデル日本語を含む99言語対応対応といっても言語によって認識率は結構違う GitHubにソースがあるので、課金しなくても使用可能 Whisperとは？　　https://github.com/openai/whisper

OpenAI社で使う場合の料金 $0.006/分（日本円で0.88 円）かかります。

対応しているファイル形式（mp3, mp4, mpeg, mpga, m4a, wav, and webm）一回で処理できるファイルサイズは25MBまで。それ以上大きくなる場合は音声ファイルを分割して処理して上げる

ローカルPC（4CPU、8GB）にインストールして使ってみたが、すごい時間かかった。音声ファイル：118秒 Tiny：107.5秒 Medium：286.3秒 Large：1193.2秒翻訳の精度もLargeでないと全然使えなかった残念だったこと

音声ファイル：118秒ローカルPC Tiny：107.5秒 Medium：286.3秒 Large：1193.2秒有料版 large-v2：13秒（圧勝。。。）しかも精度もLargeなので良い！有料だがOpenAI社のAPIなら

使うのも簡単サンプルソース

ローカルPC版はスペックの問題で時間がかかってしまったが、クラウドでやれば時間早くできるかもローカルPCで実装するにしてもAPI呼び出すにしてもどっちも実装が楽ちんまとめ