Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OpenAI社のWhisper APIを使ってみた! / ChatGPT研究会 第7弾 (ALGYAN)

OpenAI社のWhisper APIを使ってみた! / ChatGPT研究会 第7弾 (ALGYAN)

you(@youtoy)

May 20, 2023
Tweet

More Decks by you(@youtoy)

Other Decks in Technology

Transcript

  1. 自己紹介 豊田陽介( ) @youtoy ・IT系イベント主催、登壇や運営なども ・共著・単著の本を出していたり ・ Microsoft MVP(2021/10 から)

    プライベートでの活動 ・ガジェット大好き ・ChatGPTは昨年の12月2日から利用開始 ※ アドベントカレンダーで、12月2日   やその他の日で ChatGPTネタの   記事を書いたりも 好きなこと、他
  2. 「Whisper API」の概要説明(公式) https://openai.com/blog/introducing-chatgpt-and-whisper-apis より ▼「Whisper」は 2022年9月に   オープンソース化された  「Speech to

    Textモデル」 ▼「Whisper API」は API経由で  それを利用可能(※ large-v2  モデル) ▼ API の料金は「$0.006/分」
  3. 「Whisper API」の概要説明(公式) https://openai.com/blog/introducing-chatgpt-and-whisper-apis より ▼「Whisper」は 2022年9月に   オープンソース化された  「Speech to

    Textモデル」 ▼「Whisper API」は API経由で  それを利用可能(※ large-v2  モデル) ▼ API の料金は「$0.006/分」
  4. curlを使って実際に試してみる ▪手順  1)処理対象の音声ファイルの内容を確認  2)curlコマンドで API を利用してみる   ※ APIキーは環境変数「$OPENAI_API_KEY」で設定 curl

    https://api.openai.com/v1/audio/transcriptions \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: multipart/form-data" \ -F model="whisper-1" \ -F file="@【ファイルのパス+ファイル名】" \ -F language="ja" 言語指定: 「ja」
  5. ffmpegを使ってファイル分割 ▪コマンドの例:  特定の時間の長さ毎に分割する ffmpeg -i 【入力ファイル】 -f segment -segment_time 【時間】

    -c copy -reset_timestamps 1 【出力ファイル名】 ※ 出力ファイルでの連番の指定例: output_%03d.m4a