Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure Cognitive Services / Speech で話者分離の音声文字起こし...

Avatar for Tomohisa Takaoka Tomohisa Takaoka
September 27, 2025
92

Azure Cognitive Services / Speech で話者分離の音声文字起こしをする / Speaker-Diarized Transcription with Azure Cognitive Services Speech

https://dotnetlab.connpass.com/event/364907/

https://www.youtube.com/watch?v=QCwYw32gOjI

1. 英語ポッドキャストの和訳ブログを作成
2. 話者分離の音声の文字起こしを行う
3. .NET 10 single file execution を使う
4. まとめ

Avatar for Tomohisa Takaoka

Tomohisa Takaoka

September 27, 2025
Tweet

More Decks by Tomohisa Takaoka

Transcript

  1. 自己紹介 高丘 知央 - Tomohisa Takaoka X: @tomohisa GitHub: @tomohisa

    Works at: 株式会社ジェイテックジャパン、J-Tech Creations, Inc. JTS Group - 株式会社ジャパンテクニカルソフトウェア 品川 CTO: 中小企業の受託開発をモダンな開発スタイルで。イベントソ ーシング、CQRSなどのソフトウェアアーキテクチャに関するコンサ ル業務 Microsoft MVP for Developer Technologies from Nov 2024- OSS: Sekiban - Event Sourcing and CQRS Framework. 2 / 15
  2. 2-1 ポッドキャストはRSSで音声ファイルを持っている ChatGPTに聞いたら、mp3を見つけられる。 いつもWhisperで文字起こししているからできるんじゃねと思ったら、できなかっ た。Copilotはできるといってpythonのプログラムを変えたけどできなかった。 ChatGPTに聞いたら、Cognitive Services を使わないといけないと言ってきたらか、 Azure でCognitive

    Servicesを作成、 Copilot にサクッとツールを作成させる。 WAVに変換しないといけない + 実行がすごく遅い(2倍速) バッチ処理を使えば、1時間1ドル未満(毎月無料分もある(5時間)) Endpoint, Key, リージョンを export=???? でmacのターミナルに設定 .zshrc 英語を話者分離でtxtファイルを作成できた。 8 / 15
  3. 2-2 手で修正したくないので、LLMで頑張って翻訳、整形 Copilot CLIは長い文章に弱かった ◦ Claude は長い文章大丈夫だったが、後半の翻訳が雑 ◎ CodexはCopilotができなかった長文もうまく処理 英語、日本語の形で文章化

    単語集(ユビキタス言語)を、和訳本の目次から作成して渡すことにより、単語の精 度を高める。 LLMの和訳は十分正確、文字起こしが間違えていても、翻訳語の日本語の方が文脈か ら予想して正しい訳をしていた Oah → OO (オブジェクト指向)など 9 / 15