Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Azure Speech で音声対応してみよう
Search
kosmosebi
April 17, 2026
Technology
170
0
Share
Azure Speech で音声対応してみよう
https://tfsug.connpass.com/event/387038/
kosmosebi
April 17, 2026
More Decks by kosmosebi
See All by kosmosebi
ローカルでLLMを使ってみよう
kosmosebi
0
260
Global Azure 2025 @ Kansai / Hyperlight
kosmosebi
0
280
パッチワークでAIアシスタントを作ろう
kosmosebi
1
290
Visual StudioとかIDE関連小ネタ話
kosmosebi
1
580
使ってみよう Azure AI Document Intelligence
kosmosebi
2
1.8k
たぶんAzureとかでAIが多めな話
kosmosebi
0
140
Other Decks in Technology
See All in Technology
世界の中心でApp Runnerを叫ぶ FINAL
tsukuboshi
0
120
独断と偏見で試してみる、 シングル or マルチエージェント どっちがいいの?
shichijoyuhi
1
220
ServiceNow Knowledge 26 の歩き方
manarobot
0
260
AIが盛んな時代に 技術記事を書き始めて起きた私の中での小さな変化
peintangos
0
330
AI와 협업하는 조직으로의 여정
arawn
0
560
社内エンジニア勉強会の醍醐味と苦しみ/tamadev
nishiuma
0
270
AI時代における技術的負債への取り組み
codenote
1
2k
小説執筆のハーネスエンジニアリング
yoshitetsu
0
880
Scovilleモバイルエンジニア募集中.pdf
julienrudin
0
140
Modernizing Your HCL Connections Experience: Visual Report to chain, Profile Enhancements, and AI Integration
wannesrams
0
230
Arcana: Production-Ready RAG in Elixir @ ElixirConf EU 2026
georgeguimaraes
0
120
No Types Needed, Just Callable Method Check
dak2
1
2.6k
Featured
See All Featured
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
540
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
520
How to Think Like a Performance Engineer
csswizardry
28
2.6k
Paper Plane (Part 1)
katiecoart
PRO
0
6.9k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
How to train your dragon (web standard)
notwaldorf
97
6.6k
Producing Creativity
orderedlist
PRO
348
40k
It's Worth the Effort
3n
188
29k
How to make the Groovebox
asonas
2
2.1k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
The Language of Interfaces
destraynor
162
26k
Design in an AI World
tapps
1
200
Transcript
Azure Speech で 音声対応してみよう @kosmosebi Global Azure 2026 @ Kansai
2026-04-18 1
Self Introduction { "name": "Keiji KAMEBUCHI", "corporation": "pnop Inc.", "web":
"https://azure.moe/", "X": "@kosmosebi", "awards": [ "Microsoft Regional Director" ], "location": "Osaka, Japan", "YouTube": "https://www.youtube.com/@kosmosebi" } Senior Fellow @kosmosebi 2
• 昨今音声であれこれやり取りするケースも増えてきた? • 今時のクラウドでは何ができるのか知っておきたい • オフラインの需要もあるけど今回は割愛 • 主に Microsoft Azure
上のサービスで使えるものをピックアップ Introduction 3
Agenda • 音声対応って? • Azure Speech • 音声 → テキスト変換
• テキスト → 音声変換 • その他の機能 • まとめ 4
音声対応って? • 音声対応といってもいろいろ • 音声 → テキスト (STT: Speech to
Text) • 音声を識別してテキストに変換する • リアルタイムでの変換、動画の文字起こしなど • テキスト → 音声 (TTS: Text to Speech) • テキストをもとに合成音声を生成する • ナレーションやアバターの音声など • 活用例 • 音声で ChatGPT や Copilot とやりとり • 動画の字幕 • PC の音声コントロールやナビゲーション、スクリーンリーダー • そんな感じの機能を自分たちのアプリやサービスに追加したい 5
Azure Speech • Microsoft Azure では現在 Microsoft Foundry Tools として
Azure Speech が提供中 • もともとは Project Oxford から始まり Cognitive Services、Azure AI services と名称(分類?)が変遷してきた(はず) • できること • 音声 → テキスト変換 • テキスト → 音声変換 • 音声合成アバター • 音声翻訳 • LLM音声 • 言語識別 • 発音評価 • Docker コンテナーによるローカル/オフライン処理 6
とりあえず試したい • Microsoft Foundry (ai.azure.com) 内で Playground が 利用可能 •
サインイン不要のものなら旧 Speech Studio も利用できるが、、 • 現状 Speech Studio は Azure Portal で作ったリソースから行かないと Foundry Portal に強制リダイレクトされたりする • Speech CLI • Azure Speech を使用する CLI • 一部高度な機能やカスタマイズは省略されてたりする • 利用するには API キーが必要(= Azure リソースが必要) • 利用者の情報(容姿や声など)を使った機能などは Microsoft の責任ある AI の原則のもとでアクセス申請が必 要なケースがある 7
音声 → テキスト変換 (STT) • 音声をテキスト情報に変換する機能 • できること • 音声のテキスト化
• リアルタイム(ストリーム)での変換 • バッチ処理 • 話者識別 • 言語検出 • フレーズリスト • カスタム音声 • イントネーションや方言対応、語彙の追加などに対応するために専用の音声テキ スト変換モデルを作成する 8
テキスト → 音声変換 (TTS) • テキストから合成音声を生成する機能 • できること • リアルタイムの音声合成
• バッチ処理 • SSML (音声合成マークアップ言語)を使った音声の調整 • 口形素(Viseme)の出力 • 高解像度(HD)音声 • 音声変換 • カスタム音声* • テキスト読み上げアバター 9 * 一部要申請
音声ギャラリー • Speech Studio で試すのがわかりやすい 10
アバターチャット • Azure Speech • STT/TTS • ストリーム処理 • 口形素(Viseme)
• テキスト読み上げ アバター • Azure OpenAI • Chat Completions 11
カスタム音声:パーソナル音声* • 自分の声を使って TTS を行える • 1音声程度サンプリングするだけで数秒で音声モデルが利用可能に 12
その他の機能 • 音声翻訳 • 音声を翻訳してテキスト化および別の言語の音声に (多言語→翻訳言語) • ライブインタープリター* … 話者の音声の特徴のままで翻訳音声に
• LLM 音声 • LLM を使って音声の文字起こしや翻訳を行う • Voice Live • 低遅延なリアルタイムの音声エージェント向けの機能 • 音声 to 音声で Agent とやり取りしたり Avatar 連携など • Azure OpenAI Realtime API +α な強化版 13 * 要申請
その他の機能 • キーワード認識 • 音声から特定キーワードを検出できるカスタムモデルを作ることがで きる • デバイス上で動作可 • 埋め込み音声*
• ローカル上で STT と TTS をするためのモデル • コンテナー • STT や TTS、音声言語識別を行うことができる Docker コンテナー • 課金関連の情報だけ Azure に送信する • インターネットから切断されたコンテナー* • コミットメントプランが必要 14 * 要申請
Voice Live • 音声 to 音声のやり取りを Voice Live API だけで完結
• コード側で STT や TTS、LLMとの処理が不要 15
まとめ • 音声データの扱いが面倒だけど、仕組みは単純 • SDK 使えば割と簡単なはず • 組み合わせや細かい機能含めていろいろ活用場面は多い • 今まで諦めてしまっていた機能を実現してみよう
• 足らない部分など、いろいろ工夫してみましょう • Wake word、オフライン対応、レイテンシー、ノイズ対策他 • アプリやサービス、エージェントに組み込んで音声対応 してみましょう 16
おまけ • Windows 11 における音声ナビゲーションとコントロール • 音声アクセス • 音声による操作、入力 •
Windows Vista ぐらいの時は Windows Speech Recognition とかだった • ナレーター • いわゆるスクリーンリーダー • 点字ディスプレイもサポート • 残念ながら既存のサービスでは未知の言語に対する STT はできないので 異なるアプローチが必要(ロッキーと会話するにはもう少し工夫が必要) • サンプルコード • https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/samples/ • https://github.com/buchizo/Demos 17