Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Speaker Recognitionを触ってみた
Search
Hikari
January 26, 2022
Technology
0
310
Speaker Recognitionを触ってみた
Cogbot Meetup Online #35 - 2022 新春 LT 祭りで話した時のスライドです。
https://cogbot.connpass.com/event/234749/
Hikari
January 26, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
4.5k
ABEMAの本番環境負荷試験への挑戦
mk2taiga
5
1.3k
ゼロから始めるSREの事業貢献 - 生成AI時代のSRE成長戦略と実践 / Starting SRE from Day One
shinyorke
PRO
0
110
Snowflake Intelligenceという名のAI Agentが切り開くデータ活用の未来とその実現に必要なこと@SnowVillage『Data Management #1 Summit 2025 Recap!!』
ryo_suzuki
1
160
AI Ready API ─ AI時代に求められるAPI設計とは?/ AI-Ready API - Designing MCP and APIs in the AI Era
yokawasa
8
2.1k
クラウド開発の舞台裏とSRE文化の醸成 / SRE NEXT 2025 Lunch Session
kazeburo
1
590
Figma Dev Mode MCP Serverを用いたUI開発
zoothezoo
0
230
united airlines ™®️ USA Contact Numbers: Complete 2025 Support Guide
flyunitedhelp
1
470
Autify Company Deck
autifyhq
2
44k
american aa airlines®️ USA Contact Numbers: Complete 2025 Support Guide
aaguide
0
500
Data Engineering Study#30 LT資料
tetsuroito
1
190
cdk initで生成されるあのファイル達は何なのか/cdk-init-generated-files
tomoki10
1
670
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Practical Orchestrator
shlominoach
189
11k
Docker and Python
trallard
45
3.5k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Done Done
chrislema
184
16k
Documentation Writing (for coders)
carmenintech
72
4.9k
What's in a price? How to price your products and services
michaelherold
246
12k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
21
1.3k
Statistics for Hackers
jakevdp
799
220k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
Transcript
Speaker Recognition を触ってみた!
自己紹介 • 氏名:影中 光(カゲナカ ヒカリ) • 経歴: – オンプレのインフラエンジニアからスタート –
ソフトウェア開発の部署に配属になり、Azureに出会う – 最近の仕事は要件定義、C#あたりを触っている – 最近はチームビルディングに凝っている • ブログ :https://mitsunooon.hatenablog.com/ • Twitter :@_mi_lin_
最近の悩み • 議事録を書くことが多い • オンライン会議が多い • 誰が何を発言したのかを記録するのは大変
Speech to Text:音声をテキストに書き起こす機能 Speaker Recognition:音声に基づいて話者識別する機能 ? Speech to Text Speaker
Recognition
Speaker Recognitionを触ってみよう! • まずはクイックスタートから • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/get- started-speaker-recognition?tabs=script&pivots=programming-language-csharp • GitHubにも同様のドキュメントがある •
https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive- services/Speech-Service/includes/how-to/speaker-recognition-basics/speaker- recognition-basics-csharp.md
結論 クイックスタートすら終わらず…
やったこと • AzureでSpeech Serviceを作成する。キーと場所を取得する。
やったこと • 元になるソースコードを用意する。 • https://github.com/Azure-Samples/cognitive-services-speech- sdk/tree/master/quickstart/csharp/dotnet/speaker-recognition
やったこと • ソースコードをVisual Studioで開く。 • 環境を整える。 • クイックスタートに沿って、Speech SDKのインストール
やったこと • 話者識別部分のコードを追記する。 • キーと場所を自分用のものを埋め込む。 • 実行する
やったこと • 止まる
やったこと • phraseResultの中身を見てみる • エラーが出ている • サブスクリプションが許可されていない的な内容…
やったこと • Speaker Recognitionには使用許可が必要だった! • 有害なディープフェイクを防ぐため等
やったこと • 使用目的ひとつにつき、1つの申請が必要。 • 会社名、Azureのサブスクリプション(組織に属しているもの)など必要な情報が多い。 • 申請後、約10営業日以内に連絡が来る。 • (1/4に申請し、現在未だ連絡なし)
わかったこと • ドキュメントに書いてあることはちゃんと読む。 • Speaker Recognitionはちゃんとした理由がないと使えなさそう。 • Speaker Recognitionを使用するときは余裕を持って計画的に。
おまけ • 申請の返事を待つ間に他のクイックスタートをやってみた • テキスト読み上げ • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/text-to- speech • 打ち込んだ文字を読み上げてくれる
• 文字数制限はあった(半角250文字くらい) • 適当な文字列を入れたときは読めるところまで頑張って読もうとしてくれる
おまけ • MS Learnの音声サービスを使用して音声対応アプリを作成する • https://docs.microsoft.com/ja-jp/learn/modules/transcribe-speech-input-text/ • “What time is
it?”って話すと今の時間を表示してくれる • つたない英語でもちゃんと伝わる