Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Speaker Recognitionを触ってみた
Search
Hikari
January 26, 2022
Technology
0
320
Speaker Recognitionを触ってみた
Cogbot Meetup Online #35 - 2022 新春 LT 祭りで話した時のスライドです。
https://cogbot.connpass.com/event/234749/
Hikari
January 26, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
速習AGENTS.md:5分で精度を上げる "3ブロック" テンプレ
ismk
6
1.6k
コンテキストエンジニアリング入門〜AI Coding Agent作りで学ぶ文脈設計〜
kworkdev
PRO
2
1.3k
OAuthからOIDCへ ― 認可の仕組みが認証に拡張されるまで
yamatai1212
0
120
20251014_Pythonを実務で徹底的に使いこなした話
ippei0923
0
200
難しいセキュリティ用語をわかりやすくしてみた
yuta3110
0
110
AI時代こそ求められる設計力- AWSクラウドデザインパターン3選で信頼性と拡張性を高める-
kenichirokimura
3
320
OCI Network Firewall 概要
oracle4engineer
PRO
2
7.9k
『バイトル』CTOが語る! AIネイティブ世代と切り拓くモノづくり組織
dip_tech
PRO
1
130
エンタメとAIのための3Dパラレルワールド構築(GPU UNITE 2025 特別講演)
pfn
PRO
0
330
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
12
80k
アイテムレビュー機能導入からの学びと改善
zozotech
PRO
0
170
AWS Control Tower に学ぶ! IAM Identity Center 権限設計の第一歩 / IAM Identity Center with Control Tower
y___u
0
170
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Building a Scalable Design System with Sketch
lauravandoore
463
33k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
7.8k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Documentation Writing (for coders)
carmenintech
75
5.1k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
30
2.9k
Thoughts on Productivity
jonyablonski
70
4.9k
The Cult of Friendly URLs
andyhume
79
6.6k
Building Adaptive Systems
keathley
44
2.8k
Bash Introduction
62gerente
615
210k
Site-Speed That Sticks
csswizardry
12
900
Transcript
Speaker Recognition を触ってみた!
自己紹介 • 氏名:影中 光(カゲナカ ヒカリ) • 経歴: – オンプレのインフラエンジニアからスタート –
ソフトウェア開発の部署に配属になり、Azureに出会う – 最近の仕事は要件定義、C#あたりを触っている – 最近はチームビルディングに凝っている • ブログ :https://mitsunooon.hatenablog.com/ • Twitter :@_mi_lin_
最近の悩み • 議事録を書くことが多い • オンライン会議が多い • 誰が何を発言したのかを記録するのは大変
Speech to Text:音声をテキストに書き起こす機能 Speaker Recognition:音声に基づいて話者識別する機能 ? Speech to Text Speaker
Recognition
Speaker Recognitionを触ってみよう! • まずはクイックスタートから • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/get- started-speaker-recognition?tabs=script&pivots=programming-language-csharp • GitHubにも同様のドキュメントがある •
https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive- services/Speech-Service/includes/how-to/speaker-recognition-basics/speaker- recognition-basics-csharp.md
結論 クイックスタートすら終わらず…
やったこと • AzureでSpeech Serviceを作成する。キーと場所を取得する。
やったこと • 元になるソースコードを用意する。 • https://github.com/Azure-Samples/cognitive-services-speech- sdk/tree/master/quickstart/csharp/dotnet/speaker-recognition
やったこと • ソースコードをVisual Studioで開く。 • 環境を整える。 • クイックスタートに沿って、Speech SDKのインストール
やったこと • 話者識別部分のコードを追記する。 • キーと場所を自分用のものを埋め込む。 • 実行する
やったこと • 止まる
やったこと • phraseResultの中身を見てみる • エラーが出ている • サブスクリプションが許可されていない的な内容…
やったこと • Speaker Recognitionには使用許可が必要だった! • 有害なディープフェイクを防ぐため等
やったこと • 使用目的ひとつにつき、1つの申請が必要。 • 会社名、Azureのサブスクリプション(組織に属しているもの)など必要な情報が多い。 • 申請後、約10営業日以内に連絡が来る。 • (1/4に申請し、現在未だ連絡なし)
わかったこと • ドキュメントに書いてあることはちゃんと読む。 • Speaker Recognitionはちゃんとした理由がないと使えなさそう。 • Speaker Recognitionを使用するときは余裕を持って計画的に。
おまけ • 申請の返事を待つ間に他のクイックスタートをやってみた • テキスト読み上げ • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/text-to- speech • 打ち込んだ文字を読み上げてくれる
• 文字数制限はあった(半角250文字くらい) • 適当な文字列を入れたときは読めるところまで頑張って読もうとしてくれる
おまけ • MS Learnの音声サービスを使用して音声対応アプリを作成する • https://docs.microsoft.com/ja-jp/learn/modules/transcribe-speech-input-text/ • “What time is
it?”って話すと今の時間を表示してくれる • つたない英語でもちゃんと伝わる