Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Speaker Recognitionを触ってみた
Search
Hikari
January 26, 2022
Technology
0
320
Speaker Recognitionを触ってみた
Cogbot Meetup Online #35 - 2022 新春 LT 祭りで話した時のスライドです。
https://cogbot.connpass.com/event/234749/
Hikari
January 26, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
共有と分離 - Compose Multiplatform "本番導入" の設計指針
error96num
2
580
2つのフロントエンドと状態管理
mixi_engineers
PRO
3
110
機械学習を扱うプラットフォーム開発と運用事例
lycorptech_jp
PRO
0
250
2025年夏 コーディングエージェントを統べる者
nwiizo
0
170
サラリーマンの小遣いで作るtoCサービス - Cloudflare Workersでスケールする開発戦略
shinaps
2
450
「どこから読む?」コードとカルチャーに最速で馴染むための実践ガイド
zozotech
PRO
0
460
DroidKaigi 2025 Androidエンジニアとしてのキャリア
mhidaka
2
310
会社紹介資料 / Sansan Company Profile
sansan33
PRO
6
380k
今!ソフトウェアエンジニアがハードウェアに手を出すには
mackee
12
4.8k
新アイテムをどう使っていくか?みんなであーだこーだ言ってみよう / 20250911-rpi-jam-tokyo
akkiesoft
0
280
【NoMapsTECH 2025】AI Edge Computing Workshop
akit37
0
190
品質視点から考える組織デザイン/Organizational Design from Quality
mii3king
0
200
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
173
14k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.9k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
A Modern Web Designer's Workflow
chriscoyier
696
190k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
GitHub's CSS Performance
jonrohan
1032
460k
Making the Leap to Tech Lead
cromwellryan
135
9.5k
The Invisible Side of Design
smashingmag
301
51k
Transcript
Speaker Recognition を触ってみた!
自己紹介 • 氏名:影中 光(カゲナカ ヒカリ) • 経歴: – オンプレのインフラエンジニアからスタート –
ソフトウェア開発の部署に配属になり、Azureに出会う – 最近の仕事は要件定義、C#あたりを触っている – 最近はチームビルディングに凝っている • ブログ :https://mitsunooon.hatenablog.com/ • Twitter :@_mi_lin_
最近の悩み • 議事録を書くことが多い • オンライン会議が多い • 誰が何を発言したのかを記録するのは大変
Speech to Text:音声をテキストに書き起こす機能 Speaker Recognition:音声に基づいて話者識別する機能 ? Speech to Text Speaker
Recognition
Speaker Recognitionを触ってみよう! • まずはクイックスタートから • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/get- started-speaker-recognition?tabs=script&pivots=programming-language-csharp • GitHubにも同様のドキュメントがある •
https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive- services/Speech-Service/includes/how-to/speaker-recognition-basics/speaker- recognition-basics-csharp.md
結論 クイックスタートすら終わらず…
やったこと • AzureでSpeech Serviceを作成する。キーと場所を取得する。
やったこと • 元になるソースコードを用意する。 • https://github.com/Azure-Samples/cognitive-services-speech- sdk/tree/master/quickstart/csharp/dotnet/speaker-recognition
やったこと • ソースコードをVisual Studioで開く。 • 環境を整える。 • クイックスタートに沿って、Speech SDKのインストール
やったこと • 話者識別部分のコードを追記する。 • キーと場所を自分用のものを埋め込む。 • 実行する
やったこと • 止まる
やったこと • phraseResultの中身を見てみる • エラーが出ている • サブスクリプションが許可されていない的な内容…
やったこと • Speaker Recognitionには使用許可が必要だった! • 有害なディープフェイクを防ぐため等
やったこと • 使用目的ひとつにつき、1つの申請が必要。 • 会社名、Azureのサブスクリプション(組織に属しているもの)など必要な情報が多い。 • 申請後、約10営業日以内に連絡が来る。 • (1/4に申請し、現在未だ連絡なし)
わかったこと • ドキュメントに書いてあることはちゃんと読む。 • Speaker Recognitionはちゃんとした理由がないと使えなさそう。 • Speaker Recognitionを使用するときは余裕を持って計画的に。
おまけ • 申請の返事を待つ間に他のクイックスタートをやってみた • テキスト読み上げ • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/text-to- speech • 打ち込んだ文字を読み上げてくれる
• 文字数制限はあった(半角250文字くらい) • 適当な文字列を入れたときは読めるところまで頑張って読もうとしてくれる
おまけ • MS Learnの音声サービスを使用して音声対応アプリを作成する • https://docs.microsoft.com/ja-jp/learn/modules/transcribe-speech-input-text/ • “What time is
it?”って話すと今の時間を表示してくれる • つたない英語でもちゃんと伝わる