Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Speaker Recognitionを触ってみた
Search
Hikari
January 26, 2022
Technology
0
320
Speaker Recognitionを触ってみた
Cogbot Meetup Online #35 - 2022 新春 LT 祭りで話した時のスライドです。
https://cogbot.connpass.com/event/234749/
Hikari
January 26, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
MySQLとPostgreSQLのコレーション / Collation of MySQL and PostgreSQL
tmtms
1
1.2k
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
770
M&Aで拡大し続けるGENDAのデータ活用を促すためのDatabricks権限管理 / AEON TECH HUB #22
genda
0
240
半年で、AIゼロ知識から AI中心開発組織の変革担当に至るまで
rfdnxbro
0
140
アラフォーおじさん、はじめてre:Inventに行く / A 40-Something Guy’s First re:Invent Adventure
kaminashi
0
160
【開発を止めるな】機能追加と並行して進めるアーキテクチャ改善/Keep Shipping: Architecture Improvements Without Pausing Dev
bitkey
PRO
1
130
ActiveJobUpdates
igaiga
1
320
AI時代のワークフロー設計〜Durable Functions / Step Functions / Strands Agents を添えて〜
yakumo
3
2.2k
事業の財務責任に向き合うリクルートデータプラットフォームのFinOps
recruitengineers
PRO
2
220
ペアーズにおけるAIエージェント 基盤とText to SQLツールの紹介
hisamouna
2
1.7k
Connection-based OAuthから学ぶOAuth for AI Agents
flatt_security
0
370
「図面」から「法則」へ 〜メタ視点で読み解く現代のソフトウェアアーキテクチャ〜
scova0731
0
500
Featured
See All Featured
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
260
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
49
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
17
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
260
Building Flexible Design Systems
yeseniaperezcruz
330
39k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.7k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
130
Information Architects: The Missing Link in Design Systems
soysaucechin
0
720
Transcript
Speaker Recognition を触ってみた!
自己紹介 • 氏名:影中 光(カゲナカ ヒカリ) • 経歴: – オンプレのインフラエンジニアからスタート –
ソフトウェア開発の部署に配属になり、Azureに出会う – 最近の仕事は要件定義、C#あたりを触っている – 最近はチームビルディングに凝っている • ブログ :https://mitsunooon.hatenablog.com/ • Twitter :@_mi_lin_
最近の悩み • 議事録を書くことが多い • オンライン会議が多い • 誰が何を発言したのかを記録するのは大変
Speech to Text:音声をテキストに書き起こす機能 Speaker Recognition:音声に基づいて話者識別する機能 ? Speech to Text Speaker
Recognition
Speaker Recognitionを触ってみよう! • まずはクイックスタートから • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/get- started-speaker-recognition?tabs=script&pivots=programming-language-csharp • GitHubにも同様のドキュメントがある •
https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive- services/Speech-Service/includes/how-to/speaker-recognition-basics/speaker- recognition-basics-csharp.md
結論 クイックスタートすら終わらず…
やったこと • AzureでSpeech Serviceを作成する。キーと場所を取得する。
やったこと • 元になるソースコードを用意する。 • https://github.com/Azure-Samples/cognitive-services-speech- sdk/tree/master/quickstart/csharp/dotnet/speaker-recognition
やったこと • ソースコードをVisual Studioで開く。 • 環境を整える。 • クイックスタートに沿って、Speech SDKのインストール
やったこと • 話者識別部分のコードを追記する。 • キーと場所を自分用のものを埋め込む。 • 実行する
やったこと • 止まる
やったこと • phraseResultの中身を見てみる • エラーが出ている • サブスクリプションが許可されていない的な内容…
やったこと • Speaker Recognitionには使用許可が必要だった! • 有害なディープフェイクを防ぐため等
やったこと • 使用目的ひとつにつき、1つの申請が必要。 • 会社名、Azureのサブスクリプション(組織に属しているもの)など必要な情報が多い。 • 申請後、約10営業日以内に連絡が来る。 • (1/4に申請し、現在未だ連絡なし)
わかったこと • ドキュメントに書いてあることはちゃんと読む。 • Speaker Recognitionはちゃんとした理由がないと使えなさそう。 • Speaker Recognitionを使用するときは余裕を持って計画的に。
おまけ • 申請の返事を待つ間に他のクイックスタートをやってみた • テキスト読み上げ • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/text-to- speech • 打ち込んだ文字を読み上げてくれる
• 文字数制限はあった(半角250文字くらい) • 適当な文字列を入れたときは読めるところまで頑張って読もうとしてくれる
おまけ • MS Learnの音声サービスを使用して音声対応アプリを作成する • https://docs.microsoft.com/ja-jp/learn/modules/transcribe-speech-input-text/ • “What time is
it?”って話すと今の時間を表示してくれる • つたない英語でもちゃんと伝わる