Speaker Recognitionを触ってみた

by Hikari

Slide 1

Slide 1 text

Speaker Recognition を触ってみた！

Slide 2

Slide 2 text

自己紹介 • 氏名：影中光（カゲナカヒカリ） • 経歴： – オンプレのインフラエンジニアからスタート – ソフトウェア開発の部署に配属になり、Azureに出会う – 最近の仕事は要件定義、C#あたりを触っている – 最近はチームビルディングに凝っている • ブログ：https://mitsunooon.hatenablog.com/ • Twitter ：@_mi_lin_

Slide 3

Slide 3 text

最近の悩み • 議事録を書くことが多い • オンライン会議が多い • 誰が何を発言したのかを記録するのは大変

Slide 4

Slide 4 text

Speech to Text：音声をテキストに書き起こす機能 Speaker Recognition：音声に基づいて話者識別する機能？ Speech to Text Speaker Recognition

Slide 5

Slide 5 text

Speaker Recognitionを触ってみよう！ • まずはクイックスタートから • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/get- started-speaker-recognition?tabs=script&pivots=programming-language-csharp • GitHubにも同様のドキュメントがある • https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive- services/Speech-Service/includes/how-to/speaker-recognition-basics/speaker- recognition-basics-csharp.md

Slide 6

Slide 6 text

結論クイックスタートすら終わらず…

Slide 7

Slide 7 text

やったこと • AzureでSpeech Serviceを作成する。キーと場所を取得する。

Slide 8

Slide 8 text

やったこと • 元になるソースコードを用意する。 • https://github.com/Azure-Samples/cognitive-services-speech- sdk/tree/master/quickstart/csharp/dotnet/speaker-recognition

Slide 9

Slide 9 text

やったこと • ソースコードをVisual Studioで開く。 • 環境を整える。 • クイックスタートに沿って、Speech SDKのインストール

Slide 10

Slide 10 text

やったこと • 話者識別部分のコードを追記する。 • キーと場所を自分用のものを埋め込む。 • 実行する

Slide 11

Slide 11 text

やったこと • 止まる

Slide 12

Slide 12 text

やったこと • phraseResultの中身を見てみる • エラーが出ている • サブスクリプションが許可されていない的な内容…

Slide 13

Slide 13 text

やったこと • Speaker Recognitionには使用許可が必要だった！ • 有害なディープフェイクを防ぐため等

Slide 14

Slide 14 text

やったこと • 使用目的ひとつにつき、1つの申請が必要。 • 会社名、Azureのサブスクリプション(組織に属しているもの)など必要な情報が多い。 • 申請後、約10営業日以内に連絡が来る。 • (1/4に申請し、現在未だ連絡なし)

Slide 15

Slide 15 text

わかったこと • ドキュメントに書いてあることはちゃんと読む。 • Speaker Recognitionはちゃんとした理由がないと使えなさそう。 • Speaker Recognitionを使用するときは余裕を持って計画的に。

Slide 16

Slide 16 text

おまけ • 申請の返事を待つ間に他のクイックスタートをやってみた • テキスト読み上げ • https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/text-to- speech • 打ち込んだ文字を読み上げてくれる • 文字数制限はあった(半角250文字くらい) • 適当な文字列を入れたときは読めるところまで頑張って読もうとしてくれる

Slide 17

Slide 17 text

おまけ • MS Learnの音声サービスを使用して音声対応アプリを作成する • https://docs.microsoft.com/ja-jp/learn/modules/transcribe-speech-input-text/ • “What time is it?”って話すと今の時間を表示してくれる • つたない英語でもちゃんと伝わる