Alexaでもparタグ使いたい！〜Alexaで発話とサウンドを並列再生する〜 / Speak with Background Music on Alexa

Alexaでもparタグ使いたい！〜Alexaで発話とサウンドを並列再生する〜 AAJUG KYOTO 11/9 LT

About Myself 1

Kuniaki Shimizu (@kun432) - シナジーマーケティング株式会社 - インフラエンジニア - Twitter/Facebook/Github/Hatena/Alexa -
ポートフォリオ： https:/ /kun432.github.io/ 3 Hello!

My Skills & Actions 4 - Alexa (JP): 12 -
Google: 1 - Clova: 1 #スキル開発100チャレンジ - Alexa (US): 1

• 本資料内における意見・発言等は個人の見解であり、所属する組織・団体の見解を代表するものでは、ありません。 • 今日はVoiceﬂowの話はしません • このLTは小ネタです。過度の期待はしないでください。 5
Disclaimer

parタグについて 2

Alexaスキル開発者が一度はやりたいと思ったこと 7

8 発話させながらサウンドをBGMとして流したい

イメージ 9 BGM 効果音② 効果音① 発話

10 Googleならできる！

<par>タグ 11 • Google Cloud Text-to-Speech で使える SSMLタグ • <par></par>で囲まれた中に<media>コンテナを
複数並べると並列で再生される • <media>コンテナに<speak>や<audio>を入れる • <media>タグの属性で細かい制御が可能 ◦ xml:idでラベルを付けて、ラベルで指定 ◦ begin/endで開始・終了時間を設定 ◦ faceInDur/fadeOutDurでフェードイン・フェードアウトなどなど

</speak> 日本昔ばなしスキルです。今日のお話は、桃太郎。<break time="1s"/> <par> <media xml:id="bgm" end="obaasan_story.end+2s" fadeOutDur="2s"> <audio src="https://dl.dropboxusercontent.com/s/xxxxxxxxxx/momotaro.mp3"
soundLevel="-20dB"/> </media> <media xml:id="intro" begin="0.7s"> <speak>むかーしむかし、あるところに、おじいさんとおばあさんが住んでいました。毎日、</speak> </media> <media xml:id="ojiisan_story" begin="intro.end+0.2s"> <speak>おじいさんは、山に芝刈りに、</speak> </media> <media xml:id="ojiisan_sound" begin="ojiisan_story.end-0.5s"> <audio src="https://dl.dropboxusercontent.com/s/xxxxxxxxxx/shibakari.mp3" repeatCount="2"/> </media> <media xml:id="obaasan_story" begin="ojiisan_story.end+0.5s"> <speak>おばあさんは、川に洗濯に、いっていました。</speak> </media> <media xml:id="obaasan_sound" begin="obaasan_story.end-2.0s" fadeOutDur="2s"> <audio src="https://dl.dropboxusercontent.com/s/xxxxxxxxxx/sentaku.mp3" clipEnd="3s"/> </media> </par> </speak>

13 デモ

14 BGMは「甘茶の音楽工房（https://amachamusic.chagasi.com）」様、効果音は「効果音ラボ（ https://soundeffect-lab.info）」様のものを使用させていただいております。ありがとうございます。

15 参考） https://medium.com/google-developers/advanced-ssml-for-actions-on-google-5cea45d868c9

<par>タグで並列再生のメリット 16 • 表現力が豊か ◦ 楽しい・にぎやか・臨場感 ◦ ユースケースいろいろ • SSMLだけで書ける
◦ お手軽 ◦ 動的な発話生成とBGMをミックスできる • サウンド編集が不要 ◦ 音量や再生時間、フェードアウトやフェードインをSSMLで制御

17 Alexaでは？

Alexaでは・・・ 18 • SSMLでは、発話とオーディオはシーケンシャルに再生される ◦ 発話→サウンド→効果音→発話 ◦ 並列で再生させる方法がない •
どうするか？ ◦ サウンドと発話をミックスしたmp3作成 ▪ Polly/GarageBandとか • でも発話は動的に生成したい ◦ 複数パターンのmp3を用意する？ ◦ いくつ用意するんや・・・

19 Alexaでは SSMLで並列再生はできない・・・

20 大事なことなのでもう一度

21 Googleならできる！

22 Alexaではできない・・・

23 Alexaでもやりたい！

Alexaでやってみた 3

25 alexa-polly-background-mixing-nodejs https://github.com/DanMittendorf/alexa-polly-background-mixing-nodejs/

26 alexa-polly-background-mixing-nodejs • digivoice.io の Daniel MittendorfさんによるPoC • Pollyで生成した発話mp3と予め用意したサウンドmp3をミックスして、S3に生成
◦ SoX（Sound eXChange） → コマンドラインの音声加工ツール ◦ lambda-audio → SoXをLambdaで動かすためのライブラリ　 - /tmpでバイナリを配置してを実行 • S3に生成して、URLをaudioタグで出力 • neuralにも対応（Joanna/Mathew, us-west-1, eu-west-1 のみ）

29 デモ

31 課題 • Pollyの声になる、Alexaの声ではない。 • audioタグはPollyでは使えない。BGMとのミックスが限界 • 初回アクセス時は、Polly mp3生成＋BGMミックス処理が行われるため、応答までに時間がかかる
◦ Lambda側はタイムアウトを緩和 ◦ Alexa側はプログレッシブ応答で緩和がベター ◦ 2回目以降はキャッシュを使う（即応答する） • 動的に発話を生成する場合 ◦ 毎回ミックスが発生するので応答に時間がかかる ◦ 溜まったS3上のmp3ファイルは一定期間で削除等必要 • 細かいタイミングまでは制御できない ◦ Pollyの発話時間に合わせてミックスされるが、最後はいきなり切れる（フェードアウト設定追加がベター）

32 できなくはない

33 日本語向けに修正したfolk https://github.com/kun432/alexa-polly-background-mixing-nodejs

34 ここで残念なお知らせ

35 Lambdaのランタイム、 nodejs 10.xでは動かない・・・

36 ランタイムはnodejs 8.xのみ

37 ＿人人人人人人人人人人＿＞　あと２ヶ月の命！　＜￣Y^Y^Y^Y^Y^Y^Y^Y^Y￣

38 残された道・・・

39 方法は色々・・・ • Amazon Pollyで発話mp3生成、Amazon Elastic Trancoderでサウンドmp3とミックス • Google Cloud
Text-to-Speech APIなら、SSML でparタグそのまま使えるけど、違和感 SSMLだけでサラッと・・・というわけには行かない

40 もう一つの方法

41 alexa.uservoice.com

42 http://bit.ly/31IVpWK alexa.uservoice.com(US)

43 alexa.uservoice.com(JP) http://bit.ly/2WhNUVX

44 parタグ • <par>, <media>, <seq>は、Google独自の規格ではない。 ◦ SSMLでは他のマークアップとの相互運用性のサポートが明記されている（VoiceXML・SMIL等） •
SMIL（Synchronized Multimedia Integration Language） ◦ WWWでマルチメディアコンテンツを表現するためのマークアップ言語 ◦ 静止画/動画/音声/文字などの、位置及び時間軸でのレイアウトをXMLで記述し再生 ◦ <par>, <media>, <seq>はSMIL3で定義されている ◦ Googleはこの仕様に素直に従っているだけに見えるつまり・・・

45 Alexaでもできるはず！

46 Please Vote!!!

47 https://techcrunch.com/2019/11/04/top-vcs-on-voice/

48 VCの目線 • VUIアプリの普及に必要な要素 ◦ Anchor / GimletなどのPodcastサービスの次の波 ◦ パーソナライズ
▪ 位置情報。自宅の外 ▪ カスタマイズされたオーディオ体験 • Resemble.io / Descript ◦ 新しいインタフェースや挙動 ▪ airpodそのものではなく、airpod-ﬁrstなプロダクト ◦ マネタイズ ▪ 広告ではなく、サブスクリプションモデル • Shine / Headspace / Calm

まとめ 4

50 まとめ • SSMLでサウンドと音声を並列再生できるparタグはとても良い！ • Alexaでもできなくはないけど、SSMLで手軽にできるのが理想 • Alexaでできない理由はない。要望あげよう！
• 「カスタマイズされた音声コンテンツ」がVUI普及の一つのキー開発者が、豊かな音声コンテンツを手軽に作れることが重要な要素の一つ

51 おまけ • 時間軸での制御は便利だけど・・・ ◦ 「アレクサ、ゆっくり話して」でどうなる？ ▪ Googleにはその機能はない（と思う） ◦ 時間の動的制御とかやりだしたらSSML沼
◦ 予め作成したmp3だとこの影響受けない（はず） ▪ GarageBandワークショップの機運・・・！ • AlexaとGoogleのSSMLの違いも興味深い ◦ GoogleだとPollyみたいな音声使い分けはできない？ ◦ audioタグとかsay-asのオプションが豊富 ▪ audioタグ単体で再生時間の制御とかできる ▪ say-asでunitを使うと、単数形・複数形を吸収してくれる（Alexaもやってくれる？）

Thanks! Any questions?

Alexaでもparタグ使いたい！〜Alexaで発話とサウンドを並列再生する〜 / Speak...

Alexaでもparタグ使いたい！〜Alexaで発話とサウンドを並列再生する〜 / Speak with Background Music on Alexa

More Decks by Kuniaki Shimizu

Other Decks in Technology

Featured

Transcript