（再掲）Media ServicesとAIを利用した字幕付きライブ配信 / Live Streaming with AWS MediaServices and AI

Media ServicesとAIを利用した広告および字幕付きライブ配信 TV TOKYO Communications Corporations Tech Lead Yuichiro
Danno 段野　祐一郎 ( @ydanno ) JAWS-UG横浜 #15「Media-JAWS #0」

5G時代を前に、映像メディアが盛り上がってます。画像引用（https://ameblo.jp/himebura/entry-12422161482.html）

個人がスマホで映像での情報発信できる時代

一般的な配信構成各種HDMI 変換登壇者 PC プロジェクターカメラ１S／会場LS／プロジェクター
コミ HDMI USB変換等 YouTube 配信PC RTMP ＬＡＮ WiFi 使用回線が、内→外（インターネット）で、TCP/1935が空いている必要がある

2019/03/20 配信構成各種HDMI 変換登壇者 PC HDMI 分岐プロジェクター
カメラ１S／会場LS／プロジェクターコミ SWer YouTube 配信PC ↓こんなの USB-typeC - HDMI変換 Thunderbold - HDMI変換 TX持参設備 RTMP 基本ワンオペ想定 HDMI モニタ LiveU

企業が映像配信するには色々考えないといけない

AWS Media Servicesは映像メディア界の救世主

テレ東、ライブ配信、頑張ってます。見てネ！

大半がモバイルデバイスでの視聴。字幕ニーズ ⤴ PC スマホタブレット世界卓球2019日本代表最終選考会 (2019/3/2-2019/3/3) 視聴デバイス割合約70%がモバイル機器学校や移動中は無音で再生させたいと回答したのは、
76％文字表示（テロップ/字幕）ニーズが高い配信で自動字幕を真面目に検討したい！ Z世代へのモバイル視聴調査結果（アメリカ） https://www.movie-times.tv/topic/9077/

字幕の目的と種類【目的】・Accessibility（アクセシビリティ）　- 耳が不自由な聴覚障害者やお年寄りでも内容を理解したり、楽しめる　- 外国語翻訳　- 音が出しづらい環境下（電車内やオフィス等）でのコンテンツ視聴・SEO
　- 検索エンジンへの動画メタデータの提供。動画の内容を深く理解してもらい、検索ランク向上。【種類】・映像への焼き込み（OFFできない）　　・Closed Caption（ON/OFF可能）

字幕（Closed Caption）。放送と配信の違い。放送字幕配信字幕・ARIB字幕　（日本独自規格。テレビでのみ表示可能）・独自外字、色（文字・背景）、サイズ、ルビ、　位置、等、定義された中で自由に表現可能・配信では使えない（
サポートされてない(※) ）　※アメリカ放送規格はサポートされている・WEB規格（W3C）　WebVTT（Web Video Text Tracks Format）、　TTML（Timed Text Markup Language）　※以下、デファクトの WebVTTについて説明・ルビ、位置・多くの動画プレイヤーでサポート　※プレイヤーごとにサポートされる機能はマチマチ厳密にはYouTubeはライブ翻訳なので違うが

放送と配信で、字幕を共用(変換)するのは難しい。放送字幕配信字幕バイナリデータテキストデータ(.vtt) or or 映像と字幕ファイルを納品映像を見ながら
リアルタイム入力 AIがリアルタイム変換収録番組生番組ビデオオンデマンドライブ配信映像と字幕ファイルを納品

リアルタイム字幕の表示方法 Closed Caption リアルタイム変換【手法】特定のインターバル（3秒や5秒etc）ごとにまとめて字幕表示（※）【表示】 WEB規格（W3C）に則る ON/OFF可能
※字幕表示タイミングが常に　１インターバル、ズレるもしくは　字幕表示タイミングに合わせると　映像のみ遅延させる必要がある【手法】字幕生成されたタイミングで随時表示（タイピング[Typing] UI）【表示】 ①映像への焼き込み　ON/OFFできない ②独自手法（APIでServer - Client通信etc）　ON/OFFできるが、汎用性低い（Pros/Consは後のスライドで深掘り）

そんな中…AbemaTVさん、AI利用リアルタイム字幕 Google Speech to Text 利用 AbemaTV AIポン AbemaTIMES https://abematimes.com/posts/538
7713 より引用 Googleが提供する音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベースとして、株式会社LASSICが開発した「LASSIC Speech Recognition」を活用 AIポンの仕組み及びメリット・デメリットを考察してみる。映像への焼き込み

AbemaTV AIポンの仕組み考察（間違ってたらごめんな！） Speech Recognition リアルタイム・不要語の削除・放送禁止用語にマスク・タイピングLikeな出力拡張モデルの反映
・固有名詞の習得 →音声認識精度向上スタジオ demux （音声分離）テロップ作成映像に合成音声ストリームエンコード配信変換・CDN 映像映像映像ストリーム視聴デバイス・文節を理解した読点・タイピングLikeな出力この差が１秒！！テキストリアルタイム

AbemaTV AIポンの仕組み考察（他にもあるが主要なものを掲載） Pros Cons 低遅延（タイピング出力） ※字幕生成のために映像配信自体が　遅延しない or 字幕がズレにくい字幕が不要な人にも表示される
コンテンツ表示領域が狭くなる（字幕エリアがある前提の制作に）どのプラットフォームでの表示可能（なんならYouTubeでも）コストがかかる（テレ東は予算が...(略) ）（リアルタイム >> バッチ処理）字幕ストリームの監視不要字幕表示が間違っていたものをアーカイブ化するときに、簡単に修正できない「放送ありきの配信」である、現状の”テレビ東京”のテレビ制作には不向きか。 AIポンの考察から得た知識で、似た仕組みを考えて、違う方向から検証してみる。

てれとポンが目指すカタチ　　①映像が少し遅れてもいいから、Closed Caption 　　②クラウド上で処理を完結させる（専用ハードウェアが不要）スタジオエンコード　　③字幕変換はAI（リアルタイムではなく、文節ごと）

文節ごとの字幕変換イメージ映像（10秒）映像（10秒）映像（10秒）字幕（10秒）字幕
（10秒）字幕（10秒） AI 音声 ↓ 字幕変換映像（10秒）映像（10秒）音声（4秒）音声（8秒）発話による映像分割 ↓ 映像合成映像・字幕（4秒） AI 音声 ↓ 字幕変換映像（10秒）映像（10秒）発話音声（8秒）発話音声（6秒）音声が映像ファイル間でまたぐので、誤変換もしくは変換されない単語が発生する可能性が高くなる 2秒 6秒 4秒映像・字幕（8秒）映像（4秒）映像（8秒）誤変換および変換されない単語を減らすことができる（可能性がある） ※例外は存在 ※リバッファリングが発生しやすくなる

作ろう！と思ったらaws-sampleに良さげなものが！ https://github.com/aws-samples/aws-transcribe-captions-live 今回の要件では、 PollyやTranslateは不要だから要カスタマイズ →

CloudFormationで、３分クッキング！【注意点】リージョンは、オレゴン（us-west-2）を利用する！ 2019/3/13時点で、Amazon Transcribeが東京（ap-northeast-1）では利用できない（Transcribeは、日本語対応もまだだが、いったん無視）とりま、CDNなし、3分コース！

構成やソースコードから、やってることを把握する！ chunk # transcribe exec time average total exec time
average 1 11.847067 12.720454 2 7.373578 変換遅延 7.21 秒 8.182028 総遅延 8.02 秒 3 7.235689 8.166719 4 6.894183 7.954145 5 7.188919 7.989607 6 7.732012 8.598675 7 7.277228 8.145534 8 7.171953 8.036948 9 6.839487 7.718687 10 6.579717 7.347438 変換：主要遅延要因（約 7.2秒）低解像度動画から字幕生成用音声を抽出するため７秒遅延は許容。日本語化対応させる！ Transcribeのために、映像から音声ファイルのみ抽出映像と字幕の同期のためにタイムスタンプを取得

主要ベンダーの Speech to Text ソリューションサービス名バッチ処理主要入力音声フォーマット日本語対応 Google
Cloud Speech API ◦ FLAC WAV(PCM), WAV(MULAW) AMR, OGG(OPUS), Speex ◦ Microsoft Azure Speech to Text API ◦ WAV(PCM) OGG(OPUS) ◦ IBM Watson Speech to Text ◦ FLAC WAV(PCM), WAV(MULAW) OGG(OPUS), mp3 ◦ Amazon Transcribe ◦ FLAC PCM, WAV(PCM), mp3 × ・機能差はない。GCPアカウントあるのでGoogle Cloud Speechを使ってみる。・音声ファイルは、AWSサンプルでやってるPCMでなくWAV(PCM)が汎用性高い。・Amazon Transcribeの日本語化対応が待ち遠しい（再掲）

Google用に、PCMをWAV(PCM)に変換（ffmpegも） CaptionGenerationLambda（python）の改修は軽微

Amazon Transcribe を Google Speech to Text に変換 TranscribeStreamingLambda（Java）の改修は、大きく下記　・Google認証（サービスアカウントのクレデンシャル設定）
　・クライアントライブラリおよびAPIコールの変更

タイムアップなのでここまでの内容を DEMO

今回の構成 https://github.com/aws-samples/aws-transcribe-captions-live 今回の要件では、 PollyやTranslateは不要だから要カスタマイズ →

わかったこと・AWSサンプル（ベストプラクティス）はPoCやサービス　立ち上げに最適・とはいえ、完全にマッチしないこともあるので、　カスタマイズ可能なポイントを把握することが大事・発話分割しなくても、まぁまぁ理解できる。　とはいえ、発話分割案も今度やってみる・Amazon Transcribe 日本語対応を待つのみ…！！
　　2019/3/6時点は、5ヶ国語　　英語 (米国)、スペイン語 (米国)、英語 (オーストラリア)、　　英語 (英国)、フランス語 (カナダ)

ご静聴いただき、ありがとうございました

（再掲）Media ServicesとAIを利用した字幕付きライブ配信 / Live Stre...

（再掲）Media ServicesとAIを利用した字幕付きライブ配信 / Live Streaming with AWS MediaServices and AI

y-danno

More Decks by y-danno

Other Decks in Technology

Featured

Transcript

Media ServicesとAIを利用した広告および字幕付きライブ配信 TV TOKYO Communications Corporations Tech Lead Yuichiro

5G時代を前に、映像メディアが盛り上がってます。画像引用（https://ameblo.jp/himebura/entry-12422161482.html）

個人がスマホで映像での情報発信できる時代

一般的な配信構成各種HDMI 変換登壇者 PC プロジェクターカメラ１S／会場LS／プロジェクター

2019/03/20 配信構成各種HDMI 変換登壇者 PC HDMI 分岐プロジェクター

企業が映像配信するには色々考えないといけない

AWS Media Servicesは映像メディア界の救世主

テレ東、ライブ配信、頑張ってます。見てネ！

大半がモバイルデバイスでの視聴。字幕ニーズ ⤴ PC スマホタブレット世界卓球2019日本代表最終選考会 (2019/3/2-2019/3/3) 視聴デバイス割合約70%がモバイル機器学校や移動中は無音で再生させたいと回答したのは、

放送と配信で、字幕を共用(変換)するのは難しい。放送字幕配信字幕バイナリデータテキストデータ(.vtt) or or 映像と字幕ファイルを納品映像を見ながら

リアルタイム字幕の表示方法 Closed Caption リアルタイム変換【手法】特定のインターバル（3秒や5秒etc）ごとにまとめて字幕表示（※）【表示】 WEB規格（W3C）に則る ON/OFF可能

そんな中…AbemaTVさん、AI利用リアルタイム字幕 Google Speech to Text 利用 AbemaTV AIポン AbemaTIMES https://abematimes.com/posts/538

AbemaTV AIポンの仕組み考察（間違ってたらごめんな！） Speech Recognition リアルタイム・不要語の削除・放送禁止用語にマスク・タイピングLikeな出力拡張モデルの反映

AbemaTV AIポンの仕組み考察（他にもあるが主要なものを掲載） Pros Cons 低遅延（タイピング出力） ※字幕生成のために映像配信自体が　遅延しない or 字幕がズレにくい字幕が不要な人にも表示される

てれとポンが目指すカタチ　　①映像が少し遅れてもいいから、Closed Caption 　　②クラウド上で処理を完結させる（専用ハードウェアが不要）スタジオエンコード　　③字幕変換はAI（リアルタイムではなく、文節ごと）

文節ごとの字幕変換イメージ映像（10秒）映像（10秒）映像（10秒）字幕（10秒）字幕

作ろう！と思ったらaws-sampleに良さげなものが！ https://github.com/aws-samples/aws-transcribe-captions-live 今回の要件では、 PollyやTranslateは不要だから要カスタマイズ →

構成やソースコードから、やってることを把握する！ chunk # transcribe exec time average total exec time

主要ベンダーの Speech to Text ソリューションサービス名バッチ処理主要入力音声フォーマット日本語対応 Google

Google用に、PCMをWAV(PCM)に変換（ffmpegも） CaptionGenerationLambda（python）の改修は軽微

Amazon Transcribe を Google Speech to Text に変換 TranscribeStreamingLambda（Java）の改修は、大きく下記　・Google認証（サービスアカウントのクレデンシャル設定）

タイムアップなのでここまでの内容を DEMO

今回の構成 https://github.com/aws-samples/aws-transcribe-captions-live 今回の要件では、 PollyやTranslateは不要だから要カスタマイズ →

ご静聴いただき、ありがとうございました