Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(再掲)Media ServicesとAIを利用した字幕付きライブ配信 / Live Streaming with AWS MediaServices and AI

y-danno
March 20, 2019

(再掲)Media ServicesとAIを利用した字幕付きライブ配信 / Live Streaming with AWS MediaServices and AI

2019/3/20 JAWS-UG 横浜 にて開催された Media-JAWS #0 での登壇内容。
イベント内容はASCII様にて下記の通り記事化されております
Media-JAWS第0回は基礎構成から4K配信、AI字幕までネタ満載
https://ascii.jp/elem/000/001/858/1858690/

y-danno

March 20, 2019
Tweet

More Decks by y-danno

Other Decks in Technology

Transcript

  1. 一般的な配信構成 各種HDMI 変換 登壇者 PC プロジェク ター カメラ 1S/会場LS/ プロジェクター

    コミ HDMI USB変換 等 YouTube 配信PC RTMP LAN WiFi 使用回線が、内→外(インターネッ ト)で、TCP/1935が空いている必 要がある
  2. 2019/03/20 配信構成 各種HDMI 変換 登壇者 PC HDMI 分岐 プロジェク ター

    カメラ 1S/会場LS/ プロジェクター コミ SWer YouTube 配信PC ↓こんなの USB-typeC - HDMI変換 Thunderbold - HDMI変換 TX持参設備 RTMP 基本ワンオペ想定 HDMI モニタ LiveU
  3. 大半がモバイルデバイスでの視聴。字幕ニーズ ⤴ PC スマホ タブレット 世界卓球2019日本代表最終選考会 (2019/3/2-2019/3/3) 視聴デバイス割合 約70%がモバイル機器 学校や移動中は無音で再生させたいと回答したのは、

    76% 文字表示(テロップ/字幕)ニーズが高い 配信で自動字幕を真面目に検討したい! Z世代へのモバイル視聴調査結果(アメリカ) https://www.movie-times.tv/topic/9077/
  4. 字幕の目的と種類 【目的】 ・Accessibility(アクセシビリティ)  - 耳が不自由な聴覚障害者やお年寄りでも内容を理解したり、楽しめる  - 外国語翻訳  - 音が出しづらい環境下(電車内やオフィス等)でのコンテンツ視聴 ・SEO

     - 検索エンジンへの動画メタデータの提供。動画の内容を深く理解してもらい、検索ランク向上。 【種類】 ・映像への焼き込み(OFFできない)   ・Closed Caption(ON/OFF可能)
  5. 字幕(Closed Caption)。放送と配信の違い。 放送字幕 配信字幕 ・ARIB字幕  (日本独自規格。テレビでのみ表示可能 ) ・独自外字、色(文字・背景)、サイズ、ルビ、  位置、等、定義された中で自由に表現可能 ・配信では使えない(

    サポートされてない(※) )  ※アメリカ放送規格はサポートされている ・WEB規格(W3C)  WebVTT(Web Video Text Tracks Format)、  TTML(Timed Text Markup Language)  ※以下、デファクトの WebVTTについて説明 ・ルビ、位置 ・多くの動画プレイヤーでサポート  ※プレイヤーごとにサポートされる機能はマチマチ 厳密にはYouTubeはライブ翻訳なので違うが
  6. 放送と配信で、字幕を共用(変換)するのは難しい。 放送字幕 配信字幕 バイナリデータ テキストデータ(.vtt) or or 映像と字幕ファイルを 納品 映像を見ながら

    リアルタイム入力 AIがリアルタイム変換 収録番組 生番組 ビデオオンデマンド ライブ配信 映像と字幕ファイルを 納品
  7. リアルタイム字幕の表示方法 Closed Caption リアルタイム変換 【手法】 特定のインターバル(3秒や5秒etc) ごとにまとめて字幕表示(※) 【表示】 WEB規格(W3C)に則る ON/OFF可能

    ※字幕表示タイミングが常に  1インターバル、ズレる もしくは  字幕表示タイミングに合わせると  映像のみ遅延させる必要がある 【手法】 字幕生成されたタイミングで随時表示 (タイピング[Typing] UI) 【表示】 ①映像への焼き込み  ON/OFFできない ②独自手法 (APIでServer - Client通信etc)  ON/OFFできるが、汎用性低い (Pros/Consは後のスライドで深掘り)
  8. そんな中…AbemaTVさん、AI利用リアルタイム字幕 Google Speech to Text 利用 AbemaTV AIポン AbemaTIMES https://abematimes.com/posts/538

    7713 より引用 Googleが提供する音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベー スとして、株式会社LASSICが開発した「LASSIC Speech Recognition」を活用 AIポンの仕組み及びメリット・デメリットを考察してみる。 映像への 焼き込み
  9. AbemaTV AIポンの仕組み考察(間違ってたらごめんな!) Speech Recognition リアル タイム ・不要語の削除 ・放送禁止用語にマスク ・タイピングLikeな出力 拡張モデルの反映

    ・固有名詞の習得 →音声認識精度向上 スタジオ demux (音声分離) テロップ作成 映像に合成 音声 ストリーム エンコード 配信変換 ・CDN 映像 映像 映像 ストリーム 視聴デバイス ・文節を理解した読点 ・タイピングLikeな出力 この差が 1秒!! テキスト リアルタイム
  10. AbemaTV AIポンの仕組み考察(他にもあるが主要なものを掲載) Pros Cons 低遅延(タイピング出力) ※字幕生成のために映像配信自体が  遅延しない or 字幕がズレにくい 字幕が不要な人にも表示される

    コンテンツ表示領域が狭くなる (字幕エリアがある前提の制作に) どのプラットフォームでの表示可能 (なんならYouTubeでも) コストがかかる( テレ東は予算が...(略) ) (リアルタイム >> バッチ処理) 字幕ストリームの監視不要 字幕表示が間違っていたものを アーカイブ化するときに、簡単に 修正できない 「放送ありきの配信」である、現状の”テレビ東京”のテレビ制作には不向きか。 AIポンの考察から得た知識で、似た仕組みを考えて、違う方向から検証してみる。
  11. 文節ごとの字幕変換イメージ 映像 (10秒) 映像 (10秒) 映像 (10秒) 字幕 (10秒) 字幕

    (10秒) 字幕 (10秒) AI 音声 ↓ 字幕 変換 映像 (10秒) 映像 (10秒) 音声 (4秒) 音声 (8秒) 発話 に よる 映像 分割 ↓ 映像 合成 映像・字幕 (4秒) AI 音声 ↓ 字幕 変換 映像(10秒) 映像(10秒) 発話音声(8秒) 発話音声(6秒) 音声が映像ファイル間でまたぐので、誤変換もしくは変換され ない単語が発生する可能性が高くなる 2秒 6秒 4秒 映像・字幕 (8秒) 映像 (4秒) 映像 (8秒) 誤変換および変換さ れない単語を減らすこ とができる (可能性がある) ※例外は存在 ※リバッファリングが 発生しやすくなる
  12. 構成やソースコードから、やってることを把握する! chunk # transcribe exec time average total exec time

    average 1 11.847067 12.720454 2 7.373578 変換 遅延 7.21 秒 8.182028 総 遅延 8.02 秒 3 7.235689 8.166719 4 6.894183 7.954145 5 7.188919 7.989607 6 7.732012 8.598675 7 7.277228 8.145534 8 7.171953 8.036948 9 6.839487 7.718687 10 6.579717 7.347438 変換:主要遅延要因(約 7.2秒) 低解像度動画から字幕生成用音声を抽出するため 7秒遅延は許容。日本語化対応させる! Transcribeのために、映像から 音声ファイルのみ抽出 映像と字幕の同期のために タイムスタンプを取得
  13. 主要ベンダーの Speech to Text ソリューション サービス名 バッチ処理 主要入力音声フォーマット 日本語対応 Google

    Cloud Speech API ◦ FLAC WAV(PCM), WAV(MULAW) AMR, OGG(OPUS), Speex ◦ Microsoft Azure Speech to Text API ◦ WAV(PCM) OGG(OPUS) ◦ IBM Watson Speech to Text ◦ FLAC WAV(PCM), WAV(MULAW) OGG(OPUS), mp3 ◦ Amazon Transcribe ◦ FLAC PCM, WAV(PCM), mp3 × ・機能差はない。GCPアカウントあるのでGoogle Cloud Speechを使ってみる。 ・音声ファイルは、AWSサンプルでやってるPCMでなくWAV(PCM)が汎用性高い。 ・Amazon Transcribeの日本語化対応が待ち遠しい(再掲)