Slide 1

Slide 1 text

テレビ業界を解き放つAI×放送DXの未来 Interop Tokyo 2024 - Internet x Media Summit 2024年6⽉13⽇ NAXA株式会社 アマゾン ウェブ サービス ジャパン合同会社

Slide 2

Slide 2 text

n ターゲット • 昨今のAI・機械学習の進化を背景に放送でのAI・機械学習 利⽤を期待している • ⼿軽に⽣成AIを放送関連業務に利⽤したいが精度に課題を感じている • 放送への AI・機械学習 アプローチに悩んでいる n 話さないこと • 各社個別の⽣成AIやモデルの詳細 本セッションについて

Slide 3

Slide 3 text

放送 と AI・機械学習

Slide 4

Slide 4 text

放送 で AI・機械学習が使われ始めている

Slide 5

Slide 5 text

本⽇のお話 放送における AI・機械学習 By NAXA AWS

Slide 6

Slide 6 text

6 ⾃⼰紹介 $00

Slide 7

Slide 7 text

7 NAXAのビジョン ジャパニーズエンタメを全開放する AIを活⽤して、動画編集、権利処理の⾃動化を実現し、 コンテンツ収益、配信収益、広告収益の最⼤化を⽬指す IP開発、 映像制作 メディア展開 コンテンツ販売 広告・PR案件 海外展開 ①コンテンツ販売 ②広告収益 ③開発、運⽤ ④マーケティング 字幕、権利処理、⾳源分離 バーチャル広告AI、広告SDK 配信監視、アプリSDK ショート動画⽣成AI 2次 利⽤

Slide 8

Slide 8 text

8 NAXAの研究開発エンジニアチーム 地上波レベルの映像/配信技術×AIに 特化したエンジニアチーム

Slide 9

Slide 9 text

クラウド・AIを活⽤したプロダクトの⼀例 9 NAXA社は放送業界No.1の精度を誇る⽇本語字幕⽣成AIを保有しており、3Dモーションを⽣成するアプリケーション開発においても 類似技術の開発実績がある。AIとモーション⽣成、動画処理に強みを持ったエンジニアチームが在籍している。 <実際の撮影ではできない⼤規模な広告露出の⼀例> <実際の撮影では表現できないプロダクトプレイスメントの⼀例 > Sources:https://www.ktv.jp/ デジタルプロダクトプレイスメント AIを活⽤した3Dバーチャル広告の合成、レンダリング CC字幕⽣成AI ⾳源分離 完パケ動画素材から⾳源を除去し、声とBGMと効果⾳を分離し、元素材に差し替え メタデータ⾃動⽣成 動画をアップロードするだけで、時系列メタデータを⽣成 ⽇本語、クロストークに特化し、ARIB STD-B36やNABに準拠した字幕⽣成ツール Sources:https://mdata.tv/

Slide 10

Slide 10 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. 10 ⾃⼰紹介 池尾 誠哉/ Masaya Ikeo アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 経歴 放送局 にて 各種放送技術業務・研究開発 • データ放送アプリ開発と運⽤ • SNSやスポーツ等のデータ処理APIシステム • TV⽤ブラウザ・IoT化の研究開発、国内外規格化、OSS化 • 視聴ログ/番組投票システム @wolf20xx @ikeom-je

Slide 11

Slide 11 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS (Amazon Web Services) 11 2006 年より、他社にさきがけてクラウドサービスを提供 世界数百万、⽇本では数⼗万以上のお客様 全国をカバーするパートナーコミュニティ 累計で 134 回以上値下げをして利益をお客様へ還元 ※ お客様とはアクティブカスタマー数を指します。アクティブカスタマーとは、 AWS クラウド無料利⽤枠を含むAWS アカウントの先⽉の使⽤状況のあるアマゾン会員でない対象アカウントです。

Slide 12

Slide 12 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS のミッション: 全てのお客様にAI・機械学習をお届けする 12 医療 AI 産業 AI 異常検知 コード & DevOps 画像・動画 ⾳声 テキスト 検索 チャットボット パーソナライ ゼーション 需要予測 不正検知 コンタクト・ センター 強化学習 Deep Learning AMIs & Containers GPUs & CPUs Elastic Inference Trainium Inferentia FPGA AI サービス 機械学習サービス フレームワーク & インフラ DeepGraphLibrary Amazon Rekognition Amazon Polly Amazon Transcribe Amazon Lex Amazon Personalize Amazon Forecast Amazon Comprehend Amazon Textract Amazon Kendra Amazon CodeGuru Amazon Fraud Detector Amazon Translate Amazon DevOps Guru Contact Lens Voice ID Amazon Monitron AWS Panorama + Appliance Amazon Lookout for Vision Amazon Lookout for Equipment Amazon HealthLake Amazon Lookout for Metrics Amazon Transcribe Medical Amazon Comprehend Medical ラベ リング データ 準備 特徴量 ストア Auto ML Spark/ R バイアス 検出 ノート ブック アルゴリズム 選択 モデル 学習 パラメー タ最適化 デバッグ プロ ファイル 本番 デプロイ 管理 モニター CI/CD ⽬検 確認 TensorFlow PyTorch AWS DeepRacer Amazon CodeWhisperer SageMaker JumpStart SageMaker Studio IDE (統合開発環境) Amazon SageMaker

Slide 13

Slide 13 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. 大規模言語モデル・基盤モデルを活用した構築済みアプリケーション 大規模言語モデル・基盤モデルを組み込んだアプリ開発のためのツール 基盤モデルのトレーニングと推論のためのインフラストラクチャー GPUs Inferentia Trainium SageMaker EC2 Capacity Blocks Neuron UltraClusters EFA Nitro Amazon Bedrock Agents Guardrails Customization Capabilities Amazon Q Business Amazon Q Developer Amazon Q in QuickSight Amazon Q in Connect AWS のミッション: 全てのお客様にAI・機械学習をお届けする ⽣成 AI スタック - Amazon Q / Amazon Bedrock 13

Slide 14

Slide 14 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Bedrock 基盤モデルの幅広い選択肢を API で提供 14 要約、複雑な推論、作⽂、 プログラミング 状況に応じた回答、 要約、⾔い換え ⾼品質の画像や アートの⽣成 テキスト⽣成、検索、 分類 Q&Aと⽂章読解⼒ テキストの要約、⽣成、 Q&A、検索、画像⽣成 Amazon Titan Text Lite Amazon Titan Text Express Amazon Titan Text Premier Amazon Titan Text Embeddings Amazon Titan Text Embeddings V2 Amazon Titan Multimodal Embeddings Amazon Titan Image Generator Claude 3 Opus Claude 3 Sonnet Claude 3 Haiku Claude 2.1 Claude 2 Claude Instant Llama 3 8B Llama 3 70B Llama 2 13B Llama 2 70B Command Command Light Embed English Embed Multilingual Command R+ Command R Stable Diffusion XL1.0 Jurassic-2 Ultra Jurassic-2 Mid Mistral Large Mistral Small Mistral 7B Mistral 8x7B テキスト要約、質問と 回答、テキスト分類、 テキスト補完、 コード⽣成 ※2024/6/13現在

Slide 15

Slide 15 text

放送 の AI・機械学習 ソリューション

Slide 16

Slide 16 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. NAB2024 の AI・機械学習 展⽰ powered by AWS アセットのメタデータの拡充 § AI/ML と⽣成 AI を使ってビデオの分析、顔認識、字幕⽣成など メディア編集と復元 § 超解像やスーパースロモ⽣成といったビデオと画像の編集と改善 ⽣産性の向上 § ⽣成 AI を使ったメディア関連の業務の効率化 パーソナライズとモデレーション § ⽣成 AI を使ったユーザーのプロファイルに基づいた コンテンツの推薦とモデレーション 16 Blog: https://aws.amazon.com/jp/blogs/news/jpmne-aws-media-seminar-q2-nabshow-2024-recap/ Demos: https://aws.amazon.com/jp/media/nab24-demos/

Slide 17

Slide 17 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. 17 NAB2024 Demo: Super Resolution • 超解像 アーカイブ映像を⾼解像度コンテンツに変換、再利⽤可能にする • スーパースローモーション 通常の映像から⾼品質なスーパースロモーションを⽣成 活⽤例として、低予算のスタジオでの利⽤など 超解像とスーパースローモーションのビデオの⽣成 AWS Sloutions Library – Guidance: Super Slow-Motion * Github サンプルコード * AWS Blog / Github サンプルコード NAB2024 Demo: Super slow motion

Slide 18

Slide 18 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. 18 NAB2024 Demo: Video Semantic Search • ⾃然⾔語による検索で⼤量の動画データから 特定のシーン、アクション、⼈物、物体を素早く効率的に検索可能 • ⼤規模な動画アセットの発⾒性と利⽤性が⼤幅に向上可能 動画のセマンティック検索

Slide 19

Slide 19 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. 19 • リアルタイムでソーシャルメディア向けのスポーツ実況を⽣成 • 試合の興奮と重要なシーンについて、簡潔に分析したコメントを動的に⽣成 NAB2024 Demo: Live Sports Commentary ライブスポーツコメンタリー * Github サンプルコード

Slide 20

Slide 20 text

© 2024, Amazon Web Services, Inc. or its affiliates. All rights reserved. 20 NAB2024 Demo: Realtime Personalization for Publishing and News • ユーザーの過去の閲覧履歴に基づいてパーソナライズされたコンテンツをレコメンド • ユーザー毎に⾼い関連性と魅⼒的なニュース記事を提案することで、ユーザー体験が向上可能 ニュースのリアルタイムパーソナライズ

Slide 21

Slide 21 text

NAXA ソリューションの領域 ඼࣭؂ࢹ ࣈນ੍࡞ ݖརॲཧ ϓϩμΫτ ϓϨΠεϝϯτ ϝσΟΞฤूՃ޻ ࣈى͜͠ ϝλ෇͚ 膨⼤な単純作業や複雑なオペレーションに対し、クラウド・AI技術を活⽤して、 効率化・⾃動化を実現し、コンテンツの価値を増⼤させ、収益を最⼤化させる。 21

Slide 22

Slide 22 text

ARIB STD-B36やNABに準拠し、クローズドキャプションに特化した⾳声認識、話者認識エンジンを活⽤した AI字幕⽣成ツール。字幕挿⼊時間、位置、⽂字⾊、外字、ルビ表⽰などのアナログ対応していた作業を⾃動化。 字幕制作ソリューション Subtitle Generator ⾳声データとリップシンク機能により、 適切なタイミングで字幕表⽰時間の⾃ 動設定が可能。 画像認識エンジンにより、テロップ避 け、顔避けなど、映像、番組に合わせ たデフォルトの字幕表⽰位置を設定。 ①アップロード ②⽂字起こし、 表⽰オプション設定 ③プレビュー、 デフォルト字幕位置設定 ④エクスポート .srt .vtt 動画ファイルをアップ ロード。この際にARIB規 定にある字幕ファイル作 成時のメタ情報である番 組名や説明⽂、カテゴリ なども選択可能。 キャスト名や単語の辞書登録を⾏い、 ⾳声データからCC字幕を⾃動⽣成。 外字、ユーザー外字、ルビ、⽂字⾊、 話者表⽰、句読点挿⼊など、詳細の表⽰ オプション設定を選択。 ⼿動で修正したデータを元に、貴社独⾃ のAI学習モデルが構築される。 放送⽤にARIB字幕 (.HD1/.SD1)、 NAB字幕(.NAB)、 WebVTT字幕(配信⽤)、 SRT字幕(映画・吹き 替え⽤) に対応。CAP 形式も対応予定 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。 NAB 22

Slide 23

Slide 23 text

23 字幕⽣成AI:Subtitle Generator ⽂字起こしから修正、プレビュー、重畳までワンストップでサポート。 修正作業もリアルタイムに反映されるので、さくさく作業可能。 現在はARIB,NAB,SRT,VTTをサポート。 辞書登録機能により、固有名詞も⾃動変換可能。 動画/⾳声ファイルの⽂字起こしからタイムコード設定、字幕編集、改⾏、改ページ、レイアウト変 更、話者⾊、プレビューなど、⼀連のワークフローをワンストップで解決するシステム。

Slide 24

Slide 24 text

Copyright NAXA, Inc. All rights reserved. ML S3 ECS(API) ELB (NLB, ALB) RDS (MySQL) MediaConvert ECS (ML Worker) Application Load Balancer EC2 NAXA AWS Cloud Corporate Direct Connect Users プロキシ⽤に動画変換 ジョブ管理 Lambda ( ML API) MLの結果を POST MLのジョブ開始を リクエスト 動画を保存 ElastiCache (Redis) P ROJ E C T Subtitle GeneratorにおけるAWS活⽤の例 24 ML処理 EC2 (ASG) EC2 スケーリング ECS Fargate (Frontend) ACM 結果を通知 内部APIに処理要求 PrivateLink

Slide 25

Slide 25 text

25 Copyright © NAXA Inc. All rights reserved. Strictly Confidential. • project デジタルプレイスメント(バーチャル広告合成AI) 動画内の広告枠検出、バーチャル広告⽣成/合成、プレイヤー連動型クライアント合成システム、 その他ワークフロー全体における技術導⼊/運⽤を⽀援する。 (1)広告枠検出 (2)調和処理 (3)DPP処理 独⾃の物体検出アルゴリズムによっ て、事前に設定した検出条件から 「建物、窓、道路、飲料」などの広 告枠候補となる物体を検出する 対象シーンの動画内に広告画像が溶 け込むように広告枠のトラッキング、 深度推定を⽤いた遮蔽物のマスキン グ処理などを⾏う 対象シーンに溶け込むように、広告 素材の画像サイズ、画質、⾊相、彩 度、明度、コントラスト、陰影、遠 近感などの調和処理を⾏う

Slide 26

Slide 26 text

26 Copyright © NAXA Inc. All rights reserved. Strictly Confidential. メタデータ⾃動⽣成 Metadata Generator ᶃΞοϓϩʔυ ᶄϝλσʔλੜ੒ 動画をアップロードするだけで、番組内容のディスクリプションを中⼼とした時系列メタデータを⽣成。 出演しているタレントデータの⾃動抽出やタグ付けも対応可能。W3CのMedia Content Metadata Japanese Community Groupにも参画し、メタの統⼀フォーマット(Schema.org)も検討中。 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。 ※開発中

Slide 27

Slide 27 text

• proj ect 素材⼊稿時のフォーマットチェックやハーディングチェックをAIで⾃動化。また、NetflixやAmazon Prime Videoのプラットフォームごとの仕様にも適⽤可能。 素材⼊稿ソリューション Content Checker 27 ओͳಛ௃ ・MXF情報を元に、AIを⽤いた映像の解析処理 ・ARIB TR-B32に基づいたラウドネス値の確認 ・輝度情報、⾊情報を元に事業者ごとのハーディングチェック ・字幕情報が正しいかどうかの確認(リップシンク) ・各種プラットフォームに合わせたファイルフォーマットチェック ݕग़߲໨૝ఆ ・⾊域エラー ・最⼤、最⼩輝度レベル ・画質スコア ・パカパカチェック ・デットピクセルの検出 ・ノイズ ・ブラックフレーム ・オーディオクリッピング、ラウドネス、フィールドオーダー ・キーフレーム ・シーンチェンジ その他多数 ※開発中 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。

Slide 28

Slide 28 text

• proj ect マスターから出た映像を元に、素材⼊稿時にAIが学習した結果と⽐較し、映像が乱れていたり、⾳声が出ていな い場合にアラートを鳴らせるソリューション。チャットツールと連携することで元素材との⽐較が可能。 動画監視ソリューション Stream Monitor 28 ओͳಛ௃ ・従来の信号ベースでは確認できなかったコーデックレベルの確 認により、演出の意図を汲み取ることが可能に ・プレイアウトの情報をもとに、次素材のキューアップ失敗にも 対応可能 ・オンプレミスのGPUサーバで動作可能であるため、情報がクラ ウドに流出する⼼配はなく、セキュアに提供が可能 ・複数系統での⽐較も可能、3系統以上の場合、条件設定によ り、2系統以上エラーが出た場合に、フォールバックも可能に ・ウェブブラウザより、WebRTCを使った超低遅延でのライブ映 像のリモート監視や、エラー発報時にSlackやTeamsに、エラー 前後5秒の動画プレビューと共に、Webhook通知が可能 ・監視状況や設定ができるWebアプリも提供 ݕग़߲໨૝ఆ ・ブラックフリーズ(フリーズ)、無⾳ ・⾳声無⾳ ・話数間違い ・⼊⼒信号フォーマットチェック(ES, PSI, SIも確認可能) ・字幕監視(TS重畳、SDI重畳、WebVTT) ・画質劣化(SNR, PSNR, SSIM、VMAFなど) ・⾳質劣化(ITU-R BS1387.1 PEAQ、ひずみ、ノイズフロア、 ⾳圧、⾳声フレームチェックなど) ・in/outの監視 ・ブラックバースト信号、3値同期信号にも対応 その他、条件に合わせて様々な監視項⽬を設定可能 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。 ※開発中

Slide 29

Slide 29 text

• proj ect Content Checkerで、⼊稿時チェックの際に使われる特徴量検出を⽤いて、動画監視にも⽤いる。 エラーが発報した場合、SlackやTeamsのWebhookで、前後10秒のプレビューができるほか、素材⽐較アプリ でより詳細なエラーを確認可能。(SNMP連携によるパトランプ発光も可能) ⼊稿と監視の構成図 29 Content Checker Stream Monitor 特徴量 バンク 放送設備 エラー発報 素材⽐較 アプリ ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。 ※開発中

Slide 30

Slide 30 text

放送 の AI・機械学習 ソリューション ニーズ と 現状

Slide 31

Slide 31 text

31 Copyright © NAXA Inc. All rights reserved. Strictly Confidential. • pro ject 放送局の業務ワークフロー 企画から制作、配信まで多岐にわたる 編 成 放 送 ・ 配 信 プログラム ディストリ ビュート Sources:https://www.cocolo-film.com/movie/flow/ 台 本 ・ キ % ス テ ( ン グ

Slide 32

Slide 32 text

32 Copyright © NAXA Inc. All rights reserved. Strictly Confidential. • pro ject DX化が期待できそうな領域 編 成 放 送 ・ 配 信 プログラム ディストリ ビュート 放送運⽤業務はアナログ、複雑なオペレーションの単純作業が多い。 配信活⽤に関しても、プロモーション⼿法のDX化の余地が⼤きい。 Sources:https://www.cocolo-film.com/movie/flow/

Slide 33

Slide 33 text

NAXAのソリューションの背景にあるニーズ ૉࡐೖߘ ࣈນ੍࡞ ಈը؂ࢹ ݖརॲཧ σδλϧ ϓϨΠεϝϯτ ࣈى͜͠ ϝλσʔλ 番組制作においてAIによる 制作DXソリューション VODやCUサービスにおいて 新たな収益軸をねらった 配信DXソリューション 番組品質の向上 VOD海外展開 コンテンツ販売 素材 ⼆次利⽤ 多メディア配信活⽤ 放送事故防⽌ 広告枠の拡⼤ パーソナライズ化 メディア検索 マーケティング活⽤ 33

Slide 34

Slide 34 text

NAXA ソリューションの現状 ࣈນ੍࡞ ݖརॲཧ σδλϧ ϓϨΠεϝϯτ 字幕⾃動⽣成、テロップ避け、顔避け、リップシンク表⽰ BGM/背景ノイズ除去、声の分離 映像内の広告枠の検出、バーチャル広告⽣成 字幕⼊⼒業務80%削減 素材の再利⽤が可能 広告を増やすことが可能 34

Slide 35

Slide 35 text

NAXA のこれからの取り組み • 国内放送局をパイロットユーザーとした仕様で、 ⽇本語特化のAIモデルを作る AIモデル LLMモデル ナレッジ マネジメント • ARIB規定をクリアするためのLLMモデル開発 • 放送業界独⾃のプロンプト設計、部署、業務単位で 最適なチューニング • 組織単位のナレッジトランスファー • 業務の属⼈化を防ぎ、暗黙知を形式知にしていく • テクノロジーとナレッジを掛け合わせて資産にする 放送局 と ベンチャー の連携 35

Slide 36

Slide 36 text

まとめ AI、LLMの活⽤は始まったばかり 最初の⼀歩を踏み出すことが重要 継続チューニングの仕組み化 技術が分からない エンジニアが居ない 社内、社外のデジタルネイティブ とチームを組む。学ぶ。 ⼿を動かす、エンジニアと組むところから始める 海外が進んでいるのではなく、 ローカライズするプレイヤーが居ない ⾃分たちでローカライズしてみる 36