Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Interop Tokyo 2024 テレビ業界を解き放つAI×放送DXの未来

Interop Tokyo 2024 テレビ業界を解き放つAI×放送DXの未来

Interop Tokyo 2024「テレビ業界を解き放つAI×放送DXの未来」
URL: https://forest.f2ff.jp/introduction/9105?project_id=20240601&_gl=1*1bj2xwr*_gcl_au*MjEzNzk1NDI3NC4xNzE1Njg2MTYw&_ga=2.116351558.1964709204.1718784549-191649815.1715686160

生成AI元年と呼ばれた2023年。

放送業界・制作現場でも生成AIを活用した社内ツールがいくつも生まれ、何となく凄いことができるようになったものの、現場のワークフローを飛躍的に改善するにはまだまだハードルがある状態です。
現状のワークフローを最適化するにはクラウドや動画処理、AIの技術力に加え、ユーザー目線での機能改善とチューニングを繰り返す必要があり、その先に、膨大な単純作業、複雑なオペレーションから開放される未来が待っています。

本講演ではAIと放送技術をかけ合わせた最新のDX事例について、エンジニアとユーザー目線でお話します。 会場限定で実際のユーザー画面を投影したデモを実施しますので、ぜひお楽しみください!

【ディスカッションテーマ】
・定型業務を80%削減する字幕制作AI
・固有名詞の分類を可能にしたメタデータ
・ワンクリックでナレーション、BGMを削除できる音源分離AI
・素材入稿時のフォーマットチェックやハーディングチェックを自動化
・映像解析でマスター監視を自動化
・ユーザーごとにプログラマティックにバーチャル広告を出し分けるバーチャルプロダクトプレイスメント

NAXA, Inc.

June 19, 2024
Tweet

More Decks by NAXA, Inc.

Other Decks in Programming

Transcript

  1. テレビ業界を解き放つAI×放送DXの未来 Interop Tokyo 2024 - Internet x Media Summit 2024年6⽉13⽇

    NAXA株式会社 アマゾン ウェブ サービス ジャパン合同会社
  2. 7 NAXAのビジョン ジャパニーズエンタメを全開放する AIを活⽤して、動画編集、権利処理の⾃動化を実現し、 コンテンツ収益、配信収益、広告収益の最⼤化を⽬指す IP開発、 映像制作 メディア展開 コンテンツ販売 広告・PR案件

    海外展開 ①コンテンツ販売 ②広告収益 ③開発、運⽤ ④マーケティング 字幕、権利処理、⾳源分離 バーチャル広告AI、広告SDK 配信監視、アプリSDK ショート動画⽣成AI 2次 利⽤
  3. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 10 ⾃⼰紹介 池尾 誠哉/ Masaya Ikeo アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 経歴 放送局 にて 各種放送技術業務・研究開発 • データ放送アプリ開発と運⽤ • SNSやスポーツ等のデータ処理APIシステム • TV⽤ブラウザ・IoT化の研究開発、国内外規格化、OSS化 • 視聴ログ/番組投票システム @wolf20xx @ikeom-je
  4. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS (Amazon Web Services) 11 2006 年より、他社にさきがけてクラウドサービスを提供 世界数百万、⽇本では数⼗万以上のお客様 全国をカバーするパートナーコミュニティ 累計で 134 回以上値下げをして利益をお客様へ還元 ※ お客様とはアクティブカスタマー数を指します。アクティブカスタマーとは、 AWS クラウド無料利⽤枠を含むAWS アカウントの先⽉の使⽤状況のあるアマゾン会員でない対象アカウントです。
  5. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS のミッション: 全てのお客様にAI・機械学習をお届けする 12 医療 AI 産業 AI 異常検知 コード & DevOps 画像・動画 ⾳声 テキスト 検索 チャットボット パーソナライ ゼーション 需要予測 不正検知 コンタクト・ センター 強化学習 Deep Learning AMIs & Containers GPUs & CPUs Elastic Inference Trainium Inferentia FPGA AI サービス 機械学習サービス フレームワーク & インフラ DeepGraphLibrary Amazon Rekognition Amazon Polly Amazon Transcribe Amazon Lex Amazon Personalize Amazon Forecast Amazon Comprehend Amazon Textract Amazon Kendra Amazon CodeGuru Amazon Fraud Detector Amazon Translate Amazon DevOps Guru Contact Lens Voice ID Amazon Monitron AWS Panorama + Appliance Amazon Lookout for Vision Amazon Lookout for Equipment Amazon HealthLake Amazon Lookout for Metrics Amazon Transcribe Medical Amazon Comprehend Medical ラベ リング データ 準備 特徴量 ストア Auto ML Spark/ R バイアス 検出 ノート ブック アルゴリズム 選択 モデル 学習 パラメー タ最適化 デバッグ プロ ファイル 本番 デプロイ 管理 モニター CI/CD ⽬検 確認 TensorFlow PyTorch AWS DeepRacer Amazon CodeWhisperer SageMaker JumpStart SageMaker Studio IDE (統合開発環境) Amazon SageMaker
  6. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 大規模言語モデル・基盤モデルを活用した構築済みアプリケーション 大規模言語モデル・基盤モデルを組み込んだアプリ開発のためのツール 基盤モデルのトレーニングと推論のためのインフラストラクチャー GPUs Inferentia Trainium SageMaker EC2 Capacity Blocks Neuron UltraClusters EFA Nitro Amazon Bedrock Agents Guardrails Customization Capabilities Amazon Q Business Amazon Q Developer Amazon Q in QuickSight Amazon Q in Connect AWS のミッション: 全てのお客様にAI・機械学習をお届けする ⽣成 AI スタック - Amazon Q / Amazon Bedrock 13
  7. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Bedrock 基盤モデルの幅広い選択肢を API で提供 14 要約、複雑な推論、作⽂、 プログラミング 状況に応じた回答、 要約、⾔い換え ⾼品質の画像や アートの⽣成 テキスト⽣成、検索、 分類 Q&Aと⽂章読解⼒ テキストの要約、⽣成、 Q&A、検索、画像⽣成 Amazon Titan Text Lite Amazon Titan Text Express Amazon Titan Text Premier Amazon Titan Text Embeddings Amazon Titan Text Embeddings V2 Amazon Titan Multimodal Embeddings Amazon Titan Image Generator Claude 3 Opus Claude 3 Sonnet Claude 3 Haiku Claude 2.1 Claude 2 Claude Instant Llama 3 8B Llama 3 70B Llama 2 13B Llama 2 70B Command Command Light Embed English Embed Multilingual Command R+ Command R Stable Diffusion XL1.0 Jurassic-2 Ultra Jurassic-2 Mid Mistral Large Mistral Small Mistral 7B Mistral 8x7B テキスト要約、質問と 回答、テキスト分類、 テキスト補完、 コード⽣成 ※2024/6/13現在
  8. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. NAB2024 の AI・機械学習 展⽰ powered by AWS アセットのメタデータの拡充 § AI/ML と⽣成 AI を使ってビデオの分析、顔認識、字幕⽣成など メディア編集と復元 § 超解像やスーパースロモ⽣成といったビデオと画像の編集と改善 ⽣産性の向上 § ⽣成 AI を使ったメディア関連の業務の効率化 パーソナライズとモデレーション § ⽣成 AI を使ったユーザーのプロファイルに基づいた コンテンツの推薦とモデレーション 16 Blog: https://aws.amazon.com/jp/blogs/news/jpmne-aws-media-seminar-q2-nabshow-2024-recap/ Demos: https://aws.amazon.com/jp/media/nab24-demos/
  9. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 17 NAB2024 Demo: Super Resolution • 超解像 アーカイブ映像を⾼解像度コンテンツに変換、再利⽤可能にする • スーパースローモーション 通常の映像から⾼品質なスーパースロモーションを⽣成 活⽤例として、低予算のスタジオでの利⽤など 超解像とスーパースローモーションのビデオの⽣成 AWS Sloutions Library – Guidance: Super Slow-Motion * Github サンプルコード * AWS Blog / Github サンプルコード NAB2024 Demo: Super slow motion
  10. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 18 NAB2024 Demo: Video Semantic Search • ⾃然⾔語による検索で⼤量の動画データから 特定のシーン、アクション、⼈物、物体を素早く効率的に検索可能 • ⼤規模な動画アセットの発⾒性と利⽤性が⼤幅に向上可能 動画のセマンティック検索
  11. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 19 • リアルタイムでソーシャルメディア向けのスポーツ実況を⽣成 • 試合の興奮と重要なシーンについて、簡潔に分析したコメントを動的に⽣成 NAB2024 Demo: Live Sports Commentary ライブスポーツコメンタリー * Github サンプルコード
  12. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 20 NAB2024 Demo: Realtime Personalization for Publishing and News • ユーザーの過去の閲覧履歴に基づいてパーソナライズされたコンテンツをレコメンド • ユーザー毎に⾼い関連性と魅⼒的なニュース記事を提案することで、ユーザー体験が向上可能 ニュースのリアルタイムパーソナライズ
  13. NAXA ソリューションの領域 ඼࣭؂ࢹ ࣈນ੍࡞ ݖརॲཧ ϓϩμΫτ ϓϨΠεϝϯτ ϝσΟΞฤूՃ޻ ࣈى͜͠ ϝλ෇͚

    膨⼤な単純作業や複雑なオペレーションに対し、クラウド・AI技術を活⽤して、 効率化・⾃動化を実現し、コンテンツの価値を増⼤させ、収益を最⼤化させる。 21
  14. ARIB STD-B36やNABに準拠し、クローズドキャプションに特化した⾳声認識、話者認識エンジンを活⽤した AI字幕⽣成ツール。字幕挿⼊時間、位置、⽂字⾊、外字、ルビ表⽰などのアナログ対応していた作業を⾃動化。 字幕制作ソリューション Subtitle Generator ⾳声データとリップシンク機能により、 適切なタイミングで字幕表⽰時間の⾃ 動設定が可能。 画像認識エンジンにより、テロップ避

    け、顔避けなど、映像、番組に合わせ たデフォルトの字幕表⽰位置を設定。 ①アップロード ②⽂字起こし、 表⽰オプション設定 ③プレビュー、 デフォルト字幕位置設定 ④エクスポート .srt .vtt 動画ファイルをアップ ロード。この際にARIB規 定にある字幕ファイル作 成時のメタ情報である番 組名や説明⽂、カテゴリ なども選択可能。 キャスト名や単語の辞書登録を⾏い、 ⾳声データからCC字幕を⾃動⽣成。 外字、ユーザー外字、ルビ、⽂字⾊、 話者表⽰、句読点挿⼊など、詳細の表⽰ オプション設定を選択。 ⼿動で修正したデータを元に、貴社独⾃ のAI学習モデルが構築される。 放送⽤にARIB字幕 (.HD1/.SD1)、 NAB字幕(.NAB)、 WebVTT字幕(配信⽤)、 SRT字幕(映画・吹き 替え⽤) に対応。CAP 形式も対応予定 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。 NAB 22
  15. Copyright NAXA, Inc. All rights reserved. ML S3 ECS(API) ELB

    (NLB, ALB) RDS (MySQL) MediaConvert ECS (ML Worker) Application Load Balancer EC2 NAXA AWS Cloud Corporate Direct Connect Users プロキシ⽤に動画変換 ジョブ管理 Lambda ( ML API) MLの結果を POST MLのジョブ開始を リクエスト 動画を保存 ElastiCache (Redis) P ROJ E C T Subtitle GeneratorにおけるAWS活⽤の例 24 ML処理 EC2 (ASG) EC2 スケーリング ECS Fargate (Frontend) ACM 結果を通知 内部APIに処理要求 PrivateLink
  16. 25 Copyright © NAXA Inc. All rights reserved. Strictly Confidential.

    • project デジタルプレイスメント(バーチャル広告合成AI) 動画内の広告枠検出、バーチャル広告⽣成/合成、プレイヤー連動型クライアント合成システム、 その他ワークフロー全体における技術導⼊/運⽤を⽀援する。 (1)広告枠検出 (2)調和処理 (3)DPP処理 独⾃の物体検出アルゴリズムによっ て、事前に設定した検出条件から 「建物、窓、道路、飲料」などの広 告枠候補となる物体を検出する 対象シーンの動画内に広告画像が溶 け込むように広告枠のトラッキング、 深度推定を⽤いた遮蔽物のマスキン グ処理などを⾏う 対象シーンに溶け込むように、広告 素材の画像サイズ、画質、⾊相、彩 度、明度、コントラスト、陰影、遠 近感などの調和処理を⾏う
  17. 26 Copyright © NAXA Inc. All rights reserved. Strictly Confidential.

    メタデータ⾃動⽣成 Metadata Generator ᶃΞοϓϩʔυ ᶄϝλσʔλੜ੒ 動画をアップロードするだけで、番組内容のディスクリプションを中⼼とした時系列メタデータを⽣成。 出演しているタレントデータの⾃動抽出やタグ付けも対応可能。W3CのMedia Content Metadata Japanese Community Groupにも参画し、メタの統⼀フォーマット(Schema.org)も検討中。 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。 ※開発中
  18. • proj ect 素材⼊稿時のフォーマットチェックやハーディングチェックをAIで⾃動化。また、NetflixやAmazon Prime Videoのプラットフォームごとの仕様にも適⽤可能。 素材⼊稿ソリューション Content Checker 27

    ओͳಛ௃ ・MXF情報を元に、AIを⽤いた映像の解析処理 ・ARIB TR-B32に基づいたラウドネス値の確認 ・輝度情報、⾊情報を元に事業者ごとのハーディングチェック ・字幕情報が正しいかどうかの確認(リップシンク) ・各種プラットフォームに合わせたファイルフォーマットチェック ݕग़߲໨૝ఆ ・⾊域エラー ・最⼤、最⼩輝度レベル ・画質スコア ・パカパカチェック ・デットピクセルの検出 ・ノイズ ・ブラックフレーム ・オーディオクリッピング、ラウドネス、フィールドオーダー ・キーフレーム ・シーンチェンジ その他多数 ※開発中 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。
  19. • proj ect マスターから出た映像を元に、素材⼊稿時にAIが学習した結果と⽐較し、映像が乱れていたり、⾳声が出ていな い場合にアラートを鳴らせるソリューション。チャットツールと連携することで元素材との⽐較が可能。 動画監視ソリューション Stream Monitor 28 ओͳಛ௃

    ・従来の信号ベースでは確認できなかったコーデックレベルの確 認により、演出の意図を汲み取ることが可能に ・プレイアウトの情報をもとに、次素材のキューアップ失敗にも 対応可能 ・オンプレミスのGPUサーバで動作可能であるため、情報がクラ ウドに流出する⼼配はなく、セキュアに提供が可能 ・複数系統での⽐較も可能、3系統以上の場合、条件設定によ り、2系統以上エラーが出た場合に、フォールバックも可能に ・ウェブブラウザより、WebRTCを使った超低遅延でのライブ映 像のリモート監視や、エラー発報時にSlackやTeamsに、エラー 前後5秒の動画プレビューと共に、Webhook通知が可能 ・監視状況や設定ができるWebアプリも提供 ݕग़߲໨૝ఆ ・ブラックフリーズ(フリーズ)、無⾳ ・⾳声無⾳ ・話数間違い ・⼊⼒信号フォーマットチェック(ES, PSI, SIも確認可能) ・字幕監視(TS重畳、SDI重畳、WebVTT) ・画質劣化(SNR, PSNR, SSIM、VMAFなど) ・⾳質劣化(ITU-R BS1387.1 PEAQ、ひずみ、ノイズフロア、 ⾳圧、⾳声フレームチェックなど) ・in/outの監視 ・ブラックバースト信号、3値同期信号にも対応 その他、条件に合わせて様々な監視項⽬を設定可能 ※上記は現時点の想定のため、リリース時の内容とは異なる可能性があります。 ※開発中
  20. 31 Copyright © NAXA Inc. All rights reserved. Strictly Confidential.

    • pro ject 放送局の業務ワークフロー 企画から制作、配信まで多岐にわたる 編 成 放 送 ・ 配 信 プログラム ディストリ ビュート Sources:https://www.cocolo-film.com/movie/flow/ 台 本 ・ キ % ス テ ( ン グ
  21. 32 Copyright © NAXA Inc. All rights reserved. Strictly Confidential.

    • pro ject DX化が期待できそうな領域 編 成 放 送 ・ 配 信 プログラム ディストリ ビュート 放送運⽤業務はアナログ、複雑なオペレーションの単純作業が多い。 配信活⽤に関しても、プロモーション⼿法のDX化の余地が⼤きい。 Sources:https://www.cocolo-film.com/movie/flow/
  22. NAXAのソリューションの背景にあるニーズ ૉࡐೖߘ ࣈນ੍࡞ ಈը؂ࢹ ݖརॲཧ σδλϧ ϓϨΠεϝϯτ ࣈى͜͠ ϝλσʔλ 番組制作においてAIによる

    制作DXソリューション VODやCUサービスにおいて 新たな収益軸をねらった 配信DXソリューション 番組品質の向上 VOD海外展開 コンテンツ販売 素材 ⼆次利⽤ 多メディア配信活⽤ 放送事故防⽌ 広告枠の拡⼤ パーソナライズ化 メディア検索 マーケティング活⽤ 33
  23. NAXA のこれからの取り組み • 国内放送局をパイロットユーザーとした仕様で、 ⽇本語特化のAIモデルを作る AIモデル LLMモデル ナレッジ マネジメント •

    ARIB規定をクリアするためのLLMモデル開発 • 放送業界独⾃のプロンプト設計、部署、業務単位で 最適なチューニング • 組織単位のナレッジトランスファー • 業務の属⼈化を防ぎ、暗黙知を形式知にしていく • テクノロジーとナレッジを掛け合わせて資産にする 放送局 と ベンチャー の連携 35