サーバーレスで作る、動画データ管理基盤

サーバーレスで作る、動画データ管理基盤 WinTicket MediaLake/DAM — 茨木啓瑚 (CyberAgent / WinTicket) CA
DATA NIGHT #9 / 2026-05-21

茨木啓瑚（いばらきけいご） CyberAgent / WinTicket バックエンド + 基盤 DAM
(= MediaLake) 開発担当 AWS Community Builders / AI Engineer (2026〜) 自己紹介 CA DATA NIGHT #9 / 2026-05-21 2

誰に・何を — 先に登壇の立ち位置を共有します聞いてほしい人スポーツの映像データの管理・活用を考えている人ひとことで言うとモデル開発の土台は基盤に任せて、「作る」ことに集中できる聞き終わったら自分のチームのデータ管理も、基盤に寄せられないか考えてみてほしい
今日はこういう話をします CA DATA NIGHT #9 / 2026-05-21 3

TODAY'S AGENDA 1 なぜ「動画データ管理基盤」が要るのか 2 何が、どう溜まるのか 3 アーキ — AWS
MediaLake OSS と拡張 4 Pipeline 設計の自由さ 5 アノテーション / 学習データ検索 6 これから — 移譲できる世界線へ CA DATA NIGHT #9 / 2026-05-21 4

SECTION 01 / 06 1 なぜ「動画データ管理基盤」が要るのか 2 何が、どう溜まるのか 3 アーキ
— AWS MediaLake OSS と拡張 4 Pipeline 設計の自由さ 5 アノテーション / 学習データ検索 6 これから — 移譲できる世界線へ CA DATA NIGHT #9 / 2026-05-21

WinTicket 独自のデータとクリエイティブで、新しいスポーツ中継映像を作る WINLIVE（競輪） — 選手の体力（HP）などを ML モデルでリアルタイム可視化 ABEMA ×
ボクシング — パンチ数などをリアルタイム表示映像解析・低遅延伝送・CG 描画・配信基盤を ABEMA 連携で他競技へ展開中スポーツ映像テック事業部 CA DATA NIGHT #9 / 2026-05-21 6

スポーツ映像から AI モデルを作る — その土台が DAM WINLIVE 競輪などのスポーツライブ配信 ▶
大量のスポーツ映像試合・レースの映像が日々たまる ▶ CV / ML モデル開発選手検出・トラッキングなど DAM は、この「映像 → モデル開発」を支えるデータ基盤なぜ DAM を作ったか CA DATA NIGHT #9 / 2026-05-21 7

映像が「ある」だけでは、良いモデルは作れない 1 大量で良質な映像質の良い映像が、条件を満たして大量に 2 快適に探索できる集めた映像を、ストレスなく見て回れる 3
集約して検索できる学習させたいシーンを、ピンポイントで取り出す DAM はこの 3 つをまとめて引き受ける良いモデル開発に必要な 3 つ CA DATA NIGHT #9 / 2026-05-21 8

動画が、あちこちに散らばっていたローカル PC Google Drive 個人 EC2 命名もバラバラ、所在は個人の頭の中にしかない DAM を作る前、何が起きていたか
keirin_0510.mp4 編集済み_final2.mp4 IMG_4821.mp4 競輪5月/ (フォルダ) race_data_v3.mp4 untitled.mp4 /home/user/videos/ batch_03.mp4 tmp_clip.mp4 CA DATA NIGHT #9 / 2026-05-21 9

大量の動画を見据えると、システムでの汎用管理が要る CV/ML エンジニアの専門性で、ここまで進められてきたでも、扱う動画はこれから一気に増える — 複数スポーツへ横展開、WINLIVE で日々蓄積その規模でも回るよう、システムで汎用的に管理できる状態にしたい個人の力で進められていた
CA DATA NIGHT #9 / 2026-05-21 10

• データの収集・整理は、汎用化してシステムに任せられる • その土台を、共通の基盤 — DAM が引き受ける • CV/ML エンジニアは、本来のモデル開発に集中できる
何を変えたいか CA DATA NIGHT #9 / 2026-05-21 11

SECTION 02 / 06 2 何が、どう溜まるのか 1 なぜ「動画データ管理基盤」が要るのか 3 アーキ
— AWS MediaLake OSS と拡張 4 Pipeline 設計の自由さ 5 アノテーション / 学習データ検索 6 これから — 移譲できる世界線へ CA DATA NIGHT #9 / 2026-05-21

大きく 4 種類のデータが DAM にそろう元動画 mp4 本体メタデータ CSV
で柔軟に実行履歴 Pipeline 履歴副産物サムネ / proxy / クリップ「データの箱」に何が溜まる？ CA DATA NIGHT #9 / 2026-05-21 13

WINLIVE などから入ってきた動画・画像が DAM のアセットとして一覧で並ぶコネクタごとに、どんな素材があるかを一望できる元動画 —
アセットとして一覧で見える CA DATA NIGHT #9 / 2026-05-21 14

撮影日 / 競技 / レース ID などの軸を、アセットごとに DAM で確認
CSV で柔軟に持てるので、スポーツに応じて軸を後から足せるメタデータ — アセットごとに DAM で確認 CA DATA NIGHT #9 / 2026-05-21 15

どのパイプラインを、いつ、どのアセットに対して回したかが記録されるすべて DAM に残るので、後から追いかけられる実行履歴 — いつ・何を回したか追える
CA DATA NIGHT #9 / 2026-05-21 16

サムネ・proxy 動画・切り出しクリップなど、パイプラインが生成した派生物も DAM に残る元のアセットに紐づいて保持されるので、後から取り出しやすい副産物 —
アセットに紐づいて残る CA DATA NIGHT #9 / 2026-05-21 17

「整然と置く」じゃなく「DAM が整理する」 Before 「整然と置いてください」置き方のルールを守ってもらう命名規則・ディレクトリ階層を統一守られないと破綻 After 「S3 のどこでも
OK」 S3 の適当な階層に置けば良い DAM が Collection で整理する置き手の認知負荷ゼロ置き方の発想を 1 回ひっくり返す CA DATA NIGHT #9 / 2026-05-21 18

入口は 2 つ、Asset になれば扱いは同じ自動 Connectors + EventBridge S3 の各所に置くと
upload を検知手動 Ingest Connector に無い動画も UI から ▶ Asset になる入口がどちらでも同じ Asset に ▶ Collection で整理条件に合う Asset を自動でまとめる DAM に溜まる入口は 2 つ CA DATA NIGHT #9 / 2026-05-21 19

SECTION 03 / 06 3 アーキ — AWS MediaLake OSS
と拡張 1 なぜ「動画データ管理基盤」が要るのか 2 何が、どう溜まるのか 4 Pipeline 設計の自由さ 5 アノテーション / 学習データ検索 6 これから — 移譲できる世界線へ CA DATA NIGHT #9 / 2026-05-21

動画が入り、処理され、検索できるまで入口 API Gateway Cognito CloudFront ▶ 取込 EventBridge Lambda
▶ パイプライン Step Functions MediaConvert ▶ 保管 S3 DynamoDB ▶ 検索 OpenSearch EC2 / RDS は不使用 — すべてサーバーレス系のマネージドサービスアーキはぜんぶサーバーレスの 5 ブロック CA DATA NIGHT #9 / 2026-05-21 21

AWS 公式リファレンス「Guidance for Media Lake on AWS」がベース 1 メディアを S3
にアップロードして処理を開始 2 Lambda・SQS・EventBridge がイベントを連携 3 セマンティック / キーワード検索とフィルタ 4 メタデータ・類似度で関連アセットをグルーピング 5 proxy・サムネなど派生アセットを生成 6 技術 / ユーザー定義メタデータを抽出 7 デフォルト / カスタムパイプラインで分析・変換 8 REST API・イベントで外部システムと連携 9 Lambda・EventBridge がカスタム処理を実行 10 S3・API Gateway・OpenSearch 等が基盤を構成ベースは AWS Solutions Library の OSS CA DATA NIGHT #9 / 2026-05-21 22

コアはそのまま、足りないところだけ足す MediaLake OSS の素そのまま使う Connectors / EventBridge 連携 Step
Functions パイプライン基盤 OpenSearch 検索 Asset / Collection の基本機能 WinTicket 拡張拡張ポイントだけ自社実装手動入稿 (Ingest) スポーツ向けカスタム Pipeline ノード CVAT アノテーション連携 Collection メタデータ管理メタデータ CSV のスキーマ自由化クロスアカウント VPC Peering / PrivateLink WinTicket は拡張ポイントだけ自社実装した CA DATA NIGHT #9 / 2026-05-21 23

Model 開発に近づける機能が標準で豊富だった MediaLake アノテ連携 (CVAT 等): 組み込みやすい Semantic Search: 標準対応
Pipeline ノード化: 標準対応 AWS との統合: 公式 OSS / ネイティブ他の映像管理 OSS / SaaS アノテ連携: 自作が多い Semantic Search: 自作 or オプション Pipeline ノード化: 限定的 AWS との統合: 別途要構築なぜ MediaLake OSS を選んだか CA DATA NIGHT #9 / 2026-05-21 24

AWS 公式 OSS を選んだ理由は 3 つ AWS 公式 OSS AWS
が公式に公開する OSS。信頼性が高く、メンテナンスも続く拡張ポイントを備える拡張点が設計されていて、コアをフォーク改造せずに機能を足せるサーバーレス構成 EC2 / RDS レスで運用負荷が低く、他スポーツへの横展開もしやすい結果 — コアに手を入れないから、upstream の更新に乗り続けられる公式 OSS だから upstream に乗り続けられる CA DATA NIGHT #9 / 2026-05-21 25

SECTION 04 / 06 4 Pipeline 設計の自由さ 1 なぜ「動画データ管理基盤」が要るのか 2
何が、どう溜まるのか 3 アーキ — AWS MediaLake OSS と拡張 5 アノテーション / 学習データ検索 6 これから — 移譲できる世界線へ CA DATA NIGHT #9 / 2026-05-21

この 3 つを、このあと具体で見ていく 1 GUI でノードを自由に組み、パイプラインを作れるコードを書かずに、編集画面で並べてつなぐ 2 成果物を実行履歴としてアセットに残せる出力は実行単位で分かれ、同じ
Asset に積み上がっていく 3 カスタムノードを Lambda 1 つで追加できる推論コードを Lambda にすれば、そのままノードになる Pipeline 設計の「自由」は 3 つ CA DATA NIGHT #9 / 2026-05-21 27

パイプラインの作成・編集・デプロイまで DAM の UI で完結動画の処理パイプラインを作成・編集・デプロイまで DAM の UI
上で完結デフォルトに加えて、自分でカスタムのパイプラインも足していける DAM の UI でパイプラインを組める CA DATA NIGHT #9 / 2026-05-21 28 1 2 3 GUI で組み立てる

裏側は Step Functions、各処理がノードとして抽象化設計思想動画に対する処理をノードとして表現ノードを並べて組み立てる視覚的に Pipeline
を構築技術スタック Step Functions で State Machine 定義各 State = Lambda ノード DAM UI で GUI 編集できる Pipeline = ノードの組み合わせ CA DATA NIGHT #9 / 2026-05-21 29 1 2 3 GUI で組み立てる

右の Available Nodes から選んでキャンバスに配置する右の Available Nodes から使いたいノードを選び、キャンバスに並べてつなぐ
コードを書かずに、GUI でパイプラインを組み立てられるノードを選んで、並べて、つなぐ CA DATA NIGHT #9 / 2026-05-21 30 1 2 3 GUI で組み立てる

自動トリガ系 — upload をきっかけに自動で動く 1 S3 に動画を upload するだけで EventBridge
→ MediaConvert が自動起動 2 置いた瞬間に、サムネなどの副産物が揃う置くだけでサムネが揃う CA DATA NIGHT #9 / 2026-05-21 31 1 2 3 GUI で組み立てる

TwelveLabs の埋め込みを生成し OpenSearch に保存するカスタム例 1 TwelveLabs Marengo を Bedrock 経由で呼び、埋め込み
を生成 2 生成した埋め込みを OpenSearch に保存動画を埋め込み化して OpenSearch へ CA DATA NIGHT #9 / 2026-05-21 32 1 2 3 GUI で組み立てる

手動トリガ系 — タイムコードでシーンを抜き出す 1 タイムコード（開始 / 終了）を指定して、その区間を切り出し 2 長尺動画から特定シーンだけ
— 学習データや配信用クリップに使う指定区間をクリップに切り出す CA DATA NIGHT #9 / 2026-05-21 33 1 2 3 GUI で組み立てる

出力先は実行メタデータから動的に決まる実行ごと pipeline-executions/{id}/ クリップ / フレーム / CVAT 連携実行のたびに新しい場所へ
後から比較・追跡できる master 最新だけが正サムネ / proxy 実行のたびに上書き最新の 1 つで十分なもの成果物の置き方は 2 パターン CA DATA NIGHT #9 / 2026-05-21 34 1 2 3 実行履歴で管理・蓄積

同じパイプラインでも成果物が実行ベースで残る Asset（元動画）に、パイプラインを回すたびに実行 ID 単位で成果物が残る 1 pipeline-executions/exec-001/ clips/ frames/
cvat/ 1 回目の実行結果 2 pipeline-executions/exec-002/ clips/ frames/ cvat/ 2 回目の実行結果実行ごとに別フォルダで残るから、後から実行同士を比較・追跡できるアセットに実行履歴が積み上がる 3 pipeline-executions/exec-003/ … 実行するたびに積み上がっていく CA DATA NIGHT #9 / 2026-05-21 35 1 2 3 実行履歴で管理・蓄積

推論コードを Lambda 関数にすれば、そのまま UI に並ぶ Lambda 関数として実装 def handler(event, context):
# event からノード固有の入力を受け取る result = run_custom_logic(event) return {"output": result, "metadata": {...}} handler を 1 つ書くだけ入出力の型はノード種別ごとに合わせる ▶ 登録 Available Nodes に追加される他のノードと同列に並んで GUI で組めるノードの実体は Lambda 関数 1 つ CA DATA NIGHT #9 / 2026-05-21 36 1 2 3 カスタムノード追加

既存パイプラインに 1 ノード足すだけで実験できる新しい AI 機能を試したいとき既存 Pipeline いま動いてるノード列新ノード
試したい AI 機能を Lambda として実装追加差し込み GUI で位置を選んで挿入即実行既存を壊さず新フローを試行 CA DATA NIGHT #9 / 2026-05-21 37 1 2 3 カスタムノード追加

SECTION 05 / 06 5 アノテーション / 学習データ検索 1 なぜ「動画データ管理基盤」が要るのか
2 何が、どう溜まるのか 3 アーキ — AWS MediaLake OSS と拡張 4 Pipeline 設計の自由さ 6 これから — 移譲できる世界線へ CA DATA NIGHT #9 / 2026-05-21

良い ML モデルは、良い学習データから溜めた動画も、そのままでは学習に使えない。学習データに変える工程が、この 2 つ。前半アノテーション動画に正解ラベルを付けて学習データにする —
モデルの精度を左右する工程検索が速いほど、アノテーションも速く回る前半 — アノテーション後半学習データ検索狙ったシーンの動画を自然言語で見つけ、アノテ対象を素早く集める CA DATA NIGHT #9 / 2026-05-21 39

溜めた動画にラベルを付けて、初めて学習に使えるデータになる ML モデルの多くは教師あり学習。正解ラベルの付いたデータが、学習の前提になる。溜めた動画ラベル無し ▶ アノテーション正解ラベルを付与 ▶ 学習データ
ラベル付き ▶ ML モデル学習に使うここから、そのアノテーションを支える DAM の仕組みの話に入る学習データは、アノテーションから生まれる CA DATA NIGHT #9 / 2026-05-21 40 1 2 アノテーション

Computer Vision Annotation Tool — 動画にラベルを付ける OSS のツール Computer Vision
Annotation Tool の略矩形・ポリゴン・キーポイントなど、用途に応じたラベルを付けられる OSS として公開され、誰でも利用できる WinTicket のアノテーション基盤として採用実際の CVAT 画面 — 競輪映像のフレームに選手を矩形でラベリング CVAT — 画像・動画アノテーションの OSS ツール CA DATA NIGHT #9 / 2026-05-21 41 1 2 アノテーション

OSS の CVAT を、専用 AWS アカウントの EC2 にセルフホスト CVAT は
EC2 にセルフホストして運用している DAM 本体とは別の AWS アカウントに分離している専用の AWS アカウント EC2 インスタンス CVAT OSS をセルフホストアノテーションは CVAT を使う CA DATA NIGHT #9 / 2026-05-21 42 1 2 アノテーション

IAM ロールとリソースポリシーで AWS アカウントを跨ぐ DAM アカウント Lambda / S3 /
DynamoDB ⟷ IAM ロール + Resource Policy cross-account access の橋渡し ⟷ CVAT アカウント EC2 セルフホスト + アノテ DB クロスアカウント連携の工夫 CA DATA NIGHT #9 / 2026-05-21 43 1 2 アノテーション

パイプラインのノードの 1 つとして CVAT 連携が動く 1 Asset 選択 DAM UI
で動画を選ぶ ▶ 2 Pipeline 起動 CVAT 連携ノードを実行 ▶ 3 CVAT Task 登録 cross-account で自動登録 Pipeline ノードとして組み込み CA DATA NIGHT #9 / 2026-05-21 44 1 2 アノテーション

手動トリガ系 — 連番画像に切り出して CVAT へ 1 動画を選んでノードを起動 → 連番画像に切り出し
→ CVAT に Task 自動登録 2 アノテ作業の入口が、画面 1 操作で済む選ぶだけで CVAT に登録される CA DATA NIGHT #9 / 2026-05-21 45 1 2 アノテーション

手作業での準備 → 画面 1 操作で起動 Before CV エンジニアが個人で準備していた動画データの格納場所を確認するところから
CVAT に手で取り込み、タスクを設定アノテ開始までに手間がかかる After DAM UI から CVAT ノードを起動メタデータと動画がそのまま渡るアノテーターはタスクを開くだけ起動コストがほぼゼロにラベリング起動コストが下がる CA DATA NIGHT #9 / 2026-05-21 46 1 2 アノテーション

良い ML モデルは、良い学習データから溜めた動画も、そのままでは学習に使えない。学習データに変える工程が、この 2 つ。後半学習データ検索狙ったシーンの動画を自然言語で見つけ、アノテ対象を素早く集める検索が速いほど、アノテーションも速く回る
後半 — 学習データ検索前半アノテーション動画に正解ラベルを付けて学習データにする — モデルの精度を左右する工程 CA DATA NIGHT #9 / 2026-05-21 47

" ゴール直前のシーンの動画が欲しい — Sheet をスクロールして探す？それは現実的じゃない例えばこう探したい CA DATA NIGHT
#9 / 2026-05-21 48 1 2 学習データ検索

自然言語のクエリで関連するシーンを取り出せる「ゴール直前」のような曖昧な指定でも、関連シーンが一覧で返ってくる自然言語クエリで関連シーンを取り出す CA DATA NIGHT #9
/ 2026-05-21 49 1 2 学習データ検索

Bedrock 経由で Marengo を呼んで、OpenSearch で vector 検索自然言語クエリ「ゴール直前」
▶ AWS Bedrock TwelveLabs Marengo で embedding ▶ OpenSearch knn vector 検索 (クリップ単位) ▶ 関連シーン visual / audio / transcript 別 Semantic Search は Bedrock × OpenSearch で動く CA DATA NIGHT #9 / 2026-05-21 50 1 2 学習データ検索

メタ付け・整理・検索を Agent に寄せていく MetaDataAgent で CSV メタデータを自動付与動画を勝手に Collection にまとめてくれる
Agent 自然言語で「あのシーン探して」→ Agent が探して持ってくる CV エンジニアの試行回数を構造的に増やす発見性は、人ではなく Agent に渡す CA DATA NIGHT #9 / 2026-05-21 51 1 2 学習データ検索

SECTION 06 / 06 6 これから — 移譲できる世界線へ 1 なぜ「動画データ管理基盤」が要るのか
2 何が、どう溜まるのか 3 アーキ — AWS MediaLake OSS と拡張 4 Pipeline 設計の自由さ 5 アノテーション / 学習データ検索 CA DATA NIGHT #9 / 2026-05-21

土台ができた、というところまで来ています DAM の現在地取り込み完了 Connectors / Ingest 整理完了
Collections Pipeline 完了ノード化 + 拡張性検索立ち上げ中 Semantic Search 本格運用 Agent これから自動メタデータ / 自動検索 CA DATA NIGHT #9 / 2026-05-21 53

例：CVAT 連携 — 動画選択から Task 登録までを 1 操作に BEFORE 手作業ベース
動画ファイルをローカルに集める連番フレームに切り出し CVAT 画面で Task を作成フレームを個別にアップロード AFTER（DAM） DAM UI で 1 操作 Asset から動画を選ぶ CVAT 連携パイプラインを起動連番画像化 → CVAT Task 登録まで自動アノテーション起動コストが構造的に下がる（という狙いで作っている）道半ば — でもここが効いてきた CA DATA NIGHT #9 / 2026-05-21 54

DAM 周辺の拡張ロードマップ次にやること検索 UI 磨き CV エンジニア以外にも触ってもらう
CVAT 動線深化起動自動化 + 品質チェック Model 管理接続学習データとモデルのリネージ MetaDataAgent メタデータ自動付与構想 Collection Agent 動画を勝手にまとめる Agent 構想 CA DATA NIGHT #9 / 2026-05-21 55

専門性は専門に、汎用化できるところは基盤と Agent に汎用化 → 基盤 / Agent 移譲できる仕事動画の管理・配置
メタデータの付与 Collection への整理アノテ起動・学習データ検索専門性 → CV/ML エンジニア専門性が必要な仕事 ML モデルのアーキ設計評価指標の設計学習データの品質判断モデルの本番展開判断移譲できる世界線へ CA DATA NIGHT #9 / 2026-05-21 56

スポーツ映像 × ML/CV、一緒に作りませんか？ WINLIVE（競輪） ABEMA × ボクシング「次に何が起こるか」への期待を可視化する技術開発を、ABEMA 連携で横展開中スポーツ映像テック事業部
— 仲間募集中 CA DATA NIGHT #9 / 2026-05-21 57

ML/CV 視点の意見、ぜひ聞かせてください！ご清聴ありがとうございました CA DATA NIGHT #9 / 2026-05-21

サーバーレスで作る、動画データ管理基盤

サーバーレスで作る、動画データ管理基盤

More Decks by Keigo Ibaraki

Other Decks in Programming

Featured

Transcript