[論文サーベイ] Survey on VLM for Video Game Quality Assurance

1/18 Survey on VLM for Video Game Quality Assurance タイトル
学会著者/所属引用数 VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance [arXiv'2505] Mohammad Reza Taesiri et al. (University of Alberta et al.) 2 Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models [arXiv'2508] Wentao Lu et al. (University of Alberta et al.) - 2025/10/15 1/18

- ビデオゲーム市場の急成長と開発の複雑化 - ビデオゲーム産業は巨大な市場へと成長しているが，その品質保証（QA）プロセスは依然として手作業に大きく依存しており，多大な時間とコスト，人為的ミスが課題 - VLMによるQA自動化への期待と課題 - Vision-Language Models
(VLM) は，画像や映像を理解し，QAプロセスを自動化する大きな可能性を秘めている - しかし，既存のベンチマークはゲーム特有の視覚的なタスク（e.g., 微細なグラフィックの不具合，意図しない表示の差異など）を評価するには不十分 2/18 Background

- ビデオゲームQAに特化したVLM評価ベンチマークの構築 - 実際のゲーム開発現場で発生するQAタスクを網羅した，新しい包括的なベンチマーク「VideoGameQA-Bench」を提案 - VLMの能力と限界の解明 - このベンチマークを用いて，VLMがどのQAタスクを得意とし，どこに課題があるのかを定量的に評価し，ゲームQA自動化の実現可能性と今後の研究課題を明らかにす
る 3/18 Objective

1. 新規ベンチマーク「VideoGameQA-Bench」の構築と公開 a. ビジュアル単体テスト，リグレッションテスト，グリッチ検出など，9種類のQAタスクと4,700以上の質問を含む，初の大規模な評価データセットを提供 2. VLMの包括的な性能評価と分析 a. 16種類のVLMで評価し，多くのVLMがグリッチ検出で有望な性能を示す一方で，2 つの画像を比較するビジュアルリグレッションテストやUIの細部理解，推論を要する
タスクでは依然として大きな課題があることを実験的に示した 3. 将来のQA自動化に向けた知見の提供 a. VLMをゲームQAに応用する上での具体的な強みと弱みを特定し，今後の研究の方向性を示した 4/18 Contributions

5/18 VideoGameQA-Bench ビジュアル単体テスト： - 画像内のオブジェクトの属性（位置，色，状態など）に関する質問 - e.g.,)「キャラクターのポーズは正しいか？」単体テスト： -
ゲーム内のUI要素に関する質問 - e.g.,)「メニューのテキストは正しいか？」ビジュアルリグレッションテスト： - 2つのスクリーンショットを比較し，バグを検出 - キャラクターのカスタマイズや天候の変化といった許容される差異は無視し，オブジェクトの欠落などの許容されない差異のみを特定する，VLMにとって非常に困難なタスクビジュアル単体テスト単体テストビジュアルリグレッションテスト

6/18 VideoGameQA-Bench グリッチ検出： - 画像に不具合（グリッチ）が含まれているかを判定 - レンダリングの問題，オブジェクトの貫通（クリッピング），物理演算のバグパラメトリッククリッピング検出： -
クリッピングに特化した，より詳細な評価タスク - オブジェクト間の距離を様々に変化させ，クリッピングを検出できるかを測定バグレポート生成： - グリッチの検出だけでなく，その内容をQAエンジニア向けに文章で記述させる - バグの内容，影響を受けるアイテムなどをまとめたレポートを自動生成するグリッチ検出パラメトリッククリッピング検出バグレポート生成

7/18 VideoGameQA-Bench グリッチ検出： - 動画を使用し，動きの分析が加わるためより複雑 - 数フレームしか表示されない一過性のグリッチの検出も含む Needle-in-a-Haystack（NIAH）： - 長い動画からグリッチを検出する高難易度タスク
- グリッチの有無だけでなく，グリッチが最初に発生した正確なフレームを特定バグレポート生成： - 動画内で発生しているグリッチの内容を分析し，バグレポートを自動生成グリッチ検出 Needle-in-a-Haystack バグレポート生成

8/18 VideoGameQA-Bench 構成するデータ： - 画像ベース: 2,236 サンプル - ビデオベース: 1,200
サンプル - 多様性: 800種類以上の実在するゲームと，9種類の合成ゲームシーンを網羅 Steam Community： - 800以上のゲームから集められた，ユーザー投稿のスクリーンショット - 「bug」タグを頼りに，現実世界で発生した多種多様なグリッチ画像を収集 Unity Game Engine： - 意図的にグリッチを発生させた画像や動画 - 動画の特定フレームにグリッチを入れている YouTube - 様々なゲーム動画やカットシーン - グリッチの無い平常時のゲームプレイ動画を収集し，正常データとして利用 - カットシーンから変更前後の比較フレームを抽出し，リグレッションテストに使用 GamePhysics Dataset - 「グリッチ動画」に特化した学術的ソース - 物理演算の不具合など，グリッチを含むゲームプレイ動画 - ビデオベースのグリッチ検出タスクにおける，異常データとして活用これら4つのソースを組み合わせることでグリッチの無いデータ（正常系）とグリッチを含むデータ（異常系）の両方を網羅し，信頼性の高いベンチマークを構築している

JSON形式： - 全てのデータはJSON形式に統一される - これにより，ベンチマークの採点を自動化でき，VLMの思考過程を記録する`Reasoning`フィールドを儲けることで，なぜそのように判断したかという評価も可能にしている 9/18 VideoGameQA-Bench アノテーション著者：
- 著者が全てのデータを直接レビューしグリッチの有無を判定 - さらに共著者3名によるクロスチェックを行い，人間による判断の客観性を確保 Gemini2.5Pro： - 対象：ビジュアル単体テスト，UI単体テスト - Gemini 2.5 Proが質問の草案を自動生成 - その後，著者がその内容を精査・修正することで，高品質な質問セットを効率的に作成するハイブリッド手法を採用 Unity： - 対象：Unityで作成したデータ - グリッチの有無や，NIAHタスクでのグリッチ発生時刻といった情報を，エンジンから直接エクスポート - これにより，100%正確なラベル付けを実現

10/18 Experiments VU：ビジュアル単体テスト UI：単体テスト VR：ビジュアルリグレッションテスト IGD：画像データのグリッチ検出 PCD：パラメトリッククリッピング検出 IBR：画像データのバグレポート生成 VGD：ビデオデータのグリッチ検出 NIAH：長いビデオでのグリッチ検出
VBR：ビデオデータのバグレポート生成 VideoGameQA-Benchにおけるモデルの精度（%）評価対象： - 主要なVLMモデルを16個を対象に評価動画データの扱い方 - Gemini系モデルは動画ファイルを直接入力 - それ以外のモデルは，動画を1秒に1フレームの画像列（シーケンス）として処理バグレポートの評価方法 - バグレポートの採点は，人間ではなくLLM（o3モデル）を用いて自動で評価

11/18 Results グリッチ検出タスクでは高い性能を示す - Gemini-2.5 Pro（Vid.49.4%）とGPT-4.1（Img.53.3%）が総合スコアでトップクラスの性能を発揮 - グリッチ検出 (IGD, VGD)
タスクでは，多くのモデルが比較的に高い精度（最大82.8%）を達成 - 単純な表示バグは得意な一方で，”銃を構えるポーズなのに銃がない”といった，常識的な推論を要するグリッチの検出は依然として困難 VU：ビジュアル単体テスト UI：単体テスト VR：ビジュアルリグレッションテスト IGD：画像データのグリッチ検出 PCD：パラメトリッククリッピング検出 IBR：画像データのバグレポート生成 VGD：ビデオデータのグリッチ検出 NIAH：長いビデオでのグリッチ検出 VBR：ビデオデータのバグレポート生成 VideoGameQA-Benchにおけるモデルの精度（%）

12/18 Results 課題①：詳細情報の「読み取り」能力の欠如 - ビジュアル単体テストやUI単体テストのスコアは約40~50% - 複雑なUIのテキストやアイコン，キャラクターの微細な姿勢などを正確に理解する能力はまだ低い課題②：2つの画像を「比較」する能力の限界 - ビジュアルリグレッションテストは難しいタスクで最高でも正解率が45.2%
- 2つの画像の差分を論理的に認識し，仕様変更（OK）とバグ（NG）を区別することが非常に苦手課題③：動画内のイベントを「ピンポイントで特定」する能力の低さ - NIAHタスクでは，動画内にグリッチがあると分かっても，その正確な発生時刻を特定する精度は最高で36.0%に留まる VU：ビジュアル単体テスト UI：単体テスト VR：ビジュアルリグレッションテスト IGD：画像データのグリッチ検出 PCD：パラメトリッククリッピング検出 IBR：画像データのバグレポート生成 VGD：ビデオデータのグリッチ検出 NIAH：長いビデオでのグリッチ検出 VBR：ビデオデータのバグレポート生成 VideoGameQA-Benchにおけるモデルの精度（%）

背景： - ゲーム開発においてバグ報告動画の確認は開発者の大きな負担である目的： - バグ報告のレビュー作業を自動化し，開発者が他のバグ修正に集中できる環境を整えること貢献： - VLM(GPT-4o)でバグフレームを自動特定する具体的なパイプラインの開発
13/18 Overview Bug summaryに該当各バッチの候補フレームの中から最もbug summaryと適合するフレームを特定する各バッチごとのランク付けされたフレーム

1. キーフレーム抽出 (Keyframe Extraction) a. 入力されたゲームプレイ動画からFFmpeg を用いて視覚的な変化が大きい「キーフレーム」のみを抽出 b. これにより，分析対象のフレーム数を動画全体の約1.9%まで大幅に削減 2.
バグ説明の要約 (Bug Description Summarization) a. JIRA（ソフトウェア）に報告されたバグ説明文には，ログや座標データなどのテキストデータが含まれる b. GPT-4oを用いて，この説明文からバグの特徴に関する部分だけを抽出し，簡潔な要約を生成 14/18 Method

1. バグフレーム検索 (Bug Frame Retrieval) a. ステップ1で抽出したキーフレーム群とステップ2で要約したバグ説明をVLM (GPT-4o) に入力 b.
フレーム数が多い場合は，50枚ずつのバッチに分割する c. VLMがテキストの内容と最も合致するフレームを特定し，関連性の高い順にフレームをランク付け 2. バッチ集約 (Batch Aggregation) a. 各バッチ内でランク付けされたフレームを集める b. 再度VLMを用いて，すべてのバッチの中から最終的なランキングを決定し，動画全体で最もバグを的確に表すキーフレームを特定 15/18 Method

TP (Top N) - VLMが提案した上位N件の候補の中に正解のバグフレームが含まれていた動画の総数 Accuracy@N - VLMが提案した上位N件の候補を確認して，本物のバグフレームが見つかる確率 F1 Score
(F1スコア) - 「FN：バグの見逃し」と「FP：お手つき（間違い）」の両方を考慮した総合的な性能スコア上位3件のフレーム候補の中にバグフレームが見つかる確率が約90%で高い精度でバグ検出ができている 16/18 Results Physics & Collision：キャラクターや物が壁をすり抜けたり，不自然な動きをしたりする物理演算や衝突に関するバグアニメーションと VFX（視覚効果）：キャラクターのアニメーションが乱れたり，エフェクト（爆発や魔法など）が正しく表示されなかったりするバグレンダリングとテクスチャ：オブジェクトの表面の質感（テクスチャ）が消えたり，モデルが正しく描画されなかったりするバグ UIとHUD：メニュー画面や体力ゲージなど，画面に表示される情報や操作パネルに関するバグパフォーマンス：フレームレートの低下（カクつき）や処理落ちなど，ゲームの動作の重さに関するバグライティングと影：シーンが異常に暗くなったり，キャラクターやオブジェクトの影が正しく表示されなかったりするバグゲームクラッシュとロジック：ゲームが強制終了したり，イベントが進まない，アイテムが手に入らないなど，ゲームのルールや進行に関するバグ・TP (True Positive): 正解バグがある動画から，正しくバグのフレームを見つけ出せた数・TN (True Negative): 正解そもそもバグが無い動画に対して，「バグは無い」と正しく判断できた数・FP (False Positive): 不正解（お手つき）バグでないフレームを「これがバグだ」と間違って指摘してしまった数・FN (False Negative): 不正解（見逃し）動画の中にバグがあったのに，それを見つけられなかった数

17/18 VideoGameQA-Bench： - ビデオゲームQAに関するデータセット公開とVLMを用いた評価 Conclusion Automated Bug Frame Retrieval： -
VLMでバグフレームを自動特定するパイプライン ❖ 傾向と今後 ➢ ビデオゲームから自動でCEROレーティングを推定するニーズ

18/18 References ❏ VideoGameQA-Bench

[論文サーベイ] Survey on VLM for Video Game Quality A...

[論文サーベイ] Survey on VLM for Video Game Quality Assurance

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

1/18 Survey on VLM for Video Game Quality Assurance タイトル

5/18 VideoGameQA-Bench ビジュアル単体テスト： - 画像内のオブジェクトの属性（位置，色，状態など）に関する質問 - e.g.,)「キャラクターのポーズは正しいか？」単体テスト： -

6/18 VideoGameQA-Bench グリッチ検出： - 画像に不具合（グリッチ）が含まれているかを判定 - レンダリングの問題，オブジェクトの貫通（クリッピング），物理演算のバグパラメトリッククリッピング検出： -

7/18 VideoGameQA-Bench グリッチ検出： - 動画を使用し，動きの分析が加わるためより複雑 - 数フレームしか表示されない一過性のグリッチの検出も含む Needle-in-a-Haystack（NIAH）： - 長い動画からグリッチを検出する高難易度タスク

8/18 VideoGameQA-Bench 構成するデータ： - 画像ベース: 2,236 サンプル - ビデオベース: 1,200

11/18 Results グリッチ検出タスクでは高い性能を示す - Gemini-2.5 Pro（Vid.49.4%）とGPT-4.1（Img.53.3%）が総合スコアでトップクラスの性能を発揮 - グリッチ検出 (IGD, VGD)

1. キーフレーム抽出 (Keyframe Extraction) a. 入力されたゲームプレイ動画からFFmpeg を用いて視覚的な変化が大きい「キーフレーム」のみを抽出 b. これにより，分析対象のフレーム数を動画全体の約1.9%まで大幅に削減 2.

1. バグフレーム検索 (Bug Frame Retrieval) a. ステップ1で抽出したキーフレーム群とステップ2で要約したバグ説明をVLM (GPT-4o) に入力 b.

TP (Top N) - VLMが提案した上位N件の候補の中に正解のバグフレームが含まれていた動画の総数 Accuracy@N - VLMが提案した上位N件の候補を確認して，本物のバグフレームが見つかる確率 F1 Score

17/18 VideoGameQA-Bench： - ビデオゲームQAに関するデータセット公開とVLMを用いた評価 Conclusion Automated Bug Frame Retrieval： -

18/18 References ❏ VideoGameQA-Bench