Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on VLM for Video Game Quality A...

Avatar for tt1717 tt1717
October 15, 2025

[論文サーベイ] Survey on VLM for Video Game Quality Assurance

[論文サーベイ] Survey on VLM for Video Game Quality Assurance
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance,
Mohammad Reza Taesiri et al. (University of Alberta et al.)
[arXiv'2505] (Cited by: 2 )
2.Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models,
Wentao Lu et al. (University of Alberta et al.)
[arXiv'2508] (Cited by: - )

Avatar for tt1717

tt1717

October 15, 2025
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. 1/18 Survey on VLM for Video Game Quality Assurance タイトル

    学会 著者/所属 引用数 VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance [arXiv'2505] Mohammad Reza Taesiri et al. (University of Alberta et al.) 2 Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models [arXiv'2508] Wentao Lu et al. (University of Alberta et al.) - 2025/10/15 1/18
  2. - ビデオゲーム市場の急成長と開発の複雑化 - ビデオゲーム産業は巨大な市場へと成長しているが,その品質保証(QA)プロセス は依然として手作業に大きく依存しており,多大な時間とコスト,人為的ミスが課題 - VLMによるQA自動化への期待と課題 - Vision-Language Models

    (VLM) は,画像や映像を理解し,QAプロセスを自動化す る大きな可能性を秘めている - しかし,既存のベンチマークはゲーム特有の視覚的なタスク(e.g., 微細なグラ フィックの不具合,意図しない表示の差異など)を評価するには不十分 2/18 Background
  3. 5/18 VideoGameQA-Bench ビジュアル単体テスト: - 画像内のオブジェクトの属性(位置,色,状態など)に関す る質問 - e.g.,)「キャラクターのポーズは正しいか?」 単体テスト: -

    ゲーム内のUI要素に関する質問 - e.g.,)「メニューのテキストは正しいか?」 ビジュアルリグレッションテスト: - 2つのスクリーンショットを比較し,バグを検出 - キャラクターのカスタマイズや天候の変化といった許容され る差異は無視し,オブジェクトの欠落などの許容されない差 異のみを特定する,VLMにとって非常に困難なタスク ビジュアル単体テスト 単体テスト ビジュアルリグレッションテスト
  4. 6/18 VideoGameQA-Bench グリッチ検出: - 画像に不具合(グリッチ)が含まれているかを判定 - レンダリングの問題,オブジェクトの貫通(クリッピング) ,物理演算のバグ パラメトリッククリッピング検出: -

    クリッピングに特化した,より詳細な評価タスク - オブジェクト間の距離を様々に変化させ,クリッピングを検 出できるかを測定 バグレポート生成: - グリッチの検出だけでなく,その内容をQAエンジニア向けに 文章で記述させる - バグの内容,影響を受けるアイテムなどをまとめたレポート を自動生成する グリッチ検出 パラメトリッククリッピング検出 バグレポート生成
  5. 7/18 VideoGameQA-Bench グリッチ検出: - 動画を使用し,動きの分析が加わるためより複雑 - 数フレームしか表示されない一過性のグリッチの検出も含む Needle-in-a-Haystack(NIAH): - 長い動画からグリッチを検出する高難易度タスク

    - グリッチの有無だけでなく,グリッチが最初に発生した正確 なフレームを特定 バグレポート生成: - 動画内で発生しているグリッチの内容を分析し,バグレポー トを自動生成 グリッチ検出 Needle-in-a-Haystack バグレポート生成
  6. 8/18 VideoGameQA-Bench 構成するデータ: - 画像ベース: 2,236 サンプル - ビデオベース: 1,200

    サンプル - 多様性: 800種類以上の実在するゲームと,9種類の合成ゲー ムシーンを網羅 Steam Community: - 800以上のゲームから集められた,ユーザー投稿のスクリー ンショット - 「bug」タグを頼りに,現実世界で発生した多種多様なグ リッチ画像を収集 Unity Game Engine: - 意図的にグリッチを発生させた画像や動画 - 動画の特定フレームにグリッチを入れている YouTube - 様々なゲーム動画やカットシーン - グリッチの無い平常時のゲームプレイ動画を収集し,正常 データとして利用 - カットシーンから変更前後の比較フレームを抽出し,リグ レッションテストに使用 GamePhysics Dataset - 「グリッチ動画」に特化した学術的ソース - 物理演算の不具合など,グリッチを含むゲームプレイ動画 - ビデオベースのグリッチ検出タスクにおける,異常データと して活用 これら4つのソースを組み合わせることでグリッチの無いデータ(正 常系)とグリッチを含むデータ(異常系)の両方を網羅し,信頼性の 高いベンチマークを構築している
  7. JSON形式: - 全てのデータはJSON形式に統一される - これにより,ベンチマークの採点を自動化でき,VLMの思考過程を記録する`Reasoning`フィールドを儲けることで,なぜそのように判断したかとい う評価も可能にしている 9/18 VideoGameQA-Bench アノテーション 著者:

    - 著者が全てのデータを直接レビューしグリッチの有無を判定 - さらに共著者3名によるクロスチェックを行い,人間による 判断の客観性を確保 Gemini2.5Pro: - 対象:ビジュアル単体テスト,UI単体テスト - Gemini 2.5 Proが質問の草案を自動生成 - その後,著者がその内容を精査・修正することで,高品質な 質問セットを効率的に作成するハイブリッド手法を採用 Unity: - 対象:Unityで作成したデータ - グリッチの有無や,NIAHタスクでのグリッチ発生時刻といっ た情報を,エンジンから直接エクスポート - これにより,100%正確なラベル付けを実現
  8. 10/18 Experiments VU:ビジュアル単体テスト UI:単体テスト VR:ビジュアルリグレッションテスト IGD:画像データのグリッチ検出 PCD:パラメトリッククリッピング検出 IBR:画像データのバグレポート生成 VGD:ビデオデータのグリッチ検出 NIAH:長いビデオでのグリッチ検出

    VBR:ビデオデータのバグレポート生成 VideoGameQA-Benchにおけるモデルの精度(%) 評価対象: - 主要なVLMモデルを16個を対象に評価 動画データの扱い方 - Gemini系モデルは動画ファイルを直接入力 - それ以外のモデルは,動画を1秒に1フレームの画像列(シーケンス)として処理 バグレポートの評価方法 - バグレポートの採点は,人間ではなくLLM(o3モデル)を用いて自動で評価
  9. 11/18 Results グリッチ検出タスクでは高い性能を示す - Gemini-2.5 Pro(Vid.49.4%)とGPT-4.1(Img.53.3%)が総合スコアでトップクラスの性能を発揮 - グリッチ検出 (IGD, VGD)

    タスクでは,多くのモデルが比較的に高い精度(最大82.8%)を達成 - 単純な表示バグは得意な一方で,”銃を構えるポーズなのに銃がない”といった,常識的な推論を要するグリッチの検出は 依然として困難 VU:ビジュアル単体テスト UI:単体テスト VR:ビジュアルリグレッションテスト IGD:画像データのグリッチ検出 PCD:パラメトリッククリッピング検出 IBR:画像データのバグレポート生成 VGD:ビデオデータのグリッチ検出 NIAH:長いビデオでのグリッチ検出 VBR:ビデオデータのバグレポート生成 VideoGameQA-Benchにおけるモデルの精度(%)
  10. 12/18 Results 課題①:詳細情報の「読み取り」能力の欠如 - ビジュアル単体テストやUI単体テストのスコアは約40~50% - 複雑なUIのテキストやアイコン,キャラクターの微細な姿勢などを正確に理解する能力はまだ低い 課題②:2つの画像を「比較」する能力の限界 - ビジュアルリグレッションテストは難しいタスクで最高でも正解率が45.2%

    - 2つの画像の差分を論理的に認識し,仕様変更(OK)とバグ(NG)を区別することが非常に苦手 課題③:動画内のイベントを「ピンポイントで特定」する能力の低さ - NIAHタスクでは,動画内にグリッチがあると分かっても,その正確な発生時刻を特定する精度は最高で36.0%に留まる VU:ビジュアル単体テスト UI:単体テスト VR:ビジュアルリグレッションテスト IGD:画像データのグリッチ検出 PCD:パラメトリッククリッピング検出 IBR:画像データのバグレポート生成 VGD:ビデオデータのグリッチ検出 NIAH:長いビデオでのグリッチ検出 VBR:ビデオデータのバグレポート生成 VideoGameQA-Benchにおけるモデルの精度(%)
  11. 1. キーフレーム抽出 (Keyframe Extraction) a. 入力されたゲームプレイ動画からFFmpeg を用いて視覚的な変化が大きい「キーフレーム」のみを抽出 b. これにより,分析対象のフレーム数を動画全体の約1.9%まで大幅に削減 2.

    バグ説明の要約 (Bug Description Summarization) a. JIRA(ソフトウェア)に報告されたバグ説明文には,ログや座標データなどのテキストデータが含まれる b. GPT-4oを用いて,この説明文からバグの特徴に関する部分だけを抽出し,簡潔な要約を生成 14/18 Method
  12. 1. バグフレーム検索 (Bug Frame Retrieval) a. ステップ1で抽出したキーフレーム群とステップ2で要約したバグ説明をVLM (GPT-4o) に入力 b.

    フレーム数が多い場合は,50枚ずつのバッチに分割する c. VLMがテキストの内容と最も合致するフレームを特定し,関連性の高い順にフレームをランク付け 2. バッチ集約 (Batch Aggregation) a. 各バッチ内でランク付けされたフレームを集める b. 再度VLMを用いて,すべてのバッチの中から最終的なランキングを決定し,動画全体で最もバグを的確に 表すキーフレームを特定 15/18 Method
  13. TP (Top N) - VLMが提案した上位N件の候補の中に正解のバグフレームが含まれていた動画の総数 Accuracy@N - VLMが提案した上位N件の候補を確認して,本物のバグフレームが見つかる確率 F1 Score

    (F1スコア) - 「FN:バグの見逃し」と「FP:お手つき(間違い)」の両方を考慮した総合的な性能スコア 上位3件のフレーム候補の中にバグフレームが見つかる確率が約90%で高い精度でバグ検出ができている 16/18 Results Physics & Collision: キャラクターや物が壁をすり抜けたり,不自然な動きをしたりする物理演算や衝突に関するバグ アニメーションと VFX(視覚効果):キャラクターのアニメーションが乱れたり,エフェクト(爆発や魔法など)が正しく表示されなかったりするバグ レンダリングとテクスチャ:オブジェクトの表面の質感(テクスチャ)が消えたり,モデルが正しく描画されなかったりするバグ UIとHUD:メニュー画面や体力ゲージなど,画面に表示される情報や操作パネルに関するバグ パフォーマンス:フレームレートの低下(カクつき)や処理落ちなど,ゲームの動作の重さに関するバグ ライティングと影: シーンが異常に暗くなったり,キャラクターやオブジェクトの影が正しく表示されなかったりするバグ ゲームクラッシュとロジック:ゲームが強制終了したり,イベントが進まない,アイテムが手に入らないなど,ゲームのルールや進行に関するバグ ・TP (True Positive): 正解 バグがある動画から,正しくバグのフレームを見つけ出せた数 ・TN (True Negative): 正解 そもそもバグが無い動画に対して,「バグは無い」と正しく判断できた数 ・FP (False Positive): 不正解(お手つき) バグでないフレームを「これがバグだ」と間違って指摘してしまった数 ・FN (False Negative): 不正解(見逃し) 動画の中にバグがあったのに,それを見つけられなかった数
  14. 17/18 VideoGameQA-Bench: - ビデオゲームQAに関するデータセット公開とVLMを用いた評価 Conclusion Automated Bug Frame Retrieval: -

    VLMでバグフレームを自動特定するパイプライン ❖ 傾向と今後 ➢ ビデオゲームから自動でCEROレーティングを推定するニーズ