Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2025_10_22_交流座談会

Avatar for Seki Ryoma Seki Ryoma
October 23, 2025
40

 2025_10_22_交流座談会

Avatar for Seki Ryoma

Seki Ryoma

October 23, 2025
Tweet

Transcript

  1. 1. Visual Regression Testing (VRT) とは 2. 導入しての課題感と検証方針 3. 実際にやってみて詰まったこと

    4. これらを通して学んだこと 5. まとめ 本編記事 hps://zenn.dev/ivry/articles/41d81e1d7448cc 4 今日話すこと
  2. “課題感” ・差分は検知できても、ノイズが多く重要な変化が埋もれ やすい ・結局 “どこがどう変わったか ” がわかりにくい ・“本当にバグなのか? ” は人間の判断がしないといけない

    -> 単に差分を出すだけでなく、「どの部分がどう変化し たのか」まで分かると助かる ... 6 導入して見えてきた課題 差分検知後に出力される差分ハイライトのキャプチャ
  3. 7 従来のVRTでは“差分の検出”まではできるが、それが本当に問題なのかを判断するには 解 釈(意味づけ) が必要になる。 そこで、差分の ”見た目” ではなく ”意味” を捉える必要があると考え、生成

    AIを使えばこの “意味づけ”ができるのではないかという仮説を立て、その可能性を検証することにしました。 課題を踏まえた検証方針
  4. 差分画像に引っ張られてAIの回答が“狙った内容”にならない ・基準となるスナップショット ・取得したスナップショット ・差分がハイライトされたスナップショット ・座標や差分率などの比較ログデータ これら全てをLLMに入力して差分説明を生成していた 起きたこと AIが“目立つ見た目の変化 ”を優先的に拾ってしまう →

    色の変化など表層的な出力が増え、重要な差分が埋もれる 改善したこと 差分がハイライトされたスナップショット と 座標や差分率などの比較ログデー タを与えない方針に変更。精度も良くなっていきました 12 詰まったポイント② 情報を与えすぎてノイズに溺れる 通知結果 左からベース画像、取得した画像、差分がハイライトされた画像
  5. 13 精度をさらに高めるためにモデルごとの出力傾向を比較も実施 モデル比較 ・Gemini 2.5 Flash と GPT-4.1 mini は、期待に近い精度で変化

    を検知 ・GPT-4o mini はテキスト変更の分類は正確だったが、レイアウ ト 検知が弱め ・モデルごとに得意・不得意があり、用途に応じた選定が重要 複数ページで検証したところ GPT-4.1 mini の出力が最も安定して いたため、現在は GPT-4.1 mini を使用しています 詰まったポイントを改善したあと、さらに精度を高められないかを確認するため、 モデルごとの出力傾向を比較検証しました