Lean4による汎化誤差評価の形式化

Lean4による汎化誤差評価の形式化笠浦一海(OSX), 水野勇磨(University College Dublin), 塚本慧(東京大学),
恩田直登(OSX), 園田翔(理化学研究所) https://github.com/auto-res/lean-rademacher https://arxiv.org/pdf/2503.19605

目的 • 機械学習の理論の形式化

形式化の参考にした文献

汎化誤差評価とは • 統計的機械学習の理論の基本的な道具 • ある確率分布に従ってサンプルデータから推定したモデル関数と実際の関数とのずれを評価するテクニック

形式化した命題の依存関係 Hoeffdingの補題 McDiarmidの不等式経験ラデマッハ複雑度ラデマッハ複雑度ラデマッハ複雑度を用いた汎化誤差評価集中不等式汎化誤差評価ラデマッハ変数

モデルの汎化誤差評価の標準的なステップ 1. 使いたいモデル(e.g. 線形回帰、ニューラルネットワーク)のラデマッハ複雑度を具体的に計算 2. ラデマッハ複雑度と汎化誤差評価の関係式からモデルの汎化誤差を調べる今回形式化した内容は2のほう

集中不等式 • 確率変数が平均からずれる確率がどれだけ小さいかを示すための不等式 e.g. マルコフの不等式 P X ≥ 𝜖
≤ 𝐸 𝑋 𝜖

Hoeffdingの補題 • 確率変数𝑋が𝔼 𝑋 = 0を満たし, 確率1で𝑎 ≤ 𝑋 ≤
𝑏であるとき 𝔼[𝑒𝑡𝑋] ≤ 𝑒𝑡2(𝑏−𝑎)2/8

McDiarmidの不等式 • {𝑋𝑖 }𝑖=1 𝑚 を独立な確率変数として、確率変数𝑓(𝑋1 , … 𝑋𝑚
)を考える。ここで𝑓のi番目の引数を変えたとしても高々c𝑖 しか変化しないとする. • σ𝑖 𝑐𝑖 2 ≤ 1 𝑡 ならばP 𝑓 − 𝔼 𝑓 ≥ 𝜖 ≤ 𝑒−2∗𝜖2∗𝑡

形式化した命題の依存関係 Hoeffdingの補題 McDiarmidの不等式経験ラデマッハ複雑度ラデマッハ複雑度ラデマッハ複雑度を用いた汎化誤差評価集中不等式汎化誤差評価ラデマッハ変数

ラデマッハ変数 • {−1,1}の値を一様にとる𝜎をラデマッハ変数と呼ぶ • 𝝈 = {𝜎𝑖 }𝑖=1 𝑛 をラデマッハベクトルと呼ぶ

経験ラデマッハ複雑度 ℱをモデル関数の集合とする 𝑿 = {𝑋𝑘 }𝑘=1 𝑛 をi.i.dで分布Pに従う確率ベクトルとするこのとき経験ラデマッハ複雑度は

ラデマッハ複雑度 • ラデマッハ複雑度は経験ラデマッハ複雑度の𝑿での期待値

ラデマッハ複雑度 • ラデマッハ複雑度はモデル関数の集合の表現力を測る指標 • モデル関数の空間が「広い」ほどラデマッハ複雑度は大きくなる

ラデマッハ複雑度を用いた汎化誤差評価 • 汎化誤差の上限は少なくとも1 − exp(− 𝑛𝜖2 2𝑏2 )の確率で以下の式のようにラデマッハ複雑度で抑えることができる

予定通りに進まなかったこと・工夫したこと • 可積分条件とsupの処理 • 独立性の表現方法 • 条件付き期待値 • モデル関数の集合の拡張

可積分条件とsupの処理 • 積分やsupの内部で式変形を行うたびに、繰り返し可積分かどうかやsupの存在についての証明が必要になり、形式化が冗長になった

独立性の表現方法 • 複数の確率変数が登場する場合、それらがどのような関係にあるかを形式的に正確に表現するのが難しい

確率変数列{𝑋𝑖 }𝑖=1 𝑛 についてケース1: i.i.d.（独立同分布）を仮定する場合確率空間はΩ𝑛(直積測度) 確率変数はX𝑖 : Ω𝑛
→ ℝ (i番目の射影𝜋𝑖 : Ω𝑛 → Ω とX: Ω → ℝ の合成と解釈したい) 独立性は定義から自動的に成り立つケース2: 独立だが必ずしも同分布でない場合確率空間は Ω 確率変数は X𝑖 : Fin 𝑛 → Ω → ℝ 独立性を仮定する必要があるケース1でケース2の意味での独立性が成り立つかを証明する必要があった McDiarmidの不等式の仮定ラデマッハ変数

条件付き期待値 • McDiarmidの不等式の証明は当初はマルチンゲール差分列を定義し、Azuma-Hoeffdingの補題を証明した上で、その系として示そうとしていた.

• 参考にした資料のマルチンゲール差分列の定義結局V𝑖 は確率変数? それとも関数? 実はDoob-Dynkinの補題から同値であることが言える (条件付き期待値の基礎付け) 今回は V𝑖
を関数として定義して直接McDiarmidの不等式を証明したそれによりマルチンゲールやAzuma-Hoeffdingの補題の証明はしなかった

モデル関数の集合の拡張 • 考えている関数の集合が非可算な場合、一般に可測性がSupで保たれないので、まず可算な場合について証明し、可分な場合に拡張した

今後の展望 • ラデマッハ複雑度の具体的な計算に必要な命題の形式化を進める • Dudley’s integral entropy boundの形式化を進めたい興味がある方は声をかけてくださるとうれしいです! Mathlib4で形式化されている確率論の内容を理解するための勉強ノートを作ったりもしてます
https://auto-res.github.io/mathlib_probability_study_note/

Lean4による汎化誤差評価の形式化

Lean4による汎化誤差評価の形式化

Kei Tsukamoto

Other Decks in Science

Featured

Transcript