Slide 1

Slide 1 text

ICML2021 論文読み会 ICML ‘21 Mandoline: Model Evaluation under Distribution Shift 高柳慎一 / @_stakaya

Slide 2

Slide 2 text

- どんなもの? - ”検証(source) ↔ 本番(target)で分布が異なる”問題 - 共変量シフト(covariate shift) - 疫学や国勢/世論調査の手法からインスパイアされた MANDOLINEでこの問題を解決! - [Austin, 2011] [Isakov and Kuriwaki, 2020] - 先行研究と比べてどこがすごい? - ”ノイズのある付加的な情報”を利用する方法を提案 - スライス(slice) 要約

Slide 3

Slide 3 text

要約 - 技術や手法のキモはどこ? - 「データに関するグルーピング(“スライス”)」という知識がある場合、 それを活かしてシフトを適切にガイド - スライス関数で分布を補正し、期待値計算(ML評価) - どうやって有効だと検証した? - 人工・画像(CelebA)・テキスト(CivilComments)データで検証 - 次に読むべき論文(Code)は? - 古典系(2000年代後半 ~ 2010年前半) - 株式会社ホクソエムのシャチョーのCode

Slide 4

Slide 4 text

ベースとなる考え方 - 欲しい物(機械学習の評価指標とかも基本これで書ける) - 重点ウェイティングで計算(格好良く言うと測度変換) - モンテカルロ法で近似計算 targetの分布での期待値 sourceの分布での期待値 等価(=) 密度比を推定する必要がある

Slide 5

Slide 5 text

既存・関連手法 - Kullback-Leibler importance estimation procedure(KLIEP) - 分布形を仮定 し、targetのKLを最小化 - [Sugiyama et al., 2008] - Classifier-based IW(CBIW) - density-ratio trickで密度比推定を2値分類問題に倒す - [Hastie et al., 2001, Sugiyama et al., 2012a, Mohamed and Lakshminarayanan, 2016] - Kernel mean matching (KMM) - 再生核ヒルベルト空間上でモーメントを一致させるよう推定 - [Gretton et al., 2009] - Least-squares importance fitting (LSIF) - 二乗誤差が小さくなるよう密度比を推定 - [Kanamori et al., 2009]

Slide 6

Slide 6 text

既存手法の課題感 - 高次元データ(High-dimensional data) - 高次元空間での関数推定は辛い - 台のシフト(Support Shift) - データの分布の”台”が違う場合は発散したりそもそも計算され なかったりしてしまう - ※台は数学で言う”台”

Slide 7

Slide 7 text

MANDOLINEの概念図 該当Sliceの単語が入ってれば 1, なければ-1 ラベル(ネガポジ) 論文Figure 1より引用

Slide 8

Slide 8 text

定式化 - 計算したい量(先ほどと表記が少々異なる) - g(x): Xを適当な部分空間に写像する関数(シフトを表現!) - “分布変化”に関する知識(これが変化するだろう) - Example 2.3だと特徴量選択 - 完璧なgは不明なので\tilde{g}を定義してこれを推定して凌ぐ - グラフィカルモデリング前提の定義に見える - 論文中ではh, a, bという関数も出てくるが推定不能なので割愛 ML的な指標(ラベルの一致度合いとか)

Slide 9

Slide 9 text

- pは以下のようにψでパラメタライズしてこれを推定 - ψを決める=確率分布pが求まってウェイトが求まる - イジングモデルや!(物理魂) - …するとウェイト(密度比)は以下のようになる 定式化 スライス間をEdgeでつなぐ(Graphicalモデリング) 面倒なので行列で書く

Slide 10

Slide 10 text

MANDOLINEアルゴリズム 論文Algorithm 1より引用 この辺の導出には塔定理( tower property)等が必要になる 測度論・高尚な数学は大事

Slide 11

Slide 11 text

人工データに対する実験 論文Figure 2より引用 CBIWだといらない(spurious)な特徴量(論文中だと aという関数で表現)の影 響を受ける一方、 MANDOLINEだと0.01で安定 ※”台のシフト”問題への対処ができているだろうという話 ↑の”非対角化度合い ”をちゃんと考慮するとエラーが下がる

Slide 12

Slide 12 text

画像・テキストデータに対する実験 論文Table 2, 3より引用 適当にデータをサンプリングしてシフトを作成した場合 SNLI ー> MNLIへとコーパスごと変えてシフトを表現した場合

Slide 13

Slide 13 text

Slice Design - metaデータから作る - 記事のタグとか画像の分類とか - 雑にキーワードベースなヒューリスティックを使う - Figure1の例のように単語をがんばって分類 - 自動化/ツールなどに関する周辺研究も発展 - [Goel et al., 2021, Chen et al., 2019, McCoy et al., 2019b, Ribeiro et al., 2020,Wang et al., 2018, Polyzotis et al., 2019, Sagadeeva and Boehm, 2021] - センチメント分析IMDBをNo tuningで使うも効果あり - [Maas et al., 2011]

Slide 14

Slide 14 text

- 確率密度関数の”比”をψでパラメタライズするのは楽そうで良い - 論文自体はMathMathしているが、直感的で良い - テーブルデータの場合はSliceを使わないで特徴量そのものを使えば良 さそう - 要調査 所感

Slide 15

Slide 15 text

END