An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results

Amigó et al., ACL 2020 An Eﬀectiveness Metric for Ordinal
Classiﬁcation: Formal Properties and Experimental Results 読む⼈︓横井祥 (東北⼤/理研AIP) 2020-09-25, 第12回最先端NLP勉強会

どんな論⽂? 2 • 順序分類 (Ordinal Classificaiton) の評価尺度再考 − が順序尺度の分類問題 –
e.g., {Negative, Neutral, Positive}; {Reject, Weakly Reject, …} − 評価尺度としてよく使われている Acc, 順位相関, etc. はダメそう – 詳細後述 • 提案法 − 「予想の外れ度」を「gold と予測の間にサンプルが⼊る確率 (情報量)」で測る • 提案法は良い性質を満たす − 順序尺度としての要件を満たす − 分類問題としての要件を満たす − クラスの⼤きさの⽐に鋭敏この間違え⽅はマズそう（下位1/4の論⽂を上位1/4と予想) この間違え⽅は許容できる（「だいたい真ん中くらいの論⽂」)

前置き 3 • とくに注釈がない限り図表は論⽂からの引⽤です • notation 激しく変更しています • ⽬次 −
論⽂の簡単なまとめ − 順序分類問題の位置付け – ※ このセクションは読み⼿による補遺 − 論⽂のちょっと丁寧なまとめ – ※「順序分類問題の位置付け」を使ったまとめは読み⼿による補遺

論⽂の簡単なまとめ 4

やりたいこと︓順序分類器の評価 5 扱う問題︓順序分類 (Ordinal Classification/Regression) • 予測ラベルに順序構造が⼊った分類問題 − データセット︓ =
!, ! ! ⊆ × − = {Reject, WeaklyReject, Marginal, WeaklyAccept, Accept} − = {Negative, Neutral, Positive} − NLP で頻出やりたいこと︓順序分類器の評価 • テストセットの予測ラベル︓* = (A, A, R, WA) • テストセットの真のラベル︓ = (WA, A, WR, WR) • 分類器 * はどの程度 “良い” か︓ * , = ? ↦ Accept evaluation metric どちらの term も使われる様⼦

• 分類問題として評価︓精度, F1, … * = (WA, , WR, M)
= (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) よく使われている評価尺度はどれも⼒不⾜ 6 = * ′ = (WA, , WR, M) = (WA, , WR, M) ?

• 分類問題として評価︓精度, F1, … * = (WA, , WR, M)
= (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) • ランキング問題として評価︓順位相関, … * = , , , = , , , 当たったかどうかを考えない (右はすべて「当たっていない」けれど満点) よく使われている評価尺度はどれも⼒不⾜ 7 = = > > > > > > > > > > > > * ′ = (WA, , WR, M) = (WA, , WR, M) * ′ = (, , , ) = , , , ? ?

= • 分類問題として評価︓精度, F1, … * = (WA, , WR,
M) = (WA, , WR, M) 順序構造が無視される (の⽅がよりもに近い筈なのに…) • ランキング問題として評価︓順位相関, … * = , , , = , , , 当たったかどうかを考えない (右はすべて「当たっていない」けれど満点) • 回帰問題として評価︓ラベルを {1, … , 5} に読み替えて MSE, … * = WA, , WR, M = (WA, , WR, M) カテゴリ間が等距離と仮定 (MとWAとAが等間隔という仮定は妥当?) よく使われている評価尺度はどれも⼒不⾜ 8 = = > > > > > > > > > > > > * ′ = (WA, , WR, M) = (WA, , WR, M) * ′ = (, , , ) = , , , * ′ = WA, , WR, M = (WA, , WR, M) ? ? ?

提案法（アイデア） 9 この間違え⽅はマズい（下位1/4の論⽂を上位1/4と予想) この間違え⽅は許容できる（「だいたい真ん中くらいの論⽂」)

提案法（アイデア） 10 データ毎の評価 • 予測の悪さ︓訓練事例 (のラベル) が ! との間に⼊る確率
• 予測の良さ︓〃情報量 − log • 正解すると嬉しい • 順序関係を考慮 • ラベル間距離の仮定なしデータセット全体での評価 • − log をデータ全体で⾜し合わせて正規化この間違え⽅はマズい（下位1/4の論⽂を上位1/4と予想) この間違え⽅は許容できる（「だいたい真ん中くらいの論⽂」)

「提案法はいいぞ」と検証 11 • 提案法のみが以下を満たすことを式の上で確認 • 提案法のみが以下を満たすことを実験的に確認 1. 「当たったかどうか」を考慮できる 2. 順序構造を考慮
(しかもラベル間の距離は事前に仮定しない) 3. Class imbalance に敏感

準備︓順序分類の位置付け 12 ※ 読み⼿による補遺ツッコミ事項があれば読み⼿の問題です

順序分類はどういう問題か …を考えておくと論⽂が読みやすい 13 • の尺度の類型 − 名義尺度 − 順序尺度 −
間隔尺度 − ⽐例尺度 • 学習の問題としての類型 − 真のラベルを当てたい (尺度の⼀致を求める問題) − 構造さえ⼀貫していれば良い (尺度の変換を許容する問題)

(の) 尺度の類型 [Stevensʼ46] 14 • 名義尺度 − カテゴリの違いだけに興味 − e.g.
バラの種類 • 順序尺度 − カテゴリ集合に順序構造が⼊っている − e.g. 柔道の段位 • 間隔尺度 − 距離構造も⼊る，間隔 (引き算) に意味がある − e.g. ⽇付 • ⽐例尺度 − 原点が⼊る，⽐ (割り算) に意味がある − e.g. 重量

教師あり学習の問題としての類型 15 真の (gold を記録したときの尺度) に興味があるかないか • 真のを当てたい (尺度の⼀致を求める問題)
− 例︓回帰，数値を予測したい • 構造さえ⼀貫していれば良い場合 (尺度の変換を許容する問題) − 例︓ランキング，* との⼤⼩関係さえ⼀致していれば良い

「構造さえ⼀貫していれば良い場合」とは? 16 観測 ↔ 尺度 (カテゴリ名, 数値) の任意性 [Stevensʼ46, etc.]
• {⽝, 猫} と分類しても {dog, cat} と分類しても良い • ⼩<中<⼤と分類しても small<medium<large と分類しても良い − {1,2,3} とラベルがついていても {1,10,200} とラベルが付いていても構わない − ふたつの対象の⼤⼩関係さえ保存されていれば良い • 摂⽒で記録しても華⽒で記録しても良い − 差の⼤⼩を⽐較できれば良い • キログラムで記録してもグラムで記録しても良い − ⽐の⼤⼩を⽐較できれば良い呼び⽅測り⽅

名義尺度順序尺度間隔尺度⽐例尺度カテゴリの違いにだけ興味がある⼤⼩関係にも興味がある差にも興味が
ある⽐にも興味がある 0に意味がある例 {⽝, 猫} {dog, cat} {1, 2, 3} {1, 10, 200} 摂⽒華⽒キログラムグラム尺度間に許される変換全単射単調増加 ax + b (a>0) ax (a>0) 「構造さえ⼀貫していれば良い場合」とは? 17 対称群の作⽤に対して不変な性質だけ考えたい (名前の付け⽅はどうでも良い) という気持ち [Stevensʼ46] では他の尺度も群 ( および対応する関数の族) で特徴付けている同じ観測に対して別の測り⽅をした (別の尺度を⽤いた) としても，それらの尺度は同⼀視したい尺度同⼠がどういう関数で結びつけられる場合に同⼀視できるか ⊃ ⊃ ⊃

名義尺度順序尺度間隔尺度⽐例尺度真のを当てたい分類順序分類回帰
回帰精度, F1, … 論⽂のフォーカス平均⼆乗誤差, … ? 構造さえ合っていれば OK クラスタリングランキングランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 順序分類は「が順序尺度」かつ「真のを当てたい」問題 18 分類器もgoldと同じ尺度で測ってほしい異なる尺度で測っていても良い尺度の変換を許す (, , ) = ((, ), ) ⼤⼩関係さえ⼀致していれば良い⽐例していれば良い「分けかた」さえ⼀致していれば良い ⊃ ⊃ ⊃ ⊃ Acc, τ, MSE が不適切なのはそれはそう

論⽂のもう少し丁寧なまとめ 19

提案法 20 データ毎の評価 • 予測の悪さ︓ 訓練事例が ! との間に⼊る確率 ≼
12345 ≼ ! ( ≼ ! のとき) • 予測の良さ︓〃の情報量，Closeness Information Quantity CIQ ! , ≔ − log ≼ 12345 ≼ ! ( ≼ ! のとき) • 予測の良さ CIQ の推定量 prox 0 CIQ 6 , 7 ≔ −log 6 2 + ∑ 896:; 7 8 (6 ≼ 7 のとき) データセット全体での評価 • Clossness Evaluation Measure (CEM) CEM 8 , ≔ ∑ 0 CIQ ! , ∑ 0 CIQ , クラスが " の訓練データ数 A , ∈ 0,1 となるよう正規化

検証1︓順序分類の評価尺度が満たすべき要件 21 1. Ordinal Invariance • 順序尺度として尺度の変換に不変 * , =
* , 2. Ordinal Monotonicity • 他のデータの予測は固定してひとつのデータの予測が gold に近づくと評価↑ 3. (Class) Imbalance • 「⼤きなクラスに属するに対して予測を誤る」⽅が「⼩さなクラスに属するに対して予測を誤る」より罪が重い − 相対順位が⼤きく変わる間違いは罪が重い − 要件というより「提案法が満たす性質」を論⽂のために持ち込んだ感は単調増加 ※ elementwise に適⽤

回帰精度, F1, … ︖ 平均⼆乗誤差, … ? 構造さえ合っていればOK クラスタリングランキングランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 検証1︓順序分類の評価尺度が満たすべき要件先ほどの位置付けで理解 22 ⊃ ⊃ ⊃ ⊃ Ordinal Invariance 尺度を単調増加関数で変換しても同じ評価値になってほしい Ordinal Monotonicity 真のyに “近づく” と嬉しい (Class) Imbalance クラスの⼤きさの違いに鋭敏

計算法として各要件を満たす? 23 名義尺度真のy 名義尺度構造のみ {間隔,⽐例}尺度真のy {順序,間隔,⽐例}尺度
真のy 提案法︓✓ 本当︖

検証2︓評価尺度が満たすべき要件 (実験編) 24 • 評価尺度 (8 , ) は以下の特徴を評価してほしい 1.
.精度: 各 (" , ) が⼀致 2. .Kendallʼs τ: & との順序が⼀貫 3. .相互情報量: & とのクラスの⼤きさの⽐の違いに鋭敏 • 良いとは (Coverage)︓ で⾒てシステムの性能が向上 ⇔ Acc/τ/MI全てで性能が向上 • skip システムペア (8 ; , 8 D ) に対して計算できる次のふたつの量が⾼い相関を持つば良い − 評価尺度で測ったときに & ! の⽅が良いシステム & ! , − (& " , ) − 「精度・順位相関・相互情報量で測ったときにそのすべてで & ! の⽅が良いシステム」と評価されるインスタンスの割合 (UIR, Amigóʼ11) – Ill-deﬁned に⾒える．インスタンス毎にを計算できる前提の話だが，Acc 以外は他のインスタンスの予測結果に依存するので．

回帰精度, F1, … ︖ 平均⼆乗誤差, … ? 構造さえ合っていればOK クラスタリングランキングランキング (?) ランキング (?) 相互情報量, … Kendallʼs τ, … Spearmanʼs ρ, … Pearsonʼs r, … 検証2︓評価尺度が満たすべき要件 (実験編) 先ほどの位置付けで理解 25 ⊃ ⊃ ⊃ ⊃ Kendallʼs τ 順序が⼀貫していると嬉しい Accuracy A = だと嬉しい Mutual Information クラスの⼤きさの違いに鋭敏

検証2︓評価尺度が満たすべき要件 (実験編) 26 • ⼈⼯の * # # でも実際の *
# # でも Cov は提案法が良い − → 提案法は Acc/τ/MI すべての性質を抑えた評価尺度 − τ, MI あたりは⼗分良いように⾒える

まとめ 27 • 順序分類 (Ordinal Classiﬁcaiton) の評価尺度再考 − (1) が順序尺度
(2) 真のラベルを当てたい設定 – e.g., {Negative, Neutral, Positive}; {R, WR, M, WA, A} − よく使われている評価尺度 (Acc, 順位相関, etc.) はマズそう • 提案法 (分類器をどう評価するか) − CIQ(" , ) := 「訓練事例が" との間に⼊る」という事象の情報量 − CEM(& , ) := CIQ(" , ) の和 (を正規化) • 提案法は次を満たす − Ordinal Invariance: 順序尺度としての性質を反映 − Ordinal Monotonicity: 「真のラベルを当てたい」を反映 − (Class) Imbalance: クラスの⼤きさの⽐に鋭敏 • 提案法は Acc (当てたい), τ (順序尺度), MI (クラス⽐) の組合せと相関 − CEM が向上する ⇔ Acc も τ も MI も向上する

感想 28 • Take-home message − (1) 尺度の種類 (2) gold
y を当てたいかどうかを考慮して評価尺度を選択しよう • PROs − 最近流⾏りの「君たちがやっていることアヤシいよ」系論⽂．普段は評価尺度界隈で活躍されている著者勢． − 提案法の推定が⼗分軽そう．Instance-wise に計算できるので損失化も容易． − 尺度の話の勉強の良い機会になりました [Stevensʼ46, 鷲尾&元⽥ʼ98, 神嶌ʼ09]． • CONs − Class imbalance の導⼊が ad-hoc. − 要件同⼠が violate する事例が構成できるのでこれで final answer 感はない． − 複数尺度のアンサンブル UIR(Acc, τ, MI) に対する提案法のアドバンテージが語られていない．

An Effectiveness Metric for Ordinal Classificat...

An Effectiveness Metric for Ordinal Classification: Formal Properties and Experimental Results

Sho Yokoi PRO

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript

Amigó et al., ACL 2020 An Eﬀectiveness Metric for Ordinal

どんな論⽂? 2 • 順序分類 (Ordinal Classificaiton) の評価尺度再考 − が順序尺度の分類問題 –

前置き 3 • とくに注釈がない限り図表は論⽂からの引⽤です • notation 激しく変更しています • ⽬次 −

論⽂の簡単なまとめ 4

やりたいこと︓順序分類器の評価 5 扱う問題︓順序分類 (Ordinal Classification/Regression) • 予測ラベルに順序構造が⼊った分類問題 − データセット︓ =

• 分類問題として評価︓精度, F1, … * = (WA, , WR, M)

• 分類問題として評価︓精度, F1, … * = (WA, , WR, M)

= • 分類問題として評価︓精度, F1, … * = (WA, , WR,

提案法（アイデア） 9 この間違え⽅はマズい（下位1/4の論⽂を上位1/4と予想) この間違え⽅は許容できる（「だいたい真ん中くらいの論⽂」)

提案法（アイデア） 10 データ毎の評価 • 予測の悪さ︓訓練事例 (のラベル) が ! との間に⼊る確率

「提案法はいいぞ」と検証 11 • 提案法のみが以下を満たすことを式の上で確認 • 提案法のみが以下を満たすことを実験的に確認 1. 「当たったかどうか」を考慮できる 2. 順序構造を考慮

準備︓順序分類の位置付け 12 ※ 読み⼿による補遺ツッコミ事項があれば読み⼿の問題です

順序分類はどういう問題か …を考えておくと論⽂が読みやすい 13 • の尺度の類型 − 名義尺度 − 順序尺度 −

(の) 尺度の類型 [Stevensʼ46] 14 • 名義尺度 − カテゴリの違いだけに興味 − e.g.

教師あり学習の問題としての類型 15 真の (gold を記録したときの尺度) に興味があるかないか • 真のを当てたい (尺度の⼀致を求める問題)

「構造さえ⼀貫していれば良い場合」とは? 16 観測 ↔ 尺度 (カテゴリ名, 数値) の任意性 [Stevensʼ46, etc.]

名義尺度順序尺度間隔尺度⽐例尺度カテゴリの違いにだけ興味がある⼤⼩関係にも興味がある差にも興味が

名義尺度順序尺度間隔尺度⽐例尺度真のを当てたい分類順序分類回帰

論⽂のもう少し丁寧なまとめ 19

提案法 20 データ毎の評価 • 予測の悪さ︓ 訓練事例が ! との間に⼊る確率 ≼

検証1︓順序分類の評価尺度が満たすべき要件 21 1. Ordinal Invariance • 順序尺度として尺度の変換に不変 * , =

名義尺度順序尺度間隔尺度⽐例尺度真のを当てたい分類順序分類回帰

計算法として各要件を満たす? 23 名義尺度真のy 名義尺度構造のみ {間隔,⽐例}尺度真のy {順序,間隔,⽐例}尺度

検証2︓評価尺度が満たすべき要件 (実験編) 24 • 評価尺度 (8 , ) は以下の特徴を評価してほしい 1.

名義尺度順序尺度間隔尺度⽐例尺度真のを当てたい分類順序分類回帰

検証2︓評価尺度が満たすべき要件 (実験編) 26 • ⼈⼯の * # # でも実際の *

まとめ 27 • 順序分類 (Ordinal Classiﬁcaiton) の評価尺度再考 − (1) が順序尺度

感想 28 • Take-home message − (1) 尺度の種類 (2) gold