明日使えるかもしれないLoss Functionsのアイディアと実装

AI 2024.06.06 高橋文彦 GO株式会社明日使えるかもしれない Loss Functionsのアイディアと実装

AI 自己紹介高橋文彦 GO株式会社 AI技術開発部データサイエンスグループチームリーダー経歴 ✔
大手ポータルサービス運営会社 ◦ ECサイトにおける検索クエリの意図推定 ◦ SNSにおけるドメインごとの話題の抽出 ◦ 形態素解析器の開発、研究 ✔ GO株式会社 ◦ タクシーアプリにおける到着時間予測機能の開発 ◦ データビジネス事業立ち上げ ◦ ドライバーの行動認識 (『DRIVE CHART』) プライベート ✔ ボードゲーム、一蘭、2児の育児 2 コンペ歴 ✔ SIGIR 2018 workshop eCom Rakuten Data Challenge 2位 ✔ SIGSPATIAL 2021 GISCUP 6位 ✔ HuMob Challenge 2023 11位

AI 3 01 はじめに

AI 4 • 損失関数は機械学習モデルの最適化の目的関数　　　→出力をコントロールできる • 多くのサービスではモデルをKPIで直接最適化をできない。 • 何らかの仮定を置いて評価指標を設定している。 •
KPIと評価指標にはギャップがある。 • 損失関数もサービス要件にあった工夫の余地がある。 Loss Functions（損失関数）の開発損失関数の幅広い種類のアイディアとその実装を眺めてオリジナルの損失関数のヒントを得る y Model x KPI ? 「明日使える」ために

AI 5 • 回帰問題や分類問題の損失関数を中心に扱う ◦ object detectionやsemantic segmentationの部分タスクなので、それらで使われる損失関数についても触れる •
実装はPyTorch • 網羅的な紹介ではなく特徴的なLossを紹介 ◦ 外れ値にロバスト: Self-Adjusting Smooth L1 Loss ◦ 推定が難しい事例にフォーカス: Focal Loss ◦ 正例と負例の時で非対称な損失: Asymmetric Loss ◦ 不確実性の定量化: Aleatoric Uncertainty Loss お断り

AI 6 02 外れ値にロバストな損失関数

AI 7 回帰問題において、誤差が小さい場合はL2 loss, 大きい場合はL1 lossに近い挙動をすることで、外れ値で勾配爆発することを防ぐ Fast R-CNN ICCV 2015,
Ross Girshick(Microsoft Research). paper: https://arxiv.org/abs/1504.08083 Smooth L1 Loss

AI 8 Smooth L1 Loss ※ オリジナルの論文では βは提案されていない (β=1)が、βを使ってより一般化した式を掲載誤差がβより小さい場合はL2
loss, 大きい場合はL1 lossに近い挙動

AI 9 Smooth L1 Lossの実装 - chengyangfu/retinamask https://github.com/chengyangfu/retinamask/blob/ce1eac2bb9882797dcba2a9bc72f994bec04fbdf/maskrcnn_benchmark/layers/smooth_l1_loss.py `if |x|
< β` の実装 chengyangfu/retinamask の実装。条件分岐はtorch.whereで分ける。

AI 10 Smooth L1 Lossのハイパーパラメータβを自動調整 RetinaMask: Learning to predict masks
improves state-of-the-art single-shot detection for free 2019, Fu(UNC) et al. paper: https://arxiv.org/abs/1901.03353v1 Self-Adjusting Smooth L1 Loss

AI 11 Self-Adjusting Smooth L1 Lossの解釈 βを予測誤差の平均と分散の差に近づけていく : momentum. 更新の変化量を調整する.
論文中だと0.9. なぜ(平均-分散)の値なのか？平均だけだと外れ値の影響を受けるため、分散を加味することでデータの広がりを加味して調整ができる。外れ値に対してはL1損失を適用し、平均に近い値に対してはL2損失を適用。

AI 12 Self-Adjusting Smooth L1 Lossの実装 - 著者実装① https://github.com/chengyangfu/retinamask/blob/ce1eac2bb9882797dcba2a9bc72f994bec04fbdf/maskrcnn_benchmark/layers/adjust_smooth_l1_loss.py 平均、分散の値をメンバ変数として持っておく
register_buﬀerすることで最適化の対象として扱われない → 誤差逆伝播の計算グラフに含まれない

AI 13 Self-Adjusting Smooth L1 Lossの実装 - 著者実装② https://github.com/chengyangfu/retinamask/blob/ce1eac2bb9882797dcba2a9bc72f994bec04fbdf/maskrcnn_benchmark/layers/adjust_smooth_l1_loss.py 平均、分散の値をメンバ変数として持っておく
平均・分散の更新 clampでmax(0, min(β^, )) を実装

AI 14 03 推定が難しい事例にフォーカスする損失関数

AI 15 分類問題において、クラスの不均衡や難しいサンプルに対処するために、簡単に分類できる場合に損失を割り引く Focal Loss for Dense Object Detection
ICCV 2017, Lin(Facebook AI Research) et al. paper: https://arxiv.org/abs/1708.02002 Focal Loss

AI 16 Focal Lossの解釈：予測確率：割引度合いを調整するハイパーパラメータ：クラスの重みづけのハイパーパラメータ cross entropy 簡単に分類できる場合に損失を割り引く

AI 17 Focal Lossの実装① - Torchvision https://github.com/pytorch/vision/blob/947ae1dc71867f28021d5bc0ﬀ3a19c249236e2a/torchvision/ops/focal_loss.py targetsの要素が0 or 1のため、
どちらかの項が0になる `if y = 1` の代わりに、 targetsの要素が0 or 1のため、どちらかの項が0になる二値分類を対象に計算。多クラス分類は利用者が各クラスごとに呼び出し。

AI 18 Focal Lossの実装② - focal_loss_torch パッケージ https://github.com/mathiaszinnen/focal_loss_torch/blob/0e9d9050b0c0e36fb8033c523ac8b2f0b44c00dd/focal_loss/focal_loss.py ignore_indexを導入して maskを導入
負の対数尤度(negative log-likelihood)を計算微小な値epsを足して入力がゼロになることを避ける ignore_indexを導入して無視するmaskを追加 [Batch, Classes]のshapeを [Batch x Classes] [Batch, Classes]のshapeを [Batch x Classes] y=1だけを残す多クラス分類に対応。特定のクラスの損失計算を無視する機能を追加。

AI 19 04 正例と負例の時で非対称な損失関数

AI 20 Focal Lossの拡張。分類問題において、異なるクラスに対する誤分類の損失を非対称にすることで不均衡を補正する損失関数。 Asymmetric Loss For Multi-Label Classiﬁcation
ICCV 2021, Ridnik, Ben-Baruch(Alibaba Group)et al. paper: https://arxiv.org/abs/2009.14119 Asymmetric Loss

AI 21 正例と負例の時でfocal lossのγ(gamma)パラメータに異なる値を設定さらに、shifted probability を導入し、大きく外した時にのみ損失をかける Asymmetric Lossの解釈論文中では
p ≒ 1.0の時ラベルミスの可能性が高い

AI 22 Asymmetric Lossの実装① - 著者実装 shifted probability clampを使って1以下に収める正解,
不正解の予測確率をyの値で使い分ける yの要素が0 or 1のため、どちらかの項が0になる yの要素が0 or 1のため、どちらかの項が0になる https://github.com/Alibaba-MIIL/ASL/blob/37658182b1a3f7a83a79 8f53ad4fe4e31fc03632/src/loss_functions/losses.py

AI 23 Asymmetric Lossの実装② - 著者実装計算効率最適化ver https://github.com/Alibaba-MIIL/ASL/blob/37658182b1a3f7a83a79 8f53ad4fe4e31fc03632/src/loss_functions/losses.py メンバ変数を最初に確保することで
各イテレーションごとにメモリ割り当てとGPUへのアップロードを防ぐメモリ割り当てとGPUへのアップロードを最小限に抑えるメンバ変数を最初に確保することで各イテレーションごとにメモリ割り当てとGPUへのアップロードを防ぐ計算時間の比較実験 1,000回 10,000回 AsymmetricLoss 2.35 [s] 8.35 [s] AsymmetricLoss Optimized 0.85 [s] 8.58 [s]

AI 24 05 不確実性の定量化ができる損失関数

AI 25 分類問題・回帰問題において、内在的不確実性を定量化して学習できる損失 What Uncertainties Do We Need in
Bayesian Deep Learning for Computer Vision? NIPS 2017, Kendall(University of Cambridge) et al. paper: https://arxiv.org/abs/1703.04977 Aleatoric Uncertainty Loss

AI 26 • Aleatoric Uncertainty（内在的不確実性） ◦ データそのものに起因する不確実性で、ノイズや観測誤差などが原因 ◦ データが持つ固有のものであり、どれだけデータを増やしても完全に除去することはできない
• Epistemic Uncertainty（モデル不確実性） ◦ モデルのパラメータや構造に起因する不確実性で、データが不足している場合やモデルが複雑な場合に発生不確実性の種類誤分類部分で大遠くや輪郭で大モンテカルロドロップアウトで計算可能

AI 27 Aleatoric Uncertainty Loss の解釈モデルをマルチヘッドにして、平均値の他に分散値(対数分散)を予測観測データ誤差が正規分布に従うと仮定して、正規分布の尤度関数から負の対数尤度を導出。数値安定化のためにモデル出力は対数分散を出力。
分類問題の場合は var mean encoder mean decoder var decoder ：出力ピクセル数：モンテカルロサンプリング回数

AI 28 Aleatoric Uncertainty Loss の実装① - hmi88/what https://github.com/hmi88/what/blob/e3fe42ac8568bdaf28cf7fde112 a8f95368097b9/WHAT_src/loss/mse_var.py
var_weightを導入して meanとvarのバランスを調整 Dがなくシンプルな回帰問題を前提にした実装平均と分散のバランスを取るweightを導入

AI 29 Aleatoric Uncertainty Loss の実装の参考 - VAEのReparameterization trick torch.randn_like()
を使ってサンプリング VAEでもReparameterization trickを使って確率分布のパラメータを学習 https://github.com/AntixK/PyTorch-VAE/blob/af3f9a5376a737828c 2b543bdc5b81ed61451d24/models/vanilla_vae.py

AI 30 06 まとめ

AI 31 まとめと感想特徴感想ハイパーパラメータの数 Self-Adjusting Smooth
L1 Loss 回帰問題。外れ値にロバスト。ハイパーパラメータを自動調整。ハイパラチューニングが不要な点が利点。 1 Focal Loss 分類問題。推定が難しい事例にフォーカス。よく使われており、実装もシンプルなので使いやすい。苦手な事例にフォーカスするアイディアは回帰問題でも応用できそう。 1-2 Asymmetric Loss 分類問題。正例と負例の時で非対称な損失。非対称な点についてよりも、誤ラベルを無視できるという点が面白い。 3-4 Aleatoric Uncertainty Loss 回帰問題と分類問題。不確実性の定量化。不確実性を考慮して自信が高い部分だけを出すなど後処理で出力をコントロールできる点が魅力。 0 損失関数のチューニングを評価するには、評価のコストがかかる（オンライン評価、定性評価など）ことが多い。そのため、ハイパーパラメータの数は少ない方がいい

明日使えるかもしれないLoss Functionsのアイディアと実装

明日使えるかもしれないLoss Functionsのアイディアと実装

fumihiko takahashi

More Decks by fumihiko takahashi

Other Decks in Technology

Featured

Transcript

AI 2024.06.06 高橋文彦 GO株式会社明日使えるかもしれない Loss Functionsのアイディアと実装

AI 自己紹介高橋文彦 GO株式会社 AI技術開発部データサイエンスグループチームリーダー経歴 ✔

AI 3 01 はじめに

AI 4 • 損失関数は機械学習モデルの最適化の目的関数　　　→出力をコントロールできる • 多くのサービスではモデルをKPIで直接最適化をできない。 • 何らかの仮定を置いて評価指標を設定している。 •

AI 5 • 回帰問題や分類問題の損失関数を中心に扱う ◦ object detectionやsemantic segmentationの部分タスクなので、それらで使われる損失関数についても触れる •

AI 6 02 外れ値にロバストな損失関数

AI 7 回帰問題において、誤差が小さい場合はL2 loss, 大きい場合はL1 lossに近い挙動をすることで、外れ値で勾配爆発することを防ぐ Fast R-CNN ICCV 2015,

AI 8 Smooth L1 Loss ※ オリジナルの論文では βは提案されていない (β=1)が、βを使ってより一般化した式を掲載誤差がβより小さい場合はL2

AI 9 Smooth L1 Lossの実装 - chengyangfu/retinamask https://github.com/chengyangfu/retinamask/blob/ce1eac2bb9882797dcba2a9bc72f994bec04fbdf/maskrcnn_benchmark/layers/smooth_l1_loss.py `if |x|

AI 10 Smooth L1 Lossのハイパーパラメータβを自動調整 RetinaMask: Learning to predict masks

AI 11 Self-Adjusting Smooth L1 Lossの解釈 βを予測誤差の平均と分散の差に近づけていく : momentum. 更新の変化量を調整する.

AI 12 Self-Adjusting Smooth L1 Lossの実装 - 著者実装① https://github.com/chengyangfu/retinamask/blob/ce1eac2bb9882797dcba2a9bc72f994bec04fbdf/maskrcnn_benchmark/layers/adjust_smooth_l1_loss.py 平均、分散の値をメンバ変数として持っておく

AI 13 Self-Adjusting Smooth L1 Lossの実装 - 著者実装② https://github.com/chengyangfu/retinamask/blob/ce1eac2bb9882797dcba2a9bc72f994bec04fbdf/maskrcnn_benchmark/layers/adjust_smooth_l1_loss.py 平均、分散の値をメンバ変数として持っておく

AI 14 03 推定が難しい事例にフォーカスする損失関数

AI 15 分類問題において、クラスの不均衡や難しいサンプルに対処するために、簡単に分類できる場合に損失を割り引く Focal Loss for Dense Object Detection

AI 16 Focal Lossの解釈：予測確率：割引度合いを調整するハイパーパラメータ：クラスの重みづけのハイパーパラメータ cross entropy 簡単に分類できる場合に損失を割り引く

AI 17 Focal Lossの実装① - Torchvision https://github.com/pytorch/vision/blob/947ae1dc71867f28021d5bc0ﬀ3a19c249236e2a/torchvision/ops/focal_loss.py targetsの要素が0 or 1のため、

AI 18 Focal Lossの実装② - focal_loss_torch パッケージ https://github.com/mathiaszinnen/focal_loss_torch/blob/0e9d9050b0c0e36fb8033c523ac8b2f0b44c00dd/focal_loss/focal_loss.py ignore_indexを導入して maskを導入

AI 19 04 正例と負例の時で非対称な損失関数

AI 20 Focal Lossの拡張。分類問題において、異なるクラスに対する誤分類の損失を非対称にすることで不均衡を補正する損失関数。 Asymmetric Loss For Multi-Label Classiﬁcation

AI 21 正例と負例の時でfocal lossのγ(gamma)パラメータに異なる値を設定さらに、shifted probability を導入し、大きく外した時にのみ損失をかける Asymmetric Lossの解釈論文中では

AI 22 Asymmetric Lossの実装① - 著者実装 shifted probability clampを使って1以下に収める正解,

AI 23 Asymmetric Lossの実装② - 著者実装計算効率最適化ver https://github.com/Alibaba-MIIL/ASL/blob/37658182b1a3f7a83a79 8f53ad4fe4e31fc03632/src/loss_functions/losses.py メンバ変数を最初に確保することで

AI 24 05 不確実性の定量化ができる損失関数

AI 25 分類問題・回帰問題において、内在的不確実性を定量化して学習できる損失 What Uncertainties Do We Need in

AI 26 • Aleatoric Uncertainty（内在的不確実性） ◦ データそのものに起因する不確実性で、ノイズや観測誤差などが原因 ◦ データが持つ固有のものであり、どれだけデータを増やしても完全に除去することはできない

AI 28 Aleatoric Uncertainty Loss の実装① - hmi88/what https://github.com/hmi88/what/blob/e3fe42ac8568bdaf28cf7fde112 a8f95368097b9/WHAT_src/loss/mse_var.py

AI 29 Aleatoric Uncertainty Loss の実装の参考 - VAEのReparameterization trick torch.randn_like()

AI 30 06 まとめ

AI 31 まとめと感想特徴感想ハイパーパラメータの数 Self-Adjusting Smooth