Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Improving Prediction Performance and Model Inte...

Improving Prediction Performance and Model Interpretability through Attention Mechanisms from Basic and Applied Research Perspectives (Presentation for Doctoral Dissertation)

Slides for the presentation of my doctoral dissertation (in Japanese).
The contents of the presentation are already published as the following papers:
- Section 2: Kitada and Iyatomi IEEE Access'21. https://arxiv.org/abs/2009.12064
- Section 3: Kitada and Iyatomi. Appl. Intell.'22. https://arxiv.org/abs/2104.08763
- Section 4: Kitada et al. KDD'19. https://arxiv.org/abs/1905.07289
- Section 5: Kitada et al. Appl. Sci.'22. https://arxiv.org/abs/2204.11588

Shunsuke KITADA

March 24, 2023
Tweet

More Decks by Shunsuke KITADA

Other Decks in Science

Transcript

  1. Improving Prediction Performance and Model Interpretability through Attention Mechanisms from

    Basic and Applied Research Perspectives Ph.D. candidate: Shunsuke Kitada Supervisor: Prof. Hitoshi Iyatomi Graduate School of Science and Engineering, Hosei University Doctoral Dissertation Defence, Jan. 27th, 2023.
  2. # 本発表の概要 - 基礎・応用 研究の観点からの注意機構による 予測性能・モデルの解釈可能性の向上 第1章: 導入 Introduction 第2章:

    注意機構に対する敵対的学習 [Kitada+ IEEE Access’21] Adversarial Training for Attention Mechanisms 第3章: 注意機構に対する仮想敵対的学習 [Kitada+ Appl. Intell.’22] Virtual Adversarial Training for Attention Mechanisms 第4章: 注意機構を元にした枠組みによる 広告クリエイティブの効果予測 [Kitada+ KDD’19] Ad Creative Conversion Prediction with Attention Mechanisms 第5章: 注意機構を元にした枠組みによる 広告クリエイティブの停止予測 [Kitada+ Appl. Sci.’22] Ad Creative Discontinuation Prediction with Attention Mechanisms 第6章: 第7章: 議論 と 結論 Discussion and Conclusion
  3. 3 発表の流れ 第2章 [Kitada+ IEEE Access’21] 注意機構に対する敵対的学習 教師あり学習 第3章 [Kitada+

    Appl. Intell.’22] 注意機構に対する仮想敵対的学習 半教師あり学習 第4章 [Kitada+ KDD’19] 注意機構を元にした枠組みによる 広告クリエイティブの効果予測 第5章 [Kitada+ Appl. Sci.’22] 注意機構を元にした枠組みによる 広告クリエイティブの停止予測 第1章 導入 基礎・応用 研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上 第6・7章 議論と結論 本研究の適用範囲・解釈性・後続研究に与えた影響 および 結論 半教師あり学習 へ拡張 広告入稿前と後 各運用を支援 効果の高い広告の 運用支援 大量に得られる ラベルなしデータ の有効活用 効果の低い広告の 運用支援
  4. 人工知能の発展に大きく貢献している DL [LeCun+’15] • 従来の ML モデルと比較して DL モデルは予測性能が飛躍的に向上 ◦

    コンピュータビジョン (computer vision; CV) や 自然言語処理 (natural language processing; NLP) では人間を超える性能を達成 [CV; Russakovsky+ IJCV’15, NLP; Devlin+ NAACL’19, etc.] DLモデルのブラックボックス性 • DL モデルは構造が非常に複雑 (多数の非線形変換) であるため その予測の解釈や説明が困難 [Castelvecchi+ Nature’16] 💡 今後 ML/DL モデルの使用頻度が高くなることが予想される ➜ 予測結果の妥当性やその根拠を解釈できるようにすることが 利用者 にとってモデルの 信頼性 や 実用性 の観点から重要 第1章: 導入 - 人工知能 (artifitial intelligence; AI) 分野における 機械学習 (machine learning; ML) と深層学習 (deep learning; DL) の発展 5 第1章: 導入 入力: 画像, 言語, 音声, etc. 出力: 分類, 回帰, 生成, etc. DL モデル (不透明; not transparent)
  5. Black-box な ML/DL モデルの予測結果の解釈を目指す分野 • ルールベースの説明を中心に古くから研究 [Swartout+’85, Scott+ CL’97] •

    2017 年の DARPA プログラムで再注目 [DARPA’17, Gunning+ AI Magazine’19] 説明可能 AI における “解釈性” や “説明性” • これらに対して目的や要件を明確化する動き [Arrieta+ Inf. Fusion’20, Adadi+ IEEE Access’18, Guidotti+ CSUR’18] Arrieta+ [Inf. Fusion’20] (引用数3400+) における説明可能 AI の定義 “Given an audience, an explainable Artificial Intelligence is one that produces details or reasons to make its functioning clear or easy to understand.” [Arrieta+ Inf. Fusion’20] “説明可能 AIとは、聞き手がいる場合にその予測を明確に、 あるいは容易に理解できるような詳細や理由を作り出す AIのこと” • 説明可能 AI は特に解釈を必要とする “聞き手” の存在を重視 ◦ 提示すべき詳細や理由は聞き手に依存すると主張 説明可能 AI (explainable AI) の発展とその定義 6 第1章: 導入
  6. Arrieta+ [Inf. Fusion’20] の定義に同意 • 聞き手 (研究者・開発者・サービス運用者 etc.) を対象に下記の達成を目指す 本論文の解釈性:

    • 基礎研究の側面: DL モデルを扱うユーザを対象 ◦ 複数の予測に対する解釈手法が示す根拠が同一となるような解釈を与えること • 応用研究の側面: オンラインサービスの運用者を対象 ◦ 運用者の意思決定をサポートするような解釈を与えること 本論文の対象: 自然言語処理を行う深層学習モデル • NLP タスク を解く際の 入力文字列の各単語に対する予測の解釈 ◦ 入力に対してモデルが予測に寄与する箇所を “聞き手” に 解釈可能とすることで上記を達成可能であるとする ◦ DL モデルによる入力の寄与度を確認可能とすることで、実世界で モデルを運用する際のエラー分析や意思決定に関して役に立つ 本研究における大目標 - “理解を優しくする理由や詳細を提示するAI” 7 第1章: 導入
  7. DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 9 第1章: 導入 • 予測に影響を与える要因の可視化

    [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] • 予測に対して具体例をあげた説明 [Zhang+ INR’20]
  8. DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 10 第1章: 導入 • 予測に影響を与える要因の可視化

    [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] • 予測に対して具体例をあげた説明 [Zhang+ INR’20] [Selvaraju+ ICCV’17] GradCAM For CNN [Abnar+ ACL’20] Rollout For Transformer Vanilla Grad Figure from [Smilkov CoRR’17] 可視化結果は 非常にノイジー
  9. DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 11 第1章: 導入 • 予測に影響を与える要因の可視化

    [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] • 予測に対して具体例をあげた説明 [Zhang+ INR’20] 🤖この商品は XX を元に推薦 されています
  10. DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 12 第1章: 導入 • 予測に影響を与える要因の可視化

    [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] • 予測に対して具体例をあげた説明 [Zhang+ INR’20] 🤖この商品は XX を元に推薦 されています 👍 一般的なDLモデルに適用可能であり、透明なモデルを 設計・学習するよりも簡単で幅広く利用されている
  11. 1. 予測結果に対する勾配に基づく重要度による説明 • 推論結果から入力空間に勾配を写像(backward方向) ◦ 出力 y に関する入力 x の偏微分を計算

    ◦ gc は特定の出力クラス c に対する 各入力 (語) の重要度を捉える 👎 入力に敏感で度々視覚的にノイジーな場合が多い 2. 注意機構の重みによる説明 • 入力に対して特定の箇所に焦点が当たるよう学習 (forward 方向) ◦ キー K と クエリ Q に対して 注意スコア関数 S から注意を計算 ◦ 対象のタスクを予測する際に寄与する部分の重みが大きくなる DLの予測の解釈に頻繁に用いられる post-hoc 説明 13 第1章: 導入 入力: movie was pretty good 出力: positive movie was pretty good movie was pretty good forward backward
  12. DLモデルの解釈に用いられる予測結果の勾配と 注意の重みによる post-hoc 説明の弱点 Jain & Wallace [NAACL’19] では 次のような現象が報告されている:

    • 勾配によって重要と推定される箇所 と注意の重みによって得られる箇所 との間には必ずしも強い相関が無い • 注意機構への小さな摂動は意図 しない予測変化をもたらす ◦ 注意機構を欺くような敵対的 摂動は更に大きな予測誤差になる 注意機構に大きく依存する近年の DL モデルにおいて上記の弱点は深刻 • 勾配や注意によるDLモデルの予測解釈手法は発展しているが 頑健で信頼性の高い解釈を得るかは重要は 基礎研究 の方向性 14 第1章: 導入 損失勾配による予測の解釈 注意の重みによる予測の解釈
  13. 実世界で運用される DL モデルにおける解釈の提供 実応用を見据えた実世界データによる DL モデルの研究は少ない • これまでの注意機構を有する DL モデルは公開ベンチマークが

    豊富にあるドメインで開発が進行 ◦ 機械翻訳 [Vaswani+ NeurIPS’17]、機械読解 [Devlin+ NAACL’19]、 画像認識 [Dosovitskiy+ ICLR’20] 等 ➜ これらの開発や評価は、整備されて公開されたデータを 元にしたいわゆる 実験室環境 に限定されている • 公開データが不足 (i.e., 複雑な権利関係等の影響) 実応用を見据えた DL モデルの解釈性評価は更に少ない • 運用上の意思決定を支援するような詳細を提供することが重要 ◦ 初歩的な説明機構 (e.g., シンプルな注意機構) でも十分 • 大規模な実データに対して解釈可能なモデルを実用化するための 研究は現状で限られているため、重要な 応用研究 の方向性 15 第1章: 導入
  14. 本発表の貢献: 注意機構による予測性能・モデルの解釈性の向上 基礎研究 の側面 • 予測性能の向上 ◦ 昨今の DL モデルに広く利用されている

    注意機構の問題克服 ▪ 注意機構におけるノイズ・摂動に対する脆弱性の解消 • 解釈性の向上 ◦ 複数の根拠提示手法が同一の根拠を示すことによる 信頼性向上 ◦ 明確な注意を学習・提示することによるで 容易な解釈を提示 応用研究 の側面 • 予測性能の向上 ◦ 計算機広告分野の運用上の 実問題を取り上げて定式化 ▪ 注意機構を取り入れ実世界の課題を高い精度で予測可能に • 解釈性の向上 ◦ ビジネス上重要となる効果の高い広告の特徴や、 効果の低い広告を停止する際に 運用者に予測根拠 を提示 16 第1章: 導入
  15. 第2章: 注意機構のための敵対的学習 Shunsuke Kitada and Hitoshi Iyatomi. “Attention Meets Perturbations:

    Robust and Interpretable Attention with Adversarial Training,” IEEE Access 9 (2021): 92974-92985. 17
  16. 第2章 基礎研究 注意機構に対する敵対的学習 概要 予測性能の向上 • Adversarial training (AT) [Goodfellow+

    ICLR’14] を用いて注意機構 を騙すような摂動を入力し摂動に対する注意の脆弱性を克服 ◦ AT for attention mechanism (Attention AT) ▪ 注意機構に対して敵対的摂動に頑健になるように学習 ◦ Interpretable AT for attention mechanism (Attention iAT) ▪ 摂動ありの入力文に対して注意の差がより大きくなるように学習 解釈性の向上 • 注意と勾配の関係が相関するように ◦ 説明可能 AI の定義の観点から複数の解釈提示手法 (e.g., 注意, 勾配) が同様の解釈を示すように • 明確な注意を学習可能に ◦ 予測を解釈する “聞き手” に対してより分かりやすい解釈結果を提示 # 第2章: 注意機構のための敵対的学習 (背景)
  17. 従来の NLP における敵対的学習 AT for word embedding [Miyato + ICLR'17]

    • NLP では入力が離散(単語)かつ 疎 で あるため有効な敵対的摂動の計算が困難 • 連続である単語埋め込み空間への AT の 適用により data augmentation 効果・ 汎化性能の向上 [Miyato + ICLR'17] Interpretable AT for word embedding [Sato+ ICJAI'18] • 単語埋め込み空間において、 摂動の方向を既存の単語方向に限定する ことで擬似的な単語の置き換えを実現 上記は摂動の解釈性向上に焦点を当てており モデルの予測の解釈性向上とは無関係 19 第2章: 注意機構のための敵対的学習 (背景) 単語埋め込みをPCA等 で2次元にした場合の空間 A man is walking ➜ A woman is walking 解釈可能な摂動を導入した場合
  18. 注意機構のための敵対学習 | ベースモデル 提案手法を適用するベースモデル Jain & Wallace [NAACL’19] に従い、加法注意 [Bahdanau+

    ICLR’15] を 有する双方向 LSTM をベースモデルとして使用 • 入力層 ◦ 単語埋め込み • 中間層 ◦ 加法注意 [Bahdanau+ ICLR’15] ➜ 提案法はこの部分に適用される • 出力層 ◦ 対象のタスクを予測するよう学習 20 第2章: 注意機構のための敵対的学習 (手法)
  19. 注意機構のための敵対学習 | ベースモデル 提案手法を適用するベースモデル Jain & Wallace [NAACL’19] に従い、加法注意 [Bahdanau+

    ICLR’15] を 有する双方向 LSTM をベースモデルとして使用 • 入力層 ◦ 単語埋め込み • 中間層 ◦ 加法注意 [Bahdanau+ ICLR’15] ➜ 提案法はこの部分に適用される • 出力層 ◦ 対象のタスクを予測するよう学習 21 第2章: 注意機構のための敵対的学習 (手法)
  20. Attention AT のアイディア: 注意機構 ã に AT を適用 • 注意に対する敵対的摂動は、現在のモデル

    の損失を最大化する 方向の摂動 (大きさ: ε) として定義 • 注意の重みに敵対的摂動を 加えた ã adv を新たな注意の 重みとして学習に使用 • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための敵対学習 Attention AT (adversarial training for attention) 22 第2章: 注意機構のための敵対的学習 (手法)
  21. Attention AT のアイディア: 注意機構 ã に AT を適用 • 注意に対する敵対的摂動は、現在のモデル

    の損失を最大化する 方向の摂動 (大きさ: ε) として定義 • 注意の重みに敵対的摂動を 加えた ã adv を新たな注意の 重みとして学習に使用 • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための敵対学習 Attention AT (adversarial training for attention) 23 第2章: 注意機構のための敵対的学習 (手法) 注意の重みに摂動が 加えられた時の入力単語列
  22. Attention AT のアイディア: 注意機構 ã に AT を適用 • 注意に対する敵対的摂動は、現在のモデル

    の損失を最大化する 方向の摂動 (大きさ: ε) として定義 • 注意の重みに敵対的摂動を 加えた ã adv を新たな注意の 重みとして学習に使用 • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための敵対学習 Attention AT (adversarial training for attention) 24 第2章: 注意機構のための敵対的学習 (手法) 注意の重みに摂動が 加えられた時の入力単語列 注意の重み
  23. Attention AT のアイディア: 注意機構 ã に AT を適用 • 注意に対する敵対的摂動は、現在のモデル

    の損失を最大化する 方向の摂動 (大きさ: ε) として定義 • 注意の重みに敵対的摂動を 加えた ã adv を新たな注意の 重みとして学習に使用 • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための敵対学習 Attention AT (adversarial training for attention) 25 第2章: 注意機構のための敵対的学習 (手法) 注意の重みに摂動が 加えられた時の入力単語列 摂動 注意の重み
  24. 注意機構のための敵対学習 Attention AT (adversarial training for attention) 26 第2章: 注意機構のための敵対的学習

    (手法) Attention AT のアイディア: 注意機構 ã に AT を適用 • 注意に対する敵対的摂動は、現在のモデル の損失を最大化する 方向の摂動 (大きさ: ε) として定義 • 注意の重みに敵対的摂動を 加えた ã adv を新たな注意の 重みとして学習に使用 • 摂動がない状態とある状態 それぞれを考慮して学習 注意の重みに摂動が 加えられた時の入力単語列 摂動 正解ラベル 注意の重み
  25. Interpretable AT for word [Sato+ IJCAI’18] と数式上は同じ Attention iAT は摂動に頑健となるよう注意の差を

    強調するように学習 ➜明確で解釈可能な注意につながる • 文中における各単語に対する注意度の差分 を計算 • 学習可能なパラメータを持つ 注意の摂動 を定義 • 損失を最大化するような パラメータとなるよう 注意度の差分を計算 注意機構のための解釈可能敵対学習 Attention iAT (Interpretable adversarial training for attention) 27 第2章: 注意機構のための敵対的学習 (手法) where, where, 摂動 正解ラベル 注意の重みに摂動が 加えられた時の入力単語列
  26. 実験設定 | 比較手法 Vanilla • 加法注意あり 1 層 双方向 LSTM

    Word AT (AT for word embeddings) • 単語埋め込みに AT による摂動を付与 Word iAT (interpretable AT for word embeddings) • 単語埋め込みに iAT による摂動を付与 Attention RP (random perturbation for attention) • 注意機構にランダムノイズによる摂動を付与 Attention AT (AT for attention) • 注意機構に AT による摂動を付与 Attention iAT (interpretable AT for attention) • 注意機構に iAT による摂動を付与 28 第2章: 注意機構のための敵対的学習 (実験)
  27. 実験設定 | 比較手法 Vanilla • 加法注意あり 1 層 双方向 LSTM

    Word AT (AT for word embeddings) • 単語埋め込みに AT による摂動を付与 Word iAT (interpretable AT for word embeddings) • 単語埋め込みに iAT による摂動を付与 Attention RP (random perturbation for attention) • 注意機構にランダムノイズによる摂動を付与 Attention AT (AT for attention) • 注意機構に AT による摂動を付与 Attention iAT (interpretable AT for attention) • 注意機構に iAT による摂動を付与 29 第2章: 注意機構のための敵対的学習 (実験)
  28. 実験設定 | 比較手法 Vanilla • 加法注意あり 1 層 双方向 LSTM

    Word AT (AT for word embeddings) • 単語埋め込みに AT による摂動を付与 Word iAT (interpretable AT for word embeddings) • 単語埋め込みに iAT による摂動を付与 Attention RP (random perturbation for attention) • 注意機構にランダムノイズによる摂動を付与 Attention AT (AT for attention) • 注意機構に AT による摂動を付与 Attention iAT (interpretable AT for attention) • 注意機構に iAT による摂動を付与 30 第2章: 注意機構のための敵対的学習 (実験)
  29. 実験設定 | 評価用データセットと指標 予測性能の評価 (2値分類; F1 score) • Stanford Sentiment

    Treebank (SST) [Socher+ EMNLP’13] • IMDB Movie Review Corpus [Maas+ ACL’11] • 20Newsgroups Corpus [Lang+ ICML’95] • AgNews Corpus [Zhang+ NeurIPS’15] 解釈性の評価 • 注意の重みと推論結果の勾配の ピアソン相関を計算 • Jain & Wallace [NAACL’19] では ケンドールの順位相関を利用 ◦ 順位が低いがノイジーになりやすく全体の評価がそれらに 影響を受けてしまうため、2つの関係を適切に評価するのは 難しくなるとの指摘 [Mohankumar+ ACL’20] を考慮 31 第2章: 注意機構のための敵対的学習 (実験) movie was pretty good movie was pretty good 推論結果の勾配による 単語の重要度 学習済み注意の重み ピアソン相関による 2手法の傾向調査 The The
  30. 結果 | 2値分類 予測性能 • 提案法はベースラインを始め従来の単語に対する AT を超える性能 • 注意にランダムな摂動を加えるより敵対的摂動を加えたほうが良い

    • 特に提案する Attention iAT は 20News と MultiNLI 以外で最良 解釈性 • 提案法における注意の重みと推論結果の勾配は強く相関 • 特に Attention iAT は強い相関 (= より解釈しやすい説明) を示すように 32 第2章: 注意機構のための敵対的学習 (結果) [Miyato+ ICLR’17] [Sato+ IJCAI’18]
  31. 結果 | 2値分類 予測性能 • 提案法はベースラインを始め従来の単語に対する AT を超える性能 • 注意にランダムな摂動を加えるより敵対的摂動を加えたほうが良い

    • 特に提案する Attention iAT は 20News と MultiNLI 以外で最良 解釈性 • 提案法における注意の重みと推論結果の勾配は強く相関 • 特に Attention iAT は強い相関 (= より解釈しやすい説明) を示すように 33 第2章: 注意機構のための敵対的学習 (結果) [Miyato+ ICLR’17] [Sato+ IJCAI’18]
  32. 結果 | 2値分類 予測性能 • 提案法はベースラインを始め従来の単語に対する AT を超える性能 • 注意にランダムな摂動を加えるより敵対的摂動を加えたほうが良い

    • 特に提案する Attention iAT は 20News と MultiNLI 以外で最良 解釈性 • 提案法における注意の重みと推論結果の勾配は強く相関 • 特に Attention iAT は強い相関 (= より解釈しやすい説明) を示すように 34 第2章: 注意機構のための敵対的学習 (結果) [Miyato+ ICLR’17] [Sato+ IJCAI’18]
  33. 35 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT 結果

    | 注意の重みと勾配による単語の重要度の可視化
  34. 39 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT Attention

    AT は Vanilla モデルや Attention iAT に比べてより明確な 注意を学習から獲得 ➜ Attention AT は少数の単語に 強く注意を集中させる傾向あり
  35. 43 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT Attention

    iAT は注意の重みと 勾配による単語の重要度の相関が 一番高かった 注意の差を元にした摂動の決定と その学習が、より効果的に入力文の 重要箇所を特定可能に
  36. 結論 | 注意機構のための敵対的学習 本研究では注意機構のための敵対的学習手法を提案 • 先行研究で指摘されていた注意機構に関する脆弱性に注目 ◦ 注意機構をより頑健で解釈可能にする新たな技術 ◦ 従来の単語埋め込みに対する敵対的学習よりも良い性能

    提案法は高い予測性能と明確な注意を学習可能で 学習済みの注意は単語の重要度と強い相関 • 異なる根拠提示手法が同様の根拠を示すことで信頼性向上を期待 本研究の追加の議論 • 第 3 章にて本研究の半教師あり学習への拡張について議論 • 第 6 章にて本研究における適用範囲と解釈性について議論 44 第2章: 注意機構のための敵対的学習 (結論)
  37. 第3章: 注意機構のための仮想敵対的学習 Shunsuke Kitada and Hitoshi Iyatomi. “Making Attention Mechanisms

    More Robust and Interpretable with Virtual Adversarial Training,” Springer Applied Intelligence (2022). 45
  38. 第3章 基礎研究 注意機構に対する仮想敵対的学習 概要 予測性能の向上 • 教師ラベル情報が必要な第 2 章の AT

    ベースの手法に対して、 Virtual AT を用いて半教師あり学習へ拡張 [Miyato+ TPAMI’18] ◦ Virtual AT for attention (Attention VAT) ▪ ラベルなしデータによる敵対的摂動を用いて頑健となるよう学習 ◦ Interpretable AT for attention (Attention iVAT) ▪ 有効だった Attention iAT をラベルなしデータの使用で更に向上 解釈性の向上 • 注意と勾配の関係が更に相関するように ◦ 大規模なデータを学習可能となり提案する解釈もより頑健に • 人手によってアノテーションされた根拠箇所と 提案法が示す根拠箇所の一致度が向上 ◦ より人間が考える根拠と同様の解釈を提示可能に # 第3章: 注意機構のための仮想敵対的学習 (背景)
  39. 注意機構のための仮想敵対的学習 | 概要 50 第3章: 注意機構のための仮想敵対的学習 (手法) ラベルあり 正例データ点 ラベルあり

    負例データ点 入力データ (ラベルなし) および その注意の重みと対応するデータ点 (黄丸)
  40. 注意機構のための仮想敵対的学習 | 概要 51 第3章: 注意機構のための仮想敵対的学習 (手法) ラベルあり 正例データ点 ラベルあり

    負例データ点 ラベルなしだが 負例データに近いデータ点 ラベルなしだが 正例データに近いデータ点 入力データ (ラベルなし) および その注意の重みと対応するデータ点 (黄丸)
  41. 注意機構のための仮想敵対的学習 | 概要 52 第3章: 注意機構のための仮想敵対的学習 (手法) ラベルあり 正例データ点 ラベルあり

    負例データ点 ラベルなしだが 負例データに近いデータ点 ラベルなしだが 正例データに近いデータ点 データ点が限られるために過学習を 引き起こしている分類境界 入力データ (ラベルなし) および その注意の重みと対応するデータ点 (黄丸)
  42. 注意機構のための仮想敵対的学習 | 概要 53 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) および

    その注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を 引き起こしている分類境界 黄丸データ点において仮想敵対的 摂動の方向 rVAT を計算
  43. 注意機構のための仮想敵対的学習 | 概要 54 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) および

    その注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を 引き起こしている分類境界 黄丸データ点において仮想敵対的 摂動の方向 rVAT を計算 注意の重みは正例のように見えるが 過学習した分類境界も相まって 敵対的摂動によって負例として 分類されてしまう紫丸データ点を生成
  44. 注意機構のための仮想敵対的学習 | 概要 55 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) および

    その注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を 引き起こしている分類境界 提案手法によってモデルを訓練すると…
  45. 注意機構のための仮想敵対的学習 | 概要 56 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) および

    その注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を 引き起こしている分類境界 提案手法によってモデルを訓練すると… 分類境界は滑らかに より頑健な分類境界を学習
  46. Attention VAT のアイディア: 注意機構 ã に VAT を適用 • ラベルあり

    & ラベルなしデータを含むデータセット を元に 現在のモデル の損失を最大化する方向の仮想敵対的摂動を計算 • 敵対的摂動 は Miyato+ [TPAMI’18] を参考に以下の式で計算: • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 57 第3章: 注意機構のための仮想敵対的学習 (手法) 通常入力とランダム摂動 r を注意に加えた入力 の KL 距離が最大化するような摂動を計算 注意の重みに敵対的摂動を加えた ã vadv を 新たな注意の重みとして学習に使用
  47. Attention VAT のアイディア: 注意機構 ã に VAT を適用 • ラベルあり

    & ラベルなしデータを含むデータセット を元に 現在のモデル の損失を最大化する方向の仮想敵対的摂動を計算 • 敵対的摂動 は Miyato+ [TPAMI’18] を参考に以下の式で計算: • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 58 第3章: 注意機構のための仮想敵対的学習 (手法) 入力単語列と その時の注意 通常入力とランダム摂動 r を注意に加えた入力 の KL 距離が最大化するような摂動を計算 注意の重みに敵対的摂動を加えた ã vadv を 新たな注意の重みとして学習に使用 注意の重み
  48. Attention VAT のアイディア: 注意機構 ã に VAT を適用 • ラベルあり

    & ラベルなしデータを含むデータセット を元に 現在のモデル の損失を最大化する方向の仮想敵対的摂動を計算 • 敵対的摂動 は Miyato+ [TPAMI’18] を参考に以下の式で計算: • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 59 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が 加えられた時の入力単語列 入力単語列と その時の注意 通常入力とランダム摂動 r を注意に加えた入力 の KL 距離が最大化するような摂動を計算 注意の重みに敵対的摂動を加えた ã vadv を 新たな注意の重みとして学習に使用 注意の重み
  49. Attention VAT のアイディア: 注意機構 ã に VAT を適用 • ラベルあり

    & ラベルなしデータを含むデータセット を元に 現在のモデル の損失を最大化する方向の仮想敵対的摂動を計算 • 敵対的摂動 は Miyato+ [TPAMI’18] を参考に以下の式で計算: • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 60 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が 加えられた時の入力単語列 摂動 入力単語列と その時の注意 注意の重み 通常入力とランダム摂動 r を注意に加えた入力 の KL 距離が最大化するような摂動を計算 注意の重みに敵対的摂動を加えた ã vadv を 新たな注意の重みとして学習に使用
  50. Attention VAT のアイディア: 注意機構 ã に VAT を適用 • ラベルあり

    & ラベルなしデータを含むデータセット を元に 現在のモデル の損失を最大化する方向の仮想敵対的摂動を計算 • 敵対的摂動 は Miyato+ [TPAMI’18] を参考に以下の式で計算: • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 61 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が 加えられた時の入力単語列 摂動 入力単語列と その時の注意 通常の入力表現に近くなるよう、 摂動が加えられた入力表現を学習 ラベルあり & なしデータ 通常入力とランダム摂動 r を注意に加えた入力 の KL 距離が最大化するような摂動を計算 注意の重みに敵対的摂動を加えた ã vadv を 新たな注意の重みとして学習に使用 注意の重み
  51. Attention VAT のアイディア: 注意機構 ã に VAT を適用 • ラベルあり

    & ラベルなしデータを含むデータセット を元に 現在のモデル の損失を最大化する方向の仮想敵対的摂動を計算 • 敵対的摂動 は Miyato+ [TPAMI’18] を参考に以下の式で計算: • 摂動がない状態とある状態 それぞれを考慮して学習 注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 62 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が 加えられた時の入力単語列 摂動 入力単語列と その時の注意 通常の入力表現に近くなるよう、 摂動が加えられた入力表現を学習 ラベルあり & なしデータ 通常入力とランダム摂動 r を注意に加えた入力 の KL 距離が最大化するような摂動を計算 注意の重みに敵対的摂動を加えた ã vadv を 新たな注意の重みとして学習に使用 ラベル情報が必要ない 注意の重み
  52. Attention iVAT はラベルなしデータも有効活用し、 摂動に頑健となるように注意の差を強調するよう学習 • 文中における各単語に対する注意度の差分 を計算 • 学習可能なパラメータを持つ 注意の摂動

    を定義 • 損失を最大化するパラメータとなるような 注意度の差分を計算 注意機構のための解釈可能仮想敵対学習 Attention iVAT (interpretable virtual adversarial training for attention) 63 第3章: 注意機構のための仮想敵対的学習 (手法) where, where, 摂動 入力単語列とその注意 注意の重みに摂動が 加えられた時の入力単語列 ラベル情報が必要ない
  53. 実験設定 | 評価指標 Jain & Wallace [NAACL’19] と第2章に合わせて以下を使用 予測性能の評価 •

    単一文入力タスク: F1 score • ペア文入力タスク: acc., micro-F1 解釈性の評価 • 注意の重みと推論結果の勾配に よる重要度間のピアソン相関 • 予測根拠提示の再現性 ◦ 人手で予測根拠箇所にラベルが付与された ERASER [DeYoung+ ACL’20] データセットを使用 ▪ 根拠箇所の確率値による soft な予測の評価 • Area under the precision-recall curve (AUPRC) • average precision (AP) 64 第3章: 注意機構のための仮想敵対的学習 (実験) Movie Reviews: In this movie, … Plots to take over the world. The acting is great! The soundtrack is run-of-the-mill, but the action more than makes up for it (a) Positive (b) Negative ERASER データセットに含まれる 映画レビューに関するデータの例 [DeYoung+ ACL’20]
  54. 結果 | 予測性能 66 第3章: 注意機構のための仮想敵対的学習 (結果) • 半教師あり学習へ拡張した Attention

    VAT が最良の結果に ◦ 同じく半教師あり学習の Word VAT よりも良い ◦ 効果的であった Attention AT よりも更に良い • 大規模かつ多様なラベルなしデータにより分類境界を より滑らかとなることで過学習を大幅に抑制できた可能性 ◦ 限られたラベルありデータに加えてラベルなしデータを使用 することで有効な学習を実現
  55. 結果 | 予測性能 69 第3章: 注意機構のための仮想敵対的学習 (結果) • Attention iVAT

    は Attention VAT よりも良い結果に ◦ 文中の注意差に着目した敵対的摂動の計算と、追加したラベルなし データの効果によって、より効果的にタスクを予測する分類境界 を学習可能に
  56. 結果 | 予測性能 70 第3章: 注意機構のための仮想敵対的学習 (結果) • Attention iVAT

    は Attention VAT よりも良い結果に ◦ 文中の注意差に着目した敵対的摂動の計算と、追加したラベルなし データの効果によって、より効果的にタスクを予測する分類境界 を学習可能に
  57. 結果 | 解釈可能性: 注意と勾配の相関 72 第3章: 注意機構のための仮想敵対的学習 (結果) • 予測性能と同様に提案法

    Attention VAT が最良の結果に ◦ 同じく半教師あり学習の Word VAT よりも良い ◦ 効果的であった Attention AT よりも更に良い • ラベルなしデータの追加により、入力文に対する普遍的な 予測根拠箇所の学習が更に促進 ◦ 限られたラベルありデータに加えてラベルなしデータを使用 することで有効な学習を実現
  58. 結果 | 解釈可能性: 注意と勾配の相関 75 第3章: 注意機構のための仮想敵対的学習 (結果) • Attention

    AT/iAT でも十分なスコアを示していたにも かかわらず、Attention VAT/iVAT では更にスコア向上 ◦ ラベルなしデータの利用が効果的であったことを確認
  59. 結果 | 解釈可能性: 人手の根拠との比較 76 第3章: 注意機構のための仮想敵対的学習 (結果) 注意の重みによる予測根拠箇所と人手による根拠の比較 •

    ベースライン (Vanilla) や単語埋め込みに対する VAT/iVAT 手法と 比較して提案法は人手根拠に近い予測を示した ◦ 提案法がより人間に解釈しやすい注意を示すことが可能 • 人手の根拠ラベルを教師とした根拠予測モデル BERT-to-BERT と は依然スコアの開きがある ◦ 我々の手法は人手の根拠ラベルを使用していない
  60. 結論 | 注意機構のための仮想敵対的学習 • 半教師あり学習である 注意機構のための 仮想敵対的学習 (Attention VAT/iVAT) を提案

    ◦ 第 2 章で説明した効果的であった Attention AT/iAT を拡張 • 提案法は ラベルなしデータを有効に活用 することで 予測性能と解釈可能性の両方のパフォーマンスを向上 ◦ 従来の VAT ベースの手法を超える性能を実現 • 注意機構を有するモデルに提案手法のアイディアは 適用可能で汎用性が非常に高い手法 ◦ 本研究では注意機構の脆弱性が報告されていた RNN ベースのシンプルな手法で実験を実施した ▪ Transformer や BERT ベースの手法への拡張検討 については第6章にて議論する 77 第3章: 注意機構のための仮想敵対的学習 (結論)
  61. 78 発表の流れ 第2章 [Kitada+ IEEE Access’21] 注意機構に対する敵対的学習 教師あり学習 第3章 [Kitada+

    Appl. Intell.’22] 注意機構に対する仮想敵対的学習 半教師あり学習 第4章 [Kitada+ KDD’19] 注意機構を元にした枠組みによる 広告クリエイティブの効果予測 第5章 [Kitada+ Appl. Sci.’22] 注意機構を元にした枠組みによる 広告クリエイティブの停止予測 第1章 導入 基礎・応用 研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上 第6章 結論 注意機構を頑健にする手法の提案・実世界の大規模データによる有効性の実証 半教師あり学習 へ拡張 広告入稿前と後 各運用を支援 効果の高い広告の 運用支援 大量に得られる ラベルなしデータ の有効活用 効果の低い広告の 運用支援
  62. 第4章: 注意機構を元にした枠組みによる 広告クリエイティブの評価予測 Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi Seki.

    “Conversion Prediction Using Multi-task Conditional Attention Networks to Support the Creation of Effective Ad Creative,” Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 2069-2077. 2019. 79
  63. 第4章 応用研究 注意機構を元にした枠組みによる 広告クリエイティブの “評価" 予測 予測性能の向上 • 広告を通じたユーザの行動を “事前”

    に予測する方法論の検討 ◦ こうした行動は頻繁には発生しないため困難なタスクである ▪ 段階的に起こるユーザー行動 (クリック ➜ コンバージョン) を同時に予測する マルチタスク学習 の導入 ▪ 広告の属性値を考慮することで予測性能の向上を 期待できる conditional attention 機構の提案 解釈可能性の向上 • 広告テキストに対してユーザが関心のあるフレーズを捉えて 可視化可能な attention highlighting の提案 ◦ 広告の属性値を考慮した conditional attention 機構により ユーザ行動の予測に寄与する単語を解釈可能な形で提示 # 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (背景)
  64. 背景 | 広告クリエイティブ • ディスプレイ広告における 広告クリエイティブ ◦ 購買対象となる顧客に対して 効果的に商品の情報を届ける ▪

    商品を説明する テキストや画像が中心 • クリエイティブの良し悪しを評価する指標 ◦ ユーザがクリックする割合 (click through rate; CTR) ◦ クリック後に商品の購入等の行動 (conversion; CV) が 起きる割合 (CV rate; CVR) ➜ CV が多い広告は配信効果が高いと言える 広告主からは配信効果が高い広告クリエイティブを 作ることが期待されている 81 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (背景)
  65. 背景 | 広告クリエイティブの事前評価 本研究の目的 CV数の多い広告クリエイティブの作成支援 • 広告クリエイティブのテキストからCV数を事前に 予測・評価する、運用をサポートする新たな枠組みを提案 広告クリエイティブのテキストに注目した評価 •

    広告画像の差し替えは難しいが、テキストの差し替えは 容易であるため運用上でもテキストに焦点が当てられる • 提案する枠組みは様々なテキストから探索的に効果的な 広告クリエイティブを作成するのに役立つ ◦ 広告作成者にとってユーザがどのような訴求テキストを 魅力的に感じるかを解釈可能 82 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (背景)
  66. 実験設定 | ベースライン手法との比較 • ベースラインモデルとの比較 ◦ Support vector regression (SVR)

    ◦ Multi-layer perceptron (MLP) • シングル/マルチタスク学習の比較 ◦ Single-task model (CVのみを予測するモデル) ◦ Multi-task model (CVとクリックを同時に予測するモデル) • 注意機構の比較 ◦ Vanilla (注意機構を有さない) ◦ 従来の self-attention [Lin+ ICLR’17] ◦ 提案する conditional attention (proposed) 91 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (実験)
  67. 実験設定 | データセットと評価指標について 評価用実世界広告クリエイティブデータセット Gunosy で配信された広告クリエイティブ (‘17/8 ~ ‘18/8) •

    表示回数が極端に少ないものは除去 評価指標 高 CV のクリエイティブを正確に予測できているかを評価 • Normalized discounted cumulative gain (NDCG) [Järvelin+ TOIS’02] ◦ i 番目の順位を評価する指標。大きければ大きいほど良い ◦ 順位上位(CVが多いサンプル)の評価が影響を与える 92 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (実験) Creative #1 CV数 小 Creative #2 Creative #... Creative #N CV数 大 予測CV数 大 CVが多いクリエイティブを 正しく評価できる
  68. 実験設定 | 広告クリエイティブデータセットの性質 CV 数はほとんど 0 ➜ クリック数と比べて非常に不均衡 • 直接

    CV に結びつく特徴をDLモデルで学習するのは困難を極める CV数とクリック数には強い相関がある (r = 0.816) • 相関する2つの指標を同時に予測することで有益な特徴学習を期待 93 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (実験) クリック数と CV 数の分布 クリック数とコンバージョン数の関係
  69. 実験結果 | NDCG の観点から比較 • 提案する conditional attention を有する枠組みが最良 ◦

    クリック数と CV 数を学習することで、モデルは暗黙の うちに CV 予測に寄与する特徴を学習している • 利益を上げている CV 数上位 1 %に絞ったときの性能に着目 ◦ 提案手法において CV 数が上位のものを適切に予測可能 94 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果) 評価時の対象データ: All: すべてのデータを対象 #CV top 1%: CV数上位1%
  70. 実験結果 | NDCG の観点から比較 • 提案する conditional attention を有する枠組みが最良 ◦

    クリック数と CV 数を学習することで、モデルは暗黙の うちに CV 予測に寄与する特徴を学習している • 利益を上げている CV 数上位 1 %に絞ったときの性能に着目 ◦ 提案手法において CV 数が上位のものを適切に予測可能 95 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果) 評価時の対象データ: All: すべてのデータを対象 #CV > 0: CV数が0以上
  71. 実験結果 | NDCG の観点から比較 • 提案する conditional attention を有する枠組みが最良 ◦

    クリック数と CV 数を学習することで、モデルは暗黙の うちに CV 予測に寄与する特徴を学習している • 利益を上げている CV 数上位 1 %に絞ったときの性能に着目 ◦ 提案手法において CV 数が上位のものを適切に予測可能 96 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果) 評価時の対象データ: All: すべてのデータを対象 #CV > 0: CV数が0以上
  72. 実験結果 | 属性情報を考慮可能な Conditional attention における注意の可視化結果 • 男性対象だと「男性」部分にモデルが注視している • 全体的な傾向として「◦◦監修」が注視されやすい

    ◦ 特徴として強い有名人の人名に共起している場合が多い 配信対象に適した広告文の性質を直感的に捉えることが可能 可視化結果を元にした広告文の作成や修正の支援を担える可能性 97 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果)
  73. 結論 | 注意機構を元にした枠組みによる広告クリエイティブの評価予測 広告クリエイティブの効果を事前に予測する枠組みの提案 および実世界の広告データセットを使った実用性を重視した評価 • マルチタスク学習 を用いた不均衡データに対する学習 ◦ CVとクリックを同時に学習させることで、こうした

    比較的稀な行動の予測に対する予測精度が向上 • Conditional attention 機構 の提案 ◦ 予測性能の向上に加えて広告配信対象やクリエイティブの ジャンルといった属性値を考慮した attention の決定 広告テキストに対してユーザが関心のあるフレーズを捉えて 可視化可能な attention highlighting の提案 • 重要単語の可視化に基づく効果的な広告クリエイティブ作成 支援の検討が可能 ➜ この解釈性については第6章で議論 98 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結論)
  74. 第5章: 注意機構を元にした枠組みによる 広告クリエイティブの停止予測 Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi Seki.

    “Ad Creative Discontinuation Prediction with Multi-Modal Multi-Task Neural Survival Networks,” MDPI Applied Sciences 12.7 (2022): 3594. 99
  75. 第5章 応用研究 注意機構を元にした枠組みによる 広告クリエイティブの “停止” 予測 予測性能の向上 • 効果が悪くなった広告に対して 適切なタイミングで停止の判断を支援する方法論の検討

    ◦ 生存時間予測の枠組みによる粒度の細かい停止確率予測の実現 ◦ 注意機構によって停止に寄与する広告テキストの特徴を学習 解釈性能の向上 • 従来の 分類や回帰では限られていた細かい単位の予測 の提示 ◦ 広告運用者に対してより詳細の停止予測状況を説明可能 • 広告運用者に対して 広告の停止予測に寄与する単語を提示 可能 ◦ ユーザが興味を示さなかった・時事的に旬ではなくなった単語 等 ◦ 情報公開の制約のため具体的な注意による解釈性の定量的評価は できていないが、運用者を支援するに足る情報を日々提供している # 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (背景)
  76. 本研究の目的 | 広告クリエイティブの停止予測 • 広告停止による運用負担の軽減 ◦ 大量に入稿・運用される広告の運用効率化 ▪ 注力すべきところである「より良い広告の運用」に 集中できるような支援

    ▪ 配信実績のある広告が停止すると予測されたときに 次の施策を準備可能 • 将来の停止を確率的に予測できる解釈可能なモデルの構築 ◦ 生存時間予測と注意機構の枠組みを活用 ▪ 未来に起こるクリエイティブの停止を各時間間隔ごとに 確率として提示し、更に予測に影響ある箇所を可視化可能 ◦ 長期的に効果が期待できるクリエイティブを事前に発見 ▪ より運用で伸ばす方向に時間を使うことができる 101 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (背景)
  77. 提案手法 | 生存時間予測による広告クリエイティブの停止予測 観測データからある時刻でイベント (i.e., 広告停止) が発生したかを予測 入力: 観測データ 出力:

    各時間間隔におけるイベント発生の確率 対数尤度 102 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 特徴ベクトル 観測時刻 イベント: 継続 or 停止 p 次元の共変量 区間に分割した時間間隔 時刻τで発生する事象の確率 ハザード関数
  78. 提案手法 | 生存時間予測による広告クリエイティブの停止予測 観測データからある時刻でイベント (i.e., 広告停止) が発生したかを予測 入力: 観測データ 出力:

    各時間間隔におけるイベント発生の確率 対数尤度 対数尤度を最大化 ➜ 負の対数尤度を最小化する 103 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 特徴ベクトル 観測時刻 イベント: 継続 or 停止 DLモデルの出力 ハザード関数
  79. 提案手法 概要 106 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 入力: 広告クリエイティブを構成する特徴量 • テキスト特徴

    ◦ タイトル・説明文 • カテゴリカル特徴 ◦ 配信対象の性別・広告ジャンル • 画像特徴 ◦ クリエイティブの広告画像 • 数値特徴 ◦ 日次配信実績(impression, click, conversion, CPA) ◦ 配信実績の時系列情報
  80. 提案手法 | “2期間推定法” と ”売上を元にした損失項” 2期間推定法: 広告クリエイティブ停止の2つの側面に着目 • 停止には短期の打ち切りと長期の摩耗が存在 ◦

    短期モデル: 売り切りを予測するための特徴を学習 ◦ 長期モデル: 摩耗を予測するための特徴を学習 売上を元にした損失項: CTR重み付け損失 • CTR の高い (≒ 収益度合いが高い) 広告クリエイティブの特徴を正確に捉える新たな損失項を定義 110 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法)
  81. 実験設定 | 評価データセットと指標 実世界の広告クリエイティブデータセットによる評価 • 株式会社 Gunosy から提供された 2018 年〜2019

    年 1,000,000 件 のデータセットで評価 ◦ キャンペーンに基づいた層別分割を ◦ 訓練 600,000 件、開発 200,000 件、評価 200,000 件 生存時間予測の枠組みにおける性能比較 • Concordance index (CI) [Harrell+ JAMA’82] ◦ 予測したイベント発生時間と実際のイベントの発生時間の 大小関係がどの程度一致しているかを表す ▪ CI = 0.5 がランダム予測、CI = 1.0 が完璧な予測 分類および回帰の枠組みとの性能比較 • 生存時間予測の枠組みに則り停止の時間間隔を予測する提案法が、 何日後に停止するかどうか(分類)と 停止日を直接予測する(回帰)とどの程度性能差があるか比較 111 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (実験)
  82. 結果 | 生存時間予測を元にした手法の比較 • 従来手法 vs. 提案手法 w/ 統計特徴 &

    テキスト特徴 ◦ DLを元にした手法が 10pt 以上の差をつけて最良の結果を達成 ◦ DLモデルなので画像特徴や時系列特徴も考慮可能 • 提案手法のベースライン vs. フルモデル ◦ 短期・長期の停止を MTL で学習させた提案手法のフルモデル は平均 3pt の予測性能の向上を確認 112 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果) All: すべてのデータを対象 Top 25% of sales: 売上の 25%以上を占める広告
  83. 結果 | 生存時間予測を元にした手法の比較 • 従来手法 vs. 提案手法 w/ 統計特徴 &

    テキスト特徴 ◦ DLを元にした手法が 10pt 以上の差をつけて最良の結果を達成 ◦ DLモデルなので画像特徴や時系列特徴も考慮可能 • 提案手法のベースライン vs. フルモデル ◦ 短期・長期の停止を MTL で学習させた提案手法のフルモデル は平均 3pt の予測性能の向上を確認 113 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果) All: すべてのデータを対象 Top 25% of sales: 売上の 25%以上を占める広告
  84. 結果 | N日後の停止予測を分類・回帰と比較 短期モデルでは 40pt、長期モデルでは 60 pt の差をつけている • 提案手法は分類・回帰と比べて2倍以上の予測性能を実現

    長期の停止予測では分類や回帰の枠組みによる予測は極めて難しい • 生存時間予測により短期と長期の停止の各特徴を適切に考慮可能 広告の停止予測の性質として (1) データの極度な不均衡性、 (2) 広告停止の時間依存性 が存在 • ほとんどの広告は早期に打ち切り停止がされるため、従来の枠組みだと 偏った予測しか出力されない可能性あり • 生存時間予測では時間が経過するほど停止予測確率が高くなる傾向を モデリング可能 ➜ 分類や回帰ではこうした仮定がモデルに含まれていない 114 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果)
  85. 結果 | N日後の停止予測を分類・回帰と比較 短期モデルでは 40pt、長期モデルでは 60 pt の差をつけている • 提案手法は分類・回帰と比べて2倍以上の予測性能を実現

    長期の停止予測では分類や回帰の枠組みによる予測は極めて難しい • 生存時間予測により短期と長期の停止の各特徴を適切に考慮可能 広告の停止予測の性質として (1) データの極度な不均衡性、 (2) 広告停止の時間依存性 が存在 • ほとんどの広告は早期に打ち切り停止がされるため、従来の枠組みだと 偏った予測しか出力されない可能性あり • 生存時間予測では時間が経過するほど停止予測確率が高くなる傾向を モデリング可能 ➜ 分類や回帰ではこうした仮定がモデルに含まれていない 115 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果) 分類・回帰に基づく長期モデル では停止しか出力されないこと があり、そのためF1スコアが 低くなっている可能性
  86. 結論 | 注意機構を元にした枠組みによる広告クリエイティブの停止予測 効果の低くなった広告に対する新たな運用支援の枠組み提案 • 適切なタイミングを運用者に説明可能な形で知らせる • 2つの停止パターンを適切に捉えた停止支援 注意機構を元にした DL

    ベースの停止支援モデル • 生存時間予測を参考に、停止が発生するタイミングを ハザード関数でモデリングすることで分類・回帰よりも良 広告の停止予測に寄与するキーワードを提示可能 • 効果の低い広告を停止 することは 効果の高い広告を作成 する ことと同じぐらいビジネスインパクトあり ◦ 提案法は日々運用者に停止予測の結果とその解釈を提供 実世界の運用課題を注意機構による解釈によって支援している ➜ 第 6 章にて提案する枠組みの解釈性を議論 116 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結論)
  87. 本研究成果の適用範囲の議論 1/2 本研究を通じて NLP タスクを行う部分に RNN モデルを使用 • 研究開始当初において、既に幅広く実用的に使用されていた •

    Transformer モデルについては適用可能とだけ記載 [Kitada+ 2021, 2022] Transformer モデルを使用した評価を行わなかった理由 (1) 計算量の大幅な増大 ◦ 本研究で使用した RNN と比べて Transformer は層が深く パラメータ数が非常多いため当時学習が難しかった (2) Transformer における注意機構の摂動に対する脆弱性の有無 ◦ Jain and Wallace [NAACL’19] では、従来の RNN に おける注意機構の脆弱性が報告されていたところに本研究では注目 (3) Transformer における注意の重みを用いた予測の解釈性 ◦ 使用した RNN は最終層の手前に注意機構があるため直接予測 に寄与する特徴が注意の重みに反映されていると考えていた 118 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  88. 本研究成果の適用範囲の議論 2/2 注意機構に適用可能な提案法の Transformer への応用可能性 • オリジナルの AT/VAT 手法と同様、提案法はモデルの正則化効果有 •

    BERT 等の事前学習済みモデルにおいてはモデルの重みを固定して 提案法を適用し、CLS トークンを用いて予測を行うことが可能 ➜ 後続の研究で同様のアイディアが調査されていることを議論 汎用的な構成を有する広告運用を支援する枠組みに関する議論 • 本研究では注意を有する RNN を用いて運用支援の枠組みを構築 ◦ 提案する運用支援の枠組みは汎用的であるため、広告テキストの処理 を担うテキストエンコーダは Transformer に変更可能 • 注意 RNN の解釈性の研究は Transformer よりも多く実績あり ➜ 成熟した技術が好まれるビジネスにおいては利点が多いと考えられる 119 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  89. 本研究における解釈性の議論 | 基礎研究的側面 1/2 第2章: 注意に対して敵対的学習を適用することにより、 注意と勾配による重要度の相関が高くなった • “Attention is

    not explanation” と指摘されたベースラインモデル においても、注意と勾配のピアソン相関は正の相関を示す傾向 ◦ もともと注意と勾配は同様の解釈を一定の程度与えていた • 提案手法の効果により、タスクを予測するのに重要な単語に より注意が当たるようにモデルが学習 ◦ 重要そうな単語に勾配が流れることで、ノイジーな勾配がクリーンに • 上記学習で得られた根拠箇所はタスクを解くために重要な単語に 注意・勾配ともに活性化しており、人間にとっても解釈しやすい 単語が選ばれていると考えられる ➜ 第 3 章にて人手でアノテーションされた根拠箇所との一致度評価へ 120 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  90. 本研究における解釈性の議論 | 基礎研究的側面 2/2 第3章: 人手でアノテーションされた根拠箇所との一致度評価 • 提案法はベースラインモデルよりも一致度が高かった ◦ 人手によって根拠としてラベル付けされた箇所はタスクを解くために

    十分な情報があり、”faithfulness” (忠実さ) の観点から解釈性が高い ▪ “モデルが提供する説明は、当該モデルが予測を下すために実際に使用し た情報を反映していれば、忠実であると言える。” [Lipton Queue’18] 上記を踏まえ “Attention is not explanation” と主張された 注意機構に対する解釈性について、我々は異なる結論を唱える • 主張の元となった順位相関による分析は必ずしも適切とは言えない • 提案法によって異なる解釈手法が同じ傾向の解釈を示すようになり 聞き手の理解を助ける信頼性の高い解釈を提供することが可能に ◦ 注意と勾配が同時に間違った根拠を示すことも考えられる ▪ 解釈の信頼性を下げてしまうため、さらなる調査が必要 121 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  91. 本研究における解釈性の議論 | 応用研究的側面 1/3 説明可能 AI に求められる 有益性 [Arrieta+ Inf.

    Fusion’20] に焦点 • 適切な運用の意思決定ができるように情報を提供することが重要 ◦ 本研究で取り組んだ計算機広告分野の課題は多くが人手に頼っている ➜ そもそも 多くの課題は定式化されていない ◦ 広告運用の諸問題をまず定式化し初期的な解釈を提示しただけでも 学術的・産業的に大きな貢献であると考えている • 配信効果の高い広告作成の支援にあたり、ユーザの興味を捉えた キーワードを解釈可能な形で広告作成者や運用者に提供可能に ◦ 単純な集計 (e.g., キーワードとコンバージョンの相関) では 見つけられなかったものが多い ➜ 提案する枠組みが 文脈や広告の属性を考慮可能 であるため ◦ 提案法では売上に直接寄与する魅力的な広告テキスト作成のために 広告作成者へ有益な解釈を提示することを可能とした 122 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  92. 本研究における解釈性の議論 | 応用研究的側面 2/3 配信効果が低い広告に対する 細かい単位の停止予測による運用者の意思決定支援 • そもそも 広告の停止予測という課題に対して、MLモデルを使って 解決するという取り組み自体が学術的に新しい

    ◦ 従来の ML モデルによる意思決定支援を行うこと自体が 新しく、運用者の仕事や売上に大きな影響を与えることが可能 ◦ 生存時間予測の枠組みで、より詳細な予測結果を提示可能 ➜ 分類や回帰の枠組みでは部分的な予測しか提示ができず 運用者が意思決定に必要な詳細な予測が提示できない • 運用者は細かい単位での予測結果を元に、停止の意思決定を 行うことができるため、提案法は非常に有益な運用支援を実現 ◦ 有益性の高い説明可能 AI の実現 123 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  93. 本研究における解釈性の議論 | 応用研究的側面 3/3 配信効果が低い広告の停止支援を行うにあたり 停止予測に寄与するキーワードを解釈可能な形で運用者に提供 • 運用者の経験を元に停止を決められていたものをDL モデルが その意思決定パターンを学習することで停止パターンが顕在化

    ◦ 短期: ユーザが興味を示さなかった単語表現 ➜ 停止決定判断に利用されるが、すぐ停止されてしまう 効果の悪い広告の特徴としても捉えることが可能で広告制作にも影響 ◦ 長期: 旬ではなくなった時事的な単語表現 ➜ 長期で配信されていると流行に沿わなくなったキーワード が含まれており、摩耗をより増長させる可能性 • 情報公開の制約のため本発表では具体的な解釈性の評価は公開NG ◦ 一方で提案法は広告運用者に日々予測を提供しており、 注意による解釈が停止業務を支援していることは事実 ◦ ビジネス的にも大きな影響ある業務に対して適切な解釈を提供 124 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  94. 本研究が後続に与えた影響 | 基礎研究的側面 “注意機構に対する敵対的学習の導入” というアイディアの影響 • 時空間推論における RoBERTa [Liu+ CoRR’19]

    (Transformer ベースモデル) に対する類似アイディアの適用 [Pereira+ PACLIC’21, Pereira+ LREC’22] ◦ 埋め込みに AT/VAT を適用すると同時に注意にも適用 ➜ ランダムに層を選んで適用することでモデルの汎化性能向上 摂動に脆弱な注意をより stable & explainable にする取り組み • 我々と同様の動機から新たな注意機構を提案 [Hu+ AAAI’23] ◦ 我々の手法を適用した RNN や BERT 等で比較 我々のアイディアの制限: 敵対的摂動の計算による計算量の増大 • 近年の大規模事前学習モデルにおける事前学習の段階での使用では さらなる計算量の増大となる点が難点 • Fine-tuning の段階で提案法を使用することで部分的に緩和 ◦ 少ないデータ数に対する学習において汎化性能向上を期待 125 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  95. 本研究が後続に与えた影響 | 応用研究的側面 比較的新しい計算機広告分野 における新たな副分野の開拓 • 広告クリエイティブに着目した 分析的な研究は以前より存在 [Thomaidou+ DED&M’13,

    Thomaidou+ CIKM’13] ◦ 実際の運用の立場から問題解決する観点は非常に少ない 効果の高い広告クリエイティブに関する運用支援 • 運用支援に関して我々を含めた研究が2019 年ごろに登場し始める ◦ 広告クリエイティブの作成支援という新たな研究の流れに 効果の低い広告クリエイティブに関する運用支援 • 従来は広告クリエイティブの配信を担う手法で擬似的に停止を支援 ◦ あくまで擬似的で停止タイミングの閾値の設定は容易ではない ◦ 提案法はビジネス上重要な運用を直接支援した初めての研究 126 第6章: 議論 本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響
  96. 128 発表の流れ 第2章 [Kitada+ IEEE Access’21] 注意機構に対する敵対的学習 教師あり学習 第3章 [Kitada+

    Appl. Intell.’22] 注意機構に対する仮想敵対的学習 半教師あり学習 第4章 [Kitada+ KDD’19] 注意機構を元にした枠組みによる 広告クリエイティブの効果予測 第5章 [Kitada+ Appl. Sci.’22] 注意機構を元にした枠組みによる 広告クリエイティブの停止予測 第1章 導入 基礎・応用 研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上 第6章 結論 注意機構を頑健にする手法の提案・実世界の大規模データによる有効性の実証 半教師あり学習 へ拡張 広告入稿前と後 各運用を支援 効果の高い広告の 運用支援 大量に得られる ラベルなしデータ の有効活用 効果の低い広告の 運用支援
  97. 結論 | 基礎・応用 研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上 基礎研究 の側面 • 予測性能の向上 ◦ 昨今の

    DL モデルに広く利用されている注意機構の問題克服 ▪ 注意機構におけるノイズ・摂動に対する脆弱性の解消 • 解釈性の向上 ◦ 複数の根拠提示手法が同一の根拠を示すことによる信頼性向上 ◦ 明確な注意を学習・提示することによるで容易な解釈を提示 応用研究 の側面 • 予測性能の向上 ◦ 計算機広告分野の運用上の実問題を取り上げて定式化 ▪ 注意機構を取り入れ実世界の課題を高い精度で予測可能に • 解釈性の向上 ◦ ビジネス上重要となる効果の高い広告の特徴や、 効果の低い広告を停止する際に運用者に根拠を提示 129 第7章: 結論
  98. 今後の展望 基礎研究からの側面(第2〜3章) • RNN ベースのモデルから、Transformer ベースのモデルへ ◦ 注意機構が一部使われているモデルから、全体が注意機構から 構成されているモデルにおける提案法の有効性確認 ◦

    Transformer ベースのモデルの解釈性確認やその性能向上 応用研究からの側面(第4〜5章) • 計算機広告分野以外での注意機構を有する DL モデルの実用性評価 ◦ 情報検索や推薦等の実用的なドメインでのさらなる有効性検証 ▪ 上記の領域で実データを用いた検証は未だに少ない ◦ ChatGPT [OpenAI’22] 等の対話を元にした実応用手法への着目 ▪ これまでとは完全に異なるパラダイムにおける “解釈性” の定義やその性質の検討 130 第7章: 結論
  99. 業績 | 原著論文(査読付き) 1. Shunsuke Kitada, Yuki Iwazaki, Riku Togashi,

    and Hitoshi Iyatomi. “DM2S2: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention,'' IEEE Access, vol. 10, pp. 120023-120034, 2022. 2. Shunsuke Kitada and Hitoshi Iyatomi. “Making attention mechanisms more robust and interpretable with virtual adversarial training,” Springer Applied Intelligence, 2022. (第3章に対応) 3. Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi Seki. “Ad Creative Discontinuation Prediction with Multi-Modal Multi-Task Neural Survival Networks,” Applied Sciences 12.7, 2022. (第5章に対応) 4. Shunsuke Kitada and Hitoshi Iyatomi. “Attention meets perturbations: Robust and interpretable attention with adversarial training,” IEEE Access, vol. 9, pp 92974-92985, 2021. (第2章に対応) 131 付録
  100. 業績 | 国際会議発表(査読付き) 1. Ohata Kazuya, Shunsuke Kitada, and Hitoshi

    Iyatomi. “Feedback is Needed for Retakes: An Explainable Poor Image Notification Framework for the Visually Impaired,” Proc. of IEEE HONET, 2022. 2. Tsubasa Nakagawa, Shunsuke Kitada, and Hitoshi Iyatomi. “Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents,” Proc. of CIKM, 2022. 3. Takumi Aoki, Shunsuke Kitada, and Hitoshi Iyatomi. “Text Classification through Glyph-aware Disentangled Character Embedding and Semantic Sub-character Augmentation,” Proc. of AACL-IJCNLP SRW, 2020. 4. Mahmoud Daif, Shunsuke Kitada, and Hitoshi Iyatomi. “AraDIC: Arabic Document Classification Using Image-Based Character Embeddings and Class-Balanced Loss,” Proc. of ACL SRW, 2020 132 付録
  101. 業績 | 国際会議発表(査読付き) 5. Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi

    Seki. “Conversion prediction using multi-task conditional attention networks to support the creation of effective ad creatives,” Proc. of KDD, 2019. (第4章に対応) 6. Shunsuke Kitada, Ryunosuke Kotani, and Hitoshi Iyatomi. “End-to-end text classification via image-based embedding using character-level networks,” Proc. of IEEE AIPRW, 2018. 133 付録
  102. 業績 | 受賞 および 研究費獲得 受賞 1. NLP 若手の会 第

    14 回シンポジウム 奨励賞 受賞(2019年8月28日) 2. 情報処理学会 第 81 回全国大会 学生奨励賞 受賞(2019年3月15日) 134 付録 研究費 • JSPS KAKENHI 21J14143 (特別研究員奨励費). “摂動に頑健で解釈 可能な深層学習モデルの開発とその解釈性の評価”