Improving Prediction Performance and Model Interpretability through Attention Mechanisms from Basic and Applied Research Perspectives (Presentation for Doctoral Dissertation)

by Shunsuke KITADA

Slide 1

Slide 1 text

Improving Prediction Performance and Model Interpretability through Attention Mechanisms from Basic and Applied Research Perspectives Ph.D. candidate: Shunsuke Kitada Supervisor: Prof. Hitoshi Iyatomi Graduate School of Science and Engineering, Hosei University Doctoral Dissertation Defence, Jan. 27th, 2023.

Slide 2

Slide 2 text

# 本発表の概要 - 基礎・応用研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上第1章: 導入 Introduction 第2章: 注意機構に対する敵対的学習 [Kitada+ IEEE Access’21] Adversarial Training for Attention Mechanisms 第3章: 注意機構に対する仮想敵対的学習 [Kitada+ Appl. Intell.’22] Virtual Adversarial Training for Attention Mechanisms 第4章: 注意機構を元にした枠組みによる広告クリエイティブの効果予測 [Kitada+ KDD’19] Ad Creative Conversion Prediction with Attention Mechanisms 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 [Kitada+ Appl. Sci.’22] Ad Creative Discontinuation Prediction with Attention Mechanisms 第6章: 第7章: 議論と結論 Discussion and Conclusion

Slide 3

Slide 3 text

3 発表の流れ第2章 [Kitada+ IEEE Access’21] 注意機構に対する敵対的学習教師あり学習第3章 [Kitada+ Appl. Intell.’22] 注意機構に対する仮想敵対的学習半教師あり学習第4章 [Kitada+ KDD’19] 注意機構を元にした枠組みによる広告クリエイティブの効果予測第5章 [Kitada+ Appl. Sci.’22] 注意機構を元にした枠組みによる広告クリエイティブの停止予測第1章導入基礎・応用研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上第6・7章議論と結論本研究の適用範囲・解釈性・後続研究に与えた影響および結論半教師あり学習へ拡張広告入稿前と後各運用を支援効果の高い広告の運用支援大量に得られるラベルなしデータの有効活用効果の低い広告の運用支援

Slide 4

Slide 4 text

第1章: 導入 4

Slide 5

Slide 5 text

人工知能の発展に大きく貢献している DL [LeCun+’15] ● 従来の ML モデルと比較して DL モデルは予測性能が飛躍的に向上 ○ コンピュータビジョン (computer vision; CV) や自然言語処理 (natural language processing; NLP) では人間を超える性能を達成 [CV; Russakovsky+ IJCV’15, NLP; Devlin+ NAACL’19, etc.] DLモデルのブラックボックス性 ● DL モデルは構造が非常に複雑 (多数の非線形変換) であるためその予測の解釈や説明が困難 [Castelvecchi+ Nature’16] 💡 今後 ML/DL モデルの使用頻度が高くなることが予想される ➜ 予測結果の妥当性やその根拠を解釈できるようにすることが利用者にとってモデルの信頼性や実用性の観点から重要第1章: 導入 - 人工知能 (artiﬁtial intelligence; AI) 分野における機械学習 (machine learning; ML) と深層学習 (deep learning; DL) の発展 5 第1章: 導入入力: 画像, 言語, 音声, etc. 出力: 分類, 回帰, 生成, etc. DL モデル (不透明; not transparent)

Slide 6

Slide 6 text

Black-box な ML/DL モデルの予測結果の解釈を目指す分野 ● ルールベースの説明を中心に古くから研究 [Swartout+’85, Scott+ CL’97] ● 2017 年の DARPA プログラムで再注目 [DARPA’17, Gunning+ AI Magazine’19] 説明可能 AI における “解釈性” や “説明性” ● これらに対して目的や要件を明確化する動き [Arrieta+ Inf. Fusion’20, Adadi+ IEEE Access’18, Guidotti+ CSUR’18] Arrieta+ [Inf. Fusion’20] (引用数3400+) における説明可能 AI の定義 “Given an audience, an explainable Artiﬁcial Intelligence is one that produces details or reasons to make its functioning clear or easy to understand.” [Arrieta+ Inf. Fusion’20] “説明可能 AIとは、聞き手がいる場合にその予測を明確に、あるいは容易に理解できるような詳細や理由を作り出す AIのこと” ● 説明可能 AI は特に解釈を必要とする “聞き手” の存在を重視 ○ 提示すべき詳細や理由は聞き手に依存すると主張説明可能 AI (explainable AI) の発展とその定義 6 第1章: 導入

Slide 7

Slide 7 text

Arrieta+ [Inf. Fusion’20] の定義に同意 ● 聞き手 (研究者・開発者・サービス運用者 etc.) を対象に下記の達成を目指す本論文の解釈性: ● 基礎研究の側面: DL モデルを扱うユーザを対象 ○ 複数の予測に対する解釈手法が示す根拠が同一となるような解釈を与えること ● 応用研究の側面: オンラインサービスの運用者を対象 ○ 運用者の意思決定をサポートするような解釈を与えること本論文の対象: 自然言語処理を行う深層学習モデル ● NLP タスクを解く際の入力文字列の各単語に対する予測の解釈 ○ 入力に対してモデルが予測に寄与する箇所を “聞き手” に解釈可能とすることで上記を達成可能であるとする ○ DL モデルによる入力の寄与度を確認可能とすることで、実世界でモデルを運用する際のエラー分析や意思決定に関して役に立つ本研究における大目標 - “理解を優しくする理由や詳細を提示するAI” 7 第1章: 導入

Slide 8

Slide 8 text

DLモデルの予測の解釈に向けた研究の流れ DLモデルのブラックボックス性に対する2大アプローチ 8 第1章: 導入 ● Transparent (透明) なモデルの設計 ● モデルの予測に対する post-hoc な説明

Slide 9

Slide 9 text

DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 9 第1章: 導入 ● 予測に影響を与える要因の可視化 [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] ● 予測に対して具体例をあげた説明 [Zhang+ INR’20]

Slide 10

Slide 10 text

DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 10 第1章: 導入 ● 予測に影響を与える要因の可視化 [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] ● 予測に対して具体例をあげた説明 [Zhang+ INR’20] [Selvaraju+ ICCV’17] GradCAM For CNN [Abnar+ ACL’20] Rollout For Transformer Vanilla Grad Figure from [Smilkov CoRR’17] 可視化結果は非常にノイジー

Slide 11

Slide 11 text

DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 11 第1章: 導入 ● 予測に影響を与える要因の可視化 [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] ● 予測に対して具体例をあげた説明 [Zhang+ INR’20] 🤖この商品は XX を元に推薦されています

Slide 12

Slide 12 text

DLモデルの予測の解釈に向けた研究の流れ 2. モデルの予測に対する post-hoc な説明 12 第1章: 導入 ● 予測に影響を与える要因の可視化 [Simonyan+ ICLR’14, Selvaraju+ ICCV’17, Abnar+ ACL’20] ● 予測に対して具体例をあげた説明 [Zhang+ INR’20] 🤖この商品は XX を元に推薦されています 👍 一般的なDLモデルに適用可能であり、透明なモデルを設計・学習するよりも簡単で幅広く利用されている

Slide 13

Slide 13 text

1. 予測結果に対する勾配に基づく重要度による説明 ● 推論結果から入力空間に勾配を写像（backward方向） ○ 出力 y に関する入力 x の偏微分を計算 ○ gc は特定の出力クラス c に対する各入力 (語) の重要度を捉える 👎 入力に敏感で度々視覚的にノイジーな場合が多い 2. 注意機構の重みによる説明 ● 入力に対して特定の箇所に焦点が当たるよう学習 (forward 方向) ○ キー K とクエリ Q に対して注意スコア関数 S から注意を計算 ○ 対象のタスクを予測する際に寄与する部分の重みが大きくなる DLの予測の解釈に頻繁に用いられる post-hoc 説明 13 第1章: 導入入力: movie was pretty good 出力: positive movie was pretty good movie was pretty good forward backward

Slide 14

Slide 14 text

DLモデルの解釈に用いられる予測結果の勾配と注意の重みによる post-hoc 説明の弱点 Jain & Wallace [NAACL’19] では次のような現象が報告されている: ● 勾配によって重要と推定される箇所と注意の重みによって得られる箇所との間には必ずしも強い相関が無い ● 注意機構への小さな摂動は意図しない予測変化をもたらす ○ 注意機構を欺くような敵対的摂動は更に大きな予測誤差になる注意機構に大きく依存する近年の DL モデルにおいて上記の弱点は深刻 ● 勾配や注意によるDLモデルの予測解釈手法は発展しているが頑健で信頼性の高い解釈を得るかは重要は基礎研究の方向性 14 第1章: 導入損失勾配による予測の解釈注意の重みによる予測の解釈

Slide 15

Slide 15 text

実世界で運用される DL モデルにおける解釈の提供実応用を見据えた実世界データによる DL モデルの研究は少ない ● これまでの注意機構を有する DL モデルは公開ベンチマークが豊富にあるドメインで開発が進行 ○ 機械翻訳 [Vaswani+ NeurIPS’17]、機械読解 [Devlin+ NAACL’19]、画像認識 [Dosovitskiy+ ICLR’20] 等 ➜ これらの開発や評価は、整備されて公開されたデータを元にしたいわゆる実験室環境に限定されている ● 公開データが不足 (i.e., 複雑な権利関係等の影響) 実応用を見据えた DL モデルの解釈性評価は更に少ない ● 運用上の意思決定を支援するような詳細を提供することが重要 ○ 初歩的な説明機構 (e.g., シンプルな注意機構) でも十分 ● 大規模な実データに対して解釈可能なモデルを実用化するための研究は現状で限られているため、重要な応用研究の方向性 15 第1章: 導入

Slide 16

Slide 16 text

本発表の貢献: 注意機構による予測性能・モデルの解釈性の向上基礎研究の側面 ● 予測性能の向上 ○ 昨今の DL モデルに広く利用されている注意機構の問題克服 ■ 注意機構におけるノイズ・摂動に対する脆弱性の解消 ● 解釈性の向上 ○ 複数の根拠提示手法が同一の根拠を示すことによる信頼性向上 ○ 明確な注意を学習・提示することによるで容易な解釈を提示応用研究の側面 ● 予測性能の向上 ○ 計算機広告分野の運用上の実問題を取り上げて定式化 ■ 注意機構を取り入れ実世界の課題を高い精度で予測可能に ● 解釈性の向上 ○ ビジネス上重要となる効果の高い広告の特徴や、効果の低い広告を停止する際に運用者に予測根拠を提示 16 第1章: 導入

Slide 17

Slide 17 text

第2章: 注意機構のための敵対的学習 Shunsuke Kitada and Hitoshi Iyatomi. “Attention Meets Perturbations: Robust and Interpretable Attention with Adversarial Training,” IEEE Access 9 (2021): 92974-92985. 17

Slide 18

Slide 18 text

第2章基礎研究注意機構に対する敵対的学習概要予測性能の向上 ● Adversarial training (AT) [Goodfellow+ ICLR’14] を用いて注意機構を騙すような摂動を入力し摂動に対する注意の脆弱性を克服 ○ AT for attention mechanism (Attention AT) ■ 注意機構に対して敵対的摂動に頑健になるように学習 ○ Interpretable AT for attention mechanism (Attention iAT) ■ 摂動ありの入力文に対して注意の差がより大きくなるように学習解釈性の向上 ● 注意と勾配の関係が相関するように ○ 説明可能 AI の定義の観点から複数の解釈提示手法 (e.g., 注意, 勾配) が同様の解釈を示すように ● 明確な注意を学習可能に ○ 予測を解釈する “聞き手” に対してより分かりやすい解釈結果を提示 # 第2章: 注意機構のための敵対的学習 (背景)

Slide 19

Slide 19 text

従来の NLP における敵対的学習 AT for word embedding [Miyato + ICLR'17] ● NLP では入力が離散（単語）かつ疎であるため有効な敵対的摂動の計算が困難 ● 連続である単語埋め込み空間への AT の適用により data augmentation 効果・汎化性能の向上 [Miyato + ICLR'17] Interpretable AT for word embedding [Sato+ ICJAI'18] ● 単語埋め込み空間において、摂動の方向を既存の単語方向に限定することで擬似的な単語の置き換えを実現上記は摂動の解釈性向上に焦点を当てておりモデルの予測の解釈性向上とは無関係 19 第2章: 注意機構のための敵対的学習 (背景) 単語埋め込みをPCA等で2次元にした場合の空間 A man is walking ➜ A woman is walking 解釈可能な摂動を導入した場合

Slide 20

Slide 20 text

注意機構のための敵対学習 | ベースモデル提案手法を適用するベースモデル Jain & Wallace [NAACL’19] に従い、加法注意 [Bahdanau+ ICLR’15] を有する双方向 LSTM をベースモデルとして使用 ● 入力層 ○ 単語埋め込み ● 中間層 ○ 加法注意 [Bahdanau+ ICLR’15] ➜ 提案法はこの部分に適用される ● 出力層 ○ 対象のタスクを予測するよう学習 20 第2章: 注意機構のための敵対的学習 (手法)

Slide 21

Slide 21 text

注意機構のための敵対学習 | ベースモデル提案手法を適用するベースモデル Jain & Wallace [NAACL’19] に従い、加法注意 [Bahdanau+ ICLR’15] を有する双方向 LSTM をベースモデルとして使用 ● 入力層 ○ 単語埋め込み ● 中間層 ○ 加法注意 [Bahdanau+ ICLR’15] ➜ 提案法はこの部分に適用される ● 出力層 ○ 対象のタスクを予測するよう学習 21 第2章: 注意機構のための敵対的学習 (手法)

Slide 22

Slide 22 text

Attention AT のアイディア: 注意機構 ã に AT を適用 ● 注意に対する敵対的摂動は、現在のモデルの損失を最大化する方向の摂動 (大きさ: ε) として定義 ● 注意の重みに敵対的摂動を加えた ã adv を新たな注意の重みとして学習に使用 ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための敵対学習 Attention AT (adversarial training for attention) 22 第2章: 注意機構のための敵対的学習 (手法)

Slide 23

Slide 23 text

Attention AT のアイディア: 注意機構 ã に AT を適用 ● 注意に対する敵対的摂動は、現在のモデルの損失を最大化する方向の摂動 (大きさ: ε) として定義 ● 注意の重みに敵対的摂動を加えた ã adv を新たな注意の重みとして学習に使用 ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための敵対学習 Attention AT (adversarial training for attention) 23 第2章: 注意機構のための敵対的学習 (手法) 注意の重みに摂動が加えられた時の入力単語列

Slide 24

Slide 24 text

Attention AT のアイディア: 注意機構 ã に AT を適用 ● 注意に対する敵対的摂動は、現在のモデルの損失を最大化する方向の摂動 (大きさ: ε) として定義 ● 注意の重みに敵対的摂動を加えた ã adv を新たな注意の重みとして学習に使用 ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための敵対学習 Attention AT (adversarial training for attention) 24 第2章: 注意機構のための敵対的学習 (手法) 注意の重みに摂動が加えられた時の入力単語列注意の重み

Slide 25

Slide 25 text

Attention AT のアイディア: 注意機構 ã に AT を適用 ● 注意に対する敵対的摂動は、現在のモデルの損失を最大化する方向の摂動 (大きさ: ε) として定義 ● 注意の重みに敵対的摂動を加えた ã adv を新たな注意の重みとして学習に使用 ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための敵対学習 Attention AT (adversarial training for attention) 25 第2章: 注意機構のための敵対的学習 (手法) 注意の重みに摂動が加えられた時の入力単語列摂動注意の重み

Slide 26

Slide 26 text

注意機構のための敵対学習 Attention AT (adversarial training for attention) 26 第2章: 注意機構のための敵対的学習 (手法) Attention AT のアイディア: 注意機構 ã に AT を適用 ● 注意に対する敵対的摂動は、現在のモデルの損失を最大化する方向の摂動 (大きさ: ε) として定義 ● 注意の重みに敵対的摂動を加えた ã adv を新たな注意の重みとして学習に使用 ● 摂動がない状態とある状態それぞれを考慮して学習注意の重みに摂動が加えられた時の入力単語列摂動正解ラベル注意の重み

Slide 27

Slide 27 text

Interpretable AT for word [Sato+ IJCAI’18] と数式上は同じ Attention iAT は摂動に頑健となるよう注意の差を強調するように学習 ➜明確で解釈可能な注意につながる ● 文中における各単語に対する注意度の差分を計算 ● 学習可能なパラメータを持つ注意の摂動を定義 ● 損失を最大化するようなパラメータとなるよう注意度の差分を計算注意機構のための解釈可能敵対学習 Attention iAT (Interpretable adversarial training for attention) 27 第2章: 注意機構のための敵対的学習 (手法) where, where, 摂動正解ラベル注意の重みに摂動が加えられた時の入力単語列

Slide 28

Slide 28 text

実験設定 | 比較手法 Vanilla ● 加法注意あり 1 層双方向 LSTM Word AT (AT for word embeddings) ● 単語埋め込みに AT による摂動を付与 Word iAT (interpretable AT for word embeddings) ● 単語埋め込みに iAT による摂動を付与 Attention RP (random perturbation for attention) ● 注意機構にランダムノイズによる摂動を付与 Attention AT (AT for attention) ● 注意機構に AT による摂動を付与 Attention iAT (interpretable AT for attention) ● 注意機構に iAT による摂動を付与 28 第2章: 注意機構のための敵対的学習 (実験)

Slide 29

Slide 29 text

実験設定 | 比較手法 Vanilla ● 加法注意あり 1 層双方向 LSTM Word AT (AT for word embeddings) ● 単語埋め込みに AT による摂動を付与 Word iAT (interpretable AT for word embeddings) ● 単語埋め込みに iAT による摂動を付与 Attention RP (random perturbation for attention) ● 注意機構にランダムノイズによる摂動を付与 Attention AT (AT for attention) ● 注意機構に AT による摂動を付与 Attention iAT (interpretable AT for attention) ● 注意機構に iAT による摂動を付与 29 第2章: 注意機構のための敵対的学習 (実験)

Slide 30

Slide 30 text

実験設定 | 比較手法 Vanilla ● 加法注意あり 1 層双方向 LSTM Word AT (AT for word embeddings) ● 単語埋め込みに AT による摂動を付与 Word iAT (interpretable AT for word embeddings) ● 単語埋め込みに iAT による摂動を付与 Attention RP (random perturbation for attention) ● 注意機構にランダムノイズによる摂動を付与 Attention AT (AT for attention) ● 注意機構に AT による摂動を付与 Attention iAT (interpretable AT for attention) ● 注意機構に iAT による摂動を付与 30 第2章: 注意機構のための敵対的学習 (実験)

Slide 31

Slide 31 text

実験設定 | 評価用データセットと指標予測性能の評価 (2値分類; F1 score) ● Stanford Sentiment Treebank (SST) [Socher+ EMNLP’13] ● IMDB Movie Review Corpus [Maas+ ACL’11] ● 20Newsgroups Corpus [Lang+ ICML’95] ● AgNews Corpus [Zhang+ NeurIPS’15] 解釈性の評価 ● 注意の重みと推論結果の勾配のピアソン相関を計算 ● Jain & Wallace [NAACL’19] ではケンドールの順位相関を利用 ○ 順位が低いがノイジーになりやすく全体の評価がそれらに影響を受けてしまうため、2つの関係を適切に評価するのは難しくなるとの指摘 [Mohankumar+ ACL’20] を考慮 31 第2章: 注意機構のための敵対的学習 (実験) movie was pretty good movie was pretty good 推論結果の勾配による単語の重要度学習済み注意の重みピアソン相関による 2手法の傾向調査 The The

Slide 32

Slide 32 text

結果 | 2値分類予測性能 ● 提案法はベースラインを始め従来の単語に対する AT を超える性能 ● 注意にランダムな摂動を加えるより敵対的摂動を加えたほうが良い ● 特に提案する Attention iAT は 20News と MultiNLI 以外で最良解釈性 ● 提案法における注意の重みと推論結果の勾配は強く相関 ● 特に Attention iAT は強い相関 (= より解釈しやすい説明) を示すように 32 第2章: 注意機構のための敵対的学習 (結果) [Miyato+ ICLR’17] [Sato+ IJCAI’18]

Slide 33

Slide 33 text

結果 | 2値分類予測性能 ● 提案法はベースラインを始め従来の単語に対する AT を超える性能 ● 注意にランダムな摂動を加えるより敵対的摂動を加えたほうが良い ● 特に提案する Attention iAT は 20News と MultiNLI 以外で最良解釈性 ● 提案法における注意の重みと推論結果の勾配は強く相関 ● 特に Attention iAT は強い相関 (= より解釈しやすい説明) を示すように 33 第2章: 注意機構のための敵対的学習 (結果) [Miyato+ ICLR’17] [Sato+ IJCAI’18]

Slide 34

Slide 34 text

結果 | 2値分類予測性能 ● 提案法はベースラインを始め従来の単語に対する AT を超える性能 ● 注意にランダムな摂動を加えるより敵対的摂動を加えたほうが良い ● 特に提案する Attention iAT は 20News と MultiNLI 以外で最良解釈性 ● 提案法における注意の重みと推論結果の勾配は強く相関 ● 特に Attention iAT は強い相関 (= より解釈しやすい説明) を示すように 34 第2章: 注意機構のための敵対的学習 (結果) [Miyato+ ICLR’17] [Sato+ IJCAI’18]

Slide 35

Slide 35 text

35 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT 結果 | 注意の重みと勾配による単語の重要度の可視化

Slide 36

Slide 36 text

36 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT

Slide 37

Slide 37 text

37 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT

Slide 38

Slide 38 text

38 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT

Slide 39

Slide 39 text

39 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT Attention AT は Vanilla モデルや Attention iAT に比べてより明確な注意を学習から獲得 ➜ Attention AT は少数の単語に強く注意を集中させる傾向あり

Slide 40

Slide 40 text

40 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT

Slide 41

Slide 41 text

41 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT

Slide 42

Slide 42 text

42 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT

Slide 43

Slide 43 text

43 第2章: 注意機構のための敵対的学習 (結果) Vanilla Attention AT Attention iAT Attention iAT は注意の重みと勾配による単語の重要度の相関が一番高かった注意の差を元にした摂動の決定とその学習が、より効果的に入力文の重要箇所を特定可能に

Slide 44

Slide 44 text

結論 | 注意機構のための敵対的学習本研究では注意機構のための敵対的学習手法を提案 ● 先行研究で指摘されていた注意機構に関する脆弱性に注目 ○ 注意機構をより頑健で解釈可能にする新たな技術 ○ 従来の単語埋め込みに対する敵対的学習よりも良い性能提案法は高い予測性能と明確な注意を学習可能で学習済みの注意は単語の重要度と強い相関 ● 異なる根拠提示手法が同様の根拠を示すことで信頼性向上を期待本研究の追加の議論 ● 第 3 章にて本研究の半教師あり学習への拡張について議論 ● 第 6 章にて本研究における適用範囲と解釈性について議論 44 第2章: 注意機構のための敵対的学習 (結論)

Slide 45

Slide 45 text

第3章: 注意機構のための仮想敵対的学習 Shunsuke Kitada and Hitoshi Iyatomi. “Making Attention Mechanisms More Robust and Interpretable with Virtual Adversarial Training,” Springer Applied Intelligence (2022). 45

Slide 46

Slide 46 text

第3章基礎研究注意機構に対する仮想敵対的学習概要予測性能の向上 ● 教師ラベル情報が必要な第 2 章の AT ベースの手法に対して、 Virtual AT を用いて半教師あり学習へ拡張 [Miyato+ TPAMI’18] ○ Virtual AT for attention (Attention VAT) ■ ラベルなしデータによる敵対的摂動を用いて頑健となるよう学習 ○ Interpretable AT for attention (Attention iVAT) ■ 有効だった Attention iAT をラベルなしデータの使用で更に向上解釈性の向上 ● 注意と勾配の関係が更に相関するように ○ 大規模なデータを学習可能となり提案する解釈もより頑健に ● 人手によってアノテーションされた根拠箇所と提案法が示す根拠箇所の一致度が向上 ○ より人間が考える根拠と同様の解釈を提示可能に # 第3章: 注意機構のための仮想敵対的学習 (背景)

Slide 47

Slide 47 text

注意機構のための仮想敵対的学習 | 概要 47 第3章: 注意機構のための仮想敵対的学習 (手法)

Slide 48

Slide 48 text

注意機構のための仮想敵対的学習 | 概要 48 第3章: 注意機構のための仮想敵対的学習 (手法)

Slide 49

Slide 49 text

注意機構のための仮想敵対的学習 | 概要 49 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸)

Slide 50

Slide 50 text

注意機構のための仮想敵対的学習 | 概要 50 第3章: 注意機構のための仮想敵対的学習 (手法) ラベルあり正例データ点ラベルあり負例データ点入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸)

Slide 51

Slide 51 text

注意機構のための仮想敵対的学習 | 概要 51 第3章: 注意機構のための仮想敵対的学習 (手法) ラベルあり正例データ点ラベルあり負例データ点ラベルなしだが負例データに近いデータ点ラベルなしだが正例データに近いデータ点入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸)

Slide 52

Slide 52 text

注意機構のための仮想敵対的学習 | 概要 52 第3章: 注意機構のための仮想敵対的学習 (手法) ラベルあり正例データ点ラベルあり負例データ点ラベルなしだが負例データに近いデータ点ラベルなしだが正例データに近いデータ点データ点が限られるために過学習を引き起こしている分類境界入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸)

Slide 53

Slide 53 text

注意機構のための仮想敵対的学習 | 概要 53 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を引き起こしている分類境界黄丸データ点において仮想敵対的摂動の方向 rVAT を計算

Slide 54

Slide 54 text

注意機構のための仮想敵対的学習 | 概要 54 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を引き起こしている分類境界黄丸データ点において仮想敵対的摂動の方向 rVAT を計算注意の重みは正例のように見えるが過学習した分類境界も相まって敵対的摂動によって負例として分類されてしまう紫丸データ点を生成

Slide 55

Slide 55 text

注意機構のための仮想敵対的学習 | 概要 55 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を引き起こしている分類境界提案手法によってモデルを訓練すると…

Slide 56

Slide 56 text

注意機構のための仮想敵対的学習 | 概要 56 第3章: 注意機構のための仮想敵対的学習 (手法) 入力データ (ラベルなし) およびその注意の重みと対応するデータ点 (黄丸) データ点が限られるために過学習を引き起こしている分類境界提案手法によってモデルを訓練すると… 分類境界は滑らかにより頑健な分類境界を学習

Slide 57

Slide 57 text

Attention VAT のアイディア: 注意機構 ã に VAT を適用 ● ラベルあり & ラベルなしデータを含むデータセットを元に現在のモデルの損失を最大化する方向の仮想敵対的摂動を計算 ● 敵対的摂動は Miyato+ [TPAMI’18] を参考に以下の式で計算: ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 57 第3章: 注意機構のための仮想敵対的学習 (手法) 通常入力とランダム摂動 r を注意に加えた入力の KL 距離が最大化するような摂動を計算注意の重みに敵対的摂動を加えた ã vadv を新たな注意の重みとして学習に使用

Slide 58

Slide 58 text

Attention VAT のアイディア: 注意機構 ã に VAT を適用 ● ラベルあり & ラベルなしデータを含むデータセットを元に現在のモデルの損失を最大化する方向の仮想敵対的摂動を計算 ● 敵対的摂動は Miyato+ [TPAMI’18] を参考に以下の式で計算: ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 58 第3章: 注意機構のための仮想敵対的学習 (手法) 入力単語列とその時の注意通常入力とランダム摂動 r を注意に加えた入力の KL 距離が最大化するような摂動を計算注意の重みに敵対的摂動を加えた ã vadv を新たな注意の重みとして学習に使用注意の重み

Slide 59

Slide 59 text

Attention VAT のアイディア: 注意機構 ã に VAT を適用 ● ラベルあり & ラベルなしデータを含むデータセットを元に現在のモデルの損失を最大化する方向の仮想敵対的摂動を計算 ● 敵対的摂動は Miyato+ [TPAMI’18] を参考に以下の式で計算: ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 59 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が加えられた時の入力単語列入力単語列とその時の注意通常入力とランダム摂動 r を注意に加えた入力の KL 距離が最大化するような摂動を計算注意の重みに敵対的摂動を加えた ã vadv を新たな注意の重みとして学習に使用注意の重み

Slide 60

Slide 60 text

Attention VAT のアイディア: 注意機構 ã に VAT を適用 ● ラベルあり & ラベルなしデータを含むデータセットを元に現在のモデルの損失を最大化する方向の仮想敵対的摂動を計算 ● 敵対的摂動は Miyato+ [TPAMI’18] を参考に以下の式で計算: ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 60 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が加えられた時の入力単語列摂動入力単語列とその時の注意注意の重み通常入力とランダム摂動 r を注意に加えた入力の KL 距離が最大化するような摂動を計算注意の重みに敵対的摂動を加えた ã vadv を新たな注意の重みとして学習に使用

Slide 61

Slide 61 text

Attention VAT のアイディア: 注意機構 ã に VAT を適用 ● ラベルあり & ラベルなしデータを含むデータセットを元に現在のモデルの損失を最大化する方向の仮想敵対的摂動を計算 ● 敵対的摂動は Miyato+ [TPAMI’18] を参考に以下の式で計算: ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 61 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が加えられた時の入力単語列摂動入力単語列とその時の注意通常の入力表現に近くなるよう、摂動が加えられた入力表現を学習ラベルあり & なしデータ通常入力とランダム摂動 r を注意に加えた入力の KL 距離が最大化するような摂動を計算注意の重みに敵対的摂動を加えた ã vadv を新たな注意の重みとして学習に使用注意の重み

Slide 62

Slide 62 text

Attention VAT のアイディア: 注意機構 ã に VAT を適用 ● ラベルあり & ラベルなしデータを含むデータセットを元に現在のモデルの損失を最大化する方向の仮想敵対的摂動を計算 ● 敵対的摂動は Miyato+ [TPAMI’18] を参考に以下の式で計算: ● 摂動がない状態とある状態それぞれを考慮して学習注意機構のための仮想敵対学習 Attention VAT (virtual adversarial training for attention) 62 第3章: 注意機構のための仮想敵対的学習 (手法) 注意の重みに摂動が加えられた時の入力単語列摂動入力単語列とその時の注意通常の入力表現に近くなるよう、摂動が加えられた入力表現を学習ラベルあり & なしデータ通常入力とランダム摂動 r を注意に加えた入力の KL 距離が最大化するような摂動を計算注意の重みに敵対的摂動を加えた ã vadv を新たな注意の重みとして学習に使用ラベル情報が必要ない注意の重み

Slide 63

Slide 63 text

Attention iVAT はラベルなしデータも有効活用し、摂動に頑健となるように注意の差を強調するよう学習 ● 文中における各単語に対する注意度の差分を計算 ● 学習可能なパラメータを持つ注意の摂動を定義 ● 損失を最大化するパラメータとなるような注意度の差分を計算注意機構のための解釈可能仮想敵対学習 Attention iVAT (interpretable virtual adversarial training for attention) 63 第3章: 注意機構のための仮想敵対的学習 (手法) where, where, 摂動入力単語列とその注意注意の重みに摂動が加えられた時の入力単語列ラベル情報が必要ない

Slide 64

Slide 64 text

実験設定 | 評価指標 Jain & Wallace [NAACL’19] と第2章に合わせて以下を使用予測性能の評価 ● 単一文入力タスク: F1 score ● ペア文入力タスク: acc., micro-F1 解釈性の評価 ● 注意の重みと推論結果の勾配による重要度間のピアソン相関 ● 予測根拠提示の再現性 ○ 人手で予測根拠箇所にラベルが付与された ERASER [DeYoung+ ACL’20] データセットを使用 ■ 根拠箇所の確率値による soft な予測の評価 ● Area under the precision-recall curve (AUPRC) ● average precision (AP) 64 第3章: 注意機構のための仮想敵対的学習 (実験) Movie Reviews: In this movie, … Plots to take over the world. The acting is great! The soundtrack is run-of-the-mill, but the action more than makes up for it (a) Positive (b) Negative ERASER データセットに含まれる映画レビューに関するデータの例 [DeYoung+ ACL’20]

Slide 65

Slide 65 text

結果 | 予測性能 65 第3章: 注意機構のための仮想敵対的学習 (結果)

Slide 66

Slide 66 text

結果 | 予測性能 66 第3章: 注意機構のための仮想敵対的学習 (結果) ● 半教師あり学習へ拡張した Attention VAT が最良の結果に ○ 同じく半教師あり学習の Word VAT よりも良い ○ 効果的であった Attention AT よりも更に良い ● 大規模かつ多様なラベルなしデータにより分類境界をより滑らかとなることで過学習を大幅に抑制できた可能性 ○ 限られたラベルありデータに加えてラベルなしデータを使用することで有効な学習を実現

Slide 67

Slide 67 text

結果 | 予測性能 67 第3章: 注意機構のための仮想敵対的学習 (結果)

Slide 68

Slide 68 text

結果 | 予測性能 68 第3章: 注意機構のための仮想敵対的学習 (結果)

Slide 69

Slide 69 text

結果 | 予測性能 69 第3章: 注意機構のための仮想敵対的学習 (結果) ● Attention iVAT は Attention VAT よりも良い結果に ○ 文中の注意差に着目した敵対的摂動の計算と、追加したラベルなしデータの効果によって、より効果的にタスクを予測する分類境界を学習可能に

Slide 70

Slide 70 text

結果 | 予測性能 70 第3章: 注意機構のための仮想敵対的学習 (結果) ● Attention iVAT は Attention VAT よりも良い結果に ○ 文中の注意差に着目した敵対的摂動の計算と、追加したラベルなしデータの効果によって、より効果的にタスクを予測する分類境界を学習可能に

Slide 71

Slide 71 text

結果 | 解釈可能性: 注意と勾配の相関 71 第3章: 注意機構のための仮想敵対的学習 (結果)

Slide 72

Slide 72 text

結果 | 解釈可能性: 注意と勾配の相関 72 第3章: 注意機構のための仮想敵対的学習 (結果) ● 予測性能と同様に提案法 Attention VAT が最良の結果に ○ 同じく半教師あり学習の Word VAT よりも良い ○ 効果的であった Attention AT よりも更に良い ● ラベルなしデータの追加により、入力文に対する普遍的な予測根拠箇所の学習が更に促進 ○ 限られたラベルありデータに加えてラベルなしデータを使用することで有効な学習を実現

Slide 73

Slide 73 text

結果 | 解釈可能性: 注意と勾配の相関 73 第3章: 注意機構のための仮想敵対的学習 (結果)

Slide 74

Slide 74 text

結果 | 解釈可能性: 注意と勾配の相関 74 第3章: 注意機構のための仮想敵対的学習 (結果)

Slide 75

Slide 75 text

結果 | 解釈可能性: 注意と勾配の相関 75 第3章: 注意機構のための仮想敵対的学習 (結果) ● Attention AT/iAT でも十分なスコアを示していたにもかかわらず、Attention VAT/iVAT では更にスコア向上 ○ ラベルなしデータの利用が効果的であったことを確認

Slide 76

Slide 76 text

結果 | 解釈可能性: 人手の根拠との比較 76 第3章: 注意機構のための仮想敵対的学習 (結果) 注意の重みによる予測根拠箇所と人手による根拠の比較 ● ベースライン (Vanilla) や単語埋め込みに対する VAT/iVAT 手法と比較して提案法は人手根拠に近い予測を示した ○ 提案法がより人間に解釈しやすい注意を示すことが可能 ● 人手の根拠ラベルを教師とした根拠予測モデル BERT-to-BERT とは依然スコアの開きがある ○ 我々の手法は人手の根拠ラベルを使用していない

Slide 77

Slide 77 text

結論 | 注意機構のための仮想敵対的学習 ● 半教師あり学習である注意機構のための仮想敵対的学習 (Attention VAT/iVAT) を提案 ○ 第 2 章で説明した効果的であった Attention AT/iAT を拡張 ● 提案法はラベルなしデータを有効に活用することで予測性能と解釈可能性の両方のパフォーマンスを向上 ○ 従来の VAT ベースの手法を超える性能を実現 ● 注意機構を有するモデルに提案手法のアイディアは適用可能で汎用性が非常に高い手法 ○ 本研究では注意機構の脆弱性が報告されていた RNN ベースのシンプルな手法で実験を実施した ■ Transformer や BERT ベースの手法への拡張検討については第6章にて議論する 77 第3章: 注意機構のための仮想敵対的学習 (結論)

Slide 78

Slide 78 text

78 発表の流れ第2章 [Kitada+ IEEE Access’21] 注意機構に対する敵対的学習教師あり学習第3章 [Kitada+ Appl. Intell.’22] 注意機構に対する仮想敵対的学習半教師あり学習第4章 [Kitada+ KDD’19] 注意機構を元にした枠組みによる広告クリエイティブの効果予測第5章 [Kitada+ Appl. Sci.’22] 注意機構を元にした枠組みによる広告クリエイティブの停止予測第1章導入基礎・応用研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上第6章結論注意機構を頑健にする手法の提案・実世界の大規模データによる有効性の実証半教師あり学習へ拡張広告入稿前と後各運用を支援効果の高い広告の運用支援大量に得られるラベルなしデータの有効活用効果の低い広告の運用支援

Slide 79

Slide 79 text

第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi Seki. “Conversion Prediction Using Multi-task Conditional Attention Networks to Support the Creation of Eﬀective Ad Creative,” Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 2069-2077. 2019. 79

Slide 80

Slide 80 text

第4章応用研究注意機構を元にした枠組みによる広告クリエイティブの “評価" 予測予測性能の向上 ● 広告を通じたユーザの行動を “事前” に予測する方法論の検討 ○ こうした行動は頻繁には発生しないため困難なタスクである ■ 段階的に起こるユーザー行動 (クリック ➜ コンバージョン) を同時に予測するマルチタスク学習の導入 ■ 広告の属性値を考慮することで予測性能の向上を期待できる conditional attention 機構の提案解釈可能性の向上 ● 広告テキストに対してユーザが関心のあるフレーズを捉えて可視化可能な attention highlighting の提案 ○ 広告の属性値を考慮した conditional attention 機構によりユーザ行動の予測に寄与する単語を解釈可能な形で提示 # 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (背景)

Slide 81

Slide 81 text

背景 | 広告クリエイティブ ● ディスプレイ広告における広告クリエイティブ ○ 購買対象となる顧客に対して効果的に商品の情報を届ける ■ 商品を説明するテキストや画像が中心 ● クリエイティブの良し悪しを評価する指標 ○ ユーザがクリックする割合 (click through rate; CTR) ○ クリック後に商品の購入等の行動 (conversion; CV) が起きる割合 (CV rate; CVR) ➜ CV が多い広告は配信効果が高いと言える広告主からは配信効果が高い広告クリエイティブを作ることが期待されている 81 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (背景)

Slide 82

Slide 82 text

背景 | 広告クリエイティブの事前評価本研究の目的 CV数の多い広告クリエイティブの作成支援 ● 広告クリエイティブのテキストからCV数を事前に予測・評価する、運用をサポートする新たな枠組みを提案広告クリエイティブのテキストに注目した評価 ● 広告画像の差し替えは難しいが、テキストの差し替えは容易であるため運用上でもテキストに焦点が当てられる ● 提案する枠組みは様々なテキストから探索的に効果的な広告クリエイティブを作成するのに役立つ ○ 広告作成者にとってユーザがどのような訴求テキストを魅力的に感じるかを解釈可能 82 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (背景)

Slide 83

Slide 83 text

提案法概要 83 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法)

Slide 84

Slide 84 text

提案法概要 84 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法) 入力: クリエイティブのタイトル・説明文

Slide 85

Slide 85 text

提案法概要 85 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法) 出力 (マルチタスク学習): CV数・クリック数を同時に出力・学習

Slide 86

Slide 86 text

提案法概要 86 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法) Attentionの可視化: CV数・クリック数を予測する際に寄与する単語

Slide 87

Slide 87 text

提案法概要 87 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法) Attentionの可視化: CV数・クリック数を予測する際に寄与する単語特にCV数が高いデータに対してどのような言い回しが効果的か ➜ 作成支援につながる可能性

Slide 88

Slide 88 text

提案法概要 88 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法) Conditional attention: クリエイティブの属性値を考慮した動的なattention 配信対象（性別）や広告のジャンルにより変化する提案手法

Slide 89

Slide 89 text

提案法概要 89 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法) Conditional attentionで女性属性を付与した場合: “ダイエット”や”女子”に注目

Slide 90

Slide 90 text

提案法概要 90 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (手法) Conditional attentionで男性属性を付与した場合: “具体的な数値”や”方法”に注目

Slide 91

Slide 91 text

実験設定 | ベースライン手法との比較 ● ベースラインモデルとの比較 ○ Support vector regression (SVR) ○ Multi-layer perceptron (MLP) ● シングル/マルチタスク学習の比較 ○ Single-task model (CVのみを予測するモデル) ○ Multi-task model (CVとクリックを同時に予測するモデル) ● 注意機構の比較 ○ Vanilla (注意機構を有さない) ○ 従来の self-attention [Lin+ ICLR’17] ○ 提案する conditional attention (proposed) 91 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (実験)

Slide 92

Slide 92 text

実験設定 | データセットと評価指標について評価用実世界広告クリエイティブデータセット Gunosy で配信された広告クリエイティブ (‘17/8 ~ ‘18/8) ● 表示回数が極端に少ないものは除去評価指標高 CV のクリエイティブを正確に予測できているかを評価 ● Normalized discounted cumulative gain (NDCG) [Järvelin+ TOIS’02] ○ i 番目の順位を評価する指標。大きければ大きいほど良い ○ 順位上位（CVが多いサンプル）の評価が影響を与える 92 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (実験) Creative #1 CV数小 Creative #2 Creative #... Creative #N CV数大予測CV数大 CVが多いクリエイティブを正しく評価できる

Slide 93

Slide 93 text

実験設定 | 広告クリエイティブデータセットの性質 CV 数はほとんど 0 ➜ クリック数と比べて非常に不均衡 ● 直接 CV に結びつく特徴をDLモデルで学習するのは困難を極める CV数とクリック数には強い相関がある (r = 0.816) ● 相関する2つの指標を同時に予測することで有益な特徴学習を期待 93 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (実験) クリック数と CV 数の分布クリック数とコンバージョン数の関係

Slide 94

Slide 94 text

実験結果 | NDCG の観点から比較 ● 提案する conditional attention を有する枠組みが最良 ○ クリック数と CV 数を学習することで、モデルは暗黙のうちに CV 予測に寄与する特徴を学習している ● 利益を上げている CV 数上位 1 %に絞ったときの性能に着目 ○ 提案手法において CV 数が上位のものを適切に予測可能 94 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果) 評価時の対象データ: All: すべてのデータを対象 #CV top 1%: CV数上位1%

Slide 95

Slide 95 text

実験結果 | NDCG の観点から比較 ● 提案する conditional attention を有する枠組みが最良 ○ クリック数と CV 数を学習することで、モデルは暗黙のうちに CV 予測に寄与する特徴を学習している ● 利益を上げている CV 数上位 1 %に絞ったときの性能に着目 ○ 提案手法において CV 数が上位のものを適切に予測可能 95 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果) 評価時の対象データ: All: すべてのデータを対象 #CV > 0: CV数が0以上

Slide 96

Slide 96 text

実験結果 | NDCG の観点から比較 ● 提案する conditional attention を有する枠組みが最良 ○ クリック数と CV 数を学習することで、モデルは暗黙のうちに CV 予測に寄与する特徴を学習している ● 利益を上げている CV 数上位 1 %に絞ったときの性能に着目 ○ 提案手法において CV 数が上位のものを適切に予測可能 96 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果) 評価時の対象データ: All: すべてのデータを対象 #CV > 0: CV数が0以上

Slide 97

Slide 97 text

実験結果 | 属性情報を考慮可能な Conditional attention における注意の可視化結果 ● 男性対象だと「男性」部分にモデルが注視している ● 全体的な傾向として「○○監修」が注視されやすい ○ 特徴として強い有名人の人名に共起している場合が多い配信対象に適した広告文の性質を直感的に捉えることが可能可視化結果を元にした広告文の作成や修正の支援を担える可能性 97 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結果)

Slide 98

Slide 98 text

結論 | 注意機構を元にした枠組みによる広告クリエイティブの評価予測広告クリエイティブの効果を事前に予測する枠組みの提案および実世界の広告データセットを使った実用性を重視した評価 ● マルチタスク学習を用いた不均衡データに対する学習 ○ CVとクリックを同時に学習させることで、こうした比較的稀な行動の予測に対する予測精度が向上 ● Conditional attention 機構の提案 ○ 予測性能の向上に加えて広告配信対象やクリエイティブのジャンルといった属性値を考慮した attention の決定広告テキストに対してユーザが関心のあるフレーズを捉えて可視化可能な attention highlighting の提案 ● 重要単語の可視化に基づく効果的な広告クリエイティブ作成支援の検討が可能 ➜ この解釈性については第6章で議論 98 第4章: 注意機構を元にした枠組みによる広告クリエイティブの評価予測 (結論)

Slide 99

Slide 99 text

第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi Seki. “Ad Creative Discontinuation Prediction with Multi-Modal Multi-Task Neural Survival Networks,” MDPI Applied Sciences 12.7 (2022): 3594. 99

Slide 100

Slide 100 text

第5章応用研究注意機構を元にした枠組みによる広告クリエイティブの “停止” 予測予測性能の向上 ● 効果が悪くなった広告に対して適切なタイミングで停止の判断を支援する方法論の検討 ○ 生存時間予測の枠組みによる粒度の細かい停止確率予測の実現 ○ 注意機構によって停止に寄与する広告テキストの特徴を学習解釈性能の向上 ● 従来の分類や回帰では限られていた細かい単位の予測の提示 ○ 広告運用者に対してより詳細の停止予測状況を説明可能 ● 広告運用者に対して広告の停止予測に寄与する単語を提示可能 ○ ユーザが興味を示さなかった・時事的に旬ではなくなった単語等 ○ 情報公開の制約のため具体的な注意による解釈性の定量的評価はできていないが、運用者を支援するに足る情報を日々提供している # 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (背景)

Slide 101

Slide 101 text

本研究の目的 | 広告クリエイティブの停止予測 ● 広告停止による運用負担の軽減 ○ 大量に入稿・運用される広告の運用効率化 ■ 注力すべきところである「より良い広告の運用」に集中できるような支援 ■ 配信実績のある広告が停止すると予測されたときに次の施策を準備可能 ● 将来の停止を確率的に予測できる解釈可能なモデルの構築 ○ 生存時間予測と注意機構の枠組みを活用 ■ 未来に起こるクリエイティブの停止を各時間間隔ごとに確率として提示し、更に予測に影響ある箇所を可視化可能 ○ 長期的に効果が期待できるクリエイティブを事前に発見 ■ より運用で伸ばす方向に時間を使うことができる 101 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (背景)

Slide 102

Slide 102 text

提案手法 | 生存時間予測による広告クリエイティブの停止予測観測データからある時刻でイベント (i.e., 広告停止) が発生したかを予測入力: 観測データ出力: 各時間間隔におけるイベント発生の確率対数尤度 102 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 特徴ベクトル観測時刻イベント: 継続 or 停止 p 次元の共変量区間に分割した時間間隔時刻τで発生する事象の確率ハザード関数

Slide 103

Slide 103 text

提案手法 | 生存時間予測による広告クリエイティブの停止予測観測データからある時刻でイベント (i.e., 広告停止) が発生したかを予測入力: 観測データ出力: 各時間間隔におけるイベント発生の確率対数尤度対数尤度を最大化 ➜ 負の対数尤度を最小化する 103 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 特徴ベクトル観測時刻イベント: 継続 or 停止 DLモデルの出力ハザード関数

Slide 104

Slide 104 text

提案手法概要 104 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法)

Slide 105

Slide 105 text

提案手法概要 105 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法)

Slide 106

Slide 106 text

提案手法概要 106 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 入力: 広告クリエイティブを構成する特徴量 ● テキスト特徴 ○ タイトル・説明文 ● カテゴリカル特徴 ○ 配信対象の性別・広告ジャンル ● 画像特徴 ○ クリエイティブの広告画像 ● 数値特徴 ○ 日次配信実績（impression, click, conversion, CPA） ○ 配信実績の時系列情報

Slide 107

Slide 107 text

提案手法概要 107 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 各モダリティをエンコードして特徴ベクトル化

Slide 108

Slide 108 text

提案手法概要 108 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 各モダリティをエンコードして特徴ベクトル化 Text Encoder には注意機構を有する双方向LSTMを採用 ➜ 停止予測に寄与する単語表現を解釈可能

Slide 109

Slide 109 text

提案手法概要 109 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法) 結合した特徴ベクトルを元に各時間間隔におけるイベント発生確率を出力 ➜ いつ停止するかを解釈可能

Slide 110

Slide 110 text

提案手法 | “2期間推定法” と ”売上を元にした損失項” 2期間推定法: 広告クリエイティブ停止の2つの側面に着目 ● 停止には短期の打ち切りと長期の摩耗が存在 ○ 短期モデル: 売り切りを予測するための特徴を学習 ○ 長期モデル: 摩耗を予測するための特徴を学習売上を元にした損失項: CTR重み付け損失 ● CTR の高い (≒ 収益度合いが高い) 広告クリエイティブの特徴を正確に捉える新たな損失項を定義 110 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (手法)

Slide 111

Slide 111 text

実験設定 | 評価データセットと指標実世界の広告クリエイティブデータセットによる評価 ● 株式会社 Gunosy から提供された 2018 年〜2019 年 1,000,000 件のデータセットで評価 ○ キャンペーンに基づいた層別分割を ○ 訓練 600,000 件、開発 200,000 件、評価 200,000 件生存時間予測の枠組みにおける性能比較 ● Concordance index (CI) [Harrell+ JAMA’82] ○ 予測したイベント発生時間と実際のイベントの発生時間の大小関係がどの程度一致しているかを表す ■ CI = 0.5 がランダム予測、CI = 1.0 が完璧な予測分類および回帰の枠組みとの性能比較 ● 生存時間予測の枠組みに則り停止の時間間隔を予測する提案法が、何日後に停止するかどうか（分類）と停止日を直接予測する（回帰）とどの程度性能差があるか比較 111 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (実験)

Slide 112

Slide 112 text

結果 | 生存時間予測を元にした手法の比較 ● 従来手法 vs. 提案手法 w/ 統計特徴 & テキスト特徴 ○ DLを元にした手法が 10pt 以上の差をつけて最良の結果を達成 ○ DLモデルなので画像特徴や時系列特徴も考慮可能 ● 提案手法のベースライン vs. フルモデル ○ 短期・長期の停止を MTL で学習させた提案手法のフルモデルは平均 3pt の予測性能の向上を確認 112 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果) All: すべてのデータを対象 Top 25% of sales: 売上の 25%以上を占める広告

Slide 113

Slide 113 text

結果 | 生存時間予測を元にした手法の比較 ● 従来手法 vs. 提案手法 w/ 統計特徴 & テキスト特徴 ○ DLを元にした手法が 10pt 以上の差をつけて最良の結果を達成 ○ DLモデルなので画像特徴や時系列特徴も考慮可能 ● 提案手法のベースライン vs. フルモデル ○ 短期・長期の停止を MTL で学習させた提案手法のフルモデルは平均 3pt の予測性能の向上を確認 113 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果) All: すべてのデータを対象 Top 25% of sales: 売上の 25%以上を占める広告

Slide 114

Slide 114 text

結果 | N日後の停止予測を分類・回帰と比較短期モデルでは 40pt、長期モデルでは 60 pt の差をつけている ● 提案手法は分類・回帰と比べて2倍以上の予測性能を実現長期の停止予測では分類や回帰の枠組みによる予測は極めて難しい ● 生存時間予測により短期と長期の停止の各特徴を適切に考慮可能広告の停止予測の性質として (1) データの極度な不均衡性、 (2) 広告停止の時間依存性が存在 ● ほとんどの広告は早期に打ち切り停止がされるため、従来の枠組みだと偏った予測しか出力されない可能性あり ● 生存時間予測では時間が経過するほど停止予測確率が高くなる傾向をモデリング可能 ➜ 分類や回帰ではこうした仮定がモデルに含まれていない 114 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果)

Slide 115

Slide 115 text

結果 | N日後の停止予測を分類・回帰と比較短期モデルでは 40pt、長期モデルでは 60 pt の差をつけている ● 提案手法は分類・回帰と比べて2倍以上の予測性能を実現長期の停止予測では分類や回帰の枠組みによる予測は極めて難しい ● 生存時間予測により短期と長期の停止の各特徴を適切に考慮可能広告の停止予測の性質として (1) データの極度な不均衡性、 (2) 広告停止の時間依存性が存在 ● ほとんどの広告は早期に打ち切り停止がされるため、従来の枠組みだと偏った予測しか出力されない可能性あり ● 生存時間予測では時間が経過するほど停止予測確率が高くなる傾向をモデリング可能 ➜ 分類や回帰ではこうした仮定がモデルに含まれていない 115 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結果) 分類・回帰に基づく長期モデルでは停止しか出力されないことがあり、そのためF1スコアが低くなっている可能性

Slide 116

Slide 116 text

結論 | 注意機構を元にした枠組みによる広告クリエイティブの停止予測効果の低くなった広告に対する新たな運用支援の枠組み提案 ● 適切なタイミングを運用者に説明可能な形で知らせる ● 2つの停止パターンを適切に捉えた停止支援注意機構を元にした DL ベースの停止支援モデル ● 生存時間予測を参考に、停止が発生するタイミングをハザード関数でモデリングすることで分類・回帰よりも良広告の停止予測に寄与するキーワードを提示可能 ● 効果の低い広告を停止することは効果の高い広告を作成することと同じぐらいビジネスインパクトあり ○ 提案法は日々運用者に停止予測の結果とその解釈を提供実世界の運用課題を注意機構による解釈によって支援している ➜ 第 6 章にて提案する枠組みの解釈性を議論 116 第5章: 注意機構を元にした枠組みによる広告クリエイティブの停止予測 (結論)

Slide 117

Slide 117 text

第6章: 議論 ● 本研究成果の適用範囲 (1 ~ 2) ● 本研究における解釈性 (1 ~ 2) ● 後続研究に与えた影響 (1 ~ 3) 117

Slide 118

Slide 118 text

本研究成果の適用範囲の議論 1/2 本研究を通じて NLP タスクを行う部分に RNN モデルを使用 ● 研究開始当初において、既に幅広く実用的に使用されていた ● Transformer モデルについては適用可能とだけ記載 [Kitada+ 2021, 2022] Transformer モデルを使用した評価を行わなかった理由 (1) 計算量の大幅な増大 ○ 本研究で使用した RNN と比べて Transformer は層が深くパラメータ数が非常多いため当時学習が難しかった (2) Transformer における注意機構の摂動に対する脆弱性の有無 ○ Jain and Wallace [NAACL’19] では、従来の RNN における注意機構の脆弱性が報告されていたところに本研究では注目 (3) Transformer における注意の重みを用いた予測の解釈性 ○ 使用した RNN は最終層の手前に注意機構があるため直接予測に寄与する特徴が注意の重みに反映されていると考えていた 118 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 119

Slide 119 text

本研究成果の適用範囲の議論 2/2 注意機構に適用可能な提案法の Transformer への応用可能性 ● オリジナルの AT/VAT 手法と同様、提案法はモデルの正則化効果有 ● BERT 等の事前学習済みモデルにおいてはモデルの重みを固定して提案法を適用し、CLS トークンを用いて予測を行うことが可能 ➜ 後続の研究で同様のアイディアが調査されていることを議論汎用的な構成を有する広告運用を支援する枠組みに関する議論 ● 本研究では注意を有する RNN を用いて運用支援の枠組みを構築 ○ 提案する運用支援の枠組みは汎用的であるため、広告テキストの処理を担うテキストエンコーダは Transformer に変更可能 ● 注意 RNN の解釈性の研究は Transformer よりも多く実績あり ➜ 成熟した技術が好まれるビジネスにおいては利点が多いと考えられる 119 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 120

Slide 120 text

本研究における解釈性の議論 | 基礎研究的側面 1/2 第2章: 注意に対して敵対的学習を適用することにより、注意と勾配による重要度の相関が高くなった ● “Attention is not explanation” と指摘されたベースラインモデルにおいても、注意と勾配のピアソン相関は正の相関を示す傾向 ○ もともと注意と勾配は同様の解釈を一定の程度与えていた ● 提案手法の効果により、タスクを予測するのに重要な単語により注意が当たるようにモデルが学習 ○ 重要そうな単語に勾配が流れることで、ノイジーな勾配がクリーンに ● 上記学習で得られた根拠箇所はタスクを解くために重要な単語に注意・勾配ともに活性化しており、人間にとっても解釈しやすい単語が選ばれていると考えられる ➜ 第 3 章にて人手でアノテーションされた根拠箇所との一致度評価へ 120 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 121

Slide 121 text

本研究における解釈性の議論 | 基礎研究的側面 2/2 第3章: 人手でアノテーションされた根拠箇所との一致度評価 ● 提案法はベースラインモデルよりも一致度が高かった ○ 人手によって根拠としてラベル付けされた箇所はタスクを解くために十分な情報があり、”faithfulness” (忠実さ) の観点から解釈性が高い ■ “モデルが提供する説明は、当該モデルが予測を下すために実際に使用した情報を反映していれば、忠実であると言える。” [Lipton Queue’18] 上記を踏まえ “Attention is not explanation” と主張された注意機構に対する解釈性について、我々は異なる結論を唱える ● 主張の元となった順位相関による分析は必ずしも適切とは言えない ● 提案法によって異なる解釈手法が同じ傾向の解釈を示すようになり聞き手の理解を助ける信頼性の高い解釈を提供することが可能に ○ 注意と勾配が同時に間違った根拠を示すことも考えられる ■ 解釈の信頼性を下げてしまうため、さらなる調査が必要 121 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 122

Slide 122 text

本研究における解釈性の議論 | 応用研究的側面 1/3 説明可能 AI に求められる有益性 [Arrieta+ Inf. Fusion’20] に焦点 ● 適切な運用の意思決定ができるように情報を提供することが重要 ○ 本研究で取り組んだ計算機広告分野の課題は多くが人手に頼っている ➜ そもそも多くの課題は定式化されていない ○ 広告運用の諸問題をまず定式化し初期的な解釈を提示しただけでも学術的・産業的に大きな貢献であると考えている ● 配信効果の高い広告作成の支援にあたり、ユーザの興味を捉えたキーワードを解釈可能な形で広告作成者や運用者に提供可能に ○ 単純な集計 (e.g., キーワードとコンバージョンの相関) では見つけられなかったものが多い ➜ 提案する枠組みが文脈や広告の属性を考慮可能であるため ○ 提案法では売上に直接寄与する魅力的な広告テキスト作成のために広告作成者へ有益な解釈を提示することを可能とした 122 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 123

Slide 123 text

本研究における解釈性の議論 | 応用研究的側面 2/3 配信効果が低い広告に対する細かい単位の停止予測による運用者の意思決定支援 ● そもそも広告の停止予測という課題に対して、MLモデルを使って解決するという取り組み自体が学術的に新しい ○ 従来の ML モデルによる意思決定支援を行うこと自体が新しく、運用者の仕事や売上に大きな影響を与えることが可能 ○ 生存時間予測の枠組みで、より詳細な予測結果を提示可能 ➜ 分類や回帰の枠組みでは部分的な予測しか提示ができず運用者が意思決定に必要な詳細な予測が提示できない ● 運用者は細かい単位での予測結果を元に、停止の意思決定を行うことができるため、提案法は非常に有益な運用支援を実現 ○ 有益性の高い説明可能 AI の実現 123 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 124

Slide 124 text

本研究における解釈性の議論 | 応用研究的側面 3/3 配信効果が低い広告の停止支援を行うにあたり停止予測に寄与するキーワードを解釈可能な形で運用者に提供 ● 運用者の経験を元に停止を決められていたものをDL モデルがその意思決定パターンを学習することで停止パターンが顕在化 ○ 短期: ユーザが興味を示さなかった単語表現 ➜ 停止決定判断に利用されるが、すぐ停止されてしまう効果の悪い広告の特徴としても捉えることが可能で広告制作にも影響 ○ 長期: 旬ではなくなった時事的な単語表現 ➜ 長期で配信されていると流行に沿わなくなったキーワードが含まれており、摩耗をより増長させる可能性 ● 情報公開の制約のため本発表では具体的な解釈性の評価は公開NG ○ 一方で提案法は広告運用者に日々予測を提供しており、注意による解釈が停止業務を支援していることは事実 ○ ビジネス的にも大きな影響ある業務に対して適切な解釈を提供 124 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 125

Slide 125 text

本研究が後続に与えた影響 | 基礎研究的側面 “注意機構に対する敵対的学習の導入” というアイディアの影響 ● 時空間推論における RoBERTa [Liu+ CoRR’19] (Transformer ベースモデル) に対する類似アイディアの適用 [Pereira+ PACLIC’21, Pereira+ LREC’22] ○ 埋め込みに AT/VAT を適用すると同時に注意にも適用 ➜ ランダムに層を選んで適用することでモデルの汎化性能向上摂動に脆弱な注意をより stable & explainable にする取り組み ● 我々と同様の動機から新たな注意機構を提案 [Hu+ AAAI’23] ○ 我々の手法を適用した RNN や BERT 等で比較我々のアイディアの制限: 敵対的摂動の計算による計算量の増大 ● 近年の大規模事前学習モデルにおける事前学習の段階での使用ではさらなる計算量の増大となる点が難点 ● Fine-tuning の段階で提案法を使用することで部分的に緩和 ○ 少ないデータ数に対する学習において汎化性能向上を期待 125 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 126

Slide 126 text

本研究が後続に与えた影響 | 応用研究的側面比較的新しい計算機広告分野における新たな副分野の開拓 ● 広告クリエイティブに着目した分析的な研究は以前より存在 [Thomaidou+ DED&M’13, Thomaidou+ CIKM’13] ○ 実際の運用の立場から問題解決する観点は非常に少ない効果の高い広告クリエイティブに関する運用支援 ● 運用支援に関して我々を含めた研究が2019 年ごろに登場し始める ○ 広告クリエイティブの作成支援という新たな研究の流れに効果の低い広告クリエイティブに関する運用支援 ● 従来は広告クリエイティブの配信を担う手法で擬似的に停止を支援 ○ あくまで擬似的で停止タイミングの閾値の設定は容易ではない ○ 提案法はビジネス上重要な運用を直接支援した初めての研究 126 第6章: 議論本研究成果の適用範囲 > 本研究における解釈性 > 後続研究に与えた影響

Slide 127

Slide 127 text

第7章: 結論 127

Slide 128

Slide 128 text

128 発表の流れ第2章 [Kitada+ IEEE Access’21] 注意機構に対する敵対的学習教師あり学習第3章 [Kitada+ Appl. Intell.’22] 注意機構に対する仮想敵対的学習半教師あり学習第4章 [Kitada+ KDD’19] 注意機構を元にした枠組みによる広告クリエイティブの効果予測第5章 [Kitada+ Appl. Sci.’22] 注意機構を元にした枠組みによる広告クリエイティブの停止予測第1章導入基礎・応用研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上第6章結論注意機構を頑健にする手法の提案・実世界の大規模データによる有効性の実証半教師あり学習へ拡張広告入稿前と後各運用を支援効果の高い広告の運用支援大量に得られるラベルなしデータの有効活用効果の低い広告の運用支援

Slide 129

Slide 129 text

結論 | 基礎・応用研究の観点からの注意機構による予測性能・モデルの解釈可能性の向上基礎研究の側面 ● 予測性能の向上 ○ 昨今の DL モデルに広く利用されている注意機構の問題克服 ■ 注意機構におけるノイズ・摂動に対する脆弱性の解消 ● 解釈性の向上 ○ 複数の根拠提示手法が同一の根拠を示すことによる信頼性向上 ○ 明確な注意を学習・提示することによるで容易な解釈を提示応用研究の側面 ● 予測性能の向上 ○ 計算機広告分野の運用上の実問題を取り上げて定式化 ■ 注意機構を取り入れ実世界の課題を高い精度で予測可能に ● 解釈性の向上 ○ ビジネス上重要となる効果の高い広告の特徴や、効果の低い広告を停止する際に運用者に根拠を提示 129 第7章: 結論

Slide 130

Slide 130 text

今後の展望基礎研究からの側面（第2〜3章） ● RNN ベースのモデルから、Transformer ベースのモデルへ ○ 注意機構が一部使われているモデルから、全体が注意機構から構成されているモデルにおける提案法の有効性確認 ○ Transformer ベースのモデルの解釈性確認やその性能向上応用研究からの側面（第4〜5章） ● 計算機広告分野以外での注意機構を有する DL モデルの実用性評価 ○ 情報検索や推薦等の実用的なドメインでのさらなる有効性検証 ■ 上記の領域で実データを用いた検証は未だに少ない ○ ChatGPT [OpenAI’22] 等の対話を元にした実応用手法への着目 ■ これまでとは完全に異なるパラダイムにおける “解釈性” の定義やその性質の検討 130 第7章: 結論

Slide 131

Slide 131 text

業績 | 原著論文（査読付き） 1. Shunsuke Kitada, Yuki Iwazaki, Riku Togashi, and Hitoshi Iyatomi. “DM2S2: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention,'' IEEE Access, vol. 10, pp. 120023-120034, 2022. 2. Shunsuke Kitada and Hitoshi Iyatomi. “Making attention mechanisms more robust and interpretable with virtual adversarial training,” Springer Applied Intelligence, 2022. (第3章に対応) 3. Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi Seki. “Ad Creative Discontinuation Prediction with Multi-Modal Multi-Task Neural Survival Networks,” Applied Sciences 12.7, 2022. (第5章に対応) 4. Shunsuke Kitada and Hitoshi Iyatomi. “Attention meets perturbations: Robust and interpretable attention with adversarial training,” IEEE Access, vol. 9, pp 92974-92985, 2021. (第2章に対応) 131 付録

Slide 132

Slide 132 text

業績 | 国際会議発表（査読付き） 1. Ohata Kazuya, Shunsuke Kitada, and Hitoshi Iyatomi. “Feedback is Needed for Retakes: An Explainable Poor Image Notification Framework for the Visually Impaired,” Proc. of IEEE HONET, 2022. 2. Tsubasa Nakagawa, Shunsuke Kitada, and Hitoshi Iyatomi. “Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents,” Proc. of CIKM, 2022. 3. Takumi Aoki, Shunsuke Kitada, and Hitoshi Iyatomi. “Text Classification through Glyph-aware Disentangled Character Embedding and Semantic Sub-character Augmentation,” Proc. of AACL-IJCNLP SRW, 2020. 4. Mahmoud Daif, Shunsuke Kitada, and Hitoshi Iyatomi. “AraDIC: Arabic Document Classification Using Image-Based Character Embeddings and Class-Balanced Loss,” Proc. of ACL SRW, 2020 132 付録

Slide 133

Slide 133 text

業績 | 国際会議発表（査読付き） 5. Shunsuke Kitada, Hitoshi Iyatomi, and Yoshifumi Seki. “Conversion prediction using multi-task conditional attention networks to support the creation of eﬀective ad creatives,” Proc. of KDD, 2019. (第4章に対応) 6. Shunsuke Kitada, Ryunosuke Kotani, and Hitoshi Iyatomi. “End-to-end text classiﬁcation via image-based embedding using character-level networks,” Proc. of IEEE AIPRW, 2018. 133 付録

Slide 134

Slide 134 text

業績 | 受賞および研究費獲得受賞 1. NLP 若手の会第 14 回シンポジウム奨励賞受賞（2019年8月28日） 2. 情報処理学会第 81 回全国大会学生奨励賞受賞（2019年3月15日） 134 付録研究費 ● JSPS KAKENHI 21J14143 (特別研究員奨励費). “摂動に頑健で解釈可能な深層学習モデルの開発とその解釈性の評価”