Slide 1

Slide 1 text

2022年9月26日 KDD2022論文読み会 🇺🇸KDD2022参加報告🇺🇸 LINE株式会社 栗本真太郎

Slide 2

Slide 2 text

2/25 • 栗本 真太郎(@kuri8ive) • データサイエンティスト @LINE株式会社 Ad Data Scienceチーム • 主にLINE NEWS周りの意思決定支援や広告分析を担当 • 推薦システム、ユーザーモデリングの話題が好き • ユーザー体験を毀損せず収益は向上させる広告を実現したい 自己紹介

Slide 3

Slide 3 text

3/25 • KDD2022概要 • チュートリアル(2つ) • ワークショップ(AdKDD) • 本会議(RT、ADS) • 交流 • KDD2023 話すこと 以降、会場写真・論文の図・チュートリアルの表紙以外で特に断りのない写真は報告者が撮影した写真です

Slide 4

Slide 4 text

4/25 • データマイニング分野のトップ会議*1 • 産業界の影響が強い • Research Trackのほかに、Applied Data Scienceという応用寄りのトラックがある (むしろそっちの方が盛況) • スケーラビリティのような企業での運用時に気になる点も重視される印象 • Important Policyとして"Reproducibility"が明記 KDD2022概要 *1 機械学習・データマイニング分野の概要 https://www.kamishima.net/archive/mldm-overview.pdf 画像引用元 https://kdd.org/kdd2022/

Slide 5

Slide 5 text

5/25 • 3年ぶりのオフライン開催 • 過去2年はオンライン • 参加者数 • 2090(3年前は3194) • 中国(本土)の方はVISA出なかったらしい • 感染対策 • 原則マスク着用 • スポンサー • Meta、Criteo、LinkedIn、Apple、Amazon、 The Home Depot、NEC、Baidu、Microsoftなど KDD2022概要 画像引用元 https://kdd.org/kdd2022/

Slide 6

Slide 6 text

6/25 Counterfactual Evaluation and Learning for Interactive Systems • オフ方策学習の基本から近年の発展を概観、といった内容 • 分野の知識がない人にも分かりやすい資料だった • かなり盛況で質問もよく飛んでおり、関心の高まりを感じた チュートリアル(1/2)

Slide 7

Slide 7 text

7/25 Advances in Exploratory Data Analysis, Visualisation and Quality for Data Centric AI Systems • EDAに関する近年の研究紹介的な内容 • EDAで半日持つのか?と思っていたが、EDBTなどで研究いろいろあった • データあげたらいい感じの洞察くれるツールの普及も近い…?(失職) チュートリアル(2/2)

Slide 8

Slide 8 text

8/25 AdKDD • 広告に特化した研究発表会 • Big Techだらけの中、楽天から発表があってカッコよかった • Best Paper • Learning to Bid with AuctionGym ワークショップ

Slide 9

Slide 9 text

9/25 Learning to Bid with AuctionGym • オンライン広告オークションにおける広告の割り当てと 入札に対するバンディットおよび強化学習アプローチの オフライン評価を再現可能にするシミュレーション環境 1. 観測データは観測されない交絡に悩まされ、 幅広い介入を伴う実験データは入手にコストがかかる 2. オフライン実験はGoodhartの法則に悩まされる、などの理由から 「入札への学習」アプローチのオフライン評価は一筋縄ではいかない 3. この問題向けの公開データセットが存在していなかった →実務で扱う問題を検証するための環境を用意した点が高く評価されたよう ワークショップ Best Paperの紹介

Slide 10

Slide 10 text

10/25 • グラフがとても多い • 去年と比べ、 • "Transformer"、"Contrastive"(対照学習)、"Fair"などが増加 本会議:Research Trackの概観 今年の頻出単語 去年より増えた単語

Slide 11

Slide 11 text

11/25 • 採択率15.26%(:= 254/1665) • Best Paper • Learning Causal Effects on Hypergraphs • Best Paper Runner-up • Partial-Quasi-Newton Methods: Efficient Algorithms for Minimax Optimization Problems with Unbalanced Dimensionality 本会議:Research Trackの概観

Slide 12

Slide 12 text

12/25 Learning Causal Effects on Hypergraphs • ハイパーグラフにおける個別治療効果(ITE)推定を扱った研究 • ある介入(e.g. 顔を覆う服装)が 各ノードの結果(e.g. COVID-19感染)に どの程度因果的に影響を与えるかを推定 • 既存の研究の仮定は非現実的 • ある個体の結果が他の個体の治療割り当てに 影響されない(i.e. 干渉がない)ことを仮定するか、 干渉は通常のグラフで接続された 個体のペアの間にのみ存在すると仮定 • 高次干渉をモデル化したフレームワークを提案 本会議:Research Track Best Paperの紹介

Slide 13

Slide 13 text

13/25 Partial-Quasi-Newton Methods: Efficient Algorithms for Minimax Optimization Problems with Unbalanced Dimensionality • 次元が不均衡な場合の強凸・強凹ミニマックス最適化 • 従来の反復アルゴリズムはオラクルの呼び出し回数の削減に重点 • 2つの異なる変数からの情報にアクセスするための不均衡な計算コストを無視 • Partial-Quasi-Newton (PQN) 法を提案 • 既存のミニマックス最適化アルゴリズムより高速に鞍点に収束することを理論的に証明 本会議:Research Track Best Paper Runner-upの紹介

Slide 14

Slide 14 text

14/25 • 投稿が多い分野 • Domain Specific Applications (e.g. Health, Legal, etc.) • Recommendation Systems • Search & Information Retrieval • Knowledge Collection, Mining, and Management • Abnormal Detection, Adversarial Attacks & Robustness 本会議:Applied Data Scienceの概観

Slide 15

Slide 15 text

15/25 • 投稿が多い国 • アメリカ • 中国(本土) • 韓国 • 日本 • インド 本会議:Applied Data Scienceの概観

Slide 16

Slide 16 text

16/25 • グラフは多いが、RTほど断トツではなく"Online"や"System"なども多い • 去年と比べ、 • "Generation"、"Reinforcement"、"Language"などが増加 本会議:Applied Data Scienceの概観 今年の頻出単語 去年より増えた単語

Slide 17

Slide 17 text

17/25 • 採択率26.03%(:= 196/749) • 参考)去年の採択率 18.06%(:= 138/705) • Best Paper • FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning • Best Paper Runner-up • Greykite: Deploying Flexible Forecasting at Scale at LinkedIn 本会議:Applied Data Scienceの概観

Slide 18

Slide 18 text

18/25 FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning • グラフ向け連合学習フレームワークが 存在せず実展開に障壁 • FederatedScope-GNN パッケージとして実装し公開 本会議:Applied Data Science Best Paperの紹介

Slide 19

Slide 19 text

19/25 Greykite: Deploying Flexible Forecasting at Scale at LinkedIn • LinkedInで20以上のユースケースに展開されている 予測のためのライブラリGreykiteを紹介 • 主要なアルゴリズムであるSilverkiteは、 時間的に変化する成長や季節性、自己相関、休日などの効果を捉える、 解釈可能で高速、かつ非常に柔軟な一変量予測を提供 本会議:Applied Data Science Best Paper Runner-upの紹介

Slide 20

Slide 20 text

20/25 • 元々話そうねという予定があった人以外に10名くらいと交流できた • うち半分くらいはオンライン開催だったら接点生まれなかった気がする • 例)チュートリアルで隣に座った方 • 日本からの参加者の多くとお話しすることができた 交流

Slide 21

Slide 21 text

21/25 • ロサンゼルス(ロングビーチ)開催 • 特集するかも領域 • 環境 • 多様性 • 健康 • 人間とAIのインタラクション • 量子計算 KDD2023

Slide 22

Slide 22 text

22/25 • 個人的に気になった論文 • Non-stationary A/B Tests • A/B Testing Intuition Busters: Common Misunderstandings in Online Controlled Experiments • Surrogate for Long-Term User Experience in Recommender Systems 時間に余裕あった時のおまけ

Slide 23

Slide 23 text

23/25 Non-stationary A/B Tests • 非定常性への対応が不十分な場合、 A/Bテストが統計的に非効率または無効となり 誤った結論に至る可能性があることを示した • 既存のA/Bテスト手順のインフラを変えることなく、 時間を連続共変量と見なし、 サンプルに依存した層別レベルの数で層別後の推定を行う推定量を提案 • A/Bテストの実験計画段階において、時間非定常性が存在する場合に 治療と対照の割り当てをより良いバランスにするための 時間群別無作為化手法を提案 本会議:Research Track 気になった論文の紹介

Slide 24

Slide 24 text

24/25 A/B Testing Intuition Busters: Common Misunderstandings in Online Controlled Experiments • おなじみカバ本著者の発表 • ありがちな誤解がなぜ正しくないのかを説明し、その対処法を解説 • DS(業務をする方)は読むと良さそう 本会議:Applied Data Science 気になった論文の紹介

Slide 25

Slide 25 text

25/25 Surrogate for Long-Term User Experience in Recommender Systems • 長期的な成果と単一の推薦との間の接続が弱いため、 短期間で長期的な成果の最適化は非常に困難 • ユーザーの長期的な訪問頻度の変化に対して 強い予測力を持つサブセットをピンポイントで特定する手順を標準化 • 強化学習ベースの推薦システムにおいて、 長期的なユーザー経験に対する報酬の代用として 特定されたユーザー行動のサブセットを組み込むことで検証 本会議:Applied Data Science 気になった論文の紹介