$30 off During Our Annual Pro Sale. View Details »

KDD2022参加報告

 KDD2022参加報告

LINE株式会社 栗本真太郎 @kuri8ive
2022/09/26 KDD2022 論文読み会での発表資料です
https://line.connpass.com/event/258930/

LINE Developers
PRO

September 26, 2022
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 2022年9月26日 KDD2022論文読み会 🇺🇸KDD2022参加報告🇺🇸 LINE株式会社 栗本真太郎

  2. 2/25 • 栗本 真太郎(@kuri8ive) • データサイエンティスト @LINE株式会社 Ad Data Scienceチーム

    • 主にLINE NEWS周りの意思決定支援や広告分析を担当 • 推薦システム、ユーザーモデリングの話題が好き • ユーザー体験を毀損せず収益は向上させる広告を実現したい 自己紹介
  3. 3/25 • KDD2022概要 • チュートリアル(2つ) • ワークショップ(AdKDD) • 本会議(RT、ADS) •

    交流 • KDD2023 話すこと 以降、会場写真・論文の図・チュートリアルの表紙以外で特に断りのない写真は報告者が撮影した写真です
  4. 4/25 • データマイニング分野のトップ会議*1 • 産業界の影響が強い • Research Trackのほかに、Applied Data Scienceという応用寄りのトラックがある

    (むしろそっちの方が盛況) • スケーラビリティのような企業での運用時に気になる点も重視される印象 • Important Policyとして"Reproducibility"が明記 KDD2022概要 *1 機械学習・データマイニング分野の概要 https://www.kamishima.net/archive/mldm-overview.pdf 画像引用元 https://kdd.org/kdd2022/
  5. 5/25 • 3年ぶりのオフライン開催 • 過去2年はオンライン • 参加者数 • 2090(3年前は3194) •

    中国(本土)の方はVISA出なかったらしい • 感染対策 • 原則マスク着用 • スポンサー • Meta、Criteo、LinkedIn、Apple、Amazon、 The Home Depot、NEC、Baidu、Microsoftなど KDD2022概要 画像引用元 https://kdd.org/kdd2022/
  6. 6/25 Counterfactual Evaluation and Learning for Interactive Systems • オフ方策学習の基本から近年の発展を概観、といった内容

    • 分野の知識がない人にも分かりやすい資料だった • かなり盛況で質問もよく飛んでおり、関心の高まりを感じた チュートリアル(1/2)
  7. 7/25 Advances in Exploratory Data Analysis, Visualisation and Quality for

    Data Centric AI Systems • EDAに関する近年の研究紹介的な内容 • EDAで半日持つのか?と思っていたが、EDBTなどで研究いろいろあった • データあげたらいい感じの洞察くれるツールの普及も近い…?(失職) チュートリアル(2/2)
  8. 8/25 AdKDD • 広告に特化した研究発表会 • Big Techだらけの中、楽天から発表があってカッコよかった • Best Paper

    • Learning to Bid with AuctionGym ワークショップ
  9. 9/25 Learning to Bid with AuctionGym • オンライン広告オークションにおける広告の割り当てと 入札に対するバンディットおよび強化学習アプローチの オフライン評価を再現可能にするシミュレーション環境

    1. 観測データは観測されない交絡に悩まされ、 幅広い介入を伴う実験データは入手にコストがかかる 2. オフライン実験はGoodhartの法則に悩まされる、などの理由から 「入札への学習」アプローチのオフライン評価は一筋縄ではいかない 3. この問題向けの公開データセットが存在していなかった →実務で扱う問題を検証するための環境を用意した点が高く評価されたよう ワークショップ Best Paperの紹介
  10. 10/25 • グラフがとても多い • 去年と比べ、 • "Transformer"、"Contrastive"(対照学習)、"Fair"などが増加 本会議:Research Trackの概観 今年の頻出単語

    去年より増えた単語
  11. 11/25 • 採択率15.26%(:= 254/1665) • Best Paper • Learning Causal

    Effects on Hypergraphs • Best Paper Runner-up • Partial-Quasi-Newton Methods: Efficient Algorithms for Minimax Optimization Problems with Unbalanced Dimensionality 本会議:Research Trackの概観
  12. 12/25 Learning Causal Effects on Hypergraphs • ハイパーグラフにおける個別治療効果(ITE)推定を扱った研究 • ある介入(e.g.

    顔を覆う服装)が 各ノードの結果(e.g. COVID-19感染)に どの程度因果的に影響を与えるかを推定 • 既存の研究の仮定は非現実的 • ある個体の結果が他の個体の治療割り当てに 影響されない(i.e. 干渉がない)ことを仮定するか、 干渉は通常のグラフで接続された 個体のペアの間にのみ存在すると仮定 • 高次干渉をモデル化したフレームワークを提案 本会議:Research Track Best Paperの紹介
  13. 13/25 Partial-Quasi-Newton Methods: Efficient Algorithms for Minimax Optimization Problems with

    Unbalanced Dimensionality • 次元が不均衡な場合の強凸・強凹ミニマックス最適化 • 従来の反復アルゴリズムはオラクルの呼び出し回数の削減に重点 • 2つの異なる変数からの情報にアクセスするための不均衡な計算コストを無視 • Partial-Quasi-Newton (PQN) 法を提案 • 既存のミニマックス最適化アルゴリズムより高速に鞍点に収束することを理論的に証明 本会議:Research Track Best Paper Runner-upの紹介
  14. 14/25 • 投稿が多い分野 • Domain Specific Applications (e.g. Health, Legal,

    etc.) • Recommendation Systems • Search & Information Retrieval • Knowledge Collection, Mining, and Management • Abnormal Detection, Adversarial Attacks & Robustness 本会議:Applied Data Scienceの概観
  15. 15/25 • 投稿が多い国 • アメリカ • 中国(本土) • 韓国 •

    日本 • インド 本会議:Applied Data Scienceの概観
  16. 16/25 • グラフは多いが、RTほど断トツではなく"Online"や"System"なども多い • 去年と比べ、 • "Generation"、"Reinforcement"、"Language"などが増加 本会議:Applied Data Scienceの概観

    今年の頻出単語 去年より増えた単語
  17. 17/25 • 採択率26.03%(:= 196/749) • 参考)去年の採択率 18.06%(:= 138/705) • Best

    Paper • FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning • Best Paper Runner-up • Greykite: Deploying Flexible Forecasting at Scale at LinkedIn 本会議:Applied Data Scienceの概観
  18. 18/25 FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for

    Federated Graph Learning • グラフ向け連合学習フレームワークが 存在せず実展開に障壁 • FederatedScope-GNN パッケージとして実装し公開 本会議:Applied Data Science Best Paperの紹介
  19. 19/25 Greykite: Deploying Flexible Forecasting at Scale at LinkedIn •

    LinkedInで20以上のユースケースに展開されている 予測のためのライブラリGreykiteを紹介 • 主要なアルゴリズムであるSilverkiteは、 時間的に変化する成長や季節性、自己相関、休日などの効果を捉える、 解釈可能で高速、かつ非常に柔軟な一変量予測を提供 本会議:Applied Data Science Best Paper Runner-upの紹介
  20. 20/25 • 元々話そうねという予定があった人以外に10名くらいと交流できた • うち半分くらいはオンライン開催だったら接点生まれなかった気がする • 例)チュートリアルで隣に座った方 • 日本からの参加者の多くとお話しすることができた 交流

  21. 21/25 • ロサンゼルス(ロングビーチ)開催 • 特集するかも領域 • 環境 • 多様性 •

    健康 • 人間とAIのインタラクション • 量子計算 KDD2023
  22. 22/25 • 個人的に気になった論文 • Non-stationary A/B Tests • A/B Testing

    Intuition Busters: Common Misunderstandings in Online Controlled Experiments • Surrogate for Long-Term User Experience in Recommender Systems 時間に余裕あった時のおまけ
  23. 23/25 Non-stationary A/B Tests • 非定常性への対応が不十分な場合、 A/Bテストが統計的に非効率または無効となり 誤った結論に至る可能性があることを示した • 既存のA/Bテスト手順のインフラを変えることなく、

    時間を連続共変量と見なし、 サンプルに依存した層別レベルの数で層別後の推定を行う推定量を提案 • A/Bテストの実験計画段階において、時間非定常性が存在する場合に 治療と対照の割り当てをより良いバランスにするための 時間群別無作為化手法を提案 本会議:Research Track 気になった論文の紹介
  24. 24/25 A/B Testing Intuition Busters: Common Misunderstandings in Online Controlled

    Experiments • おなじみカバ本著者の発表 • ありがちな誤解がなぜ正しくないのかを説明し、その対処法を解説 • DS(業務をする方)は読むと良さそう 本会議:Applied Data Science 気になった論文の紹介
  25. 25/25 Surrogate for Long-Term User Experience in Recommender Systems •

    長期的な成果と単一の推薦との間の接続が弱いため、 短期間で長期的な成果の最適化は非常に困難 • ユーザーの長期的な訪問頻度の変化に対して 強い予測力を持つサブセットをピンポイントで特定する手順を標準化 • 強化学習ベースの推薦システムにおいて、 長期的なユーザー経験に対する報酬の代用として 特定されたユーザー行動のサブセットを組み込むことで検証 本会議:Applied Data Science 気になった論文の紹介