Slide 1

Slide 1 text

KDD2024参加報告 株式会社サイバーエージェント  須ヶ﨑 聖人  干飯 啓太  杉山 侑吏

Slide 2

Slide 2 text

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations 3. KDD Cup 4. こぼれ話

Slide 3

Slide 3 text

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations 3. KDD Cup 4. こぼれ話

Slide 4

Slide 4 text

KDDの概要 Knowledge Discovery and Data Mining データマイニング関連のトップ国際会議 ● Tutorial/Workshop: ドメインに特化したワークショップ ● Key session: 招待公演 ● oral presentation(15パラレルぐらい) ● poster presentation ● KDD cup: 企業主催のコンペティション で構成されている

Slide 5

Slide 5 text

開催地 ● スペイン󰎼のバルセロナで開催 ○ Centre de Convencions Internacional de Barcelona ● Diagonal Marというショッピングモールの横

Slide 6

Slide 6 text

Attendee/Sessions 参加者: 2,284人  参加者・発表者共に中国人が多かった  (2/5ぐらいは中国人) 招待講演: 12件 論文数:  研究トラック: 411本(56セッション)  ADSトラック: 151本(24セッション) ワークショップ: 30 チュートリアル: 34

Slide 7

Slide 7 text

Meet up 様々な参加者企画のmeet upが開催されている

Slide 8

Slide 8 text

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations 3. KDD Cup 4. こぼれ話

Slide 9

Slide 9 text

研究トレンド テーマ LLMの使い方や,LLM+何かがめちゃくちゃ多い 適用先はGraphデータ,時系列データ,もちろんテキストデータなどなんでもある ADSでは,Attention networkなどの適用事例も多い プレゼンター 中国系企業が関連した発表が多い 次点で米系企業

Slide 10

Slide 10 text

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations 3. KDD Cup 4. こぼれ話

Slide 11

Slide 11 text

Tutorial: Advances in Human Event Modeling: From Graph Neural Networks to Language Models ● 社会のイベントの説明付きの予測をする問題についての Tutorial ○ 誰が選挙勝つのかをSNSから予測するイメージ ● G-NNsがメジャーで,最近はLLMも使われ始めた ● LLMのリーク・ハルシネーション・バイアスがこの分野でもかなり課題 slide: https://songgaojundeng.github.io/kdd24-tutorial.html

Slide 12

Slide 12 text

Workshop: The 13th International Workshop on Urban Computing (Urbcomp 2024) ● 都市データにフォーカスしたデータマイニングのワークショップ ● 位置情報データ x LLMという話題が多く,直接言語データでないので 工夫があり面白い

Slide 13

Slide 13 text

Be More Real: Travel Diary Generation Using LLM Agents and Individual Profiles (Urbcomp 2024) ● 都市の移動履歴の擬似データ生成を LLMを利用して行う論文 ● 性別、年齢、収入、交通手段などのきめ細かいグループ属性を考慮して詳細 な移動パターンを作成 ● ペルソナに合わせたデータ生成ができて面白い ○ 未知レベルの詳細な経路は出ない

Slide 14

Slide 14 text

PLM4Traj: Leveraging Pre-trained Language Models for Cognizing Movement Patterns and Travel Purposes from Trajectories (Urbcomp 2024) ● 時空間情報と,POIの説明(自然言語)を同時にモデリングするためLLMでEmbeddingをかける 論文 ● 自然言語の説明がついた数値データはLLMでEmbeddingしてうまくいくパターンがある

Slide 15

Slide 15 text

RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models (Tutorial) ● 対象: ○ 大規模言語モデルなどに関する基本的な知識を備えた人 ○ 大学3-4年生の講義で提供するレベル ● 得られる内容: ○ RAGに関する包括的な理解が得られる ○ 個別の問題に対する具体的な解決策の設計をできるようになる ● 所感: ○ スライド版も公開されており概観を知りたい場合はおすすめ ○ 図解も多いので、ビジネスの方でもより詳しく知りたい方には良いのではないか →Part1の概要とPart4の実応用例の部分から入っても問題ない認識

Slide 16

Slide 16 text

Grounding and Evaluation for Large Language Models (Tutorial) ※リアルタイム参加していないのですが Meet upでオススメされたので情報だけ共有 ● 対象: ○ 生成AIを実アプリケーションで導入している実務者 ○ (関連トピックの研究者も?) ● 得られる内容: ○ 生成AIシステムに関連する主要な問題点に関する実務的な対応方法例 ○ 特にハルシネーションやプロンプトインジェクション攻撃 ...など ● 所感: ○ 実サービス導入の際に起こり得るリスクと対応例が網羅的にレビューされているのでハンドブッ ク的に利用できそう ○ スライド版も公開されており概観を知りたい場合はおすすめ ○ 今後KDDのプレゼンの録画も公開されるらしい

Slide 17

Slide 17 text

3rd Workshop on End-End Customer Journey Optimization ● 内容: ○ 顧客行動に関するMLの研究はクリック率や広告配置など短期的な指標を見ることが多い ○ 本来はプラットフォームの長期的な価値やチャーンなど、顧客体験のあらゆる側面に焦点を当て るべき ● 全体所感: ○ Key Noteのみならず、contribution talkも示唆が多かった ○ 店内行動などオフラインの行動に関する話も期待していたが、それはなし ○ 後ほどランチで理由を聞いたところ ... ■ 本来はオフラインも重要 ■ ただしデータから個人識別しきれないのでやっていない ● Contribution talk(抜粋): ○ Image Score: Learning and Evaluating Human Preferences for Mercari Search →LLMでメルカリ出品における「良い」画像を評価

Slide 18

Slide 18 text

3rd Workshop on End-End Customer Journey Optimization Invited Talk: Quality Foundations at Airbnb ● モチベーション ○ 最初の数回の体験がその後の継続率に大きく影響する ○ 一方、全体レビュー評価は 4-5に寄ってしまうので適切にクオリティを表現できていない ○ その後の継続に繋がりやすいホストを高く評価することは可能? ● 解決策 ○ その次の予約に効く Airbnbのサブカテゴリ評価の係数を取得 ○ それをもとに重み付けした全体評価指数を新たに作成 ● 評価 ○ 新評価指標の分布 ○ Google検索IVを使って、新評価指数が高いとその後の予約に繋がるのか検証

Slide 19

Slide 19 text

3rd Workshop on End-End Customer Journey Optimization Invited Talk: Quality Foundations at Airbnb

Slide 20

Slide 20 text

Bandit as a model selection Tutorial: Multi-Armed Bandit Applications for Large Language Models ● テキスト要約するタスクがあった時のLLMの選択方法 ● バンディットについて網羅的にまとめている(資料) ● 問題設定:LLMのモデル選択へのBanditの適用(テキスト要約) ● ポイント: ○ 報酬はモデルの性能(何かしらのスコア)とコストの両方を考慮する ○ イメージ: alpha * 性能 - beta * コスト(alphaとbetaはハイパーパラメータ)

Slide 21

Slide 21 text

Bandit for Prompt optimization Tutorial: Multi-Armed Bandit Applications for Large Language Models ● 最適なプロンプト選択にLLMを使う ● 問題設定:LLMのモデル選択へのBanditの適用(テキスト要約) ● ポイント: ○ LLMを関数とみなす ○ テキスト + プロンプトを入力とみなす ○ CoTなどに拡張したものもある ● 流れ ○ LLMに候補となるプロンプトを生成させる ○ 出力の尤度&対数尤度をとる(APIなどで取れる) ○ 高スコア(log確率の低いもの)を選択 ○ 候補の中から似ているプロンプトをLLMが選択

Slide 22

Slide 22 text

Jump Starting Bandits with LLM-Generated Prior Knowledge Tutorial: Multi-Armed Bandit Applications for Large Language Models ● コールドスタート問題をLLMを使って軽減させようという話 ● ユーザのコンテキストや過去の行動データからLLMで複数の メッセージを生成 ○ 例: 「おすすめの映画はアクション映画です。」 ○ 例: 「あなたにぴったりの映画はサスペンス映画です。」 ● LLMがユーザの嗜好に合わせて仮想的なフィードバックを提供 ● アームを更新

Slide 23

Slide 23 text

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations 3. KDD Cup 4. こぼれ話

Slide 24

Slide 24 text

Learning to Rank for Maps at Airbnb ADS Track: Search and Ranking ● リスト形式に対するランキングとマップ上でのランキングで考えるべきことは違うのでは? ● 問題設定:予約数を最大させるためのマップ上でのランキング表示 ● ポイント: ○ リスト形式ではランキング上位の方がCTRは高い ○ マップ形式では上位のリストにランク付けしてもまったく影響がない ○ 予約数を最大化させるにはマップ上にピンが少なければ少ない方がいい選択肢を増やしつつ最適なマップへ の表示数の問題をA/Bテストで評価 ● マップとリストのランキングに対する違いが面白いのでおすすめ ランキングごとのCTR

Slide 25

Slide 25 text

TnT-LLM: Text Mining at Scale with Large Language Models ADS Track: Generative Al Applications ● 問題設定:ラベル作成とアノテーションをLLMでできないか ● ポイント: ○ ラベル作成とアノテーションの2つを組み合わせたフレームワーク ● 流れ ○ ラベル作成 ■ 各ドキュメントの長さなどを一定にするためLLMで要約 ■ ミニバッチのドキュメント群に対してラベル作成 ■ 別のミニバッチに対して評価・ラベル作成・修正 ○ 分類 ■ 通常の予測器(LightGBMやLR)で行う

Slide 26

Slide 26 text

GRILLBot In Practice: Lessons and Tradeoffs Deploying Large Language Models for Adaptable Conversational Task Assistants ADS Track: Generative Al Applications ● 実際のタスク指向対話のシステムにLLMを使った話 ● Orchestratorモジュールをトップに置きLLMをコンポーネントとして扱う ○ LLM機能・ニューラル機能・メイン機能 ● LLMで意図理解 -> タスク特定(タスクに落ちない場合fallbackで雑談LLM) ● Neural Decision Parsersで事前定義済みのコードの実行(外部API叩くなど) ● FAQの検索に過去の文脈も入れる ● 複雑で柔軟なタスク以外はLLMを使わないあたりも経験の肌感とあっているし対話管理が面白い

Slide 27

Slide 27 text

OpenFedLLM: Training Large Language Models on Decentralized Private Data via Federated Learning ADS Track: Generative Al Applications ● LLMはデータ量と質に比例して性能が良くなるが、質の良い公開データは枯渇している ● 各組織の中にこそ質の良いデータがあるので、プライバシーを保持しながらそれらを活かせないか ● 問題設定:共同でプライバシーを保護しながら、活用されていないプライベート データで LLM を訓練する ● ポイント: ○ 差分プライバシーと互換性あり ● 流れ ○ サーバがクライアントにグローバルモデルを配布 ○ 自社データを使ってクライアントそれぞれがモデル更新 ○ クライアントがサーバにモデルをアップロード ○ サーバ側でローカルモデルを集約しグローバルモデルを更新

Slide 28

Slide 28 text

Large Scale Generative AI Text Applied to Sports and Music ADS Track: Generative Al Applications ● 生成AIの実メディアへの適用と運用の話 ○ ゴルフ: ほぼリアルタイムで関連するビデオ クリップと同期した⾳声とテキストでの解説 ○ 245のユニークなショット情報に対してアノテーションしてファインチューニング ■ 言い換えを含めた1225のground truthが作成 ● 処理の流れ ○ イベント終了時にイベントストリームへのトピックのpublish ○ LLMで推論 ○ document storeとobject storageに格納 ○ CDNを前段において配信

Slide 29

Slide 29 text

Hyper-Local Deformable Transformers for Text Spotting on Historical Maps ADS Track: Scientific Applications ● 背景: 昔の地図には歴史や文化的な重要な情報が含まれているテキストの抽出がむずかしい ○ データが少ない&効果的な手法がない ● 問題設定:昔の地図の様々な向きに描かれたテキストを抽出する ● 文字の境界をDeformable Transformerでざっくり取り出して、そのあと文字中心を取りに行く ● テーマがユニークで面白い

Slide 30

Slide 30 text

● LLMの回答の源流として,skillで解くことが重要 ○ Knowledge vs skillという整理 ■ 1+1 =2を知識として持つか,解く能力を持つか ● LLMに利用するskillを考えさせ,組み合わせることで複雑なタスクを解けるようになる (Metacognition) ● モデルが大きくなるほど,多くのスキルを組み合わせることができる. From Word Prediction to Complex Skills: Compositional Thinking and Metacognition in LLMs Keynote address

Slide 31

Slide 31 text

Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning ADS Track: Recommendations for Advertising ● MSRとMicrosoft Bing Adsの論文 ● 問題設定:ユーザーの興味に関連しながらも,新規アイテムをレコメンドしたい ● 問題点:(RLベースの手法で)新規度についてどのようにリワード計算するか ● ポイント: ○ 新しいアイテムと既存のアイテムを比較して,新規度をLLMに考えさせる ● 既存モデルの200位以内にないアイテムを,5位以内入れる割合 (Novelty@5)が おおよそ2倍になる レコメンドされる広告キーワード例

Slide 32

Slide 32 text

Frontiers of Foundation Models for Time Series Special Days: Generative AI day ● シカゴ大学Liu教授の招待講演枠(Special Days: Generative AI day) ● 時系列データの分析やデータ収集基盤が広まってきたから, 時系列データのFoundation modelを作りたいという内容 ● 内容は実用上の問題色々あるが,課題を分解したモデルは試され始めた ● 所感:まだまだ時系列データはできるのが先になりそう めちゃくちゃ同意した図

Slide 33

Slide 33 text

UrbanGPT: Spatio-Temporal Large Language Models ADS Track: Spatiotemporal Applications ● Baiduと香港大学の共同研究 ● 問題設定:LLMに時系列データを予測させることができるのか ● 方法:時系列データをエンコーディングして理解しやすい数字列に変換する ● その数列空間でインストラクションチューニングをかければ良い ● 学習データに含まれない地域の推定(Zero-shot)で最も良い精度を達成

Slide 34

Slide 34 text

Self-consistent Deep Geometric Learning for Heterogeneous Multi-source Spatial Point Data Prediction Research Track: Spatio-temporal Data ● 問題設定:複数ソースの異なる品質の計測データをフュージョンさせて高精度予測を実現する ● 課題:同じ地域で,異なるセンサー・精度・位置で収集したデータから高精細な予測をしたい ● 相互のデータから同様な関係性になるデータを latent spaceでのグラフ構造で見つける ● その後,それぞれ相互に更新する

Slide 35

Slide 35 text

Enhancing Personalized Headline Generation via Offline Goal-conditioned Reinforcement Learning with Large Language Models ADS Track: Marketing Applications ● INF Technology(中国の会社)と復旦大学の共同研究 ● 問題設定:ニュースを全部読んでもらえるような1to1ニュースハイライトの生成 ● 初期LLMをユーサーの過去クリックからSupervised Fine-Tuning -> RLで報酬の高い生成となるようにさらにFine-Tuning ● LOUGEで最適化しているものにLOUGEで評価しているのはずるいが,組み合わせとして面白かった Supervised Fine-Tuning プロンプト RLのリワード 使って良い 語彙か? ROUGE-1 + ROUGE-2 + ROUGE-L 過去クリックしたハイ ライトとの 類似度

Slide 36

Slide 36 text

Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs ADS Track: Marketing Applications ● Ant Group (アリババの金融関係会社 a.k.a. Alipayの会社)の論文 ● 問題設定:マーケターがセグメント生成LLM経由で,説明がつくセグメントを生成できるようにする ● 要望をLLMでラベル化するシステム + 過去の似た要望の知識からLLMで抽出ルールを生成するシステム

Slide 37

Slide 37 text

補足:Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs ADS Track: Marketing Applications ● 通常のマーケターのアプローチに比べてCTRがかなりパフォーム ● なぜ?→データセットが肝 ● もともと過去の実際のニーズをまとめたデータセットがなかった ● それを作成してLLM経由でクエリできるようになったことがポイント 所感 ● 1st Party Dataやアンケートから取得した情報と 組み合わせたら面白いのではないか ● 例:ある行動履歴や購買履歴を持っているユーザーは xxxを求めている、など(定性的嗜好を含めることも可)

Slide 38

Slide 38 text

Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners ● モチベーション ○ Eコマースプラットフォーム(ウォルマート)において、ユーザーの購買履歴に基づいたパーソナラ イズされたコンテンツを提供したい ○ 手動でバナーを作成するには限界があるため、自動化が求められる ● 解決法(提案ソリューション) ○ 大規模言語モデル( LLM)と画像生成モデル( Stable Diffusion)を連携 ○ ユーザーの購買商品から LLMで商品属性とキーワードを抽出し画像生成プロンプトに変換 ○ このプロンプトをもとに Stable Diffusionを利用してパーソナライズされたバナーを生成 ● 評価 ○ ベンチマーク:商品名・カテゴリをそのままプロンプトに入れる ○ BRISQUEスコア:LLMを使ったプロンプト生成の方が高品質 ○ 人間による評価:関連性の高い画像を生み出すが完全にアウトパフォームではない

Slide 39

Slide 39 text

Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners

Slide 40

Slide 40 text

Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners オフトピック: 「元の商品写真に似ている」ことを何らか定量的に評価することにトライしたか質問 ● 結論、試してはみたが実運用としては上手くいかなった ● よくある違いはキャビネットの取手があるかないかみたいな詳細部分なことが多い ● 全体観では似ているのでスコア上は高く出るが、実際の消費者の購買体験からしたら受け入れられな い差 ● そのため、実際の運用は人による評価に依存する現状

Slide 41

Slide 41 text

Enhancing Personalized Headline Generation via Offline Goal-conditioned Reinforcement Learning with Large Language Models ● モチベーション ○ LLMを使ってパーソナライズされたコンテンツを生成したいが、様々な制約がある ○ 特にユーザー情報を活用したニュースタイトルでは、倫理面やハルシネーションの問題が深刻で あり、これらの課題を解決しながら生成した ● 解決法(提案ソリューション) ○ ユーザーが過去にクリックした記事の情報などを自然言語のプロンプトとして構造化 ○ 以下の3つのファクタを報酬関数に含めた Reinforcement Learning via Supervised Learning ■ personalized + reality + sensitive →realityはROUGE-1 + ROUGE-2 + ROUGE-Lで評価 ● 評価 ○ 実際の金融レポートのデータセットでも reality scoreが高いタイトルを生成

Slide 42

Slide 42 text

Enhancing Personalized Headline Generation via Offline Goal-conditioned Reinforcement Learning with Large Language Models オフトピック: ROUGE-1 + ROUGE-2 + ROUGE-Lを使っても、先のウォルマートの発表と同様に、わずかな detailが異なっ てしまうことはあるのでは?と疑問だったので、質問(※自分の理解不足の可能性は有り) ● 現状のやり方でニュース本文との相関はかなり取れているから良い、との回答 ● 上手く意図を伝えられなかった可能性が高くその後フォローアップできなかったので真偽は不明だが、 実運用に乗せたら意図しない問題は起きそうな所感はある →例えば、わずかでも数字に誤りなどあるとレピュテーションリスクは高いのでは?

Slide 43

Slide 43 text

Metric Decomposition in A/B Tests Controlled Experimentation ● モチベーション ○ 小さい処置効果を推定する際に検出力が問題になるケースが多い ○ 大きなABテストをやっても検出できず false negativeが増える状況を改善したい ● 解決法(提案ソリューション) ○ M=M1+M2のようにhigh signal/low noiseとlow signal/high noiseのものにファクタを分解 ○ Signal-to-noise ratios(var[true treatment effect]/var[random noise]) →high signal/low noiseのみをestimatorとする ※low SNSは完全に切り捨てるのではなく分析目的に応じて重み付けに利用できる →詳細は論文のセクション 2.2 ● 評価 ○ 実際のAirbnbのNights/Guestの効果の推定で有意に検出できるケースが増加 ○ Type 1 errorを増加させているわけでもない

Slide 44

Slide 44 text

Metric Decomposition in A/B Tests Controlled Experimentation

Slide 45

Slide 45 text

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations 3. KDD Cup 4. こぼれ話

Slide 46

Slide 46 text

KDD Cupとは KDDで開催されている、データ分析の大会 最近ではLLMに関わる大会が多い 今年は以下の2つのコンペが開催 ● Amazon ● Meta

Slide 47

Slide 47 text

Multi-Task Online Shopping Challenge for LLMs 4つの主要なショッピングスキルに焦点を当てて競い、それぞれで評価 Track 1:Shopping Concept Understanding Track 2:Shopping Knowledge Reasoning Track 3:User Behavior Alignment Track 4:Multi-lingual Abilities Track 5:All-Around

Slide 48

Slide 48 text

CRAG: Comprehensive RAG Benchmark 情報リソースを元にRAGで回答し、CRAGベンチマークで競う 2つのTrack + 総合Trackが用意されており、それぞれで評価 Track 1:Retrieval Summarization Track 2:Knowledge Graph and Web Retrieval Track 3:End-to-End Retrieval-Augmented Generation

Slide 49

Slide 49 text

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations 3. KDD Cup 4. こぼれ話

Slide 50

Slide 50 text

Meet up 同じ興味を持つ参加者が集まり話せるためとても面白い ● Japan Meet-up ● Customer Journey ● Startups! ● LLMs for customer service ● Product Experimentation Meet up in Barcelona など...

Slide 51

Slide 51 text

Product Experimentation Meet up in Barcelona ● 登壇者 ○ Ronny Kohavi ○ Uri Simonsohn ○ Itamar Gilad(資料) ● 内容 ○ プロダクト改善をどのように科学的に行うか ○ ABテスト、サーベイの設計 ... ● 所感 ○ 個人的にはItamar Gilad氏の発表がとても興味深かった

Slide 52

Slide 52 text

Product Experimentation Meet up in Barcelona ● “test”と“experiment”を区別して定義 ○ Test:モックを当てて顧客の FBKを回収したりユーザーインタビューをしたりすること ○ Experiment:通常のABテストなど ● モチベーション ○ スタートアップや新規事業では、 ABテストをやることが難しい ○ 一方、testを挟むことは可能なので、徐々に改善できる ● 疑問 ○ 「単にヒアリングで買いたいか否か聞いて得られた回答」と「実際にお金を払って買ってくれるか」 は全然違うのでは?と質問 →そういう側面もある一方で、例えば 100人に聞いて100人が興味を示さないものと、 80人が興 味は示してくれるものがあれば、少なくとも後者の confidence levelはあがる →“test”自体はよく実施されている内容であるが、その結果をもとにプロダクトの進捗を定量的かつ簡潔に計 測できるようなフレームワークは意外と目にする機会が少ないように思えて、有益に感じた

Slide 53

Slide 53 text

Product Experimentation Meet up in Barcelona

Slide 54

Slide 54 text

Product Experimentation Meet up in Barcelona

Slide 55

Slide 55 text

MLOps Meet up データ集めが大変で整備するのが大変だよねで満場一致 技術スタックは割とモダンなところも多かった(EKS + Kubeflowなど) モデルの更新部分とかに課題を感じてる企業は多かった

Slide 56

Slide 56 text

その他の話

Slide 57

Slide 57 text

バルセロナ:環境 日本と同じぐらい暑い 治安は思ったより悪くない(スリはいるみたい) 遅くまで明るい(20:30くらいが日没) ホテルの立地が良い

Slide 58

Slide 58 text

バルセロナ:食 美味しい スペインの方は夜ご飯の時間が遅い(21 ~ 22時がピーク)