KDD2024参加報告

KDD2024参加報告株式会社サイバーエージェント　須ヶ﨑聖人　干飯啓太　杉山侑吏

OUTLINE 1. KDD2024外観 2. 研究紹介 a. Workshop/Tutorial b. oral presentations
3. KDD Cup 4. こぼれ話

KDDの概要 Knowledge Discovery and Data Mining データマイニング関連のトップ国際会議 • Tutorial/Workshop: ドメインに特化したワークショップ
• Key session: 招待公演 • oral presentation(15パラレルぐらい) • poster presentation • KDD cup: 企業主催のコンペティションで構成されている

開催地 • スペイン󰎼のバルセロナで開催 ◦ Centre de Convencions Internacional de Barcelona
• Diagonal Marというショッピングモールの横

Attendee/Sessions 参加者: 2,284人　参加者・発表者共に中国人が多かった　（2/5ぐらいは中国人）招待講演: 12件論文数: 　研究トラック: 411本（56セッション）
　ADSトラック: 151本（24セッション）ワークショップ: 30 チュートリアル: 34

Meet up 様々な参加者企画のmeet upが開催されている

研究トレンドテーマ LLMの使い方や，LLM＋何かがめちゃくちゃ多い適用先はGraphデータ，時系列データ，もちろんテキストデータなどなんでもある ADSでは，Attention networkなどの適用事例も多いプレゼンター中国系企業が関連した発表が多い次点で米系企業

Tutorial: Advances in Human Event Modeling: From Graph Neural Networks
to Language Models • 社会のイベントの説明付きの予測をする問題についての Tutorial ◦ 誰が選挙勝つのかをSNSから予測するイメージ • G-NNsがメジャーで，最近はLLMも使われ始めた • LLMのリーク・ハルシネーション・バイアスがこの分野でもかなり課題 slide: https://songgaojundeng.github.io/kdd24-tutorial.html

Workshop: The 13th International Workshop on Urban Computing (Urbcomp 2024)
• 都市データにフォーカスしたデータマイニングのワークショップ • 位置情報データ x LLMという話題が多く，直接言語データでないので工夫があり面白い

Be More Real: Travel Diary Generation Using LLM Agents and
Individual Proﬁles (Urbcomp 2024) • 都市の移動履歴の擬似データ生成を LLMを利用して行う論文 • 性別、年齢、収入、交通手段などのきめ細かいグループ属性を考慮して詳細な移動パターンを作成 • ペルソナに合わせたデータ生成ができて面白い ◦ 未知レベルの詳細な経路は出ない

PLM4Traj: Leveraging Pre-trained Language Models for Cognizing Movement Patterns and
Travel Purposes from Trajectories (Urbcomp 2024) • 時空間情報と，POIの説明（自然言語）を同時にモデリングするためLLMでEmbeddingをかける論文 • 自然言語の説明がついた数値データはLLMでEmbeddingしてうまくいくパターンがある

RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models (Tutorial) •
対象： ◦ 大規模言語モデルなどに関する基本的な知識を備えた人 ◦ 大学3-4年生の講義で提供するレベル • 得られる内容： ◦ RAGに関する包括的な理解が得られる ◦ 個別の問題に対する具体的な解決策の設計をできるようになる • 所感： ◦ スライド版も公開されており概観を知りたい場合はおすすめ ◦ 図解も多いので、ビジネスの方でもより詳しく知りたい方には良いのではないか →Part1の概要とPart4の実応用例の部分から入っても問題ない認識

Grounding and Evaluation for Large Language Models (Tutorial) ※リアルタイム参加していないのですが Meet
upでオススメされたので情報だけ共有 • 対象： ◦ 生成AIを実アプリケーションで導入している実務者 ◦ （関連トピックの研究者も？） • 得られる内容： ◦ 生成AIシステムに関連する主要な問題点に関する実務的な対応方法例 ◦ 特にハルシネーションやプロンプトインジェクション攻撃 ...など • 所感： ◦ 実サービス導入の際に起こり得るリスクと対応例が網羅的にレビューされているのでハンドブック的に利用できそう ◦ スライド版も公開されており概観を知りたい場合はおすすめ ◦ 今後KDDのプレゼンの録画も公開されるらしい

3rd Workshop on End-End Customer Journey Optimization • 内容： ◦
顧客行動に関するMLの研究はクリック率や広告配置など短期的な指標を見ることが多い ◦ 本来はプラットフォームの長期的な価値やチャーンなど、顧客体験のあらゆる側面に焦点を当てるべき • 全体所感： ◦ Key Noteのみならず、contribution talkも示唆が多かった ◦ 店内行動などオフラインの行動に関する話も期待していたが、それはなし ◦ 後ほどランチで理由を聞いたところ ... ▪ 本来はオフラインも重要 ▪ ただしデータから個人識別しきれないのでやっていない • Contribution talk（抜粋）： ◦ Image Score: Learning and Evaluating Human Preferences for Mercari Search →LLMでメルカリ出品における「良い」画像を評価

3rd Workshop on End-End Customer Journey Optimization Invited Talk: Quality
Foundations at Airbnb • モチベーション ◦ 最初の数回の体験がその後の継続率に大きく影響する ◦ 一方、全体レビュー評価は 4-5に寄ってしまうので適切にクオリティを表現できていない ◦ その後の継続に繋がりやすいホストを高く評価することは可能？ • 解決策 ◦ その次の予約に効く Airbnbのサブカテゴリ評価の係数を取得 ◦ それをもとに重み付けした全体評価指数を新たに作成 • 評価 ◦ 新評価指標の分布 ◦ Google検索IVを使って、新評価指数が高いとその後の予約に繋がるのか検証

3rd Workshop on End-End Customer Journey Optimization Invited Talk: Quality
Foundations at Airbnb

Bandit as a model selection Tutorial: Multi-Armed Bandit Applications for
Large Language Models • テキスト要約するタスクがあった時のLLMの選択方法 • バンディットについて網羅的にまとめている(資料) • 問題設定：LLMのモデル選択へのBanditの適用(テキスト要約) • ポイント： ◦ 報酬はモデルの性能(何かしらのスコア)とコストの両方を考慮する ◦ イメージ: alpha * 性能 - beta * コスト(alphaとbetaはハイパーパラメータ)

Bandit for Prompt optimization Tutorial: Multi-Armed Bandit Applications for Large
Language Models • 最適なプロンプト選択にLLMを使う • 問題設定：LLMのモデル選択へのBanditの適用(テキスト要約) • ポイント： ◦ LLMを関数とみなす ◦ テキスト + プロンプトを入力とみなす ◦ CoTなどに拡張したものもある • 流れ ◦ LLMに候補となるプロンプトを生成させる ◦ 出力の尤度&対数尤度をとる(APIなどで取れる) ◦ 高スコア(log確率の低いもの)を選択 ◦ 候補の中から似ているプロンプトをLLMが選択

Jump Starting Bandits with LLM-Generated Prior Knowledge Tutorial: Multi-Armed Bandit
Applications for Large Language Models • コールドスタート問題をLLMを使って軽減させようという話 • ユーザのコンテキストや過去の行動データからLLMで複数のメッセージを生成 ◦ 例: 「おすすめの映画はアクション映画です。」 ◦ 例: 「あなたにぴったりの映画はサスペンス映画です。」 • LLMがユーザの嗜好に合わせて仮想的なフィードバックを提供 • アームを更新

Learning to Rank for Maps at Airbnb ADS Track: Search
and Ranking • リスト形式に対するランキングとマップ上でのランキングで考えるべきことは違うのでは？ • 問題設定：予約数を最大させるためのマップ上でのランキング表示 • ポイント： ◦ リスト形式ではランキング上位の方がCTRは高い ◦ マップ形式では上位のリストにランク付けしてもまったく影響がない ◦ 予約数を最大化させるにはマップ上にピンが少なければ少ない方がいい選択肢を増やしつつ最適なマップへの表示数の問題をA/Bテストで評価 • マップとリストのランキングに対する違いが面白いのでおすすめランキングごとのCTR

TnT-LLM: Text Mining at Scale with Large Language Models ADS
Track: Generative Al Applications • 問題設定：ラベル作成とアノテーションをLLMでできないか • ポイント： ◦ ラベル作成とアノテーションの2つを組み合わせたフレームワーク • 流れ ◦ ラベル作成 ▪ 各ドキュメントの長さなどを一定にするためLLMで要約 ▪ ミニバッチのドキュメント群に対してラベル作成 ▪ 別のミニバッチに対して評価・ラベル作成・修正 ◦ 分類 ▪ 通常の予測器(LightGBMやLR)で行う

GRILLBot In Practice: Lessons and Tradeoﬀs Deploying Large Language Models
for Adaptable Conversational Task Assistants ADS Track: Generative Al Applications • 実際のタスク指向対話のシステムにLLMを使った話 • Orchestratorモジュールをトップに置きLLMをコンポーネントとして扱う ◦ LLM機能・ニューラル機能・メイン機能 • LLMで意図理解 -> タスク特定(タスクに落ちない場合fallbackで雑談LLM) • Neural Decision Parsersで事前定義済みのコードの実行(外部API叩くなど) • FAQの検索に過去の文脈も入れる • 複雑で柔軟なタスク以外はLLMを使わないあたりも経験の肌感とあっているし対話管理が面白い

OpenFedLLM: Training Large Language Models on Decentralized Private Data via
Federated Learning ADS Track: Generative Al Applications • LLMはデータ量と質に比例して性能が良くなるが、質の良い公開データは枯渇している • 各組織の中にこそ質の良いデータがあるので、プライバシーを保持しながらそれらを活かせないか • 問題設定：共同でプライバシーを保護しながら、活用されていないプライベートデータで LLM を訓練する • ポイント： ◦ 差分プライバシーと互換性あり • 流れ ◦ サーバがクライアントにグローバルモデルを配布 ◦ 自社データを使ってクライアントそれぞれがモデル更新 ◦ クライアントがサーバにモデルをアップロード ◦ サーバ側でローカルモデルを集約しグローバルモデルを更新

Large Scale Generative AI Text Applied to Sports and Music
ADS Track: Generative Al Applications • 生成AIの実メディアへの適用と運用の話 ◦ ゴルフ: ほぼリアルタイムで関連するビデオクリップと同期した⾳声とテキストでの解説 ◦ 245のユニークなショット情報に対してアノテーションしてファインチューニング ▪ 言い換えを含めた1225のground truthが作成 • 処理の流れ ◦ イベント終了時にイベントストリームへのトピックのpublish ◦ LLMで推論 ◦ document storeとobject storageに格納 ◦ CDNを前段において配信

Hyper-Local Deformable Transformers for Text Spotting on Historical Maps ADS
Track: Scientiﬁc Applications • 背景: 昔の地図には歴史や文化的な重要な情報が含まれているテキストの抽出がむずかしい ◦ データが少ない&効果的な手法がない • 問題設定：昔の地図の様々な向きに描かれたテキストを抽出する • 文字の境界をDeformable Transformerでざっくり取り出して、そのあと文字中心を取りに行く • テーマがユニークで面白い

• LLMの回答の源流として，skillで解くことが重要 ◦ Knowledge vs skillという整理 ▪ 1+1 =2を知識として持つか，解く能力を持つか •
LLMに利用するskillを考えさせ，組み合わせることで複雑なタスクを解けるようになる（Metacognition） • モデルが大きくなるほど，多くのスキルを組み合わせることができる． From Word Prediction to Complex Skills: Compositional Thinking and Metacognition in LLMs Keynote address

Optimizing Novelty of Top-k Recommendations using Large Language Models and
Reinforcement Learning ADS Track: Recommendations for Advertising • MSRとMicrosoft Bing Adsの論文 • 問題設定：ユーザーの興味に関連しながらも，新規アイテムをレコメンドしたい • 問題点：(RLベースの手法で)新規度についてどのようにリワード計算するか • ポイント： ◦ 新しいアイテムと既存のアイテムを比較して，新規度をLLMに考えさせる • 既存モデルの200位以内にないアイテムを，5位以内入れる割合 (Novelty@5)がおおよそ2倍になるレコメンドされる広告キーワード例

Frontiers of Foundation Models for Time Series Special Days: Generative
AI day • シカゴ大学Liu教授の招待講演枠（Special Days: Generative AI day） • 時系列データの分析やデータ収集基盤が広まってきたから，時系列データのFoundation modelを作りたいという内容 • 内容は実用上の問題色々あるが，課題を分解したモデルは試され始めた • 所感：まだまだ時系列データはできるのが先になりそうめちゃくちゃ同意した図

UrbanGPT: Spatio-Temporal Large Language Models ADS Track: Spatiotemporal Applications •
Baiduと香港大学の共同研究 • 問題設定：LLMに時系列データを予測させることができるのか • 方法：時系列データをエンコーディングして理解しやすい数字列に変換する • その数列空間でインストラクションチューニングをかければ良い • 学習データに含まれない地域の推定（Zero-shot）で最も良い精度を達成

Self-consistent Deep Geometric Learning for Heterogeneous Multi-source Spatial Point Data
Prediction Research Track: Spatio-temporal Data • 問題設定：複数ソースの異なる品質の計測データをフュージョンさせて高精度予測を実現する • 課題：同じ地域で，異なるセンサー・精度・位置で収集したデータから高精細な予測をしたい • 相互のデータから同様な関係性になるデータを latent spaceでのグラフ構造で見つける • その後，それぞれ相互に更新する

Enhancing Personalized Headline Generation via Oﬄine Goal-conditioned Reinforcement Learning with
Large Language Models ADS Track: Marketing Applications • INF Technology(中国の会社)と復旦大学の共同研究 • 問題設定：ニュースを全部読んでもらえるような1to1ニュースハイライトの生成 • 初期LLMをユーサーの過去クリックからSupervised Fine-Tuning -> RLで報酬の高い生成となるようにさらにFine-Tuning • LOUGEで最適化しているものにLOUGEで評価しているのはずるいが，組み合わせとして面白かった Supervised Fine-Tuning プロンプト RLのリワード使って良い語彙か？ ROUGE-1 + ROUGE-2 + ROUGE-L 過去クリックしたハイライトとの類似度

Know Your Needs Better: Towards Structured Understanding of Marketer Demands
with Analogical Reasoning Augmented LLMs ADS Track: Marketing Applications • Ant Group (アリババの金融関係会社 a.k.a. Alipayの会社)の論文 • 問題設定：マーケターがセグメント生成LLM経由で，説明がつくセグメントを生成できるようにする • 要望をLLMでラベル化するシステム + 過去の似た要望の知識からLLMで抽出ルールを生成するシステム

補足：Know Your Needs Better: Towards Structured Understanding of Marketer Demands
with Analogical Reasoning Augmented LLMs ADS Track: Marketing Applications • 通常のマーケターのアプローチに比べてCTRがかなりパフォーム • なぜ？→データセットが肝 • もともと過去の実際のニーズをまとめたデータセットがなかった • それを作成してLLM経由でクエリできるようになったことがポイント所感 • 1st Party Dataやアンケートから取得した情報と組み合わせたら面白いのではないか • 例：ある行動履歴や購買履歴を持っているユーザーは xxxを求めている、など（定性的嗜好を含めることも可）

Chaining text-to-image and large language model: A novel approach for
generating personalized e-commerce banners • モチベーション ◦ Eコマースプラットフォーム（ウォルマート）において、ユーザーの購買履歴に基づいたパーソナライズされたコンテンツを提供したい ◦ 手動でバナーを作成するには限界があるため、自動化が求められる • 解決法（提案ソリューション） ◦ 大規模言語モデル（ LLM）と画像生成モデル（ Stable Diffusion）を連携 ◦ ユーザーの購買商品から LLMで商品属性とキーワードを抽出し画像生成プロンプトに変換 ◦ このプロンプトをもとに Stable Diffusionを利用してパーソナライズされたバナーを生成 • 評価 ◦ ベンチマーク：商品名・カテゴリをそのままプロンプトに入れる ◦ BRISQUEスコア：LLMを使ったプロンプト生成の方が高品質 ◦ 人間による評価：関連性の高い画像を生み出すが完全にアウトパフォームではない

generating personalized e-commerce banners

generating personalized e-commerce banners オフトピック：「元の商品写真に似ている」ことを何らか定量的に評価することにトライしたか質問 • 結論、試してはみたが実運用としては上手くいかなった • よくある違いはキャビネットの取手があるかないかみたいな詳細部分なことが多い • 全体観では似ているのでスコア上は高く出るが、実際の消費者の購買体験からしたら受け入れられない差 • そのため、実際の運用は人による評価に依存する現状

Large Language Models • モチベーション ◦ LLMを使ってパーソナライズされたコンテンツを生成したいが、様々な制約がある ◦ 特にユーザー情報を活用したニュースタイトルでは、倫理面やハルシネーションの問題が深刻であり、これらの課題を解決しながら生成した • 解決法（提案ソリューション） ◦ ユーザーが過去にクリックした記事の情報などを自然言語のプロンプトとして構造化 ◦ 以下の3つのファクタを報酬関数に含めた Reinforcement Learning via Supervised Learning ▪ personalized + reality + sensitive →realityはROUGE-1 + ROUGE-2 + ROUGE-Lで評価 • 評価 ◦ 実際の金融レポートのデータセットでも reality scoreが高いタイトルを生成

Large Language Models オフトピック： ROUGE-1 + ROUGE-2 + ROUGE-Lを使っても、先のウォルマートの発表と同様に、わずかな detailが異なってしまうことはあるのでは？と疑問だったので、質問（※自分の理解不足の可能性は有り） • 現状のやり方でニュース本文との相関はかなり取れているから良い、との回答 • 上手く意図を伝えられなかった可能性が高くその後フォローアップできなかったので真偽は不明だが、実運用に乗せたら意図しない問題は起きそうな所感はある →例えば、わずかでも数字に誤りなどあるとレピュテーションリスクは高いのでは？

Metric Decomposition in A/B Tests Controlled Experimentation • モチベーション ◦
小さい処置効果を推定する際に検出力が問題になるケースが多い ◦ 大きなABテストをやっても検出できず false negativeが増える状況を改善したい • 解決法（提案ソリューション） ◦ M=M1+M2のようにhigh signal/low noiseとlow signal/high noiseのものにファクタを分解 ◦ Signal-to-noise ratios（var[true treatment effect]/var[random noise]） →high signal/low noiseのみをestimatorとする ※low SNSは完全に切り捨てるのではなく分析目的に応じて重み付けに利用できる →詳細は論文のセクション 2.2 • 評価 ◦ 実際のAirbnbのNights/Guestの効果の推定で有意に検出できるケースが増加 ◦ Type 1 errorを増加させているわけでもない

Metric Decomposition in A/B Tests Controlled Experimentation

KDD Cupとは KDDで開催されている、データ分析の大会最近ではLLMに関わる大会が多い今年は以下の2つのコンペが開催 • Amazon • Meta

Multi-Task Online Shopping Challenge for LLMs 4つの主要なショッピングスキルに焦点を当てて競い、それぞれで評価 Track 1：Shopping Concept
Understanding Track 2：Shopping Knowledge Reasoning Track 3：User Behavior Alignment Track 4：Multi-lingual Abilities Track 5：All-Around

CRAG: Comprehensive RAG Benchmark 情報リソースを元にRAGで回答し、CRAGベンチマークで競う 2つのTrack + 総合Trackが用意されており、それぞれで評価 Track 1：Retrieval
Summarization Track 2：Knowledge Graph and Web Retrieval Track 3：End-to-End Retrieval-Augmented Generation

Meet up 同じ興味を持つ参加者が集まり話せるためとても面白い • Japan Meet-up • Customer Journey •
Startups! • LLMs for customer service • Product Experimentation Meet up in Barcelona など...

Product Experimentation Meet up in Barcelona • 登壇者 ◦ Ronny
Kohavi ◦ Uri Simonsohn ◦ Itamar Gilad（資料） • 内容 ◦ プロダクト改善をどのように科学的に行うか ◦ ABテスト、サーベイの設計 ... • 所感 ◦ 個人的にはItamar Gilad氏の発表がとても興味深かった

Product Experimentation Meet up in Barcelona • “test”と“experiment”を区別して定義 ◦ Test：モックを当てて顧客の
FBKを回収したりユーザーインタビューをしたりすること ◦ Experiment：通常のABテストなど • モチベーション ◦ スタートアップや新規事業では、 ABテストをやることが難しい ◦ 一方、testを挟むことは可能なので、徐々に改善できる • 疑問 ◦ 「単にヒアリングで買いたいか否か聞いて得られた回答」と「実際にお金を払って買ってくれるか」は全然違うのでは？と質問 →そういう側面もある一方で、例えば 100人に聞いて100人が興味を示さないものと、 80人が興味は示してくれるものがあれば、少なくとも後者の conﬁdence levelはあがる →“test”自体はよく実施されている内容であるが、その結果をもとにプロダクトの進捗を定量的かつ簡潔に計測できるようなフレームワークは意外と目にする機会が少ないように思えて、有益に感じた

Product Experimentation Meet up in Barcelona

MLOps Meet up データ集めが大変で整備するのが大変だよねで満場一致技術スタックは割とモダンなところも多かった(EKS + Kubeﬂowなど) モデルの更新部分とかに課題を感じてる企業は多かった

その他の話

バルセロナ：環境日本と同じぐらい暑い治安は思ったより悪くない（スリはいるみたい）遅くまで明るい(20:30くらいが日没) ホテルの立地が良い

バルセロナ：食美味しいスペインの方は夜ご飯の時間が遅い(21 ~ 22時がピーク)

KDD2024参加報告

KDD2024参加報告

More Decks by CyberAgent

Other Decks in Technology

Featured

Transcript