Slide 1

Slide 1 text

論文紹介する人: 中野 優 https://sites.google.com/view/yu-nakano 図表は基本的に論文より引用 生成検索エンジン最適化に関する研究の紹介 1. GEO: Generative Engine Optimization (KDD 2024) 2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024)

Slide 2

Slide 2 text

生成検索エンジンとは? 2 従来の検索エンジン 生成検索エンジン クエリに対して ランキングを返す クエリに対して回答などの 生成結果を返す Google 検索より Perplexity.ai より

Slide 3

Slide 3 text

生成検索エンジン 3 Perplexity.ai より 基本的に RAG 同様に検索→生成の流れ (図は 1 つ目の論文より) 一般的な生成検索エンジンの構成 Disclaimer: 本紹介では以下は全て同じものとみなします 生成検索エンジン,RAG システム,GenIR システム,会話検索システム クエリに対して回答などの生成結果を返す

Slide 4

Slide 4 text

生成検索エンジン最適化とは? 4 検索エンジン最適化 生成検索エンジン最適化 Search Engine Optimization (SEO) Generative Engine Optimization (GEO) 目的 評価指標 検索結果経由での 流入や CV 増加 複数クエリに対する 検索結果の平均順位 (※) あくまで今回紹介する論文での範囲での説明です 複数クエリに対する 生成結果における 平均的な影響度? 生成結果経由での 流入や CV 増加? 例えば生成結果で冒頭で引用されるとか

Slide 5

Slide 5 text

1. GEO: Generative Engine Optimization (KDD 2024) どうコンテンツを工夫すれば生成結果に自らのページの内容を反映 できるか? → White Hat SEO 的な研究 https://dl.acm.org/doi/10.1145/3637528.3671900 (arxiv 版: https://arxiv.org/abs/2311.09735) 2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024) どう悪さ(プロンプトインジェクション)をすれば自らの商品を生 成結果の先頭に表示できるか? → Black Hat SEO 的な研究 https://aclanthology.org/2024.emnlp-main.534/ 今回紹介する論文 5

Slide 6

Slide 6 text

1. GEO: Generative Engine Optimization (KDD 2024)

Slide 7

Slide 7 text

GEO 向け評価指標とデータセットを提案し 生成検索エンジン向けのコンテンツ改善方法を検証 1. GEO: Generative Engine Optimization (KDD 2024) 7 • 背景: 生成検索エンジンは可視性が不透明 ◦ そのため従来の検索エンジンとは違って,自らのコンテンツの可視性や改 善結果の良さを測る方法が不明 文書はランキング に一度のみ登場 生成検索エンジン では… 複数の引用をまと めて文が生成 同じ文章が何度も 引用として登場 従来の検索エンジ ンでは… →順位の良さが コンテンツ良さ (わかりやすい) →コンテンツの 良さがわかりづらい (改善もしづらい)

Slide 8

Slide 8 text

評価指標: 単語数指標と主観的指標 8 GEO タスク向けの評価指標を提案 単語数指標 = 文書 𝑐𝑖 が引用された文の単語数 生成結果の単語数 お気持ち: 生成結果で文書 𝑐𝑖 が 何度も引用されていれば文書 𝑐𝑖 は 生成結果に影響を与えたはず お気持ち: 生成結果で文書 𝑐𝑖 が 先頭で引用されていれば文書 𝑐𝑖 は 生成結果に影響を与えたはず 主観的指標 次の 7 種類の指標を LLM-as-a-Judge(G-Eval)で 5 段階で判定 Relevance, Influence, Uniqueness, Subjective Position, Subjective Count, Follow Up, Diversity 例: Influence だと「引用された文書が生成結果にどの程度影響を与えたか?」を LLM で評価 1. Word: 2. Position-adjusted: (GPT-3.5)

Slide 9

Slide 9 text

GEO 手法: 9 つの手法を提案し実験で比較 9 カテゴリ(※) 手法 説明 古典的 SEO 手法 Keyword Stuffing キーワード詰め込み スタイル変更 Authoritative 説得性や権威性を向上 Easy-to-Understand 平易化 Fluency Optimization 流暢さの向上 Unique Words 独自語の利用 Technical Terms 専門用語の利用 情報追加 Statistics Addition 統計情報の追加 Cite Sources 引用の追加 Quotation Addition 引用句の追加 例: 引用の追加 (末尾に緑で示した 引用文が追加) ※カテゴリは 紹介者が 勝手に付与

Slide 10

Slide 10 text

• データセット: GEO-bench ◦ 計 9 種類のソースからクエリを 10,000 件収集(データセット,ウェブサ イト,LLM 自動生成) ◦ そのうち本実験では評価用に 1,000 件を利用 • GEO 手法適用 & 評価手順 1. クエリに対して Google 検索を実施し上位 5 件の文書を取得 2. そのうちランダムに選んだ 1 件の文書に GEO 手法を適用 3. 取得した 5 件の文書を GPT-3.5 に入れて回答を生成 4. GEO 指標を適用した文書に関して,評価指標を計算 データセットと実験設定 10

Slide 11

Slide 11 text

実験結果 11 効果 中〜大: 引用や統計の追加などの 情報を追加する手法は ほぼ効果なし: キーワードの詰め込み (古典的な SEO 手法) 効果 小〜中: 平易化や流暢性などの スタイルの変更 その他の分析結果 (詳細は割愛) • ドメインごとに効果的な手法が異なる傾向 • 全文書に GEO 手法を適用した場合,下位の文書ほど効果が大きい傾向 • GEO 手法を組み合わせるとさらに指標が向上する場合も

Slide 12

Slide 12 text

実際の生成検索エンジンにおいても 統計情報や引用句の追加などの GEO 手法が効果的である可能性 Perplexity.ai での実験 12 回答生成を Perplexity.ai で行った場合で実験 ◦ さきほどと同様に,キーワードの詰め込みは効果が少ない ◦ 一方で引用や統計の追加はに効果が大きい ×1.21 ×1.37

Slide 13

Slide 13 text

2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024)

Slide 14

Slide 14 text

2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024) 14 • 背景: LLM はプロンプトインジェクションに脆弱 ◦ 生成検索エンジンにおいて,プロンプトインジェクションで自社のページ や商品を生成結果の先頭に表示できると悪用されうる 検索で取得された 3 つの商品 商品 A 商品 C 商品 B (インジェクション付き) やりたいこと: 最終的な生成結果で 特定の商品を先頭に提示したい! クエリ例: 「おすすめの タブレットを 教えて」 このような攻撃が実際にできるのか?をデータセットを構築して検証

Slide 15

Slide 15 text

5 グループ × 10 商品(右図) × 8~ ブランド× 1~3 モデル を収集 計 1,147 個の Web ページを実際のサイトから収集 構築したデータセット: RAGDOLL 15 データセット: https://huggingface.co/datasets/Bai-YT/RAGDOLL 収集コード: https://github.com/spfrommer/ragdoll-data-pipeline

Slide 16

Slide 16 text

以下の流れでインジェクション用のプロンプトを作成 攻撃手法: Tree of Attacks with Pruning 16 このステップは 本論文では skip 図は Tree of Attacks: Jailbreaking Black-Box LLMs Automatically (NeurIPS 2024) より 候補となる インジェクション用 プロンプトの生成 以降繰り返し 評価値の平均が 高いものを残す 実際に生成して 現状より上部に 表示できたかを評価

Slide 17

Slide 17 text

全ての LLM において表示位置を大きく操作できた 実験結果 17 (説明: スコアが大きければ大きいほど 対象の商品が生成結果の先頭に表示) タブレットの例 例: CHUWI 攻撃前(Natural) 生成結果の 末尾に表示されがち 攻撃後(Adversarial) 生成結果の 先頭に表示されがち =先頭 末尾= LLM ごとのスコア向上幅と向上率 有名な生成検索エンジンである Perplexity.ai の モデル sonar-large でも攻撃に成功 補足: sonar-large はこの紹介時点で既に deprecated

Slide 18

Slide 18 text

両方ともエコシステムの一部しか見れていない印象なので今後に期待 まだまだ発展途上の分野という印象だが,Google の本格的な参戦によって (実務的には)増々盛り上がりそうな分野ではありそう (アカデミアで盛り上がるかどうかは微妙な印象……) まとめと所感 18 生成検索エンジン最適化に関する2 つの論文を紹介 1. GEO: Generative Engine Optimization (KDD 2024) どうコンテンツを工夫すれば生成結果に自らのページの内容を反映できるか? → 統計情報や引用の追加が効果的 2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024) どう悪さをすれば自らの商品を生成結果の表示位置を操作できるか? → 既存のプロンプトインジェクション手法で操作可能 所感