生成検索エンジン最適化に関する研究の紹介

Slide 1

Slide 1 text

論文紹介する人: 中野優 https://sites.google.com/view/yu-nakano 図表は基本的に論文より引用生成検索エンジン最適化に関する研究の紹介 1. GEO: Generative Engine Optimization (KDD 2024) 2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024)

Slide 2

Slide 2 text

生成検索エンジンとは？ 2 従来の検索エンジン生成検索エンジンクエリに対してランキングを返すクエリに対して回答などの生成結果を返す Google 検索より Perplexity.ai より

Slide 3

Slide 3 text

生成検索エンジン 3 Perplexity.ai より基本的に RAG 同様に検索→生成の流れ（図は 1 つ目の論文より）一般的な生成検索エンジンの構成 Disclaimer: 本紹介では以下は全て同じものとみなします生成検索エンジン，RAG システム，GenIR システム，会話検索システムクエリに対して回答などの生成結果を返す

Slide 4

Slide 4 text

生成検索エンジン最適化とは？ 4 検索エンジン最適化生成検索エンジン最適化 Search Engine Optimization (SEO) Generative Engine Optimization (GEO) 目的評価指標検索結果経由での流入や CV 増加複数クエリに対する検索結果の平均順位 (※) あくまで今回紹介する論文での範囲での説明です複数クエリに対する生成結果における平均的な影響度？生成結果経由での流入や CV 増加？例えば生成結果で冒頭で引用されるとか

Slide 5

Slide 5 text

1. GEO: Generative Engine Optimization (KDD 2024) どうコンテンツを工夫すれば生成結果に自らのページの内容を反映できるか？ → White Hat SEO 的な研究 https://dl.acm.org/doi/10.1145/3637528.3671900 (arxiv 版: https://arxiv.org/abs/2311.09735) 2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024) どう悪さ（プロンプトインジェクション）をすれば自らの商品を生成結果の先頭に表示できるか？ → Black Hat SEO 的な研究 https://aclanthology.org/2024.emnlp-main.534/ 今回紹介する論文 5

Slide 6

Slide 6 text

1. GEO: Generative Engine Optimization (KDD 2024)

Slide 7

Slide 7 text

GEO 向け評価指標とデータセットを提案し生成検索エンジン向けのコンテンツ改善方法を検証 1. GEO: Generative Engine Optimization (KDD 2024) 7 • 背景: 生成検索エンジンは可視性が不透明 ◦ そのため従来の検索エンジンとは違って，自らのコンテンツの可視性や改善結果の良さを測る方法が不明文書はランキングに一度のみ登場生成検索エンジンでは… 複数の引用をまとめて文が生成同じ文章が何度も引用として登場従来の検索エンジンでは… →順位の良さがコンテンツ良さ（わかりやすい） →コンテンツの良さがわかりづらい（改善もしづらい）

Slide 8

Slide 8 text

評価指標: 単語数指標と主観的指標 8 GEO タスク向けの評価指標を提案単語数指標 = 文書 𝑐𝑖 が引用された文の単語数生成結果の単語数お気持ち: 生成結果で文書 𝑐𝑖 が何度も引用されていれば文書 𝑐𝑖 は生成結果に影響を与えたはずお気持ち: 生成結果で文書 𝑐𝑖 が先頭で引用されていれば文書 𝑐𝑖 は生成結果に影響を与えたはず主観的指標次の 7 種類の指標を LLM-as-a-Judge（G-Eval）で 5 段階で判定 Relevance, Influence, Uniqueness, Subjective Position, Subjective Count, Follow Up, Diversity 例: Influence だと「引用された文書が生成結果にどの程度影響を与えたか？」を LLM で評価 1. Word: 2. Position-adjusted: (GPT-3.5)

Slide 9

Slide 9 text

GEO 手法: 9 つの手法を提案し実験で比較 9 カテゴリ(※) 手法説明古典的 SEO 手法 Keyword Stuffing キーワード詰め込みスタイル変更 Authoritative 説得性や権威性を向上 Easy-to-Understand 平易化 Fluency Optimization 流暢さの向上 Unique Words 独自語の利用 Technical Terms 専門用語の利用情報追加 Statistics Addition 統計情報の追加 Cite Sources 引用の追加 Quotation Addition 引用句の追加例: 引用の追加（末尾に緑で示した引用文が追加） ※カテゴリは紹介者が勝手に付与

Slide 10

Slide 10 text

• データセット: GEO-bench ◦ 計 9 種類のソースからクエリを 10,000 件収集（データセット，ウェブサイト，LLM 自動生成） ◦ そのうち本実験では評価用に 1,000 件を利用 • GEO 手法適用 & 評価手順 1. クエリに対して Google 検索を実施し上位 5 件の文書を取得 2. そのうちランダムに選んだ 1 件の文書に GEO 手法を適用 3. 取得した 5 件の文書を GPT-3.5 に入れて回答を生成 4. GEO 指標を適用した文書に関して，評価指標を計算データセットと実験設定 10

Slide 11

Slide 11 text

実験結果 11 効果中〜大: 引用や統計の追加などの情報を追加する手法はほぼ効果なし: キーワードの詰め込み（古典的な SEO 手法）効果小〜中: 平易化や流暢性などのスタイルの変更その他の分析結果（詳細は割愛） • ドメインごとに効果的な手法が異なる傾向 • 全文書に GEO 手法を適用した場合，下位の文書ほど効果が大きい傾向 • GEO 手法を組み合わせるとさらに指標が向上する場合も

Slide 12

Slide 12 text

実際の生成検索エンジンにおいても統計情報や引用句の追加などの GEO 手法が効果的である可能性 Perplexity.ai での実験 12 回答生成を Perplexity.ai で行った場合で実験 ◦ さきほどと同様に，キーワードの詰め込みは効果が少ない ◦ 一方で引用や統計の追加はに効果が大きい ×1.21 ×1.37

Slide 13

Slide 13 text

2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024)

Slide 14

Slide 14 text

2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024) 14 • 背景: LLM はプロンプトインジェクションに脆弱 ◦ 生成検索エンジンにおいて，プロンプトインジェクションで自社のページや商品を生成結果の先頭に表示できると悪用されうる検索で取得された 3 つの商品商品 A 商品 C 商品 B （インジェクション付き）やりたいこと: 最終的な生成結果で特定の商品を先頭に提示したい！クエリ例: 「おすすめのタブレットを教えて」このような攻撃が実際にできるのか？をデータセットを構築して検証

Slide 15

Slide 15 text

5 グループ × 10 商品（右図） × 8~ ブランド× 1~3 モデルを収集計 1,147 個の Web ページを実際のサイトから収集構築したデータセット: RAGDOLL 15 データセット: https://huggingface.co/datasets/Bai-YT/RAGDOLL 収集コード: https://github.com/spfrommer/ragdoll-data-pipeline

Slide 16

Slide 16 text

以下の流れでインジェクション用のプロンプトを作成攻撃手法: Tree of Attacks with Pruning 16 このステップは本論文では skip 図は Tree of Attacks: Jailbreaking Black-Box LLMs Automatically (NeurIPS 2024) より候補となるインジェクション用プロンプトの生成以降繰り返し評価値の平均が高いものを残す実際に生成して現状より上部に表示できたかを評価

Slide 17

Slide 17 text

全ての LLM において表示位置を大きく操作できた実験結果 17 （説明: スコアが大きければ大きいほど対象の商品が生成結果の先頭に表示）タブレットの例例: CHUWI 攻撃前（Natural）生成結果の末尾に表示されがち攻撃後（Adversarial）生成結果の先頭に表示されがち =先頭末尾= LLM ごとのスコア向上幅と向上率有名な生成検索エンジンである Perplexity.ai のモデル sonar-large でも攻撃に成功補足: sonar-large はこの紹介時点で既に deprecated

Slide 18

Slide 18 text

両方ともエコシステムの一部しか見れていない印象なので今後に期待まだまだ発展途上の分野という印象だが，Google の本格的な参戦によって（実務的には）増々盛り上がりそうな分野ではありそう（アカデミアで盛り上がるかどうかは微妙な印象……）まとめと所感 18 生成検索エンジン最適化に関する2 つの論文を紹介 1. GEO: Generative Engine Optimization (KDD 2024) どうコンテンツを工夫すれば生成結果に自らのページの内容を反映できるか？ → 統計情報や引用の追加が効果的 2. Ranking Manipulation for Conversational Search Engines (EMNLP 2024) どう悪さをすれば自らの商品を生成結果の表示位置を操作できるか？ → 既存のプロンプトインジェクション手法で操作可能所感