そうだ、ゲームキャラに攻略情報を聞こう。～外部知識を参照した応答の実装ノウハウ～

そうだ､ゲームキャラに攻略情報を聞こう。 Sakusakumura (さくさくむら) ～外部知識を参照した応答の実装ノウハウ～

2 自己紹介 • さくさくむら @sakkusakumura • AIアイネスフウジンローカルで動作するキャラクターAI (Not
ChatGPT) #AIアイネスで情報発信中です！

3 機能解説 • 攻略情報の検索

4 機能解説 • ゲームキャラについての解説

機能解説 • ゲーム内機能のヘルプ

6 機能解説 • ゲーム内機能のヘルプ

7 システム構成図質問応答検索検索結果応答内容の指示

8 検索システム • 構造化したドキュメントを複数用意 • ベクトル検索のみを使用（後述 • 応答の内容をGPT-4に作成させる • AIアイネス側のプロンプトエンジニアリング

9 処理に応じた使い分け • ステップごとに最適なドキュメントが異なる • Embedding: 親セクションを含める • 応答生成: 子セクションのみ
• キーワード検索: 事前にトークン化＆品詞厳選

10 処理に応じた使い分け Embedding生成 # スペシャルウィーク「みんなにスペシャルな... スペシャルウィーク(ウマ娘)とは、実在の競走馬、スペシャルウィー… ##アニメでの活躍北海道からはるばるトレセン学園
に編入してきた。東京に出て最初に見たレースで、サイレンススズ… 応答生成 ##アニメでの活躍北海道からはるばるトレセン学園に編入してきた。東京に出て最初に見たレースで、サイレンススズカの姿に感動し、大きなあこがれを持つようになる。そして、同じ時に出会ったトレーナーにその才能を見染められ、チーム「スピカ」に拉致同然で連れて来られて加入することになる。

11 モデルによる出力の違い • モデルの性能に大きく影響育成後にもらえる固有称号新SRサポートカードの情報 SRサポートカードの性能＋キャラ概要他ウマ娘の性能他ウマ娘の性能

12 モデルによる出力の違いキャラのプロフィールキャラのプロフィールキャラのプロフィールキャラの育成情報・評価他ウマ娘の性能

キーワード検索の難しさ • 今回のシステムで実装予定だった • 検索精度が低く、ノイズになったため除外 • ベクトル検索のみ • ハイブリッド検索をするにはRerankerが必要 •
（GPT-4はRerankingに高い精度を発揮する[1]） • 使用予定だったアルゴリズム: BM25 • 普遍的なワードに邪魔される [1] Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents 13

14 ストップワードによる精度低下『プロフィール』機能の説明『ストーリー』機能の説明『フォト』機能の説明『トレーナー名詞』機能の説明『フォト撮影』機能の説明

15 ストップワードによる精度低下 • 「画面」「でき」のヒット数が多い『画面』で検索

16 ストップワードによる精度低下 • 「画面」「でき」のヒット数が多い『でき』で検索

キーワード検索の難しさ • BM25ベースのアルゴリズムだと厳しい • 保険として使う手もあるが、Rerankerの精度次第 • 逆にノイズになることも • BM25の派生は色々あるが、どれも性能は同じ[2] •
検索クエリによって精度がかなり変動する 17 [2] Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants

GPT-4の活用 • AIアイネスに渡すための回答案の作成 Rerankering, Summarizationは不要だった • AIアイネスの性能不足感があった • 複数の文書に基づいた応答の生成が安定しない 18
GPT-4なら必要な情報を選択・適切に回答できると予想

GPT-4の活用 • 非常に簡単なプロンプトを使用 19

20 GPT-4の活用

AIアイネスによる応答生成 • GPT-4の応答を参照、キャラらしい応答を生成可能 21 「考える側」と「話す側」の分離 1. キャラクター側AIが十分に高性能 2. キャラ側のプロンプトエンジニアリングただし：
が必要

おや・・・？🤔 22 外部知識とGPTは置き換えが効く他のドメイン/タスクに応用可能

AIアイネスによる応答生成 • AIアイネス(7B)にも有効/無効なプロンプトが存在 23 [INST]{ 応答案 }[/INST] {user} {assistant} [INST]
[/INST] {user + 応答案} {assistant} 無効有効訓練データに完全に依存

24 モデルのプロンプトを解釈する能力 • そうは思わない、4Bでも効くことは効く（ただし柔軟性）「13Bからじゃないとプロンプト効かないよね」＠ローカルLLM界隈

25 まとめ外部知識を使用した応答の生成システムを構築 2. 「考える側」「応答する側」の役割分担は実現可能外部知識＋GPT 「考える側」 AIアイネス「応答する側」 1.
ベクトル検索とキーワード検索埋め込みモデルの重要性キーワード検索の難しさ

26 What’s next? 検索の最適化 1. ユーザの質問をさらに細かい要素に分割→検索 2. キーワード検索の改善＆Rerankerの採用・BM25はやっぱり厳しいので別の手法が必要・コサイン類似度がそのまま回答に直結しているとは限らない

27 What’s next? タスクへの適応 1. 要求に応じたデータ検索先/応答フローの自動切換え・キャラクター性とタスク遂行能力のバランス
・日常会話など検索が必要ないものはAIアイネス側で対処したい

28 参考 • プロンプトの「効きやすい / 効きにくい」これってモデルの性能にも言えますか？ • Which
BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants • Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents

Thank you! Twitterのフォローお願いします！ @Sakkusakumura

そうだ、ゲームキャラに攻略情報を聞こう。～外部知識を参照した応答の実装ノウハウ～

そうだ、ゲームキャラに攻略情報を聞こう。～外部知識を参照した応答の実装ノウハウ～

Sakusakumura

More Decks by Sakusakumura

Other Decks in Technology

Featured

Transcript

そうだ､ゲームキャラに攻略情報を聞こう。 Sakusakumura (さくさくむら) ～外部知識を参照した応答の実装ノウハウ～

2 自己紹介 • さくさくむら @sakkusakumura • AIアイネスフウジンローカルで動作するキャラクターAI (Not

3 機能解説 • 攻略情報の検索

4 機能解説 • ゲームキャラについての解説

機能解説 • ゲーム内機能のヘルプ

6 機能解説 • ゲーム内機能のヘルプ

7 システム構成図質問応答検索検索結果応答内容の指示

8 検索システム • 構造化したドキュメントを複数用意 • ベクトル検索のみを使用（後述 • 応答の内容をGPT-4に作成させる • AIアイネス側のプロンプトエンジニアリング

9 処理に応じた使い分け • ステップごとに最適なドキュメントが異なる • Embedding: 親セクションを含める • 応答生成: 子セクションのみ

10 処理に応じた使い分け Embedding生成 # スペシャルウィーク「みんなにスペシャルな... スペシャルウィーク(ウマ娘)とは、実在の競走馬、スペシャルウィー… ##アニメでの活躍北海道からはるばるトレセン学園

11 モデルによる出力の違い • モデルの性能に大きく影響育成後にもらえる固有称号新SRサポートカードの情報 SRサポートカードの性能＋キャラ概要他ウマ娘の性能他ウマ娘の性能

12 モデルによる出力の違いキャラのプロフィールキャラのプロフィールキャラのプロフィールキャラの育成情報・評価他ウマ娘の性能

キーワード検索の難しさ • 今回のシステムで実装予定だった • 検索精度が低く、ノイズになったため除外 • ベクトル検索のみ • ハイブリッド検索をするにはRerankerが必要 •

14 ストップワードによる精度低下『プロフィール』機能の説明『ストーリー』機能の説明『フォト』機能の説明『トレーナー名詞』機能の説明『フォト撮影』機能の説明

15 ストップワードによる精度低下 • 「画面」「でき」のヒット数が多い『画面』で検索

16 ストップワードによる精度低下 • 「画面」「でき」のヒット数が多い『でき』で検索

キーワード検索の難しさ • BM25ベースのアルゴリズムだと厳しい • 保険として使う手もあるが、Rerankerの精度次第 • 逆にノイズになることも • BM25の派生は色々あるが、どれも性能は同じ[2] •

GPT-4の活用 • AIアイネスに渡すための回答案の作成 Rerankering, Summarizationは不要だった • AIアイネスの性能不足感があった • 複数の文書に基づいた応答の生成が安定しない 18

GPT-4の活用 • 非常に簡単なプロンプトを使用 19

20 GPT-4の活用

AIアイネスによる応答生成 • GPT-4の応答を参照、キャラらしい応答を生成可能 21 「考える側」と「話す側」の分離 1. キャラクター側AIが十分に高性能 2. キャラ側のプロンプトエンジニアリングただし：

おや・・・？🤔 22 外部知識とGPTは置き換えが効く他のドメイン/タスクに応用可能

AIアイネスによる応答生成 • AIアイネス(7B)にも有効/無効なプロンプトが存在 23 [INST]{ 応答案 }[/INST] {user} {assistant} [INST]

24 モデルのプロンプトを解釈する能力 • そうは思わない、4Bでも効くことは効く（ただし柔軟性）「13Bからじゃないとプロンプト効かないよね」＠ローカルLLM界隈

25 まとめ外部知識を使用した応答の生成システムを構築 2. 「考える側」「応答する側」の役割分担は実現可能外部知識＋GPT 「考える側」 AIアイネス「応答する側」 1.

26 What’s next? 検索の最適化 1. ユーザの質問をさらに細かい要素に分割→検索 2. キーワード検索の改善＆Rerankerの採用・BM25はやっぱり厳しいので別の手法が必要・コサイン類似度がそのまま回答に直結しているとは限らない

27 What’s next? タスクへの適応 1. 要求に応じたデータ検索先/応答フローの自動切換え・キャラクター性とタスク遂行能力のバランス

28 参考 • プロンプトの「効きやすい / 効きにくい」これってモデルの性能にも言えますか？ • Which

Thank you! Twitterのフォローお願いします！ @Sakkusakumura