AIチャット検索改善の3週間

AIチャット検索改善の 3週間 Encraft #25 ｜生成AI時代の検索設計 Taein Kim（金泰仁）/　AIリサーチャー

© Knowledge Work Inc. 目次 2 01. 自己紹介 02. 今日話すこと
03. 背景&課題 04. どう改善したのか 05. 結果&わかったこと 06. まとめ

© Knowledge Work Inc. 3 3 金泰仁 (キムテイン)
AIリサーチャー @ナレッジワーク自己紹介 2023年 INHA大学博士課程中退（デジタル信号処理） 2024年〜株式会社Poeticsで音声認識(話者分離)の改善を研究 2025年 7月〜 M&Aにより株式会社ナレッジワークに入社　　　　　検索やRAGの改善、評価基盤の構築を行う研究も実装も楽しくやってます（つまり二刀流）趣味でゲーム音楽を作ったり、写真撮影をやってます

© Knowledge Work Inc. Agenda 目次 4 1. 自己紹介 2.
今日話すこと 3. 背景&課題 4. どう改善したのか 5. 結果&わかったこと 6. まとめ

© Knowledge Work Inc. Agenda 目次リサーチーメインの人で、プロダクトに乗せる所も関心がある人へ AIの研究とプロダクトの実装の橋渡しが、 AI Agentでもっとできるようになった
5 ターゲット（こんな人にオススメ）

© Knowledge Work Inc. 9 株式会社ナレッジワーク株式会社Poetics 背景&課題去年8月、音声分析 AIのPoeticsがM&Aでナレッジワークへ。
既存のコードベースをキャッチアップしつつ機能を改善してた商談解析AI「JamRoll」社内共有 AI商談記録 AI営業ロープレ

© Knowledge Work Inc. 10 背景&課題 “ 部分導入で試してみた所、 AIチャットの精度が良くない。カスタムプロンプト等の使い勝手もない。
他社製品への乗り換えを検討している。お客様から、精度に対してのフィードバックがあった

© Knowledge Work Inc. 14 どう改善したのか Top-down式今までのやり方 1. 四半期の単位で、プロダクトの戦略に合わせて
行う実験や実装を決める 2. 月〜週間のスパンでタスクを細かく分ける 3. DesignDocに設計・運用リスク・コストを作成し、レビューを受ける 4. 実装し、QAを行いながら必要に応じてHotfixをやる

© Knowledge Work Inc. 15 どう改善したのか今回のやり方 1. 全員でブレストして、機能単位での改善案を出す 2.
なぜ必要か・何が解決するか・実装コストを議論する 3. 採用する改善案を洗い出し、役割を分担する 4. 実装計画を共有してレビューを受ける 5. 実装して検証する 6. 検証でわかった課題点をまた改善する Bottom-up式

© Knowledge Work Inc. 25 精度が一番良いものよりは、いま安全に入れられるもの • 経験上、LLMベースのRerankはPrecisionを大きく上げるから、必ず入れたかった •
現実(データ主権、東京リージョン、運用体制)を踏まえ、 Cohere Rerank 3.5(Bedrock)を選択 • 結果は、想定より良い精度だった (Recall: 0.68→0.86, MRR: 0.66→0.90, nDCG: 0.66→0.94) 候補： • AWS Bedrock: Amazon Rerank 1.0, Cohere 3.5, Voyage 2.5 • Vertex AI: GCP Vertex Ranking API, Model Garden(BGE, Jina, …) • VM + Open Model: nagoya-cl/ruri-v3-reranker, hotchpotch/japanese-reranker-v2, … どう改善したのか事例： Rerankモデルの採用判断

© Knowledge Work Inc. 17 どう改善したのか 4/22~ 調査・相談 4/26~ 計画
4/27~ 計画・実装を並行 5/8~ 競合と比較評価 5/20 リリース機能づつ計画からレビューに 2日、実装に 1〜3日 GWはちゃんと休みました 🛌

© Knowledge Work Inc. 19 結果&わかったこと大幅に改善でき、全社導入になったハイブリッド検索 (RRFに交替) Rerankモデルの導入
二段検索クエリ拡張 / Rewrite プロンプト改善回答モデルの変更 Recall@5（測定値） 0.49 → 0.88 RRF+Rerankモデルの追加で最大の改善

© Knowledge Work Inc. 20 結果&わかったこと調査実装計画レビュー検証
キャッチアップは AIで80%までできるから、残りを担当に聞く • コード分析はコーディングエージェントで大分カバーできる • 実装の背景や意図、暗黙知こそ担当エンジニアに聞くべき • Deep Researchで業界・学術事例を調査し、現実的に選べる選択肢を確認する

変更は最小限、手術のように • エージェントとインタビューして、実装の意図を正確に伝える • テスト・流儀・コード規約は既存に合わせる • 変更範囲は最小限にとどめるここはClaude Code(Opus 4.7)よりCodex (5.5 high)がいい感じでした

PR の前に、クロスベンダーでセルフレビュー • 実装と別ベンダーでレビュー（GPT 実装 → Claude レビュー等） • Mermaid 図で「何がどう変わるか」をわかりやすく見せる • ビジネス観点とエンジニア観点のレビュー依頼を分ける普段バックエンドの実装をしてない人(AIエンジニアなど)向けの心構え

動作確認だけでなく、評価データで定量・定性評価を行う • 検索・AI は評価データに基づく定量評価＋定性評価が大事 • 複数人の定性評価から設計時の見落とし・改善点が見える • ここの高度化に一番価値がある

© Knowledge Work Inc. 24 結果&わかったこと • Good ◦ 前から課題に感じていた精度やパイプラインに手を入れられた
◦ AI を上手く使うべきの所と、人の工数が要る所が見えた • Opportunity ◦ 採用した改善案がすべて効いたわけではなかったから、原因の分析が必要 ◦ 速さ優先で、今すぐ効く選択に寄ったから、また改善の余地がある

© Knowledge Work Inc. 26 まとめ 01 分析・実装は AI で加速、合意・検証は仕組みで管理
コードのキャッチアップや初稿は AI に任せ、人の判断が要る所は仕組みでリスクを抑える 02 できるだけレビューの負担を軽減しよう自分だけでは判断できない所だけ効率的に伝えるようにする 03 データに基づいた検証が一番大事！本当の課題は評価の中で見つける

© Knowledge Work Inc. Claude Code開発者からのコツ 28 この @SPEC.md を読んで、技術実装、UI/UX、懸念点、トレードオフなど、文字通りあら
ゆる観点について、AskUserQuestionTool を使って私に詳しくヒアリングしてください。ただし、質問がありきたりにならないようにしてください。できるだけ深く掘り下げ、内容が十分に固まるまで継続的にヒアリングを続けてください。すべて完了したら、その仕様書をファイルに書き込んでください。 https://x.com/trq212/status/2005315275026260309

© Knowledge Work Inc. 使用例 29 Read those `$ARGUMENTS` and
interview me in Japanese in detail using the AskUserQuestionTool about literally anything: technical implementation, UI&UX, concerns, tradeoffs, etc. but make sure the questions are not obvious. Be very in-depth and continue interviewing me continually until it's complete, then update the provided documents if necessary. ~/.claude/commands/deepreview.md

表紙タイトル /32 表紙サブタイトル/16 中扉タイトル /27 ページタイトル /15 ページメッセージ /17~24 コンテンツラベル
/12~15 デフォルトコンテンツ/9~12 サブテキスト /8

AIチャット検索改善の3週間

AIチャット検索改善の3週間

KNOWLEDGE WORK / 株式会社ナレッジワーク PRO

More Decks by KNOWLEDGE WORK / 株式会社ナレッジワーク

Other Decks in Technology

Featured

Transcript

AIチャット検索改善の 3週間 Encraft #25 ｜生成AI時代の検索設計 Taein Kim（金泰仁）/　AIリサーチャー

© Knowledge Work Inc. 目次 2 01. 自己紹介 02. 今日話すこと

© Knowledge Work Inc. 3 3 金泰仁 (キムテイン)

© Knowledge Work Inc. Agenda 目次 4 1. 自己紹介 2.

© Knowledge Work Inc. Agenda 目次リサーチーメインの人で、プロダクトに乗せる所も関心がある人へ AIの研究とプロダクトの実装の橋渡しが、 AI Agentでもっとできるようになった

© Knowledge Work Inc. 6 今日話すこと LLMとAIコーディングエージェントが十分良くなった今 , どこをAIで効率化し、どこは人が判断すべきか？ Topic

© Knowledge Work Inc. 7 今日話すこと AIで効率化できることは分析・提案・実装のコストである必ず人の時間と合意が必要な所は仕組みでリスクを抑え、効率化するべき伝えたいこと

© Knowledge Work Inc. Agenda 目次 8 1. 自己紹介 2.

© Knowledge Work Inc. 9 株式会社ナレッジワーク株式会社Poetics 背景&課題去年8月、音声分析 AIのPoeticsがM&Aでナレッジワークへ。

© Knowledge Work Inc. 10 背景&課題 “ 部分導入で試してみた所、 AIチャットの精度が良くない。カスタムプロンプト等の使い勝手もない。

© Knowledge Work Inc. 11 背景&課題３週間で改善してくれ！ 🙏 え？

© Knowledge Work Inc. 背景&課題 12 バックエンド実装にあまり経験がないけど、どうしたら３週間に実装までできる？

© Knowledge Work Inc. Agenda 目次 13 1. 自己紹介 2.

© Knowledge Work Inc. 14 どう改善したのか Top-down式今までのやり方 1. 四半期の単位で、プロダクトの戦略に合わせて

© Knowledge Work Inc. 15 どう改善したのか今回のやり方 1. 全員でブレストして、機能単位での改善案を出す 2.

© Knowledge Work Inc. 25 精度が一番良いものよりは、いま安全に入れられるもの • 経験上、LLMベースのRerankはPrecisionを大きく上げるから、必ず入れたかった •

© Knowledge Work Inc. 17 どう改善したのか 4/22~ 調査・相談 4/26~ 計画

© Knowledge Work Inc. Agenda 目次 18 1. 自己紹介 2.

© Knowledge Work Inc. 19 結果&わかったこと大幅に改善でき、全社導入になったハイブリッド検索 (RRFに交替) Rerankモデルの導入

© Knowledge Work Inc. 20 結果&わかったこと調査実装計画レビュー検証

© Knowledge Work Inc. 21 結果&わかったこと調査実装計画レビュー検証

© Knowledge Work Inc. 22 結果&わかったこと調査実装計画レビュー検証

© Knowledge Work Inc. 23 結果&わかったこと調査実装計画レビュー検証

© Knowledge Work Inc. 24 結果&わかったこと • Good ◦ 前から課題に感じていた精度やパイプラインに手を入れられた

© Knowledge Work Inc. Agenda 目次 25 1. 自己紹介 2.

© Knowledge Work Inc. 26 まとめ 01 分析・実装は AI で加速、合意・検証は仕組みで管理

© Knowledge Work Inc. Claude Code開発者からのコツ 28 この @SPEC.md を読んで、技術実装、UI/UX、懸念点、トレードオフなど、文字通りあら

© Knowledge Work Inc. 使用例 29 Read those `$ARGUMENTS` and

表紙タイトル /32 表紙サブタイトル/16 中扉タイトル /27 ページタイトル /15 ページメッセージ /17~24 コンテンツラベル