Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIチャット検索改善の3週間

 AIチャット検索改善の3週間

Taein Kim(金 泰仁 / キム・テイン) / 株式会社ナレッジワーク
「Encraft #25 生成AI時代の検索設計」(2026/06/23 )での登壇資料です
https://knowledgework.connpass.com/event/393625/

<セッション概要>
AIチャット検索改善の3週間:何を選び、どう速く作ったか
生成AIの普及により、AIチャットや検索の品質を高める手法は数多く知られるようになりました。一方で、企業向けプロダクトでは、既存の検索パイプライン、顧客ごとのユースケース、運用上の制約を踏まえて「何を採用し、何を採用しないか」を判断する必要があります。本セッションでは、同僚との設計レビューを通じて方針を磨きながら、Query Rewrite、Rerank、二段検索、プロンプト改善、検証用Admin Taskなど約5つの改善を、CodexやClaude Codeも活用して約3週間で計画・実装・検証・リリースした実践を紹介します。

<登壇者プロフィール>
株式会社ナレッジワークでAIリサーチャーとして、RAGを用いたAIチャットの品質改善に取り組んでいます。主に検索品質の改善、評価データの設計、回答生成プロセスの改善などを担当しています。以前はSpeaker Diarizationパイプラインの改善にも携わっていました。

More Decks by KNOWLEDGE WORK / 株式会社ナレッジワーク

Other Decks in Technology

Transcript

  1. © Knowledge Work Inc. 目次 2 01. 自己紹介 02. 今日話すこと

    03. 背景&課題 04. どう改善したのか 05. 結果&わかったこと 06. まとめ
  2. © Knowledge Work Inc. 3 3 金 泰仁 (キム テイン)

    AIリサーチャー @ナレッジワーク 自己紹介 2023年 INHA大学 博士課程中退(デジタル信号処理) 2024年〜 株式会社Poeticsで音声認識(話者分離)の改善を研究 2025年 7月〜 M&Aにより株式会社ナレッジワークに入社        検索やRAGの改善、評価基盤の構築を行う 研究も実装も楽しくやってます(つまり二刀流) 趣味でゲーム音楽を作ったり、写真撮影をやってます
  3. © Knowledge Work Inc. Agenda 目次 4 1. 自己紹介 2.

    今日話すこと 3. 背景&課題 4. どう改善したのか 5. 結果&わかったこと 6. まとめ
  4. © Knowledge Work Inc. Agenda 目次 8 1. 自己紹介 2.

    今日話すこと 3. 背景&課題 4. どう改善したのか 5. 結果&わかったこと 6. まとめ
  5. © Knowledge Work Inc. 9 株式会社ナレッジワーク 株式会社Poetics 背景&課題 去年8月、音声分析 AIのPoeticsがM&Aでナレッジワークへ。

    既存のコードベースをキャッチアップしつつ機能を改善してた 商談解析AI「JamRoll」 社内共有 AI商談記録 AI営業ロープレ
  6. © Knowledge Work Inc. 10 背景&課題 “ 部分導入で試してみた所、 AIチャットの精度が良くない。 カスタムプロンプト等の使い勝手もない。

    他社製品への乗り換えを検討している。 お客様から、精度に対してのフィードバックがあった
  7. © Knowledge Work Inc. Agenda 目次 13 1. 自己紹介 2.

    今日話すこと 3. 背景&課題 4. どう改善したのか 5. 結果&わかったこと 6. まとめ
  8. © Knowledge Work Inc. 14 どう改善したのか Top-down式 今までのやり方 1. 四半期の単位で、プロダクトの戦略に合わせて

    行う実験や実装を決める 2. 月〜週間のスパンでタスクを細かく分ける 3. DesignDocに設計・運用リスク・コストを作成し、レビューを受ける 4. 実装し、QAを行いながら必要に応じてHotfixをやる
  9. © Knowledge Work Inc. 15 どう改善したのか 今回のやり方 1. 全員でブレストして、機能単位での改善案を出す 2.

    なぜ必要か・何が解決するか・実装コストを議論する 3. 採用する改善案を洗い出し、役割を分担する 4. 実装計画を共有してレビューを受ける 5. 実装して検証する 6. 検証でわかった課題点をまた改善 する Bottom-up式
  10. © Knowledge Work Inc. 25 精度が一番良いものよりは、 いま安全に入れられるもの • 経験上、LLMベースのRerankはPrecisionを大きく上げるから、必ず入れたかった •

    現実(データ主権、東京リージョン、運用体制)を踏まえ、 Cohere Rerank 3.5(Bedrock)を選択 • 結果は、想定より良い精度だった (Recall: 0.68→0.86, MRR: 0.66→0.90, nDCG: 0.66→0.94) 候補: • AWS Bedrock: Amazon Rerank 1.0, Cohere 3.5, Voyage 2.5 • Vertex AI: GCP Vertex Ranking API, Model Garden(BGE, Jina, …) • VM + Open Model: nagoya-cl/ruri-v3-reranker, hotchpotch/japanese-reranker-v2, … どう改善したのか 事例: Rerankモデルの採用判断
  11. © Knowledge Work Inc. 17 どう改善したのか 4/22~ 調査・相談 4/26~ 計画

    4/27~ 計画・実装を並行 5/8~ 競合と比較評価 5/20 リリース 機能づつ計画からレビューに 2日、実装に 1〜3日 GWはちゃんと休みました 🛌
  12. © Knowledge Work Inc. Agenda 目次 18 1. 自己紹介 2.

    今日話すこと 3. 背景&課題 4. どう改善したのか 5. 結果&わかったこと 6. まとめ
  13. © Knowledge Work Inc. 19 結果&わかったこと 大幅に改善でき、全社導入になった ハイブリッド検索 (RRFに交替) Rerankモデルの導入

    二段検索 クエリ拡張 / Rewrite プロンプト改善 回答モデルの変更 Recall@5(測定値) 0.49 → 0.88 RRF+Rerankモデルの追加で最大の改善
  14. © Knowledge Work Inc. 20 結果&わかったこと 調査 実装計画 レビュー 検証

    キャッチアップは AIで80%までできるから、残りを担当に聞く • コード分析はコーディングエージェントで大分カバーできる • 実装の背景や意図、暗黙知こそ担当エンジニアに聞くべき • Deep Researchで業界・学術事例を調査し、 現実的に選べる選択肢を確認する
  15. © Knowledge Work Inc. 21 結果&わかったこと 調査 実装計画 レビュー 検証

    変更は最小限、手術のように • エージェントとインタビューして、実装の意図を正確に伝える • テスト・流儀・コード規約は既存に合わせる • 変更範囲は最小限にとどめる ここはClaude Code(Opus 4.7)よりCodex (5.5 high)がいい感じでした
  16. © Knowledge Work Inc. 22 結果&わかったこと 調査 実装計画 レビュー 検証

    PR の前に、クロスベンダーでセルフレビュー • 実装と別ベンダーでレビュー(GPT 実装 → Claude レビュー 等) • Mermaid 図で「何がどう変わるか」をわかりやすく見せる • ビジネス観点とエンジニア観点のレビュー依頼を分ける 普段バックエンドの実装をしてない人(AIエンジニアなど)向けの心構え
  17. © Knowledge Work Inc. 23 結果&わかったこと 調査 実装計画 レビュー 検証

    動作確認だけでなく、評価データで定量・定性評価を行う • 検索・AI は評価データに基づく定量評価+定性評価が大事 • 複数人の定性評価から設計時の見落とし・改善点が見える • ここの高度化に一番価値がある
  18. © Knowledge Work Inc. 24 結果&わかったこと • Good ◦ 前から課題に感じていた精度やパイプラインに手を入れられた

    ◦ AI を上手く使うべきの所と、人の工数が要る所が見えた • Opportunity ◦ 採用した改善案がすべて効いたわけではなかったから、原因の分析が必要 ◦ 速さ優先で、今すぐ効く選択に寄ったから、また改善の余地がある
  19. © Knowledge Work Inc. Agenda 目次 25 1. 自己紹介 2.

    今日話すこと 3. 背景&課題 4. どう改善したのか 5. 結果&わかったこと 6. まとめ
  20. © Knowledge Work Inc. 26 まとめ 01 分析・実装は AI で加速、合意・検証は仕組みで管理

    コードのキャッチアップや初稿は AI に任せ、 人の判断が要る所は仕組みでリスクを抑える 02 できるだけレビューの負担を軽減しよう 自分だけでは判断できない所だけ効率的に伝えるようにする 03 データに基づいた検証が一番大事! 本当の課題は評価の中で見つける
  21. © Knowledge Work Inc. Claude Code開発者からのコツ 28 この @SPEC.md を読んで、技術実装、UI/UX、懸念点、トレードオフなど、文字通りあら

    ゆる観点について、AskUserQuestionTool を使って私に詳しくヒアリングしてください。 ただし、質問がありきたりにならないようにしてください。 できるだけ深く掘り下げ、内容が十分に固まるまで継続的にヒアリングを続けてください。 すべて完了したら、その仕様書をファイルに書き込んでください。 https://x.com/trq212/status/2005315275026260309
  22. © Knowledge Work Inc. 使用例 29 Read those `$ARGUMENTS` and

    interview me in Japanese in detail using the AskUserQuestionTool about literally anything: technical implementation, UI&UX, concerns, tradeoffs, etc. but make sure the questions are not obvious. Be very in-depth and continue interviewing me continually until it's complete, then update the provided documents if necessary. ~/.claude/commands/deepreview.md