Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
風土に合わせたRAG改善
Search
yoshitakaebihara
September 20, 2024
0
68
風土に合わせたRAG改善
AGI福岡第2回 登壇資料
yoshitakaebihara
September 20, 2024
Tweet
Share
More Decks by yoshitakaebihara
See All by yoshitakaebihara
rules改善サイクル by Y.Ebihara
yoshitakaebihara
0
110
Agent内model移行の観測
yoshitakaebihara
0
110
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
2.8k
Git: the NoSQL Database
bkeepers
PRO
431
66k
Balancing Empowerment & Direction
lara
4
660
Designing for Performance
lara
610
69k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.6k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
560
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
30
2.9k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.8k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Transcript
風土に合わせて RAGを改善したお話 19th SEP, 2024 at AGI-FUKUOKA
・倉庫~国内取引~海外取引~営業 を経験 / 業界歴 18 年 船舶業界の独立系専門商社 ・社内効率化 & 外地取引(実業務)に従事
About me ・Name : エビハラ @kuro_yos
Raise an issue 業界風土が “目標達成の壁”となった経験はないでしょうか?
Current conditions AA : 独特な複合的商習慣 物流/貿易/卸売/生産が入り混じっている横割り構造 BB : 刻々と変化するルールと膨大な知識 しかし、webでの情報は限定的
– close環境 鉄鉱石/石炭/自動車/原油/フェリー/etc → 船種ごとの固有知識も必要 全世界分の港レギュレーションや税制、国民性等 商品の固有名詞や呼称も膨大 知識と情報が幅広く入り乱れている業界 ↓
Approval 風土に逆らわず、資源(=知識) の活用 ドメイン知識である "業界常識" ↓ お客様より全知識を求められる / 知っていて当然の空気 Close環境故、一般的な知識だけではカバー出来ない
↓ = 流通用語 / 社内経験値 / 暗黙知を軸に、 RAGを改善
Practice-1A Hitする知識集 ・ 固有名詞群, 略語, 経験, 勘への対応 - 業界常識の囲い込み (熟練者の心の声)
Wireの見積依頼来た! Hoisting 4巻だ。 33.5mmは良くあるサイズ 実際の依頼内容には様々な情報が記載されています あれ?wireの構成未記載・・図面要求しよう。証明書記載は無いけど3種類必要なやつだ 最重要単語 : wire 第二優先 : Hoisting 第三優先 : 33.5mm ↓ ナレッジ構築で欲しいのは、単語の優先度や過不足
例) "UREA AUS40 SOLUTION"という商品名を、形態素解析かけると・・ “UR” + “EA”では過剰分解・・ → Mecab-pythonでの実行結果 社内熟練者の思考パターンを落とし込み、Hitするナレッジベースへ!
→ 欲しいのは “UREA” という単語 ・ ナレッジ改善 - 熟練者の思考パターンを反映したカテゴリー分け 例) 大カテゴリー : Wire / 中カテゴリー : Hoisting / 小カテゴリー : 33.5mm → ナレッジ反映 羅列ではなく、重要単語や区分からの紐付け Practice-1B Hitする知識集 ・ クエリ分解はよしなに - 流通言語を構築側が崩さない User input(業界略語)がクエリ精度高い - System promptガチガチのLLMに区切って貰いましょう
Case-A) userが"Crane wire"と検索した場合、コサイン類似度では近い数値が出てしまう Case-B) userが"Hoisting"と検索した場合 bm25rankを通したReciprocal Rank Fusion(RRF)では、0 scoreにも配点されてしまう Hitしている部分はOK
していない部分の配点が問題 ベクトル近いのは仕方ないものの・・ Practice-2A keywordがhitしない場合のフォロー ・ 類似語句へのsemantic対応 / 例) ”Hoisting wire"情報が欲しい場合
・配点手法の改善 - Reciprocal Rank Fusionに対する疑問への対応 vectorとbm25それぞれ、合計からの “獲得割合” で配点するよう修正 Keyword不発時、semanticでhit漏れを最小限にし、user視界へ入る確率を高める! 結果score
÷ 結果のsum rowごとに合算し、re-rank 注) bm25rankは短文等で良い精度を発揮します = 弊社風土がmatchしていないだけ Practice-2B keywordがhitしない場合のフォロー ベクトルで1次絞り込み ↓ Bm25 & rank(score)融合 Rank処理というより絞り込み
Key Take Aways AA : AGI来る前も 来た後も、社内情報検索は残り続けると予想されます 継続的な対応や精度向上が求められます BB :
user目線への寄り添いを前提とした、利便性の判断が必要です CC : 定石(vector + bm25 + RRF)で精度に悩んだら、固執せずに別手法を試しましょう 合わない手法は離れる勇気 システム側に合わせられないのはダメだ!という論調も承知していますが、 ソフトランディングを選択肢に残してあげて欲しいのです 確認/承認/責任取りはuser責務という原則も続くでしょう 皆様も最善手に辿り着けますように
Thank you ご清聴ありがとうございました。