Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
風土に合わせたRAG改善
Search
yoshitakaebihara
September 20, 2024
0
72
風土に合わせたRAG改善
AGI福岡第2回 登壇資料
yoshitakaebihara
September 20, 2024
Tweet
Share
More Decks by yoshitakaebihara
See All by yoshitakaebihara
記憶プロセスとLTM
yoshitakaebihara
0
92
rules改善サイクル by Y.Ebihara
yoshitakaebihara
0
120
Agent内model移行の観測
yoshitakaebihara
0
130
Featured
See All Featured
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
170
The Spectacular Lies of Maps
axbom
PRO
1
400
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
150
Embracing the Ebb and Flow
colly
88
4.9k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
31
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.7k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
58
HDC tutorial
michielstock
0
280
Designing for humans not robots
tammielis
254
26k
Why Our Code Smells
bkeepers
PRO
340
57k
Discover your Explorer Soul
emna__ayadi
2
1k
Transcript
風土に合わせて RAGを改善したお話 19th SEP, 2024 at AGI-FUKUOKA
・倉庫~国内取引~海外取引~営業 を経験 / 業界歴 18 年 船舶業界の独立系専門商社 ・社内効率化 & 外地取引(実業務)に従事
About me ・Name : エビハラ @kuro_yos
Raise an issue 業界風土が “目標達成の壁”となった経験はないでしょうか?
Current conditions AA : 独特な複合的商習慣 物流/貿易/卸売/生産が入り混じっている横割り構造 BB : 刻々と変化するルールと膨大な知識 しかし、webでの情報は限定的
– close環境 鉄鉱石/石炭/自動車/原油/フェリー/etc → 船種ごとの固有知識も必要 全世界分の港レギュレーションや税制、国民性等 商品の固有名詞や呼称も膨大 知識と情報が幅広く入り乱れている業界 ↓
Approval 風土に逆らわず、資源(=知識) の活用 ドメイン知識である "業界常識" ↓ お客様より全知識を求められる / 知っていて当然の空気 Close環境故、一般的な知識だけではカバー出来ない
↓ = 流通用語 / 社内経験値 / 暗黙知を軸に、 RAGを改善
Practice-1A Hitする知識集 ・ 固有名詞群, 略語, 経験, 勘への対応 - 業界常識の囲い込み (熟練者の心の声)
Wireの見積依頼来た! Hoisting 4巻だ。 33.5mmは良くあるサイズ 実際の依頼内容には様々な情報が記載されています あれ?wireの構成未記載・・図面要求しよう。証明書記載は無いけど3種類必要なやつだ 最重要単語 : wire 第二優先 : Hoisting 第三優先 : 33.5mm ↓ ナレッジ構築で欲しいのは、単語の優先度や過不足
例) "UREA AUS40 SOLUTION"という商品名を、形態素解析かけると・・ “UR” + “EA”では過剰分解・・ → Mecab-pythonでの実行結果 社内熟練者の思考パターンを落とし込み、Hitするナレッジベースへ!
→ 欲しいのは “UREA” という単語 ・ ナレッジ改善 - 熟練者の思考パターンを反映したカテゴリー分け 例) 大カテゴリー : Wire / 中カテゴリー : Hoisting / 小カテゴリー : 33.5mm → ナレッジ反映 羅列ではなく、重要単語や区分からの紐付け Practice-1B Hitする知識集 ・ クエリ分解はよしなに - 流通言語を構築側が崩さない User input(業界略語)がクエリ精度高い - System promptガチガチのLLMに区切って貰いましょう
Case-A) userが"Crane wire"と検索した場合、コサイン類似度では近い数値が出てしまう Case-B) userが"Hoisting"と検索した場合 bm25rankを通したReciprocal Rank Fusion(RRF)では、0 scoreにも配点されてしまう Hitしている部分はOK
していない部分の配点が問題 ベクトル近いのは仕方ないものの・・ Practice-2A keywordがhitしない場合のフォロー ・ 類似語句へのsemantic対応 / 例) ”Hoisting wire"情報が欲しい場合
・配点手法の改善 - Reciprocal Rank Fusionに対する疑問への対応 vectorとbm25それぞれ、合計からの “獲得割合” で配点するよう修正 Keyword不発時、semanticでhit漏れを最小限にし、user視界へ入る確率を高める! 結果score
÷ 結果のsum rowごとに合算し、re-rank 注) bm25rankは短文等で良い精度を発揮します = 弊社風土がmatchしていないだけ Practice-2B keywordがhitしない場合のフォロー ベクトルで1次絞り込み ↓ Bm25 & rank(score)融合 Rank処理というより絞り込み
Key Take Aways AA : AGI来る前も 来た後も、社内情報検索は残り続けると予想されます 継続的な対応や精度向上が求められます BB :
user目線への寄り添いを前提とした、利便性の判断が必要です CC : 定石(vector + bm25 + RRF)で精度に悩んだら、固執せずに別手法を試しましょう 合わない手法は離れる勇気 システム側に合わせられないのはダメだ!という論調も承知していますが、 ソフトランディングを選択肢に残してあげて欲しいのです 確認/承認/責任取りはuser責務という原則も続くでしょう 皆様も最善手に辿り着けますように
Thank you ご清聴ありがとうございました。