Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20240917_wandb_Monthly_meetup_TIS
Search
Keisuke Kamata
September 22, 2024
0
570
20240917_wandb_Monthly_meetup_TIS
TIS様によるwandb monthly meetupの資料です
社内RAG開発についてご登壇いただきました
Keisuke Kamata
September 22, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)
olachinkei
1
270
W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)
olachinkei
0
210
WeaveでMCPを記録する & W&BのMCP
olachinkei
1
270
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
olachinkei
1
260
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
1.2k
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
520
Nejumi Leaderboard release 20240702
olachinkei
1
360
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
510
ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの
olachinkei
1
1.3k
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
4 Signs Your Business is Dying
shpigford
186
22k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
970
A Tale of Four Properties
chriscoyier
162
23k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
380
Scaling GitHub
holman
464
140k
Practical Orchestrator
shlominoach
190
11k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Transcript
© 2024 TIS Inc. 社内AIチャット「TIS AIChatLab」 RAG応答評価の仕組みとプロセス 2024.09.17 テクノロジー&イノベーション本部 開発基盤センター
© 2024 TIS Inc. 2 概要 TISでは昨年度から「TIS AIChatLab」という社内専用AIチャットを公開・運用してい ます。 ここではTIS
AIChatLabのRAG(Retrieval-Augmented Generation)モデルの応答評 価に焦点を当て、その技術的なアプローチと評価プロセス、Weights & Biasesの利用例 を解説します。 先だってオウンドメディアで公開した 社内AIチャット「TIS AIChatLab」:RAG応答 評価の仕組みとプロセス という記事をベースにしつつ、最新の状況を踏まえてお届けし ます。
© 2024 TIS Inc. 3 概要
© 2024 TIS Inc. 4 AIチャットへの取り組み 概要
© 2024 TIS Inc. 5 これまでの歩みを1ページで • 2023/07 社内専用AIチャット「TIS AIChatLab」初期バージョン公開
• GPT-3.5で一般的な内容をチャットするだけのもの • RAGは無し • React(TypeScript) + Spring Boot(Java) + Azure OpenAI Service • 2023/10 社内情報検索を行えるRAG構成へとバージョンアップ • RAGにはAzure AI Search On Your Dataを使用 • 課題:体感的に回答精度が低い、定量評価が行えていない • 2024/01 部門横断の専門チームを立ち上げ回答精度の改善に着手 • アーキテクチャの刷新 • AI Seach On Your Data → 自前のRAG(ブラックボックスをなくしてチューニ ングしやすく) • Spring Boot(Java) → Python(LangChain + FastAPI) • 2024/03 回答精度の改善を達成 • 継続したUX改善を実施
© 2024 TIS Inc. 6 TIS AIChatLabのアーキテクチャ
© 2024 TIS Inc. 7 TIS AIChatLabのアーキテクチャ
© 2024 TIS Inc. 8 性能評価の仕組み
© 2024 TIS Inc. 9 評価方法 概要 • 評価用のデータセットを準備 •
評価用のデータセットを用いて回答生成する • 生成された回答に対してRagasを用いて、以下のメトリクスで定量評価を実施 • Answer Correctness • Answer semantic similarity • 評価結果およびトレースをWeights & Biasesへ記録
© 2024 TIS Inc. 10 • 本番を想定した質問と期待する回答のセット • 業務の有識者(※)に作成してもらったり、LLMで生成したり •
※この例だと情シス 評価用のデータセット例
© 2024 TIS Inc. 11 コード例:回答生成、評価、Weights & Biasesへの記録
© 2024 TIS Inc. 12 Weights & Biasesへ記録されたテーブルの例
© 2024 TIS Inc. 13 • Weights & Biasesのレポート機能で作成したレポートにダイアグラムを埋め込んで いる例
• ここではRagasで評価したスコアを可視化し、異なるバージョン間(v0, v1)を比較 している 記録されたテーブルをもとに作成したダイアグラムの例
© 2024 TIS Inc. 14 コード例:トレースの取得 ※注:今後はWeaveが主流になっていくため、あまり役に立たない知見かもしれません • AsyncClientのappパラメーターへFastAPIオブジェクトを渡すことでHTTP通信をバ イパスし、同一プロセスでリクエストを処理している
• HTTP通信をバイパスしている理由は、アプリの作りの問題で、RAGのチェインが疎 結合になっておらず、チェイン単独で呼び出すことができなかったため
© 2024 TIS Inc. 15 コード例:トレースの取得(改善) • チェインを疎結合にして単独で呼び出せるように改善
© 2024 TIS Inc. 16 トレースに関して今後の展望 プロダクション環境での内部状態を把握したいため、プロダクション環境でもトレース を記録したい。 現状は OpenTelemetry
+ Application Insights で一応トレースを見ることができるが、 HTTP通信やAzure Cosmos DBとの通信など、一連のトレースが記録されているためノ イズが多い。 Weaveへ移行したい。
© 2024 TIS Inc. 17 脇道)生成AIの確率的な性質に起因する課題 評価やWeights & Biasesとは関連しない話題だが、、、みなさんがどうされているのか お聞きしたいです
• UIのE2Eテストを自動化しており、Visual Regression Testingを行っているが、生 成されるテキストが毎回異なるため毎回差分が検出されてしまい、正直言ってテス トが機能していない、、、 • UIのテストなので生成されるテキストの内容には関心がない • そのためE2Eテストの際は FakeMessagesListChatModel を用いて生成されるテキ ストに再現性を持たせたいと考えている 生成AIの確率的な性質とテスト自動化について、みなさんどう向き合っていますか?
© 2024 TIS Inc. 18 今後の展望
© 2024 TIS Inc. 19 今後の展望 • 運用まわりでまだまだ手作業も多い。自動化を進める • 評価用データセットを用いた定量評価も自動化し、リグレッションテストのよ
うに実施できる環境を整えたい • 回答精度向上の継続 • Azure AI Search単体のチューニング • インデックスのドメイン分割, クエリーの分類 • などなど
© 2024 TIS Inc. 20 参考 Fintan(オウンドメディア)へ投稿した生成AI関連の記事 • 社内AIチャット「TIS AIChatLab」:RAG応答評価の仕組みとプロセス
• 社内AIチャット「TIS AIChatLab」:RAGアーキテクチャの刷新とUX改善 • GitHub Copilotの導入状況と効果、導入に向けて実施した取り組み • 生成AIリテラシー向上研修:研修資料の公開 サービス提供 • 生成AIビジネス活用研修サービス • AI搭載型チャットボット作成サービス:Dialog Play® • 生成AI導入支援サービス
ご清聴ありがとうございました