Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20240917_wandb_Monthly_meetup_TIS
Search
Keisuke Kamata
September 22, 2024
0
480
20240917_wandb_Monthly_meetup_TIS
TIS様によるwandb monthly meetupの資料です
社内RAG開発についてご登壇いただきました
Keisuke Kamata
September 22, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
350
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
350
Nejumi Leaderboard release 20240702
olachinkei
1
250
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
330
ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの
olachinkei
1
1.1k
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
olachinkei
1
1.2k
Jasterデータセットを使ったLLMモデルの評価
olachinkei
4
3.5k
W&B webinar LLM leaderboard Neo
olachinkei
1
1.2k
llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて
olachinkei
4
3.1k
Featured
See All Featured
Done Done
chrislema
182
16k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Building an army of robots
kneath
303
45k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.2k
Optimizing for Happiness
mojombo
376
70k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
50k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Transcript
© 2024 TIS Inc. 社内AIチャット「TIS AIChatLab」 RAG応答評価の仕組みとプロセス 2024.09.17 テクノロジー&イノベーション本部 開発基盤センター
© 2024 TIS Inc. 2 概要 TISでは昨年度から「TIS AIChatLab」という社内専用AIチャットを公開・運用してい ます。 ここではTIS
AIChatLabのRAG(Retrieval-Augmented Generation)モデルの応答評 価に焦点を当て、その技術的なアプローチと評価プロセス、Weights & Biasesの利用例 を解説します。 先だってオウンドメディアで公開した 社内AIチャット「TIS AIChatLab」:RAG応答 評価の仕組みとプロセス という記事をベースにしつつ、最新の状況を踏まえてお届けし ます。
© 2024 TIS Inc. 3 概要
© 2024 TIS Inc. 4 AIチャットへの取り組み 概要
© 2024 TIS Inc. 5 これまでの歩みを1ページで • 2023/07 社内専用AIチャット「TIS AIChatLab」初期バージョン公開
• GPT-3.5で一般的な内容をチャットするだけのもの • RAGは無し • React(TypeScript) + Spring Boot(Java) + Azure OpenAI Service • 2023/10 社内情報検索を行えるRAG構成へとバージョンアップ • RAGにはAzure AI Search On Your Dataを使用 • 課題:体感的に回答精度が低い、定量評価が行えていない • 2024/01 部門横断の専門チームを立ち上げ回答精度の改善に着手 • アーキテクチャの刷新 • AI Seach On Your Data → 自前のRAG(ブラックボックスをなくしてチューニ ングしやすく) • Spring Boot(Java) → Python(LangChain + FastAPI) • 2024/03 回答精度の改善を達成 • 継続したUX改善を実施
© 2024 TIS Inc. 6 TIS AIChatLabのアーキテクチャ
© 2024 TIS Inc. 7 TIS AIChatLabのアーキテクチャ
© 2024 TIS Inc. 8 性能評価の仕組み
© 2024 TIS Inc. 9 評価方法 概要 • 評価用のデータセットを準備 •
評価用のデータセットを用いて回答生成する • 生成された回答に対してRagasを用いて、以下のメトリクスで定量評価を実施 • Answer Correctness • Answer semantic similarity • 評価結果およびトレースをWeights & Biasesへ記録
© 2024 TIS Inc. 10 • 本番を想定した質問と期待する回答のセット • 業務の有識者(※)に作成してもらったり、LLMで生成したり •
※この例だと情シス 評価用のデータセット例
© 2024 TIS Inc. 11 コード例:回答生成、評価、Weights & Biasesへの記録
© 2024 TIS Inc. 12 Weights & Biasesへ記録されたテーブルの例
© 2024 TIS Inc. 13 • Weights & Biasesのレポート機能で作成したレポートにダイアグラムを埋め込んで いる例
• ここではRagasで評価したスコアを可視化し、異なるバージョン間(v0, v1)を比較 している 記録されたテーブルをもとに作成したダイアグラムの例
© 2024 TIS Inc. 14 コード例:トレースの取得 ※注:今後はWeaveが主流になっていくため、あまり役に立たない知見かもしれません • AsyncClientのappパラメーターへFastAPIオブジェクトを渡すことでHTTP通信をバ イパスし、同一プロセスでリクエストを処理している
• HTTP通信をバイパスしている理由は、アプリの作りの問題で、RAGのチェインが疎 結合になっておらず、チェイン単独で呼び出すことができなかったため
© 2024 TIS Inc. 15 コード例:トレースの取得(改善) • チェインを疎結合にして単独で呼び出せるように改善
© 2024 TIS Inc. 16 トレースに関して今後の展望 プロダクション環境での内部状態を把握したいため、プロダクション環境でもトレース を記録したい。 現状は OpenTelemetry
+ Application Insights で一応トレースを見ることができるが、 HTTP通信やAzure Cosmos DBとの通信など、一連のトレースが記録されているためノ イズが多い。 Weaveへ移行したい。
© 2024 TIS Inc. 17 脇道)生成AIの確率的な性質に起因する課題 評価やWeights & Biasesとは関連しない話題だが、、、みなさんがどうされているのか お聞きしたいです
• UIのE2Eテストを自動化しており、Visual Regression Testingを行っているが、生 成されるテキストが毎回異なるため毎回差分が検出されてしまい、正直言ってテス トが機能していない、、、 • UIのテストなので生成されるテキストの内容には関心がない • そのためE2Eテストの際は FakeMessagesListChatModel を用いて生成されるテキ ストに再現性を持たせたいと考えている 生成AIの確率的な性質とテスト自動化について、みなさんどう向き合っていますか?
© 2024 TIS Inc. 18 今後の展望
© 2024 TIS Inc. 19 今後の展望 • 運用まわりでまだまだ手作業も多い。自動化を進める • 評価用データセットを用いた定量評価も自動化し、リグレッションテストのよ
うに実施できる環境を整えたい • 回答精度向上の継続 • Azure AI Search単体のチューニング • インデックスのドメイン分割, クエリーの分類 • などなど
© 2024 TIS Inc. 20 参考 Fintan(オウンドメディア)へ投稿した生成AI関連の記事 • 社内AIチャット「TIS AIChatLab」:RAG応答評価の仕組みとプロセス
• 社内AIチャット「TIS AIChatLab」:RAGアーキテクチャの刷新とUX改善 • GitHub Copilotの導入状況と効果、導入に向けて実施した取り組み • 生成AIリテラシー向上研修:研修資料の公開 サービス提供 • 生成AIビジネス活用研修サービス • AI搭載型チャットボット作成サービス:Dialog Play® • 生成AI導入支援サービス
ご清聴ありがとうございました