Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20240917_wandb_Monthly_meetup_TIS

Keisuke Kamata
September 22, 2024
290

 20240917_wandb_Monthly_meetup_TIS

TIS様によるwandb monthly meetupの資料です
社内RAG開発についてご登壇いただきました

Keisuke Kamata

September 22, 2024
Tweet

Transcript

  1. © 2024 TIS Inc. 2 概要 TISでは昨年度から「TIS AIChatLab」という社内専用AIチャットを公開・運用してい ます。 ここではTIS

    AIChatLabのRAG(Retrieval-Augmented Generation)モデルの応答評 価に焦点を当て、その技術的なアプローチと評価プロセス、Weights & Biasesの利用例 を解説します。 先だってオウンドメディアで公開した 社内AIチャット「TIS AIChatLab」:RAG応答 評価の仕組みとプロセス という記事をベースにしつつ、最新の状況を踏まえてお届けし ます。
  2. © 2024 TIS Inc. 5 これまでの歩みを1ページで • 2023/07 社内専用AIチャット「TIS AIChatLab」初期バージョン公開

    • GPT-3.5で一般的な内容をチャットするだけのもの • RAGは無し • React(TypeScript) + Spring Boot(Java) + Azure OpenAI Service • 2023/10 社内情報検索を行えるRAG構成へとバージョンアップ • RAGにはAzure AI Search On Your Dataを使用 • 課題:体感的に回答精度が低い、定量評価が行えていない • 2024/01 部門横断の専門チームを立ち上げ回答精度の改善に着手 • アーキテクチャの刷新 • AI Seach On Your Data → 自前のRAG(ブラックボックスをなくしてチューニ ングしやすく) • Spring Boot(Java) → Python(LangChain + FastAPI) • 2024/03 回答精度の改善を達成 • 継続したUX改善を実施
  3. © 2024 TIS Inc. 9 評価方法 概要 • 評価用のデータセットを準備 •

    評価用のデータセットを用いて回答生成する • 生成された回答に対してRagasを用いて、以下のメトリクスで定量評価を実施 • Answer Correctness • Answer semantic similarity • 評価結果およびトレースをWeights & Biasesへ記録
  4. © 2024 TIS Inc. 13 • Weights & Biasesのレポート機能で作成したレポートにダイアグラムを埋め込んで いる例

    • ここではRagasで評価したスコアを可視化し、異なるバージョン間(v0, v1)を比較 している 記録されたテーブルをもとに作成したダイアグラムの例
  5. © 2024 TIS Inc. 16 トレースに関して今後の展望 プロダクション環境での内部状態を把握したいため、プロダクション環境でもトレース を記録したい。 現状は OpenTelemetry

    + Application Insights で一応トレースを見ることができるが、 HTTP通信やAzure Cosmos DBとの通信など、一連のトレースが記録されているためノ イズが多い。 Weaveへ移行したい。
  6. © 2024 TIS Inc. 17 脇道)生成AIの確率的な性質に起因する課題 評価やWeights & Biasesとは関連しない話題だが、、、みなさんがどうされているのか お聞きしたいです

    • UIのE2Eテストを自動化しており、Visual Regression Testingを行っているが、生 成されるテキストが毎回異なるため毎回差分が検出されてしまい、正直言ってテス トが機能していない、、、 • UIのテストなので生成されるテキストの内容には関心がない • そのためE2Eテストの際は FakeMessagesListChatModel を用いて生成されるテキ ストに再現性を持たせたいと考えている 生成AIの確率的な性質とテスト自動化について、みなさんどう向き合っていますか?
  7. © 2024 TIS Inc. 19 今後の展望 • 運用まわりでまだまだ手作業も多い。自動化を進める • 評価用データセットを用いた定量評価も自動化し、リグレッションテストのよ

    うに実施できる環境を整えたい • 回答精度向上の継続 • Azure AI Search単体のチューニング • インデックスのドメイン分割, クエリーの分類 • などなど
  8. © 2024 TIS Inc. 20 参考 Fintan(オウンドメディア)へ投稿した生成AI関連の記事 • 社内AIチャット「TIS AIChatLab」:RAG応答評価の仕組みとプロセス

    • 社内AIチャット「TIS AIChatLab」:RAGアーキテクチャの刷新とUX改善 • GitHub Copilotの導入状況と効果、導入に向けて実施した取り組み • 生成AIリテラシー向上研修:研修資料の公開 サービス提供 • 生成AIビジネス活用研修サービス • AI搭載型チャットボット作成サービス:Dialog Play® • 生成AI導入支援サービス