Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
大幅アップデートされたRagas v0.2をキャッチアップ
Search
os1ma
December 12, 2024
Technology
1.2k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
大幅アップデートされたRagas v0.2をキャッチアップ
イベントページ:
https://studyco.connpass.com/event/337603/
os1ma
December 12, 2024
More Decks by os1ma
See All by os1ma
これだけで丸わかり!LangChain v1.0 アップデートまとめ
os1ma
6
2.9k
Claude Codeが働くAI中心の業務システム構築の挑戦―AIエージェント中心の働き方を目指して
os1ma
10
7.2k
LangChain Interrupt & LangChain Ambassadors meetingレポート
os1ma
2
1k
AIエージェントのフレームワークを見るときの個人的注目ポイント
os1ma
1
940
Cursor AgentによるパーソナルAIアシスタント育成入門―業務のプロンプト化・MCPの活用
os1ma
16
10k
AIエージェントキャッチアップと論文リサーチ
os1ma
7
2k
Functional APIから再考するLangGraphを使う理由
os1ma
5
1.1k
LangChain/LangGraphの進化からみるLLMによるAIエージェントの開発
os1ma
2
880
Difyのソースコードリーディングを続けて得た知見と感想
os1ma
4
950
Other Decks in Technology
See All in Technology
10年間のブログ発信を振り返って見えたWebアプリケーションエンジニアとしての軌跡
stefafafan
0
160
Lightning近況報告
kozy4324
0
190
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
160
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
0
370
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
320
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.6k
SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク ~実装編~
sonic
0
280
アジャイルな経理と Claude Code と経営の未来
kawaguti
PRO
3
160
Android の公式 Skill / Android skills
yanzm
0
160
2026 TECHFRESH 畢業分享會 - 開發日常大解密!從領域驅動到企業級上線
line_developers_tw
PRO
0
1.3k
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.3k
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1.3k
Featured
See All Featured
Claude Code のすすめ
schroneko
67
230k
It's Worth the Effort
3n
188
29k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
123
22k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
From π to Pie charts
rasagy
0
210
Paper Plane (Part 1)
katiecoart
PRO
0
9.1k
Principles of Awesome APIs and How to Build Them.
keavy
128
18k
Six Lessons from altMBA
skipperchong
29
4.3k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
The SEO identity crisis: Don't let AI make you average
varn
0
490
Transcript
2024/12/12 #StudyCo 大幅アップデートされた Ragas v0.2をキャッチアップ
自己紹介 大嶋勇樹(おおしまゆうき) https://x.com/oshima_123 株式会社ジェネラティブエージェンツ取締役CTO/Co-founder 大規模言語モデルを組み込んだアプリケーションやAIエージェントの開発を実施 個人ではエンジニア向けの勉強会開催やUdemy講座の作成など 勉強会コミュニティStudyCo運営 「ChatGPT/LangChainによるチャットシステム構築[実践]入門」(共著) 「LangChainとLangGraphによるRAG・AIエージェント[実践]入門」(共著)
会社名 株式会社ジェネラティブエージェンツ (英文:Generative Agents, Inc.) 所在地 東京都港区 ※ 全社員リモート勤務 役員構成
CEO 西見 公宏 COO 吉田 真吾 CTO 大嶋 勇樹 設立年月 2024年3月14日 事業内容 AIエージェント技術を軸とした生成 AIアプリケーション開発 支援、コンサルティング、教育・研修サービスの提供 生成AIアプリケーション開発支援 「LangChain」の公式エキスパートとして、生成AIを活用したソフトウェア開発を支 援します。生成AIを活用した課題解決、新規事業に向けたコンサルティングサー ビス、チームの開発力を上げる教育・研修サービスを提供します。 ノーコードツール「 Dify」のプロサポート Difyとはチャットボット、文章要約やコンテンツ生成など、多彩なワークフローを 現場の社員自ら構築できるツールです。当社はDifyを提供するLangGenius社の 公式パートナーとして、自社内のDifyインフラ構築、導入支援・オンボーディン グ、活用定着支援、アプリ開発研修などニーズに応じたプロフェッショナルサ ポートを提供します。 株式会社ジェネラティブエージェンツ - 会社概要 AIエージェントが「ハブ」となり 人間とAIエージェントの協働が 当たり前になる世界を実現する
代表取締役CEO / Founder 西見 公宏 Masahiro Nishimi 事業会社の顧問CTOとして活動するソフトウェア開発のスペシャリス ト。AIエージェントを経営に導入することにより、あらゆる業種業態の 生産性を高めるための活動に尽力している。
「その仕事、AIエージェントがやっておきました。――ChatGPTの次に 来る自律型AI革命」(技術評論社)単著、Software Design「実践LLMア プリケーション開発」(技術評論社)連載。 主な著書 『その仕事、AIエージェントがやっておきました』 取締役COO / Co-founder 吉田 真吾 Shingo Yoshida AWS Serverless Heroとして日本におけるサーバーレスの普及を促進。 「ChatGPT/LangChainによるチャットシステム構築[実践]入門」(技 術評論社)共著、「Azure OpenAI ServiceではじめるChatGPT/LLMシス テム構築入門」(技術評論社)共著、「AWSによるサーバーレスアーキ テクチャ」(翔泳社)監修、「サーバーレスシングルページアプリケー ション」(オライリー)監訳、「AWSエキスパート養成読本」(技術評 論社)共著。ChatGPT Community(JP)主催 主な著書 『ChatGPT/LangChainによるチャットシステム構築[実践]入門』 『Azure OpenAI ServiceではじめるChatGPT/LLMシステム構築入門 エンジニア選書』 取締役CTO / Co-founder 大嶋 勇樹 Yuki Oshima 大規模言語モデルを組み込んだアプリケーションやAIエージェントの開 発を実施。 個人ではエンジニア向けの勉強会開催や教材作成など。オンラインコー スUdemyではベストセラー講座多数。 「ChatGPT/LangChainによるチャットシステム構築[実践]入門」(技 術評論社)共著。勉強会コミュニティStudyCo運営。 主な著書 『ChatGPT/LangChainによるチャットシステム構築 [実践]入門』 運営メンバー
11/9に書籍を出しました! 『LangChainとLangGraphによるRAG・AIエージェント[実践]入門』(技術評論社) LangChain公式エキスパート 株式会社ジェネラティブエージェンツ 西見公宏、吉田真吾、大嶋勇樹 [著] • OpenAIのチャットAPI プロンプトエンジニアリング LangChainの基礎 • 検索クエリの工夫 リランクモデル ハイブリッド検索
• LangSmithを使ったRAGアプリケーション評価 • LLMを活用したAIエージェントの起源と変遷 • LangChain/LangGraphによるエージェントデザインパターンの実装 LLMを組み込んだアプリケーションの開発について、 初心者の方も経験者の方もぜひ手に取ってください!
2024/12/12 #StudyCo 大幅アップデートされた Ragas 0.2をキャッチアップ
Ragasとは Ragasは、GitHubでOSSとして公開されているLLMアプリケーションの評価フレームワークです GitHub:https://github.com/explodinggradients/ragas 論文:https://arxiv.org/abs/2309.15217 Ragasはとても活発にアップデートされており、2024年10月にv0.2がリリースされました もともとRAGの評価を扱うフレームワークでしたが、現在はRAG以外のLLMアプリにも適用可能です
RagasとLangSmithを活用して、たとえば以下の構成でRAGのオフライン評価を実施できます AIエージェント実践本より)LangSmithとRagasを使ったオフライン評価の構成例 Ragasによる 合成テストデータの生成 Ragasによる オフライン評価の実行 保存 LangSmith Dataset 評価結果
保存 読み込み
Ragas v0.2のアップデート Ragas v0.2の大きなアップデートとして、以下の2つを紹介します 1. 多様なメトリクスのサポート 2. 合成テストデータ生成処理の刷新 ※v0.2.0より後のアップデートの内容を含みます
多様なメトリクスのサポート Ragas v0.2では、RAG以外のメトリクスも多数追加されています https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/ • AgentやTool useのメトリクス • 自然言語における、事実的な正確性、意味的類似性、その他のメトリクス •
表データの等価性、SQLの等価性 • カスタマイズして使用する汎用メトリクス • 要約のスコア
AgentやTool useのメトリクスの紹介 TopicAdherenceScore • AIシステムが想定するトピックのみに回答し、他のトピックに回答しないことの評価 ToolCallAccuracy • ツールの呼び出しが期待通りであることの評価 AgentGoalAccuracyWithReference •
期待されるユーザーの目標をエージェントが達成したかの評価 これらのメトリクスはマルチターンの会話に対して使用できます 参考:https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/agents/
合成テストデータ生成処理の刷新 Ragas v0.2の合成テストデータ生成機能では、RAGのデータソースのドキュメントから ナレッジグラフを作成してRAGのテストデータを生成します https://docs.ragas.io/en/stable/concepts/test_data_generation/rag/#knowledge-graph-creation
合成テストデータ生成時のペルソナの生成 ナレッジグラフを構築したあと合成テストデータ生成する際には、ペルソナを生成(or設定)し、 そのペルソナを使ってRAGのテストデータを生成します https://docs.ragas.io/en/stable/concepts/test_data_generation/rag/#scenario-generation
LangChainのドキュメントから生成した合成テストデータの例(gpt-4o-miniを使用)
まとめ Ragas v0.2での大きなアップデートを紹介しました 1. 多様なメトリクスのサポート RAG以外にもTool useなどの多くのメトリクスが追加されました 2. 合成テストデータ生成処理の刷新 内部でナレッジグラフの構築・ペルソナの生成といった処理が行われるようになりました
ご清聴ありがとうございました