Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
Search
Elith
July 21, 2023
Technology
1
84
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
LLMによるプロダクトリリースの際にLLM自体の評価やタスクに依存したプロンプトの評価を簡単に行いたいと思い、日本語対応のLang de chat (ラング・ド・シャ)というライブラリを作成
Elith
July 21, 2023
Tweet
Share
More Decks by Elith
See All by Elith
今、知っておきたい! 生成AIエージェントの世界
elith
3
440
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
1
320
LLMに医療知識をつけるには
elith
4
900
放射線分野の問題をLLMに解かせてみた
elith
1
490
Data Is All You Need
elith
0
130
[CVPR 2023 論文紹介]Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation
elith
0
280
画像を用いた論文解説の可能性
elith
1
1k
Other Decks in Technology
See All in Technology
CockroachDB はどのくらい「しぶとい」のか? / How tough is CockroachDB?
kota2and3kan
13
4.9k
QAエンジニアが伝えたい品質保証の羅針盤 / Compass for Quality Assurance
mii3king
1
320
技術力の伸ばし方を考える
khirata
0
140
株式会社EventHub・エンジニア採用資料
eventhub
0
2.1k
エムスリーマルチデバイスチーム紹介資料 / Introduction of M3 Multi Device Team
m3_engineering
0
100
Dungeons and Dragons and Rails
joelq
0
220
AWS アーキテクチャ作図入門/aws-architecture-diagram-101
ma2shita
16
6.7k
Secrets of a PowerShell "Guru"
guyrleech
1
120
B2C、B2B プロダクトマネジメントの違い(および思考の罠) / B2C, B2B PM and reduction fallacy
ykmc09
5
2k
NewSQL Landscape
oracle4engineer
PRO
5
3.2k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
5
38k
AWSやJAWS-UGとの出会いを振り返る
yoyoyopg
1
210
Featured
See All Featured
A Tale of Four Properties
chriscoyier
153
22k
The Cost Of JavaScript in 2023
addyosmani
21
4k
The Invisible Side of Design
smashingmag
294
49k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
22
1.4k
Music & Morning Musume
bryan
41
5.6k
Being A Developer After 40
akosma
67
580k
WebSockets: Embracing the real-time Web
robhawkes
59
7k
Building Better People: How to give real-time feedback that sticks.
wjessup
356
18k
What's new in Ruby 2.0
geeforr
338
31k
10 Git Anti Patterns You Should be Aware of
lemiorhan
649
58k
Done Done
chrislema
178
15k
Building Your Own Lightsaber
phodgson
100
5.7k
Transcript
LLM評価ライブラリ Lang de chat (ラング・ド・シャ) 株式会社Elith CEO & CTO Koki
Inoue
自己紹介 2 2 井上 顧基(こうき) Elith CEO&CTO @Beluuuuuuga
自己紹介 3 3 ▪ 学歴 • 北陸先端科学技術大学院大学修了し量子コンピュータの材料探索研究 • 東北大学医学系研究科博士後期課程在学し 放射線画像に対する自動輪郭のためのセグメンテーション研究
▪ 職歴 • AIベンダーの画像分野でのリードとしてAI開発に従事 • AIの受託開発・自社サービスを提供する株式会社Elith(エリス)を創業 ▪ 職業 • Elith(エリス)のCTO ▪ 書籍 • Git入門コマンドライン演習80(秀和システム) • LLMの記事で日経Linux2023年9月号(日経BP)で寄稿
自己紹介 4 4 ▪ 過去に担当した案件 • 画像・動画・点群(3D) • 競馬パドック馬姿勢推定AI: 動画/姿勢推定
• イヤホン感情評価AI: 点群/回帰 • 内視鏡AI: 画像/分類 • 放射線画像自動輪郭AI: 画像/セグメンテーション • 自然言語・LLM • LLM研究コンサルティング: LLM/コンサルティング • LLM炎上検知: 自然言語・LLM/炎上検知 ▪ 研究実績 • 2023年7月 医学物理の国際学会AAPMに採択されアメリカヒューストンで発表
会社のサービス紹介 5
1. 全体概要 ・英語に加え日本語に対応した LLMモデル評価とLLMプロンプト評価ライブラリ ・タスク特化の少量データを用意し、 v0.1.1ではLLMが苦手な日付計算データを用意 ・プレフィックスサフィックスのプロンプトを追加できる ・精度向上のためプレフィックスには Few-shot、プレフィックスにはCoT(Chain of
thoughts)などを想定 6 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成
1. 全体概要 7 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問文 プレフィックスプロンプト サフィックスプロンプト
回答 出力 期待される回答 評価 プロンプト
1. 全体概要 8 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問:もし今日が2021年1月1日だとしたら、365日後は何日になるか?、回答: 質問:もし今日が月曜だとしたら、 4日後は何日になるか?、回答:金曜
ステップバイステップで考えてください。 回答 出力 期待される回答 評価 プロンプト
1. 全体概要 9 v0.1.1で用意したデータは難易度の高い日付計算で6件
2. 背景 • 日本語プロンプトの評価が難しい • 日本語LLMの評価が難しい • 評価ができてもデータ量が大きい • OpenAIの日本語の場合、英語と比較してAPI料金が高い
• タスクが難しい場合の評価できない • 論文で有効とされるプロンプトが本当にそのタスクで有効かわからない • プロダクトレベルのプロンプトエンジニアリングに時間がかかる ➡日本語に対応したタスク特化の LLM評価ライブラリを作成 10 日本語で簡単にプロンプトの評価を行いたい
2. 背景 11 フェーズによって評価方法が異なる LLMモデル学習 プロンプト調整 ファインチューニング • 評価方法を考える •
タスクに特化した評価 • プロンプトエンジニアリング • インストラクションチューニング • RLHF • PEFTによる学習 • 事前学習 • クロールしたデータで学習 • 日本語だとWikipediaなど こちらを評価
2. 背景 12 既存データやツールで評価できないか? 論文などの評価 ・評価方法自体はMMLUなどが存在 ・評価データが英語であり、日本語で評価しにくい ・プロンプトについては記載のない論文もある LangchainDataset ・タスクの種類11個で少ない
・データ量がバラバラでライセンス的にも怪しい
2. 背景 13 日本語評価データ JGLUE ・複数タスクで評価できる ・データ量が多い API料金が気になる ・大量のデータの場合だとAPI料金が高くなる ・少量データでタスク特化で確認したい
3. デモの紹介 14 ChatGPTによる評価 以下のような日付の計算など難しいタスクの場合に間違うため CoTなどのプロンプトを試す必要がある
3. デモの紹介 15 ライブラリによる評価 以下はライブラリで評価した場合
4. プロンプト評価ライブラリ 16 全体構成 Task1 TaskN Prompt1 PromptN ・・・ ・・・
Model1 ModelN ・・・ センチメント予測タスク Few-shotプロンプト + CoTプロンプト GPT-3.5モデル ライブラリでタスク・プロンプト・モデルを選択し評価することができる
5. 今後の動き • データセット(タスク)の追加 ◦ JGLUEデータセットの追加 ◦ 英語データセットの日本語翻訳 ◦ 新規のデータセットを手動で作成
◦ HuggingFaceのデータセットで対応できるようにする 17 • プロンプト追加 ◦ Tree-of-Thoughts (ToT) など有効とされるプロンプトの追加 ◦ 論文サーベイしプロンプト追加 • OSS活動 ◦ ウェビナーや有志の勉強会などで OSS活動支援 ◦ ドキュメントなど充実 • LLMモデル自体の評価 ◦ 現在はLangChainで対応済みのLLM評価のみなので HuggingFaceのLLMの推論に対応する