Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
Search
Elith
July 21, 2023
Technology
1
84
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
LLMによるプロダクトリリースの際にLLM自体の評価やタスクに依存したプロンプトの評価を簡単に行いたいと思い、日本語対応のLang de chat (ラング・ド・シャ)というライブラリを作成
Elith
July 21, 2023
Tweet
Share
More Decks by Elith
See All by Elith
今、知っておきたい! 生成AIエージェントの世界
elith
3
440
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
1
320
LLMに医療知識をつけるには
elith
4
900
放射線分野の問題をLLMに解かせてみた
elith
1
490
Data Is All You Need
elith
0
130
[CVPR 2023 論文紹介]Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation
elith
0
280
画像を用いた論文解説の可能性
elith
1
1k
Other Decks in Technology
See All in Technology
Kaggleで学ぶ系列データのための深層学習モデリング
yu4u
7
1.7k
OPENLOGI Company Profile
hr01
0
45k
中年男性がメインフレームから クラウドへキャリアシフトしてみた
uechishingo
1
460
AWS アーキテクチャ作図入門/aws-architecture-diagram-101
ma2shita
16
6.7k
社内での継続的な機械学習勉強会の開催のコツ
yudai00
2
380
Observabilityジャーニーを実現するためのAWSサービス:CloudWatch編
o11yfes2023
0
130
Prisma ORMを2年運用して培ったノウハウを共有する
tockn
19
4.9k
TanStack Routerで型安全かつ効率的なルーティングを実現
ytaisei
4
760
LLM評価の落とし穴~開発者目線で気をつけるポイント~
rishigami
10
3k
TypescriptでのContextualな構造化ロギングと社内全体への導入
leveragestech
3
520
パフォーマンス最適化のベストプラクティス
databricksjapan
0
190
Observabilityジャーニーを実現するためのAWSサービス:OSS編
o11yfes2023
0
110
Featured
See All Featured
Mobile First: as difficult as doing things right
swwweet
217
8.6k
Visualization
eitanlees
137
14k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
0
110
Six Lessons from altMBA
skipperchong
22
3k
Creatively Recalculating Your Daily Design Routine
revolveconf
211
11k
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.7k
Building Adaptive Systems
keathley
32
1.9k
The Straight Up "How To Draw Better" Workshop
denniskardys
228
130k
The Art of Programming - Codeland 2020
erikaheidi
43
12k
jQuery: Nuts, Bolts and Bling
dougneiner
60
7.2k
Navigating Team Friction
lara
179
13k
Building a Scalable Design System with Sketch
lauravandoore
457
32k
Transcript
LLM評価ライブラリ Lang de chat (ラング・ド・シャ) 株式会社Elith CEO & CTO Koki
Inoue
自己紹介 2 2 井上 顧基(こうき) Elith CEO&CTO @Beluuuuuuga
自己紹介 3 3 ▪ 学歴 • 北陸先端科学技術大学院大学修了し量子コンピュータの材料探索研究 • 東北大学医学系研究科博士後期課程在学し 放射線画像に対する自動輪郭のためのセグメンテーション研究
▪ 職歴 • AIベンダーの画像分野でのリードとしてAI開発に従事 • AIの受託開発・自社サービスを提供する株式会社Elith(エリス)を創業 ▪ 職業 • Elith(エリス)のCTO ▪ 書籍 • Git入門コマンドライン演習80(秀和システム) • LLMの記事で日経Linux2023年9月号(日経BP)で寄稿
自己紹介 4 4 ▪ 過去に担当した案件 • 画像・動画・点群(3D) • 競馬パドック馬姿勢推定AI: 動画/姿勢推定
• イヤホン感情評価AI: 点群/回帰 • 内視鏡AI: 画像/分類 • 放射線画像自動輪郭AI: 画像/セグメンテーション • 自然言語・LLM • LLM研究コンサルティング: LLM/コンサルティング • LLM炎上検知: 自然言語・LLM/炎上検知 ▪ 研究実績 • 2023年7月 医学物理の国際学会AAPMに採択されアメリカヒューストンで発表
会社のサービス紹介 5
1. 全体概要 ・英語に加え日本語に対応した LLMモデル評価とLLMプロンプト評価ライブラリ ・タスク特化の少量データを用意し、 v0.1.1ではLLMが苦手な日付計算データを用意 ・プレフィックスサフィックスのプロンプトを追加できる ・精度向上のためプレフィックスには Few-shot、プレフィックスにはCoT(Chain of
thoughts)などを想定 6 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成
1. 全体概要 7 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問文 プレフィックスプロンプト サフィックスプロンプト
回答 出力 期待される回答 評価 プロンプト
1. 全体概要 8 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問:もし今日が2021年1月1日だとしたら、365日後は何日になるか?、回答: 質問:もし今日が月曜だとしたら、 4日後は何日になるか?、回答:金曜
ステップバイステップで考えてください。 回答 出力 期待される回答 評価 プロンプト
1. 全体概要 9 v0.1.1で用意したデータは難易度の高い日付計算で6件
2. 背景 • 日本語プロンプトの評価が難しい • 日本語LLMの評価が難しい • 評価ができてもデータ量が大きい • OpenAIの日本語の場合、英語と比較してAPI料金が高い
• タスクが難しい場合の評価できない • 論文で有効とされるプロンプトが本当にそのタスクで有効かわからない • プロダクトレベルのプロンプトエンジニアリングに時間がかかる ➡日本語に対応したタスク特化の LLM評価ライブラリを作成 10 日本語で簡単にプロンプトの評価を行いたい
2. 背景 11 フェーズによって評価方法が異なる LLMモデル学習 プロンプト調整 ファインチューニング • 評価方法を考える •
タスクに特化した評価 • プロンプトエンジニアリング • インストラクションチューニング • RLHF • PEFTによる学習 • 事前学習 • クロールしたデータで学習 • 日本語だとWikipediaなど こちらを評価
2. 背景 12 既存データやツールで評価できないか? 論文などの評価 ・評価方法自体はMMLUなどが存在 ・評価データが英語であり、日本語で評価しにくい ・プロンプトについては記載のない論文もある LangchainDataset ・タスクの種類11個で少ない
・データ量がバラバラでライセンス的にも怪しい
2. 背景 13 日本語評価データ JGLUE ・複数タスクで評価できる ・データ量が多い API料金が気になる ・大量のデータの場合だとAPI料金が高くなる ・少量データでタスク特化で確認したい
3. デモの紹介 14 ChatGPTによる評価 以下のような日付の計算など難しいタスクの場合に間違うため CoTなどのプロンプトを試す必要がある
3. デモの紹介 15 ライブラリによる評価 以下はライブラリで評価した場合
4. プロンプト評価ライブラリ 16 全体構成 Task1 TaskN Prompt1 PromptN ・・・ ・・・
Model1 ModelN ・・・ センチメント予測タスク Few-shotプロンプト + CoTプロンプト GPT-3.5モデル ライブラリでタスク・プロンプト・モデルを選択し評価することができる
5. 今後の動き • データセット(タスク)の追加 ◦ JGLUEデータセットの追加 ◦ 英語データセットの日本語翻訳 ◦ 新規のデータセットを手動で作成
◦ HuggingFaceのデータセットで対応できるようにする 17 • プロンプト追加 ◦ Tree-of-Thoughts (ToT) など有効とされるプロンプトの追加 ◦ 論文サーベイしプロンプト追加 • OSS活動 ◦ ウェビナーや有志の勉強会などで OSS活動支援 ◦ ドキュメントなど充実 • LLMモデル自体の評価 ◦ 現在はLangChainで対応済みのLLM評価のみなので HuggingFaceのLLMの推論に対応する