Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
Search
Elith
July 21, 2023
Technology
1
84
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
LLMによるプロダクトリリースの際にLLM自体の評価やタスクに依存したプロンプトの評価を簡単に行いたいと思い、日本語対応のLang de chat (ラング・ド・シャ)というライブラリを作成
Elith
July 21, 2023
Tweet
Share
More Decks by Elith
See All by Elith
今、知っておきたい! 生成AIエージェントの世界
elith
3
440
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
1
330
LLMに医療知識をつけるには
elith
4
910
放射線分野の問題をLLMに解かせてみた
elith
1
490
Data Is All You Need
elith
0
130
[CVPR 2023 論文紹介]Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation
elith
0
280
画像を用いた論文解説の可能性
elith
1
1k
Other Decks in Technology
See All in Technology
【リラン】AIの光と闇?失敗しないために知っておきたいAIリスクとその対応 ①政府の動き編
tkhresk
0
140
生成AI活用推進の為にやったこと/やらなかったこと
ktc_wada
0
220
20240516 OpenID TechNight Vol.21 OpenIDファウンデーション・ジャパンの 今後の活動について
oidfj
0
180
SLOいつ決めましょう?
abnoumaru
3
890
TiDBにおけるテーブル設計と最適化の事例
cygames
0
820
My road to OSEE Part1
yunolay
0
130
[PyconUS 2024] Having fun with Pydantic and pattern matching
enforcerpl
0
200
Prisma ORMを2年運用して培ったノウハウを共有する
tockn
19
5.2k
The depthes of profiling Ruby - RubyKaigi 2024
osyoyu
0
300
エンジニアゼロの組織から内製開発の DX をどう実現したのか / How did we achieve DX in in-house development in an organization with zero engineers?
genkiogasawara
7
3.2k
「できる!」を増やすGitHub Copilot活用法 / How to use GitHub Copilot to expand your possibilities
sansan_randd
1
250
漠然とOSSにコントリビュートしたいと思っていた昔の自分へ
sansantech
PRO
2
130
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
26
2.3k
A better future with KSS
kneath
231
16k
How STYLIGHT went responsive
nonsquared
92
4.9k
Done Done
chrislema
178
15k
Building Applications with DynamoDB
mza
88
5.7k
Why Our Code Smells
bkeepers
PRO
331
56k
What's in a price? How to price your products and services
michaelherold
238
11k
What's new in Ruby 2.0
geeforr
338
31k
Product Roadmaps are Hard
iamctodd
45
9.8k
Mobile First: as difficult as doing things right
swwweet
217
8.6k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
12
1.1k
Build The Right Thing And Hit Your Dates
maggiecrowley
25
2k
Transcript
LLM評価ライブラリ Lang de chat (ラング・ド・シャ) 株式会社Elith CEO & CTO Koki
Inoue
自己紹介 2 2 井上 顧基(こうき) Elith CEO&CTO @Beluuuuuuga
自己紹介 3 3 ▪ 学歴 • 北陸先端科学技術大学院大学修了し量子コンピュータの材料探索研究 • 東北大学医学系研究科博士後期課程在学し 放射線画像に対する自動輪郭のためのセグメンテーション研究
▪ 職歴 • AIベンダーの画像分野でのリードとしてAI開発に従事 • AIの受託開発・自社サービスを提供する株式会社Elith(エリス)を創業 ▪ 職業 • Elith(エリス)のCTO ▪ 書籍 • Git入門コマンドライン演習80(秀和システム) • LLMの記事で日経Linux2023年9月号(日経BP)で寄稿
自己紹介 4 4 ▪ 過去に担当した案件 • 画像・動画・点群(3D) • 競馬パドック馬姿勢推定AI: 動画/姿勢推定
• イヤホン感情評価AI: 点群/回帰 • 内視鏡AI: 画像/分類 • 放射線画像自動輪郭AI: 画像/セグメンテーション • 自然言語・LLM • LLM研究コンサルティング: LLM/コンサルティング • LLM炎上検知: 自然言語・LLM/炎上検知 ▪ 研究実績 • 2023年7月 医学物理の国際学会AAPMに採択されアメリカヒューストンで発表
会社のサービス紹介 5
1. 全体概要 ・英語に加え日本語に対応した LLMモデル評価とLLMプロンプト評価ライブラリ ・タスク特化の少量データを用意し、 v0.1.1ではLLMが苦手な日付計算データを用意 ・プレフィックスサフィックスのプロンプトを追加できる ・精度向上のためプレフィックスには Few-shot、プレフィックスにはCoT(Chain of
thoughts)などを想定 6 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成
1. 全体概要 7 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問文 プレフィックスプロンプト サフィックスプロンプト
回答 出力 期待される回答 評価 プロンプト
1. 全体概要 8 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問:もし今日が2021年1月1日だとしたら、365日後は何日になるか?、回答: 質問:もし今日が月曜だとしたら、 4日後は何日になるか?、回答:金曜
ステップバイステップで考えてください。 回答 出力 期待される回答 評価 プロンプト
1. 全体概要 9 v0.1.1で用意したデータは難易度の高い日付計算で6件
2. 背景 • 日本語プロンプトの評価が難しい • 日本語LLMの評価が難しい • 評価ができてもデータ量が大きい • OpenAIの日本語の場合、英語と比較してAPI料金が高い
• タスクが難しい場合の評価できない • 論文で有効とされるプロンプトが本当にそのタスクで有効かわからない • プロダクトレベルのプロンプトエンジニアリングに時間がかかる ➡日本語に対応したタスク特化の LLM評価ライブラリを作成 10 日本語で簡単にプロンプトの評価を行いたい
2. 背景 11 フェーズによって評価方法が異なる LLMモデル学習 プロンプト調整 ファインチューニング • 評価方法を考える •
タスクに特化した評価 • プロンプトエンジニアリング • インストラクションチューニング • RLHF • PEFTによる学習 • 事前学習 • クロールしたデータで学習 • 日本語だとWikipediaなど こちらを評価
2. 背景 12 既存データやツールで評価できないか? 論文などの評価 ・評価方法自体はMMLUなどが存在 ・評価データが英語であり、日本語で評価しにくい ・プロンプトについては記載のない論文もある LangchainDataset ・タスクの種類11個で少ない
・データ量がバラバラでライセンス的にも怪しい
2. 背景 13 日本語評価データ JGLUE ・複数タスクで評価できる ・データ量が多い API料金が気になる ・大量のデータの場合だとAPI料金が高くなる ・少量データでタスク特化で確認したい
3. デモの紹介 14 ChatGPTによる評価 以下のような日付の計算など難しいタスクの場合に間違うため CoTなどのプロンプトを試す必要がある
3. デモの紹介 15 ライブラリによる評価 以下はライブラリで評価した場合
4. プロンプト評価ライブラリ 16 全体構成 Task1 TaskN Prompt1 PromptN ・・・ ・・・
Model1 ModelN ・・・ センチメント予測タスク Few-shotプロンプト + CoTプロンプト GPT-3.5モデル ライブラリでタスク・プロンプト・モデルを選択し評価することができる
5. 今後の動き • データセット(タスク)の追加 ◦ JGLUEデータセットの追加 ◦ 英語データセットの日本語翻訳 ◦ 新規のデータセットを手動で作成
◦ HuggingFaceのデータセットで対応できるようにする 17 • プロンプト追加 ◦ Tree-of-Thoughts (ToT) など有効とされるプロンプトの追加 ◦ 論文サーベイしプロンプト追加 • OSS活動 ◦ ウェビナーや有志の勉強会などで OSS活動支援 ◦ ドキュメントなど充実 • LLMモデル自体の評価 ◦ 現在はLangChainで対応済みのLLM評価のみなので HuggingFaceのLLMの推論に対応する