LLM評価ライブラリ Lang de chat (ラング・ド・シャ)

LLM評価ライブラリ Lang de chat (ラング・ド・シャ) 株式会社Elith CEO & CTO Koki
Inoue

自己紹介 2 2 井上　顧基（こうき） Elith CEO&CTO @Beluuuuuuga

自己紹介 3 3 ▪ 学歴  • 北陸先端科学技術大学院大学修了し量子コンピュータの材料探索研究  • 東北大学医学系研究科博士後期課程在学し  放射線画像に対する自動輪郭のためのセグメンテーション研究 
▪ 職歴  • AIベンダーの画像分野でのリードとしてAI開発に従事  • AIの受託開発・自社サービスを提供する株式会社Elith(エリス)を創業  ▪ 職業  • Elith(エリス)のCTO  ▪ 書籍  • Git入門コマンドライン演習80(秀和システム)  • LLMの記事で日経Linux2023年9月号(日経BP)で寄稿   

自己紹介 4 4 ▪ 過去に担当した案件  • 画像・動画・点群(3D)  • 競馬パドック馬姿勢推定AI: 動画/姿勢推定
  • イヤホン感情評価AI: 点群/回帰   • 内視鏡AI: 画像/分類   • 放射線画像自動輪郭AI: 画像/セグメンテーション   • 自然言語・LLM  • LLM研究コンサルティング: LLM/コンサルティング   • LLM炎上検知: 自然言語・LLM/炎上検知   ▪ 研究実績  • 2023年7月医学物理の国際学会AAPMに採択されアメリカヒューストンで発表    

会社のサービス紹介 5

1. 全体概要・英語に加え日本語に対応した LLMモデル評価とLLMプロンプト評価ライブラリ・タスク特化の少量データを用意し、 v0.1.1ではLLMが苦手な日付計算データを用意・プレフィックスサフィックスのプロンプトを追加できる・精度向上のためプレフィックスには Few-shot、プレフィックスにはCoT(Chain of
thoughts)などを想定 6 LLM評価ライブラリ Lang de chat（ラングドシャ）を作成

1. 全体概要 7 LLM評価ライブラリ Lang de chat（ラングドシャ）を作成質問文プレフィックスプロンプトサフィックスプロンプト
回答出力期待される回答評価プロンプト

1. 全体概要 8 LLM評価ライブラリ Lang de chat（ラングドシャ）を作成質問：もし今日が2021年1月1日だとしたら、365日後は何日になるか？、回答：質問：もし今日が月曜だとしたら、 4日後は何日になるか？、回答：金曜
ステップバイステップで考えてください。回答出力期待される回答評価プロンプト

1. 全体概要 9 v0.1.1で用意したデータは難易度の高い日付計算で6件

2. 背景 • 日本語プロンプトの評価が難しい • 日本語LLMの評価が難しい • 評価ができてもデータ量が大きい • OpenAIの日本語の場合、英語と比較してAPI料金が高い
• タスクが難しい場合の評価できない • 論文で有効とされるプロンプトが本当にそのタスクで有効かわからない • プロダクトレベルのプロンプトエンジニアリングに時間がかかる ➡日本語に対応したタスク特化の　LLM評価ライブラリを作成 10 日本語で簡単にプロンプトの評価を行いたい

2. 背景 11 フェーズによって評価方法が異なる LLMモデル学習プロンプト調整ファインチューニング • 評価方法を考える •
タスクに特化した評価 • プロンプトエンジニアリング • インストラクションチューニング • RLHF • PEFTによる学習 • 事前学習 • クロールしたデータで学習 • 日本語だとWikipediaなどこちらを評価

2. 背景 12 既存データやツールで評価できないか？論文などの評価・評価方法自体はMMLUなどが存在・評価データが英語であり、日本語で評価しにくい・プロンプトについては記載のない論文もある LangchainDataset ・タスクの種類11個で少ない
・データ量がバラバラでライセンス的にも怪しい

2. 背景 13 日本語評価データ JGLUE ・複数タスクで評価できる・データ量が多い API料金が気になる・大量のデータの場合だとAPI料金が高くなる・少量データでタスク特化で確認したい

3. デモの紹介 14 ChatGPTによる評価以下のような日付の計算など難しいタスクの場合に間違うため CoTなどのプロンプトを試す必要がある

3. デモの紹介 15 ライブラリによる評価以下はライブラリで評価した場合

4. プロンプト評価ライブラリ 16 全体構成 Task1 TaskN Prompt1 PromptN ・・・・・・
Model1 ModelN ・・・センチメント予測タスク Few-shotプロンプト + CoTプロンプト GPT-3.5モデルライブラリでタスク・プロンプト・モデルを選択し評価することができる

5. 今後の動き • データセット(タスク)の追加 ◦ JGLUEデータセットの追加 ◦ 英語データセットの日本語翻訳 ◦ 新規のデータセットを手動で作成
◦ HuggingFaceのデータセットで対応できるようにする 17 • プロンプト追加 ◦ Tree-of-Thoughts (ToT) など有効とされるプロンプトの追加 ◦ 論文サーベイしプロンプト追加 • OSS活動 ◦ ウェビナーや有志の勉強会などで OSS活動支援 ◦ ドキュメントなど充実 • LLMモデル自体の評価 ◦ 現在はLangChainで対応済みのLLM評価のみなので HuggingFaceのLLMの推論に対応する

LLM評価ライブラリ Lang de chat (ラング・ド・シャ)

LLM評価ライブラリ Lang de chat (ラング・ド・シャ)

Elith

More Decks by Elith

Other Decks in Technology

Featured

Transcript