Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(論文解説) Making Small Language Models Better Proc...

(論文解説) Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

LLMとプランニングについてPLASMA論文を解説

Shoya Matsumori

July 29, 2023
Tweet

More Decks by Shoya Matsumori

Other Decks in Technology

Transcript

  1. 株式会社 Carnot Data is beautiful. LLMとプランニングの世界 (論⽂解説) ML 15 minutes

    2023/7/29 Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning
  2. ⾃⼰紹介 1994年⽣まれ.AI (深層学習)の研究開発及び,デジタルコンサルティングに従事. 学部⽣時代に脳波計のスタートアップで0か らプロダクト設計および深層学習モデルの実装をリード.⼤学での研究内容がアクセラレータプログラムに採択され,ソーシャ ルロボットのスタートアップを設⽴.複数の企業・⼤学・⾃治体に対してPoCを実施.慶應義塾⼤学理⼯学研究科で博⼠ (⼯学) を取得(⾶び級).Vision and Languageの研究に従事.⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択.

    データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞.⼈⼯知能学会・認知科学会会員. 松森匠哉 Shoya MATSUMORI, Ph.D. (2018.02-2022.03) PGV (株) Lead Machine Learning Researcher リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード. AIによる認知症診断アルゴリズム,睡眠ステージの判別アルゴリズムの研究開発を⾏ い筆頭著者として学術論⽂誌に採択. (2018.08-2022.09) 慶應義塾先端科学技術研究センター 特任研究員 内閣府SIP 特任研究員.深層学習による英語の⾃動作問技術 (特許出願中) の研究開発 をリード.都内の⾼校にてPoCを実施. (2019.02-2020.07) (株) BLUEM 代表取締役 (株) dipのAIアクセラレータプログラムに採択.複数の企業・⼤学・⾃治体に対してAI ソリューションを提供.豊⽥市などでソーシャルロボットのPoCを実施. (2020.12-2022.08) (株) STANDARD Lead Researcher デジタルコンサルタントとして,複数の⼀部上場企業にAIソリューションを提供. (2021.04-2022.09) ⽇本学術振興会 特別研究員 (DC) 視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事.難関国際会議 ICCV等に採択. 主な経歴 受賞歴 • WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞 • HCI研究会 奨励賞 受賞 主な研究業績 • Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. • Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi- Turn Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532. • Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study." Bioelectricity 4.1 (2022): 3-11. 株式会社Carnot (カルノー) Founder & CEO Carnot Inc. Carnot Inc. 2023. All rights reserved. Do not distribute.
  3. プランニングとはなにか︖ Carnot Inc. 2023. All rights reserved. Do not distribute.

    ゴールを提⽰されたときに,どのような順番でどの⾏動をするか分解できる能⼒ e.g., Goal 『映画を⾒る』 Goal Plan step 1 step 2 step 3
  4. プランニングとLLM • LLM+Embodied Agent • LLMを使って環境とインタラクションするエージェ ントをつくる (実⾏まで含む) • e.g.,

    Language Models as Zero-Shot Planners [Huang+22] • e.g., Do As I Can, Not As I Say [Ahn+22] • LLM Only • LLM単体でプランニングの精度を上げる • e.g.,Language Models of Code are Few- Shot Commonsense Learners [Madaan+22] • e.g., Tree of Thoughts [Yao+23], 17 May 2023 • e.g., PLASMA [Brahman+23], 31 May 2023 Carnot Inc. 2023. All rights reserved. Do not distribute. LLMでプランニングをする研究が増えつつある LLMでプランニングし,エージェントを シミュレーション環境で動かす研究 [Huang+22]
  5. PLASMA論⽂ • (概要) プランニングLMを知識蒸留によって構築する研究 • (背景) プランニングは,常識推論と反実仮想的な思考が必要 • 常識推論: ⼀般的に正しいとされる知識に基づく推論

    • e.g., 映画を⾒たい -> 映画館に⾏く必要がある -> 映画館にはチケットがいる… • 反実仮想: 事実や想定に反することを思考すること • e.g., 近くに映画館が無いかもしれない -> 家でネッ トフリックスで⾒れるかもしれない • (課題) コストと再現性が問題 • (提案) • より⼩さいモデルでプランニングを実現する⼿法の提案 • 推論時の⼯夫を⾏うことで,性能向上 • 反実仮想のタスクを新たに考案 (今回は割愛) Carnot Inc. 2023. All rights reserved. Do not distribute. Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning
  6. 知識蒸留⽤のデータセットの構築 Carnot Inc. 2023. All rights reserved. Do not distribute.

    Procedural Knowledge Verbalization 知識蒸留⽤データセット構築 • LLMを⽤いてgoal, plan, condition, counterfactual plan を作成 • プロンプトのテンプレートを⽤いて,LLMがgoalを作成 • 作成したgoalからplanをLLMが作成… • 作成の課程で教師あり学習したモデルで⽣成⽂章を評価 • RoBERTa large[Liu+19]を利⽤ • ⼀定の基準以下の⽂章を廃棄することで質を担保 • (⽤いたモデルはAMTでデータを集め教師ありで学習)
  7. データセットをもとに知識蒸留 Carnot Inc. 2023. All rights reserved. Do not distribute.

    Procedural Knowledge Distillation データセットをもとに知識蒸留 • Counterfactual Planning(CP)は仮想 の条件に基づいたプランニング • Counterfactual Plan Revision (CPR)は仮想の条件に基づいてプランを 修正する • 上記を別々に学習する条件と,マルチタ スクで学習する条件を⽤意 (実験の際に 改めて説明)
  8. 推論時のアルゴリズム Carnot Inc. 2023. All rights reserved. Do not distribute.

    ビームサーチ+評価モジュールで推論結果からより良いプランを選ぶ • Step-wise verifierのモデルにはRoBERTa[Liu+19]のroberta-large(335M)を使⽤ • ⼈間のプランニングを正として,ネガティブサンプルをよくある間違い(順番間違い,繰り返し,順番ぬかし)に基づいて⽣成しデータセッ トを構築 • Binary classificationで学習し,次ステップの⾏動がふさわしいかどうかを判断
  9. 結果: ⼩さいモデルでも同等以上の性能 実験 • 770M, 3B, 11Bのモデルに対して蒸留 • 教師モデルは,curie-001 (6.7B)

    • ⽣成したプランを5pointのLikert尺度で評価 結果 • ⼩さいモデルでも同等以上の性能 • ⼀般的にモデルサイズが向上すると性能も向 上する傾向 • 推論時アルゴリズム(+) はどのモデルサイズ でも推論精度を向上 所感 • 推論時アルゴリズムが強い • RoBERTa largeが335Mとはいえ,教師あり 学習しているのでコストはあるのが難点.よ り良いアルゴリズムは無いか︖ • Tree of Thoughtsなど… Carnot Inc. 2023. All rights reserved. Do not distribute. 蒸留と推論時アルゴリズムの有効性が⽰された 評価モデル • Plasma Mul: マルチタスクver • Plasma +: 推論時のアルゴリズム追加ver • Techer: 教師モデル • CoCoGen, Davinchi: 参考モデル 評価指標 • Coverage: プランが⼗分必要なステップを網 羅しているか • Order: アクションの順番が妥当か • Overall Quality: 総合的な評価
  10. まとめ • 背景とトレンド • プランニングは実世界のアプリケーションを作る上で⾮常に 重要 • プラニングをLLMで実現する研究が増えつつある • PLASMA

    • 知識蒸留を⾏うことでより⼩規模なLMでもプランニングの 精度を確保 • 推論時のアルゴリズムでも⼤幅に性能向上 • ここらへんは深掘りの余地がありそう (ToTなど) なの でまた機会があれば. • 宣伝 • ワークフロー⾃動化サービスのβテスターを募集しています • ⽇経新聞にも掲載されました︕ • 是⾮ご登録ください︕ • https://usepromptflow.com/ Carnot Inc. 2023. All rights reserved. Do not distribute. twitterでも最新情報を発信しています! @pineforesta お気軽にDMください!