Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMとプランニングの未来

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 LLMとプランニングの未来

Avatar for Shoya Matsumori

Shoya Matsumori

August 29, 2023
Tweet

More Decks by Shoya Matsumori

Other Decks in Research

Transcript

  1. ⾃⼰紹介 1994年⽣まれ.AI (深層学習)の研究開発及び,デジタルコンサルティングに従事. 学部⽣時代に脳波計のスタートアップで0か らプロダクト設計および深層学習モデルの実装をリード.⼤学での研究内容がアクセラレータプログラムに採択され,ソーシャ ルロボットのスタートアップを設⽴.複数の企業・⼤学・⾃治体に対してPoCを実施.慶應義塾⼤学理⼯学研究科で博⼠ (⼯学) を取得(⾶び級).Vision and Languageの研究に従事.⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択.

    データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞.⼈⼯知能学会・認知科学会会員. 松森匠哉 Shoya MATSUMORI, Ph.D. (2018.02-2022.03) PGV (株) Lead Machine Learning Researcher リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード. AIによる認知症診断アルゴリズム,睡眠ステージの判別アルゴリズムの研究開発を⾏ い筆頭著者として学術論⽂誌に採択. (2018.08-2022.09) 慶應義塾先端科学技術研究センター 特任研究員 内閣府SIP 特任研究員.深層学習による英語の⾃動作問技術 (特許出願中) の研究開発 をリード.都内の⾼校にてPoCを実施. (2019.02-2020.07) (株) BLUEM 代表取締役 (株) dipのAIアクセラレータプログラムに採択.複数の企業・⼤学・⾃治体に対してAI ソリューションを提供.豊⽥市などでソーシャルロボットのPoCを実施. (2020.12-2022.08) (株) STANDARD Lead Researcher デジタルコンサルタントとして,複数の⼀部上場企業にAIソリューションを提供. (2021.04-2022.09) ⽇本学術振興会 特別研究員 (DC) 視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事.難関国際会議 ICCV等に採択. 主な経歴 受賞歴 • WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞 • HCI研究会 奨励賞 受賞 主な研究業績 • Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. • Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi- Turn Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532. • Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study." Bioelectricity 4.1 (2022): 3-11. 株式会社Carnot (カルノー) Founder & CEO Carnot Inc. Carnot Inc. 2023. All rights reserved. Do not distribute.
  2. ChatGPTは本当に使われているのか︖ Carnot Inc. 2023. All rights reserved. Do not distribute.

    アーリアドプターを急速に刈り取ったが,まだ利⽤していない⼈が⼤半 https://www.demandsage.com/chatgpt-statistics/ Signal 1. ChatGPTのトラフィックの伸びは10%低下 Signal 2. ⽇本全体の利⽤率も12%にとどまる 出所)NRI「インサイトシグナル調査」2023年4⽉15~16⽇
  3. なぜ使われないのか︖ Carnot Inc. 2023. All rights reserved. Do not distribute.

    プロンプトエンジニアリングが”実は難しい” • プロンプトエンジニアリングで求められる要素 • (1) LLMハック • CoTやインジェクション • (2) ドメイン知識 • 課題を解くのに必要⼗分な背景説明 • Few shot examples • タスク実⾏時のTips • 実は (2) が圧倒的にめんどい & 難しい • そもそも解こうとしている問題に対しての事 前知識があれば,指⽰出しを考える時間 vs ⾃分で実⾏する時間の戦いになる. • ⾃分でやったほうが早く感じる 技術⾯接を考えています。 現在の候補者はウェブ開発の経験が少しありますが、当社の仕事ではバッ クエンドの開発が必要です。ウェブ開発に関する詳細な質問をすることな く、候補者が適格かどうかを知りたいです いくつかの質問例とその答えを教えてください。 • 注意︓ • 質問はシナリオベースで、ハイレベルな実装戦略を問うものにし てください。 • ライブラリやサービス(bootstrap, CDNやKafkaなど)に関す る特定の知識が必要な質問はなるべく避けてください。 • 各シナリオをできるだけ詳しく説明してください。 • 答えを導くのに有⽤なヒントを与えてください。 • "undoとredoの機能はどのように実装しますか︖"のような質問 から始めましょう。
  4. この指⽰の感覚はなにか︖ Carnot Inc. 2023. All rights reserved. Do not distribute.

    社員のレベルに応じて仕事を任せるときの指⽰と似ている Goal Plan / Procedure Execution Associate (新卒社員) 採⽤範囲外 Junior Senior ChatGPT ここの部分がプロンプトエンジニアリング
  5. この指⽰の感覚はなにか︖ Carnot Inc. 2023. All rights reserved. Do not distribute.

    社員のレベルに応じて仕事を任せるときの指⽰と似ている Goal Plan / Procedure Execution Associate (新卒社員) 採⽤範囲外 Junior Senior ChatGPT 本当はこうしたい 必要なのはプランニング
  6. プランニングとはなにか︖ Carnot Inc. 2023. All rights reserved. Do not distribute.

    ゴールを提⽰されたときに,どのような順番でどの⾏動をするか分解できる能⼒ e.g., Goal 『映画を⾒る』 Goal Plan step 1 step 2 step 3
  7. プランニングとLLM • LLM+Embodied Agent • LLMを使って環境とインタラクションするエージェ ントをつくる (実⾏まで含む) • e.g.,

    Language Models as Zero-Shot Planners [Huang+22] • e.g., Do As I Can, Not As I Say [Ahn+22] • LLM Only • LLM単体でプランニングの精度を上げる • e.g.,Language Models of Code are Few- Shot Commonsense Learners [Madaan+22] • e.g., Tree of Thoughts [Yao+23] • e.g., PLASMA [Brahman+23] • e.g., ToolLLaMA [Qin+23] Carnot Inc. 2023. All rights reserved. Do not distribute. LLMでプランニングをする研究が増えつつある LLMでプランニングし,エージェントを シミュレーション環境で動かす研究 [Huang+22]
  8. Fine-tuning • プランニングの性能が低い︕GPT-4コスパが悪い︕ Carnot Inc. 2023. All rights reserved. Do

    not distribute. データセットを⽤意して学習するアプローチ 問題点 解決策 • ⽤途別データセットからチューニング • ToolLLaMA: マルチステップのAPIコールに対応 [Qin+23] • PLASMA: 知識蒸留のアプローチ [Brahman+23] • 6.7Bのモデル(text-curie)を3B, 770Mに蒸留 • 教師モデルを超える性能を確保 図. ToolLaMAの性能.LLaMAのチューニ ングでもChatGPTと同等の精度まで到達 図.ToolLLMの概要.左がデータ⽣成・API検索モデルの訓練・ ToolLLaMAの訓練のダイアグラム,右が推論パイプライン. 図.知識蒸留 図. PLASMAの性能.知識蒸留によってよ り⼩さいモデルでも⼤きな性能を発揮.
  9. Parameter/dataset is all you need? Carnot Inc. 2023. All rights

    reserved. Do not distribute. 安⼼してください,(まだ研究スペースが) 空いてますよ
  10. プランニングの歴史 • 古き良き⼈⼯知能 (1957-1969) • いわゆる Good old fashioned AI

    • プランニング,推論や探索が重点的に扱われた時代 • NewellやSimonがGeneral problem solverを⽤いてアプローチ Carnot Inc. 2023. All rights reserved. Do not distribute. プランニングは⼈⼯知能の始まりだった︖ e.g., 積み⽊の世界 https://www.rose-hulman.edu/class/cs/archive/other-old/archive/fall06/materials/search_project.htm (Start (On Table Red-1) (On Table Yellow-1) (On Yellow-1 Blue-1) (On Table Green-1) (On Green-1 Red-2) (On Red-2 Blue-2)) (Goal (On Table Blue-x1) (On Table Green-x2) (On Table Red-x3) (On Red-x3 Red-x4) (On Red-x4 Blue-x5) (On Table Yellow-x6)) 初期状態 ゴール状態 Herbert A. Simon Allen Newell
  11. 古典的AIでできることが最新のAIではできない Carnot Inc. 2023. All rights reserved. Do not distribute.

    GPT-4はハノイの塔が解けない ハノイの塔とは︖ 円盤をルールに従って動かすゲーム. 3本の柱(ロッド)があり,⼀番左の柱には,⼤中⼩の円盤が刺してある. 最短の⼿順で,この円盤を右の柱に移動するためにはどうすればよいか. ただし,以下の条件がある. o (条件1) ⼀度に⼀枚の円盤しか動かせない o (条件2) ⼩さい円盤の上に⼤きい円盤を載せられない スタート ゴール (参考) 古典的AIのアプローチ GPT-4の推論結果 各状態をグラフ構造として表現することでコン ピュータが扱えるようにする.グラフ上を最短で 移動できるアルゴリズムを基に,最⼩回数での移 動⽅法を導き出す.他にも様々な解法が存在. 3つの円盤のグラフ構造の⼀部 通常とは異なる初期状態でスタートさせると上⼿く⾏かない (本質的には難易度は変わらないことに注意) 最⼩の円盤(半径1)をロッドAか らロッドCに移動させる。 ロッドBからロッドAへ中ディスク (半径2)を移動させる。 最⼩の円盤(半径1)をロッドCか らロッドAへ移動させる。 最⼤のディスク(半径3)をロッドA からロッドCに移動させる。 (条件1)に反して実⾏できない︕ To solve this Tower of Hanoi problem with three rods (A, B, and C) and three disks of radii 1, 2, and 3, follow these steps: Move the smallest disk (radius 1) from Rod A to Rod C. Move the medium disk (radius 2) from Rod B to Rod A. Move the smallest disk (radius 1) from Rod C to Rod A. … A B C A B C スタート Newell, A., Shaw, J. C., & Simon, H. A. (1959, June). Report on a general problem solving program. In IFIP congress (Vol. 256, p. 64).
  12. Inference time algorithms • プランニングの際の問題 • Hallucination, Repeating the same

    action, Inappropriate order… • 単⼀の出⼒だけ保持するのが良くないのでは︖ Carnot Inc. 2023. All rights reserved. Do not distribute. 推論時に⼯夫を加え,LLMの性能を引き出す 探索と評価による最適解の模索 問題点 解決策 • (探索) LLMの出⼒を複数持ち探索 • Tree of Thoughts: ⽊構造などでプランの系列を保持 • c.f., Beam search • (評価) 探索したパスを外部機構で評価 • 外部機構で評価 [Yao+23] • モデルで評価 [Brahman+23] • BFSやDFSなどのアルゴリズムで評価 [Yao+23] 図. 2番⼿以降の候補の世界線も保持する 図. ToTは様々なタスクで性能を発揮
  13. External planner • LLMはコンテクストが与えられてもっともらしい テキストを⽣成するモデルに過ぎないので,そも そもプランニングに向いていない Carnot Inc. 2023. All

    rights reserved. Do not distribute. プランニングを外部の機構に任せる LLM+P: 外部機構によるプランニングの実⾏ [Liu+23] 問題点 解決策 • Planning Domain Definition Language (PDDL)での記述 • 1998年に作られたプランニングの⾔語 • STRIPSなどに影響を受けた 図. PDDLで記述された問題をプログラムで解くことができる GPT-4によるPDDLの記述
  14. (Planner) LLMの今後 Carnot Inc. 2023. All rights reserved. Do not

    distribute. シンボリックAIと融合し記号処理とパターン処理を扱えるAIへ 1950 1960 1970 1980 1990 2000 2010 2020 2023- 1946 ENIAC 1956 Dartmouth Conference Symbolic AI (1956-1974) Rule-based AI (1980-1987) Deep neural network (2006- ) LLM (2020-) Neuro-symbolic AI (2023-) 記号・⾔語の知識体系などが得意 判断が曖昧なパターン処理が得意 シンボリックAIと ニューラルネットワークの融合 Expert system Ontology CNN Transformer RBM GAN
  15. まとめ • LLMとプランニングの未来 • AssociateGPTをJuniorGPTにするためにはPlanningが必要 • 今後は,温故知新でGen1/2のAIの研究をもとに新しいアルゴリ ズムが⽣まれていく • 冬を耐え抜いてきた⼈が復活する︕

    • 宣伝 • ワークフロー⾃動化サービスのβテスターを募集しています • ⽇経新聞にも掲載されました︕ • Plannerエージェントを使ったチャットベースの⾃動化 ツール • https://usepromptflow.com/ • 機械学習エンジニア・プロダクトエンジニア募集中 • https://carnot.ai • お気軽にお問い合わせ(DMでもなんでも)ください︕ • インターンも募集中です︕ Carnot Inc. 2023. All rights reserved. Do not distribute. twitterでも最新情報を発信しています! @pineforesta お気軽にDMください!
  16. References 1) Radford, A., Narasimhan, K., Salimans, T., & Sutskever,

    I. (2018). Improving language understanding by generative pre-training. 2) Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9. 3) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901. 4) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155. 5) Weizenbaum, J. (1966). ELIZA̶a computer program for the study of natural language communication between man and machine. Communications of the ACM, 9(1), 36-45. 6) Nye, M., Tessler, M., Tenenbaum, J., & Lake, B. M. (2021). Improving coherence and consistency in neural sequence models with dual-system, neuro-symbolic reasoning. Advances in Neural Information Processing Systems, 34, 25192-25204. 7) Frederick, S. (2005). Cognitive reflection and decision making. Journal of Economic perspectives, 19(4), 25-42. 8) Kahneman, D. (2011). Thinking, fast and slow. macmillan. 9) Wu, S., Irsoy, O., Lu, S., Dabravolski, V., Dredze, M., Gehrmann, S., ... & Mann, G. (2023). BloombergGPT: A Large Language Model for Finance. arXiv preprint arXiv:2303.17564. 10) Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q., & Zhou, D. (2022). Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903. 11) Shen, Y., Song, K., Tan, X., Li, D., Lu, W., & Zhuang, Y. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace. arXiv preprint arXiv:2303.17580. 12) Qin, Y., Liang, S., Ye, Y., Zhu, K., Yan, L., Lu, Y., ... & Sun, M. (2023). ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv preprint arXiv:2307.16789. 13) Liu, B., Jiang, Y., Zhang, X., Liu, Q., Zhang, S., Biswas, J., & Stone, P. (2023). Llm+ p: Empowering large language models with optimal planning proficiency. arXiv preprint arXiv:2304.11477. Carnot Inc. Carnot Inc. 2023. All rights reserved. Do not distribute.