Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190

Slide 2

Slide 2 text

はじめに • LLMエージェントに関するニュースや論⽂をほぼ毎週更新しています。 • 論⽂、プロダクトの順番でまとめています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 • ⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。 • SpeakerDeckに過去の4⽉分、5⽉分の資料を分けて公開しています。

Slide 3

Slide 3 text

6⽉17⽇ 更新 • 論⽂ • プロダクト・ニュース

Slide 4

Slide 4 text

論⽂ 6/8~6/14まで Agent Capabilities 計画 • SELFGOAL: Your Language Agents Already Know How to Achieve High-level Goals • NATURAL PLAN: Benchmarking LLMs on Natural Language Planning 学習:SELF-TUNING: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching キャッシュ:LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching 予測:Can Language Models Serve as Text-Based World Simulators? ⻑期対話:Hello Again! LLM-powered Personalized Agent for Long-term Dialogue 評価:The BIGGEN BENCH: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models 推論:Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning Agent Framework • The Prompt Report: A Systematic Survey of Prompting Techniques • HUSKY: A Unified, Open-Source Language Agent for Multi-Step Reasoning Multi Agent Systems • Scaling Large-Language-Model-based Multi-Agent Collaboration Computer Controlled Agents • CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only

Slide 5

Slide 5 text

SELFGOAL: Your Language Agents Already Know How to Achieve High-level Goals • ⾼レベルの⽬標を達成するためにサブゴールをノードとするGoalTreeによる⾏動計画⼿法を提案 • エージェントはサブゴールを選び⾏動し、結果からサブゴールを新たに⽣成するか、別のサブゴールを選ぶのかを繰り返す • 公的財ゲーム、平均の2/3を当てるゲーム、第⼀価格オークション、交渉ゲームで評価 • ReAct, ADAPT, Reflextion, CLINと⽐べて最も⾼い精度を達成 GoalTreeの例 ずっと深く広く展開される Agent Capabilities

Slide 6

Slide 6 text

NATURAL PLAN: Benchmarking LLMs on Natural Language Planning • ⾃然⾔語での計画能⼒を評価するベンチマーク「NATURAL PLAN」の提案 • NATURAL PLANは、旅⾏計画、会議計画、カレンダーのスケジューリングの3つを含む • Google Flights、Google Maps、Google Calendarなどのツールの出⼒をもとに計画能⼒を評価 • 旅⾏計画:都市数、滞在⽇数などから具体的な⽇程と訪問順序を計画 • 都市の数が6都市以上で40%を切る。3都市だと80%の精度 • 会議計画:各友⼈の会える時間帯と移動時間を考慮し多くの友⼈と会う時間を計画 • 会う⼈数が4⼈〜10⼈だと50〜10%で、1〜3⼈だと90~70%の精度 • カレンダー予定合わせ:全員が参加可能な会議の時間を⾒つける • 参加者が少なく、予定候補⽇が少ない場合、60%の精度(参加者が2⼈で、1⽇のうちに会議を設定する) • 参加者が多く、予定候補⽇が多い場合、30%(例えば、参加者が7⼈で、5⽇間のうちに会議を設定する) Agent Capabilities

Slide 7

Slide 7 text

SELF-TUNING: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching • SELF-TUNINGは、モデルのファインチューニングの⼀環で、新しい知識を効率的に取得し、既存の知識を保 持するための⼿法 • 3ステージあり、stage1で知識の獲得⽅法をself-teachingで学習し、stage2から新しい知識の獲得と古い知識 の忘却を防ぐ学習が始まり、stage3では最新のドキュメントについて知識をより深める学習をおこなう • 新しい情報に対しては特に知識の暗記、抽出、推論能⼒が向上し、古い情報に対しても安定して⾼いパフォー マンスを維持している 知識の獲得⽅法 以下のタスクを学習する 暗記 ⽂書の次トークン予測 理解 タイトル要約、重要ハイライト、NLI ⾃⼰反省 レクチャー、キーワードの説明、⽳埋め、多肢 選択、⽂の完成 Agent Capabilities

Slide 8

Slide 8 text

LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching • キャッシュ操作をツールとして定義し、LLMが直接管理することでデータアクセスを効率化する⽅法の提案 • ⼤規模な地理空間プラットフォームで評価を⾏い、タスク完了時間を平均で1.24倍⾼速化し、出⼒の品質や エージェントの性能には影響がない • キャッシュ管理⽅法による性能差はある。データの再利⽤率が低いと速度改善は限定的 キャッシュ管理⽅法による性能差 キャッシュによる速度改善と精度⽐較 Agent Capabilities

Slide 9

Slide 9 text

Can Language Models Serve as Text-Based World Simulators? • ⾔語モデルが世界の状態を正確にシミュレートできるか検証 • テキストベースのゲームシミュレータとしてGPT-4をテストし、その性能を評価 • ユーザーが取る⾏動による直接的な状態変化の予測は得意(77.1%) • 環境による状態変化は苦⼿(49.7%) • 環境の⾃然な変化や時間経過に伴う変化を正確にモデル化するのが難しい • ゲーム進⾏(スコア、ゲームオーバーの状態、ゲームの勝敗)の予測は得意(92.1%) • ルールの有無が精度に⼤きく影響 • ⼈間が記述したルールやLLMが⽣成したルールが存在する場合、予測精度が向上する • 全体の状態予測と差分予測 • 全体予測は全てのオブジェクトで、差分予測は⾏動や環境の変化で⽣まれた差分のみ予測する • 動的な状態変化においては全体の状態予測が優れており、静的な状態変化においては差分予測が効果的 アクションによって直接変化する次の状態予測 環境要因によって変化する次の状態予測 次の報酬とゲームの完了状態予測 Agent Capabilities

Slide 10

Slide 10 text

Hello Again! LLM-powered Personalized Agent for Long-term Dialogue • ユーザーとの⻑期的な対話やパーソナライズされた対話のニーズを満たす⼿法を提案 • イベントモジュール:⻑期および短期のメモリバンクを⽤いて、過去のセッションのイベントを要約し記憶 • ペルソナモジュール:ユーザーとエージェントのペルソナを動的に抽出し、⻑期的に維持 • 応答⽣成モジュール:取得されたメモリとペルソナ情報を統合して、適切な応答を⽣成 • 最⼤5つのセッションを含む50ターンに及ぶ⽇常対話で検証し良い性能を⽰した イベントとペルソナを管理し、過去の対話履歴から ⼀貫した対話を提供する Agent Capabilities 提案フレームワーク

Slide 11

Slide 11 text

The BIGGEN BENCH: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models • ⾔語モデルの9つの主要能⼒を77のタスクにわたって詳細に評価するベンチマーク • 103のLLMを5つの評価⽤LLMを使⽤して評価 Easy Hard Agent Capabilities

Slide 12

Slide 12 text

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning • 時間的推論能⼒を評価するベンチマークTest of Time の提案 • GPT-4が多くのタスクで⾼い精度を⽰す⼀⽅、 特定のタスクではGemini 1.5 Proが優れている • DurationやScheduleなどの複雑なタスクでは、 全体的にモデルの精度が低い Agent Capabilities

Slide 13

Slide 13 text

The Prompt Report: A Systematic Survey of Prompting Techniques • プロンプト技術の体系的な調査 • 4.1節エージェント技術とは、LLMが外部ツールや他のAIモデルと連携して動作する技術のこと • ツール使⽤エージェント (Tool Use Agents) • インターネットブラウジング、計算機使⽤ • コード⽣成エージェント (Code-Generation Agents) • コードの⾃動⽣成、補完 PAL、ToRA • 観察ベースのエージェント (Observation-Based Agents) • 環境の観察をプロンプトに⼊れる ReAct、Reflextion • 情報検索強化⽣成 (Retrieval Augmented Generation, RAG) • データベース検索、質問応答 Agent Framework

Slide 14

Slide 14 text

HUSKY: A Unified, Open-Source Language Agent for Multi-Step Reasoning • 数値、表形式、知識含むMulti-Step Reasoningを解決するためのオープンソースのLLMエージェントの提案 • ツール選択とサブタスクを⽣成するGeneraterモデルとツール実⾏のActionモデルを異なるモデルで学習させて実現 • 学習ステップ • 教師モデルを⽤いてFSLで複数のツールを利⽤する軌跡を作成し、各モジュールの教師データ⽤に加⼯ • 各ツールモデルと⾏動選択モデルをLlama3-8Bなど異なるモデルで微調整 利⽤可能なツール ステップごとに⾏動選択とツール実⾏をぐるぐる回す マルチステップのステップ2とステップ3の詳細結果 Agent Framework

Slide 15

Slide 15 text

Scaling Large-Language-Model-based Multi-Agent Collaboration • 複数のエージェントが協⼒してタスクを解決するマルチエージェント協⼒ネットワーク(MACNET)を提案 • 全ノードがタスクの初期回答をもち、連結先に回答を共有し、フィードバックをもらいメモリに保存する • 全ての連結ノードからフィードバックを受け取ると⾃⾝の回答を更新する(ある種の同期をしていく) • これをK回繰り返し、メモリにある情報から最終回答する • スモールワールド特性を持つトポロジーが優れた性能を⽰し、密度が⾼いほど性能が向上する傾向がある • エージェント数の増加に伴い、解決策の質がロジスティック成⻑パターンに従うことが確認された Multi Agent Systems

Slide 16

Slide 16 text

CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only • サムスンからHTML/DOMに依存せず、スクショのみからタスクを解決するエージェントの提案 • ウェブ環境外のアプリにも適⽤可能であり、より広範なRPAやデスクトップタスクに対応できる • Visual ObserverではYOLOv8モデルを微調整してUI要素を検出し、Pix2Structモデルを使⽤して詳細な属性を抽 出する。⾔語モデルにクリックやマウス操作などの⾏動実⾏計画を⽣成させる。 CAAP Prompter ⾏動実⾏計画を⽣成させるプロンプト アーキテクチャの全体像 CAAP プロンプトのコンポーネント評価 Computer Controlled Agents

Slide 17

Slide 17 text

6⽉17⽇ 更新 • 論⽂ • プロダクト・ニュース

Slide 18

Slide 18 text

プロダクト・ニュース 企業コラム • AutoGenでReflexion - Synergy!の新機能を考える • AIエージェントによるサーバ監視と⾃律的な復旧を⽬指して - Powered by crewAI • Morphが取り組む、データ処理特化のAIエージェントの開発: 開発チームからの⼿紙 ブログ • AIエージェントのみでBPO 企業を作り上げる⽅法:Dify+Ollama+Llama3+Groqで顧客サポート窓⼝業務を完 全⾃動化 • Language Agent Tree Search ̶ LATS • Building AI Agents: Lessons Learned over the past Year • Building an Agent for Data Visualization (Plotly) リリース • AIキャラクターによるライブ配信の新時代!『キャラクターストリーマー』サービス開始 • Intro to Generative UI with LangChain • Qwen-Agent: Generalizing from 8k to 1 Million Contexts

Slide 19

Slide 19 text

AutoGenでReflexion - Synergy!の新機能を考える • AutoGenを⽤いて⾃社製品の新機能案を考えさせるフローを検証 • Reflextionアルゴリズムを使ってアイデアの質を⾼めている • 3つのエージェントを⽤意する • User_proxy:会話のコントローラー • Create_assistant:アイデアを⽣成する • Reflection_assistant:⽣成されたアイデアを評価する • コミニケーションフローを設定する • User_proxy -> Create_assistant -> Reflection_assistant -> Create_assistant • 内省でアイデアは変わらないが詳細が洗練されている 2回⽬ 1回⽬ https://blog.techscore.com/entry/2024/06/12/080000

Slide 20

Slide 20 text

AIエージェントによるサーバ監視と⾃律的な復旧を⽬指して - Powered by crewAI • crewAIを使って、サーバの監視と⾃律的な復旧を実現するデモ紹介ブログ • 具体的には「Dockerコンテナ1台に対するヘルスチェックとDockerコマンドの実⾏」タスクを実装 • crewAIでは、Tasks, Agents, Toolsを定義する • Tools • health_check: HTTPリクエストを送って、ステータス200が返ってくることを確認する • execute_docker_command: Dockerコマンドを実⾏する • Agents:ツールを持つ • Server Management Expertとし、サーバーが落ちていたら直す役割を伝える • Tasks:エージェントを持つ • check_server_task: サーバのHTTPステータスを確認する • check_container_status_task: コンテナのステータスを確認する • Crew:2つのタスクを順番におこなう • 結果 • うまくいったが、タスクの粒度が荒いと最初のタスクでリスタートまでしてしまい、もう⽚⽅がいらないこともある • 消費トークン数が多い • 複数のコンテナが互いに依存するシステムの監視・復旧を今後取り組みたい https://zenn.dev/acntechjp/articles/6b031dd2d134bf

Slide 21

Slide 21 text

Morphが取り組む、データ処理特化のAIエージェントの開発: 開発チームからの⼿紙 • Morph がLLMのコーディング能⼒や⾔語化能⼒、データ解釈能⼒を活⽤してデータ処理に特化をしたAIエー ジェントを開発 • Morph上では、SQL, Pythonを実⾏する環境が整っている • 誰もがデータアシスタントを活⽤できる未来を実現する https://www.morphdb.io/ja/blog/2024/letter-from-developers-2

Slide 22

Slide 22 text

AIエージェントのみでBPO 企業を作り上げる⽅法: Dify+Ollama+Llama3+Groqで顧客サポート窓⼝業務を完全⾃動化 • ビジネスプロセスアウトソーシング(BPO)は、企業が他の企業に⾃社の業務の⼀部を委託すること • ⼀般的な例としては、コールセンターがあり、今回は架空の電⼒会社のコールセンターを設⽴し、AIワーカー を⽤意する • コールセンターには、カスタマーサービス、請求および⽀払い、テクニカルサポート、サービス停⽌の対応、 新規顧客の登録や停⽌の担当者がいる • それぞれの担当者でナレッジとロールが異なる • 顧客の問い合わせ内容に応じて担当者がルーティングされる • Difyで実装され、LLaMA-3 70Bモデルが利⽤される クレーム対応 元記事:https://ai.plainenglish.io/how-i-built-a-simple-bpo-company-all-ai-employees-all-local-631e48fa908a ⽇本語訳:https://zenn.dev/ippeisuzuki/articles/71971d747c101b

Slide 23

Slide 23 text

Language Agent Tree Search ̶ LATS • LATSアルゴリズムがLlamaIndexに搭載されたことを紹介するコラム • LATSは⾔語モデルにおける推論、実⾏、計画を統合する • LATS の 6 つの操作 • ノードが選択され、拡張され、評価された後、ターミナル ノードに到達するまでシミュレーションが⾏われます。結果 の値はバックプロパゲーションされます。軌道が失敗した場合は、内省が⽣成され、将来の試⾏の追加コンテキストとし て使⽤されます。これらの操作は、タスクが成功するまで連続して続⾏されます。 幅 深さ https://cobusgreyling.medium.com/language-agent-tree-search-lats-837de73d0672

Slide 24

Slide 24 text

Building AI Agents: Lessons Learned over the past Year AIエージェントの構築: 過去1年間に学んだ教訓 • Snowflake、BigQuery などと接続されたデータ分析エージェント開発で学んだこと 1. 知識よりも推論が重要 • SQLクエリ⽣成も失敗理由を添えて考えさせると上⼿くいくことがある 2. 性能をあげるにはエージェント・コンピュータ・インターフェース(ACI)にこだわれ • ACI は、エージェントのツール呼び出しの構⽂や構造を指す • ツールの名前や数、抽象化レベル、⼊⼒形式、出⼒応答をわずかに調整するだけで、エージェントの性能に⼤きな変動が ⾒られたので繰り返し修正することをお勧めする 3. エージェントはモデルによって制限される • 複雑なタスクでは強いモデルを使おう 4. モデルを微調整するのは時間の無駄 • 微調整したモデルによるエージェントは、学習時の指⽰を採⽤し、テスト時の指⽰を⼀部無視し、問題について独⾃に推 論しなくなる • 特定のツール呼び出し(SQLクエリ⽣成)のための学習は効果的である 5. 製品を構築する場合は、LangChainやLlamaIndexなどの抽象化の使⽤を避ける • モデルへの各呼び出しは、⼊出⼒も含めて完全に管理する必要がある(プロトタイプではOK) • エージェントが何をインプットし実⾏したのかの理解をおこなうときに後悔する 6. エージェントはあなたの堀ではない • エージェントが機能するには⼀連の AI コンポーネント以外に多⼤な投資が必要(差別化になる) • セキュリティ、データコネクタ、UI、⻑期記憶、評価 https://medium.com/@cpdough/building-ai-agents-lessons-learned-over-the-past-year-41dc4725d8e5

Slide 25

Slide 25 text

Building an Agent for Data Visualization (Plotly) データ可視化エージェントの構築 • LLMだけでは以下ができない • データの仕様の理解、レイアウトやスタイルの好みの理解、推論 • データの仕様(列名、型、最⼩、最⼤など)をインデックスに保存 • 好みのレイアウト内⽤も別インデックスに保存 • ReAct形式で2つのインデックスを利⽤する dataframe_indexから列名を取得 Stylingから描画の種類を選択 コードを⽣成 https://medium.com/firebird-technologies/building-an-agent-for-data-visualization-plotly-39310034c4e9

Slide 26

Slide 26 text

AIキャラクターによるライブ配信の新時代!『キャラクターストリーマー』サービス開始 • とれしん株式会社は、AIキャラクターによるライブ配信サービス「キャラクターストリーマー」の提供を開始 • マルチエージェント技術を活⽤して、AIキャラクターが⾃動的に番組を進⾏し、視聴者とのリアルタイムな交 流を可能にする画期的なライブ配信体験を提供 • 宣伝したいことを準備しておけば、エージェント達がシナリオを考えてライブ配信してくれる ユースケース • AITuberのライブ配信 • 企業キャラクターによるブランドプロモーション • 教育現場での活⽤ https://prtimes.jp/main/html/rd/p/000000006.000141740.html

Slide 27

Slide 27 text

Intro to Generative UI with LangChain • これからはサイトのUIがパーソナライズされる(LangChainより動画とコラム公開) • LLMのツール呼び出しでUIを選択する • 例えば、チャットインターフェースの出⼒がリポジトリの場合と通常のテキストで分ける https://www.youtube.com/watch?v=mL_KuQgX9Oc

Slide 28

Slide 28 text

Qwen-Agent: Generalizing from 8k to 1 Million Contexts • Qwen-Agent は、Alibaba が開発した⼊⼒⻑8KのQwen モデルを使⽤して 100 万トークンのドキュメントを理 解し、RAG やネイティブのロングコンテキストモデルを上回る新しいエージェントをリリース レベル 1: 検索拡張⽣成 (RAG) • ⻑いコンテキストをより扱いやすいチャンクに分割し検索する レベル2: チャンクごとの読み取り • ブルート フォース戦略を採⽤ • 各チャンクの関連性を並⾏して全て評価して、重要な情報が漏れないようにする レベル3: ステップバイステップの推論 • 質問をサブ質問に分解し、ツール呼び出し付きエージェントが組み込まれている https://x.com/youraimarketer/status/1800317698817085680

Slide 29

Slide 29 text

No content

Slide 30

Slide 30 text

6⽉10⽇ 更新 • 論⽂ • プロダクト・ニュース

Slide 31

Slide 31 text

論⽂ 6/1~6/7まで Agent Capabilities 計画:Graph-enhanced Large Language Models in Asynchronous Plan Reasoning 動画理解:Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis ⻑いコンテキスト理解:Chain of Agents: Large Language Models Collaborating on Long-Context Tasks メモリ:Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models 評価:A Survey of Useful LLM Evaluation アライメント:Towards Scalable Automated Alignment of LLMs: A Survey ⾃⼰修正:When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs ⾃⼰進化:AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments Agent Framework • Open-Endedness is Essential for Artificial Superhuman Intelligence Multi Agent Systems • Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey

Slide 32

Slide 32 text

Graph-enhanced Large Language Models in Asynchronous Plan Reasoning • ⾮同期計画タスクに向けたグラフベースな推論アルゴリズムPlan Like a Graph(PLaG) の提案 • ⾮同期計画とは、順序付き⾏動および並列可能な⾏動を含む複雑な計画タスク • 時間の合計、時間の⽐較、制約付き推論を正確に⾏う必要がある • PLaGは、プロンプトにグラフを仕込むか、⽣成時にグラフを作るか(Build a Graph)の2種類ある • PLaG(BaG)形式がタスクごとに新しいグラフを明⽰的に仕込む必要がなく最も精度が良い CoTよりも精度が⾼い ノードとエッジ数が増えると悪化 中央:BaG形式のプロンプト 右:明⽰的なグラフプロンプト お料理の⾮同期計画の例 Agent Capabilities

Slide 33

Slide 33 text

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis • マルチモーダル⾔語モデルの動画分析タスクのベンチマーク • 合計900本の動画、713の字幕、869の⾳声ファイル、6ジャンル • 動画の尺:Shortは平均80秒、 Mediumは平均520秒、Longは平均2471秒 • Gemini 1.5 proが最も精度⾼い。字幕があると更に精度向上。⾳声があると精度が下がる。 Agent Capabilities

Slide 34

Slide 34 text

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks • Google Cloud AI Researchから⻑い⽂脈タスクのための新しい⼿法「Chain of Agents」の提案 • 提案⼿法は、⻑⽂をチャンクに区切り、先頭から順番に会話メモリCUに回答に必要な情報を追記していき、⾛ 査したあと、蓄積された会話メモリと質問から最終回答を⾏う • マルチホップな質問応答、要約、コード⽣成でRAGやFull-Contextベースラインに対してclaudeシリーズは最 ⼤で10%の性能向上 🟦が会話メモリで情報を付け⾜す 後から過去を遡って、情報を付け⾜せない Agent Capabilities

Slide 35

Slide 35 text

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models • Buffer of Thoughts (BoT):過去の問題解決で得た⾼次の思考テンプレをバッファから取得し活⽤する推論⽅法 • 類似テンプレがない場合、新規タスクとしてデフォルト思考テンプレが利⽤される • 新規タスクの場合、蒸留プロンプトによりテンプレに変換され、過去のテンプレと類似してなければメタバッ ファに追加 ⾼次の思考テンプレートの例 類似テンプレがなくともバッファにテンプレを追 加することで精度が徐々によくなる仕組み Agent Capabilities

Slide 36

Slide 36 text

A Survey of Useful LLM Evaluation • LLMの評価ベンチマークを紹介する論⽂ • LLMの評価を2つのステージ「コア能⼒」と「エージェント」に分けている • エージェントはタスク成功率の評価が多く、ステップごとの詳細な評価が⽋けている • ベンチマークが知りたくなったらリポジトリを⾒ると良さそう Agent Capabilities

Slide 37

Slide 37 text

Towards Scalable Automated Alignment of LLMs: A Survey • LLMのスケーラブルな⾃動アライメントに関するサーベイ • アライメントの代表データ形式である指⽰-応答ペアおよび選好データの構築プロセスは、⾮常に⾼価で注意深 い⼈間のアノテーションを必要とし、スケーラビリティの要求を満たせない • ⾃動アライメントの既存⼿法をアライメント信号に基づいて4つのカテゴリに分類 1. 帰納バイアス(Inductive Bias) 2. ⾏動模倣(Behavior Imitation) 3. モデルフィードバック(Model Feedback) 4. 環境フィードバック(Environment Feedback) Agent Capabilities

Slide 38

Slide 38 text

Towards Scalable Automated Alignment of LLMs: A Survey 1. 帰納バイアスを活⽤したアライメント • LLMの帰納バイアスを活⽤ • ⼤規模データで学習したTransformerには内在的な特徴がある 1. 出⼒の不確実性を定量化する能⼒ 2. ⾃⾝の出⼒を評価、批評、改善する能⼒ 3. ⽂脈内学習する能⼒ • これらを活⽤することで追加の監督信号なしにスケーラブルなアライメントが実現できる • 複数のLLMの構成や組織化から⽣じるバイアスを活⽤ 1. 複雑な問題に対処するためのタスク分解(Task Decomposition) 2. LLMが⾃分⾃⾝と対戦することで⾃⼰改善する(Self-play) • モデルが⾃⼰改善を⾏い、より⾼精度なアライメントを達成するために利⽤する • エージェントとしてのアライメントはチャットボットより難しい • ⾏動、環境のダイナミクス、⾃⼰制約を考慮するため Agent Capabilities

Slide 39

Slide 39 text

Towards Scalable Automated Alignment of LLMs: A Survey 2. ⾏動模倣を活⽤したアライメント • 既にアライメントされたモデルの⾏動を模倣することでターゲットモデルをアライメントする • 模倣先と模倣元の関係で2分類される • 強から弱への蒸留(Strong-to-Weak Distillation) • 既に⾼いアライメントが達成されている強⼒なモデルを教師モデルとして使⽤する • レスポンスガイド蒸留:ターゲットモデルが教師モデルの指⽰に対する応答を直接学習する • 選好ガイド蒸留:教師モデルが⽣成した選好データを⽤いてターゲットモデルをアライメントする • 弱から強へのアライメント(Weak-to-Strong Alignment) • AIの能⼒が⼈間を徐々に超えていく中で、強から弱が難しい場合に弱いモデルを教師モデルにする • 簡単なタスクから学んだ⾏動を基に、より難しいタスクでの性能を向上させるなど • まだ研究は理論含め初期段階 Agent Capabilities

Slide 40

Slide 40 text

Towards Scalable Automated Alignment of LLMs: A Survey 3. モデルフィードバックを活⽤したアライメント • 他のモデルからのフィードバックを利⽤してターゲットモデルのアライメントをする • フィードバックの形式は3種類 • スカラー信号 • スカラー信号は、強化学習で利⽤され、LLMの応答を⼊⼒として評価スコアを⽣成する報酬モデルから⽣成する • バイナリ信号 • バイナリ信号は、数学的推論タスクで使⽤され、結果の正誤を判定する • テキスト信号 • テキスト信号は、他のLLMによるフィードバックや⾃⼰批評に利⽤される Agent Capabilities

Slide 41

Slide 41 text

Towards Scalable Automated Alignment of LLMs: A Survey 4. 環境フィードバックを活⽤したアライメント • 既存環境から⾃動的にアライメント信号やフィードバックを取得し、ターゲットモデルのアライメントを⾏う • 社会的相互作⽤ • SNSのユーザーの反応から社会的規範、⼈間からの対話評価などの信号 • ⼈間の集団知能 • 多数決の結果、原則やガイドライン、クラウドソーシングによるタスクの正確性や有⽤性の信号 • ツールの実⾏フィードバック • 外部ツールの実⾏結果、評価、外部ツールがタスクを成功または失敗した際の信号 • 具現化された環境 • 物理的または仮想的な環境内でのエージェントの⾏動とその結果、⾏動に応じた環境の状態遷移に関するデータ Agent Capabilities

Slide 42

Slide 42 text

When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs • ⾃⼰修正(Self-correction)に関してサーベイし、LLMの⾃⼰修正が上⼿くいく条件を調査した論⽂ • 既存研究では、研究課題が明確に定義されておらず、実験デザインが不適切(正解例を使うなど)なことが多い • ⾃⼰修正が⼀般的なタスクで成功する結果はほとんどない • 信頼できる外部フィードバックを使⽤するタスクでは⾃⼰修正が効果的である • ファインチューニングは特定のタスクで⾃⼰修正を可能にする Agent Capabilities

Slide 43

Slide 43 text

AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments • 多様な環境で⾃⼰進化するLLMエージェントを構築するためのフレームワーク「AGENTGYM」を提案 • LLMを⽅策とし、事前データで模倣学習する。その後、様々な環境(マルチタスク)で⽅策に従い軌跡を集め、 報酬に基づき⽅策の教師あり学習をおこなう。そしてまた環境で軌跡を集めることを繰り返し⾃⼰進化をする ⾏動模倣と⾃⼰進化 異なるタスク(⾊の違い)でイテレーションが増えると精度が改善している 学習データを初期の軌跡から全て(実線)と直近のみ(破線)かで精度の上がり幅が違う Agent Capabilities

Slide 44

Slide 44 text

Open-Endedness is Essential for Artificial Superhuman Intelligence • ⼈⼯超⼈知能(ASI:Artificial Superhuman Intelligence)の実現にはオープンエンド性(open-endedness)が 求められることを主張 • ⼈⼯超⼈知能とは、⼈間の能⼒をはるかに超える知能を持つAIシステムのこと • オープンエンド性とは、システムが観察者に対して常に新規で学習可能な成果物を継続的に⽣成する能⼒ • オープンエンド基盤モデルは、強化学習や⾃⼰改善、タスク⽣成、進化アルゴリズムが必要になるかもしれない オープンエンド性の例 様々な⾶⾏機の設計書を考える。 観察者によって新規性があるか学習可能かは分かれる。 ⼈間が新規に感じても学習可能でないと、成果物を理解できず、 ⼿に追えない存在になる。 Agent Framework

Slide 45

Slide 45 text

Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey • マルチモーダルおよびマルチエージェント システムと合理性の関係を構築 • 論⽂では合理性は以下の4つの要件を満たす こと • 接地 (Grounding):エージェントの意思決 定が物理的および事実上の現実に基づいて いる必要がある • 選好の秩序付け (Orderability of Preferences) :エージェントは選択肢を⽐ 較し、現在の状態に基づいて最も好ましい 選択肢を選ぶ能⼒をもつ • 無関係な⽂脈からの独⽴性 (Independence from Irrelevant Context):エージェントは 無関係な情報を識別し、それを無視する能 ⼒を持つ • 不変性 (Invariance):エージェントの選好 は、決定問題の同等な表現間で⼀貫してい る必要がある Multi Agent Systems

Slide 46

Slide 46 text

6⽉10⽇ 更新 • 論⽂ • プロダクト・ニュース

Slide 47

Slide 47 text

プロダクト・ニュース ニュース • AI agents are having a ʻChatGPT momentʼ as investors look for whatʼs next after chatbots • From gen AI 1.5 to 2.0: Moving from RAG to agent systems • The Rise of AI Agent Infrastructure • Betaworks bets on AI agents in latest ʻCampʼ cohort • New AI agent for venture capital: 100x cheaper, 5x faster and on-par quality with humans • Financial Services Will Embrace Generative AI Faster Than You Think • Hi, AI: Our Thesis on AI Voice Agents 開発 • LlamaIndex Agent Resources

Slide 48

Slide 48 text

AI agents are having a ʻChatGPT momentʼ as investors look for whatʼs next after chatbots • チャットボットのブームを引き起こしたChatGPTに続き、次の⼤きな波としてAIエージェントが注⽬されてい る • Microsoft、Google、Metaなどの⼤⼿企業もAIエージェントの開発に注⼒している。MicrosoftはCognition AI と提携し、GoogleはDeepMindと共にAIアシスタントプロジェクト「Astra」を進めている • AIエージェントは、通常のチャットボットを超えて、複数のステップを含むタスクを⾃動化できるツールとし て定義されている。これにより、ユーザーがプロセスをステップバイステップで指⽰する必要がなくなる。 • AIエージェントを開発する企業の評価額は、他の⽣成AIスタートアップ企業と同様に⾼騰している。 • スタートアップ企業もAIエージェントの開発に注⼒しており、⼤規模な資⾦調達を⾏っている。例えば、Adept は10億ドル以上の評価を受け、他のスタートアップも数百万ドルのシード資⾦を集めている。 • OpenAIとGoogleの卒業⽣が率いるAdeptは、「ソフトウェアツールの複雑さをユーザーが気にしなくても済む ようになる」ことを⽬指している。 https://www.cnbc.com/2024/06/07/after-chatgpt-and-the-rise-of-chatbots-investors-pour-into-ai-agents.html

Slide 49

Slide 49 text

From gen AI 1.5 to 2.0: Moving from RAG to agent systems • Gen AI 1.0: プロンプトエンジニアリング、Few Shot Learning • Gen AI 1.5: 検索拡張⽣成、埋め込みモデル、ベクトルデータベース • Gen AI 2.0: エージェントシステム • 複数の⽣成AIの機能を創造的に連携させること • Gen AI 2.0の最初のステップは⼀連のアクションを⼿動で開発すること • BrainBox.ai ARIAはビル管理AIシステムで、故障した機器の写真を理解し、ナレッジベースから関連するコンテキストを 検索し、IoTデータフィードから関連情報をAPIで取得し、最終的に対処⽅法を提案する • しかし、このシステムの制限は、問題を解決するロジックを開発チームがハードコーディングするか、1-2ステップの深 さにとどまる点 • Gen AI 2.0では、問題を解決するロジックを推論するエージェントシステムになる。問題をステップに分解し、ツールの 集合から選択して各ステップを実⾏する。データ収集、推論、アクション実⾏の各コンポーネントを分離することで、柔 軟なソリューションを実現する。 https://venturebeat.com/ai/from-gen-ai-1-5-to-2-0-moving-from-rag-to-agent-systems/ https://brainboxai.com/en/articles/introducing-aria-revolutionizing-building-management-with-ai

Slide 50

Slide 50 text

The Rise of AI Agent Infrastructure • AIエージェントは複数のタスクを計画し、優先順位を付け、⾃⼰ 検証する⾃律的なアクターとして、アプリ開発を加速させる • インフラサポート • エージェントを⽀えるインフラには、⾃⼰管理型のクラウドホスト、 メモリと状態のデータベース、外部APIと接続するためのコネクタが 含まれる。LangChainやLangsmithなどのソフトウェアフレーム ワークがサポートしている。 • サービスとしてのエージェント • API 経由でエージェントを提供し、アプリケーションを組み⽴てる • ブラウザ インフラストラクチャ • Web を読み取り、⾏動することが重要 • Web サイトや SaaS アプリケーションはアクセス、ナビゲート、解 析、スクレイピングが複雑 • 他にもメモリ、認証、ホスティングが必要になる https://www.madrona.com/the-rise-of-ai-agent-infrastructure/

Slide 51

Slide 51 text

Betaworks bets on AI agents in latest ʻCampʼ cohort Betaworksの「Camp」プログラムに参加している⽇常のタスクを⾃動化を⽬指す9つのスタートアップ 1. Twin : テキストから⾏動を⽣成するLarge Action Modelを学習させ、⼀般的なタスクを完了させる • 「今⽇受け取った履歴書をすべて Dropbox のフォルダーに⼊れて、応募者の名前に変更し、Slack で共有リンクを送って ください」といったこと 2. Skej:都合のよい会議時間を⾒つける 3. Jsonify:⾮構造化コンテキストからデータを抽出できる Web サイトスクレーパーの進化形 4. Resolved AI:IaC テンプレートを使⽤して、プロビジョニング、構成管理、展開ワークフローを⾃動化 5. Floode:メールを読み取り、重要な内容を⾒つけ、適切な応答とアクションを準備する AI 受信トレイ 6. Opponent:⼦供たちが広範囲に交流したり遊んだりすることを⽬的とした仮想キャラクター 7. High Dimensional Research:Web 対応のエージェント アプリとワークフローを構築するフレームワーク https://techcrunch.com/2024/04/16/betaworks-bets-on-ai-agents-in-latest-camp-cohort/

Slide 52

Slide 52 text

New AI agent for venture capital: 100x cheaper, 5x faster and on-par quality with humans • 世界初のAIネイティブVC企業であるVela Partnersの研究部⾨は、オックスフォード⼤学と共同で、スタート アップ投資のためのAI意思決定フレームワークを概説した研究論⽂を発表 • AI エージェントは、⼈間レベルの推論と品質を維持しながら、熟練した⼈間の VC アナリストよりも 5 倍速く、 100 倍安価にスタートアップを評価 https://www.globenewswire.com/news-release/2024/06/05/2893801/0/en/ New-AI-agent-for-venture-capital-100x-cheaper-5x-faster-and-on-par-quality-with-humans.html

Slide 53

Slide 53 text

Financial Services Will Embrace Generative AI Faster Than You Think ⽣成型AIが⾦融サービスに及ぼす影響を以下の5つの分野に分類 パーソナライズされた消費者体験 • LLM は消費者の財務上の意思決定をより良く理解し、トレードオフを評価したり、より適切に導く • 「将来のある時点で⾼齢の両親を経済的に⽀援するのに⼗分な柔軟性のあるプランを作成できますか?」など コスト効率の良い運⽤ • 融資担当者が顧客名を⼊⼒するだけで、 12 種類近くのシステムからデータを取得し、融資ファイルを即座に⽣成 • カスタマーサービスエージェントが銀⾏の商品と関連するコンプライアンス要件について⼊念に学習し答える コンプライアンスの向上 • LLMが契約書、レポート、メールを分析し、さらに調査が必要な潜在的な問題や懸念事項をフラグ付け リスク管理の改善 • ⽣成AIが信⽤リスク、市場リスク、流動性リスク、運⽤リスクに役⽴つ情報を提供する • LLMがニュース記事、市場レポート、アナリストの調査など、市場および取引相⼿のリスクをより包括的に把握 より動的な予測とレポート • LLMが社内プロセスを改善し、財務チームの⽇常業務フローを簡素化するのを⽀援する • 時間のかかる記録管理とレポート作成の⾃動化 https://a16z.com/financial-services-will-embrace-generative-ai-faster-than-you-think/

Slide 54

Slide 54 text

Hi, AI: Our Thesis on AI Voice Agents • 1.0 AI ⾳声 (電話ツリー) から 2.0 AI ⾳声 (LLM ベース) の波に移⾏している • 多くの⾳声エージェント企業は、特定の業界 (例: ⾃動⾞サービス) または特定の種類のタス ク (例: 予約スケジュール) に対して、垂直に特 化したアプローチを採⽤ • 会話フロー (バックエンドワークフロー) はすぐ に複雑/特殊になる可能性がある • 多くの場合、⾳声インターフェースはテキスト に⽐べて、情報の抽出が不便で完全にマイナス • プロダクトに声がなぜ必要なのかについての強 い視点が必要 https://a16z.com/ai-voice-agents/

Slide 55

Slide 55 text

LlamaIndex Agent Resources • LlamaIndexのエージェントの種類が増えている • 推論は、Sequential, DAG-based, Tree-basedに分けられる • Tree-based なLanguage Agent Tree Searchが気になる RAG in 2024: Advancing to Agents https://llamaindex.notion.site/LlamaIndex-Agent-Resources-cb8585332fdb42e98b30a091412322bb

Slide 56

Slide 56 text

No content

Slide 57

Slide 57 text

6⽉3⽇ 更新 • 論⽂ • プロダクトやブログ

Slide 58

Slide 58 text

論⽂ ~5/31まで Agent Capabilities 計画 • A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models • Meta-Task Planning for Language Agents ツール利⽤ • Tool Learning with Large Language Models: A Survey ⾃⼰修正 • Devilʼs Advocate: Anticipatory Reflection for LLM Agents • Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification ロングコンテキスト理解 • Are Long-LLMs A Necessity For Long-Context Tasks? 推論 • Faithful Logical Reasoning via Symbolic Chain-of-Thought • Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization • From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step 学習 ・RE-Adapt: Reverse Engineered Adaptation of Large Language Models

Slide 59

Slide 59 text

論⽂ ~5/31まで Agent Framework • Position: Foundation Agents as the Paradigm Shift for Decision Making • A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor • AGILE: A Novel Framework of LLM Agents • LLMs Meet Multimodal Generation and Editing: A Survey Agentic AI Systems • Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting Multi Agent Systems • LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins • LLM-Based Cooperative Agents using Information Relevance and Plan Validation Embodied Agents • A Survey on Vision-Language-Action Models for Embodied AI Computer Controlled Agents • Large Language Models Can Self-Improve At Web Agent Tasks

Slide 60

Slide 60 text

• 旅⾏計画という多段階の計画問題に焦点を当て、⼈間のような計画フレームワークを開発 • アウトライン⽣成(Outline Generation): 初期に⼤まかな計画を⽴てることでプロセスをガイドする • 情報収集(Information Collection): 詳細な計画を作成するために必要なデータを収集する • 計画作成(Plan Making): 収集した情報に基づいて詳細な計画を作成する A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models いきなり詳細化せず、⼤枠から詳細化 するのは良い筋かも Agent Capabilities

Slide 61

Slide 61 text

• マルチエージェントシステムのためのゼロショット計画⼿法Meta-Task Planning (MTP)を提案 • MTPは複雑なタスクを下位タスク(メタタスク)の階層に分解し、各メタタスクを実⾏可能なアクションに マッピングする • TravelPlannerで平均約40%の成功率を達成し、API-Bankでは既存の最先端⼿法を14%上回った Meta-Task Planning for Language Agents Agent Capabilities ⼤枠から実⾏可能なアクションに ⼤枠の依存関係もグラフ化

Slide 62

Slide 62 text

• ツール学習のサーベイ論⽂ • ツール学習とは、LLMが外部ツールを使⽤して複雑な問題を解決する能⼒を強化する⽅法 • なぜツール学習が必要なのか • 知識獲得の向上(検索エンジン、DB) • 専⾨知識の強化(計算、プログラミング) • ⾃動化と効率化(タスク管理、プロジェクト管理) • インタラクションの向上(⾳声認識や画像認識、多⾔語翻訳) • 解釈性とユーザー信頼の向上(意思決定プロセスの透明性) • 堅牢性と適応性の向上(ユーザー⼊⼒の変動に対する安定性) • どのようにツール学習をおこなうのか • ツール学習⽅法は、主に以下の4つのステージに分けられる • タスク計画 (Task Planning) • ツール選択 (Tool Selection) • ツール呼び出し (Tool Calling) • 応答⽣成 (Response Generation) Tool Learning with Large Language Models: A Survey Agent Capabilities

Slide 63

Slide 63 text

• DeepMindから複雑なタスクを解決する際の⼀貫性と適応性を向上させる新たな内省⽅法を提案 • 複雑なタスクは実⾏途中で計画変更を強いられるが、その頻度が多いとエージェントの効率性が低下する課題 • 3つの内省メカニズムを提案し、Webタスクで試⾏回数や計画の修正回数を45%削減 • 予期的内省(Anticipatory Reflection):エージェントの⾏動の前に失敗の可能性を予測し、代替⾏動を考える • ⾏動後の評価とバックトラッキング:⾏動後に結果を評価し、必要に応じて戻って代替⾏動を実⾏する • 計画の改訂(Plan Revision):計画完了後に包括的なレビューを⾏い、次回の試⾏のための戦略を改善する Devilʼs Advocate: Anticipatory Reflection for LLM Agents ② 初期⾏動が失敗した場合の ⾏動を事前に内省する ① 計画の初期⾏動 ③ 初期⾏動の結果を得て 失敗なら戻る ④ 代替案を実⾏する Agent Capabilities

Slide 64

Slide 64 text

• Minecraftのクリエイティブなタスクには明確な成功基準がなく、⾃⼰改善のフィードバックが得られず困難 • 外観や3D構造の視覚的検証と機能要件を満たすかの実⽤性の検証から⾃⼰改善をおこなう • CADプログラムを⽣成し、3Dモデルを設計。マルチビュー画像を作成し、VLMで視覚的検証 • 3DモデルをMinecraftのブロック配置情報に変換しMinecraft内で建物を構築。プレイヤーの⾏動をシミュレートし、建物 の実⽤性を検証 Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification 実⽤性の検証を除くと渡れない 視覚的検証を除くと タワーにならない Agent Capabilities

Slide 65

Slide 65 text

• LC-Boost (Long-Context Bootstrapper) はコンテキスト⻑が短いLLMを使ってロングコンテキスト問題に対応 するフレームワーク • ⼊⼒の⻑いコンテキストを⼀度に処理するのではなく、部分的にアクセスし、効率的にタスクを解決する • 前⽅から各チャンクに対して処理をするため、推論が⻑くなる可能性はあるが精度は通常より⾼い Are Long-LLMs A Necessity For Long-Context Tasks? LC-Boostのアルゴリズム LC-Boostのフロー図 Agent Capabilities

Slide 66

Slide 66 text

• LLMは論理的推論能⼒を得る必要があるが、現在は外部の推論システムに依存している • シンボリックCoT(SymbCoT)は、外部の推論システムに依存せず、シンボリック表現と⾃然⾔語表現を組み 合わせることで、厳密な論理計算と豊かな⽂脈情報の両⽅を活⽤できる Faithful Logical Reasoning via Symbolic Chain-of-Thought Agent Capabilities

Slide 67

Slide 67 text

• Transformer モデルは、知識に基づく推論をプロンプトで指⽰せずに暗黙的に⾏う能⼒があるのか、そしてそ の能⼒をどのように獲得するのかを理解するための実験研究 • 実験からgrokking(過学習を超えてさらに⻑時間の訓練によって⼀般化を獲得する現象)を通じてモデルは単 なる記憶から脱却し、抽象的な規則を学習し、新しいデータに対する推論能⼒を向上させる • ただし推論も種類により異なり、複数の事実を組み合わせて新しい情報を導き出す組成タスクにおいては⼀般 化が難しい⼀⽅、エンティティの属性を⽐較する⽐較タスクにおいては成功する Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization Grokkingスタート OODでも急激に精度向上 組成タスクではOODは 精度が上がらず⼀般化しなかった Agent Capabilities

Slide 68

Slide 68 text

• CoTによって⽣成される複数ステップをモデルの内部状態に内在させる学習⽅法を提案 • 明⽰的なCoT向けモデルから始め、徐々に中間ステップを削除し、モデルを微調整させる(Stepwise Internalization) • この⼿法により推論プロセスを簡素化しつつ⾼い性能を維持できる(Speed と Accのトレードオフはある) From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ⽣成範囲 • 掛け算の桁数を増やすと通常のCoTであれば精度は良いが遅い • 提案⼿法のICoT-SIは精度を維持しつつ、⾼速化できている 徐々に推論過程をモデルに学習していき、 最終的には問題から直接答えを⽣成できるようにする Agent Capabilities

Slide 69

Slide 69 text

• 指⽰チューニングされたモデルを新しいドメインに適応させると、既存の指⽰チューニング能⼒が劣化する可 能性がある • 既存の指⽰チューニング能⼒を維持しながら、新しいドメインの適応⼿法を提案 • RE-Adapt (Reverse Engineered Adaptation)は事前学習済モデルと指⽰チューニング済モデルの重み差分を保 持し、事前学習済モデルに別ドメインで指⽰チューニングした後、先の重み差分を付け⾜す RE-Adapt: Reverse Engineered Adaptation of Large Language Models Agent Capabilities

Slide 70

Slide 70 text

Position: Foundation Agents as the Paradigm Shift for Decision Making • 基盤エージェントの概念を提唱し、そのロードマップを⽰した論⽂ 基盤エージェントに期待する特徴 • 状態・⾏動空間、フィードバック信号(例:報酬や⽬標)、環境ダイナミクスを統⼀的に表現する • ロボティクスやゲームプレイから医療に⾄るまで、タスクやドメインを超えた統⼀的な⽅策の仕組みを持つ • ⻑期的な推論が必要なシナリオや部分観測可能な環境での計画能⼒を持つ 実現⽅法:以下の図を段階的に達成することが求められる Agent Framework

Slide 71

Slide 71 text

A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor • LLMを活⽤したマルチエージェント製造システムを提案 • システムは製造現場のリアルタイムデータと⽣産タスク情報を受け取り、最適なスケジューリングと⽣産機の選択 を出⼒する • リアルタイムに機械割り当ての交渉をおこなえるため、多品種少量⽣産の要求に対応しやすい • Thinking Agent (TA)は、現場の情報から最適な機械を選択する • Decision Agent (DA)はTAの分析結果を基に最終的な意思決定を⾏う 各機械に分散させ 458stepの計画になる 最も負荷が少ない機械を選択す ると678stepになる Agent Framework

Slide 72

Slide 72 text

AGILE: A Novel Framework of LLM Agents • 強化学習を⽤いてエンドツーエンドで最適化するAGILEエージェントの提案 • AGILEエージェントは複雑な質問応答タスクを効果的に学習し、適応できる • 訓練データとしてセッションレベルの軌跡を⽣成し、各セッションの軌跡は、[GetUserQuestion]と [RetrieveMemory]から始まり、各QAタイプに応じた関数を続けて実⾏する メモリ、ツール結果、ユーザーの質問から LLM(⽅策) が⽣成する⾏動トークン⼀覧 Agent Framework

Slide 73

Slide 73 text

• 画像、動画、3D、⾳声を含む複数のモダリティに適⽤されたLLMsの体系的なレビュー • Tool-augmented multimodal agentsは、既存の⽣成モデルを活⽤し、⼈間とコンピュータのインタラクション を向上させるために設計されたエージェント • テキスト、画像、動画、3Dモデル、⾳声など、複数のモダリティにわたる情報を処理し、⽣成する能⼒を持つ • ⼈間の要求に基づいて適切なツールを選択し、それを使⽤して必要な⽣成タスクを実⾏する LLMs Meet Multimodal Generation and Editing: A Survey Agent Framework

Slide 74

Slide 74 text

LLMs Meet Multimodal Generation and Editing: A Survey • ここ2年で複数のモダリティの編集と ⽣成機能がエージェントに統合され ている • 最近は指⽰チューニングが多い • 指⽰チューニングは特定のタスクや アプリケーションに最適化されるた め、より⾼い精度を達成できる Agent Framework

Slide 75

Slide 75 text

• LLMのロールプレイを活⽤して、求職者と⾯接官の間で模擬⾯接と評価までおこなうフレームワークを提案 • 従来の履歴書と求⼈情報に基づく評価に加え、模擬⾯接の対話履歴を⽤いて、より正確な⼈材と職のマッチン グを⽬指す • 提案⼿法のMockLLMが最⾼のマッチング精度を達成し、⾼品質な模擬⾯接を提供した • 将来のオンライン求⼈への応⽤に期待 Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting 模擬⾯接の受け答えのクオリティが重要 Agentic AI Systems

Slide 76

Slide 76 text

LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins • デジタルツインのシミュレーションパラメータを⾃動決定するLLMマルチエージェントシステムの設計 • 観察、推論、決定エージェントは、デジタルツインからリアルタイムデータを収集し、重要な観察データを識 別、データを解析し、パラメータを⽣成 • 専⾨知識が少ないユーザーでも効果的にデジタルツインシステムを操作できるようになり、システムのアクセ シビリティと効率が向上 MAS経由でシミュレーションを実⾏ Multi Agent Systems

Slide 77

Slide 77 text

• 部分的に観察可能な環境で分散型マルチエージェントが協⼒して共通の⽬標を達成することを⽬指す • 以下2つのモジュールを組み込むことで精度の向上を実現 • 情報の関連性の評価:観察情報をメモリに保存するとき、何を優先してメモリに残すかを決める • 計画評価:⾃⾝の計画に他のエージェントが⼲渉したかをメモリから考える、複数の計画からベストを選ぶ LLM-Based Cooperative Agents using Information Relevance and Plan Validation 提案⼿法は少ないステップで移動距離も短く通信回数も少なく効率的 Multi Agent Systems

Slide 78

Slide 78 text

A Survey on Vision-Language-Action Models for Embodied AI • Vision-language-action models (VLAs) は、⾔語指⽰に基づいて⾏動を予測し、環境でのタスクを実⾏する能 ⼒を持つ。ロボティクスの分野で重要な役割を果たす • VLAモデルは、低レベルの制御ポリシーとして動作し、環境に基づいて⾏動を⽣成するか、⾼レベルのタスク プランナーとして動作し、⻑期のタスクを実⾏可能なサブタスクに分解することができる 視覚と⾔語をインプットし⾏動を⽣成する機構が増えている

Slide 79

Slide 79 text

Large Language Models Can Self-Improve At Web Agent Tasks • Webエージェントのタスクで⾃⼰改善する枠組みを提案 1. ベースモデルの実⾏: ベースモデルがタスクを実⾏し、初期データを収集 2. データのフィルタリング: ⾃⼰批評や環境のエラーチェックを通じて、低品質なデータを除外 3. 新しいタスクの⽣成: IDの例をもとに、OODの新しいタスクを⽣成 4. ファインチューニング: 構築したデータセットを使⽤してモデルをファインチューニング • モデルは⾃⾝の⽣成したデータを活⽤し、逐次的に学習と改善を繰り返すことで⾃⼰改善を実現 • モデルは反復的に⾃⼰改善できるか?ノー。先⾏研究と⼀致して2度⽬は1度⽬より精度が落ちる 最も良いのはBタイプの学習 Computer Controlled Agents

Slide 80

Slide 80 text

6⽉3⽇ 更新 • 論⽂ • プロダクト

Slide 81

Slide 81 text

プロダクト ブログ • JSAI2024 AIエージェント関連の研究 • From Prompt Engineering to Agent Engineering • AI Agentic Design Patterns with AutoGen • AIエージェントが⼈間のバディーに--アクセンチュア、2024年の技術トレンドを解説 • AI Agents Are Going To Automate The Following Tasks First • Introducing Perplexity Pages • 少数ショットのツールの使⽤は実際にはまだ機能しない • Building an AI Agent With Memory Using MongoDB, Fireworks AI, and LangChain

Slide 82

Slide 82 text

JSAI2024 AIエージェント関連の研究 • エージェントとの対話やペルソナに関する分析の発表が多く⽬についた (検索結果順) • LLM マルチエージェントを⽤いたアイディエーション応⽤とアイデア評価⼿法に関する研究(株式会社博報堂テ クノロジーズ、株式会社NTTデータ数理システム) • LLMエージェントの集団インタラクションを通したゲームの新しい戦略の創発(東京⼤学) • ⼤規模⾔語モデルを⽤いたレイアウト⽣成エージェント(⽇⽴製作所) • LLMに基づいたエージェントモデルのMASへの導⼊(⽴命館⼤学) • LLMエージェントによるText-to-Design⼿法の検討(早稲⽥⼤学、サイバーエージェント) • ⼤規模⾔語モデルを利⽤した動機づけ⾯接会話エージェント(成蹊⼤学) • LLMエージェントの⼈間との対話における反芻的返答の親近感向上効果(株式会社ARISE analytics) • LLMエージェント同⼠の⾃然⾔語による戦略進化(東京⼤学) • マルチエージェント雑談対話における対話破綻分析(早稲⽥⼤学、AIST、筑波⼤学、NAIST) • ⼤規模⾔語モデルに基づくマルチエージェント事実検証⼿法(京都⼤学) • 電通総研のLLMエージェントの技術開発や製造のAI活⽤事例紹介(株式会社電通総研) https://confit.atlas.jp/guide/event/jsai2024/top

Slide 83

Slide 83 text

From Prompt Engineering to Agent Engineering • エージェントエンジニアリングを紹介するコラム • 以下の機能要件を定義することから始まる エージェント機能要件 • エージェントがやるべき仕事 • 仕事を遂⾏するために取るべき⾏動 • 記事やブログ投稿の下書き • 必要な能⼒ • コンテンツトレンドの API の動的な呼び出し • ブレインストーミングと要約機能 • メモリ • 必要な能⼒の熟練度 • 関数呼び出しの信頼性は 75% • 失敗した関数呼び出しの説明可能性は 99.99% https://towardsdatascience.com/from-prompt-engineering-to-agent-engineering-f314fdf52a25

Slide 84

Slide 84 text

AI Agentic Design Patterns with AutoGen • DeepLearning.AIでAutoGenを使ったエージェント開発の新たな授業が無料公開 • AutoGen はマルチエージェントLLM アプリケーションの開発を可能にするフレームワーク 動画の中で以下を学べる • Tool Use、Coding、Reflection • 会話、⼈間へのフィードバック https://www.deeplearning.ai/short-courses/ai-agentic-design-patterns-with-autogen/

Slide 85

Slide 85 text

AIエージェントが⼈間のバディーに--アクセンチュア、2024年の技術トレンドを解説 • アクセンチュアは5⽉27⽇、テクノロジートレンドの調査レポート「Technology Vision 2024」に 関する記者説明会を開催 • 2つ⽬のトレンドに「⾃分専⽤エージェントとの出会い:AIのためのエコシステム」がある • AIは、さまざまなビジネスシーンで⼈間を⽀援する“アドバイザー”から、⾏動を伴い物理世界に影 響を及ぼす“エージェント”に進化している • AIエージェントが私たちの同僚や代理⼈として登⽤されるにつれて、テクノロジーと⼈材の未来を 再創造する必要がある • アクセンチュア ⼭根⽒は、⽣成AIネイティブ世代が「BYOAI(Bring Your Own AI)世代」になる とし、AIエージェントをバディーとして共進化させ、業務だけでなく、プライベートにおいても常 に⾃分のバディーとセットで⾏動するようになるという。 • AIエージェントを育て上げていくためには、⾃らもAIコーチから学ぶとともに、⾃らの考えや気付 きを常にまとめてAIエージェントに問いかけるといった真に創造的なアクションが必要になる https://news.yahoo.co.jp/articles/2e21edb794054e5ca04757e8cfa127eb23b7a5c0 https://www.accenture.com/jp-ja/insights/technology/technology-trends-2024

Slide 86

Slide 86 text

AI Agents Are Going To Automate The Following Tasks First 以下ではAIエージェントは既に⼈間より性能が良いとされている • customer support and call routing(顧客サポートと通話ルーティング ) • doc generation in the legal profession(法律専⾨家によるドキュメント⽣成) • data analyst / report generator(データアナリスト/レポート作成) • IT support desk and ticket triage( IT サポートデスクとチケットトリアージ ) • test script generator(テストコード⽣成 ) • junior financial analyst(ジュニア⾦融アナリスト) • contract creation and analysis (契約の作成と分析) https://x.com/bindureddy/status/1796013640555827680

Slide 87

Slide 87 text

Introducing Perplexity Pages • Perplexity Pages は、調査結果を記事に簡単に変換する新しいツール • 詳細な記事、レポート、情報ガイドを作成するときに使える ⽂章の編集やテーブル表⽰、挿絵も⽣成 記事の題⽬を書くと執筆される

Slide 88

Slide 88 text

少数ショットのツールの使⽤は実際にはまだ機能しない • Google Researchが論⽂を読者層に合わせてブログ化している • ツールを使⽤するように学習していないモデルを使う場合、Few Shot Learningによるツール利⽤ は困難で未解決の問題 • Gemini、GPT-4、Claudeはツールを使うように学習済みなためスコープ外 https://research.google/blog/few-shot-tool-use-doesnt-really-work-yet/

Slide 89

Slide 89 text

Building an AI Agent With Memory Using MongoDB, Fireworks AI, and LangChain • MongoDB、Fireworks AI、LangChain などのツールを活⽤して AI リサーチアシスタントを構築する⽅ 法について説明する記事 • 特にMongoDBを⻑期メモリとして利⽤する⽅法をstepごとに紹介 https://www.mongodb.com/developer/products/atlas/agent-fireworksai-mongodb-langchain

Slide 90

Slide 90 text

No content

Slide 91

Slide 91 text

過去のアーカイブ • SpeakerDeckに4⽉分、5⽉分の資料を分けて公開しています。