Conversational Agents ⻑いコンテキスト理解 • Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems ツール利⽤ • WORLDAPIS: The World Is Worth How Many APIs? A Thought Experiment • Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks • GTA: A Benchmark for General Tool Agents 評価 • AI Agents That Matter Agent framework • Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods • Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents
Language Models and Autonomous Agents in Chemistry • AgentInstruct: Toward Generative Teaching with Agentic Flows • MMedAgent: Learning to Use Medical Tools with Multi-modal Agent • MIRAI: Evaluating LLM Agents for Event Forecasting • ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions • InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation • LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies Multi Agent Systems • Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models • BMW Agents - A Framework For Task Automation Through Multi-Agent Collaboration Embodied Agents • Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Computer Controlled Agents • Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence • Tree Search for Language Model Agents
• ECにおいてユーザーの曖昧なクエリに対する確認質問を⾏うことで、より正確な商品検索を実現する • 戦略的な確認質問の⽣成と動的な商品検索能⼒を備えた会話型情報検索エージェントを提案 • エージェントは、カテゴリを絞り、アイテムを検索し、複数の新しい質問を⽣成する Agentic AI Systems
Large Language Models • マルチエージェント環境における他のエージェントの⾏動や戦略を推測・適応する Hypothetical Mindsを提案 • ⼼の理論モジュールは、他のエージェントの戦略や⽬標について仮説を⽣成、評価、精緻化する • その結果をもとに⾃⾝の計画を⽴て⾏動を選択する • 従来のLLMエージェントおよびRLベースラインと⽐較して優れた性能を発揮 Multi Agent Systems
(Preview) • Announcing Mosaic AI Agent Framework and Agent Evaluation イベント Welcome to CMU Agent Workshop 2024 ブログ • What is a "cognitive architecture"? • Agent Planning • Build A Financial Analyst Agent Using CrewAI and LlamaIndex • Building “Auto-Analyst” ̶ A data analytics AI agentic system • Meet Jace AI: Revolutionizing Autonomous Artificial Intelligence Agents
Agents • FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents ⻑いコンテキスト理解:Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA メモリ:AI-native Memory: A Pathway from LLMs Towards AGI ツール利⽤:BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions マルチモーダル理解:CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs フレームワーク:Symbolic Learning Enables Self-Evolving Agents Agentic AI Systems • LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing Multi Agent Systems • Autonomous Agents for Collaborative Task under Information Asymmetry • EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms • MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate
LLMs as Reviewers:⼈間のレビューとLLMが⽣成したレビューの質を⽐較する • LLMは特に論⽂の範囲外の実験や分析を提案する傾向が強く、専⾨知識を要する批評はエラーが少ない • LLMs as Metareviewers:LLMが個々のレビュー内の問題を特定できるかどうかを評価する • 形式的な間違いや⼀般的な誤解を特定するのには効果的、多くのレビュワーの⽋陥を指摘できる • 表⾯的なレビューや、誤った専⾨知識に基づく指摘が多い レビューのエラー分析 Agentic AI Systems
Service • Collaborate with Claude on Projects • Announcing LangGraph v0.1 & LangGraph Cloud: Running agents at scale, reliably ブログ • Enhancing Code Reviews with AI PR Agent • Literature Review on Task Planning with LLM Agents • How to build AI agents to automate web browsing with human level reasoning? Part 2: Using Large Context Window • Architecting + testing reliable agents • Gemini API の Function Calling 機能で LLM Agent を実装する ベンチャー企業 • MyLens AI turns any input into an easy-to-understand visual. • Relay.app • AI-FLOW
ReAct: Synergizing Reasoning and Acting in Language Models • ⾔語モデルにタスクとツールを与え、反復的に「思考」「⾏動」「観察」を⾏うフレームワーク。self-consistencyとCoTを組み合わせることで、結果の精度が向上 2. Reflexion: Language Agents with Verbal Reinforcement Learning • ReActに評価と内省のステップを追加し、出⼒や現在の軌跡が正しいかを判断。 外部の信号がある場合に効果的である 3. LLM+P: Empowering Large Language Models with Optimal Planning Proficiency • タスクをPDDL(Planning Domain Definition Language)に変換し、ソルバー/プランナーで解決。PDDLの制限として、アクション空間が⼤きい場合には適⽤が難しい。 6. Language Agent Tree Search (LATS) • モンテカルロ⽊探索をLLMに統合し、⾏動、観察、計画を⾏う。 self-consistency と評価スコアを組み合わせ、反射ステップで失敗の原因を分析。 7. ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models • 計画と実⾏者を分離し、計画と実⾏結果から回答を⽣成。ReActを上回る性能を発揮 8. Plan, Eliminate, and Track ̶ Language Models are Good Teachers for Embodied Agents • ⾼レベルのタスクをサブタスクに分解し、不要なタスクを排除、タスク完了を追跡。タスクの依存関係を前提としない独⽴した⽅法 9. LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models • ⾼レベルのプランは低レベルのプランナーが知り得た環境情報に基づいて計画更新。フィードバックが重要で、失敗時に新たなプランを⽣成 10. Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents • 実⾏可能な計画が複数存在することが多い。複雑な環境での効率的なプラン選択するモデルを提案 https://isamu-website.medium.com/literature-review-on-task-planning-with-llm-agents-a5c60ce4f6de
Google Cloud の Gemini API の Function Calling 機能を使ってLLM Agent の実装例を紹介 • Function Calling は、「どの API を使⽤すれば回答に必要な情報が得られるか?」を Gemini ⾃⾝に考えさせる • ToolsにはBigQueryのAPIを⽤意し、関数の引数でSQLクエリを⽣成させる • Geminiが関数とそのSQLクエリを⽣成したらその値をもとにAPIを実⾏する https://zenn.dev/google_cloud_jp/articles/3fa4da1eb63948 ツールの定義 Function Calling を使⽤した Agent の動作