Language Models 計画 • On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability • Benchmarking Agentic Workflow Generation • Planning in the Dark: LLM-Symbolic Planning Pipeline without Experts • LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench • Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 推論 • Inference Scaling for Long-Context Retrieval Augmented Generation • Steering Large Language Models between Code Execution and Textual Reasoning • Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely • MARPLE: A Benchmark for Long-Horizon Inference 評価 • The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends • Evaluation of OpenAI o1: Opportunities and Challenges of AGI
Thought Generation • CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device • AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories 自己修正 • Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation • Agent-as-a-Judge: Evaluate Agents with Agents • LLM Self-Correction with DECRIM: DECOMPOSE, CRITIQUE, AND REFINE for Enhanced Following of Instructions with Multiple Constraints 安全性 • AutoPenBench: Benchmarking Generative Agents for Penetration Testing • Multimodal Situational Safety • AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents • ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions • Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
in Modular Design Space • AFlow: Automating Agentic Workflow Generation • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement • Agents Thinking Fast and Slow: A Talker-Reasoner Architecture • MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents Agentic AI System • Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise • DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback • Collective Critics for Creative Story Generation • Agentic Information Retrieval • HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR Applications • AI-Press: A Multi-Agent News Generating and Feedback Simulation System Powered by Large Language Models • ShapefileGPT: A Multi-Agent Large Language Model Framework for Automated Shapefile Processing • Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance • LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents • Mentigo: An Intelligent Agent for Mentoring Students in the Creative Problem Solving Process • Control Industrial Automation System with Large Language Models • Agents' Room: Narrative Generation through Multi-step Collaboration
Language Agents for Data-Driven Scientific Discovery • dZiner: Rational Inverse Design of Materials with AI Agents • Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation • Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents Software Agent • SWE-Bench+: Enhanced Coding Benchmark for LLMs • HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale Data Agent • DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models • MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML • Data Analysis in the Era of Generative AI Digital Agent • Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents • Agent S: An Open Agentic Framework that Uses Computers Like a Human • AGENTOCCAM: A Simple Yet Strong Baseline for LLM-Based Web Agents • A Survey on Complex Tasks for Goal-Directed Interactive Agents
Multimodal Retrieval for Embodied Agents • Mars: Situated Inductive Reasoning in an Open-World Environment Multi Agent System • GenSim: A General Social Simulation Platform with Large Language Model based Agents • Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining • Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts • RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance • From Facts to Insights: A Study on the Generation and Evaluation of Analytical Reports for Deciphering Earnings Calls
by Large Language Models LLMによるニュース生成には専門性や倫理的判断の欠如、世論の反応を予測するのも困難 マルチエージェントとRAGを活用した自動ニュース作成・洗練システムのAI-Pressを提案 • ニュース作成:ニュースの材料や情報を収集し、初期のニュース草案を作成する役割 • ニュース洗練:初期草案を何度も編集し、最終的な高品質なニュースに仕上げる役割 • シミュレーション:世論フィードバックをシミュレートし、フィードバックに基づいて内容を調整する役割 ニュースの網羅性、深さ、客観性、重要性、読みやすさの面で優れた評価を得た Agentic AI Systems 10月21日 更新分
Testers: Measuring Game Difficulty with LLM Agents 人間のテスターがゲームの難易度を評価してきたが、時間とコストがかかっていた AdobeからLLMを使ってゲームの難易度を測定するフレームワークを提案 LLMエージェントは、シンプルな推論技術(Chain-of-Thought)を使うことで、人間のプレイヤーが感じる難易 度と強い相関を示した LLMが効果的なゲームテストエージェントとして機能する可能性がある 将来的には、ゲームのバグ発見やゲームプレイのバランス調整にも役立てることを期待 Agentic AI Systems 10月21日 更新分
Problem Solving Process 中学生の創造的問題解決(CPS)を支援するメンターエージェントシステム「Mentigo」を提案 創造的問題解決は、創造的かつ批判的な思考を用いて、新しい視点やアイデアを駆使し、複雑な問題に対して効果的 な解決策を導き出すプロセス 問題発見、情報収集、問題定義、解決策の創出、解決策の評価、解決策の実行でインタラクティブな対話をする MentigoのDBには、学生の進行状態や各CPSステージ、学生の状態に対応する指導戦略が含まれている 生徒は「スマートホームの課題」と「低炭素キャンパスの課題」 のCPSタスクに取り組み 学生のエンゲージメント、認知的スキル(特に分析・評価・創造能力)を大幅に向上させることが実証された Agentic AI Systems 10月7日 更新分
計画エージェントはキャラクターの描写や物語の骨組みを考案し、執筆エージェントが最終的なテキストを生成 エージェントは情報を「スクラッチパッド」に保存し、他者と情報を共有することでタスクの一貫性を保つ 全体のプロセスはオーケストレータによって管理され、必要なエージェントを呼び出し、タスクの進行を調整 結果はまだ人間には及ばない。特にありきたりな物語でなく、オリジナリティのある創造性がまだ不十分。 LLMによる評価では提案手法が人間に迫る勢いだが、単にLLMが自分の回答を気に入っているだけかもしれない。 Agentic AI Systems 10月7日 更新分
a Human Agent Sは、GUIを通じて自律的にPCとインタラクションし、複雑なデスクトップタスクを自動化する 外部知識や内部経験からタスクを計画し、サブタスクを実行する OSWorldおよびWindowsAgentArenaで評価しているが、全体的にgpt-4o単体より数%の改善だけ GUIの要素を正しく認識・操作する能力が乏しく、認識精度を上げる必要がある 反復的行動の防止や、行動の反省・改善を行う機能を強化し、エージェントの実行能力を向上させる必要がある Digital Agents 10月21日 更新分