• Understanding the Dark Side of LLMs’ Intrinsic Self-Correction ツール利用 • Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage メモリ • Memory-Augmented Agent Training for Business Document Understanding • On the Structural Memory of LLM Agents 安全性 • SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents • Towards Action Hijacking of Large Language Model-based Agent • Agent-SafetyBench: Evaluating the Safety of LLM Agents ベンチマーク • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks • LegalAgentBench: Evaluating LLM Agents in Legal Domain
to Implementation • EscapeBench: Pushing Language Models to Think Outside the Box Agentic AI System • AutoPatent: A Multi-Agent Framework for Automatic Patent Generation Data Agent • A Survey on Large Language Model-based Agents for Statistics and Data Science Multi Agent System • ROMAS: A Role-Based Multi-Agent System for Database monitoring and Planning • A Survey on Multi-Generative Agent System: Recent Advances and New Frontiers • Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework
Agent News!から見えたAIエージェントの現在地 • AIエージェントビジネスの現状と今後の考察 • 生成AIエージェントが刺さる業務課題を探そう! • 2024年生成AIエージェントのおすすめ論文 16選 • AIエージェントの評価 • 10 AI Trends in 2025 You Can't Miss • 15 Agentic Systems and Frameworks of 2024 • Top 10 Research Papers on AI Agents • AI Agent Trends: Skills and Workforce Insights for 2024 • Top 10 AI Agent Trends and Predictions for 2025
Agents In Production • 【AI Shift Advent Calendar 2024】AIエージェントの設計とその勘所 • Agentic AI vs Generative AI: Understanding the Key Differences and Impacts • AI エージェントで実現する業務効率化とイノベーション: 日本の最新事例 授業 • Reasoning with o1
Survey: ソフトウェアの画面を人間のようにクリック・入力して操作するエージェントについての総合的調査 Agent K v1.0:データサイエンスに特化した自律型エージェント。前処理から特徴量エンジニアリング、モデル調整まで自動化 The AI Scientist:研究アイデアの生成、コード執筆、実験、結果の可視化、論文執筆、疑似査読まで自動化する科学研究支援フレームワーク MALT:複数のLLMを“生成者・検証者・改良者”のように役割分担させ、段階的に出力を洗練する協調型フレームワーク Agent S:GUI操作を自動化し、複雑な長いタスクを人間同様に実行するオープンフレームワーク Automated Design of Agentic Systems (ADAS):メタエージェント”がコードを書くことでエージェント自体を自動生成・改良する AgentInstruct:シンプルな入力から大規模な合成データを自動生成し、LLMの事後学習に利用させるフレームワーク AgentStore:複数のデジタルエージェントを組み合わせて複雑なコンピュータタスクを自動化するプラットフォーム WALL-E:LLMと学習規則を併用して現実環境を理解・ナビゲートするシステム “Generative Agent Simulations of 1,000 People”:1,052人の実際の行動や態度をLLMエージェントで再現する手法で85%の精度で個人の回答や行動 傾向を模倣 DynaSaur:汎用プログラミング言語でタスク実行手順を動的に作成・再利用するエージェントフレームワーク PRefLexOR:選好最適化や強化学習を取り入れ、モデルが自らの推論を何度も振り返り、深い思考を育む手法 Generative World Explorer (Genex):AIエージェントが3D環境を頭の中でシミュレートし、現実の探索回数を減らしながら理解を深めるフレーム ワーク Bel Esprit:会話型エージェントが複数モデルを組み合わせて高度なタスクをこなすパイプラインを作成するシステム AutoKaggle:テーブルデータを扱うKaggle形式のタスクを効率化するエージェント https://www.turingpost.com/p/15-agents-of-2024
for AI Agents • AIエージェントの社会行動を依存関係やコミットメント理論を通して体系化し、協調と集団行動の基盤を提案 Visibility into AI Agents • 自律エージェントがもたらすリスクに対し、ID付与やリアルタイム監視、ログ記録など透明性を高める手法を提案 Artificial Intelligence and Virtual Worlds –Toward Human-Level AI Agents • 仮想世界を活用して、NPCの高度化や人間レベル知能の実現可能性を探る Intelligent Agents: Theory and Practice • エージェント理論からアーキテクチャ・プログラミング言語まで包括的に整理し、理論と実用面での課題を論じる TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents • LLMエージェントのタスク分割と外部ツール活用能力を評価する枠組み“TPTU”を提案 A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions • 文脈認識を備えるマルチエージェントを対象に、学習・推論モデルから今後の研究課題までを体系化 Agent AI: Surveying the Horizons of Multimodal Interaction • 視覚・音声・テキストなど複数モーダルを扱うエージェントAIの現状と課題を整理し、AGIに向けた方向性を示す Large Language Model-Based Multi-Agents: A Survey of Progress and Challenges • LLMを組み込んだマルチエージェントの応用事例と技術的ハードルを総括し、協調・競合シミュレーションの可能性を検討 The Rise and Potential of Large Language Model-Based Agents: A Survey • LLMを核としたAIエージェントの進化と応用分野を概観し、マルチモーダル化や倫理的課題を含む将来展望を論じる A survey of progress on cooperative multi-agent reinforcement learning in open environment • オープンな動的環境での協調型MARL手法を総括し、エージェント数や環境条件が変化する状況への適応戦略を提案 https://www.analyticsvidhya.com/blog/2024/12/ai-agents-research-papers/
• No explicit CoT required • Use structured formats( XML or markdown ) • Show rather than tell 計画と実行の分離方法も紹介 • o1がオーケストレーター(指揮者)として計画を作成し、4o-mini モデルにその計画を実行させることで知性とコストのトレードオフ を管理した方法を紹介 メタ・プロンプティング手法も紹介 • o1を使ってプロンプトそのものを改善していくアプローチ https://www.deeplearning.ai/short-courses/reasoning-with-o1/
LLMs in Text-Based Virtual Worlds • Simulating Human-like Daily Activities with Desire-driven Autonomy 推論 • MISR: Measuring Instrumental Self-Reasoning in Frontier Models • RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios 学習 • Training Agents with Weakly Supervised Feedback from Large Language Models • MALT: Improving Reasoning with Multi-Agent LLM Training • Personalized Multimodal Large Language Models: A Survey Agent Framework • Practical Considerations for Agentic LLM Systems • Challenges in Human-Agent Communication • Specifications: The missing link to making the development of LLM systems an engineering discipline
Agents • Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System Digital Agent • Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction • AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials • The BrowserGym Ecosystem for Web Agent Research • PAFFA: Premeditated Actions For Fast Agents • Generalist Virtual Agents: A Survey on Autonomous Agents Across Digital Platforms Data Agent • DataLab: A Unified Platform for LLM-Powered Business Intelligence • AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark • Towards Agentic Schema Refinement
Programming through LLM Multi-Agent Collaboration Embodied Agent • Navigation World Models • From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons Multi Agent System • GENMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration • A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios • From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents • LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation Agentic RAG • Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models • A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data
a Multi-Agent System • 放射線科レポートにおける所見から印象を生成するタスクを支援するマルチエージェントシステム 「RadCouncil」を提案 印象とは所見を要約し、臨床医が患者の診断や治療を迅速に判断するための要となる内容 1. Retrieval:類似過去レポートをベクトルDBから検索 2. Radiologist:所見を基に印象を生成 3. Reviewer:印象の一貫性と正確性を検証し、修正を提案 エージェントのワークフロー Agentic AI Systems
AI エージェントを実現 • Pydantic AI • 「Copilot Vision」プレビュー版公開。AIとの二人三脚が実現しそう • OpenAI o1 System Card • Introducing Gemini 2.0: our new AI model for the agentic era • The next chapter of the Gemini era for developers • Google が Project Mariner を発表: ユーザーに代わってWebを使用する AI エージェント • Introducing Google Agentspace: Bringing AI agents and AI-powered search to enterprises • グーグル、AIエージェント搭載「メガネ型デバイス」発表 Gemini 2.0採用 • Devin is generally available today! リポジトリ • awesome-llm-apps
AI Applications • Magentic-One, AutoGen, LangGraph, CrewAI, or OpenAI Swarm: Which Multi-AI Agent Framework is Best? • GenAIOps: Operationalize Generative AI - A Practical Guide • From SaaS to Vertical AI Agents • How to Build a General-Purpose LLM Agent • エージェンティックAI:ビジネスにおける6つの有望なユースケース • How to use AI for Prototyping as a PM • What is AI Engineering? • Outcome-based pricing for AI agents