Usefulness of Large Language Models • Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization 知覚 • M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework • Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? 推論 • Imagining and building wise machines: The centrality of AI metacognition ツール利用 • DynaSaur : Large Language Agents Beyond Predefined Actions 安全性 • World Models: The Safety Perspective • Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents 世界モデル • Evaluating World Models with LLM for Decision Making
Agent with Cost-Effective API Usage Agentic AI System • CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments • Enhancing Cluster Resilience: LLM-agent Based Autonomous Intelligent Cluster Diagnosis System and Evaluation Framework • A Taxonomy of AgentOps for Enabling Observability of Foundation Model based Agents API Agent • Autonomous Industrial Control using an Agentic Framework with Large Language Models • Tooling or Not Tooling? The Impact of Tools on Language Agents for Chemistry Problem Solving • WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models Research Agent • The Virtual Lab: AI Agents Design New SARS-CoV-2 Nanobodies with Experimental Validation Software Agent • A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation
GIS Agent for Spatial Analysis • Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows Digital Agent • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents • Foundations and Recent Trends in Multimodal Mobile Agents: A Survey • GUI Agents with Foundation Models: A Comprehensive Survey • Beyond Browsing: API-Based Web Agents Embodied Agent • CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation • Mr.Steve: Instruction-Following Agents in Minecraft with What-Where-When Memory Multi Agent System • Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks Agentic RAG • Boosting the Potential of Large Language Models with an Intelligent Information Assistant
Professional CRM Tasks in Realistic Environments SalesforceのCRMスキーマを基盤に作られた実世界のタスク評価ベンチマーク • サービスマネージャータスク:新規ケースのルーティング、有能なエージェントの特定、転送回数の理解 • サービスエージェントタスク:注文概要から製品や注文を特定、ポリシー違反の特定、ナレッジ質問応答 • サービスアナリストタスク:月次トレンド分析、最適な地域の特定、よくある問題の特定 GPT-4oは、ReActで平均38.2%、関数呼び出しで平均54.4%の成功率 現在のLLMエージェントが現実のCRM業務に対応するには不十分 どのタスクもエージェントでやらなくてもできそう Agentic AI Systems
System and Evaluation Framework LLMエージェントは障害を特定し、必要な修復ツールを実行し、結果から次のアクションを決定する ナレッジには250件の障害ログを問題、回答文、機能、結果の4フィールドで構造化し保存 ユースケース:GPUのクロック周波数低下により性能が1/3に低下するケース • 手動なら1時間、エージェントなら10分以内に特定し自動修復 Agentic AI Systems
Model based Agents AgentOps: 開発、評価、運用、監視を含むDevOps/MLOpsに似 たプラットフォーム • エージェントは多様なタスクに対応可能だが、意思決定の計画 や挙動の複雑性が課題 • EUのAI法規制に対応するための観測性と追跡性の確保が必要 必要な機能(右図)ごとにドメインモデルもどきを紹介 Agentic AI Systems エージェント登録の例
of Large Language Models Agentic Process Automation • 人間の指示に基づいて自律的にワークフローを生成・管理するプロセス自動化 • RPAは定型的なプロセスを自動化するが、ワークフローの設計には人間の手作業が必要で管理も大変 WorkflowLLM • 83アプリ、1,503 API、106,763サンプルを含むデータセット「WorkflowBench」を構築 • Llama-3.1-8BをWorkflowBenchで微調整し、ワークフローを生成する • 未知のAPIでも高い性能、アクション数、分岐・ループ、ネストの深さが増加しても高い性能を維持 API Agents
エージェントはクリックや入力などの人間のような操作をシミュレートしてユーザー指示を自動的に実行する GUIエージェントの基本構造は、GUIの認識、メモリ取得、タスクの計画、意思決定、実行になる 多くの企業がMLLMを活用して、スマホやPCの操作を自動化するシステムを開発中 Digital Agents
Microsoft Researchから汎用的なマルチエージェントシステムMagentic-Oneを提案 • オーケストレーターが計画を立案、タスクを他の専門エージェントに割り振り、進捗を追跡 GAIA、AssistantBench、WebArenaの3つのベンチマークで競争力のある成果を達成 Multi Agent Systems
RAGENTIC: RAG-Enhanced Multi-Agent Architecture • 14 Perplexity AI Use Cases: The Search Engine You Didn’t Know Could Do So Much • State of AI Agents • RIP to RPA: The Rise of Intelligent Automation • Treating AI Agents as personas • Agentic Mesh: The Future of Generative AI-Enabled Autonomous Agent Ecosystems • What Makes a True AI Agent? Rethinking the Pursuit of Autonomy • Make Every Application An AI Agent オープンソース • RD-Agent@Minecraft • OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent@Microsoft • TinyTroupe@Microsoft 授業 • LLMs as Operating Systems: Agent Memory • LangGraph Agents with Amazon Bedrock • Multimodal AI Agents with Ruslan Salakhutdinov • EMNLPチュートリアル Language Agents: Foundations, Prospects, and Risks
Know Could Do So Much Perplexity AIは検索エンジンとチャットボットの融合型ツールで、複数のソースから信頼性のある情報を提供する 1. 質問応答エンジン:あらゆる質問に包括的かつ引用付きで答える # What is [topic or question]? 2. リアルタイム情報の追跡:天候や選挙などの最新イベントを追跡可能 # Can you provide real-time updates on [event]? 3. 価格比較:商品の最安値をリアルタイムで比較 # Where can I find the best price for [product]? 4. 不動産市場調査:物件情報や市場動向を迅速に調査 # What are the property market trends in [location]? 5. SEO最適化:キーワード生成やコンテンツ最適化に対応 # Generate a list of keywords for optimizing content about [topic]. 6. 学習支援:スキルや科目の学習を個別にサポート # Can you explain [subject] in detail? 7. カスタマイズ可能な出力:回答内容を「Collections」機能でカスタマイズ 8. 記事やウェブページの要約:長文コンテンツの要点を抽出# Summarize the key points of [article or webpage]. 9. 株式市場と財務リサーチ:株価分析や企業比較を提供 # What is the current stock price and performance of [company]? 10. Googleアラートの代替:業界ニュースや競合の活動を自動通知 11. 創作支援:ブログや脚本、歌詞などの草案を生成 # Generate ideas for [type of content] on [topic]. 12. 法務・専門リサーチ:判例や専門ガイドラインを迅速に検索 # Find relevant legal cases on [topic or law]. 13. マルチモーダル対応:画像や文書を解析 # Analyze this [uploaded document or image] and provide insights. 14. コード生成:Pythonスクリプトなど簡単なコードを生成 # Generate a [programming language] script to [task]. https://learnprompting.org/blog/perplexity_use_cases
and Decentralized Collaboration • AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios 計画 • ACPBench: Reasoning about Action, Change, and Planning 自己修正 • Reflection-Bench: probing AI intelligence with reflection メモリ • Long Term Memory : The Foundation of AI Self-Evolution • Adaptive Video Understanding Agent: Enhancing efficiency with dynamic frame sampling and feedback-driven reasoning 安全性 • Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In
Agent Development and Optimization • PRACT: Optimizing Principled Reasoning and Acting of LLM Agent • Asynchronous Tool Usage for Real-Time Agents Agentic AI System • Agents4PLC: Automating Closed-loop PLC Code Generation and Verification in Industrial Control Systems using LLM- based Agents • SceneGenAgent: Precise Industrial Scene Generation with Coding Agent • ControlAgent: Automating Control System Design via Novel Integration of LLM Agents and Domain Expertise • BENCHAGENTS: Automated Benchmark Creation with Agent Interaction Research Agent • AAAR-1.0: Assessing AI's Potential to Assist Research Software Agent • Lingma SWE-GPT : An Open Development-Process-Centric Language Model for Automated Software Improvement
Autonomous Data Science Competitions • An LLM Agent for Automatic Geospatial Data Analysis • SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning Digital Agent • SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation • OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning • OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization Multi Agent System • PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks • MARCO: Multi-Agent Real-time Chat Orchestration • Multi-Agent Large Language Models for Conversational Task-Solving • Project Sid: Many-agent simulations toward AI civilization • DARD: A Multi-Agent Approach for Task-Oriented Dialog Systems
Control Systems using LLM-based Agents 自然言語による指示から産業用制御システムのPLCコード生成による制御自動化に向けたマルチエージェント Agents4PLCを提案 • コードの品質を高める役割のエージェントを特に重視 • Debugging Agent:コードのコンパイルエラーを検出し、修正のためのアドバイスを提供 • Validation Agent:構文的に正しいだけでなく、機能的にも正しいことを確認 応用例:エネルギー管理システム、製造業の生産ライン、輸送システム、プラント管理、HVAC(暖房・換気・空 調)システム、下水処理システム Agentic AI Systems
Agents and Domain Expertise LLMと制御理論の専門知識を組み合わせた新しい制御シス テム設計フレームワークControlAgent を提案 10の制御タスクの500課題で、設計の安定性、セトリング タイム、位相余裕などの基準で評価 ControlAgentの現在は、LTIシステムに特化 Agentic AI Systems
• GUIグラウンディングとして、Set-of-Mark (SoM)を用いてスクショの該当箇所に赤枠をつけてGUI要素を特定する • タスク駆動型の再計画から失敗した特定のタスク部分のみを再計画し、再実行する • ユーザーの指示をPythonコードに変換し、OS操作を直接的に実行する 例)keyboard.write("This is a draft.") タスク成功率はGAIA:28.7% 、OSWorld:24.5% 、AndroidWorld:61.6% OSCAR Digital Agents
適切なエージェントの選択:適切なエージェント(RAGまたはMARS)を選択し 3. タスクの実行:MARSがエージェントやツールを呼び出し、タスクを実行 4. ガードレールによる監視: LLMが生成する出力の間違いや不適切な形式を修正 モデルによって精度は変わり、ガードレールを入れると効果あり Multi Agent Systems
複数のドメインに対応する個別のエージェントを中央の対話管理エージェントによって制御 • ドメインエージェントを追加・削除しやすいため、新しいドメインに適応する際の変更が用意 • ドメインエージェントの実態は、汎用利用でClaude Sonnet 3.0、タスク特化学習でFlan-T5-Large、Mistral-7Bを利用 Multi Agent Systems