Large Language Models 自己修正 • CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction • An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation メモリ • Self-evolving Agents with reflective and memory-augmented abilities ツール利用 • Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature • ToolACE: Winning the Points of LLM Function Calling 評価 • A Survey on Evaluation of Multimodal Large Language Models Agent framework • xLAM: A Family of Large Action Models to Empower AI Agent Systems
Research based on Large Language Models Agents • Large Language Model-Based Agents for Software Engineering: A Survey • AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction Multi Agent Systems • Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations • Agentic Retrieval-Augmented Generation for Time Series Analysis • Persuasion Games with Large Language Models • MEDCO: Medical Education Copilots Based on A Multi-Agent Framework • AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems • BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi- Agent Systems • Focus Agent: LLM-Powered Virtual Focus Group
LLM- driven Agents AIとLLMを活用した新しいオンライン教育の形を提案 1動画にN人の生徒で学ぶ教育から、N体のエージェントの中に1人の生徒が学ぶパーソナライズスタイルへ 学習者が孤立感を感じることなく、学習意欲を維持でき、授業内容や進行を動的に調整することもでき、学生の エンゲージメントが向上し、教師の負担軽減になった Agentic AI Systems
Language Model Agent Conversations 複雑な情報探索において、ユーザーがまだ知らない「未知の未知」を発見するための手法Collaborative STORM (Co-STORM)を提案 研究者や市場分析者など、まだ気づいていない視点を見つけたい方が利用する 利用者は複数の専門的なエージェントの会話の中に時折入り、未知の未知を発見する 会話の内容はマインドマップで管理される マインドマップは階層構造を持ち、中心テーマから関連するサブトピックへと情報が整理されている どの情報が既に探索されたか、どの部分がまだ掘り下げられていないかを把握できる 最終的に生成されるレポートは、関連性、幅広さ、深さ、新規性のすべての面で優れていた Multi Agent Systems
Valueに過去のデータから学習された具体的な知識が含まれ、SLMの予測に利用される(RAGの部分) • Key-Valueの例:”祝日の影響”:”毎年の祝日セール期間中には、オンラインショッピングのトラフィックが平均30%増加 する。” 時系列予測、分類、異常検知、欠損補完タスクで評価し、Llama3ベースな提案手法が高い評価結果を示した Multi Agent Systems
仮想学生が医療教育現場での診察をシミュレートし、患者、専門医、放射線技師と対話する • 教育フェーズ:学生が259人の患者と対話し診断結果レポートを作成し、専門医から評価を受けメモリに記録 • 実践フェーズ:患者の初期診断のあと、メモリを参照し、再考と想起を経て、患者に追加質問し最終診断する MEDCOで訓練を受けた学生が、診断能力を向上させるとともに、人間らしい学習行動を示すことが確認 Multi Agent Systems
Multi- Agent Systems MicrosoftからAUTOGEN STUDIOというノーコード開発ツールの提案 複数のエージェントが協力してタスクを実行するMASを構築、デバッグ、評価するために設計 AutoGenがプロ開発向けだったため、もっと開発の敷居を下げるために開発された Multi Agent Systems
Language Models in Multi-Agent Systems LLMの協力と競争能力を評価するためのベンチマークBattleAgentBenchを提案 レベル1:基礎的なエージェント能力 • ステージ1と2では、単一エージェントのゲームルール理解と空間認識能力を評価 • Claude 3.5 SonnetとGPT-4o-miniが高い精度を達成 レベル2:ペアエージェントのインタラクション • ステージ3と4では、2つのエージェントが協力または競争してタスクを遂行する能力を評価 • Claude 3.5 Sonnet以外は指示フォーマットの複雑さが増すにつれて精度低下 レベル3;マルチエージェントダイナミクス • ステージ5から7では、複雑な協力および競争シナリオで、複数のエージェントの動的な協力関係を評価 • Claude 3.5 SonnetとGPT-4o-miniは複雑な環境でも高いスコアを維持し、動的な協力シナリオでも高性能 Multi Agent Systems
AI参加者は、多くの場合で人間の意見と一致する意見を生成したが、一般的な意見に集中しがちで、ユニークな視点 や創造的なアイデアは人間の方が多く提供される傾向がある AIモデレーターは、進行や質問もできるが、質問の繰り返しや人間の意図を十分に理解できないなどの限界があった Multi Agent Systems
Mastering AI Agents: From Basics to Multi-Agent Systems • This Week in AI was WILD: Grok 2, Claude, SearchGPT, AgentQ and AI Scientist You Can’t Afford to Miss • Navigating the New Types of LLM Agents and Architectures