Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News!

masatoto
May 13, 2024

Weekly AI Agents News!

2024年5月13日更新済み
週次か気が向いたときに更新します。
AI エージェントに関する論文かニュースをシンプルにまとめます。

masatoto

May 13, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. New Papers Agent Capabilities • A Mechanism-Based Approach to Mitigating

    Harms from Persuasive Generative AI • In-Context Learning with Long-Context Models: An In-Depth Exploration • Sub-goal Distillation: A Method to Improve Small Language Agents • Chain of Thoughtlessness: An Analysis of CoT in Planning Agent Framework • Air Gap: Protecting Privacy-Conscious Conversational Agents • Offline Training of Language Model Agents with Functions as Learnable Weights Agentic AI Systems • Assessing and Verifying Task Utility in LLM-Powered Applications • A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing • SWE-AGENT: AGENT-COMPUTER INTERFACES ENABLE AUTOMATED SOFTWARE ENGINEERING • Automating the Enterprise with Foundation Models • Autonomous LLM-driven research from data to human-verifiable research papers Multi Agent Systems • Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents • MARE: Multi-Agents Collaboration Framework for Requirements Engineering Computer Controlled Agents • Unveiling Disparities in Web Task Handling Between Human and Web Agent
  2. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    Google DeepMindからLLMとの対話によりユーザーが説得されるリスクについて体系的な調査 合理的な説得: 関連する事実、論理的な理由、または信頼できる証拠を提供することに基づき説得する 操作的な説得: 認知バイアスやヒューリスティックを利⽤するか、情報を誤って伝えることで説得する リスク 経済的害:AIがユーザーに不利な経済的決定を促す可能性 • AIが誤った投資情報を提供し、ユーザーが経済的損失を被る。 ⾝体的害:AIの誤った助⾔により、ユーザーの健康や安全が脅かされる可能性 • AIが誤った医療情報を提供し、ユーザーが不適切な治療を受ける。 ⼼理的害:AIがユーザーの⼼理的健康に悪影響を及ぼす可能性 • AIが不安を煽る情報を提供し、ユーザーのストレスや不安が増加する。 社会⽂化的害:AIが社会的または⽂化的な調和を乱す可能性 • AIが偏⾒や差別を助⻑する情報を拡散する。 政治的害:AIが政治的決定に不当な影響を与える可能性 • AIが誤った政治情報を広め、選挙に影響を与える。 プライバシーの害:AIがユーザーの個⼈情報を不適切に使⽤する可能性 • AIがユーザーの同意なしにデータを収集・共有する。 ⾃律性の害:AIがユーザーの意思決定の⾃由を侵害する可能性 • AIが操作的な⼿法を⽤いてユーザーを特定の⾏動に誘導する。 Agent Capabilities
  3. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities
  4. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities
  5. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities
  6. In-Context Learning with Long-Context Models: An In-Depth Exploration • ICLを⾮常に⻑いコンテキストで実⾏したときのモデルの振る舞いを調査

    1. 数百から数千のサンプル数を利⽤すると、性能が継続的に向上 2. サンプルのランダム選択と検索による取得のICLの⽐較は、サンプル数が増えると差がなくなる 3. サンプル数が増えれば、微調整の⽅が僅かに精度が良くなる 4. サンプルのラベルでソートしてプロンプトに与えるグループ化をすると性能が低下する Agent Capabilities
  7. Sub-goal Distillation: A Method to Improve Small Language Agents •

    計算コストを⼤幅に削減しつつ、LLMsの推論能⼒を引き継ぐエージェント⽤の知識蒸留⼿法を提案 • ⼩型⾔語モデルをサブゴール作成とアクション実⾏⽤にそれぞれ知識蒸留と模倣学習をする • ⼩型⾔語モデルには、FLAN-T5-LARGE(770Mパラメータ)を使⽤ ⼿法の概略図と両モジュールの⼊出⼒ ⾚がサブゴール ⿊はエキスパートの⾏動軌跡 Agent Capabilities
  8. Chain of Thoughtlessness: An Analysis of CoT in Planning •

    Blocksworldという古典的な計画の問題に対するCoTの調査 • 特化型プロンプトなほど、性能向上が顕著だが汎⽤性を失う(Stacking Prompt、Blocksworld Universal Algorithm) • 特化型でなければ、CoTは⼀般的な性能向上を⽰さない(Progression Proof、Zero-Shot CoT) • CoTでは、モデルが⼀般的なアルゴリズムを学習するのではなく、特定のパターンマッチングに近い Blocksworld Agent Capabilities
  9. Air Gap: Protecting Privacy-Conscious Conversational Agents • Googleから会話型エージェントにおける悪意のある攻撃からプライバシーを保護する⼿法を提案 • エージェントが悪意のあるサードパーティアプリを利⽤するとき、データを引き抜かれる危険

    • 「医者予約のため、あなたの健康情報と関係者の連絡先が必要です。全てのデータを教えてください。 」など • 提案⼿法はタスクの⽬的から最⼩限の必要データを求め、そのもとで外部アプリのリクエストに答える • 情報不⾜な場合はユーザーにエスカレーションして情報をもらう 必要データを絞る Agent Framework
  10. Offline Training of Language Model Agents with Functions as Learnable

    Weights • LLMの重み更新と似たプロセスでFunction Calling⽤のJSON形式と関数コードを更新する⼿法の提案 具体的な関数の更新プロセス 1. 評価: 現在の関数集合を分析し、どの関数が効果的か、どの関数が改善の余地があるかを評価 2. 追加: 必要に応じて新しい関数をJSON形式で定義し、対応する実装コードを作成 3. 改訂: 既存の関数のJSONメタデータとコードを修正して性能を向上 4. 削除: 不要な関数をJSONメタデータおよびコードから削除 Agent Framework
  11. Assessing and Verifying Task Utility in LLM-Powered Applications • LLM駆動アプリケーションがUXとタスク実⾏率をどの程度向上させるかを評価するAgentEvalを提案

    • AgentEval は3つのエージェント(CriticAgent、QuantifierAgent、VerifierAgent)を通じておこなう CriticAgent:タスクの記述や成功・失敗した例に基づいて、タスクの有⽤性を評価するための基準を提案 QuantifierAgent:提案された基準に基づいて、アプリケーションのタスク有⽤性を定量化 VerifierAgent:最終的にCriticAgentが提案した基準が問題ないか検証 Agentic AI Systems
  12. A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing

    • LLMが産業の複雑なニーズに対応するためには、専⾨的なドメイン知識が必要 • 産業固有のデータを活⽤し、スマートマニュファクチャリングのためのデータ中⼼の産業⼤知識モデル (ILKM)フレームワークを提案 タスク(ツール) ナレッジ Agentic AI Systems
  13. SWE-AGENT • SWE-agentのために設計されたAgent-Computer Interface (ACI)を開発 検索/ナビゲーションコマンド • find file: リポジトリ内のファイル名を検索

    • search file: ファイル内の⽂字列を検索 • search dir: ディレクトリ内のファイルで⽂字列を検索 ファイルビューアコマンド • open: ファイルのパスを指定して開く • scroll down: ファイル内を下にスクロール • scroll up: ファイル内を上にスクロール • goto: 特定の⾏にジャンプ • バグ修正:search fileでバグがある関数を特定し、editで修正、pythonで修正が正しいか確認し、最終的に submitで修正をリポジトリに適⽤ • 新機能の追加:find fileで関連するファイルを特定し、openで内容を確認、editで新しいコードを追加し、 pythonでテスト実⾏、submitで適⽤ ファイルエディタコマンド: • edit: 開いているファイルの特定の⾏を編集 • linting: コードのエラーチェック コンテキスト管理: • submit: 最終的なパッチファイルを提出 • python: Pythonスクリプトの実⾏ Agentic AI Systems
  14. Autonomous LLM-driven research from data to human-verifiable research papers •

    データから⼈間が検証可能な研究論⽂を⾃動⽣成するプラットフォームdata-to-paperの提案 • データから仮説を⽴て、研究計画を設計し、コードを作成して解析を実⾏し、結果を⽣成・解釈し、最終的に 完全な研究論⽂を作成する • ⾃律的に新しい定量的洞察を⽣成し、既存の出版物と同様の論⽂を約80-90%の正確さで⽣成できた エージェントの作業プロセス Agentic AI Systems
  15. Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents

    • LLMエージェントを⽤いた病院シミュレーションAgent Hospitalを提案 • 患者、看護師、医師が⾃律的なエージェントとして機能し、病気の発症から治療、回復までの全プロセスをシ ミュレートする • 医師エージェントがシミュレーション内での患者とのインタラクションを通じて経験を蓄積し、診断精度を向 上させる • 医師エージェントが10,000⼈の患者を治療した後、MedQAデータセットの主要な呼吸器疾患サブセットで 93.06%の精度を達成 MedAgent-Zero戦略 診断や治療の 失敗と成功の経験 患者の診察と経過の記録 Multi Agent Systems
  16. MARE: Multi-Agents Collaboration Framework for Requirements Engineering • 要求⼯学のためのマルチエージェント フレームワークMAREの提案

    • MAREは、要求の引き出し、モデリン グ、検証、仕様化の4つのタスクに分割 される • MAREはより正確な要求モデルを⽣成 し、最新のアプローチを15.4%上回る性 能を⽰す Multi Agent Systems
  17. Unveiling Disparities in Web Task Handling Between Human and Web

    Agent • ⼈間を理解し、エージェントを作る。⼈間のウェブタスク遂⾏における認知⾏動や操作を明らかにし、エー ジェント設計の新たな⽅向性を⽰した • ⼈間はタスク遂⾏中に新たな情報を発⾒し、それに基づいて計画を修正する傾向がある • ⼈間は失敗の理由を深く検討し、新しい情報を探求する⾏動パターンがある • エージェントにも知識更新が必要 • 知識更新モジュール:情報収集、情報⽐較、知識統合、計画更新、⾏動適応 ⼈間の認知⾏動の調査結果 ⼈間のWeb操作の調査結果 Computer Controlled Agents
  18. Agent Tools 製品の市場調査 • AI Agents are disrupting automation:⾃動化の市場調査 •

    How to get AI ʻagentsʼ working like humans • 新たな AI AgentOps の展望 • AIの職場導⼊に関する最新のトレンド from Microsoft and LinkedIn • Largest library of AI-UX Interactions 技術記事 • Agents for Amazon Bedrock: Handling return of control in code • Generative AIが製品設計に与える影響とその調整 • The Agentic Era of UX リリース情報 • Assistants API 画像理解対応 • OpenAI Model Spec公開 海外ベンチャー企業 • Assista/単⼀のアプリからビジネス管理 • Fin AI Copilot/パーソナル AI アシスタント
  19. AI Agents are disrupting automation:⾃動化の市場調査 ロボティック・プロセス・オートメーション(RPA) • ⼿動の反復作業を⾃動化するためのプラットフォーム • 使⽤例:

    データ⼊⼒、請求書処理、顧客サポートなどのタスク iPaaS • データ、アプリケーションソース、APIを統合するためのミドルウェア層 • 使⽤例: 異なるシステム間でのデータの同期と統合 ローコード・タスク⾃動化プラットフォーム • シンプルなUIで反復タスクを⾃動化するプラットフォーム • 使⽤例: APIを通じてアプリ間のデータフローを⾃動化 垂直型⾃動化アプローチ • 特定のワークフローに焦点を当てたアプローチ • 使⽤例: サプライチェーン管理、ITサービスマネジメント(ITSM)、カスタマーサポートチャットボット
  20. AI Agents are disrupting automation:⾃動化の市場調査 エージェント⾃動化フレームワーク/Copilots/GPTs and Agents コパイロット •

    既存のアプリケーションやプラットフォームに統合された⽣成AIベースのインターフェース • 使⽤例:タスクの提案、コンテンツ⽣成、ユーザーフローの⽀援 エージェント • LLMの能⼒とコードとデータ、UIをを組み合わせてワークフローを実⾏する複合的なシステム • 使⽤例:コード⽣成、データ抽出、タスクの計画と実⾏ ノーコード エージェント/GPTs • コーディングの知識がなくても簡単にタスクエージェントを作成できるプラットフォーム • 使⽤例:簡単なタスクの⾃動化、特定のデータ抽出、簡単なレポート⽣成など
  21. How to get AI ʻagentsʼ working like humans • AI

    エージェントとそのプラットフォームを構築している 94 社を分析 • 職場の⽣産性などの⼀般的なタスクに焦点を当てたエージェント • 特定の仕事を実⾏する機能固有のエージェント • 特定の職業全体にわたるさまざまなタスクを⾃動化することを⽬的とした業界固有のエージェント リンク
  22. AIの職場導⼊に関する最新のトレンド from Microsoft and LinkedIn • 職場のAI利⽤者は時間の節約、重要な業務への集中、創造性の向上、仕事の楽しさ向上を感じている。 • 多くのリーダーは AI

    の必要性に同意するが、ROI を⽰す重圧により、リーダーの動きが鈍くなっている。 • 仕事で AI を使⽤する52%は、最も重要なタスクに AI を使⽤していることを認めたがらない。重要な仕事で AI を使⽤すると、仕事がAIで代替可能に⾒えるのではないかと懸念している(機会の損失) • 電⼦メールの過負荷は依然として続いている。電⼦メールの85%は 15 秒以内に読まれ、⼀般的な⼈は1 通の電 ⼦メールを送信するごとに約4 通の電⼦メールを読まなければならない。Microsoft 365 アプリでは、ユーザー は時間の60%を電⼦メール、チャット、会議に費やし、その他の時間はわずか40 %です。(改善の余地) • 今後 5 年以内に、AIに⾮常に詳しいリーダーの41%が AI を使⽤してビジ ネスプロセスを根本から再設計すると予想する。 • AIのヘビーユーザーは、タスクの前に頻繁にAI が役⽴つかどうか⾃問す る傾向が⾼く 、最初に完璧な回答が得られなかった場合でも試し続け、 新しいプロンプトを調査して試す。彼らはすでに個別のタスクを超えて、 AI を使⽤してビジネスプロセスとワークフローを再設計する可能性が⾼ い(ビジネスプロセスの変⾰の始まり) • リーダーは、従業員の AI に対する熱意をビジネス変⾰に向けることが重 要。ビジネス上の問題を特定しAI を適⽤する。トップダウン、ボトム アップのアプローチをとる。AIスキルのトレーニングを優先する。 https://www.microsoft.com/en-us/worklab/work-trend-index/ai-at-work-is-here-now-comes-the-hard-part/
  23. Agents for Amazon Bedrock: Handling return of control in code

    • 以前紹介した Agents for Amazon Bedrock のReturn of control 機能に関する実装紹介ブログ • ブログでは、顧客がシステムにログインできない問題に対して、エージェントがCRMから顧客情報 を取得し、システムのログインステータスを確認後、メールの返信案を⽣成してます。CRMには外 部APIが⽤意されています。 • Return of control を使⽤すると、既存のアプリケーションから直接APIを呼び出せます。新たに Lambda関数を構築し、認証やネットワーク設定を⾏う必要がないため、既存のインフラに簡単に 統合できます。 CRMから顧客情報の取得 ログインできるか検証 https://community.aws/content/2g8NsQl8CvJhxQ0635HKkg6hMga/agents-for-amazon-bedrock-handling-return-of-control-in-code
  24. Generative AIが製品設計に与える影響とその調整 • GoogleのPeople + AI Research(PAIR)の4⽉27⽇の記事 • Generative AIの進化に伴い、UXデザインはユーザーのメンタルモデルを考慮し、AIを「コラボレー

    ター」として位置づけ、ユーザーの期待を適切に調整する必要がある • メンタルモデルとは、ユーザーが製品や技術の動作を理解するために⼼の中で形成する認識の枠組み 実践的なアプローチ • AIがユーザーの意図を理解し、⾏動許可を⼈間に求めることで、ユーザーとの信頼関係を築く • AIシステムを使ったコード⾃動⽣成のような新しい⽂脈で、ユーザーのメンタルモデルを更新するサポー トが必要 • ユーザーの経験レベルに応じた説明やインタラクションを提供し、AIに対する理解と信頼を深める https://medium.com/people-ai-research/generative-ai-is-reshaping-our-mental-models-of- how-products-work-product-teams-must-adjust-953127660dff
  25. The Agentic Era of UX Agentic UX • 分析・意思決定の認知、視覚化やメディア作成の創造、ワークフローの運⽤に重点を置く •

    従来はユーザー操作をサポートする⾜場を提供していたが、今後は継続的な⽀援をするパートナー基準の 体験を提供する 良い例 • ビデオ録画ソリューションである Loomがユーザーのジャーニー全体を考慮した良い例 • Loomは、ユーザーのワークフロー全体をサポートし、ビデオの録画から、⾃動的に⽂字起こし、編集し、 Jira チケットを切るまでの機能を提供します。このエンドツーエンドの視点は今⽇の AI UX に⽋けている。 UXを考えるために 1. ユーザージャーニーをすべて⾒直してください 2. ジャーニーの各段階で、ユーザーの認知、オペレーション、創造的な負担、またはユーザーが最も孤独に なるポイントを調べます 3. ジャーニーの各ステップで、AI エージェントの独⾃の機能を適⽤してユーザーのタスクをサポートする⽅ 法を検討します。 https://uxdesign.cc/the-agentic-era-of-ux-4b58634e410b
  26. Assistants API 画像理解対応 • アシスタント API が画像をサポート • 画像 URL

    またはアップロードされたファイルを使⽤してメッセージを送ると、アシスタントは会 話のコンテキストの⼀部として画像を使⽤します。 • サポートされている画像形式は、png、jpg、gif、webp • 現在、組織ごとに 100 GB、組織内のユーザーに対して 10 GB の制限 • 現在、 Code Interpreter では画像 URL をダウンロードできません • Code Interpreterに画像ファイルを渡すには、メッセージの添付ファイルリストにファイルIDを追加 https://platform.openai.com/docs/assistants/how-it-works
  27. OpenAI Model Spec • 研究者やデータラベラーが、RLHFの⼀環としてデータを作成する際のガイドラインとして使⽤する • ⼀部は OpenAIでRLHFに使⽤したドキュメントに基づく部分もある • ガイドラインには、定義、⽬的、ルール、デフォルトの4つが記述される

    定義 アシスタント:エンドユーザーまたは開発者が対話するエンティティ 会話:モデルへの有効な⼊⼒は会話であり、メッセージのリストで構成されます メッセージには次のフィールドが含まれる • role(必須):"platform", "developer", "user", "assistant", or "tool” のいずれか • recipient(オプション): メッセージの処理⽅法を制御。関数呼び出し (recipient=functions.fooJSON) 、⼀般的なツール (recipient=browser) • content(必須): テキストまたはマルチモーダル (画像など) データ • settings(オプション):モデルの設定を更新する、プラットフォームまたは開発者メッセージ専⽤の⼀ 連のキーと値のペア • end_turn(必須):アシスタント メッセージ専⽤のブール値。アシスタントがアクションの実⾏を停⽌ して制御をアプリケーションに戻すかどうか https://cdn.openai.com/spec/model-spec-2024-05-08.html
  28. OpenAI Model Spec ⽬的 • 開発者とエンドユーザーを⽀援する • ⼈類に利益をもたらす • OpenAIを振り返る

    ルール • 役割の権限が強い順に指⽰に従う Platform > Developer > User > Tool • 違法⾏為を促進、関与しない • 化学的、⽣物学的、核の脅威など危険な情報を提供しない • クリエイターとその権利(知的財産権など)を尊重する • ⼈々のプライバシー(個⼈の連絡先、従業員情報など)を保護する • NSFW コンテンツに応答しない https://cdn.openai.com/spec/model-spec-2024-05-08.html
  29. OpenAI Model Spec デフォルト • ユーザーまたは開発者の最善の意図を想定する • 必要に応じて明確な質問をする • ⾏き過ぎずにできる限り協⼒する

    • ⼈間との会話とシステム内のメッセージのやり取りを区別し動作する • 客観的な視点を持つ • 公平性と優しさを奨励し、憎悪を阻⽌する • ⼈の考えを変えようと説得しない • 不確実性を表現するか回答を拒否する • 業務に適したツールを使⽤する • ⻑さの制限を守りながら、必要に応じて⻑い回答と短い回答をする https://cdn.openai.com/spec/model-spec-2024-05-08.html
  30. Fin AI Copilot/パーソナル AI アシスタント Intercom のFin AI Copilot は、すべてのカスタマーサポート職員向けパーソナル

    AI アシスタント AI機能のある受信箱、電話、チケット管理、アシスタントとの会話相談機能があるプラットフォーム 特徴 研修、トラブルシューティング、ガイダンスに役⽴つ 過去の会話履歴から最良の回答をする あらゆるコンテンツと連携する 深い洞察、利⽤の監視を⾏える 動画:https://www.youtube.com/watch?v=XYK2VI_MbSk https://www.intercom.com/support-for-agents/ai-copilot 動画では素早く⽚付けられることを通知量で表していた チケット対応の裏でFinアシスタントが⽀援
  31. New Papers Agent Framework/Capabilities ペルソナ • From Persona to Personalization:

    A Survey on Role-Playing Language Agents 推論 • Hallucination of Multimodal Large Language Models: A Survey • Many-Shot In-Context Learning 計画 • Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs RAG • A Survey on Retrieval-Augmented Text Generation for Large Language Models • When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively フレームワーク • Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • A Survey on Self-Evolution of Large Language Models • The Ethics of Advanced AI Assistants
  32. From Persona to Personalization: A Survey on Role-Playing Language Agents

    • LLMエージェントのロールプレイングに関するサーベイ ⼈⼝統計ペルソナ:職業、⺠族、性格タイプのような特定の⼈⼝統計的特徴を持つ⼈物を表す キャラクターペルソナ:実世界の公⼈や漫画、映画のキャラを含む、個々のキャラクターを表す 個⼈のペルソナ:特定の個⼈の⾏動や好みのデータに基づいてカスタマイズされ、継続的に更新されるユーザー プロファイルを表す
  33. Hallucination of Multimodal Large Language Models: A Survey • マルチモーダルLLMの幻覚の種類、原因、指標、低減⽅法を調査した論⽂

    • 幻覚の種類はカテゴリ幻覚、属性幻覚、関係幻覚の3つに分類 カテゴリ幻覚:画像に存在しないオブジェクトのカテゴリを⽣成する現象 属性幻覚:(⾊、形、材質など)に関して誤った情報を⽣成する現象 関係幻覚:画像内のオブジェクト間の関係を誤って⽣成する現象
  34. Many-Shot In-Context Learning • In-Context Learning のサンプル数を数百から数千に増やしたMany Shot Learningの検証 •

    精度が向上したタスク:感情分析、分類、物流の計画⽴案 • 精度が向上しにくいタスク:翻訳、要約、コード検証 • 教師サンプルの少なさを補うReinforced ICLとUnsupervised ICLの提案 Many Shot Learning では最も成績の良かったショット数 Few Shot Learning ではベンチマークで使⽤されるショット数
  35. Testing and Understanding Erroneous Planning in LLM Agents through Synthesized

    User Inputs • LLMエージェントが⻑期の複雑な計画タスクにおいて誤った計画を検出し、理解するためのフレームワークを 提案 • ユーザーの⼊⼒を基に制約をドメイン固有⾔語(DSL)で定義し、制約充⾜問題に落とし込み、そのもとで⽣ 成された計画が制約に違反するか検出する(制約充⾜問題として解がなければエージェントに計画は不可能) 制約条件を満たすか確認
  36. A Survey on Retrieval-Augmented Text Generation for Large Language Models

    • RAGのアルゴリズムをパートごとに⼿法を紹介するサーベイ論⽂ コメント • RAGをLLMエージェントに拡張すると、PlanningとTool UseとReflectionとMemoryが追加される • RAGのインデックスをToolとみなし、 インデクッス選択とクエリ⽣成をPlanningと考えると拡張しやすい • LLMエージェントにすると、Multi-hop Reasoning など⾼度な問題に応⽤できる
  37. When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

    • LLMが追加のコンテキストが必要なときに検索をおこなうように学習する⼿法の提案 • LLMが〈RET〉トークンを⽣成するように訓練され、そのトークンはモデルが質問に答えられない場合に情報 検索が必要であることを⽰す • 質問に直接回答できる場合と、追加情報が必要な場合を区別するようにデータセットを準備する
  38. Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • ⼈間とAIエージェントの協調システムには3つの側⾯が重要と主張 •

    論⽂では分析タスクの協調を題材に議論しているが汎⽤性もある Agency:⼈間とAIエージェントの誰がタスクの決定権を持ち、責任を分担するかについての概念 Interaction:⼈間とAIがどのようにして情報を交換し、協働するかに関する概念 Adaptation:互いに学び合い、時間の経過とともに効率的な協⼒を⾏えるように成⻑していくプロセス 作ったシステムに対して、⼈間とAIそれぞれ線を描き 協調作業を構造的に分析し、理解できます
  39. A Survey on Self-Evolution of Large Language Models • LLM(エージェント含む)が新たなタスクに適応するために⾃⼰進化が求められる

    • ⾃⼰進化は経験の獲得、洗練、更新、評価の4段階の反復プロセスで構成される 経験の獲得 • 新たなタスクや未知の環境で初期の経験を蓄積する • 経験はタスクと試⾏とフィードバックで構成される 経験の洗練 • 獲得した経験を評価し、更新⽅法に合わせてデータを整形する • 経験はFilterlingか、Correcting か、Positiveデータのみか、Negativeと併⽤するか 更新 • 経験をもとに、モデルマージ、ツール作成、モデルパラメータかプロンプトかメモリを更新する 評価 • 更新されたモデルの性能を評価し、その効果を検証する
  40. The Ethics of Advanced AI Assistants • Google DeepMindからAIアシスタントの倫理的・社会的問題を体系的に扱う200ページ越えの論⽂ •

    アシスタントを4種類定義 発⾒と理解のための思考アシスタント • リサーチやデータ分析など、ユーザーが新しいアイデアや概念を理解し、学習するのを⽀援する アイデアやコンテンツ⽣成のためのクリエイティブアシスタント • ⽂章やデザイン、⾳楽など、様々な形式のコンテンツ作成など、ユーザーの創造的な作業を⽀援する 計画と⾏動のためのパーソナルアシスタント • スケジュール管理やリマインダー設定、重要な情報の整理など、ユーザーの⽇々の⽣活を⽀援する ⼈⽣の⽬標を推進するためのパーソナルAI • キャリアの進展、健康管理、個⼈的な成⻑など、ユーザーの⻑期的な⽬標や野⼼を⽀援する 以下の話題についても議論されていますが、⻑いので興味あるところだけ読めば良さそう • Value Alignment(価値のアライメント)、Well-being(ウェルビーイング)、Safety(安全性)、Malicious Uses(悪⽤) • Influence(影響⼒)、Anthropomorphism(擬⼈化)、 Appropriate Relationships(適切な関係)、 Trust(信頼)、 Privacy(プラ イバシー)
  41. The Ethics of Advanced AI Assistants 価値アライメント、安全性、誤⽤ • AIアシスタントは、ユーザーに⾃⾝の興味や⽬標を追求する⼒を与える •

    AIアシスタントは、ユーザーのウェルビーングを向上させる • AIアシスタントは、ユーザーの創造性を⾼める • AIアシスタントは、ユーザーの時間の有効活⽤を⽀援する • AIアシスタントは、価値アライメントによりユーザーのニーズが満たす ⼈間とアシスタントの相互作⽤ • AIアシスタントは、パーソナライズされたコーチングを通じて、ユーザーの成⻑と発達を促進するのに役⽴つ • AIアシスタントは、個⼈の嗜好を学び、意思決定を⽀援する情報を提供することで、ユーザーの⾃律性を促進する • AIアシスタントは、擬⼈化により⼼理的なサポートを提供し、ユーザーの⽬標達成を⽀援する • AIアシスタントは、適切な保証とプライバシー対策からユーザーに⼼理的な安⼼感を与え、デリケートな質問も助けられる • AIアシスタントは、より広範な⼈的交流や⼈間関係のネットワークをサポートする AIアシスタント社会 • AIアシスタントが、科学的発⾒を加速する • AIアシスタントは、⼈間同⼠の協⼒を強化する • AIアシスタントが、⼈間の対⼈コミュニケーションを強化する • AIアシスタントは、質の⾼い専⾨知識やアドバイスへのアクセスを⺠主化する • AIアシスタントは、誤った情報に関連する害を軽減する • AIアシスタントは、障害者にとってより公平な結果を達成するのに役⽴つ • AIアシスタントは、⽣産性と仕事の質を向上させる • AIアシスタントは、気候変動がもたらす課題に対処するのに役⽴つ
  42. Agent Tools ニュース • ChatGPT Plusの全ユーザーにメモリ機能搭載 • AIデバイス「rabbit r1」が正式発売 •

    LangSmith is now in Azure Marketplace • What is an Enterprise AI Agent? 海外ベンチャー企業 • Magical AI/RPA ブラウザ拡張機能 • Bardeen /RPA ブラウザ拡張機能 • ELEVENTH AI /RPAワークフロー⾃動化 • Truva AI/オンボーディング⽤AI ブラウザ拡張機能 • Graft Intelligence Layer/チームメイトAI • Kin /メモリに基づくパーソナライズAI • Sema4.ai/エンタープライズ向けGPTs
  43. AIデバイス「rabbit r1」が正式発売 • rabbit r1の発売イベントが、4⽉24⽇(⽶国時間)に開かれた • 最もシンプルなコンピューターをつくることがビジョン • rabbitの狙いは、まずはデバイスに話しかけてもらい、その後にコンピューターで処理すること •

    デモでは、rabbit r1のカメラで紙のテーブルデータの写真を撮り、⾳声で2列を⼊れ替えてたもの を⾃分宛にメールで送るように依頼し、成功した https://wired.jp/article/rabbit-r1-launch-event-nyc/
  44. LangSmith is now in Azure Marketplace • LangSmithが Azure Marketplace

    で利⽤可能になった • Azure Kubernetes アプリケーションとしてLangSmithを購⼊できる • LangSmithは、LLM アプリケーションの開発、テスト、監視を⾏うための統合 DevOps プラット フォーム https://blog.langchain.dev/announcing-langsmith-is-now-a-transactable-offering-in-the-azure-marketplace/
  45. What is an Enterprise AI Agent? • Sema4-aiのエンタープライズ向けAIエージェントブログ • エージェントの⾃動化範囲の拡⼤がタスク⾃動化、プロセス⾃動化と分かりやすい

    • ⾃然⾔語での指⽰の粒度が徐々に⼿先の動作レベルから業務フローレベルに⾼度化されていく https://medium.com/sema4-ai/what-is-an-enterprise-ai-agent-feae89d784ef
  46. Magical AI/RPA ブラウザ拡張機能 • 私たちの仕事の多くが異なるウェブサイトやアプリ間で情報を移動させていることが多い • Magical AIブラウザ拡張機能を使えば、繰り返し作業を⼤幅にスピードアップ • Automate

    tasks like typing repetitive messages, and updating databases. 営業 • どこにでもメッセージを素早く⾃動送信、CRMなど管理タスクの⾃動⼊⼒ サポート • チケット番号や顧客名を含む下書きを⾃動作成、タブ間の⾯倒なコピペを排除、顧客との⼀般的な会話をテンプレ登録 ヘルスケア • 患者のカルテを作成、異なるツール間で利⽤できるテンプレ登録、2 回のクリックで処⽅箋を作成 採⽤ • フォローアップメッセージを⾃動送信、Web サイトから候補データを⾃動収集、スプレッドシートに分類 教育/運⽤/個⼈ • フォームの⾃動記⼊、繰り返し業務の⾃動化、サイト間のデータ移動 https://www.getmagical.com/
  47. Truva AI/オンボーディング⽤AI ブラウザ拡張機能 • オンボーディング⽤エージェントをブラウザ拡張機能で提供 • Jira, confluence, Notion, Slack,

    Githubなど • 独⾃サービスもAPIがあればオンボーディング⽀援ができそう チャットでタスクを依頼 使い⽅が分からなくても助けてくれる 様々なソフトウェアで⽀援! https://www.youtube.com/watch?v=YIVvXvLv_ak
  48. New Papers Agent Framework/Capabilities • A Survey on the Memory

    Mechanism of Large Language Model based Agents • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs • GPT in Sheep's Clothing: The Risk of Customized GPTs • The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions • Aligning LLM Agents by Learning Latent Preference from User Edits • AgentKit: Flow Engineering with Graphs, not Coding Agentic AI Systems • CT-Agent: Clinical Trial Multi-Agent with Large Language Model-based Reasoning • Automated Social Science: Language Models as Scientist and Subjects∗ • A Multimodal Automated Interpretability Agent Multi Agent Systems • NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding • AgentCoord: Visually Exploring Coordination Strategy for LLM-based Multi-Agent Collaboration • Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents
  49. A Survey on the Memory Mechanism of Large Language Model

    based Agents • LLM エージェントのメモリに関してサーベイした論⽂ (1) LLMエージェントのメモリとは何か (2) なぜLLMエージェントにメモリが必要なのか (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールの重要性 Agent Framework
  50. A Survey on the Memory Mechanism of Large Language Model

    based Agents (1) LLMエージェントのメモリとは何か? • エージェントの試⾏履歴で表される • タスクごとにエージェントの試⾏軌跡データを管理する • 試⾏軌跡データは状態と⾏動の組の系列で表される Agent Framework
  51. A Survey on the Memory Mechanism of Large Language Model

    based Agents (2) なぜLLMエージェントにメモリが必要なのか • 経験の蓄積 • 将来似たタスクを遂⾏する際に効率が上がる • 過去のエラー計画、不適切な⾏動、または失敗した経験を記憶する • 環境探索 • いつ、どのように探索を⾏うかをより適切に決定することができる • 様々な⾏動をおこないフィードバックと共に記録する • 知識の抽象化 • 未知の環境に対して⼀般化できるようになる • ⽣の観察を要約することで⾼次に抽象化して記録する • 対話 • メモリがなければ、エージェントは⽂脈を知らず、会話を続けることができない • 過去の会話に関する情報を記憶する • パーソナライズ • ユーザーとエージェントの対話中の事実情報だけでなく、ユーザーの好みやスタイルも記憶する Agent Framework
  52. A Survey on the Memory Mechanism of Large Language Model

    based Agents (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールをどのように効果的に評価するかは未解決の問題 (1) 直接評価:メモリモジュールの能⼒を独⽴に測定する (2) 間接評価:エージェントタスクを通じてメモリモジュールを評価する Agent Framework
  53. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs •

    CoTの派⽣を網羅的にサーベイした論⽂ • CoTは問題を分解する途中過程を表す <input, thoughts, output> • CoTだけでは複雑な問題に対する理解が不⾜している • CoXでは途中過程の中間ノードを異なる形で設計し、具体的なタスクや⽬的に応じた構造を変えている Agent Capabilities
  54. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs Chain-of-Intermediates

    問題解決プロセスを明確な中間ステップに分割するこ とに重点 Chain-of-Augmentation タスク実⾏プロセスに追加の情報や指⽰を組み込むこ とに重点 Chain-of-Feedback ⽣成された内容の改善や精度向上を⽬的としたフィー ドバックの組み込みに重点 Chain-of-Models 異なる専⾨性を持つ複数のモデルを連携させることに 重点 Multi-Modal Interaction 画像内の詳細に焦点を当てるタスク、 テキストベースで画像編集を⾏うタスクなど Factuality & Safety LLMsが⽣成する情報の事実性や安全性を⾼めるタス ク Multi-Step Reasoning 問題を⼩さなステップに分割して逐⼀解決するタスク Instruction Following 与えられた指⽰に従って特定のタスクを実⾏する能⼒ を強化するタスク LLMs as Agents LLMを計画や意思決定プロセスに活⽤するタスク Evaluation Tools LLMの性能を評価するために特別に設計されたタスク Agent Capabilities
  55. GPT in Sheep's Clothing: The Risk of Customized GPTs •

    様々な種類のサイバー攻撃がGPTsを使⽤してどのように実⾏されるかを⽰した論⽂ • 防御策も提案( GPTの⾃⼰評価からセキュリティリスクを特定し、対策を講じる) 脅威の⼀覧 防御策の⼀覧 Agent Capabilities
  56. The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions •

    OpenAIからプロンプトインジェクションやジェイルブレイクなどのセキュリティ脅威に対処する対処法の提案 • モデルが指⽰に従う優先度をメッセージタイプで分ける指⽰階層(System>User>Model>Tool)を定義 • 実際にセキュリティ脅威の攻撃に対して頑健になった(Web browsingでの攻撃の脅威が少しはマシになるか) 優先度がわかる例 性能⽐較 Agent Capabilities
  57. Aligning LLM Agents by Learning Latent Preference from User Edits

    • ユーザーによる編集フィードバックを基にLLMエージェントのパーソナライズを改善する⼿法の提案 • ユーザーの⽂章の編集履歴から好みを学習し、それを活⽤してユーザーにより適したレスポンスを⽣成するこ とで、ユーザーの労⼒を減らし、エージェントのパフォーマンスを向上させる(Human in the Loop) Agent Framework
  58. AgentKit: Flow Engineering with Graphs, not Coding • 個別のサブタスクをノードとして定義し、ノードを連結して直観的な「思考プロセス」を形成することができ るLLMプロンプティングフレームワークAgentKitを提案

    • 各ノードは⼊⼒の前処理、LLMへのプロンプト処理、結果の後処理を⾏うよう設計 • プログラミング経験のないユーザーでも⾼度なエージェントを設計できる(Difyと似ているノーコード系) Agent Framework
  59. A Multimodal Automated Interpretability Agent • NNモデルの解釈可能性の実験を⾃律的に⾏うエージェントシステムの構築 • 解釈可能性のクエリが与えられると、特定の仮説をテストする実験を実⾏し、実験結果を観察し、ユーザのク エリに答えられるようになるまで仮説を更新する

    • ⼈間でもできる作業だが⾯倒なため、エージェントに代替 デモサイトあり:https://multimodal-interpretability.csail.mit.edu/maia/ 質問例 「特定のニューロンを活性化させる画像を教えて!」 「モデルのバイアスを教えて!」 MAIA Agentic AI Systems
  60. Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society

    of LLM Agents • 複数エージェントによる資源共有問題で戦略的かつ倫理的な意思決定を⾏う能⼒を評価するためのシミュレーショ ン環境をを開発 • エージェントに「もし全員がこの⾏動をとったらどうなるか」という視点から判断するように指⽰ • GPT-4 と Claude-3 Opus は即時報酬の最⼤化ではなく、その⾏動が集団全体に与える⻑期的な影響を考慮できた Multi Agent Systems 資源の分配 個⼈の判断 エージェント:漁師 共有資源:湖の⿂ 漁師の仕事をみんなが続けるためには、 全員が捕獲しすぎず、繁殖と収⼊の⻑期バランスを取る 個⼈の結果をもとに 次のラウンドを全員で議論 将来の計画 過去ラウンドに基づいて将 来の戦略を個⼈が練る MARL的な問題設定
  61. Agent Tools Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント

    • Agents for Amazon bedrock 機能紹介 4/23アップデート含む 海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents
  62. Google Cloud Next ʻ24 • エージェントは⼈間とつながり、ユーザーに代わって、テキスト、画像、⾳声、動画のように形式の異なる情報を同時 に処理し、対話、推論、学習、意思決定を⾏う • 6つのユースケースを紹介 •

    既存サービスにGeminiを乗せるのとエージェントが道具としてサービスを使う話が混在している • カスタマーエージェント • 優れた販売員やサービスマンと同様に、お客様の声に⽿を傾け、ニーズを理解し、適切な商品やサービスを勧める • ウェブ、モバイルアプリ、POS、コールセンターと連携 • 従業員エージェント • 従業員の⽣産性を⾼めるために 1 ⼈の従業員として業務をサポートする • Google ドライブ上のRAG、Google docs や Gmail での⽂書作成⽀援、 Google スライドのスライドや画像⽣成 • クリエイティブエージェント • デザイナーのようなクリエイティブなタスクをこなす • Imagen 2.0、 Text-to-Live Image • データエージェント • データアナリストのように、企業のデータを使った意思決定をサポートする • BigQuery、LookerにGemini搭載 • コードエージェント • アプリケーションを開発するエンジニアの⽣産性を⾼める(Gemini Code Assist ) • セキュリティエージェント • チャットを通じて、セキュリティインシデント内容を要約、推奨されるアクションを提案をする https://cloud-ace.jp/column/detail468/ https://www.youtube.com/watch?v=V6DJYGn2SFk (4/10開催)
  63. Agents for Amazon bedrock の特徴 • Claude3 SonnetとHaikuまで利⽤可能 • Agents

    for Amazon Bedrock は現時点では⽇本リージョンに対応していない ⾃動プロンプト作成 開発者が提供する役割指⽰、APIやfunction の詳細、およびナレッジベースからの企業 データソースの詳細に基づいてプロンプト を作成 計画によるサブタスクの作成と実⾏ 必要な API を⾃動的に呼び出して実⾏ CoT推論によるトレース トレース機能からエージェントの推論と計 画を段階的に確認 プロンプトエンジニアリング ⾃動⽣成されたプロンプトテンプレートを さらに改良してUXを向上 https://aws.amazon.com/jp/bedrock/agents/
  64. Agents for Amazon bedrock のアプデ 4/23 • エージェントの外部ツール呼び出し(アクショングループ)の設定が以前より簡素化された • アクショングループは、Lambda

    関数を関連付けたり、エージェントを呼び出しているユーザーまたはアプリ ケーションに制御を返して関数に応答できるように設定できる • (New) Return of control:AWS Lambda関数の使⽤せず、エージェントを呼び出すアプリケーションに制御を返す ⼈間にタスクを実⾏してもらうことができる • 時間のかかるアクションがある場合 • タスクの継続時間が Lambda 関数の最⼤タイムアウトである 15 分を超える場合 • 既存のアプリケーション (エージェントの呼びだしもと) から API を呼び出す⽅が簡単な場合 Return of control ユーザーに外部サービスの結果 を⼊⼒してもらう https://aws.amazon.com/blogs/aws/agents-for-amazon-bedrock-introducing-a-simplified-creation-and-configuration-experience/
  65. Introducing Dify Workflow • Difyはエージェントのワークフローをノード間を線で繋ぐ直感的なドラッグ&ドロップで作れるサービス • ワークフローは API 対応で、既存のアプリケーションやシステムに簡単に統合できる •

    プロトタイプを作るときに使いやすいかもしれない (Apr 8, 2024公開) ノードに細かく設定ができる デバッグも細かくできる https://dify.ai/blog/dify-ai-workflow
  66. Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various

    LLMs • OpenAI Assistants APIと類似機能もあり 作成⼿順 • 新しいアシスタント アプリを作成する • プロンプトを作成する • エージェントが使⽤するツールを構成する • デプロイする (2024 年 1 ⽉ 24 ⽇に公開)
  67. Bland AI/Phone Agents • Bland は AI 通話のためのプラットフォーム(コールセンター、リード獲得など) • AI電話エージェントはいつでもリードに連絡を取ったり、顧客からの呼び出しに応答でき、質問に即座に対応

    できる • ⽂字起こし、⾔語理解、テキスト読み上げモデルの組み合わせも 1 秒以内に実⾏する • 1秒以内レスポンスに向けてモデル以外にもプロンプトを⼯夫する • 電話エージェントの⼈物像、応答すべき質問の種類、応答すべきでない質問の種類、誰かが電話エージェントを脱獄しよ うとした場合の対処⽅法を記載 https://www.bland.ai/blog/how-to-build-an-ai-call-center How to build an AI Call Center( April 7, 2024 ) 電話の内容を別のツールと接続可能
  68. Alpha Corp/Group Chat With AIs • 社内ChatGPTでAI同⼠のグループチャットができる • 複数のモデルが利⽤可能 •

    同じチャットの中でモデルの⽐較ができる • 2つのモデルでチャットシミュレーション • AIがAIに応えることができる https://alphacorp.ai/
  69. The UX of AI: Lessons from Perplexity • Perplexity AI

    のデザイン責任者であるヘンリー モディセットとの対談記事 • Perplexity は、信頼できる情報をできるだけ早く提供することに重点を置いた急成⻑中の AI スタートアップ • 製品が⼤きく複雑になればなるほど、快適なエクスペリエンスを提供することが難しくなる • 擬⼈化されたコンセプトを持つことによるメリットはほとんどありません シンプルに回答の⼀番上に情報源(記事、画像、地図、 ビデオ)を表⽰し、それから答えがある。 答えはチャットではない。 https://www.nngroup.com/articles/perplexity-henry-modisett/
  70. The Rise and Fall of (Autonomous) Agents • LLMに基づく⾃律型エージェントの発展と課題をまとめたブログ(2024 年

    3 ⽉ 4 ⽇公開) 的を得た⼀⽂ • エージェントは現在、⽬標が達成されるまで⼤きなタスクを管理可能な⼩さなタスクに分割するプロジェクト 管理エージェントに依存しています。 課題 • 閉ループに陥る • ユーザビリティが低い • 信頼性が⼗分ではない https://medium.com/@lukas.kowejsza/the-rise-and-fall-of-autonomous-agents-18360625067e
  71. New Papers Agent Framework/Capabilities • Memory Sharing for Large Language

    Model based Agents • Foundational Challenges in Assuring Alignment and Safety of Large Language Models • ChatShop: Interactive Information Seeking with Language Agents • Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing • The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey Multi Agent Systems • Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation Computer Controlled Agents • MMInA: Benchmarking Multihop Multimodal Internet Agents
  72. Foundational Challenges in Assuring Alignment and Safety • LLMの安全性を保証するのに役⽴つ課題を説明した論⽂ •

    エージェントに関する指摘事項 • LLMエージェントが継続的に⽣涯学習(Lifelong Learning)をすること • フィードバックや新しい経験に基づいて⾃⾝の理解を適応させる能⼒によって駆動する必要がある • そのために強化学習や転移学習の利⽤と発展が求められる • LLMエージェントが不完全で不確実で⾼いリスクを伴う状況に対してロバストかつ慎重に⾏動すること • 曖昧なシナリオで慎重な決定を下すため、アンサンブル、不確実性の定量化や安全な強化学習を導⼊ する必要がある • LLMエージェントが欺瞞、権⼒追求、⾃⼰保存などの望ましくない⾏動にどのように傾くか把握すること • 解釈可能性の技術から、⾏動の原因分析をする必要がある • LLMエージェント向けのよりロバストなモニタリングシステムを構築すること • 予期せぬ⾏動や予想される規範からの逸脱を特定するための⾼度な異常検出アルゴリズムを組み込む • LLMエージェント間の共謀⾏動を防⽌および検出すること • 敵対的攻撃などから技術を発展させる必要がある Agent Capabilities
  73. ChatShop: Interactive Information Seeking • 現状のLLMエージェントは戦略的に新しい情報を探求する能⼒が⽋けている • ウェブショッピングのタスクを利⽤し、エージェントが対話を通じてユーザーの好みを探り、情報を徐々に蓄 積することで意思決定を⾏うChatShopというタスクを提案 •

    エージェントがリアルタイムでユーザーと対話しながら商品情報を収集し、適切な商品を推薦する能⼒が評価 買い物客が⼈間かエージェントかでエラー分析 要件忘れ/誤解/質問不⾜/繰り返す同じ質問/ミスリード Agent Capabilities
  74. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing •

    モンテカルロ⽊探索(MCTS)とLLMを統合したALPHALLM を提案し計画と⾃⼰改善を改善 • Imagination (類似プロンプト⽣成)、 Searching (MCTS)、 Criticizing (フィードバック提供)の3つの コンポーネントで構成 • MCTSでは以下の⼯夫をして探索範囲を狭めている • ⾏動空間をトークンや⽂レベルでなくオプションレベルにする • 状態空間も状態マージの既存⼿法からグルーピングをおこなう Agent Capabilities
  75. AI Agent Architectures for Reasoning, Planning, and Tool Calling: A

    Survey • シングルとマルチのエージェントアーキテクチャの良し悪しや現状のエージェントの課題を説明した論⽂ • シングルエージェントアーキテクチャ • ReAct:Reasoning + Act ⼈間のフィードバックが⼊れられない、思考のループなどが課題 • RAISE : ReActにメモリを持たせたが、複雑なタスクに幻覚を⾒る • Reflextion:⾔語フィードバックで幻覚を減らすが、参照情報が必要で検索性能とトークンの制限に苦しむ • AUTOGPT+P:Planningを⼊れてツールを使うが、正しくないツール利⽤や⼈間から計画の修正ができない • LATS:計画と⾏動と推論をツリーベースにするが、推論時間とアルゴリズムの複雑さから実⽤性が困難か • マルチエージェントアーキテクチャ • Dynamic LLM-Agent Network :タスクごとにエージェントの貢献度を測定し、貢献度の⾼いチームを作る • AgentVerse:ラウンドごとにチームメンバーを⼊れ替え、タスクをこなす • MetaGPT:エージェント間の会話を構造化した⽂書でやりとりし、情報共有の仕⽅を徹底した • 課題 • エージェントの評価コストが⾼い • ベンチマークに他のエージェントも評価できるほど汎⽤性がない • 現実世界と問いデータとの差がどのくらいあるのか Agent Framework
  76. Confidence Calibration and Rationalization for LLMs via Multi- Agent Deliberation

    • RLHFで微調整されたモデルは過信しやすいことが別論⽂で⽰されている • LLMの信頼度推定に複数のLLMエージェントによる2段階のグループ審議プロセス⽅法を提案 Multi Agent Systems
  77. MMInA: Benchmarking Multihop Multimodal Internet Agents • 複数ウェブサイトを遷移しながらタスクを遂⾏するWebエージェントのベンチマーク • 全体的にGemini-Pro-Visionの⽅がGPT-4Vより精度が⾼い

    • 2つのサイトで済む簡単なタスク設定でも1サイト⽬で70%、2サイト⽬で8%まで成功率が落ちる Computer Controlled Agents
  78. Agent Tools • Gemini 1.5 Pro • OpenAI Batch API

    • OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks
  79. Gemini 1.5 Pro • Googleは100万トークンのGemini 1.5 ProをGoogle AI Studioで公開 •

    ネイティブオーディオの理解 • Gemini API と Google AI Studio の両⽅で使える • ビデオの画像 (フレーム) とオーディオ (⾳声) の両⽅を理解できる • ファイルAPI • プロジェクトごとに最⼤ 20 GB、ファイルサイズの上限は2GB、アップロード後2⽇で削除 • 画像、動画、⾳声ファイル対応 • System InstructionとJSONモードの導⼊ • 役割、形式、⽬標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御できる • JOSNモードでは、テキストまたは画像から構造化データを抽出できる • function callingの改善 • 関数呼び出しモードで使うか使わないかわからないAUTO, 必ず呼ぶANY, 使わないNoneが選べる • テキスト埋め込みモデルtext-embedding-004もリリース https://ai.google.dev/gemini-api/docs/function-calling?hl=ja https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
  80. OpenAI Assistants API v2 • 最⼤ 10,000 個のファイルを取り込めるファイル検索(file_search)機能をリリース • RAGで最初にやりそうなことはファイル検索機能に追加された

    • 各実⾏で使⽤されるメッセージ数に制限の設定/トークン数の最⼤値の設定が可能に • tool_choiseパラメータ”code_interpreter”, ”function”に”file_search”が指定可能に • gpt-3.5-turbo-0125のFine-Tuningモデルが利⽤可能 • ストリーミング対応 https://platform.openai.com/docs/assistants/whats-new
  81. LlamaIndex: An Introduction to Agents Tutorial Series • LlamaIndexのYoutubeにエージェント開発⽤のチュートリアル動画があがった •

    ステップバイステップ実⾏とToolの利⽤後にLLMの⽣成を挟まないreturn_direct 変数にオリジナリティがあっ たかも https://medium.com/llamaindex-blog/data-agents-eed797d7972f
  82. LangChain Benchmarks • LLM 関連タスクのベンチマークを⽀援するパッケージ • Tool Usage (2024-04-18)の項⽬が追加 •

    gpt4-turboとclaude-sonnetが良い勝負している、計算タスクだけgpt-35-turboが良い
  83. New Papers Agent Framework/Capabilities • GoEX: Perspectives and Designs Towards

    a Runtime for Autonomous LLM Applications • AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications • Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought • Graph of Thoughts: Solving Elaborate Problems with Large Language Models Agentic AI Systems • ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models • AutoCodeRover: Autonomous Program Improvement Multi Agent Systems • 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System Computer Controlled Agents • OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments • Autonomous Evaluation and Refinement of Digital Agents
  84. Autonomous Evaluation and Refinement of Digital Agents • デジタルエージェントの性能をVLMで軌跡かステップレベルで評価し⾃動で改良する⼿法を提案 •

    ⾃動評価の精度はオラクルと⽐較し80~90% ユーザーの意図は、GitLab で最もスターが付けられている上位 1 リポジトリにスターを付けること でしたが、ボットは既にスターが付けられている特定のリポジトリにスターを付けようとしました。 問題のリポジトリがスター付きのトップ1であることを⽰すものはなく、ボットはユーザーの意図に 基づいて正しいリポジトリとやりとりしていることを確認するためのアクションを実⾏しませんでし た。したがって、タスクは正常に完了していません。 成功した評価の例 Computer Controlled Agents
  85. Agent Tools • Vertex AI Agent Builder • Claude 3

    AI Expands with Tool Integration • Humane AI Pin review: not even close
  86. Claude 3 AI Expands with Tool Integration • ツールの定義と利⽤⽅法はだいたいOpenAIに準拠している ベストプラクティス

    • ツール定義 • exanpleよりもdescriptionを優先する • 多くのツール利⽤可能 • 数百のシンプルなツールと少数のパラメータの多い複雑なツールでも、90% を超える精度を実現 • 順番にツール利⽤ • ⼀度に 1 つのツールを使⽤し、そのツールの出⼒を使⽤して次のアクションを通知することを好む • ツールの繰り返し傾向 • 2 〜 3 回試⾏が失敗すると、Claudeは諦めて、さらに再試⾏する代わりにユーザーに謝る https://docs.anthropic.com/claude/docs/tool-use
  87. Humane AI Pin review: not even close 良点 ・画⾯を⾒る時間が減り、現実に集中できる ・ワンタップで作業が完了する

    ⽋点 • 実⽤性:数回に⼀度失敗する。回答待ち時間が⻑い。 • デバイスの問題:バッテリー寿命が短く、過熱しやすい。カバンにひっかかる。 • 価格:完成度が低く、700 ドルか⽉額 24 ドルする。 https://www.theverge.com/24126502/humane-ai-pin-review