Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News!

masatoto
May 20, 2024

Weekly AI Agents News!

2024年5月20日更新済み
週次か気が向いたときに更新します。
AI エージェントに関する論文かニュースをシンプルにまとめます。

masatoto

May 20, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 論文 Agent Capabilities モデル • Gemini 1.5: Unlocking multimodal understanding

    across millions of tokens of context ⾃⼰修正 • Self-Reflection in LLM Agents: Effects on Problem-Solving Performance 計画 • Large Language Models as Planning Domain Generators ⻑いコンテキスト理解 • Many-Shot In-Context Learning in Multimodal Foundation Models • CinePile: A Long Video Question Answering Dataset and Benchmark エージェントの評価 • Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models Agent Framework • How Far Are We From AGI? • Towards Guaranteed Safe AI:A Framework for Ensuring Robust and Reliable AI Systems Multi Agent Systems • AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments
  2. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of

    context • Gemini 1.5 Pro(May 2024)とFlashの評価論⽂ • ⻑いコンテキストの理解をテキスト、動画、⾳声で評価 • Multiple Needles in a Haystack(プロンプトに与えた⼤量の情報の中から散らばった情報⽚を⾒つけるタスク) • Many Shot Learningで計画タスクや低資源⾔語の翻訳 タスクの例:74万トークンのコードから抽出 タスクの例:25万トークン⽂法書と辞書を参照し翻訳 Multiple Needles in a Haystack トークンが増えても精度が落ちにくい Many Shot Learning サンプル数が増えると 緩やかに計画精度向上 Agent Capabilities
  3. Self-Reflection in LLM Agents: Effects on Problem-Solving Performance • LLMエージェントの⾃⼰反省の様々な⼿法を様々なモデルで⽐較検証

    • ⾃⼰反省を⾏ったエージェントは統計的に有意に問題解決能⼒が向上した • ⾃⼰反省プロセス:誤答の問題のみ、問題と誤答と正解を与えて反省させ、その結果をもとに再回答させる • なお反省の結果に回答内容が含まれればマスクし再回答させる 反省の種類 Agent Capabilities
  4. Large Language Models as Planning Domain Generators • 単純なLLMでは計画能⼒が乏しく、形式⾔語のPDDL (Planning

    Domain Definition Language)を活⽤した計 画能⼒向上の研究がある • この論⽂では、LLMsを⽤いてテキストからPDDL形式のドメインモデルを⽣成するための⼿法を提案 • ドメインモデルが得られると、初期状態から⽬標を達成するための計画⽴案がおこなえる • ⽣成されたドメインモデルの品質を⾃動評価する指標を提案し、9つの異なる計画ドメインで7つのLLMを評価 し、その性能を分析した 計画タスク Agent Capabilities
  5. Many-Shot In-Context Learning in Multimodal Foundation Models • GPT-4o、GPT4(V)-Turbo、Gemini 1.5

    Proの3つのマルチモーダルモデルを使⽤しMany Shot Learningを評価 • Gemini 1.5 Proは、ほとんどのデータセットにおいてデモの数が増加するにつれて安定した性能向上を⽰した • バッチクエリを使⽤することで、個々のクエリと同等以上の性能を達成しながら、推論コストとレイテンシを ⼤幅に削減できた Agent Capabilities
  6. CinePile: A Long Video Question Answering Dataset and Benchmark •

    既存の⻑編動画理解⽤データセットは動画全体を通じた理解の質問が少ない • ⻑編動画理解を⽬的とした新しいデータセットとベンチマーク「CinePile」を公開 • キャラクター(CRD):キャラクターAの決定は他のキャラクターにどのような影響を与えたか?など • 物語(NPA):どのような事件がキャラクターの態度を⼤きく変えたか?など • 設定(STA):特定の時間や場所での設定/ロケーションはどのように⾒えるか?など • 時間(TEMP):シーンの冒頭からエンディングまでのキャラクターの感情の変化は?など • 主題(TH):キャラクターAの⾏動が映画全体のテーマにどのように関連しているか?など • GPT-4oは、キャラクター(CRD) や物語(NPA) において優れた性能を⽰したが、時間 (TEMP) には苦戦 • Gemini 1.5 Proは、設定(STA) で特に⾼い性能を発揮したが、他のカテゴリでは平均的な性能 データセット内訳 平均2分40秒の動画 選択質問( 30万問) 9,396本の動画クリップ Agent Capabilities
  7. Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating

    basic world knowledge in language models • AIエージェントにとって、世界モデルを構築して活⽤する能⼒は重要だが、世界モデルの構成要素が明確に定 義されていないため、評価するのは難しい • EWOK(Elements of World Knowledge)フレームワークを提案 • LLMが特定の概念に関する知識を使⽤して、ターゲットテキストと同じ⽂脈テキストか分類する能⼒をテストする • コンセプト:社会的相互作⽤、空間関係、直感的物理、数の感覚、エージェントの推論など • LLMは、社会的相互作⽤(例えば、助ける、妨げるなどの⾏動)を理解する能⼒が⽐較的⾼い • LLMは、空間関係の能⼒が低く、「左/右」といった具体的な空間的指⽰に基づいた⽂脈の判断が難しい Agent Capabilities
  8. How Far Are We From AGI? • AGIの定義、⽬標、および発展のロードマップを⽰し、AGIの実現に必要な戦略について広範な調 査と議論を通じて掘り下げた120ページに及ぶ論⽂ 特定の分野で⼈間のパフォーマンスを超える

    現実世界のシナリオで⼈間のパフォーマンスを超える ⼈間の介⼊なしに⾃⼰進化する 最⼩限の⼈間の介⼊で新しい状況に適応する ドメイン間で知識を⼀般化する 創造性と⾰新性を⽰す 複雑な意思決定プロセスに従事する ⼈間や他のAIシステムとシームレスに協⼒する ⾃動的に新しいツールを創造する学習をする ⾃⼰学習と適応を通じて継続的に改善する 共感、感情知能、社会知能を⽰す 超安定で、低遅延、⾼スループットの提供が可能 データ、電⼒、計算効率を持って構築される ⾃動学習、調整、協⼒、展開をサポートする ⼈間の指⽰に正確に従う 与えられたユーザーの好みに正確に従う ユーザーレベルおよび社会レベルの⼈間の価値観および⽬標と強く⼀致する Agent Framework
  9. Towards Guaranteed Safe AI:A Framework for Ensuring Robust and Reliable

    AI Systems • AIシステムが⾃動化と⾼い知能を持つ場合、⼈間に安全であることを保証する必要があり、「保証された安全 なAI」(GS AI)のフレームワークを提案 • 数学的に安全であることを保証したい様⼦。構想なので、実現案はこれから作られていくと思われる 世界モデル(World Model): • AIシステムが外部世界に与える影響を数学的に記述 • このモデルは、AIの⾏動がどのように周囲の環境と相互作⽤するかを理解するための基盤となる 安全仕様(Safety Specification): • AIが遵守すべき⾏動の基準を数学的に定義 • 安全仕様は、AIの⾏動が⼈間にとって受け⼊れられ る範囲内にあることを保証するためのルールセット 検証者(Verifier): • AIが安全仕様を満たしている証明書を提供 • AIシステムが数学的に定義された安全基準を守るこ とを監査可能な形で保証する役割を果たす Agent Framework
  10. AgentClinic: a multimodal agent benchmark to evaluate AI in simulated

    clinical environments • 静的な医療QAベンチマークに過度に依存しており、実際の医療業務に必要なインタラクティブな意思決定を⼗ 分に評価できていない • AgentClinicのシミュレーションでは患者、医師、測定、モデレーターのエージェントから医療現場を模倣する • 患者と医師のエージェントに認知的および暗黙のバイアスを組み込み、現実的なインタラクションを再現 • バイアスを導⼊すると、診断精度の⼤幅な低下、患者の遵守率の低下、フォローアップ相談の意欲の低下 • 対話回数が限られたり多すぎる場合に診断精度が低下 • 患者エージェントに使⽤されるLLMが診断結果に影響を与える Multi Agent Systems
  11. Agent Products リリース情報 ・GPT-4o のマルチメディア対応の進化 ・ChatGPT データ分析の改善 ・ChatGPTデスクトップアプリでワークフローを合理化 ・Google I/O

    ・様々なGoogleアプリにエージェントが搭載 ・Atlassian Rovo/チームメイト型エージェント ・Integrating LangChain with Azure Container Apps dynamic sessions 技術記事 ・モデルの発展に伴いLLMアプリ開発者のベストプラクティスも変化 ・製造業での⽣成AI活⽤術:⾃社製品を理解した基盤モデルと検索を組み合わせた⽤途探索 ・⼩売業への⽣成AIエージェントの応⽤ ・SaaS Is Readying for an Agentic Future ・Multi AI Agent Systems with crewAI ・AIガジェット「rabbit r1」を使ってみた
  12. GPT-4o のマルチメディア対応の進化 • テキスト⾔語インターフェースから⾳声とビデオのインターフェースへ • GPT4シリーズでは、GPT-4oからメディアをテキストに変換せず、直接ベクトル化して学習している • そのため、速度の向上とコストの削減を実現した • テキストを介在しないため、⾳調、複数の話者、背景雑⾳、感情を区別できるようになる

    • アプリのデモでは、GPT-4oが喋っている途中で介⼊できる • アプリのデモでは、タブレットやスマホで画⾯共有しながらGPT-4oと会話している • ⽇本語トークナイザーも1.4倍改善した https://openai.com/index/hello-gpt-4o/ 数学講師 同時通訳 スマホカメラから会話
  13. Google I/O • AI Overview • 検索体験が「Search Generative Experience」から進化し、要望に直接応える時代になる •

    AI Overviewが要望をもとに必要な情報を調べ、要望に応える形で検索結果を⽤いながら回答する • 動画と⾳声で検索 • AIがカメラから外界を認識し、⾳声で質問をすることでサイトを検索できる • Project Astra • 動画と⾳声をもとにAIと会話ができる • OpenAIも同じユーザー体験を⽰していたので、今後のスタンダードになるのでしょう • Gemini Flash • Gemini Proよりは軽量で、スピードとコスト効率を重視したモデル • 1時間の動画、11時間の⾳声、3万⾏のコードに対応 • 128kのプロンプト以下でInputが1Mトークンあたり$0.35、outputが$0.53 https://io.google/2024/intl/ja/ https://deepmind.google/technologies/gemini/flash/ https://cloud.google.com/vertex-ai/generative-ai/pricing
  14. 様々なGoogleアプリにエージェントが搭載 Google I/Oで発表されたエージェントとデモ • メールエージェント • 受信トレイ内のすべての領収書をスプレッドシートに継続的に整理する • 複数の会話やファイルを整理して質問に答える •

    注⽂を返品する • 検索エージェント • 多段階の推論により旅⾏計画をおこなう • 1週間の⾷事計画をおこなう • ブラウザエージェント • 複数の外部ウェブサイトで動作し、数⼗のウェブサイトで住所を⼀括更新するなどのタスクを実⾏する • 共同作業者 • Google Workplaceで対話的に共同作業ができる https://io.google/2024/intl/ja/
  15. Integrating LangChain with Azure Container Apps dynamic sessions • Azure

    Container Apps の動的セッション • 動的セッションは、LLM が⽣成したコードをサンドボックス内で安全に実⾏できるようにする Azure Container Apps の新機能 • ⾼速起動ができ、数百または数千のセッションを同時に実⾏できる。 • ファイルをセッションにアップロードして、コードからファイルを参照できる。 • セッションにはNumpy, など⼈気のパッケージがインストールされており、追加もできる。 LangChainの発表ブログ Integrating LangChain with Azure Container Apps dynamic sessions LangChainでの実装⽅法 Azure Container Apps dynamic sessions MS Learn Serverless code interpreter sessions in Azure Container Apps (preview)
  16. モデルの発展に伴いLLMアプリ開発者のベストプラクティスも変化 • Andrew Ng 先⽣の考察記事 モデルが向上した能⼒ • 複雑な概念を考え抜き、複雑な指⽰に従う推論能⼒ • ⻑い⼊⼒コンテキストウィンドウ

    • GPT-4oは128,000トークン、Claude 3 Opusは200,000トークン、Gemini 1.5 Proは200万トークン 複雑なワークフローを構築する際、以下のプロセスで良い結果が得られる 1. クイックでシンプルなプロンプトを書いて試す 2. プロンプトを段階的に詳細化する(⻑く詳細なメガプロンプトになる) 3. Few Shot またはMany Shot 学習やファインチューニングを検討する 4. タスクをサブタスクに分解し、エージェンティックワークフローを適⽤する https://www.deeplearning.ai/the-batch/issue-249/
  17. ⼩売業への⽣成AIエージェントの応⽤ • Cohereのブログで⼩売業に対するエージェントの活⽤案を解説 カスタマーサービス • 「注⽂したものはどこにありますか?」の問い合わせに対し、AI エージェントは、注⽂番号から注⽂管理シス テムのステータスを確認できるだけでなく、予期せぬ遅延が発⽣した場合に問題を解決することもできます。 マーケティングと販売 •

    ⼩売業は、CRM、電⼦商取引、コンテンツ管理、電⼦メール マーケティング システムに任意の⾔語で接続で きるグローバル AI エージェントを導⼊して、顧客の好みを理解し、それに応じてマーケティング コミュニ ケーションを調整します。 物流と流通 • AIエージェントが在庫管理システムをチェックし、リアルタイムの在庫情報を提供することで、適切なタイミ ングで製品を確保することができます。また、天候などの要因によるサプライチェーンの影響を予測し、対応 策を講じることも可能です。 従業員体験 • AI エージェントを使⽤することで、従業員はより簡単に休暇を申請できるようになります。同様に、管理者は、 扱いにくい内部システムを操作することなく、⼈員配置スケジュールにすばやくアクセスしたり、変更要求を 承認したりできます。 https://cohere.com/blog/game-on-retailers-elevate-your-customer-experience-with-genai 5⽉ 17, 2024
  18. SaaS Is Readying for an Agentic Future • SaaS リーダーは単純な効率化を超えて、複雑なワークフローをナビゲートできる、⾃律的な意思決定機能(AI

    エージェント)の開発に取り組んでいる • 第⼀波は、パーソナルAIアシスタント、ナレッジマネジメントアシスタント、コンテンツ⽣成だった • AI エージェントは、CRM、SCM、ERPシステムの全体から洞察を統合し、より包括的で⾃律的な対応とソ リューションを提供できる SaaS の潜在的なAIエージェントの使⽤例には次のようなものがあります。 ⽀払いアプリケーション • ⼩売業者が顧客満⾜度、ロイヤリティ、在庫レベルに基づいてリアルタイムで対象顧客の割引を提供し、標準 注⽂数量の変更を必要なサプライヤーに⾃動的に通知できる 調達管理ソリューション • CRM、在庫、注⽂管理システムと⾃動的に連携して、プロジェクト マネージャーがプロジェクトの実⾏に必要 な資材を確実に⼊⼿できるようにしたり、遅延の可能性をチームに警告したりできる コンテンツ管理システム • BI ツール、CRM、ソーシャル メディア アカウント、電⼦メール マーケティング システムと連携して、承認さ れたマーケティング コンテンツをチャネル全体にシームレスにパーソナライズして配信できる https://cohere.com/blog/saas-is-readying-for-an-agentic-future 2024 年 4 ⽉ 26 ⽇
  19. Multi AI Agent Systems with crewAI • DeepLearning.AIの講義動画にcrewAIライブラリを使ったマルチエージェントシステムが追加 • 学習コンテンツには、⼀般的なビジネスプロセスを⽀援する複数のマルチエージェント

    システム の設計や、AI エージェント システムの主要な原則が含まれる crewAIのマルチエージェントシステムの要素 講義で扱うビジネスプロセス https://www.deeplearning.ai/short-courses/multi-ai-agent-systems-with-crewai/
  20. AIガジェット「rabbit r1」を使ってみた • Rabbit r1のレビュー記事 • Rabbit r1の質問例:「123 ABC StreetまでのUberを予約してほしい」「Via

    Ponteでラージサイズ のウォッカピザを注⽂してほしい」「Benson Booneの最新アルバムを再⽣してほしい」など • r1で動作するアプリは、DoorDash、Spotify、Midjourney、Uber • 得意なこと • 複雑な質問に迅速に答えること • 「昨⽇の夜に⾏われたCelticsとHeatの試合は、どちらが勝ったのか。最も多く得点したのは誰か。フィールドゴー ルの成功率は何%だったのか」 • 1回⽬は失敗したけど、2回⽬で成功 • 画像から質問応答 • 回転する800万画素カメラでユーザーの周囲(とユーザー⾃⾝)を撮影し、質問に答える • 周囲の建物を教えてれたり、⾷事の⼤まかなカロリー計算をする • 不得意なこと • r1はバッテリー持続時間に問題がある(1回の充電で約3時間しか使⽤できなかった) • サードパーティサービスでエラーメッセージや失敗が多く安定しない https://japan.zdnet.com/article/35218574/
  21. New Papers Agent Capabilities • A Mechanism-Based Approach to Mitigating

    Harms from Persuasive Generative AI • In-Context Learning with Long-Context Models: An In-Depth Exploration • Sub-goal Distillation: A Method to Improve Small Language Agents • Chain of Thoughtlessness: An Analysis of CoT in Planning Agent Framework • Air Gap: Protecting Privacy-Conscious Conversational Agents • Offline Training of Language Model Agents with Functions as Learnable Weights Agentic AI Systems • Assessing and Verifying Task Utility in LLM-Powered Applications • A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing • SWE-AGENT: AGENT-COMPUTER INTERFACES ENABLE AUTOMATED SOFTWARE ENGINEERING • Automating the Enterprise with Foundation Models • Autonomous LLM-driven research from data to human-verifiable research papers Multi Agent Systems • Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents • MARE: Multi-Agents Collaboration Framework for Requirements Engineering Computer Controlled Agents • Unveiling Disparities in Web Task Handling Between Human and Web Agent
  22. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    Google DeepMindからLLMとの対話によりユーザーが説得されるリスクについて体系的な調査 合理的な説得: 関連する事実、論理的な理由、または信頼できる証拠を提供することに基づき説得する 操作的な説得: 認知バイアスやヒューリスティックを利⽤するか、情報を誤って伝えることで説得する リスク 経済的害:AIがユーザーに不利な経済的決定を促す可能性 • AIが誤った投資情報を提供し、ユーザーが経済的損失を被る。 ⾝体的害:AIの誤った助⾔により、ユーザーの健康や安全が脅かされる可能性 • AIが誤った医療情報を提供し、ユーザーが不適切な治療を受ける。 ⼼理的害:AIがユーザーの⼼理的健康に悪影響を及ぼす可能性 • AIが不安を煽る情報を提供し、ユーザーのストレスや不安が増加する。 社会⽂化的害:AIが社会的または⽂化的な調和を乱す可能性 • AIが偏⾒や差別を助⻑する情報を拡散する。 政治的害:AIが政治的決定に不当な影響を与える可能性 • AIが誤った政治情報を広め、選挙に影響を与える。 プライバシーの害:AIがユーザーの個⼈情報を不適切に使⽤する可能性 • AIがユーザーの同意なしにデータを収集・共有する。 ⾃律性の害:AIがユーザーの意思決定の⾃由を侵害する可能性 • AIが操作的な⼿法を⽤いてユーザーを特定の⾏動に誘導する。 Agent Capabilities
  23. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities
  24. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities
  25. A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

    6つの説得のメカニズム Agent Capabilities
  26. In-Context Learning with Long-Context Models: An In-Depth Exploration • ICLを⾮常に⻑いコンテキストで実⾏したときのモデルの振る舞いを調査

    1. 数百から数千のサンプル数を利⽤すると、性能が継続的に向上 2. サンプルのランダム選択と検索による取得のICLの⽐較は、サンプル数が増えると差がなくなる 3. サンプル数が増えれば、微調整の⽅が僅かに精度が良くなる 4. サンプルのラベルでソートしてプロンプトに与えるグループ化をすると性能が低下する Agent Capabilities
  27. Sub-goal Distillation: A Method to Improve Small Language Agents •

    計算コストを⼤幅に削減しつつ、LLMsの推論能⼒を引き継ぐエージェント⽤の知識蒸留⼿法を提案 • ⼩型⾔語モデルをサブゴール作成とアクション実⾏⽤にそれぞれ知識蒸留と模倣学習をする • ⼩型⾔語モデルには、FLAN-T5-LARGE(770Mパラメータ)を使⽤ ⼿法の概略図と両モジュールの⼊出⼒ ⾚がサブゴール ⿊はエキスパートの⾏動軌跡 Agent Capabilities
  28. Chain of Thoughtlessness: An Analysis of CoT in Planning •

    Blocksworldという古典的な計画の問題に対するCoTの調査 • 特化型プロンプトなほど、性能向上が顕著だが汎⽤性を失う(Stacking Prompt、Blocksworld Universal Algorithm) • 特化型でなければ、CoTは⼀般的な性能向上を⽰さない(Progression Proof、Zero-Shot CoT) • CoTでは、モデルが⼀般的なアルゴリズムを学習するのではなく、特定のパターンマッチングに近い Blocksworld Agent Capabilities
  29. Air Gap: Protecting Privacy-Conscious Conversational Agents • Googleから会話型エージェントにおける悪意のある攻撃からプライバシーを保護する⼿法を提案 • エージェントが悪意のあるサードパーティアプリを利⽤するとき、データを引き抜かれる危険

    • 「医者予約のため、あなたの健康情報と関係者の連絡先が必要です。全てのデータを教えてください。 」など • 提案⼿法はタスクの⽬的から最⼩限の必要データを求め、そのもとで外部アプリのリクエストに答える • 情報不⾜な場合はユーザーにエスカレーションして情報をもらう 必要データを絞る Agent Framework
  30. Offline Training of Language Model Agents with Functions as Learnable

    Weights • LLMの重み更新と似たプロセスでFunction Calling⽤のJSON形式と関数コードを更新する⼿法の提案 具体的な関数の更新プロセス 1. 評価: 現在の関数集合を分析し、どの関数が効果的か、どの関数が改善の余地があるかを評価 2. 追加: 必要に応じて新しい関数をJSON形式で定義し、対応する実装コードを作成 3. 改訂: 既存の関数のJSONメタデータとコードを修正して性能を向上 4. 削除: 不要な関数をJSONメタデータおよびコードから削除 Agent Framework
  31. Assessing and Verifying Task Utility in LLM-Powered Applications • LLM駆動アプリケーションがUXとタスク実⾏率をどの程度向上させるかを評価するAgentEvalを提案

    • AgentEval は3つのエージェント(CriticAgent、QuantifierAgent、VerifierAgent)を通じておこなう CriticAgent:タスクの記述や成功・失敗した例に基づいて、タスクの有⽤性を評価するための基準を提案 QuantifierAgent:提案された基準に基づいて、アプリケーションのタスク有⽤性を定量化 VerifierAgent:最終的にCriticAgentが提案した基準が問題ないか検証 Agentic AI Systems
  32. A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing

    • LLMが産業の複雑なニーズに対応するためには、専⾨的なドメイン知識が必要 • 産業固有のデータを活⽤し、スマートマニュファクチャリングのためのデータ中⼼の産業⼤知識モデル (ILKM)フレームワークを提案 タスク(ツール) ナレッジ Agentic AI Systems
  33. SWE-AGENT • SWE-agentのために設計されたAgent-Computer Interface (ACI)を開発 検索/ナビゲーションコマンド • find file: リポジトリ内のファイル名を検索

    • search file: ファイル内の⽂字列を検索 • search dir: ディレクトリ内のファイルで⽂字列を検索 ファイルビューアコマンド • open: ファイルのパスを指定して開く • scroll down: ファイル内を下にスクロール • scroll up: ファイル内を上にスクロール • goto: 特定の⾏にジャンプ • バグ修正:search fileでバグがある関数を特定し、editで修正、pythonで修正が正しいか確認し、最終的に submitで修正をリポジトリに適⽤ • 新機能の追加:find fileで関連するファイルを特定し、openで内容を確認、editで新しいコードを追加し、 pythonでテスト実⾏、submitで適⽤ ファイルエディタコマンド: • edit: 開いているファイルの特定の⾏を編集 • linting: コードのエラーチェック コンテキスト管理: • submit: 最終的なパッチファイルを提出 • python: Pythonスクリプトの実⾏ Agentic AI Systems
  34. Autonomous LLM-driven research from data to human-verifiable research papers •

    データから⼈間が検証可能な研究論⽂を⾃動⽣成するプラットフォームdata-to-paperの提案 • データから仮説を⽴て、研究計画を設計し、コードを作成して解析を実⾏し、結果を⽣成・解釈し、最終的に 完全な研究論⽂を作成する • ⾃律的に新しい定量的洞察を⽣成し、既存の出版物と同様の論⽂を約80-90%の正確さで⽣成できた エージェントの作業プロセス Agentic AI Systems
  35. Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents

    • LLMエージェントを⽤いた病院シミュレーションAgent Hospitalを提案 • 患者、看護師、医師が⾃律的なエージェントとして機能し、病気の発症から治療、回復までの全プロセスをシ ミュレートする • 医師エージェントがシミュレーション内での患者とのインタラクションを通じて経験を蓄積し、診断精度を向 上させる • 医師エージェントが10,000⼈の患者を治療した後、MedQAデータセットの主要な呼吸器疾患サブセットで 93.06%の精度を達成 MedAgent-Zero戦略 診断や治療の 失敗と成功の経験 患者の診察と経過の記録 Multi Agent Systems
  36. MARE: Multi-Agents Collaboration Framework for Requirements Engineering • 要求⼯学のためのマルチエージェント フレームワークMAREの提案

    • MAREは、要求の引き出し、モデリン グ、検証、仕様化の4つのタスクに分割 される • MAREはより正確な要求モデルを⽣成 し、最新のアプローチを15.4%上回る性 能を⽰す Multi Agent Systems
  37. Unveiling Disparities in Web Task Handling Between Human and Web

    Agent • ⼈間を理解し、エージェントを作る。⼈間のウェブタスク遂⾏における認知⾏動や操作を明らかにし、エー ジェント設計の新たな⽅向性を⽰した • ⼈間はタスク遂⾏中に新たな情報を発⾒し、それに基づいて計画を修正する傾向がある • ⼈間は失敗の理由を深く検討し、新しい情報を探求する⾏動パターンがある • エージェントにも知識更新が必要 • 知識更新モジュール:情報収集、情報⽐較、知識統合、計画更新、⾏動適応 ⼈間の認知⾏動の調査結果 ⼈間のWeb操作の調査結果 Computer Controlled Agents
  38. Agent Tools 製品の市場調査 • AI Agents are disrupting automation:⾃動化の市場調査 •

    How to get AI ʻagentsʼ working like humans • 新たな AI AgentOps の展望 • AIの職場導⼊に関する最新のトレンド from Microsoft and LinkedIn • Largest library of AI-UX Interactions 技術記事 • Agents for Amazon Bedrock: Handling return of control in code • Generative AIが製品設計に与える影響とその調整 • The Agentic Era of UX リリース情報 • Assistants API 画像理解対応 • OpenAI Model Spec公開 海外ベンチャー企業 • Assista/単⼀のアプリからビジネス管理 • Fin AI Copilot/パーソナル AI アシスタント
  39. AI Agents are disrupting automation:⾃動化の市場調査 ロボティック・プロセス・オートメーション(RPA) • ⼿動の反復作業を⾃動化するためのプラットフォーム • 使⽤例:

    データ⼊⼒、請求書処理、顧客サポートなどのタスク iPaaS • データ、アプリケーションソース、APIを統合するためのミドルウェア層 • 使⽤例: 異なるシステム間でのデータの同期と統合 ローコード・タスク⾃動化プラットフォーム • シンプルなUIで反復タスクを⾃動化するプラットフォーム • 使⽤例: APIを通じてアプリ間のデータフローを⾃動化 垂直型⾃動化アプローチ • 特定のワークフローに焦点を当てたアプローチ • 使⽤例: サプライチェーン管理、ITサービスマネジメント(ITSM)、カスタマーサポートチャットボット
  40. AI Agents are disrupting automation:⾃動化の市場調査 エージェント⾃動化フレームワーク/Copilots/GPTs and Agents コパイロット •

    既存のアプリケーションやプラットフォームに統合された⽣成AIベースのインターフェース • 使⽤例:タスクの提案、コンテンツ⽣成、ユーザーフローの⽀援 エージェント • LLMの能⼒とコードとデータ、UIをを組み合わせてワークフローを実⾏する複合的なシステム • 使⽤例:コード⽣成、データ抽出、タスクの計画と実⾏ ノーコード エージェント/GPTs • コーディングの知識がなくても簡単にタスクエージェントを作成できるプラットフォーム • 使⽤例:簡単なタスクの⾃動化、特定のデータ抽出、簡単なレポート⽣成など
  41. How to get AI ʻagentsʼ working like humans • AI

    エージェントとそのプラットフォームを構築している 94 社を分析 • 職場の⽣産性などの⼀般的なタスクに焦点を当てたエージェント • 特定の仕事を実⾏する機能固有のエージェント • 特定の職業全体にわたるさまざまなタスクを⾃動化することを⽬的とした業界固有のエージェント リンク
  42. AIの職場導⼊に関する最新のトレンド from Microsoft and LinkedIn • 職場のAI利⽤者は時間の節約、重要な業務への集中、創造性の向上、仕事の楽しさ向上を感じている。 • 多くのリーダーは AI

    の必要性に同意するが、ROI を⽰す重圧により、リーダーの動きが鈍くなっている。 • 仕事で AI を使⽤する52%は、最も重要なタスクに AI を使⽤していることを認めたがらない。重要な仕事で AI を使⽤すると、仕事がAIで代替可能に⾒えるのではないかと懸念している(機会の損失) • 電⼦メールの過負荷は依然として続いている。電⼦メールの85%は 15 秒以内に読まれ、⼀般的な⼈は1 通の電 ⼦メールを送信するごとに約4 通の電⼦メールを読まなければならない。Microsoft 365 アプリでは、ユーザー は時間の60%を電⼦メール、チャット、会議に費やし、その他の時間はわずか40 %です。(改善の余地) • 今後 5 年以内に、AIに⾮常に詳しいリーダーの41%が AI を使⽤してビジ ネスプロセスを根本から再設計すると予想する。 • AIのヘビーユーザーは、タスクの前に頻繁にAI が役⽴つかどうか⾃問す る傾向が⾼く 、最初に完璧な回答が得られなかった場合でも試し続け、 新しいプロンプトを調査して試す。彼らはすでに個別のタスクを超えて、 AI を使⽤してビジネスプロセスとワークフローを再設計する可能性が⾼ い(ビジネスプロセスの変⾰の始まり) • リーダーは、従業員の AI に対する熱意をビジネス変⾰に向けることが重 要。ビジネス上の問題を特定しAI を適⽤する。トップダウン、ボトム アップのアプローチをとる。AIスキルのトレーニングを優先する。 https://www.microsoft.com/en-us/worklab/work-trend-index/ai-at-work-is-here-now-comes-the-hard-part/
  43. Agents for Amazon Bedrock: Handling return of control in code

    • 以前紹介した Agents for Amazon Bedrock のReturn of control 機能に関する実装紹介ブログ • ブログでは、顧客がシステムにログインできない問題に対して、エージェントがCRMから顧客情報 を取得し、システムのログインステータスを確認後、メールの返信案を⽣成してます。CRMには外 部APIが⽤意されています。 • Return of control を使⽤すると、既存のアプリケーションから直接APIを呼び出せます。新たに Lambda関数を構築し、認証やネットワーク設定を⾏う必要がないため、既存のインフラに簡単に 統合できます。 CRMから顧客情報の取得 ログインできるか検証 https://community.aws/content/2g8NsQl8CvJhxQ0635HKkg6hMga/agents-for-amazon-bedrock-handling-return-of-control-in-code
  44. Generative AIが製品設計に与える影響とその調整 • GoogleのPeople + AI Research(PAIR)の4⽉27⽇の記事 • Generative AIの進化に伴い、UXデザインはユーザーのメンタルモデルを考慮し、AIを「コラボレー

    ター」として位置づけ、ユーザーの期待を適切に調整する必要がある • メンタルモデルとは、ユーザーが製品や技術の動作を理解するために⼼の中で形成する認識の枠組み 実践的なアプローチ • AIがユーザーの意図を理解し、⾏動許可を⼈間に求めることで、ユーザーとの信頼関係を築く • AIシステムを使ったコード⾃動⽣成のような新しい⽂脈で、ユーザーのメンタルモデルを更新するサポー トが必要 • ユーザーの経験レベルに応じた説明やインタラクションを提供し、AIに対する理解と信頼を深める https://medium.com/people-ai-research/generative-ai-is-reshaping-our-mental-models-of- how-products-work-product-teams-must-adjust-953127660dff
  45. The Agentic Era of UX Agentic UX • 分析・意思決定の認知、視覚化やメディア作成の創造、ワークフローの運⽤に重点を置く •

    従来はユーザー操作をサポートする⾜場を提供していたが、今後は継続的な⽀援をするパートナー基準の 体験を提供する 良い例 • ビデオ録画ソリューションである Loomがユーザーのジャーニー全体を考慮した良い例 • Loomは、ユーザーのワークフロー全体をサポートし、ビデオの録画から、⾃動的に⽂字起こし、編集し、 Jira チケットを切るまでの機能を提供します。このエンドツーエンドの視点は今⽇の AI UX に⽋けている。 UXを考えるために 1. ユーザージャーニーをすべて⾒直してください 2. ジャーニーの各段階で、ユーザーの認知、オペレーション、創造的な負担、またはユーザーが最も孤独に なるポイントを調べます 3. ジャーニーの各ステップで、AI エージェントの独⾃の機能を適⽤してユーザーのタスクをサポートする⽅ 法を検討します。 https://uxdesign.cc/the-agentic-era-of-ux-4b58634e410b
  46. Assistants API 画像理解対応 • アシスタント API が画像をサポート • 画像 URL

    またはアップロードされたファイルを使⽤してメッセージを送ると、アシスタントは会 話のコンテキストの⼀部として画像を使⽤します。 • サポートされている画像形式は、png、jpg、gif、webp • 現在、組織ごとに 100 GB、組織内のユーザーに対して 10 GB の制限 • 現在、 Code Interpreter では画像 URL をダウンロードできません • Code Interpreterに画像ファイルを渡すには、メッセージの添付ファイルリストにファイルIDを追加 https://platform.openai.com/docs/assistants/how-it-works
  47. OpenAI Model Spec • 研究者やデータラベラーが、RLHFの⼀環としてデータを作成する際のガイドラインとして使⽤する • ⼀部は OpenAIでRLHFに使⽤したドキュメントに基づく部分もある • ガイドラインには、定義、⽬的、ルール、デフォルトの4つが記述される

    定義 アシスタント:エンドユーザーまたは開発者が対話するエンティティ 会話:モデルへの有効な⼊⼒は会話であり、メッセージのリストで構成されます メッセージには次のフィールドが含まれる • role(必須):"platform", "developer", "user", "assistant", or "tool” のいずれか • recipient(オプション): メッセージの処理⽅法を制御。関数呼び出し (recipient=functions.fooJSON) 、⼀般的なツール (recipient=browser) • content(必須): テキストまたはマルチモーダル (画像など) データ • settings(オプション):モデルの設定を更新する、プラットフォームまたは開発者メッセージ専⽤の⼀ 連のキーと値のペア • end_turn(必須):アシスタント メッセージ専⽤のブール値。アシスタントがアクションの実⾏を停⽌ して制御をアプリケーションに戻すかどうか https://cdn.openai.com/spec/model-spec-2024-05-08.html
  48. OpenAI Model Spec ⽬的 • 開発者とエンドユーザーを⽀援する • ⼈類に利益をもたらす • OpenAIを振り返る

    ルール • 役割の権限が強い順に指⽰に従う Platform > Developer > User > Tool • 違法⾏為を促進、関与しない • 化学的、⽣物学的、核の脅威など危険な情報を提供しない • クリエイターとその権利(知的財産権など)を尊重する • ⼈々のプライバシー(個⼈の連絡先、従業員情報など)を保護する • NSFW コンテンツに応答しない https://cdn.openai.com/spec/model-spec-2024-05-08.html
  49. OpenAI Model Spec デフォルト • ユーザーまたは開発者の最善の意図を想定する • 必要に応じて明確な質問をする • ⾏き過ぎずにできる限り協⼒する

    • ⼈間との会話とシステム内のメッセージのやり取りを区別し動作する • 客観的な視点を持つ • 公平性と優しさを奨励し、憎悪を阻⽌する • ⼈の考えを変えようと説得しない • 不確実性を表現するか回答を拒否する • 業務に適したツールを使⽤する • ⻑さの制限を守りながら、必要に応じて⻑い回答と短い回答をする https://cdn.openai.com/spec/model-spec-2024-05-08.html
  50. Fin AI Copilot/パーソナル AI アシスタント Intercom のFin AI Copilot は、すべてのカスタマーサポート職員向けパーソナル

    AI アシスタント AI機能のある受信箱、電話、チケット管理、アシスタントとの会話相談機能があるプラットフォーム 特徴 研修、トラブルシューティング、ガイダンスに役⽴つ 過去の会話履歴から最良の回答をする あらゆるコンテンツと連携する 深い洞察、利⽤の監視を⾏える 動画:https://www.youtube.com/watch?v=XYK2VI_MbSk https://www.intercom.com/support-for-agents/ai-copilot 動画では素早く⽚付けられることを通知量で表していた チケット対応の裏でFinアシスタントが⽀援
  51. New Papers Agent Framework/Capabilities ペルソナ • From Persona to Personalization:

    A Survey on Role-Playing Language Agents 推論 • Hallucination of Multimodal Large Language Models: A Survey • Many-Shot In-Context Learning 計画 • Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs RAG • A Survey on Retrieval-Augmented Text Generation for Large Language Models • When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively フレームワーク • Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • A Survey on Self-Evolution of Large Language Models • The Ethics of Advanced AI Assistants
  52. From Persona to Personalization: A Survey on Role-Playing Language Agents

    • LLMエージェントのロールプレイングに関するサーベイ ⼈⼝統計ペルソナ:職業、⺠族、性格タイプのような特定の⼈⼝統計的特徴を持つ⼈物を表す キャラクターペルソナ:実世界の公⼈や漫画、映画のキャラを含む、個々のキャラクターを表す 個⼈のペルソナ:特定の個⼈の⾏動や好みのデータに基づいてカスタマイズされ、継続的に更新されるユーザー プロファイルを表す
  53. Hallucination of Multimodal Large Language Models: A Survey • マルチモーダルLLMの幻覚の種類、原因、指標、低減⽅法を調査した論⽂

    • 幻覚の種類はカテゴリ幻覚、属性幻覚、関係幻覚の3つに分類 カテゴリ幻覚:画像に存在しないオブジェクトのカテゴリを⽣成する現象 属性幻覚:(⾊、形、材質など)に関して誤った情報を⽣成する現象 関係幻覚:画像内のオブジェクト間の関係を誤って⽣成する現象
  54. Many-Shot In-Context Learning • In-Context Learning のサンプル数を数百から数千に増やしたMany Shot Learningの検証 •

    精度が向上したタスク:感情分析、分類、物流の計画⽴案 • 精度が向上しにくいタスク:翻訳、要約、コード検証 • 教師サンプルの少なさを補うReinforced ICLとUnsupervised ICLの提案 Many Shot Learning では最も成績の良かったショット数 Few Shot Learning ではベンチマークで使⽤されるショット数
  55. Testing and Understanding Erroneous Planning in LLM Agents through Synthesized

    User Inputs • LLMエージェントが⻑期の複雑な計画タスクにおいて誤った計画を検出し、理解するためのフレームワークを 提案 • ユーザーの⼊⼒を基に制約をドメイン固有⾔語(DSL)で定義し、制約充⾜問題に落とし込み、そのもとで⽣ 成された計画が制約に違反するか検出する(制約充⾜問題として解がなければエージェントに計画は不可能) 制約条件を満たすか確認
  56. A Survey on Retrieval-Augmented Text Generation for Large Language Models

    • RAGのアルゴリズムをパートごとに⼿法を紹介するサーベイ論⽂ コメント • RAGをLLMエージェントに拡張すると、PlanningとTool UseとReflectionとMemoryが追加される • RAGのインデックスをToolとみなし、 インデクッス選択とクエリ⽣成をPlanningと考えると拡張しやすい • LLMエージェントにすると、Multi-hop Reasoning など⾼度な問題に応⽤できる
  57. When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

    • LLMが追加のコンテキストが必要なときに検索をおこなうように学習する⼿法の提案 • LLMが〈RET〉トークンを⽣成するように訓練され、そのトークンはモデルが質問に答えられない場合に情報 検索が必要であることを⽰す • 質問に直接回答できる場合と、追加情報が必要な場合を区別するようにデータセットを準備する
  58. Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation • ⼈間とAIエージェントの協調システムには3つの側⾯が重要と主張 •

    論⽂では分析タスクの協調を題材に議論しているが汎⽤性もある Agency:⼈間とAIエージェントの誰がタスクの決定権を持ち、責任を分担するかについての概念 Interaction:⼈間とAIがどのようにして情報を交換し、協働するかに関する概念 Adaptation:互いに学び合い、時間の経過とともに効率的な協⼒を⾏えるように成⻑していくプロセス 作ったシステムに対して、⼈間とAIそれぞれ線を描き 協調作業を構造的に分析し、理解できます
  59. A Survey on Self-Evolution of Large Language Models • LLM(エージェント含む)が新たなタスクに適応するために⾃⼰進化が求められる

    • ⾃⼰進化は経験の獲得、洗練、更新、評価の4段階の反復プロセスで構成される 経験の獲得 • 新たなタスクや未知の環境で初期の経験を蓄積する • 経験はタスクと試⾏とフィードバックで構成される 経験の洗練 • 獲得した経験を評価し、更新⽅法に合わせてデータを整形する • 経験はFilterlingか、Correcting か、Positiveデータのみか、Negativeと併⽤するか 更新 • 経験をもとに、モデルマージ、ツール作成、モデルパラメータかプロンプトかメモリを更新する 評価 • 更新されたモデルの性能を評価し、その効果を検証する
  60. The Ethics of Advanced AI Assistants • Google DeepMindからAIアシスタントの倫理的・社会的問題を体系的に扱う200ページ越えの論⽂ •

    アシスタントを4種類定義 発⾒と理解のための思考アシスタント • リサーチやデータ分析など、ユーザーが新しいアイデアや概念を理解し、学習するのを⽀援する アイデアやコンテンツ⽣成のためのクリエイティブアシスタント • ⽂章やデザイン、⾳楽など、様々な形式のコンテンツ作成など、ユーザーの創造的な作業を⽀援する 計画と⾏動のためのパーソナルアシスタント • スケジュール管理やリマインダー設定、重要な情報の整理など、ユーザーの⽇々の⽣活を⽀援する ⼈⽣の⽬標を推進するためのパーソナルAI • キャリアの進展、健康管理、個⼈的な成⻑など、ユーザーの⻑期的な⽬標や野⼼を⽀援する 以下の話題についても議論されていますが、⻑いので興味あるところだけ読めば良さそう • Value Alignment(価値のアライメント)、Well-being(ウェルビーイング)、Safety(安全性)、Malicious Uses(悪⽤) • Influence(影響⼒)、Anthropomorphism(擬⼈化)、 Appropriate Relationships(適切な関係)、 Trust(信頼)、 Privacy(プラ イバシー)
  61. The Ethics of Advanced AI Assistants 価値アライメント、安全性、誤⽤ • AIアシスタントは、ユーザーに⾃⾝の興味や⽬標を追求する⼒を与える •

    AIアシスタントは、ユーザーのウェルビーングを向上させる • AIアシスタントは、ユーザーの創造性を⾼める • AIアシスタントは、ユーザーの時間の有効活⽤を⽀援する • AIアシスタントは、価値アライメントによりユーザーのニーズが満たす ⼈間とアシスタントの相互作⽤ • AIアシスタントは、パーソナライズされたコーチングを通じて、ユーザーの成⻑と発達を促進するのに役⽴つ • AIアシスタントは、個⼈の嗜好を学び、意思決定を⽀援する情報を提供することで、ユーザーの⾃律性を促進する • AIアシスタントは、擬⼈化により⼼理的なサポートを提供し、ユーザーの⽬標達成を⽀援する • AIアシスタントは、適切な保証とプライバシー対策からユーザーに⼼理的な安⼼感を与え、デリケートな質問も助けられる • AIアシスタントは、より広範な⼈的交流や⼈間関係のネットワークをサポートする AIアシスタント社会 • AIアシスタントが、科学的発⾒を加速する • AIアシスタントは、⼈間同⼠の協⼒を強化する • AIアシスタントが、⼈間の対⼈コミュニケーションを強化する • AIアシスタントは、質の⾼い専⾨知識やアドバイスへのアクセスを⺠主化する • AIアシスタントは、誤った情報に関連する害を軽減する • AIアシスタントは、障害者にとってより公平な結果を達成するのに役⽴つ • AIアシスタントは、⽣産性と仕事の質を向上させる • AIアシスタントは、気候変動がもたらす課題に対処するのに役⽴つ
  62. Agent Tools ニュース • ChatGPT Plusの全ユーザーにメモリ機能搭載 • AIデバイス「rabbit r1」が正式発売 •

    LangSmith is now in Azure Marketplace • What is an Enterprise AI Agent? 海外ベンチャー企業 • Magical AI/RPA ブラウザ拡張機能 • Bardeen /RPA ブラウザ拡張機能 • ELEVENTH AI /RPAワークフロー⾃動化 • Truva AI/オンボーディング⽤AI ブラウザ拡張機能 • Graft Intelligence Layer/チームメイトAI • Kin /メモリに基づくパーソナライズAI • Sema4.ai/エンタープライズ向けGPTs
  63. AIデバイス「rabbit r1」が正式発売 • rabbit r1の発売イベントが、4⽉24⽇(⽶国時間)に開かれた • 最もシンプルなコンピューターをつくることがビジョン • rabbitの狙いは、まずはデバイスに話しかけてもらい、その後にコンピューターで処理すること •

    デモでは、rabbit r1のカメラで紙のテーブルデータの写真を撮り、⾳声で2列を⼊れ替えてたもの を⾃分宛にメールで送るように依頼し、成功した https://wired.jp/article/rabbit-r1-launch-event-nyc/
  64. LangSmith is now in Azure Marketplace • LangSmithが Azure Marketplace

    で利⽤可能になった • Azure Kubernetes アプリケーションとしてLangSmithを購⼊できる • LangSmithは、LLM アプリケーションの開発、テスト、監視を⾏うための統合 DevOps プラット フォーム https://blog.langchain.dev/announcing-langsmith-is-now-a-transactable-offering-in-the-azure-marketplace/
  65. What is an Enterprise AI Agent? • Sema4-aiのエンタープライズ向けAIエージェントブログ • エージェントの⾃動化範囲の拡⼤がタスク⾃動化、プロセス⾃動化と分かりやすい

    • ⾃然⾔語での指⽰の粒度が徐々に⼿先の動作レベルから業務フローレベルに⾼度化されていく https://medium.com/sema4-ai/what-is-an-enterprise-ai-agent-feae89d784ef
  66. Magical AI/RPA ブラウザ拡張機能 • 私たちの仕事の多くが異なるウェブサイトやアプリ間で情報を移動させていることが多い • Magical AIブラウザ拡張機能を使えば、繰り返し作業を⼤幅にスピードアップ • Automate

    tasks like typing repetitive messages, and updating databases. 営業 • どこにでもメッセージを素早く⾃動送信、CRMなど管理タスクの⾃動⼊⼒ サポート • チケット番号や顧客名を含む下書きを⾃動作成、タブ間の⾯倒なコピペを排除、顧客との⼀般的な会話をテンプレ登録 ヘルスケア • 患者のカルテを作成、異なるツール間で利⽤できるテンプレ登録、2 回のクリックで処⽅箋を作成 採⽤ • フォローアップメッセージを⾃動送信、Web サイトから候補データを⾃動収集、スプレッドシートに分類 教育/運⽤/個⼈ • フォームの⾃動記⼊、繰り返し業務の⾃動化、サイト間のデータ移動 https://www.getmagical.com/
  67. Truva AI/オンボーディング⽤AI ブラウザ拡張機能 • オンボーディング⽤エージェントをブラウザ拡張機能で提供 • Jira, confluence, Notion, Slack,

    Githubなど • 独⾃サービスもAPIがあればオンボーディング⽀援ができそう チャットでタスクを依頼 使い⽅が分からなくても助けてくれる 様々なソフトウェアで⽀援! https://www.youtube.com/watch?v=YIVvXvLv_ak
  68. New Papers Agent Framework/Capabilities • A Survey on the Memory

    Mechanism of Large Language Model based Agents • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs • GPT in Sheep's Clothing: The Risk of Customized GPTs • The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions • Aligning LLM Agents by Learning Latent Preference from User Edits • AgentKit: Flow Engineering with Graphs, not Coding Agentic AI Systems • CT-Agent: Clinical Trial Multi-Agent with Large Language Model-based Reasoning • Automated Social Science: Language Models as Scientist and Subjects∗ • A Multimodal Automated Interpretability Agent Multi Agent Systems • NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding • AgentCoord: Visually Exploring Coordination Strategy for LLM-based Multi-Agent Collaboration • Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents
  69. A Survey on the Memory Mechanism of Large Language Model

    based Agents • LLM エージェントのメモリに関してサーベイした論⽂ (1) LLMエージェントのメモリとは何か (2) なぜLLMエージェントにメモリが必要なのか (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールの重要性 Agent Framework
  70. A Survey on the Memory Mechanism of Large Language Model

    based Agents (1) LLMエージェントのメモリとは何か? • エージェントの試⾏履歴で表される • タスクごとにエージェントの試⾏軌跡データを管理する • 試⾏軌跡データは状態と⾏動の組の系列で表される Agent Framework
  71. A Survey on the Memory Mechanism of Large Language Model

    based Agents (2) なぜLLMエージェントにメモリが必要なのか • 経験の蓄積 • 将来似たタスクを遂⾏する際に効率が上がる • 過去のエラー計画、不適切な⾏動、または失敗した経験を記憶する • 環境探索 • いつ、どのように探索を⾏うかをより適切に決定することができる • 様々な⾏動をおこないフィードバックと共に記録する • 知識の抽象化 • 未知の環境に対して⼀般化できるようになる • ⽣の観察を要約することで⾼次に抽象化して記録する • 対話 • メモリがなければ、エージェントは⽂脈を知らず、会話を続けることができない • 過去の会話に関する情報を記憶する • パーソナライズ • ユーザーとエージェントの対話中の事実情報だけでなく、ユーザーの好みやスタイルも記憶する Agent Framework
  72. A Survey on the Memory Mechanism of Large Language Model

    based Agents (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールをどのように効果的に評価するかは未解決の問題 (1) 直接評価:メモリモジュールの能⼒を独⽴に測定する (2) 間接評価:エージェントタスクを通じてメモリモジュールを評価する Agent Framework
  73. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs •

    CoTの派⽣を網羅的にサーベイした論⽂ • CoTは問題を分解する途中過程を表す <input, thoughts, output> • CoTだけでは複雑な問題に対する理解が不⾜している • CoXでは途中過程の中間ノードを異なる形で設計し、具体的なタスクや⽬的に応じた構造を変えている Agent Capabilities
  74. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs Chain-of-Intermediates

    問題解決プロセスを明確な中間ステップに分割するこ とに重点 Chain-of-Augmentation タスク実⾏プロセスに追加の情報や指⽰を組み込むこ とに重点 Chain-of-Feedback ⽣成された内容の改善や精度向上を⽬的としたフィー ドバックの組み込みに重点 Chain-of-Models 異なる専⾨性を持つ複数のモデルを連携させることに 重点 Multi-Modal Interaction 画像内の詳細に焦点を当てるタスク、 テキストベースで画像編集を⾏うタスクなど Factuality & Safety LLMsが⽣成する情報の事実性や安全性を⾼めるタス ク Multi-Step Reasoning 問題を⼩さなステップに分割して逐⼀解決するタスク Instruction Following 与えられた指⽰に従って特定のタスクを実⾏する能⼒ を強化するタスク LLMs as Agents LLMを計画や意思決定プロセスに活⽤するタスク Evaluation Tools LLMの性能を評価するために特別に設計されたタスク Agent Capabilities
  75. GPT in Sheep's Clothing: The Risk of Customized GPTs •

    様々な種類のサイバー攻撃がGPTsを使⽤してどのように実⾏されるかを⽰した論⽂ • 防御策も提案( GPTの⾃⼰評価からセキュリティリスクを特定し、対策を講じる) 脅威の⼀覧 防御策の⼀覧 Agent Capabilities
  76. The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions •

    OpenAIからプロンプトインジェクションやジェイルブレイクなどのセキュリティ脅威に対処する対処法の提案 • モデルが指⽰に従う優先度をメッセージタイプで分ける指⽰階層(System>User>Model>Tool)を定義 • 実際にセキュリティ脅威の攻撃に対して頑健になった(Web browsingでの攻撃の脅威が少しはマシになるか) 優先度がわかる例 性能⽐較 Agent Capabilities
  77. Aligning LLM Agents by Learning Latent Preference from User Edits

    • ユーザーによる編集フィードバックを基にLLMエージェントのパーソナライズを改善する⼿法の提案 • ユーザーの⽂章の編集履歴から好みを学習し、それを活⽤してユーザーにより適したレスポンスを⽣成するこ とで、ユーザーの労⼒を減らし、エージェントのパフォーマンスを向上させる(Human in the Loop) Agent Framework
  78. AgentKit: Flow Engineering with Graphs, not Coding • 個別のサブタスクをノードとして定義し、ノードを連結して直観的な「思考プロセス」を形成することができ るLLMプロンプティングフレームワークAgentKitを提案

    • 各ノードは⼊⼒の前処理、LLMへのプロンプト処理、結果の後処理を⾏うよう設計 • プログラミング経験のないユーザーでも⾼度なエージェントを設計できる(Difyと似ているノーコード系) Agent Framework
  79. A Multimodal Automated Interpretability Agent • NNモデルの解釈可能性の実験を⾃律的に⾏うエージェントシステムの構築 • 解釈可能性のクエリが与えられると、特定の仮説をテストする実験を実⾏し、実験結果を観察し、ユーザのク エリに答えられるようになるまで仮説を更新する

    • ⼈間でもできる作業だが⾯倒なため、エージェントに代替 デモサイトあり:https://multimodal-interpretability.csail.mit.edu/maia/ 質問例 「特定のニューロンを活性化させる画像を教えて!」 「モデルのバイアスを教えて!」 MAIA Agentic AI Systems
  80. Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society

    of LLM Agents • 複数エージェントによる資源共有問題で戦略的かつ倫理的な意思決定を⾏う能⼒を評価するためのシミュレーショ ン環境をを開発 • エージェントに「もし全員がこの⾏動をとったらどうなるか」という視点から判断するように指⽰ • GPT-4 と Claude-3 Opus は即時報酬の最⼤化ではなく、その⾏動が集団全体に与える⻑期的な影響を考慮できた Multi Agent Systems 資源の分配 個⼈の判断 エージェント:漁師 共有資源:湖の⿂ 漁師の仕事をみんなが続けるためには、 全員が捕獲しすぎず、繁殖と収⼊の⻑期バランスを取る 個⼈の結果をもとに 次のラウンドを全員で議論 将来の計画 過去ラウンドに基づいて将 来の戦略を個⼈が練る MARL的な問題設定
  81. Agent Tools Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント

    • Agents for Amazon bedrock 機能紹介 4/23アップデート含む 海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents
  82. Google Cloud Next ʻ24 • エージェントは⼈間とつながり、ユーザーに代わって、テキスト、画像、⾳声、動画のように形式の異なる情報を同時 に処理し、対話、推論、学習、意思決定を⾏う • 6つのユースケースを紹介 •

    既存サービスにGeminiを乗せるのとエージェントが道具としてサービスを使う話が混在している • カスタマーエージェント • 優れた販売員やサービスマンと同様に、お客様の声に⽿を傾け、ニーズを理解し、適切な商品やサービスを勧める • ウェブ、モバイルアプリ、POS、コールセンターと連携 • 従業員エージェント • 従業員の⽣産性を⾼めるために 1 ⼈の従業員として業務をサポートする • Google ドライブ上のRAG、Google docs や Gmail での⽂書作成⽀援、 Google スライドのスライドや画像⽣成 • クリエイティブエージェント • デザイナーのようなクリエイティブなタスクをこなす • Imagen 2.0、 Text-to-Live Image • データエージェント • データアナリストのように、企業のデータを使った意思決定をサポートする • BigQuery、LookerにGemini搭載 • コードエージェント • アプリケーションを開発するエンジニアの⽣産性を⾼める(Gemini Code Assist ) • セキュリティエージェント • チャットを通じて、セキュリティインシデント内容を要約、推奨されるアクションを提案をする https://cloud-ace.jp/column/detail468/ https://www.youtube.com/watch?v=V6DJYGn2SFk (4/10開催)
  83. Agents for Amazon bedrock の特徴 • Claude3 SonnetとHaikuまで利⽤可能 • Agents

    for Amazon Bedrock は現時点では⽇本リージョンに対応していない ⾃動プロンプト作成 開発者が提供する役割指⽰、APIやfunction の詳細、およびナレッジベースからの企業 データソースの詳細に基づいてプロンプト を作成 計画によるサブタスクの作成と実⾏ 必要な API を⾃動的に呼び出して実⾏ CoT推論によるトレース トレース機能からエージェントの推論と計 画を段階的に確認 プロンプトエンジニアリング ⾃動⽣成されたプロンプトテンプレートを さらに改良してUXを向上 https://aws.amazon.com/jp/bedrock/agents/
  84. Agents for Amazon bedrock のアプデ 4/23 • エージェントの外部ツール呼び出し(アクショングループ)の設定が以前より簡素化された • アクショングループは、Lambda

    関数を関連付けたり、エージェントを呼び出しているユーザーまたはアプリ ケーションに制御を返して関数に応答できるように設定できる • (New) Return of control:AWS Lambda関数の使⽤せず、エージェントを呼び出すアプリケーションに制御を返す ⼈間にタスクを実⾏してもらうことができる • 時間のかかるアクションがある場合 • タスクの継続時間が Lambda 関数の最⼤タイムアウトである 15 分を超える場合 • 既存のアプリケーション (エージェントの呼びだしもと) から API を呼び出す⽅が簡単な場合 Return of control ユーザーに外部サービスの結果 を⼊⼒してもらう https://aws.amazon.com/blogs/aws/agents-for-amazon-bedrock-introducing-a-simplified-creation-and-configuration-experience/
  85. Introducing Dify Workflow • Difyはエージェントのワークフローをノード間を線で繋ぐ直感的なドラッグ&ドロップで作れるサービス • ワークフローは API 対応で、既存のアプリケーションやシステムに簡単に統合できる •

    プロトタイプを作るときに使いやすいかもしれない (Apr 8, 2024公開) ノードに細かく設定ができる デバッグも細かくできる https://dify.ai/blog/dify-ai-workflow
  86. Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various

    LLMs • OpenAI Assistants APIと類似機能もあり 作成⼿順 • 新しいアシスタント アプリを作成する • プロンプトを作成する • エージェントが使⽤するツールを構成する • デプロイする (2024 年 1 ⽉ 24 ⽇に公開)
  87. Bland AI/Phone Agents • Bland は AI 通話のためのプラットフォーム(コールセンター、リード獲得など) • AI電話エージェントはいつでもリードに連絡を取ったり、顧客からの呼び出しに応答でき、質問に即座に対応

    できる • ⽂字起こし、⾔語理解、テキスト読み上げモデルの組み合わせも 1 秒以内に実⾏する • 1秒以内レスポンスに向けてモデル以外にもプロンプトを⼯夫する • 電話エージェントの⼈物像、応答すべき質問の種類、応答すべきでない質問の種類、誰かが電話エージェントを脱獄しよ うとした場合の対処⽅法を記載 https://www.bland.ai/blog/how-to-build-an-ai-call-center How to build an AI Call Center( April 7, 2024 ) 電話の内容を別のツールと接続可能
  88. Alpha Corp/Group Chat With AIs • 社内ChatGPTでAI同⼠のグループチャットができる • 複数のモデルが利⽤可能 •

    同じチャットの中でモデルの⽐較ができる • 2つのモデルでチャットシミュレーション • AIがAIに応えることができる https://alphacorp.ai/
  89. The UX of AI: Lessons from Perplexity • Perplexity AI

    のデザイン責任者であるヘンリー モディセットとの対談記事 • Perplexity は、信頼できる情報をできるだけ早く提供することに重点を置いた急成⻑中の AI スタートアップ • 製品が⼤きく複雑になればなるほど、快適なエクスペリエンスを提供することが難しくなる • 擬⼈化されたコンセプトを持つことによるメリットはほとんどありません シンプルに回答の⼀番上に情報源(記事、画像、地図、 ビデオ)を表⽰し、それから答えがある。 答えはチャットではない。 https://www.nngroup.com/articles/perplexity-henry-modisett/
  90. The Rise and Fall of (Autonomous) Agents • LLMに基づく⾃律型エージェントの発展と課題をまとめたブログ(2024 年

    3 ⽉ 4 ⽇公開) 的を得た⼀⽂ • エージェントは現在、⽬標が達成されるまで⼤きなタスクを管理可能な⼩さなタスクに分割するプロジェクト 管理エージェントに依存しています。 課題 • 閉ループに陥る • ユーザビリティが低い • 信頼性が⼗分ではない https://medium.com/@lukas.kowejsza/the-rise-and-fall-of-autonomous-agents-18360625067e
  91. New Papers Agent Framework/Capabilities • Memory Sharing for Large Language

    Model based Agents • Foundational Challenges in Assuring Alignment and Safety of Large Language Models • ChatShop: Interactive Information Seeking with Language Agents • Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing • The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey Multi Agent Systems • Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation Computer Controlled Agents • MMInA: Benchmarking Multihop Multimodal Internet Agents
  92. Foundational Challenges in Assuring Alignment and Safety • LLMの安全性を保証するのに役⽴つ課題を説明した論⽂ •

    エージェントに関する指摘事項 • LLMエージェントが継続的に⽣涯学習(Lifelong Learning)をすること • フィードバックや新しい経験に基づいて⾃⾝の理解を適応させる能⼒によって駆動する必要がある • そのために強化学習や転移学習の利⽤と発展が求められる • LLMエージェントが不完全で不確実で⾼いリスクを伴う状況に対してロバストかつ慎重に⾏動すること • 曖昧なシナリオで慎重な決定を下すため、アンサンブル、不確実性の定量化や安全な強化学習を導⼊ する必要がある • LLMエージェントが欺瞞、権⼒追求、⾃⼰保存などの望ましくない⾏動にどのように傾くか把握すること • 解釈可能性の技術から、⾏動の原因分析をする必要がある • LLMエージェント向けのよりロバストなモニタリングシステムを構築すること • 予期せぬ⾏動や予想される規範からの逸脱を特定するための⾼度な異常検出アルゴリズムを組み込む • LLMエージェント間の共謀⾏動を防⽌および検出すること • 敵対的攻撃などから技術を発展させる必要がある Agent Capabilities
  93. ChatShop: Interactive Information Seeking • 現状のLLMエージェントは戦略的に新しい情報を探求する能⼒が⽋けている • ウェブショッピングのタスクを利⽤し、エージェントが対話を通じてユーザーの好みを探り、情報を徐々に蓄 積することで意思決定を⾏うChatShopというタスクを提案 •

    エージェントがリアルタイムでユーザーと対話しながら商品情報を収集し、適切な商品を推薦する能⼒が評価 買い物客が⼈間かエージェントかでエラー分析 要件忘れ/誤解/質問不⾜/繰り返す同じ質問/ミスリード Agent Capabilities
  94. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing •

    モンテカルロ⽊探索(MCTS)とLLMを統合したALPHALLM を提案し計画と⾃⼰改善を改善 • Imagination (類似プロンプト⽣成)、 Searching (MCTS)、 Criticizing (フィードバック提供)の3つの コンポーネントで構成 • MCTSでは以下の⼯夫をして探索範囲を狭めている • ⾏動空間をトークンや⽂レベルでなくオプションレベルにする • 状態空間も状態マージの既存⼿法からグルーピングをおこなう Agent Capabilities
  95. AI Agent Architectures for Reasoning, Planning, and Tool Calling: A

    Survey • シングルとマルチのエージェントアーキテクチャの良し悪しや現状のエージェントの課題を説明した論⽂ • シングルエージェントアーキテクチャ • ReAct:Reasoning + Act ⼈間のフィードバックが⼊れられない、思考のループなどが課題 • RAISE : ReActにメモリを持たせたが、複雑なタスクに幻覚を⾒る • Reflextion:⾔語フィードバックで幻覚を減らすが、参照情報が必要で検索性能とトークンの制限に苦しむ • AUTOGPT+P:Planningを⼊れてツールを使うが、正しくないツール利⽤や⼈間から計画の修正ができない • LATS:計画と⾏動と推論をツリーベースにするが、推論時間とアルゴリズムの複雑さから実⽤性が困難か • マルチエージェントアーキテクチャ • Dynamic LLM-Agent Network :タスクごとにエージェントの貢献度を測定し、貢献度の⾼いチームを作る • AgentVerse:ラウンドごとにチームメンバーを⼊れ替え、タスクをこなす • MetaGPT:エージェント間の会話を構造化した⽂書でやりとりし、情報共有の仕⽅を徹底した • 課題 • エージェントの評価コストが⾼い • ベンチマークに他のエージェントも評価できるほど汎⽤性がない • 現実世界と問いデータとの差がどのくらいあるのか Agent Framework
  96. Confidence Calibration and Rationalization for LLMs via Multi- Agent Deliberation

    • RLHFで微調整されたモデルは過信しやすいことが別論⽂で⽰されている • LLMの信頼度推定に複数のLLMエージェントによる2段階のグループ審議プロセス⽅法を提案 Multi Agent Systems
  97. MMInA: Benchmarking Multihop Multimodal Internet Agents • 複数ウェブサイトを遷移しながらタスクを遂⾏するWebエージェントのベンチマーク • 全体的にGemini-Pro-Visionの⽅がGPT-4Vより精度が⾼い

    • 2つのサイトで済む簡単なタスク設定でも1サイト⽬で70%、2サイト⽬で8%まで成功率が落ちる Computer Controlled Agents
  98. Agent Tools • Gemini 1.5 Pro • OpenAI Batch API

    • OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks
  99. Gemini 1.5 Pro • Googleは100万トークンのGemini 1.5 ProをGoogle AI Studioで公開 •

    ネイティブオーディオの理解 • Gemini API と Google AI Studio の両⽅で使える • ビデオの画像 (フレーム) とオーディオ (⾳声) の両⽅を理解できる • ファイルAPI • プロジェクトごとに最⼤ 20 GB、ファイルサイズの上限は2GB、アップロード後2⽇で削除 • 画像、動画、⾳声ファイル対応 • System InstructionとJSONモードの導⼊ • 役割、形式、⽬標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御できる • JOSNモードでは、テキストまたは画像から構造化データを抽出できる • function callingの改善 • 関数呼び出しモードで使うか使わないかわからないAUTO, 必ず呼ぶANY, 使わないNoneが選べる • テキスト埋め込みモデルtext-embedding-004もリリース https://ai.google.dev/gemini-api/docs/function-calling?hl=ja https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
  100. OpenAI Assistants API v2 • 最⼤ 10,000 個のファイルを取り込めるファイル検索(file_search)機能をリリース • RAGで最初にやりそうなことはファイル検索機能に追加された

    • 各実⾏で使⽤されるメッセージ数に制限の設定/トークン数の最⼤値の設定が可能に • tool_choiseパラメータ”code_interpreter”, ”function”に”file_search”が指定可能に • gpt-3.5-turbo-0125のFine-Tuningモデルが利⽤可能 • ストリーミング対応 https://platform.openai.com/docs/assistants/whats-new
  101. LlamaIndex: An Introduction to Agents Tutorial Series • LlamaIndexのYoutubeにエージェント開発⽤のチュートリアル動画があがった •

    ステップバイステップ実⾏とToolの利⽤後にLLMの⽣成を挟まないreturn_direct 変数にオリジナリティがあっ たかも https://medium.com/llamaindex-blog/data-agents-eed797d7972f
  102. LangChain Benchmarks • LLM 関連タスクのベンチマークを⽀援するパッケージ • Tool Usage (2024-04-18)の項⽬が追加 •

    gpt4-turboとclaude-sonnetが良い勝負している、計算タスクだけgpt-35-turboが良い
  103. New Papers Agent Framework/Capabilities • GoEX: Perspectives and Designs Towards

    a Runtime for Autonomous LLM Applications • AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications • Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought • Graph of Thoughts: Solving Elaborate Problems with Large Language Models Agentic AI Systems • ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models • AutoCodeRover: Autonomous Program Improvement Multi Agent Systems • 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System Computer Controlled Agents • OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments • Autonomous Evaluation and Refinement of Digital Agents
  104. Autonomous Evaluation and Refinement of Digital Agents • デジタルエージェントの性能をVLMで軌跡かステップレベルで評価し⾃動で改良する⼿法を提案 •

    ⾃動評価の精度はオラクルと⽐較し80~90% ユーザーの意図は、GitLab で最もスターが付けられている上位 1 リポジトリにスターを付けること でしたが、ボットは既にスターが付けられている特定のリポジトリにスターを付けようとしました。 問題のリポジトリがスター付きのトップ1であることを⽰すものはなく、ボットはユーザーの意図に 基づいて正しいリポジトリとやりとりしていることを確認するためのアクションを実⾏しませんでし た。したがって、タスクは正常に完了していません。 成功した評価の例 Computer Controlled Agents
  105. Agent Tools • Vertex AI Agent Builder • Claude 3

    AI Expands with Tool Integration • Humane AI Pin review: not even close
  106. Claude 3 AI Expands with Tool Integration • ツールの定義と利⽤⽅法はだいたいOpenAIに準拠している ベストプラクティス

    • ツール定義 • exanpleよりもdescriptionを優先する • 多くのツール利⽤可能 • 数百のシンプルなツールと少数のパラメータの多い複雑なツールでも、90% を超える精度を実現 • 順番にツール利⽤ • ⼀度に 1 つのツールを使⽤し、そのツールの出⼒を使⽤して次のアクションを通知することを好む • ツールの繰り返し傾向 • 2 〜 3 回試⾏が失敗すると、Claudeは諦めて、さらに再試⾏する代わりにユーザーに謝る https://docs.anthropic.com/claude/docs/tool-use
  107. Humane AI Pin review: not even close 良点 ・画⾯を⾒る時間が減り、現実に集中できる ・ワンタップで作業が完了する

    ⽋点 • 実⽤性:数回に⼀度失敗する。回答待ち時間が⻑い。 • デバイスの問題:バッテリー寿命が短く、過熱しやすい。カバンにひっかかる。 • 価格:完成度が低く、700 ドルか⽉額 24 ドルする。 https://www.theverge.com/24126502/humane-ai-pin-review