Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News!

masatoto
April 29, 2024

Weekly AI Agents News!

4月29日更新済み
週次か気が向いたときに更新します。
AI エージェントに関する論文かニュースをシンプルにまとめます。

masatoto

April 29, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. New Papers Agent Framework/Capabilities • A Survey on the Memory

    Mechanism of Large Language Model based Agents • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs • GPT in Sheep's Clothing: The Risk of Customized GPTs • The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions • Aligning LLM Agents by Learning Latent Preference from User Edits • AgentKit: Flow Engineering with Graphs, not Coding Agentic AI Systems • CT-Agent: Clinical Trial Multi-Agent with Large Language Model-based Reasoning • Automated Social Science: Language Models as Scientist and Subjects∗ • A Multimodal Automated Interpretability Agent Multi Agent Systems • NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding • AgentCoord: Visually Exploring Coordination Strategy for LLM-based Multi-Agent Collaboration • Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents
  2. A Survey on the Memory Mechanism of Large Language Model

    based Agents • LLM エージェントのメモリに関してサーベイした論⽂ (1) LLMエージェントのメモリとは何か (2) なぜLLMエージェントにメモリが必要なのか (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールの重要性 Agent Framework
  3. A Survey on the Memory Mechanism of Large Language Model

    based Agents (1) LLMエージェントのメモリとは何か? • エージェントの試⾏履歴で表される • タスクごとにエージェントの試⾏軌跡データを管理する • 試⾏軌跡データは状態と⾏動の組の系列で表される Agent Framework
  4. A Survey on the Memory Mechanism of Large Language Model

    based Agents (2) なぜLLMエージェントにメモリが必要なのか • 経験の蓄積 • 将来似たタスクを遂⾏する際に効率が上がる • 過去のエラー計画、不適切な⾏動、または失敗した経験を記憶する • 環境探索 • いつ、どのように探索を⾏うかをより適切に決定することができる • 様々な⾏動をおこないフィードバックと共に記録する • 知識の抽象化 • 未知の環境に対して⼀般化できるようになる • ⽣の観察を要約することで⾼次に抽象化して記録する • 対話 • メモリがなければ、エージェントは⽂脈を知らず、会話を続けることができない • 過去の会話に関する情報を記憶する • パーソナライズ • ユーザーとエージェントの対話中の事実情報だけでなく、ユーザーの好みやスタイルも記憶する Agent Framework
  5. A Survey on the Memory Mechanism of Large Language Model

    based Agents (3) LLMエージェントのメモリをどのように実装し評価するか メモリモジュールをどのように効果的に評価するかは未解決の問題 (1) 直接評価:メモリモジュールの能⼒を独⽴に測定する (2) 間接評価:エージェントタスクを通じてメモリモジュールを評価する Agent Framework
  6. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs •

    CoTの派⽣を網羅的にサーベイした論⽂ • CoTは問題を分解する途中過程を表す <input, thoughts, output> • CoTだけでは複雑な問題に対する理解が不⾜している • CoXでは途中過程の中間ノードを異なる形で設計し、具体的なタスクや⽬的に応じた構造を変えている Agent Capabilities
  7. Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs Chain-of-Intermediates

    問題解決プロセスを明確な中間ステップに分割するこ とに重点 Chain-of-Augmentation タスク実⾏プロセスに追加の情報や指⽰を組み込むこ とに重点 Chain-of-Feedback ⽣成された内容の改善や精度向上を⽬的としたフィー ドバックの組み込みに重点 Chain-of-Models 異なる専⾨性を持つ複数のモデルを連携させることに 重点 Multi-Modal Interaction 画像内の詳細に焦点を当てるタスク、 テキストベースで画像編集を⾏うタスクなど Factuality & Safety LLMsが⽣成する情報の事実性や安全性を⾼めるタス ク Multi-Step Reasoning 問題を⼩さなステップに分割して逐⼀解決するタスク Instruction Following 与えられた指⽰に従って特定のタスクを実⾏する能⼒ を強化するタスク LLMs as Agents LLMを計画や意思決定プロセスに活⽤するタスク Evaluation Tools LLMの性能を評価するために特別に設計されたタスク Agent Capabilities
  8. GPT in Sheep's Clothing: The Risk of Customized GPTs •

    様々な種類のサイバー攻撃がGPTsを使⽤してどのように実⾏されるかを⽰した論⽂ • 防御策も提案( GPTの⾃⼰評価からセキュリティリスクを特定し、対策を講じる) 脅威の⼀覧 防御策の⼀覧 Agent Capabilities
  9. The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions •

    OpenAIからプロンプトインジェクションやジェイルブレイクなどのセキュリティ脅威に対処する対処法の提案 • モデルが指⽰に従う優先度をメッセージタイプで分ける指⽰階層(System>User>Model>Tool)を定義 • 実際にセキュリティ脅威の攻撃に対して頑健になった(Web browsingでの攻撃の脅威が少しはマシになるか) 優先度がわかる例 性能⽐較 Agent Capabilities
  10. Aligning LLM Agents by Learning Latent Preference from User Edits

    • ユーザーによる編集フィードバックを基にLLMエージェントのパーソナライズを改善する⼿法の提案 • ユーザーの⽂章の編集履歴から好みを学習し、それを活⽤してユーザーにより適したレスポンスを⽣成するこ とで、ユーザーの労⼒を減らし、エージェントのパフォーマンスを向上させる(Human in the Loop) Agent Framework
  11. AgentKit: Flow Engineering with Graphs, not Coding • 個別のサブタスクをノードとして定義し、ノードを連結して直観的な「思考プロセス」を形成することができ るLLMプロンプティングフレームワークAgentKitを提案

    • 各ノードは⼊⼒の前処理、LLMへのプロンプト処理、結果の後処理を⾏うよう設計 • プログラミング経験のないユーザーでも⾼度なエージェントを設計できる(Difyと似ているノーコード系) Agent Framework
  12. A Multimodal Automated Interpretability Agent • NNモデルの解釈可能性の実験を⾃律的に⾏うエージェントシステムの構築 • 解釈可能性のクエリが与えられると、特定の仮説をテストする実験を実⾏し、実験結果を観察し、ユーザのク エリに答えられるようになるまで仮説を更新する

    • ⼈間でもできる作業だが⾯倒なため、エージェントに代替 デモサイトあり:https://multimodal-interpretability.csail.mit.edu/maia/ 質問例 「特定のニューロンを活性化させる画像を教えて!」 「モデルのバイアスを教えて!」 MAIA Agentic AI Systems
  13. Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society

    of LLM Agents • 複数エージェントによる資源共有問題で戦略的かつ倫理的な意思決定を⾏う能⼒を評価するためのシミュレーショ ン環境をを開発 • エージェントに「もし全員がこの⾏動をとったらどうなるか」という視点から判断するように指⽰ • GPT-4 と Claude-3 Opus は即時報酬の最⼤化ではなく、その⾏動が集団全体に与える⻑期的な影響を考慮できた Multi Agent Systems 資源の分配 個⼈の判断 エージェント:漁師 共有資源:湖の⿂ 漁師の仕事をみんなが続けるためには、 全員が捕獲しすぎず、繁殖と収⼊の⻑期バランスを取る 個⼈の結果をもとに 次のラウンドを全員で議論 将来の計画 過去ラウンドに基づいて将 来の戦略を個⼈が練る MARL的な問題設定
  14. Agent Tools Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント

    • Agents for Amazon bedrock 機能紹介 4/23アップデート含む 海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents
  15. Google Cloud Next ʻ24 • エージェントは⼈間とつながり、ユーザーに代わって、テキスト、画像、⾳声、動画のように形式の異なる情報を同時 に処理し、対話、推論、学習、意思決定を⾏う • 6つのユースケースを紹介 •

    既存サービスにGeminiを乗せるのとエージェントが道具としてサービスを使う話が混在している • カスタマーエージェント • 優れた販売員やサービスマンと同様に、お客様の声に⽿を傾け、ニーズを理解し、適切な商品やサービスを勧める • ウェブ、モバイルアプリ、POS、コールセンターと連携 • 従業員エージェント • 従業員の⽣産性を⾼めるために 1 ⼈の従業員として業務をサポートする • Google ドライブ上のRAG、Google docs や Gmail での⽂書作成⽀援、 Google スライドのスライドや画像⽣成 • クリエイティブエージェント • デザイナーのようなクリエイティブなタスクをこなす • Imagen 2.0、 Text-to-Live Image • データエージェント • データアナリストのように、企業のデータを使った意思決定をサポートする • BigQuery、LookerにGemini搭載 • コードエージェント • アプリケーションを開発するエンジニアの⽣産性を⾼める(Gemini Code Assist ) • セキュリティエージェント • チャットを通じて、セキュリティインシデント内容を要約、推奨されるアクションを提案をする https://cloud-ace.jp/column/detail468/ https://www.youtube.com/watch?v=V6DJYGn2SFk (4/10開催)
  16. Agents for Amazon bedrock の特徴 • Claude3 SonnetとHaikuまで利⽤可能 • Agents

    for Amazon Bedrock は現時点では⽇本リージョンに対応していない ⾃動プロンプト作成 開発者が提供する役割指⽰、APIやfunction の詳細、およびナレッジベースからの企業 データソースの詳細に基づいてプロンプト を作成 計画によるサブタスクの作成と実⾏ 必要な API を⾃動的に呼び出して実⾏ CoT推論によるトレース トレース機能からエージェントの推論と計 画を段階的に確認 プロンプトエンジニアリング ⾃動⽣成されたプロンプトテンプレートを さらに改良してUXを向上 https://aws.amazon.com/jp/bedrock/agents/
  17. Agents for Amazon bedrock のアプデ 4/23 • エージェントの外部ツール呼び出し(アクショングループ)の設定が以前より簡素化された • アクショングループは、Lambda

    関数を関連付けたり、エージェントを呼び出しているユーザーまたはアプリ ケーションに制御を返して関数に応答できるように設定できる • (New) Return of control:AWS Lambda関数の使⽤せず、エージェントを呼び出すアプリケーションに制御を返す ⼈間にタスクを実⾏してもらうことができる • 時間のかかるアクションがある場合 • タスクの継続時間が Lambda 関数の最⼤タイムアウトである 15 分を超える場合 • 既存のアプリケーション (エージェントの呼びだしもと) から API を呼び出す⽅が簡単な場合 Return of control ユーザーに外部サービスの結果 を⼊⼒してもらう https://aws.amazon.com/blogs/aws/agents-for-amazon-bedrock-introducing-a-simplified-creation-and-configuration-experience/
  18. Introducing Dify Workflow • Difyはエージェントのワークフローをノード間を線で繋ぐ直感的なドラッグ&ドロップで作れるサービス • ワークフローは API 対応で、既存のアプリケーションやシステムに簡単に統合できる •

    プロトタイプを作るときに使いやすいかもしれない (Apr 8, 2024公開) ノードに細かく設定ができる デバッグも細かくできる https://dify.ai/blog/dify-ai-workflow
  19. Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various

    LLMs • OpenAI Assistants APIと類似機能もあり 作成⼿順 • 新しいアシスタント アプリを作成する • プロンプトを作成する • エージェントが使⽤するツールを構成する • デプロイする (2024 年 1 ⽉ 24 ⽇に公開)
  20. Bland AI/Phone Agents • Bland は AI 通話のためのプラットフォーム(コールセンター、リード獲得など) • AI電話エージェントはいつでもリードに連絡を取ったり、顧客からの呼び出しに応答でき、質問に即座に対応

    できる • ⽂字起こし、⾔語理解、テキスト読み上げモデルの組み合わせも 1 秒以内に実⾏する • 1秒以内レスポンスに向けてモデル以外にもプロンプトを⼯夫する • 電話エージェントの⼈物像、応答すべき質問の種類、応答すべきでない質問の種類、誰かが電話エージェントを脱獄しよ うとした場合の対処⽅法を記載 https://www.bland.ai/blog/how-to-build-an-ai-call-center How to build an AI Call Center( April 7, 2024 ) 電話の内容を別のツールと接続可能
  21. Alpha Corp/Group Chat With AIs • 社内ChatGPTでAI同⼠のグループチャットができる • 複数のモデルが利⽤可能 •

    同じチャットの中でモデルの⽐較ができる • 2つのモデルでチャットシミュレーション • AIがAIに応えることができる https://alphacorp.ai/
  22. The UX of AI: Lessons from Perplexity • Perplexity AI

    のデザイン責任者であるヘンリー モディセットとの対談記事 • Perplexity は、信頼できる情報をできるだけ早く提供することに重点を置いた急成⻑中の AI スタートアップ • 製品が⼤きく複雑になればなるほど、快適なエクスペリエンスを提供することが難しくなる • 擬⼈化されたコンセプトを持つことによるメリットはほとんどありません シンプルに回答の⼀番上に情報源(記事、画像、地図、 ビデオ)を表⽰し、それから答えがある。 答えはチャットではない。 https://www.nngroup.com/articles/perplexity-henry-modisett/
  23. The Rise and Fall of (Autonomous) Agents • LLMに基づく⾃律型エージェントの発展と課題をまとめたブログ(2024 年

    3 ⽉ 4 ⽇公開) 的を得た⼀⽂ • エージェントは現在、⽬標が達成されるまで⼤きなタスクを管理可能な⼩さなタスクに分割するプロジェクト 管理エージェントに依存しています。 課題 • 閉ループに陥る • ユーザビリティが低い • 信頼性が⼗分ではない https://medium.com/@lukas.kowejsza/the-rise-and-fall-of-autonomous-agents-18360625067e
  24. New Papers Agent Framework/Capabilities • Memory Sharing for Large Language

    Model based Agents • Foundational Challenges in Assuring Alignment and Safety of Large Language Models • ChatShop: Interactive Information Seeking with Language Agents • Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing • The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey Multi Agent Systems • Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation Computer Controlled Agents • MMInA: Benchmarking Multihop Multimodal Internet Agents
  25. Foundational Challenges in Assuring Alignment and Safety • LLMの安全性を保証するのに役⽴つ課題を説明した論⽂ •

    エージェントに関する指摘事項 • LLMエージェントが継続的に⽣涯学習(Lifelong Learning)をすること • フィードバックや新しい経験に基づいて⾃⾝の理解を適応させる能⼒によって駆動する必要がある • そのために強化学習や転移学習の利⽤と発展が求められる • LLMエージェントが不完全で不確実で⾼いリスクを伴う状況に対してロバストかつ慎重に⾏動すること • 曖昧なシナリオで慎重な決定を下すため、アンサンブル、不確実性の定量化や安全な強化学習を導⼊ する必要がある • LLMエージェントが欺瞞、権⼒追求、⾃⼰保存などの望ましくない⾏動にどのように傾くか把握すること • 解釈可能性の技術から、⾏動の原因分析をする必要がある • LLMエージェント向けのよりロバストなモニタリングシステムを構築すること • 予期せぬ⾏動や予想される規範からの逸脱を特定するための⾼度な異常検出アルゴリズムを組み込む • LLMエージェント間の共謀⾏動を防⽌および検出すること • 敵対的攻撃などから技術を発展させる必要がある Agent Capabilities
  26. ChatShop: Interactive Information Seeking • 現状のLLMエージェントは戦略的に新しい情報を探求する能⼒が⽋けている • ウェブショッピングのタスクを利⽤し、エージェントが対話を通じてユーザーの好みを探り、情報を徐々に蓄 積することで意思決定を⾏うChatShopというタスクを提案 •

    エージェントがリアルタイムでユーザーと対話しながら商品情報を収集し、適切な商品を推薦する能⼒が評価 買い物客が⼈間かエージェントかでエラー分析 要件忘れ/誤解/質問不⾜/繰り返す同じ質問/ミスリード Agent Capabilities
  27. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing •

    モンテカルロ⽊探索(MCTS)とLLMを統合したALPHALLM を提案し計画と⾃⼰改善を改善 • Imagination (類似プロンプト⽣成)、 Searching (MCTS)、 Criticizing (フィードバック提供)の3つの コンポーネントで構成 • MCTSでは以下の⼯夫をして探索範囲を狭めている • ⾏動空間をトークンや⽂レベルでなくオプションレベルにする • 状態空間も状態マージの既存⼿法からグルーピングをおこなう Agent Capabilities
  28. AI Agent Architectures for Reasoning, Planning, and Tool Calling: A

    Survey • シングルとマルチのエージェントアーキテクチャの良し悪しや現状のエージェントの課題を説明した論⽂ • シングルエージェントアーキテクチャ • ReAct:Reasoning + Act ⼈間のフィードバックが⼊れられない、思考のループなどが課題 • RAISE : ReActにメモリを持たせたが、複雑なタスクに幻覚を⾒る • Reflextion:⾔語フィードバックで幻覚を減らすが、参照情報が必要で検索性能とトークンの制限に苦しむ • AUTOGPT+P:Planningを⼊れてツールを使うが、正しくないツール利⽤や⼈間から計画の修正ができない • LATS:計画と⾏動と推論をツリーベースにするが、推論時間とアルゴリズムの複雑さから実⽤性が困難か • マルチエージェントアーキテクチャ • Dynamic LLM-Agent Network :タスクごとにエージェントの貢献度を測定し、貢献度の⾼いチームを作る • AgentVerse:ラウンドごとにチームメンバーを⼊れ替え、タスクをこなす • MetaGPT:エージェント間の会話を構造化した⽂書でやりとりし、情報共有の仕⽅を徹底した • 課題 • エージェントの評価コストが⾼い • ベンチマークに他のエージェントも評価できるほど汎⽤性がない • 現実世界と問いデータとの差がどのくらいあるのか Agent Framework
  29. Confidence Calibration and Rationalization for LLMs via Multi- Agent Deliberation

    • RLHFで微調整されたモデルは過信しやすいことが別論⽂で⽰されている • LLMの信頼度推定に複数のLLMエージェントによる2段階のグループ審議プロセス⽅法を提案 Multi Agent Systems
  30. MMInA: Benchmarking Multihop Multimodal Internet Agents • 複数ウェブサイトを遷移しながらタスクを遂⾏するWebエージェントのベンチマーク • 全体的にGemini-Pro-Visionの⽅がGPT-4Vより精度が⾼い

    • 2つのサイトで済む簡単なタスク設定でも1サイト⽬で70%、2サイト⽬で8%まで成功率が落ちる Computer Controlled Agents
  31. Agent Tools • Gemini 1.5 Pro • OpenAI Batch API

    • OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks
  32. Gemini 1.5 Pro • Googleは100万トークンのGemini 1.5 ProをGoogle AI Studioで公開 •

    ネイティブオーディオの理解 • Gemini API と Google AI Studio の両⽅で使える • ビデオの画像 (フレーム) とオーディオ (⾳声) の両⽅を理解できる • ファイルAPI • プロジェクトごとに最⼤ 20 GB、ファイルサイズの上限は2GB、アップロード後2⽇で削除 • 画像、動画、⾳声ファイル対応 • System InstructionとJSONモードの導⼊ • 役割、形式、⽬標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御できる • JOSNモードでは、テキストまたは画像から構造化データを抽出できる • function callingの改善 • 関数呼び出しモードで使うか使わないかわからないAUTO, 必ず呼ぶANY, 使わないNoneが選べる • テキスト埋め込みモデルtext-embedding-004もリリース https://ai.google.dev/gemini-api/docs/function-calling?hl=ja https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
  33. OpenAI Assistants API v2 • 最⼤ 10,000 個のファイルを取り込めるファイル検索(file_search)機能をリリース • RAGで最初にやりそうなことはファイル検索機能に追加された

    • 各実⾏で使⽤されるメッセージ数に制限の設定/トークン数の最⼤値の設定が可能に • tool_choiseパラメータ”code_interpreter”, ”function”に”file_search”が指定可能に • gpt-3.5-turbo-0125のFine-Tuningモデルが利⽤可能 • ストリーミング対応 https://platform.openai.com/docs/assistants/whats-new
  34. LlamaIndex: An Introduction to Agents Tutorial Series • LlamaIndexのYoutubeにエージェント開発⽤のチュートリアル動画があがった •

    ステップバイステップ実⾏とToolの利⽤後にLLMの⽣成を挟まないreturn_direct 変数にオリジナリティがあっ たかも https://medium.com/llamaindex-blog/data-agents-eed797d7972f
  35. LangChain Benchmarks • LLM 関連タスクのベンチマークを⽀援するパッケージ • Tool Usage (2024-04-18)の項⽬が追加 •

    gpt4-turboとclaude-sonnetが良い勝負している、計算タスクだけgpt-35-turboが良い
  36. New Papers Agent Framework/Capabilities • GoEX: Perspectives and Designs Towards

    a Runtime for Autonomous LLM Applications • AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications • Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought • Graph of Thoughts: Solving Elaborate Problems with Large Language Models Agentic AI Systems • ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models • AutoCodeRover: Autonomous Program Improvement Multi Agent Systems • 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System Computer Controlled Agents • OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments • Autonomous Evaluation and Refinement of Digital Agents
  37. Autonomous Evaluation and Refinement of Digital Agents • デジタルエージェントの性能をVLMで軌跡かステップレベルで評価し⾃動で改良する⼿法を提案 •

    ⾃動評価の精度はオラクルと⽐較し80~90% ユーザーの意図は、GitLab で最もスターが付けられている上位 1 リポジトリにスターを付けること でしたが、ボットは既にスターが付けられている特定のリポジトリにスターを付けようとしました。 問題のリポジトリがスター付きのトップ1であることを⽰すものはなく、ボットはユーザーの意図に 基づいて正しいリポジトリとやりとりしていることを確認するためのアクションを実⾏しませんでし た。したがって、タスクは正常に完了していません。 成功した評価の例 Computer Controlled Agents
  38. Agent Tools • Vertex AI Agent Builder • Claude 3

    AI Expands with Tool Integration • Humane AI Pin review: not even close
  39. Claude 3 AI Expands with Tool Integration • ツールの定義と利⽤⽅法はだいたいOpenAIに準拠している ベストプラクティス

    • ツール定義 • exanpleよりもdescriptionを優先する • 多くのツール利⽤可能 • 数百のシンプルなツールと少数のパラメータの多い複雑なツールでも、90% を超える精度を実現 • 順番にツール利⽤ • ⼀度に 1 つのツールを使⽤し、そのツールの出⼒を使⽤して次のアクションを通知することを好む • ツールの繰り返し傾向 • 2 〜 3 回試⾏が失敗すると、Claudeは諦めて、さらに再試⾏する代わりにユーザーに謝る https://docs.anthropic.com/claude/docs/tool-use
  40. Humane AI Pin review: not even close 良点 ・画⾯を⾒る時間が減り、現実に集中できる ・ワンタップで作業が完了する

    ⽋点 • 実⽤性:数回に⼀度失敗する。回答待ち時間が⻑い。 • デバイスの問題:バッテリー寿命が短く、過熱しやすい。カバンにひっかかる。 • 価格:完成度が低く、700 ドルか⽉額 24 ドルする。 https://www.theverge.com/24126502/humane-ai-pin-review