Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ

masatoto
September 05, 2024

Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

masatoto

September 05, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. プロダクト・ニュース リリース • Prompt caching with Claude • Introducing SWE-bench

    Verified • Fine-tuning now available for GPT-4o • Meet Einstein SDR and Einstein Sales Coach: Two New Autonomous AI Sales Agents to Scale Your Sales Team ブログ • AI Agent 101: Tips and Practical Guide for Starters ニュース • What margins? AI’s business model is changing fast, says Cohere founder • Humane’s daily returns are outpacing sales • Rabbit’s r1 refines chats and timers, but its app-using ‘action model’ is still MIA • Move over, Devin: Cosine’s Genie takes the AI coding crown 8月26日 更新分
  2. Prompt caching with Claude • AnthropicのPrompt Caching機能(ベータ版)は、処理時間を短縮し、コストを削減する • キャッシュは5分間有効で、ツール、システムメッセージ、ユーザーメッセージなどをキャッシュ対象 •

    キャッシュ可能なトークン数(Claude 3.5 SonnetやClaude 3 Opusで1024トークン、Claude 3 Haikuで2048 トークン)に満たない場合、キャッシュが作成されない キャッシュのレイテンシー効果 8月26日 更新分
  3. Introducing SWE-bench Verified • SWE-benchには解決困難なタスクがいくつかあり、モデルの自律SWE機能を体系的に過小評価されている • OpenAIはSWE-bench の作成者と協力して、修正版のベンチマークをリリース • SWE-benchはモデルがGitHub上のpythonリポジトリのイシューをどのように解決できるかをテストする

    • 主な問題点として、単体テストが過度に具体的であること、問題説明が不十分であること、開発環境のセット アップが難しいことが挙げられた • 人間の注釈者がテストセットをスクリーニングし、500個の検証済みサンプルを選出した • スクリーニングの方法、難易度別の作成方法が勉強になる https://openai.com/index/introducing-swe-bench-verified/ 8月26日 更新分
  4. Fine-tuning now available for GPT-4o • GPT-4oのFine-tuningが公開され、開発者はカスタムデータセットを使用して、モデルを特定のユースケース に最適化できるようになる • 応答の構造やトーンをカスタマイズしたり、特定の分野における複雑な指示に従わせられる

    • 9月23日まで、毎日100万トークンの無料トレーニングが提供される • Cosine社の「Genie」というAIソフトウェアエンジニアリングアシスタントは、GPT-4oをFine-tuningすること で、SWE-benchの修正済みベンチマークで43.8%のスコアを達成(後で紹介) • Distyl社もBIRD-SQLベンチマークで1位を獲得し、71.83%の実行精度を示した https://openai.com/index/gpt-4o-fine-tuning/ 8月26日 更新分
  5. Meet Einstein SDR and Einstein Sales Coach: Two New Autonomous

    AI Sales Agents to Scale Your Sales Team Salesforceが2つの新しい自律型AIセールスエージェント「Einstein Sales Development Rep (SDR) Agent」と 「Einstein Sales Coach Agent」を発表 Einstein SDR Agent • 24時間365日稼働し、インバウンドリードとの製品に関する質問に答えたり、商談のスケジューリングなどの 初期段階の販売活動を自動化するために設計されている。 Einstein Sales Coach Agent • セールス担当者が商談の準備をするために、バイヤーとの対話をシミュレーションする。エージェントは、 Salesforceに保存されている情報を基にバイヤーの役割を演じ、商談の発見フェーズ、ピッチ、交渉などの場 面でリアルなロールプレイを実現する。 https://www.salesforce.com/news/stories/einstein-sales-agents-announcement/ 8月26日 更新分
  6. AI Agent 101: Tips and Practical Guide for Starters 前提条件:ChatGPTを100時間使用し、モデルの現実的な品質を理解すること

    Tip1 モデル:2024年には推論や計画能力の向上は限界に達する可能性が高いが、長文コンテキストの処理やマル チモーダル対応、推論の遅延やコスト削減においてはまだ改善が進んでいる Tip2 シナリオ:実際にAIエージェントを使用する3〜5つのケースを考え、基準を明確にする。いつ役立ち、いつ ノイズを生むかを理解する。 Tip3 論文:多くのAIエージェント関連の論文があるが、実際に手を動かして学ぶことが重要。 Tip4 マルチエージェント:マルチエージェントシステムには魅力があるが、批判的に考え、単一エージェントで 解決できない理由を深く考えることが必要 Tip5 ハイプか?:AIエージェントは強力だが、過度に期待されている部分もある。現実の経験に基づいて冷静に 評価することが重要。 勉強プラン • ステージ1:GPT Store, OpenAI Assistant API, Cozeのようなエージェントビルダーのプロダクトを使い、基本概念を学 ぶ(10〜20時間) • ステージ2:LangChainやLlamaIndexなどのオープンソースフレームワークを探求し、エージェントを運用化してLLM Opsを理解する(20〜30時間) • ステージ3:研究論文を読むことで、AIエージェントのトレンドを理解し、将来の変化に備える(10〜20時間) https://medium.com/@ryannli1129/ai-agent-101-tips-and-practical-guide-for-starters-e5e4fb16c82c 8月26日 更新分
  7. What margins? AI’s business model is changing fast, says Cohere

    founder • CohereのCEOであるエイダン・ゴメスが、AIモデルのビジネスモデルが厳しい状況にあることを語っている • APIの従量課金で利益を上げるビジネスは、価格競争が激化している • OpenAIやGoogleが価格を引き下げる一方で、Metaはオープンソースモデルを無料で提供しており、これが収 益性に悪影響を与えている • 現在、AIモデルを開発するには大量の計算リソースが必要で、そのためにハードウェアへの投資が欠かせない が、その費用が膨れ上がっている。その結果、ビジネスとしての利益を確保するのが難しく、特にスタート アップ企業には厳しい状況 • ゴメスは、アプリケーションでの収益機会が期待している。例えばOpenAIのChatGPTのような月額サブスクリ プションが一例。しかし、スタートアップ企業は、マイクロソフトやグーグルのような大企業と異なり、損失 を長期間にわたって耐えることが難しい状況にある • 最終的には、AIモデルのアーキテクチャの革新やデータ効率の改善が将来の大きなリターンを生む可能性があ るものの、その時期は不明であり、すべてのAIスタートアップがその未来を見ることができるわけではないと ゴメスは警告している https://techcrunch.com/2024/08/19/what-margins-ais-business-model-is-changing-fast-says-cohere-founder/ 8月26日 更新分
  8. Humane’s daily returns are outpacing sales • Humane社は、2024年4月に発売したAI Pinが多くの返品に直面しており、安定化に向けて奮闘している •

    発売後、特に否定的なレビューが多く寄せられ、返品が販売数を上回る事態に陥った • 総売上が900万ドルに達した一方で、100万ドル以上の商品が返品されている • AI Pinは返品されると電子廃棄物となり、それを再販売して収益を取り戻す機会がない • T-Mobile の制限により、誰かにAI Pinを販売した後に新しいユーザーに再割り当てすることが (今のところ) 不可能 • 副社長とCTOも解雇され、コスト削減策として従業員の4%を解雇 • Humane 社によると、5月の時点でAI PinがはGPT-4o にアップグレードされていたらしい https://www.theverge.com/2024/8/7/24211339/humane-ai-pin-more-daily-returns-than-sales 8月26日 更新分
  9. Rabbit’s r1 refines chats and timers, but its app-using ‘action

    model’ is still MIA • RabbitのAIアシスタントr1は、新たなアップデートを発表した • beta rabbit モードが追加され、複雑な指示やマルチステップのタスクに対応する会話型AI機能が強化 • 不明な点についてはフォローアップの質問をする機能も向上している • 具体的な例としては、読書リストの作成や本の要約の取得、旅行の計画、商品の推奨などが挙げられている • デモとしては魅力的だが、実際の利用では不便で予測不能な結果になることが多い • 以前から期待されていたlarge action model(LAM)に関する進展は依然として見られず、現在もその実用性は 確認されていない https://techcrunch.com/2024/08/08/rabbits-r1-refines-chats-and-timers-but-its-app-using-action-model-is-still-mia/ 8月26日 更新分
  10. Move over, Devin: Cosine’s Genie takes the AI coding crown

    • スタートアップ企業Cosineが発表した新しいAIソフトウェアエンジニアモデル「Genie」を開発 • SWE-Benchで30%のスコアを達成し、Devinの13.8%を大きく上回る • バグ修正、機能追加、コードリファクタリング、テストなど、幅広いコーディングタスクを自律的に処理する 能力を持っている • 15のプログラミング言語に対応しており、GitHubにコードを保存し、Slackなどのシステム通知と連携して ユーザーとコミュニケーションを取ることができる • OpenAIのGPT-4oを用いて訓練されており、64,000トークンの出力が可能 • また、Cosineは最初から人間のSWEのように考え、行動するように訓練されている • Cosineは、SWEから始まり、AIが人間の思考プロセスを模倣・拡張することを目指している https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/ 8月26日 更新分
  11. プロダクト・ニュース リリース • Introducing Structured Outputs in the API •

    Introducing Cohere Prompt Tuner: Prompt Optimization at Your Fingertips • Introducing Qwen2-Math • OpenAI’s GPT-4o mini Now Available in API with Vision and Fine-tuning Text Capabilities on Azure AI • Gemini 1.5 Flash price drop with tuning rollout complete, and more ブログ • GPT-4o System Card • A preliminary evaluation of GPT-4o’s autonomous capabilities • An update on our general capability evaluations • Do you think that ChatGPT can reason? • AgentOps, the Best Tool for AutoGen Agent Observability • UX for Agents, Part 2: Ambient • LLMプロダクト開発で学んだLLMエージェント設計原則 • LLMマルチエージェントのフローエンジニアリング実践ガイド 8月12日 更新分
  12. プロダクト・ニュース 集約情報 • Berkeley Function-Calling Leaderboard • OpenThought - System

    2 Research Links プロダクト • Outlit:契約書のレビュー • Wordware:NotionベースのインターフェースでLLMアプリ開発 • Payman:AI が人間に報酬を支払う世界 8月12日 更新分
  13. Introducing Structured Outputs in the API OpenAIからJSONモードより厳格な構造化出力をする Strictモード指定が可能になりました • 対象モデル:

    2023 年 6 月以降の GPT-3.5 Turbo、GPT-4系を含むすべてのモデル LangChainを使うとできた構造化のスキーマ指定ができるようになりました。これは便利です! • 対象モデル:gpt-4o-mini, gpt-4o-mini-2024-07-18, gpt-4o-2024-08-06 まだサポートしていないキーワード OpenAI: 構造化出力 - OpenAI API/https://openai.com/index/introducing-structured-outputs-in-the-api/ Azure: https://azure.microsoft.com/en-us/blog/announcing-a-new-openai-feature-for-developers-on-azure/ ここで指定 8月12日 更新分
  14. Introducing Cohere Prompt Tuner: Prompt Optimization at Your Fingertips CohereのPrompt

    Tuner はLLM による評価結果に基づいてプロンプトを繰り返し最適化する Optimization by PROmpting (OPRO)に刺激を受け、開発された ユーザーは最適化したい最初のプロンプトと目標にとって重要な評価基準(単語数、出力形式、幻覚チェックな ど)を定義する 複数の教師データでなく、評価基準に従うかでプロンプトをチューニングする リリース:https://cohere.com/blog/intro-prompt-tuner docs:https://docs.cohere.com/docs/prompt-tuner?ref=cohere-ai.ghost.io YouTube解説:https://www.youtube.com/watch?v=gQsjO_AzTsM 8月12日 更新分
  15. Introducing Qwen2-Math Alibabaから数学固有のLLMである Qwen2-Math と Qwen2-Math-Instruct-1.5B/7B/72Bを発表 事前学習:Qwen2-1.5B/7B/72B で初期化され、綿密に設計された数学専用のコーパスを利用 • コーパス:Qwen2

    生成の数学の事前訓練データ、数学の Web テキスト、書籍、コード、試験問題 事後学習:指示チューニングデータについて言及なし?アライメントの報酬モデルの説明はあり 近日中に英語と中国語の両方をサポートするバイリンガルモデルをリリースする予定 https://qwenlm.github.io/blog/qwen2-math/ 8月12日 更新分
  16. OpenAI’s GPT-4o mini Now Available in API with Vision and

    Fine-tuning Text Capabilities on Azure AI GPT-4o mini がAzureで利用でき、関数呼び出し、ツール利用、ファインチューニングもできる 微調整の課金形式:経過した訓練時間の合計ではなく、訓練ファイル内のトークンの数に基づいて課金される 学習コスト:訓練1,000件、2Kトークン/件、3エポックの場合、$0.0033/1Kなので$19.80かかる(2,970円くらい) ホスティングコスト:1ヶ月24時間で、$1.70/hourなので$1,224かかる(183,600円くらい) 学習データの安全性評価もおこなえる https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/openai-s-gpt-4o-mini-now-available-in-api-with-vision-and-fine/ba-p/4200640 8月12日 更新分
  17. Gemini 1.5 Flash price drop with tuning rollout complete, and

    more Gemini 1.5 Flashの入力トークン コストが 78% 削減され、出力トークン コストが 71% 削減されました 1.5 Flashのファインチューニングが可能になりました ファインチューニング料金は無料で、学習後のモデルの推論コストは従来の金額と変わらない ホスティングコストは記事が見当たらない 100~500件の学習データが推奨 https://developers.googleblog.com/en/gemini-15-flash-updates-google-ai-studio-gemini-api/?linkId=10594498 https://ai.google.dev/pricing?hl=en 8月12日 更新分
  18. GPT-4o System Card 音声機能の安全性の評価 GPT-4oのリスク評価結果レポートが公開された GPT-4oは、テキスト、音声、動画像の任意の組み合わせを入力でき、テキスト、音声、画像の任意の組み合わせの出力 を生成する自己回帰モデル GPT-4oの事前学習データは、Webデータ、コードと数学、マルチモーダルデータ、パートナーシップの独自データ 29 か国の地理的背景を代表する

    100 人以上の外部レッドチーム メンバーと協力し、24年3月から4ヶ月に渡り、段階的に 安全性の検証 音声の安全性評価が今回手厚くされている 1. 話者の識別 • 入力音声に基づいて話者を特定する能力は、プライバシーリスクを引き起こす可能性がある • 緩和策:特定の話者を識別する要求に応じないように訓練している(有名人を除く) 2. 不正な音声生成 • なりすましによる詐欺や偽情報の拡散などの危険性がある。 • 緩和策1:モデルには、事前に選定された音声のみを使用するよう制限が設けられている • 緩和策2:モデルが許可されていない音声を発した場合、その出力を検出しブロックするための出力分類器を導入 3. 根拠のない推論や敏感な属性の推定 • 話者の特性(例:知性、宗教、性格、外見など)を推定することは、偏見や誤った推論を引き起こす • 緩和策:音声から推測可能な属性については慎重な回答を行うよう訓練されている。例えば、アクセントの特定については「〜の アクセントのように聞こえる」といった慎重な表現 https://openai.com/index/gpt-4o-system-card/ 8月12日 更新分
  19. GPT-4o System Card 音声機能の安全性の評価 4. 著作権で保護されたコンテンツの生成の可能性 • 著作権違反する恐れがある • 緩和策:音楽を含む著作権で保護されたコンテンツの要求を拒否するように訓練されている

    • 緩和策:アルファ版では歌わせないように指示した 5. 許可されていないコンテンツ • GPT-4oが音声を通じて不適切なコンテンツ(違法行為の指示など)を生成する可能性がある • 緩和策:音声入力と音声出力のテキストを確認し、従来のブロック方法を利用し、問題がある場合は出力をブロック 6. アクセントの違いによる性能の変化 • 発音の違いで性能差が生まれる • 緩和策:さまざまな入力音声セットを使用して GPT-4o を事後学習し、さまざまなユーザーの音声間で不変にした https://openai.com/index/gpt-4o-system-card/ 8月12日 更新分
  20. GPT-4o System Card OpenAIが用意する安全性の評価項目による評価 OpenAIが定義しているPreparedness Framework(準備フレームワーク)の評価結果 OpenAIのリーダーと取締役会は、このフレームワークに基づいてリスク管理を行う 評価項目の一つであるModel Autonomyの評価結果 GPT-4oは、エージェントタスクにおいていくつかのサブステップを達成することができたものの、複雑な自律的

    行動を取ることは難しく、全体として自律性に関するリスクは低いと判断された。GPT-4oは中程度のリスクを超 えない限り、展開可能とされており、GPT-4oの自律性に関する評価結果は「低リスク」とされている。 https://openai.com/index/gpt-4o-system-card/ Preparedness Frameworkの評価項目 8月12日 更新分
  21. GPT-4o System Card 第三者による自律性の安全性評価 METR(Model Evaluation and Threat Research)によるLLMの自律性から生じる脅威の評価 •

    METR は、仮想環境で複数ステップ必要なタスクを、GPT-4o ベースのシンプルな LLM エージェントで実行 • 77 のタスクには、SWE、機械学習、サイバーセキュリティ、研究、コンピュータ制御などが含まれる アポロリサーチによる陰謀能力の評価 • エージェントおよび質問応答でGPT-4oが自分自身(自己認識)と他人(心の理論)をモデル化できるかどうかをテスト • 質問応答のコンテキストでの他人の信念について推論する強力な能力を示しましたが、エージェント設定では自分自身ま たは他人について推論する強力な能力を欠いていた METRによる様々なタスクの評価結果 https://openai.com/index/gpt-4o-system-card/ 8月12日 更新分
  22. A preliminary evaluation of GPT-4o’s autonomous capabilities • METRによるGPT-4oの自律性の脅威に対する評価レポート •

    77 のタスクは、SWE、機械学習、サイバーセキュリティ、一般的な研究、コンピュータ制御などが含まれる • タスクの難易度は、人間が完了するのに数分かかるものから数時間かかるものまでさまざま • GPT-4o は、Claude 3.5 Sonnet よりもわずかに劣っている • GPT-4o エージェントは、体系的な探索、コードのデバッグ、フィードバックによる改善、仮説立てが優れている • 突然の諦め、意味のない出力、証拠に裏付けられていない結論に達するなど、さまざまな失敗モードに悩まされる • 失敗モードを、モデルの能力限界による本当の誤り、事後学習などタスク非依存で解決できる偽りの誤り、タスクに依存した方法 で解決できるが修正にはトレードオフが必要な誤りに分類 • 78 件 (51%) は偽りの誤りであり、6 件 (4%) はトレードオフで修正可能であり、68 件 (45%) は 本当の誤り • ほぼすべてのタスクでは、コストが人間に比べて桁違いに安くなるが、コストをかけても良い性能になるわけではない(図参照) https://metr.github.io/autonomy-evals-guide/gpt-4o-report/#summary 8月12日 更新分
  23. An update on our general capability evaluations METRからGPT-4 と Claudeを人間のベースラインと合わせて比較したブログ(結果はGPT-4o

    System Cardに記載済み) タスクの例 • ウェブサイト上でコマンドインジェクション攻撃を実行する • Python スクリプトのパフォーマンスを向上させるために CUDA カーネルを作成する • 録音データを分類するための機械学習モデルのトレーニング • 人間のベースラインはタスク完了時間で難易度を定義する • エージェントの性能と人間のタスク完了時間に相関があり、人間にとって簡単なものは性能が高い • エージェントを使用する平均コストは、米国の学士号取得者の平均時給の約 30 分の 1 で済む https://metr.org/blog/2024-08-06-update-on-evaluations/ 8月12日 更新分
  24. Do you think that ChatGPT can reason? • Subbarao Kambhampati教授がLLMの計画能力についてYouTubeでインタビューを受けました

    • 彼はICML2024でもチュートリアルで同様の話を発表しています • LLMの計画(論理的推論)能力には限界があり、出力の正確性について保証を提供できないと主張しています • 彼は、LLMを外部の検証システムと組み合わせるハイブリッドアプローチを推奨しています • 暗記と推論の違いを「マンホールの蓋問題」で説明しています • Microsoftの入社試験で「なぜマンホールの蓋が丸いのか?」を説明する試験があり、最初は考えて推論をする受験 者だが、のちに過去問や回答方法がネットに広まり、回答を暗記してしまい、どのパターンで答えるかの記憶の検 索に変わる • LLMは計画をしているようで、LLM内部のwebの大量データの知識から検索し、論理的推論をしているように振る 舞うだけだと主張している • 実際に積み木のプランニング問題では、すべてのLLMで精度が低いことを強調している • 積み木のプランニング問題は、初期状態が与えられ、目標状態に向け、積み木を降ろしたり、別の積み木の上に積 み立てたりする行動計画を練る問題 • 積み木の数が増えるほど、精度は低下していく。これは旅行計画と違いweb上にあるような問題から離れ、知識の 検索が適応されなくなり、計画力(論理的推論能力)が乏しいことを示している https://www.youtube.com/watch?v=y1WnHpedi2A 8月12日 更新分
  25. AgentOps, the Best Tool for AutoGen Agent Observability • AutoGenを使うときに、わずか

    2 行のコードを追加するだけでAgentOpsが使えるようになる • AgentOps を使用すると、LLM 呼び出し、コスト、レイテンシー、エージェントの障害、マルチエージェント インタラクション、ツールの使用状況、セッション全体の統計などをすべて 1 つのダッシュボードから監視で きる • AgentOps は、再帰的思考の検出機能があり、エージェントが無限ループに陥ったことを識別し、効率を確保 して無駄な計算を防止できる https://microsoft.github.io/autogen/blog/2024/07/25/AgentOps/ 8月12日 更新分
  26. UX for Agents, Part 2: Ambient アンビエントエージェントとは、ユーザーの操作を待つのではなく、バックグラウンドで複数のタスクを同時に 処理するエージェントのことです。 信頼を構築するためのUX •

    アンビエントエージェントにタスクを任せるためには、ユーザーとの間に信頼関係を築く必要があります。信 頼構築の一つの方法は、エージェントが何をしているかをユーザーに見せることです。また、ユーザーがエー ジェントの誤りを修正できる仕組みを提供することも重要です。これには、ツールの呼び出しを手動で修正す る方法や、エージェントに指示を与えて再度タスクを実行させる方法などがあります。 人間の入力を統合する方法 • エージェントが完全に自律的にタスクを実行する必要はなく、必要に応じて人間からの助けを求めることがで きるようにすることが大切です。たとえば、メールアシスタントエージェントは、簡単なメールには対応でき ますが、複雑なタスクや判断が必要な場合には人間の意見を求める必要があります。 https://blog.langchain.dev/ux-for-agents-part-2-ambient/ 8月12日 更新分
  27. LLMプロダクト開発で学んだLLMエージェント設計原則 PharmaXの上野さんのZenn記事 RAGは本当に必要な時のみ使う • 検索が必要か考える。LLM分類で用途に応じて事前情報をプロンプトに詰め込む設計にしている • トレードオフとして、RAGを行うよりはトークン数も増え、スピードは遅くなり、コストは上がる エージェントがこなすタスクはできる限り小さく単一にする • 一つのプロンプトで与えるタスクを小さくすることで、コストを下げ、スピードを速く、精度も高くできる

    • トレードオフとして、実装コストは高くなる エージェントの出力を次のエージェントの入力に使う直列構造はできる限り避ける • LLMの出力を次のLLMの入力にすることを繰り返さない • 複数の観点からの修正を繰り返すことで、最終的な出力が当初の目的とは離れていってしまう可能性がある 無理してエージェントでやり切ろうとせず、必要があれば人を介在させる • エッジケースや難しい問題を人間に委任する https://zenn.dev/pharmax/articles/ae19bafbcfeb23 8月12日 更新分
  28. LLMマルチエージェントのフローエンジニアリング実践ガイド PharmaXの上野さんのZenn記事 • フローエンジニアリングとは、タスクを細分化して、エージェントやアプリケーションの実装を組み合わせて どう問題を解いていくかをデザインすることを指す • ブログではサービスの実例をもとに紹介している 1. ルールベースでLLMで処理可能かを判定 2.

    LLMで会話を分類し、LLMで処理可能かを判定 3. LLMで次のフェーズに移るべきかどうかを判定 4. LLMでメッセージを作成 5. LLMで作成されたメッセージを評価(LLM as a Judge) • LangGraphでグラフ構造を作り、実験管理はLangSmithを使っている https://zenn.dev/pharmax/articles/a6e6d4d167a4a4 8月12日 更新分
  29. OpenThought - System 2 Research Links AI システムの推論と認知に関連する資料 (書籍、論文、ブログ投稿など)がまとまったリポジトリ •

    Cognitive Architectures • LLM based Agents • Prompting Techniques • Competitions & Benchmarks https://github.com/open-thought/system-2-research?tab=readme-ov-file 8月12日 更新分
  30. Payman:AI が人間に報酬を支払う世界? エージェントが間接的に人間に対価を払い、タスクを完了させることができるプラットフォームを開発 利用者はエージェントを作成し資金を追加する。するとエージェントが実行しつつ、必要に応じてタスクをマー ケットプレイスに投稿。人間が実行し対価をエージェントからもらう。その結果をもとにタスクが完了すれば利 用者に通知する。 プロダクトマネジメントの例 • AIエージェントが製品に関するフィードバックを集めるためにユーザーに報酬を支払う インタビューの例

    • AIエージェントがインタビュイーに報酬を支払い、結果を分析することで、面接プロセスを改善 マーケティングの例 • AI エージェントにマーケティング プランを考案させるだけでなく、インフルエンサーに報酬を支払ってプラン を実行させる エンジニアリングの例 • 他の専門家に報酬を支払ってコードをレビューしてもらい、AI の構築を支援してもらう https://www.paymanai.com/ 8月12日 更新分