Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News! 4月号 プロダクト/ニュースのアーカイブ

masatoto
April 30, 2024

Weekly AI Agents News! 4月号 プロダクト/ニュースのアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

masatoto

April 30, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. プロダクト/ニュース 4⽉29⽇配信 Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント

    • Agents for Amazon bedrock 機能紹介 4/23アップデート含む 海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents
  2. プロダクト/ニュース 4⽉21⽇配信 • Gemini 1.5 Pro • OpenAI Batch API

    • OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks
  3. プロダクト/ニュース 4⽉14⽇配信 • Vertex AI Agent Builder • Claude 3

    AI Expands with Tool Integration • Humane AI Pin review: not even close
  4. プロダクト/ニュース 4⽉29⽇配信 Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント

    • Agents for Amazon bedrock 機能紹介 4/23アップデート含む 海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents
  5. Google Cloud Next ʻ24 • エージェントは⼈間とつながり、ユーザーに代わって、テキスト、画像、⾳声、動画のように形式の異なる情報を同時 に処理し、対話、推論、学習、意思決定を⾏う • 6つのユースケースを紹介 •

    既存サービスにGeminiを乗せるのとエージェントが道具としてサービスを使う話が混在している • カスタマーエージェント • 優れた販売員やサービスマンと同様に、お客様の声に⽿を傾け、ニーズを理解し、適切な商品やサービスを勧める • ウェブ、モバイルアプリ、POS、コールセンターと連携 • 従業員エージェント • 従業員の⽣産性を⾼めるために 1 ⼈の従業員として業務をサポートする • Google ドライブ上のRAG、Google docs や Gmail での⽂書作成⽀援、 Google スライドのスライドや画像⽣成 • クリエイティブエージェント • デザイナーのようなクリエイティブなタスクをこなす • Imagen 2.0、 Text-to-Live Image • データエージェント • データアナリストのように、企業のデータを使った意思決定をサポートする • BigQuery、LookerにGemini搭載 • コードエージェント • アプリケーションを開発するエンジニアの⽣産性を⾼める(Gemini Code Assist ) • セキュリティエージェント • チャットを通じて、セキュリティインシデント内容を要約、推奨されるアクションを提案をする https://cloud-ace.jp/column/detail468/ https://www.youtube.com/watch?v=V6DJYGn2SFk (4/10開催)
  6. Agents for Amazon bedrock の特徴 • Claude3 SonnetとHaikuまで利⽤可能 • Agents

    for Amazon Bedrock は現時点では⽇本リージョンに対応していない ⾃動プロンプト作成 開発者が提供する役割指⽰、APIやfunction の詳細、およびナレッジベースからの企業 データソースの詳細に基づいてプロンプト を作成 計画によるサブタスクの作成と実⾏ 必要な API を⾃動的に呼び出して実⾏ CoT推論によるトレース トレース機能からエージェントの推論と計 画を段階的に確認 プロンプトエンジニアリング ⾃動⽣成されたプロンプトテンプレートを さらに改良してUXを向上 https://aws.amazon.com/jp/bedrock/agents/
  7. Agents for Amazon bedrock のアプデ 4/23 • エージェントの外部ツール呼び出し(アクショングループ)の設定が以前より簡素化された • アクショングループは、Lambda

    関数を関連付けたり、エージェントを呼び出しているユーザーまたはアプリ ケーションに制御を返して関数に応答できるように設定できる • (New) Return of control:AWS Lambda関数の使⽤せず、エージェントを呼び出すアプリケーションに制御を返す ⼈間にタスクを実⾏してもらうことができる • 時間のかかるアクションがある場合 • タスクの継続時間が Lambda 関数の最⼤タイムアウトである 15 分を超える場合 • 既存のアプリケーション (エージェントの呼びだしもと) から API を呼び出す⽅が簡単な場合 Return of control ユーザーに外部サービスの結果 を⼊⼒してもらう https://aws.amazon.com/blogs/aws/agents-for-amazon-bedrock-introducing-a-simplified-creation-and-configuration-experience/
  8. Introducing Dify Workflow • Difyはエージェントのワークフローをノード間を線で繋ぐ直感的なドラッグ&ドロップで作れるサービス • ワークフローは API 対応で、既存のアプリケーションやシステムに簡単に統合できる •

    プロトタイプを作るときに使いやすいかもしれない (Apr 8, 2024公開) ノードに細かく設定ができる デバッグも細かくできる https://dify.ai/blog/dify-ai-workflow
  9. Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various

    LLMs • OpenAI Assistants APIと類似機能もあり 作成⼿順 • 新しいアシスタント アプリを作成する • プロンプトを作成する • エージェントが使⽤するツールを構成する • デプロイする (2024 年 1 ⽉ 24 ⽇に公開)
  10. Bland AI/Phone Agents • Bland は AI 通話のためのプラットフォーム(コールセンター、リード獲得など) • AI電話エージェントはいつでもリードに連絡を取ったり、顧客からの呼び出しに応答でき、質問に即座に対応

    できる • ⽂字起こし、⾔語理解、テキスト読み上げモデルの組み合わせも 1 秒以内に実⾏する • 1秒以内レスポンスに向けてモデル以外にもプロンプトを⼯夫する • 電話エージェントの⼈物像、応答すべき質問の種類、応答すべきでない質問の種類、誰かが電話エージェントを脱獄しよ うとした場合の対処⽅法を記載 https://www.bland.ai/blog/how-to-build-an-ai-call-center How to build an AI Call Center( April 7, 2024 ) 電話の内容を別のツールと接続可能
  11. Alpha Corp/Group Chat With AIs • 社内ChatGPTでAI同⼠のグループチャットができる • 複数のモデルが利⽤可能 •

    同じチャットの中でモデルの⽐較ができる • 2つのモデルでチャットシミュレーション • AIがAIに応えることができる https://alphacorp.ai/
  12. The UX of AI: Lessons from Perplexity • Perplexity AI

    のデザイン責任者であるヘンリー モディセットとの対談記事 • Perplexity は、信頼できる情報をできるだけ早く提供することに重点を置いた急成⻑中の AI スタートアップ • 製品が⼤きく複雑になればなるほど、快適なエクスペリエンスを提供することが難しくなる • 擬⼈化されたコンセプトを持つことによるメリットはほとんどありません シンプルに回答の⼀番上に情報源(記事、画像、地図、 ビデオ)を表⽰し、それから答えがある。 答えはチャットではない。 https://www.nngroup.com/articles/perplexity-henry-modisett/
  13. The Rise and Fall of (Autonomous) Agents • LLMに基づく⾃律型エージェントの発展と課題をまとめたブログ(2024 年

    3 ⽉ 4 ⽇公開) 的を得た⼀⽂ • エージェントは現在、⽬標が達成されるまで⼤きなタスクを管理可能な⼩さなタスクに分割するプロジェクト 管理エージェントに依存しています。 課題 • 閉ループに陥る • ユーザビリティが低い • 信頼性が⼗分ではない https://medium.com/@lukas.kowejsza/the-rise-and-fall-of-autonomous-agents-18360625067e
  14. プロダクト/ニュース 4⽉21⽇配信 • Gemini 1.5 Pro • OpenAI Batch API

    • OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks
  15. Gemini 1.5 Pro • Googleは100万トークンのGemini 1.5 ProをGoogle AI Studioで公開 •

    ネイティブオーディオの理解 • Gemini API と Google AI Studio の両⽅で使える • ビデオの画像 (フレーム) とオーディオ (⾳声) の両⽅を理解できる • ファイルAPI • プロジェクトごとに最⼤ 20 GB、ファイルサイズの上限は2GB、アップロード後2⽇で削除 • 画像、動画、⾳声ファイル対応 • System InstructionとJSONモードの導⼊ • 役割、形式、⽬標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御できる • JOSNモードでは、テキストまたは画像から構造化データを抽出できる • function callingの改善 • 関数呼び出しモードで使うか使わないかわからないAUTO, 必ず呼ぶANY, 使わないNoneが選べる • テキスト埋め込みモデルtext-embedding-004もリリース https://ai.google.dev/gemini-api/docs/function-calling?hl=ja https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
  16. OpenAI Assistants API v2 • 最⼤ 10,000 個のファイルを取り込めるファイル検索(file_search)機能をリリース • RAGで最初にやりそうなことはファイル検索機能に追加された

    • 各実⾏で使⽤されるメッセージ数に制限の設定/トークン数の最⼤値の設定が可能に • tool_choiseパラメータ”code_interpreter”, ”function”に”file_search”が指定可能に • gpt-3.5-turbo-0125のFine-Tuningモデルが利⽤可能 • ストリーミング対応 https://platform.openai.com/docs/assistants/whats-new
  17. LlamaIndex: An Introduction to Agents Tutorial Series • LlamaIndexのYoutubeにエージェント開発⽤のチュートリアル動画があがった •

    ステップバイステップ実⾏とToolの利⽤後にLLMの⽣成を挟まないreturn_direct 変数にオリジナリティがあっ たかも https://medium.com/llamaindex-blog/data-agents-eed797d7972f
  18. LangChain Benchmarks • LLM 関連タスクのベンチマークを⽀援するパッケージ • Tool Usage (2024-04-18)の項⽬が追加 •

    gpt4-turboとclaude-sonnetが良い勝負している、計算タスクだけgpt-35-turboが良い
  19. プロダクト/ニュース 4⽉14⽇配信 • Vertex AI Agent Builder • Claude 3

    AI Expands with Tool Integration • Humane AI Pin review: not even close
  20. Claude 3 AI Expands with Tool Integration • ツールの定義と利⽤⽅法はだいたいOpenAIに準拠している ベストプラクティス

    • ツール定義 • exanpleよりもdescriptionを優先する • 多くのツール利⽤可能 • 数百のシンプルなツールと少数のパラメータの多い複雑なツールでも、90% を超える精度を実現 • 順番にツール利⽤ • ⼀度に 1 つのツールを使⽤し、そのツールの出⼒を使⽤して次のアクションを通知することを好む • ツールの繰り返し傾向 • 2 〜 3 回試⾏が失敗すると、Claudeは諦めて、さらに再試⾏する代わりにユーザーに謝る https://docs.anthropic.com/claude/docs/tool-use
  21. Humane AI Pin review: not even close 良点 ・画⾯を⾒る時間が減り、現実に集中できる ・ワンタップで作業が完了する

    ⽋点 • 実⽤性:数回に⼀度失敗する。回答待ち時間が⻑い。 • デバイスの問題:バッテリー寿命が短く、過熱しやすい。カバンにひっかかる。 • 価格:完成度が低く、700 ドルか⽉額 24 ドルする。 https://www.theverge.com/24126502/humane-ai-pin-review