Weekly AI Agents News! 4月号プロダクト/ニュースのアーカイブ

Weekly AI Agents News @ottamm_190 ݄̐߸ プロダクト/ニュース編

はじめに • こちらは4⽉分のアーカイブです。 • LLMエージェントに関するニュースや論⽂をほぼ毎週更新しています。 • 論⽂、プロダクトの順番でまとめています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 •
⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。

プロダクト/ニュース 4⽉29⽇配信 Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント
• Agents for Amazon bedrock 機能紹介 4/23アップデート含む海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents

プロダクト/ニュース 4⽉21⽇配信 • Gemini 1.5 Pro • OpenAI Batch API
• OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks

プロダクト/ニュース 4⽉14⽇配信 • Vertex AI Agent Builder • Claude 3
AI Expands with Tool Integration • Humane AI Pin review: not even close

プロダクト/ニュース 4⽉29⽇配信 Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント
• Agents for Amazon bedrock 機能紹介 4/23アップデート含む海外のベンチャー企業 • Introducing Dify Workflow • Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various LLMs • Bland AI/Phone Agents • NEXUS/NexusGPT • PaddleBoat • Intrvu SPACE/Interview Agent • Alpha Corp/Group Chat With AIs コラム • The UX of AI: Lessons from Perplexity • The Rise and Fall of (Autonomous) Agents

Google Cloud Next ʻ24 • エージェントは⼈間とつながり、ユーザーに代わって、テキスト、画像、⾳声、動画のように形式の異なる情報を同時に処理し、対話、推論、学習、意思決定を⾏う • 6つのユースケースを紹介 •
既存サービスにGeminiを乗せるのとエージェントが道具としてサービスを使う話が混在している • カスタマーエージェント • 優れた販売員やサービスマンと同様に、お客様の声に⽿を傾け、ニーズを理解し、適切な商品やサービスを勧める • ウェブ、モバイルアプリ、POS、コールセンターと連携 • 従業員エージェント • 従業員の⽣産性を⾼めるために 1 ⼈の従業員として業務をサポートする • Google ドライブ上のRAG、Google docs や Gmail での⽂書作成⽀援、 Google スライドのスライドや画像⽣成 • クリエイティブエージェント • デザイナーのようなクリエイティブなタスクをこなす • Imagen 2.0、 Text-to-Live Image • データエージェント • データアナリストのように、企業のデータを使った意思決定をサポートする • BigQuery、LookerにGemini搭載 • コードエージェント • アプリケーションを開発するエンジニアの⽣産性を⾼める（Gemini Code Assist ） • セキュリティエージェント • チャットを通じて、セキュリティインシデント内容を要約、推奨されるアクションを提案をする https://cloud-ace.jp/column/detail468/ https://www.youtube.com/watch?v=V6DJYGn2SFk （4/10開催）

Google Cloud Next ʼ24 カスタマーエージェントショッピング⽀援欲しいシャツとURLを渡して動画の中で着ているのと似たシャツを推薦元のプロンプトもだいぶ効いていそうだけど凄いショッピング⽀援
電話（⾳声対話）で買い物 https://www.youtube.com/watch?v=V6DJYGn2SFk

Google Cloud Next ʼ24 従業員エージェント Google ドライブ上のデータで質問応答 Docsでも100ページ越えても質問応答 @でファイル選択するの良いな https://www.youtube.com/watch?v=V6DJYGn2SFk

Google Cloud Next ʼ24 データエージェントインタラクティブな描画名のがすごいな細部の作り込みがデモ映えしている対話形式で深く掘り下げられるいくつものコンポーネント⽤意していそう https://www.youtube.com/watch?v=V6DJYGn2SFk

Agents for Amazon bedrock の特徴 • Claude3 SonnetとHaikuまで利⽤可能 • Agents
for Amazon Bedrock は現時点では⽇本リージョンに対応していない⾃動プロンプト作成開発者が提供する役割指⽰、APIやfunction の詳細、およびナレッジベースからの企業データソースの詳細に基づいてプロンプトを作成計画によるサブタスクの作成と実⾏必要な API を⾃動的に呼び出して実⾏ CoT推論によるトレーストレース機能からエージェントの推論と計画を段階的に確認プロンプトエンジニアリング⾃動⽣成されたプロンプトテンプレートをさらに改良してUXを向上 https://aws.amazon.com/jp/bedrock/agents/

Agents for Amazon bedrockによるエージェントの構築 • 順番に設定していくと簡単に作成ができる（外部ツールだけ別途コーディングが必要な場合あり）構築後は対話形式で確認エージェント構築画⾯ https://www.youtube.com/watch?v=NWoC5FTSt7s

Agents for Amazon bedrock のアプデ 4/23 • エージェントの外部ツール呼び出し（アクショングループ）の設定が以前より簡素化された • アクショングループは、Lambda
関数を関連付けたり、エージェントを呼び出しているユーザーまたはアプリケーションに制御を返して関数に応答できるように設定できる • (New) Return of control：AWS Lambda関数の使⽤せず、エージェントを呼び出すアプリケーションに制御を返す⼈間にタスクを実⾏してもらうことができる • 時間のかかるアクションがある場合 • タスクの継続時間が Lambda 関数の最⼤タイムアウトである 15 分を超える場合 • 既存のアプリケーション (エージェントの呼びだしもと) から API を呼び出す⽅が簡単な場合 Return of control ユーザーに外部サービスの結果を⼊⼒してもらう https://aws.amazon.com/blogs/aws/agents-for-amazon-bedrock-introducing-a-simplified-creation-and-configuration-experience/

Introducing Dify Workflow • Difyはエージェントのワークフローをノード間を線で繋ぐ直感的なドラッグ＆ドロップで作れるサービス • ワークフローは API 対応で、既存のアプリケーションやシステムに簡単に統合できる •
プロトタイプを作るときに使いやすいかもしれない（Apr 8, 2024公開）ノードに細かく設定ができるデバッグも細かくできる https://dify.ai/blog/dify-ai-workflow

Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various
LLMs • OpenAI Assistants APIと類似機能もあり作成⼿順 • 新しいアシスタントアプリを作成する • プロンプトを作成する • エージェントが使⽤するツールを構成する • デプロイする (2024 年 1 ⽉ 24 ⽇に公開)

Bland AI/Phone Agents • Bland は AI 通話のためのプラットフォーム（コールセンター、リード獲得など） • AI電話エージェントはいつでもリードに連絡を取ったり、顧客からの呼び出しに応答でき、質問に即座に対応
できる • ⽂字起こし、⾔語理解、テキスト読み上げモデルの組み合わせも 1 秒以内に実⾏する • 1秒以内レスポンスに向けてモデル以外にもプロンプトを⼯夫する • 電話エージェントの⼈物像、応答すべき質問の種類、応答すべきでない質問の種類、誰かが電話エージェントを脱獄しようとした場合の対処⽅法を記載 https://www.bland.ai/blog/how-to-build-an-ai-call-center How to build an AI Call Center（ April 7, 2024 ）電話の内容を別のツールと接続可能

NEXUS/NexusGPT • ワークフロー⾃動化のためのカスタムAIエージェントプラットフォーム（GPTsのようなもの） • 対話的にエージェントの役割を定め、タスクを指定、ナレッジアップロード、ツールと接続、その後、対話エージェントをデプロイ • ⾃動計画と実⾏、エージェントを微調整、さまざまなモデル対応している様々なエージェント https://nexus.snikpic.io/

PaddleBoat • PaddleBoatは、AI駆動のロールプレイプラットフォームを提供 • コールドコール、ディスカバリコール、デモ、売り込み、反対意⾒への対応など洗練されたセールスピッチの精度を向上させる⽬的ごとにロープレできるスコアが出てフィードバックを受けられる
https://www.padboat.com/

Intrvu SPACE/Interview Agent • Intrvu SPACE は、⾯接のスケジュール設定から候補者の評価までの様々な段階を⾃動化する • 事前スクリーニング、⾯接の実施、レポートの⽣成、候補者の承認を⾃動化 •
Intrvu SPACE は、従業員評価にも利⽤でき、⼈材開発と管理にも使える • 候補者は都合のよいときに⾯接可能 https://www.intrvu.space/

Alpha Corp/Group Chat With AIs • 社内ChatGPTでAI同⼠のグループチャットができる • 複数のモデルが利⽤可能 •
同じチャットの中でモデルの⽐較ができる • ２つのモデルでチャットシミュレーション • AIがAIに応えることができる https://alphacorp.ai/

The UX of AI: Lessons from Perplexity • Perplexity AI
のデザイン責任者であるヘンリーモディセットとの対談記事 • Perplexity は、信頼できる情報をできるだけ早く提供することに重点を置いた急成⻑中の AI スタートアップ • 製品が⼤きく複雑になればなるほど、快適なエクスペリエンスを提供することが難しくなる • 擬⼈化されたコンセプトを持つことによるメリットはほとんどありませんシンプルに回答の⼀番上に情報源（記事、画像、地図、ビデオ）を表⽰し、それから答えがある。答えはチャットではない。 https://www.nngroup.com/articles/perplexity-henry-modisett/

The Rise and Fall of (Autonomous) Agents • LLMに基づく⾃律型エージェントの発展と課題をまとめたブログ（2024 年
3 ⽉ 4 ⽇公開）的を得た⼀⽂ • エージェントは現在、⽬標が達成されるまで⼤きなタスクを管理可能な⼩さなタスクに分割するプロジェクト管理エージェントに依存しています。課題 • 閉ループに陥る • ユーザビリティが低い • 信頼性が⼗分ではない https://medium.com/@lukas.kowejsza/the-rise-and-fall-of-autonomous-agents-18360625067e

プロダクト/ニュース 4⽉21⽇配信 • Gemini 1.5 Pro • OpenAI Batch API
• OpenAI Assistants API v2 • LangChain Tool calling agent • LlamaIndex: An Introduction to Agents Tutorial Series • LangChain Benchmarks

Gemini 1.5 Pro • Googleは100万トークンのGemini 1.5 ProをGoogle AI Studioで公開 •
ネイティブオーディオの理解 • Gemini API と Google AI Studio の両⽅で使える • ビデオの画像 (フレーム) とオーディオ (⾳声) の両⽅を理解できる • ファイルAPI • プロジェクトごとに最⼤ 20 GB、ファイルサイズの上限は2GB、アップロード後2⽇で削除 • 画像、動画、⾳声ファイル対応 • System InstructionとJSONモードの導⼊ • 役割、形式、⽬標、ルールを定義して、特定のユースケースに合わせてモデルの動作を制御できる • JOSNモードでは、テキストまたは画像から構造化データを抽出できる • function callingの改善 • 関数呼び出しモードで使うか使わないかわからないAUTO, 必ず呼ぶANY, 使わないNoneが選べる • テキスト埋め込みモデルtext-embedding-004もリリース https://ai.google.dev/gemini-api/docs/function-calling?hl=ja https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

OpenAI Batch API 通常のAPIより50%安い。⼊⼒・出⼒はJSONLファイルになる。

OpenAI Assistants API v2 • 最⼤ 10,000 個のファイルを取り込めるファイル検索（file_search）機能をリリース • RAGで最初にやりそうなことはファイル検索機能に追加された
• 各実⾏で使⽤されるメッセージ数に制限の設定/トークン数の最⼤値の設定が可能に • tool_choiseパラメータ”code_interpreter”, ”function”に”file_search”が指定可能に • gpt-3.5-turbo-0125のFine-Tuningモデルが利⽤可能 • ストリーミング対応 https://platform.openai.com/docs/assistants/whats-new

LangChain Tool calling agent • LangChainのツールを利⽤するAgentクラスを久々に⾒たらサポート数が増えていた • OpenAIのGPT-turbo、AnthropicのClaude、GoogleのGemini、MistralAIのMistralをサポート最初のLLMの定義だけ違うそれ以降は同⼀の書き⽅
system_messageはGeminiだけなかったが追加されたのでLangChainでも対応される

LlamaIndex: An Introduction to Agents Tutorial Series • LlamaIndexのYoutubeにエージェント開発⽤のチュートリアル動画があがった •
ステップバイステップ実⾏とToolの利⽤後にLLMの⽣成を挟まないreturn_direct 変数にオリジナリティがあったかも https://medium.com/llamaindex-blog/data-agents-eed797d7972f

LangChain Benchmarks • LLM 関連タスクのベンチマークを⽀援するパッケージ • Tool Usage (2024-04-18)の項⽬が追加 •
gpt4-turboとclaude-sonnetが良い勝負している、計算タスクだけgpt-35-turboが良い

プロダクト/ニュース 4⽉14⽇配信 • Vertex AI Agent Builder • Claude 3
AI Expands with Tool Integration • Humane AI Pin review: not even close

Vertex AI Agent Builder • ノーコードのGUIツールで簡単にAIエージェントをプロトタイピング、テスト、デプロイが可能 • ツールはCode Interpreter、OpenAPI 、データストア、関数ツールがある
https://cloud.google.com/dialogflow/vertex/docs/concept/agent-apps

Claude 3 AI Expands with Tool Integration • ツールの定義と利⽤⽅法はだいたいOpenAIに準拠しているベストプラクティス
• ツール定義 • exanpleよりもdescriptionを優先する • 多くのツール利⽤可能 • 数百のシンプルなツールと少数のパラメータの多い複雑なツールでも、90% を超える精度を実現 • 順番にツール利⽤ • ⼀度に 1 つのツールを使⽤し、そのツールの出⼒を使⽤して次のアクションを通知することを好む • ツールの繰り返し傾向 • 2 〜 3 回試⾏が失敗すると、Claudeは諦めて、さらに再試⾏する代わりにユーザーに謝る https://docs.anthropic.com/claude/docs/tool-use

Humane AI Pin review: not even close 良点・画⾯を⾒る時間が減り、現実に集中できる・ワンタップで作業が完了する
⽋点 • 実⽤性：数回に⼀度失敗する。回答待ち時間が⻑い。 • デバイスの問題：バッテリー寿命が短く、過熱しやすい。カバンにひっかかる。 • 価格：完成度が低く、700 ドルか⽉額 24 ドルする。 https://www.theverge.com/24126502/humane-ai-pin-review

Weekly AI Agents News! 4月号プロダクト/ニュースのアーカイブ

Weekly AI Agents News! 4月号プロダクト/ニュースのアーカイブ

masatoto

More Decks by masatoto

Other Decks in Research

Featured

Transcript

Weekly AI Agents News @ottamm_190 ݄̐߸ プロダクト/ニュース編

プロダクト/ニュース 4⽉29⽇配信 Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント

プロダクト/ニュース 4⽉21⽇配信 • Gemini 1.5 Pro • OpenAI Batch API

プロダクト/ニュース 4⽉14⽇配信 • Vertex AI Agent Builder • Claude 3

プロダクト/ニュース 4⽉29⽇配信 Big Tech企業 • Google Cloud Next ʼ24 6種類のエージェント

Google Cloud Next ʻ24 • エージェントは⼈間とつながり、ユーザーに代わって、テキスト、画像、⾳声、動画のように形式の異なる情報を同時に処理し、対話、推論、学習、意思決定を⾏う • 6つのユースケースを紹介 •

Google Cloud Next ʼ24 カスタマーエージェントショッピング⽀援欲しいシャツとURLを渡して動画の中で着ているのと似たシャツを推薦元のプロンプトもだいぶ効いていそうだけど凄いショッピング⽀援

Google Cloud Next ʼ24 従業員エージェント Google ドライブ上のデータで質問応答 Docsでも100ページ越えても質問応答 @でファイル選択するの良いな https://www.youtube.com/watch?v=V6DJYGn2SFk

Google Cloud Next ʼ24 データエージェントインタラクティブな描画名のがすごいな細部の作り込みがデモ映えしている対話形式で深く掘り下げられるいくつものコンポーネント⽤意していそう https://www.youtube.com/watch?v=V6DJYGn2SFk

Agents for Amazon bedrock の特徴 • Claude3 SonnetとHaikuまで利⽤可能 • Agents

Agents for Amazon bedrock のアプデ 4/23 • エージェントの外部ツール呼び出し（アクショングループ）の設定が以前より簡素化された • アクショングループは、Lambda

Introducing Dify Workflow • Difyはエージェントのワークフローをノード間を線で繋ぐ直感的なドラッグ＆ドロップで作れるサービス • ワークフローは API 対応で、既存のアプリケーションやシステムに簡単に統合できる •

Dify.AI Unveils AI Agent: Creating GPTs and Assistants with Various

Bland AI/Phone Agents • Bland は AI 通話のためのプラットフォーム（コールセンター、リード獲得など） • AI電話エージェントはいつでもリードに連絡を取ったり、顧客からの呼び出しに応答でき、質問に即座に対応

Intrvu SPACE/Interview Agent • Intrvu SPACE は、⾯接のスケジュール設定から候補者の評価までの様々な段階を⾃動化する • 事前スクリーニング、⾯接の実施、レポートの⽣成、候補者の承認を⾃動化 •

Alpha Corp/Group Chat With AIs • 社内ChatGPTでAI同⼠のグループチャットができる • 複数のモデルが利⽤可能 •

The UX of AI: Lessons from Perplexity • Perplexity AI

The Rise and Fall of (Autonomous) Agents • LLMに基づく⾃律型エージェントの発展と課題をまとめたブログ（2024 年

プロダクト/ニュース 4⽉21⽇配信 • Gemini 1.5 Pro • OpenAI Batch API

Gemini 1.5 Pro • Googleは100万トークンのGemini 1.5 ProをGoogle AI Studioで公開 •

OpenAI Batch API 通常のAPIより50%安い。⼊⼒・出⼒はJSONLファイルになる。

OpenAI Assistants API v2 • 最⼤ 10,000 個のファイルを取り込めるファイル検索（file_search）機能をリリース • RAGで最初にやりそうなことはファイル検索機能に追加された

LlamaIndex: An Introduction to Agents Tutorial Series • LlamaIndexのYoutubeにエージェント開発⽤のチュートリアル動画があがった •

LangChain Benchmarks • LLM 関連タスクのベンチマークを⽀援するパッケージ • Tool Usage (2024-04-18)の項⽬が追加 •

プロダクト/ニュース 4⽉14⽇配信 • Vertex AI Agent Builder • Claude 3

Vertex AI Agent Builder • ノーコードのGUIツールで簡単にAIエージェントをプロトタイピング、テスト、デプロイが可能 • ツールはCode Interpreter、OpenAPI 、データストア、関数ツールがある

Claude 3 AI Expands with Tool Integration • ツールの定義と利⽤⽅法はだいたいOpenAIに準拠しているベストプラクティス

Humane AI Pin review: not even close 良点・画⾯を⾒る時間が減り、現実に集中できる・ワンタップで作業が完了する

Weekly AI Agents News! 4月号 プロダクト/ニュースのアーカイブ

Weekly AI Agents News! 4月号 プロダクト/ニュースのアーカイブ

More Decks by masatoto

Other Decks in Research

Featured

Transcript

Weekly AI Agents News! 4月号プロダクト/ニュースのアーカイブ

Weekly AI Agents News! 4月号プロダクト/ニュースのアーカイブ