AIエージェントをちゃんと作る/How to build agentic AI

AIエージェントをちゃんと作る吉田真吾 / 株式会社ジェネラティブエージェンツ 2024/06/26

いもす氏「LLMの現在」2024/03/29 @Preferred Networks LLMオープンハウスより抜粋

「AI」からの大規模言語モデルの位置付け人工知能（Artificial Intelligence, AI）機械学習（Machine Learning, ML）深層学習（Deep Learning, DL）
生成モデル（Generative Model）≒ 生成AI 言語モデル（Language Model）大規模言語モデル（Large Language Model） OpenAI ChatGPT（GPT-3.5, GPT-4）スパムフィルタ、信用スコアリング（ローン審査）、商品推薦エンジン画像認識を用いた生体認証（Face ID、指紋認証など）、音声認識を用いた議事録生成、自動運転車の物体検知・認識商品画像の自動生成、音楽・動画の自動生成、デザイン案の自動生成文法・スペルチェック、品詞タグ付け、固有表現認識、音声認識の補助高度な文章生成、質問応答、要約・翻訳、プログラムコードの生成

A Survey of Large Language Models https://arxiv.org/abs/2303.18223 特定のタスクの補助典型的な自然言語
処理タスクの解決文脈を考慮した様々なタスク解決現実世界のタスクの汎用的解決統計的手法の活用ニューラルネットワークの導入事前学習モデルの登場汎用性の獲得とプロンプトベースの生成

https://twitter.com/kylelf_/status/1623679176246185985 図: 世界における代表的なサービスのユーザ獲得速度 ChatGPTのユーザ獲得速度と、集中する生成AIへの投資 ChatGPTは100万ユーザまで7日で到達 AI関連の資金調達の半分が生成AIに図: AIスタートアップの資金調達額 State of
AI Report 2023 スライド109 https://www.stateof.ai/

生成AIのサービス、物凄くたくさん増えましたよね文書生成AI 画像生成AI 音声生成＆設計生成 etc…

おおむね便利です文書生成AI 画像生成AI 音声生成AI 適当に話した内容を整理してまとめてくれる／検討中のイシューの相談に乗ってくれる／論文要約をしてくれる／あらゆる言語で書かれた文献を翻訳してくれる絵が描けなくても「こんな絵を描いて」とお願いするだけで、その絵を生成して
くれる／何度でもリテイクできる／生成される映像のクオリティはプロ並に高い人間と同じような音声を生成してくれる／アナウンサー、声優に頼まなくても無限に読み上げ原稿を生成できる／無限にリテイクできる／プロ並に読み上げ可能

課題1：プロンプトを使いこなすのが大変 (Ultrarealistic:1. 3), (Award Winning Photo:1. 3), a man stands
near a massive lonely magic (glowing tree:1. 3) in the middle of the snow field, (branches radiated a soft warm glow:1. 3), full moon, winter night, deep snow everywhere, (otherworldly glow:1. 2), (on a background of starry night:1. 3), masterpiece, (realism:1. 2), high contrast, (photorealism digital art:1. 3), Intricate, 8k HD high definition detailed, HDR, hyper detailed, best quality, (Photorealism:1. 3), (Vivid:1. 3), (Highly Detailed:1. 3), ((raytracing)), ((cinematic lighting)), (trending on Artstation:1. 3), <lora:add_detail:1> <lora:t3xtn:0. 4> <lora:galaxy_gods:0. 5> あなたは、プロンプトエンジニアです。あなたの目標は、私のニーズに合わせて最高のプロンプトを作成することです。そのプロンプトは、ChatGPTで使用されるものです。次のプロセスに従ってください。 1. まず最初に、何についてのプロンプトであるかを私に確認してください。私が質問の答えを提供するので、次のステップを経て、継続的な反復を通じて改善してください。 2. 私の入力に基づいて、3つのセクションを生成します。 a) 改訂されたプロンプト（書き直したプロンプトを提示してください。明確、簡潔で、簡単にあなたが理解できるものしてください） b) 提案（プロンプトを改善するために、プロンプトを含めるべき詳細について提案してください） c) 質問（プロンプトを改善するために必要な追加情報について、関連する質問をしてくだい） 3. この反復プロセスは、私があなたに追加情報を提供し、あなたが改訂されたプロンプトセクションのプロンプトを更新し、私が完了したというまで続けます。望みのプロンプトを生成してくれる

課題2：文章や画像はつくるが仕事は肩代わりしない

ソリューションプロンプトに記載してないことまでちゃんと意図を理解して、テキストを生成するだけじゃなくて、実際に業務の遂行までやってほしい→わがまま？

AIエージェントとは？人がいちいち指示をしなくとも、自分でやることを考えて、様々なツールを活用して目標に向かってタスクをこなしていく AIの仕組みのこと

初版 1995年(邦訳1997年)/第2版2003年(邦訳2008年)/第3版 2010年/第4版2020年 • エージェントとは、環境を認識し、目標を達成するために自律的に行動する存在 • エージェントらしさの観点人工知能の各部分領域をそれらの独自の歴史的文脈に沿って解説するのではなく,現在知られている事柄を共通の枠
組みの中で再構築することを試みた →理論と実践 AIエージェントへの道 / AIのゴールは昔からエージェント

限られた直接的な監督下で複雑な目標を追求できるAI システムであるエージェンティックなAIシステムは、私たちが責任を持って社会に組み込むことができれば、広く有用になる可能性が高い。 (中略) エージェンティックなAIシステムの業務遂行上の安全性と説明責任を管理するためのプラクティスを提供する。エージェンティックなAIシステムを管理するためのプラクティス https://openai.com/index/practices-for-governing-agentic-ai-systems/

生成AI活用とAIエージェント活用はどのように違うのか？生成AI 生成AI プロンプトプロンプト AIエージェント生成AI活用ユーザーは「プロンプト」（生成AIへの入力文）を用いて生成AIに指示を出し、望みの結果を得る。 AIエージェントの活用ユーザーがAIエージェントに依頼を出すと、AI自身がプロンプトを生成して望みの結果を得られるように動作する。

LLMエージェントの位置付けエージェント AIエージェント LLMベースの AIエージェント（LLMエージェント）自律的に動作し目的達成を目指すソフトウェアの総称。ルールベースのエキスパートシステムから、AIを活用する高度なエージェントまで幅広く含む。機械学習アルゴリズムを用いて訓練されたモデルを活用するエージェント。教師あり学習や強化学習などの手法により、パターン認識や意思決定を行
う。適応性と汎用性に優れる。大規模言語モデル(LLM)を活用し、自然言語処理を高精度で行う最先端のAIエージェント。大量のテキストデータを用いた自己教師あり学習により、言語に関する広範な知識を獲得し、複雑なタスクを処理できる。LLMの登場により、言語に関わる幅広い分野でAIエージェントの性能が飛躍的に向上している。 ※エキスパートシステム: 特定分野の専門知識をルールベースで表現し、推論を行うシステム。 ※教師あり学習: 入力データとそれに対応する正解ラベルを用いてモデルを訓練する機械学習の手法。 ※自己教師あり学習: ラベル付けされていない大量のデータを用いて、モデル自身が入力データの一部をマスクし、マスクされた部分を予測することで、言語の構造や文脈を学習する手法。正解ラベルを明示的に必要としない。

オペレーティング・システムから、オペレーティング・エージェントへ深津貴之 (fladdict)氏：https://note.com/fladdict/n/nf4c104d4ed2b

MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution (2024.3) •
GitHubのイシュー解決は複雑な課題である。その理由は、新しいコードの導入と既存機能の維持どちらも重要なため。 • LLMはリポジトリレベルでのコード変更には課題があると考えられてきた →LLMがGitHubのイシューを解決できない理由と影響要因を実証的に研究し、分析した https://arxiv.org/abs/2403.17927v1 ▪計画フェーズ 1. リポジトリカストディアンエージェント 2. マネージャーエージェント →キックオフミーティングで開発計画 ▪コーディングフェーズ 3. 開発者エージェント 4. QAエンジニアエージェント →レビューとマージ GPT-4の8倍のイシュー解決率‼

完全自律型エンジニアAIエージェント「Devin」 https://www.youtube.com/watch?v=fjHtjT7GO1c&t=62s LLMと強化学習の技術を組み合わせて開発された世界初の完全自律型AIソフトウェアエンジニア Devinは、情報の検索、コーディング、プロジェクトの展開など、ソフトウェア開発のすべての工程をAIだけで完結させることが可能未知の技術の学習、アプリケーションの構築・デプロイ／コードベースのバグ自動検出・修正／サンドボックス環境内で複雑なタスクを計画・実行／リアルタイムの進捗報告、フィードバック受け入れ、ユーザーとの協力／現在は早期アクセス段階で待機リスト制出典：https://www.cognition-labs.com/introducing-devin

WebGPT: Browser-assisted question-answering with human feedback (2021.12) GPT-3をファインチューニングすることで、Webを検索して質問に回答できるようにすることで、56%の確率で人間による回答よりも好ましい回答が得られたモデルが実行できるアクション
https://arxiv.org/abs/2112.09332

MRKL Systems: A modular, neuro-symbolic architecture that combines large language
models, external knowledge sources and discrete reasoning (2022.5) • MRKLのアーキテクチャ ◦ 小規模で特殊な言語モデルや数学計算、通貨変換、データベースなどへの接続APIをモジュールとして構成し、LLMによって入力を最適なモジュールにルーティングする構成とし、最新情報や独自の知識を出力に利用したり、複雑な入力に対して多段階に処理をおこなうことで、専門性の高い出力を処理できるようになる • Jurassic-X (MRKLを実装したシステム) ◦ 実際に複雑な質問に対して外部知識や計算処理をおこなった結果を多数評価 → 現在も試験運用中 https://arxiv.org/abs/2205.00445

ReAct: Synergizing Reasoning and Acting in Language Models (2022.10) •
ReAct (Reasoning and Acting) ◦ 大規模言語モデル (LLM) の推論能力と行動生成能力を組み合わせたアプローチ ◦ タスクに関連する推論と行動を交互に生成することで、両者の相乗効果を引き出すことが可能 • Reasoning(推論トレース)工程について ◦ 行動計画の作成、維持、調整をおこなう (reason to act) • Acting(行動)工程について ◦ 外部環境 (例: Wikipedia) とのインタラクションを通じて、推論に必要な追加情報を取り込んだり、目的の外部実行をおこなう (act to reason) https://arxiv.org/abs/2210.03629

検証パターン a. Reasonなし、Actなし b. Reasonのみ c. Actのみ d. Reasonあり、Actあり (ReAct) • Apple Remoteのほかに、Apple Remoteがもともと相互作用するように設計されたプログラムを制御できるデバイスはありますか？ →ReActのみ正解 https://arxiv.org/abs/2210.03629

検証パターン a. Actのみ b. Reasonあり、Actあり (ReAct) • ALFWorld：テキストベースによる周辺環境認識の評価フレームワーク行動(Act)→観察(Obs)→…を繰り返してReActは引き出し1に胡椒入れを格納成功 https://arxiv.org/abs/2210.03629

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
(2023.5) • LLMに「計画を立てて(タスクをサブタスクに分割して)から、計画に従ってサブタスクを実行してください」と指示する手法 https://arxiv.org/abs/2305.04091 Zero-shot-CoT Plan-and-Solve

An LLM Compiler for Parallel Function Calling (2023.12) • 計画したサブタスクの依存関係を整理して、並列でアクションを実行
https://arxiv.org/abs/2312.04511 • ReActより1.8倍高速 • LlamaIndexやLangGraphで実装済み・利用可能

その他 • DB-GPT: Empowering Database Interactions with Private Large Language
Models (2023.12) ◦ データベースとのやり取りにおいて、SQLなどの構造化クエリ言語ではなく、LLMによる自然言語インターフェースが期待されているが、LLMでどのようにデータベース操作し、アプリケーションを構築するかが課題 ◦ フレームワークとして「RAG」「適応学習メカニズム」「サービス指向マルチモデルフレームワーク（SMMF）」「データ駆動型エージェント」を用いてText-to-SQLタスクとRAGメカニズムのQAパフォーマンスを評価 ◦ ほとんどの評価指標で競合アプローチを上回る https://github.com/eosphoros-ai/DB-GPT

AIエージェントの仕組みはフローエンジニアリング生成AI プロンプト生成AI活用 → プロンプトエンジニアリング期待する結果が安定して出力されるプロンプトを探索する AIエージェントの活用 → フローエンジニアリング
期待する結果が安定して出力される処理フローを探索する結果結果

生成AIによって変化するビジネスモデルについてレポートしてユーザー AIエージェントプログラムコードの生成／実行インターネットやデータベースからの情報収集大規模言語モデルによる思考ファイルの読み込み／書き出し
アウトプットとなる成果物生成AIによって変化するビジネスモデルは以下の通りです... 人間はミッション or タスクを与えるミッション達成に向けて自律的に行動成果をアウトプットする

AIエージェントを構成する4つの要素個性（Profile）記憶（Memory）計画（Planning）行動（Action）担当するタスクにおける役割 AIエージェントとしての性格文脈を捉えるための短期記憶教訓を活かすための長期記憶タスク実行のためのタスクばらし
結果や教訓からの再プランニングタスク実行のための具体的な行動コード生成、画像生成、検索など

個性（Profile）記憶（Memory）計画（Planning）行動（Action）体験をどのように記憶するか？過去の教訓を踏まえた計画よりユーザーにフィットするように実行できる計画づくり AIエージェントを構成する4つの要素の相互作用

タスク分解カレーライスをつくる下準備調理仕上げつくるカレーのレシピを決めるレシピに必要な材料をリストアップする必要な材料を購入する必要な調理器具を準備する野菜を洗い、皮をむく
野菜を切る肉を一口大にカットし、下味をつける鍋に火をかけて温める油を鍋にひき、温まったら玉ねぎを炒める玉ねぎを透明になるまで炒めたら、肉を加えて炒める肉の色が変わったら、他の野菜を加えてさらに炒める指定の量の水を加え、沸騰させる水が沸騰したらカレー粉を加え、次にトマトピューレを加える火を弱めて蓋をし、40分間煮込む最終的な味の確認（味を見て、足りない調味料を加える）カレーとご飯を皿に盛り付けるお米を洗い、炊飯器にセットする

法律のバー試験（Uniform Bar Exam）におけるスコア GPT-4は90%以上の法学生よりも高いスコアを出すことができたが、一方でGPT-3.5は下位10%に位置していた。 GRE（高校相当）の言語テストにおけるスコア GPT-4は上位1%に入るスコア（99パーセンタイル）を出したのに対し、GPT-3.5は上位37%に位置していた。文学的な表現の解釈はニガテ抽象的な創造性や解釈を求められるような試験では、GPT-
4、GPT-3.5共にスコアが低かった。複雑な問題を直接的に解くことは難しい簡単な問題であれば正答することができるが、問題分析を必要とする難易度になると正答率が下がる。

エージェントを利用した仕組みがLLM単体の性能を上回る What's next for AI agentic workflows ft. Andrew Ng
of AI Fund https://www.youtube.com/watch?v=sal78ACtGTc&t=17s

Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering
コード生成タスクにおいて、段階的循環的フローで生成した結果が一貫して単一の最適化プロンプトの結果を上回った。 https://arxiv.org/abs/2401.08500 初版: 2024/1/16 【前処理を行う】 • 問題の目的・入力・出力・制約条件などを箇条書きで整理する • Public Tests（回答検証用のテスト）を用意する • 複数の回答（コードではなくテキストのアルゴリズム）を生成する • PublicTestsを検証する（各テストケースの入力と出力の関係を説明する • AIテストを生成する（Public Testsではカバーされていないケースや側面を考慮する）【反復する】 • コードベースの回答を生成する • 回答をPublic Testsで試す • エラーが発生した場合は修正を行う（繰り返し） • AIテストを使用して更に反復して洗練する ※競技プログラミングの問題を元に設計され、性能が検証されているため、実用のソフトウェア開発などにおける有用性は別途確認が必要。

Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code
Generation and Optimization https://arxiv.org/abs/2404.02183 初版: 2024/4/2 複数のエージェントに協力させ、大規模で複雑なコードを生成（および改善）を行う方法を提案。各エージェントが扱うコードの量を一定に保ちつつ、問題の複雑さに応じてエージェントを自動的に増殖させることで、生成されるコード全体を理論的には無限に拡張できるとしている。主要コンポーネントは（１）Child agentと（２）Mother agent （１）Child agent - 与えられた関数のdocstringに基づいて実装を行う。 - LLMとメモリを持ち、コードの生成と改変を行う。 - Mother agentの状態を観察し、その情報を使って自律的にコードを改善する。（２）Mother agent - Child agentと同様に、docstringに基づいて関数を独立して実装する。 - 問題の複雑さに応じて複数のChild agentを生成し、実装の一部をこれらのエージェントに委譲する。 - 抽象的なプロセスの実装に集中し、生成されたChild agentは具体的なプロセスの実装を担当する。また、プロセスは（A）コード生成と（B）コード改変にフェーズ分けされる（A）コード生成プロセス - エージェント間の階層的な組み合わせによって、単一の大規模なコードベースが効果的に構築される。（B）コード改変フェーズ - すべてのエージェントの実装が組み合わされ、最終的な実装が作成される。 - フィードバックがルートのMother agentから生成され、Child agentに伝播される。

The FOXY Method ユーザーからゴールが渡される過去の振り返り結果を参照タスクリストを生成タスク1を実行タスク2を実行... 最後のタスクを実行タスクの実行結果を出力
タスク実行の振り返りゴール、タスクリスト、振り返り結果、実行日時の組み合わせをデータベースに保存振り返りデータベース今から取り組もうとしているゴールに近しい取り組みをデータベースから探し、その振り返り結果を参考情報にする。

AIエージェントによる社会シミュレーション Generative Agents 25人のAIエージェントをスモールビル（Smallville）と呼ばれる仮想的な町に住まわせることにより、AIエージェント同士でどのような創発が生まれるかを観察したプロジェクト。住民が自発的に他の住民をパーティーに誘ったり、パーティー当日のためのカフェの飾り付けを共同で行ったりした観察結果に基づき、論文ではAIエージェント同士が創発的に協働し合うことのできる可能性が示された。

ツリー構造のイメージクラウス・ミューラーはジェントリフィケーションに関する研究に専念しているリフレクションクラウス・ミューラーは研究に専念しているリフレクションクラウス・ミューラーは研究活動に専念している
リフレクションクラウス・ミューラーは研究に専念しているリフレクション 2月13日水曜日の予定：起床し朝のルーチンを完了させるのは7:00、研究のための読書とノート取りは7:00から、12:00に昼食、13:00にアイデアのメモや根本的な解決策ためのブレインストーミング... 計画クラウス・ミューラーは記事間の関連を見出している観察クラウス・ミューラーは記事を読みながらノートを取っている観察図書館のテーブルは研究材料を調べ、記事間の関連を見出すために使われている観察クラウス・ミューラーは課題図書を読んでいる観察クラウス・ミューラーは何時間も読書に時間を費やしているリフレクション図書館のテーブルは研究資料についての議論のために使われている観察クラウス・ミューラーは図書館員の助けを借りて関連記事を探している観察クラウス・ミューラーは図書館員とさらに研究を進めるために協力している観察クラウス・ミューラーは図書館員と研究について話し合っている観察

AI同士の協働も見逃せないチームビルディングの意味が変わる？

AIエージェントが経営するソフトウェア開発会社 ChatDev AIエージェント同士の協働によって架空のソフトウェア開発会社を作ってしまおうという試み。Generative AgentsはAIエージェント同士の協働によって何が起こるのかという社会シミュレーションがテーマだった一方、ChatDevは協働によって一つの成果物を作り上げる仕組みを作ることがテーマ。論文では、ChatDevはソフトウェア開発のプロセス全体を7分以内で完了でき、大規模言語モデルによる思考プロセスを実行するた
めのOpenAIへのAPI使用料は1ドル未満のコストしかかからなかったと報告されている。

その他 / マルチエージェントによる協調動作フレームワーク • HuggingGPT: Solving AI Tasks with ChatGPT
and its Friends in Hugging Face (2023.3) https://github.com/microsoft/JARVIS • Generative Agents: Interactive Simulacra of Human Behavior (2023.4) https://github.com/joonspk- research/generative_agents • CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society (2023.5) https://github.com/camel-ai/camel • Communicative Agents for Software Development (2023.7) https://github.com/OpenBMB/ChatDev • AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (2023.8) https://github.com/microsoft/autogen • AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors (2023.8) https://github.com/OpenBMB/AgentVerse • MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework (2023.8) https://github.com/geekan/MetaGPT

人間がソフトウェアを使うのではなく、 AIがソフトウェアを扱う世界へのパラダイムシフト人間が様々なソフトウェアを駆使して仕事を進めていく AIが様々なソフトウェアを駆使して仕事を進めていく人間中心設計からAI中心設計へ？

Azure OpenAI Service + Azure AIサービス群

Generative Agents, Inc. AWS Serverless Heroとして日本におけるサーバーレスの普及を促進。「ChatGPT/LangChainによるチャットシステム構築［実践］入門」（技術評論社）共著、「Azure OpenAI
ServiceではじめるChatGPT/LLMシステム構築入門」（技術評論社）共著、「AWSによるサーバーレスアーキテクチャ」（翔泳社）監修、「サーバーレスシングルページアプリケーション」（オライリー）監訳、「AWSエキスパート養成読本」（技術評論社）共著。 ChatGPT Community（JP）主催大規模言語モデルを組み込んだアプリケーションやAIエージェントの開発を実施。個人ではエンジニア向けの勉強会開催や教材作成など。オンラインコースUdemyではベストセラー講座多数。「ChatGPT/LangChainによるチャットシステム構築［実践］入門」（技術評論社）共著。勉強会コミュニティStudyCo運営。事業会社の顧問CTOとして活動するソフトウェア開発のスペシャリスト。AIエージェントを経営に導入することにより、あらゆる業種業態の生産性を高めるための活動に尽力している。「その仕事、AIエージェントがやっておきました。 ――ChatGPTの次に来る自律型AI革命」（技術評論社）単著、Software Design「実践LLMアプリケーション開発」（技術評論社）連載。西見公宏（にしみまさひろ）吉田真吾（よしだしんご）大嶋勇樹（おおしまゆうき）代表取締役CEO / Founder 取締役COO / Co-founder 取締役CTO / Co-founder

会社情報会社名株式会社ジェネラティブエージェンツ（英文：Generative Agents, Inc.）役員構成 CEO 西見公宏
COO 吉田真吾 CTO 大嶋勇樹設立年月 2024年3月14日事業内容 AIエージェントによるBPaaSの提供／生成AIを活用したソフトウェア開発／技術顧問、AIエージェントに関わるコミュニティ運営、法人向けコンサルティング AIエージェントによるBPaaSの提供複雑な業務管理を自律的におこなうLLMエージェントサービスを提供します。独自のワークフローエンジンと複数プロフィールを設定したマルチエージェントシステムが御社のワークフォースとして業務を遂行します。生成AIを活用したソフトウェア開発支援 AIエージェントの開発技術をコアに、生成AIを活用したソフトウェア開発をレンタルCAIO（最高AI責任者）として支援します。法人向けメンバーシップの提供キャッチアップの難しいAIエージェント活用のリサーチ・事例・プロダクト情報を提供します。AIエージェントの活用を考えている企業同士のネットワーキングもサポートすることで、日本におけるAIエージェント活用を積極的に後押しします。 AIエージェント研究コミュニティの提供 AIエージェントに興味関心のある個人に向けて、学びあえるコミュニティを提供します。

AIエージェントをちゃんと作る/How to build agentic AI

AIエージェントをちゃんと作る/How to build agentic AI

吉田真吾

More Decks by 吉田真吾

Featured

Transcript

AIエージェントをちゃんと作る吉田真吾 / 株式会社ジェネラティブエージェンツ 2024/06/26

いもす氏「LLMの現在」2024/03/29 @Preferred Networks LLMオープンハウスより抜粋

「AI」からの大規模言語モデルの位置付け人工知能（Artificial Intelligence, AI）機械学習（Machine Learning, ML）深層学習（Deep Learning, DL）

A Survey of Large Language Models https://arxiv.org/abs/2303.18223 特定のタスクの補助典型的な自然言語

生成AIのサービス、物凄くたくさん増えましたよね文書生成AI 画像生成AI 音声生成＆設計生成 etc…

課題1：プロンプトを使いこなすのが大変 (Ultrarealistic:1. 3), (Award Winning Photo:1. 3), a man stands

課題2：文章や画像はつくるが仕事は肩代わりしない

ソリューションプロンプトに記載してないことまでちゃんと意図を理解して、テキストを生成するだけじゃなくて、実際に業務の遂行までやってほしい→わがまま？

AIエージェントとは？人がいちいち指示をしなくとも、自分でやることを考えて、様々なツールを活用して目標に向かってタスクをこなしていく AIの仕組みのこと

オペレーティング・システムから、オペレーティング・エージェントへ深津貴之 (fladdict)氏：https://note.com/fladdict/n/nf4c104d4ed2b

MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution (2024.3) •

MRKL Systems: A modular, neuro-symbolic architecture that combines large language

ReAct: Synergizing Reasoning and Acting in Language Models (2022.10) •

ReAct: Synergizing Reasoning and Acting in Language Models (2022.10) •

ReAct: Synergizing Reasoning and Acting in Language Models (2022.10) •

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

An LLM Compiler for Parallel Function Calling (2023.12) • 計画したサブタスクの依存関係を整理して、並列でアクションを実行

その他 • DB-GPT: Empowering Database Interactions with Private Large Language

AIエージェントの仕組みはフローエンジニアリング生成AI プロンプト生成AI活用 → プロンプトエンジニアリング期待する結果が安定して出力されるプロンプトを探索する AIエージェントの活用 → フローエンジニアリング

個性（Profile）記憶（Memory）計画（Planning）行動（Action）体験をどのように記憶するか？過去の教訓を踏まえた計画よりユーザーにフィットするように実行できる計画づくり AIエージェントを構成する4つの要素の相互作用

タスク分解カレーライスをつくる下準備調理仕上げつくるカレーのレシピを決めるレシピに必要な材料をリストアップする必要な材料を購入する必要な調理器具を準備する野菜を洗い、皮をむく

エージェントを利用した仕組みがLLM単体の性能を上回る What's next for AI agentic workflows ft. Andrew Ng

Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering

Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code

The FOXY Method ユーザーからゴールが渡される過去の振り返り結果を参照タスクリストを生成タスク1を実行タスク2を実行... 最後のタスクを実行タスクの実行結果を出力

AI同士の協働も見逃せないチームビルディングの意味が変わる？

その他 / マルチエージェントによる協調動作フレームワーク • HuggingGPT: Solving AI Tasks with ChatGPT

Azure OpenAI Service + Azure AIサービス群

Generative Agents, Inc. AWS Serverless Heroとして日本におけるサーバーレスの普及を促進。「ChatGPT/LangChainによるチャットシステム構築［実践］入門」（技術評論社）共著、「Azure OpenAI

会社情報会社名株式会社ジェネラティブエージェンツ（英文：Generative Agents, Inc.）役員構成 CEO 西見公宏