Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Agent内model移行の観測

Avatar for yoshitakaebihara yoshitakaebihara
March 29, 2025
110

 Agent内model移行の観測

Avatar for yoshitakaebihara

yoshitakaebihara

March 29, 2025
Tweet

Transcript

  1. Agent内model移行の観測 28th MAR., 2025 at AGI-FUKUOKA Role-base & debate型 Agentへ

    model, persona数, promptを変えて出力回してみた
  2. Raise an issue 私は 日々、 常用していた agentの中で GPT-4o APIを多用していた。 純粋な性能高い事は分かった。

    が、 現稼働の代替として、 どう適用出来るか見えにくい。 しかし、 先手は打ちたい・・ Comment : S〇M on 2.13 「GPT-4.5 as out last non-chain-of-thought model」 そして、 2025年1月末 o3-mini APIが公開された際、 こんな事を考えた。 今までmodelの変化は色々あったものの、収まる範囲だった。 今回は違う。
  3. Resolve modelだけでなく、 persona数やprompt固め具合ごとの生成傾向を知りたい!! ↓ pre-trained model と reasoning modelの差異を一覧に (?)

    してみよう!! 現在稼働しているものを起点とし、 改修の方向性を見つけたい!! Comment : 何故、 一覧にしようと思ってしまったのか・・ agentの組み方自体は変わらなそうだが、 modelの影響色々ありそう!! 2025年2月初旬、 行動に移してみた! よし、分かった!!
  4. ・海外取引~国内取引~倉庫~営業~業務 を経験 / 業界歴 19 年 船舶業界の独立系専門商社 ・社内効率化 & フロー改善の情報系部署

    / 外地取引(実業務)にも従事 About me ・Name : エビハラ ヨシタカ X @kuro_yos LangGraph : functional API Comment : 最近、 久々にVBAをいじる機会があり、 懐かしさとノスタルジーで font.Name = “Myrica P” にしてみました。 model : o3-mini-2025-01-31 reasoning_effort=“low” ・最近ハマっているもの
  5. Observation target ・ 対象は、 常用している 「ロールベースの議論型 agent by LangGraph」 Userの予定を入力

    → k体のpersona生成 → personaそれぞれがsummary生成 → k体で議論し最終summary生成 (1st output) Comment : ざっくり予定投げる。
  6. Observation target ・ 対象は、 常用している 「ロールベースの議論型 agent by LangGraph」 Userの予定を入力

    → k体のpersona生成 → personaそれぞれがsummary生成 → k体で議論し最終summary生成 (1st output) → summaryを基に personaそれぞれが現実での行動案を提示 → k体で議論し、 userが取るべき最終行動案を生成 (2nd output) 毎朝、 予定を投げると 「私は何をしたら良いか」 をサポートしてくれるagentです。 Comment : 朝は頭が回らないですものね。 例) 「会議がある」 といっても、 様々な準備が必要です。 それらを提案してくれる 議題確認, 課題の事前抽出, 仮の解決策思案, 類似案件確認 etc..
  7. Observation conditions ・ 下記を観測条件としました。 使用model : “gpt-4o-2024-11-20” vs “o3-mini-2025-01-31” reasoning_effort="high"

    Comment : 回しました。 公式でdate明記のあるmodelで実験 gpt-4o-2024-08-06(計算) と 2024-11-20(創作)では大きく方向性が違うが、 今回は4o-20241120 persona prompt : 多様なケース vs 指示で固めたケース persona数 : 2体 vs 5体 vs 10対 で比較 user input : 観測の為、下記で固定 「10時 海外業務部とmanila trade team間でフロー改善会議, 顧客Aの請求書処理方法の変更を経理部と営業部で会議実施 15時より新入社員雇入れリテラシー研修実施, オーストラリアでの係船索ルール強化をナレッジベースへ追加」 sample数 : 2model x 3種類のpersona数 x prompt 2パターン = 12パターン → 12パターンを 5周回, Excelの記録は最も特徴の出た回答掲載
  8. Chart Comment : summary, suggest それぞれを10点満点評価し、 配置。 summary点数 action suggest点数

    → 獲得ポイントだけ見ると、 下記2点が優勢 4o prompt指定 persona数5 o3 prompt自由 persona数10
  9. Impression Comment : 一覧の要約です。 persona生成 : 創作度合が判断材料 多様性重視すると、 創作多め =

    その後の処理に悪影響有 = 目的が決まっている場合、 prompt指定が無難 persona数を増やし過ぎると創作入る / 逆に少なすぎると詰め込み傾向 summary生成 : 過不足が判断材料 正確性、 視認性 共に prompt指定ありに軍配 persona数は、増やし過ぎると創作入る - 逆に少なすぎると詰め込み傾向 抜けがある場合、 そもそもsummaryとして成り立っていないので、 初期の選考としてふるいにかけられる persona生成時の固まり具合がsummaryに影響 action suggest生成 : 課題解決力 , 提案力, 視認性が判断材料 提案と補足が分かれてしまう多様性重視は、そもそも視認性悪かった promptを固めた場合、指示に忠実な4o, 拡張思考のo3という分かれ具合 persona数増やした方が課題解決力向上するのは興味深い結果
  10. Overall gpt-o3-mini : Comment : action suggestは次pageでまとめます 己のみで常時問題解決しようとする傾向あり。 しかし、思考が外れているケースもあり、 的を得ていない場合は4oに劣る

    一般的な70点を求めるのであれば、 o3自由思考の1発outputでも良い (= agentではなく、 純粋なin-outにした方が良い) gpt-4o : 忠実な動き。 飛躍は無いが、 業務のサポートとして欲しいのはこちら。 persona生成 : 想像性 数を増やせば増やすほど 良い結果になるわけではない = scaling利かない → 必要項目と創作のバランスが収まるpersona数があり 後の処理も見据えて 最良のpersona数を調査する必要あり (3分待つか10分待つか問題) summary生成 : 分解と再構築力 誇張や創作無く 正確なsummaryが欲しい場合、 o3が比較的優秀だが、 promptで固める必要あり → 正確性で群を抜いている action suggest生成 : 提案力 と 後続への接続ポイント o3はざっくりしていた。 4oの提案力と網羅性が光り、 より明示的な印象 → 今回結果から見ると4o優勢だが、 継続検討の余地あり 当たり前と言えば当たり前ではあるが、 目的は明確な場合、 promptで固めに入る方が良い結果に。
  11. Overall Comment : 作る側からは便利な機能だが、 userからの印象はハルシネーションより悪いイメージ 行動提案(action suggest)生成 = 提案力 と

    後続への接続ポイント tool選定や agentの実行フェイズへの起点となる ↓ ↓ 後続処理に影響する 行動提案が重要 (LLM丸投げよりも精度上げたい) ↓ 最大の目的は human in the loop の総数を減らす事
  12. Result 今回の観測では、 Comment : o3-mini high 観測が活きた結果の 現在編成です。 model :

    得意分野で使い分け prompt : 指定あり persona数 : 5 に落ち着きました。 → そして、 現在の編成は、 persona数 : 4 – roleによって modelと機能付与 1. 社内知識 & 業界用語 RAG込み gpt-4o-2024-11-20 2. web search入り gpt-4o-2024-11-20 3. 慎重否定派設定の o3-mini-2025-01-31 low 4. 前3者を見た上で後出しする o3-mini-2025-01-31 low summary生成 : o3-mini-2025-01-31 low action suggest生成 : gpt-4o-2024-11-20 が良さそう。 prompt : 指定あり