Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Agent内model移行の観測

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for yoshitakaebihara yoshitakaebihara
March 29, 2025
130

 Agent内model移行の観測

Avatar for yoshitakaebihara

yoshitakaebihara

March 29, 2025
Tweet

Transcript

  1. Agent内model移行の観測 28th MAR., 2025 at AGI-FUKUOKA Role-base & debate型 Agentへ

    model, persona数, promptを変えて出力回してみた
  2. Raise an issue 私は 日々、 常用していた agentの中で GPT-4o APIを多用していた。 純粋な性能高い事は分かった。

    が、 現稼働の代替として、 どう適用出来るか見えにくい。 しかし、 先手は打ちたい・・ Comment : S〇M on 2.13 「GPT-4.5 as out last non-chain-of-thought model」 そして、 2025年1月末 o3-mini APIが公開された際、 こんな事を考えた。 今までmodelの変化は色々あったものの、収まる範囲だった。 今回は違う。
  3. Resolve modelだけでなく、 persona数やprompt固め具合ごとの生成傾向を知りたい!! ↓ pre-trained model と reasoning modelの差異を一覧に (?)

    してみよう!! 現在稼働しているものを起点とし、 改修の方向性を見つけたい!! Comment : 何故、 一覧にしようと思ってしまったのか・・ agentの組み方自体は変わらなそうだが、 modelの影響色々ありそう!! 2025年2月初旬、 行動に移してみた! よし、分かった!!
  4. ・海外取引~国内取引~倉庫~営業~業務 を経験 / 業界歴 19 年 船舶業界の独立系専門商社 ・社内効率化 & フロー改善の情報系部署

    / 外地取引(実業務)にも従事 About me ・Name : エビハラ ヨシタカ X @kuro_yos LangGraph : functional API Comment : 最近、 久々にVBAをいじる機会があり、 懐かしさとノスタルジーで font.Name = “Myrica P” にしてみました。 model : o3-mini-2025-01-31 reasoning_effort=“low” ・最近ハマっているもの
  5. Observation target ・ 対象は、 常用している 「ロールベースの議論型 agent by LangGraph」 Userの予定を入力

    → k体のpersona生成 → personaそれぞれがsummary生成 → k体で議論し最終summary生成 (1st output) Comment : ざっくり予定投げる。
  6. Observation target ・ 対象は、 常用している 「ロールベースの議論型 agent by LangGraph」 Userの予定を入力

    → k体のpersona生成 → personaそれぞれがsummary生成 → k体で議論し最終summary生成 (1st output) → summaryを基に personaそれぞれが現実での行動案を提示 → k体で議論し、 userが取るべき最終行動案を生成 (2nd output) 毎朝、 予定を投げると 「私は何をしたら良いか」 をサポートしてくれるagentです。 Comment : 朝は頭が回らないですものね。 例) 「会議がある」 といっても、 様々な準備が必要です。 それらを提案してくれる 議題確認, 課題の事前抽出, 仮の解決策思案, 類似案件確認 etc..
  7. Observation conditions ・ 下記を観測条件としました。 使用model : “gpt-4o-2024-11-20” vs “o3-mini-2025-01-31” reasoning_effort="high"

    Comment : 回しました。 公式でdate明記のあるmodelで実験 gpt-4o-2024-08-06(計算) と 2024-11-20(創作)では大きく方向性が違うが、 今回は4o-20241120 persona prompt : 多様なケース vs 指示で固めたケース persona数 : 2体 vs 5体 vs 10対 で比較 user input : 観測の為、下記で固定 「10時 海外業務部とmanila trade team間でフロー改善会議, 顧客Aの請求書処理方法の変更を経理部と営業部で会議実施 15時より新入社員雇入れリテラシー研修実施, オーストラリアでの係船索ルール強化をナレッジベースへ追加」 sample数 : 2model x 3種類のpersona数 x prompt 2パターン = 12パターン → 12パターンを 5周回, Excelの記録は最も特徴の出た回答掲載
  8. Chart Comment : summary, suggest それぞれを10点満点評価し、 配置。 summary点数 action suggest点数

    → 獲得ポイントだけ見ると、 下記2点が優勢 4o prompt指定 persona数5 o3 prompt自由 persona数10
  9. Impression Comment : 一覧の要約です。 persona生成 : 創作度合が判断材料 多様性重視すると、 創作多め =

    その後の処理に悪影響有 = 目的が決まっている場合、 prompt指定が無難 persona数を増やし過ぎると創作入る / 逆に少なすぎると詰め込み傾向 summary生成 : 過不足が判断材料 正確性、 視認性 共に prompt指定ありに軍配 persona数は、増やし過ぎると創作入る - 逆に少なすぎると詰め込み傾向 抜けがある場合、 そもそもsummaryとして成り立っていないので、 初期の選考としてふるいにかけられる persona生成時の固まり具合がsummaryに影響 action suggest生成 : 課題解決力 , 提案力, 視認性が判断材料 提案と補足が分かれてしまう多様性重視は、そもそも視認性悪かった promptを固めた場合、指示に忠実な4o, 拡張思考のo3という分かれ具合 persona数増やした方が課題解決力向上するのは興味深い結果
  10. Overall gpt-o3-mini : Comment : action suggestは次pageでまとめます 己のみで常時問題解決しようとする傾向あり。 しかし、思考が外れているケースもあり、 的を得ていない場合は4oに劣る

    一般的な70点を求めるのであれば、 o3自由思考の1発outputでも良い (= agentではなく、 純粋なin-outにした方が良い) gpt-4o : 忠実な動き。 飛躍は無いが、 業務のサポートとして欲しいのはこちら。 persona生成 : 想像性 数を増やせば増やすほど 良い結果になるわけではない = scaling利かない → 必要項目と創作のバランスが収まるpersona数があり 後の処理も見据えて 最良のpersona数を調査する必要あり (3分待つか10分待つか問題) summary生成 : 分解と再構築力 誇張や創作無く 正確なsummaryが欲しい場合、 o3が比較的優秀だが、 promptで固める必要あり → 正確性で群を抜いている action suggest生成 : 提案力 と 後続への接続ポイント o3はざっくりしていた。 4oの提案力と網羅性が光り、 より明示的な印象 → 今回結果から見ると4o優勢だが、 継続検討の余地あり 当たり前と言えば当たり前ではあるが、 目的は明確な場合、 promptで固めに入る方が良い結果に。
  11. Overall Comment : 作る側からは便利な機能だが、 userからの印象はハルシネーションより悪いイメージ 行動提案(action suggest)生成 = 提案力 と

    後続への接続ポイント tool選定や agentの実行フェイズへの起点となる ↓ ↓ 後続処理に影響する 行動提案が重要 (LLM丸投げよりも精度上げたい) ↓ 最大の目的は human in the loop の総数を減らす事
  12. Result 今回の観測では、 Comment : o3-mini high 観測が活きた結果の 現在編成です。 model :

    得意分野で使い分け prompt : 指定あり persona数 : 5 に落ち着きました。 → そして、 現在の編成は、 persona数 : 4 – roleによって modelと機能付与 1. 社内知識 & 業界用語 RAG込み gpt-4o-2024-11-20 2. web search入り gpt-4o-2024-11-20 3. 慎重否定派設定の o3-mini-2025-01-31 low 4. 前3者を見た上で後出しする o3-mini-2025-01-31 low summary生成 : o3-mini-2025-01-31 low action suggest生成 : gpt-4o-2024-11-20 が良さそう。 prompt : 指定あり