Weekly AI Agents News! 10月号論文のアーカイブ

Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190 10月号論文編

Slide 3

Slide 3 text

10月の所感 • エージェントの安全性に関する論文が明らかに増えました。特に攻撃に対する脆弱性の評価です。敵対的学習の頃から見ても、技術が実用化に進み始めるとそういった論文が増える印象はあります。そういう観点でみると、エージェントは一年たらずで安全性の論文が多く出ているのは、それだけ研究と同時進行で実用化が進んでいるからなのかなと思います。 • o1の研究と関連したプロセス評価、思孝、推論スケーリング則に関する論文やo1の評価は先月に引き続き公開されています。気になる人は読んでみてください。 • エージェントアーキテクチャの自動設計ADASと似たような自動設計な手法が3~4種類は提案されています。どこか進化計算の雰囲気を感じます。複数の初期エージェントをもとに要素をスワッピングしたり、コード書いて評価して最適な個体（アーキテクチャ）を探索しています。 • オチや伏線のある物語や研究の新規性含めて創造力を引き上げる工夫を提案し、性能評価する論文が増えています。特にマルチエージェントアーキテクチャの方面です。思孝から創造を促し、批判してありふれたものではなく独自性やオリジナリティが出ることを期待していますが、まだそこまでの結果にはなっていないように思います。 • 研究ではデータ分析から機械学習エンジニアリングに移行しています。Kaggleは良い題材になり、評価されています。しかし、ある意味で論文の制約に捉われて、コンペのディスカッションや先駆者のコードを活用した改善はしておらず、データ概要と評価指標を基準に改善するため、限定的になっているとも思います。EDAもサブミッション失敗もKaggleのコードを見ればもっと早い段階で解決できると思います。 • ナビゲーションなどのデジタルエージェントの研究は学習に移っています。単純なエージェントでは限界に達しています。 LMMに渡す情報を加工したり、専用のツールを作って工夫していますが、精度を見ると数%の改善が続いている印象を受けます。一方で専用に特化で学習した方が大きく向上している結果を見ます。これからLLMのエージェントアーキテクチャでは難しくても解決したい課題に対しては学習に移ると思われます。 • ベンチマークが徐々に見直され、個々のベンチマークに対して難易度が高すぎるものや雑に作ってしまったタスクが精緻化されています。今月はソフトウェアのベンチマークがそうでした。特にエージェントはタスクの設計が難しいので、ベンチマークの質の見直しはありそうです。

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text