Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust Training Language Models to Self-Correct via Reinforcement Learning ICLR 2025 (Oral) 発表者:大井 聖也 東京科学大学 M2 井上研究室 2025/09/01 第17回最先端NLP勉強会 ※ 注釈がない場合、図表は論文からの引用です