GTA | 星尘资源网

EMNLP 2025 接收！把“猜-思-答”三步走做成大模型训练新范式 | 星尘资源网

EMNLP 2025 接收！把“猜-思-答”三步走做成大模型训练新范式

大模型的后训练阶段，很多人都纠结一个问题：到底是用监督微调（SFT），还是强化学习（RL）？SFT 简单高效，但能力上限不高；RL 能力强，但训练又慢又不稳。

站长13天前

04510