GTA共1篇
EMNLP 2025 接收!把“猜-思-答”三步走做成大模型训练新范式 | 星尘资源网

EMNLP 2025 接收!把“猜-思-答”三步走做成大模型训练新范式

大模型的后训练阶段,很多人都纠结一个问题:到底是用 监督微调(SFT),还是 强化学习(RL)?SFT 简单高效,但能力上限不高;RL 能力强,但训练又慢又不稳。
站长的头像 | 星尘资源网站长13天前
04510