强化学习共2篇
EMNLP 2025 接收!把“猜-思-答”三步走做成大模型训练新范式 | 星尘资源网

EMNLP 2025 接收!把“猜-思-答”三步走做成大模型训练新范式

大模型的后训练阶段,很多人都纠结一个问题:到底是用 监督微调(SFT),还是 强化学习(RL)?SFT 简单高效,但能力上限不高;RL 能力强,但训练又慢又不稳。
站长的头像 | 星尘资源网站长13天前
04510
RLHF强化学习-介绍及使用场景 | 星尘资源网

RLHF强化学习-介绍及使用场景

1. 引言强化学习(Reinforcement Learning, RL) 是一种让智能体(Agent)通过与环境交互学习最优策略的机器学习方法。
站长的头像 | 星尘资源网站长17天前
0279