强化学习 | 星尘资源网

EMNLP 2025 接收！把“猜-思-答”三步走做成大模型训练新范式 | 星尘资源网

EMNLP 2025 接收！把“猜-思-答”三步走做成大模型训练新范式

大模型的后训练阶段，很多人都纠结一个问题：到底是用监督微调（SFT），还是强化学习（RL）？SFT 简单高效，但能力上限不高；RL 能力强，但训练又慢又不稳。

站长13天前

04510

RLHF强化学习-介绍及使用场景 | 星尘资源网

RLHF强化学习-介绍及使用场景

1. 引言强化学习（Reinforcement Learning, RL）是一种让智能体（Agent）通过与环境交互学习最优策略的机器学习方法。

站长17天前

0279