十一、强化学习训练
十一、强化学习训练
最终目的是调整 LLM 参数,未来更好的完成任务。
概念
- Atropos /ˈætrəˌpɒs/ :一个 RL 训练/评测框架,并行跑任务 + 模型管理 + 收集轨迹 + 记录指标
- reward:一个评分函数(compute_reward)
- environment:定义 LLM 执行前置条件,包括任务(prompt)+ 允许调用的工具 + 维护任务状态(文件、进程、沙箱)等
- SFT(Supervised Fine-Tuning 监督微调):拿一批“输入 → 标准输出”的标注数据,喂给 LLM 。
- RL(Reinforcement Learning 强化学习):LLM 执行一系列动作(回复/调用工具/工具参数等),改变environment,reward一个分数。LLM 根据结果调整参数,让未来更容易拿到高奖励。
为什么要做强化学习
Hermes-Agent 不是“只生成一句话”,它会在多轮里调用工具、在沙箱里改文件/跑命令/验证结果。要让它在这些“闭环任务”上变好,就需要一种能直接优化“任务是否成功”的训练方式,而不仅是模仿式的监督学习。
如何做强化学习
自定义任务(task)+ Atropos + RL
- 1 、自定义任务(task):任务将写死在文件中,如
~/answer.txt。 - 2 、跑一次多轮 Agent rollout:每次 rollout 生成一个独立 task_id。
- 3 、在同一沙箱里做验证:task_id 保证认证在相同的沙箱环境。
- 4 、计算reward:compute_reward 函数检测环境变化计算得分。
- 5 、生成训练数据:Hermes 把 trajectory 转成 ScoredDataItem:里面有 tokens、masks、scores、messages。
- 6 、Atropos训练:Atropos 做 PPO/GRPO 之类训练,调整 LLM 参数。
参考
This post is licensed under CC BY 4.0 by the author.