十一、强化学习训练

Posted Apr 28, 2026

By Ahern

2 min read

十一、强化学习训练

最终目的是调整 LLM 参数，未来更好的完成任务。

概念

Atropos /ˈætrəˌpɒs/ ：一个 RL 训练/评测框架，并行跑任务 + 模型管理 + 收集轨迹 + 记录指标
reward：一个评分函数（compute_reward）
environment：定义 LLM 执行前置条件，包括任务（prompt）+ 允许调用的工具 + 维护任务状态（文件、进程、沙箱）等
SFT（Supervised Fine-Tuning 监督微调）：拿一批“输入 → 标准输出”的标注数据，喂给 LLM 。
RL（Reinforcement Learning 强化学习）：LLM 执行一系列动作（回复/调用工具/工具参数等），改变environment，reward一个分数。LLM 根据结果调整参数，让未来更容易拿到高奖励。

Hermes-Agent 不是“只生成一句话”，它会在多轮里调用工具、在沙箱里改文件/跑命令/验证结果。要让它在这些“闭环任务”上变好，就需要一种能直接优化“任务是否成功”的训练方式，而不仅是模仿式的监督学习。

自定义任务（task）+ Atropos + RL

1 、自定义任务（task）：任务将写死在文件中，如~/answer.txt。
2 、跑一次多轮 Agent rollout：每次 rollout 生成一个独立 task_id。
3 、在同一沙箱里做验证：task_id 保证认证在相同的沙箱环境。
4 、计算reward：compute_reward 函数检测环境变化计算得分。
5 、生成训练数据：Hermes 把 trajectory 转成 ScoredDataItem：里面有 tokens、masks、scores、messages。
6 、Atropos训练：Atropos 做 PPO/GRPO 之类训练，调整 LLM 参数。

This post is licensed under CC BY 4.0 by the author.