十一、强化学习训练
最终目的是调整 LLM 参数,未来更好的完成任务。 概念 Atropos /ˈætrəˌpɒs/ :一个 RL 训练/评测框架,并行跑任务 + 模型管理 + 收集轨迹 + 记录指标 reward:一个评分函数(compute_reward) environment:定义 LLM 执行前置条件,包括任务(prompt)+ 允许调用的工具 + 维护任务状态(文件、进程、沙箱)等 ...
最终目的是调整 LLM 参数,未来更好的完成任务。 概念 Atropos /ˈætrəˌpɒs/ :一个 RL 训练/评测框架,并行跑任务 + 模型管理 + 收集轨迹 + 记录指标 reward:一个评分函数(compute_reward) environment:定义 LLM 执行前置条件,包括任务(prompt)+ 允许调用的工具 + 维护任务状态(文件、进程、沙箱)等 ...
benchmark 是为了多维度评估 Agent 的能力水平 评估指标 指标也需要覆盖多个环节 结果质量 pass_rate:任务通过率 reward / avg_reward:平均得分 accuracy:完全正确比例 partial_match_rate:部分正确比例 Agent 行为 turns_used:任务用了多少轮 LLM 调用 finished...
gateway = 多平台 adapter + session 路由 + 命令分发 + Agent 执行桥 + 消息回传 ┌─────────────────────────────────────────────────┐ │ GatewayRunner │ │ ...
核心:运行时主动反思 + Curator定时归纳,总结经验(Memory)和技能(Skills)。 运行时主动反思 后台异步 Agent 读取一份 messages_snapshot,使用复盘 prompt 判断用户是否表达了长期偏好和可复用流程。 触发条件: 本轮有正常 final_response 没有被用户打断 not interrupted memory 或 sk...
关键点:SQLite 存储会话 + FTS5 全文搜索召回 + context 压缩生成子 session SQLite 表结构 ~/.hermes/state.db (SQLite, WAL mode) ├── sessions — Session metadata, token counts, billing ├── messages — Full ...
核心思想是:稳定 system prompt + context 压缩 稳定 system prompt session 初始化时,会按照SOUL.md、工具schema、memory、skills、model等信息依次拼接组成 system prompt 且在多轮对话中保持 system prompt 不变 临时 plugin context 临时添加的 plugin co...
核心是:按需加载 + Curator定期自我更新(仅agent-created skills) 按需加载:系统 prompt 里只放轻量索引,真正需要时再用 skill_view 拉完整内容 Curator定期自我更新:见 八、自我提升
核心思想是:小而确定的事实进长期记忆 + 大而临时的对话留在会话历史 + 外部记忆系统做增强检索和同步 长期精选记忆 用内置的memory_tool管理 MEMORY.md:agent 自己的长期笔记,比如项目约定、环境事实、工具坑点。 USER.md:用户的长期画像,比如偏好、身份、沟通习惯 会话历史回忆 1、用内置session_search_tool全文搜索to...
关键点:ast 自动解析 + 工具集划分作用域 + 并发执行 tools 被发现和注册 1、每个工具文件(.py)都会调用registry.register(), 声明: name: 工具名 toolset: 所属工具集 schema: 参数格式 is_async: 是的异步 ... 2、AST 扫描工具文件,只有调用了registry.register...
关键点:Agent 循环引擎 + ReAct 模式 工作原理 1. 任务 ID生成:若未提供任务 ID 则生成一个 2. 追加历史消息:将用户消息添加到对话历史记录中 3. 构建 system prompt:构建或复用缓存的系统提示 4. 检查压缩:检查是否需要预压缩(超过 50% 的上下文) 5. 构建 LLM API 协议:从对话历史记录构建 API 消息 - chat_comp...