跳到内容
live INFRASTRUCTURE / agent-harness

agent-harness · 跨工具记忆 + 双引擎 agent 基底

Local knowledge base (RAG / rg) + 343 structured vector memories + 54 self-authored skills, running on Claude Code × Codex (3 open-sourced)

在体系里属于 第 5 层 · Infrastructure 工作流基底 · 上游接 操作系统文件系统 + Claude Code + Codex CLI 双引擎 · 下游被 Foundation / Interaction / Cognition / Embodiment 所有上游层全部引用 (见 架构图)

01 / 在系统里的位置

为什么这一层需要它

这个虚拟人体系不是一个人坐下来从头写到尾的 — 是我 + 多个 Claude Code 窗口 + 多个 agent 在不同工程里并行推进. talking-with 在改角色卡, lora-tts-studio 在训新底模, ue-realtime 在试 MetaHuman 链路, agent-runtime 在串多模态 dispatch, 这些上下文同时存在.

这意味着 memory 必须跨工具持久化 — 不能 Claude Code 一关就忘, 也不能 Codex CLI 换个窗口就丢. 整套体系要像一套 agent harness: 本地知识库 (RAG / rg 检索) 当长期记忆, 54 个自研 skill 当可复用动作 — 长任务有执行引擎, 对抗审查有套路, 不是每次重写 prompt. 这层像基础设施一样, 不让上面任何一层为"我刚才说了啥"操心.

没有这一层, 体系搭不起来 — 单次 agent context window 不够大, 装不下 6 个工程并行的全部状态; 没有这套 harness, 长任务跑一半就崩, 没法自动闭环. 关键是把 GPT 的多模态能力和 Claude Code 的代码能力结合起来, 再让 Claude Code 跟 Codex 双引擎协同.

02 / 想解决什么

vision-aligned 问题陈述

持久数字生命的前提是"持久" — 体系跨天/跨窗口/跨工具的状态必须不丢. agent harness 的前提是"harness" — 长任务不能靠人盯着, 要能自主拍板、自审、迭代、对抗.

本地知识库解决前者: 343 篇结构化向量 memory 沉淀跨工程的设计决策、模型黑名单、ckpt 关键词库、教训反馈, 用 RAG / rg 直接检索, Claude Code 和 Codex CLI 共享一套 memory 索引, 新窗口起来就接得上之前的所有上下文.

skill 生态解决后者: 把"自主长任务执行" / "多视角对抗审查" / "方向选择前的反驳" 这种反复用到的工作流固化成 skill, 不靠每次重新组装 prompt, 也不靠 agent 自己即兴发挥. 54 个自研 skill 加上双引擎协同, 共同构成这套 agent harness.

03 / 现状 + 已知 limit

现在做到哪了

状态 live — 这一层是整个体系里跑得最稳的, 上面所有工程都在日常依赖它.

  • 已落地: 本地 vault 343 篇结构化向量 memory 跨工具持久化, Claude Code + Codex CLI 共享同一个 navigation index, RAG / rg 检索; 6 大类 skill (meta-agent / memory / domain / frontend / research / utilities); 54 个 self-authored skill 覆盖从生图到接力封存到对抗审查.
  • 探索中: skill DAG — 把 skill 之间的依赖关系画清楚, 避免重复实现; skill performance benchmark — 评估 skill 在不同场景下的实际效果, 不只是凭感觉.
  • 待解决: vault sync 还是手工 cron 触发, 没做自动 file watcher; skill 之间没有正式的 dependency contract, 一个 skill 引用另一个时只靠文档约定.

04 / 下一里程碑

接下来推什么

  • vault sync 自动化: file watcher 监听 article 改动, 触发 git auto-commit, 不靠手工 cron.
  • skill DAG: 把 54 个 skill 之间的引用 / 依赖 / 互斥关系画成图, 让新 skill 起手就知道挂在哪.
  • skill benchmark harness: 每个 skill 起码 1 个 eval case, 用 subagent 跑一遍统计成功率, 不只是开发者凭感觉评价.
  • vault memory 主题分桶的二级索引: 343 篇结构化向量 memory 已经按 cluster 分了, 但搜索路径还能更短, 探索语义检索接入.