building COGNITION / evie-agent

evie-agent · 虚拟人的状态机

MLLM router + persona + 跨模态 dispatch — agent state machine for cross-modal orchestration.

在体系里属于 第 2 层 · Cognition 认知 / agent 层 · 上游接 Infrastructure 层 (Claude Code skills + vault memory) · 下游被 Interaction 层 (PWA 调它) 与 Embodiment 层 (face / voice 受它驱动) 引用 (见架构图)

01 / 在系统里的位置

为什么这一层需要它

Cognition 层是整个虚拟人体系的"灵魂中枢". 它把下面 Foundation 训出来的 LoRA 身份锚 + Infrastructure 沉淀的 vault memory, 装配成一个有连贯人格、能跨工具记事、能跨模态决策的 agent. 不是一个"会回话的模型", 而是一个状态机.

上游的 Claude Code skills 与 vault 给它"工具箱"和"长期记忆"; 下游的 Interaction 层 (PWA) 把它的对话面呈现给用户, Embodiment 层 (ue-realtime) 把它的情绪状态翻译成可见的身体. 没有 evie-agent, 整套体系就只是一堆离散模块, 谈不上"一个虚拟人".

因此这一层最重要的任务不是 "回答得好不好", 而是 "在长时间跨工具的存在里, persona 是否稳定, 决策是否一致, 多模态是否被正确编排".

02 / 想解决什么

vision-aligned 问题陈述

虚拟人不是 "一次性 prompt". 主流 chatbot 范式是 stateless: 每次对话从零拼上下文, 人格靠 system prompt 强行维持, 跨工具就断. 这套范式对"持久数字生命"的愿景是根本错位的.

evie-agent 想解决的是: 把多个 MLLM 当成 tool 来编排, 而不是把 MLLM 当成 chatbot. agent 自己持有 persona schema + emotion state + 跨日记忆, 然后按场景把请求 dispatch 给最合适的供应商 (对话给 LLM A, 生图给 SDXL pipeline, 表情给 emotion model, 语音给 TTS). persona 必须跨对话稳定, emotion → expression 必须可控.

如果这一层缺位, 虚拟人愿景会卡在"看上去像一个人, 但每次见都像新认识"——这正是当前所有 character AI 产品的死结.

03 / 现状 + 已知 limit

现在做到哪了

整体在 building 阶段. 骨架已经成型, 但"持续在场"和"情绪映射"两条主线还在探索, 距离一个真正自驱的 agent 还有一段路.

已落地: persona schema (character card v3) 跑通; MLLM router 多供应商可切; dispatch.py 多 ckpt 场景化生图 pipeline 跑通; vault memory 接入 (跨工具 343 article 可读); chat-image 多 pipeline 路由 (pony / ill / majic / realism / zit 自动选)
探索中: emotion model (当前还是 mock, 未上 MLLM 推理); persona consistency 在跨长对话的稳定性验证
待解决: stateless invocation → 真正"持续在场" (需要一层常驻进程作底, 暂未起); emotion → UE face mapping (依赖 ue-realtime 的 blend shape 通道接通)

04 / 下一里程碑

接下来推什么

起一层常驻进程作底, 让 agent 从 "被调起才存在" 切到 "持续在场"
emotion model 上 MLLM — 用 Claude Opus 跑情绪推理, 替掉当前 mock
persona 跨 7-day 长对话一致性测试 — 检验 vault memory 注入是否真能稳定人格
把 emotion state 接到 ue-realtime 的 blend shape 通道 — 跨层链路第一次合拢
router 的供应商 fallback / cost 策略 — 让 dispatch 在生产里足够稳