PROJECT · 2026

Evie — 持久多模态虚拟人原型系统

感知 · 记忆 · 情绪状态 · 语音 · 实时虚拟人表现

Persistent multimodal virtual being prototype — sensing, memory, emotion state, embodied expression.

《银翼杀手 2049》里的 Joi —— 记得你、随时在场、有自己的情绪, 却没有肉身的 AI 伴侣 —— 是这个工程的灵感来源。现有方案往往分别解决聊天、记忆、感知或数字人表现, 真正把这些模块做成可持续运行的统一系统仍然困难。

这个工程把架构按职责拆成三块: 开发 Evie 的工具系统 (Development Infrastructure)、给 Evie 提供身份资产的离线管线 (Offline Model Adaptation)、Evie 本体运行时 (Evie Runtime). 底层使用开源生态 (SillyTavern / Cloudflare / Claude+OpenRouter / ComfyUI / SDXL+Flux / MetaHuman / Audio2Face / OpenCV), 原创工作集中在多 LLM 路由 + 状态管理 + 多模态 dispatch + Perception 探测 + Emotion→Blendshape 映射. 当前已运行交互端、模型训练工作站与开发 Harness; Perception 与 Evie Runtime 状态/情绪/MetaHuman 表现链路正在集成最小端到端闭环.

工程 demo 展示直达情感数据直达联系

《银翼杀手 2049》的 AI 伴侣 Joi —— 工程灵感原型 — 灵感来源 ·《银翼杀手 2049》Joi（© Warner Bros.）

01 / WHY

人越来越孤独, 而 AI 还停在一问一答

结构性变孤独是趋势, 独居、远程、弱关系。能补位的, 本该是一个随时在、记得你、有连贯人格的存在。可 chat、agent 都是同一种形态 —— 发起请求, 回应一次, 上下文从零开始, 关掉就清空。

问题不在模型不够强。哪怕 context 撑到百万 token, 它仍然是一根会话线 —— 缺持续在场、跨会话记忆、主动性, 也缺一张能看你、回应你的脸. 把感知、记忆、人格、表达这几层补齐, 它才从"会回话的接口"变成"真的在那儿的对象" —— 这条路走不走得通, 正是要验证的。

02 / SYSTEM

三层架构, 六个组件

把架构按职责拆成三块: 开发 Evie 的工具系统 (A), 给 Evie 提供身份资产的离线管线 (B), Evie 本体运行时 (C). 每个组件链接到详情. 状态: live / mvp / building / exploring. 最近验证: 2026-06.

A / 3 开发基础设施 Development Infrastructure

agent-harness

/agent-harness

live

不是 Evie 运行时, 是用来开发 Evie 的工具系统: 本地知识库 + 343 篇结构化 memory article + 自研 skill, 跑在 Claude Code × Codex 双引擎上. 检索走 MEMORY.md 索引 + rg 全文搜索, 语义向量检索仍在探索. 开发工作台, 不参与 Evie 实时调用链.

DEV INFRA 详情 →

B / 3 离线模型适配与身份资产 Offline Model Adaptation & Identity Assets

lora-tts-studio

/lora-tts-studio

mvp

Evie 的资产生产管线 — 全开源底模 (SDXL / Flux 等) 的 LoRA 训练 + TTS 声音克隆端到端编排. 给 Evie Runtime 提供身份锚 (视觉一致性) 与声音资产, 不在实时调用链上.

MODEL ADAPT 详情 →

C / 3 Evie 运行时 Evie Runtime

evie-agent · 核心

/evie-agent

building

Runtime 主体 (Cognition). MLLM router + persona state + 跨模态 dispatch + 长期记忆 + 情绪状态 (mock 中) — 把感知/记忆/情绪装配成连贯人格的中枢.

Cognition 详情 →

talking-with

/talking-with

live

Interaction 子模块 — 基于 SillyTavern fork, 本地 JSON 打包 → Cloudflare Workers edge runtime → LLM API 双段 TCP 架构. 4 provider 路由 + 三层缓存 (sw.js / CDN / IndexedDB) + ComfyUI dispatch, PWA 部署在线. Emotion Eval 首批结果已上线 — 7 模型在同一套情感运行时下跑同一段五轮对话的受控横评 (35 条最终回复) + Badcase 归因台账.

Interaction 详情 →

perception

/perception

building

Perception 子模块 — 让 Evie 能看见你、听见你: 视觉识别 + 人脸检测跟随 + VAD 语音活动检测, 跑在本地常驻 daemon 的 presence 模块上.

Perception 详情 →

ue-realtime

/ue-realtime

exploring

Embodiment 子模块 — MetaHuman 表情与口型 near-realtime prototype. 表情数据走 UDP (LiveLink), 文本走 TCP — QoS 分层传输. 评估预渲染表情库与 WebTransport/WebRTC 云端方案.

Embodiment 详情 →

03 / EMOTION DATA

情感数据 — 评测与 Badcase 归因

情感陪伴能力不用形容词声称, 用数据说. 首批已公开: 七模型同题受控横评 (1 个固定五轮场景 × 单采样, 35 条最终回复). 进行中: 多采样稳定性、记忆漂移 / 人格漂移专项与 Badcase 归因整理 — 完成并复核后在本板块增量更新, 未完成的部分不提前放数字.

emotion-eval

/emotion-eval

首批结果

七模型情感交互横评 (初步受控) — GPT / Claude / Gemini / Grok / DeepSeek 七个模型接入同一套单模型双调用运行时, 跑同一段五轮多模态对话: 结构稳定性、成本延迟与共情质地的同题对比, 含代表性场景原文与实验限制. 多采样与漂移专项完成后增量更新.

Multi-model Eval 首批结果 →

badcase-log

/badcase-log

进行中

Badcase 归因台账 — 从产品真实迭代中整理设定遗忘 / 语气漂移 / 情绪反馈不足 / 输出 schema 不稳定等问题, 按指令位置 / 上下文结构 / 输出 schema / 兜底策略四维归因, 记录修复与验证. 逐条人工核对后发布.

Failure Analysis 归因框架 →

character-cards

/character-cards

实卡节选

角色卡是给模型的可执行规格: 身份锚 / 人格基调 / 语气指纹 / 世界书 / 关系边界 / 情绪触发逐项显式约束, 配反同质化生产流程. 页内逐层拆解一张实际运行使用的卡 (Joi, 研究性改编) 的节选.

Card Design 设计框架 →

state-schemas

/state-schemas

原型 · 冒烟通过

结构化情感表示与状态运行时 — 情绪是状态不是文案: 模型提出候选, 确定性代码管理持久状态. 单模型双调用 / 私密-公开隔离 / 情绪生命周期 / 行为意图确定性编译; 当前受控冒烟测试: 14 项硬检查在 2 个模型后端上均通过.

State Modeling 建模框架 →

04 / WHERE

现在到哪了

哪一段已经在跑、哪一段在做、哪一段还在试, 以及我们怎么看接下来。

live · 已经在跑

talking-with (Evie Runtime · Interaction) — 本地 JSON 打包 → Cloudflare Workers edge runtime → LLM API 双段 TCP 架构, 4 provider 路由 + 三层缓存 (sw.js / CDN / IndexedDB), PWA 部署在线。
agent-harness (Development Infrastructure) — 本地知识库 + 343 篇结构化 memory article + 自研 skill (检索: MEMORY.md 索引 + rg 全文搜索, 语义向量检索仍在探索), 跑在 Claude Code × Codex 上的开发工作台 (不是 Evie 运行时一部分)。
mvp / building · 骨架到位, 还在打磨

lora-tts-studio (Offline Model Adaptation, mvp) — LoRA 训练 + TTS 声音克隆端到端编排, 桌面应用 + 远程 pod 训练。故障自愈和参数自适应尚未完成。
evie-agent (Evie Runtime · Cognition, building) — Runtime 主体. MLLM router + persona state + 跨模态 dispatch 跑通, emotion model 仍为 mock, 长期记忆和持续在场尚未接通。
perception (Evie Runtime · Perception, building) — 视觉/人脸跟随/VAD 语音检测, 框架在常驻 daemon 里跑通, 灵敏度调参与 Cognition 决策闭环仍在打磨。
exploring · 还在验证假设

ue-realtime (Evie Runtime · Embodiment, exploring) — MetaHuman 表情驱动原型. 表情数据走 UDP (LiveLink, 延迟优先), 文本走 TCP (可靠优先) — QoS 分层传输. 评估预渲染表情库与 WebTransport / WebRTC 云端方案.
下一步

在 Evie Runtime 内把 Cognition (evie-agent) 与 Embodiment (ue-realtime) 接起来, 跑通一次"用户说话 → 状态更新 → LLM 回复 → TTS + 表情同步"的端到端闭环。下一阶段同步补 Evidence Pack: 90 秒无剪辑 Demo、Runtime Trace、P50 / P95 延迟表、失败案例与原创贡献矩阵。

这套三层架构是适配当下模型能力的一个解。出现真正带连贯记忆的大模型架构时, 架构会推翻重写。

05 / CONTACT

下一段对话, 从一封邮件开始

写一封邮件

周程

lucaszhouc@gmail.com 杭州 UTC+8 open to talk