跳到内容
PROJECT · 2026

Evie — 持久多模态虚拟人原型系统

感知 · 记忆 · 情绪状态 · 语音 · 实时虚拟人表现

Persistent multimodal virtual being prototype — sensing, memory, emotion state, embodied expression.

《银翼杀手 2049》里的 Joi —— 记得你、随时在场、有自己的情绪, 却没有肉身的 AI 伴侣 —— 是这个工程的灵感来源。现有方案往往分别解决聊天、记忆、感知或数字人表现, 真正把这些模块做成可持续运行的统一系统仍然困难。

这个工程把架构按职责拆成三块: 开发 Evie 的工具系统 (Development Infrastructure)、给 Evie 提供身份资产的离线管线 (Offline Model Adaptation)、Evie 本体运行时 (Evie Runtime). 底层使用开源生态 (SillyTavern / Cloudflare / Claude+OpenRouter / ComfyUI / faster-whisper / SDXL+Flux / MetaHuman / Audio2Face / OpenCV), 原创工作集中在多 LLM 路由 + 状态管理 + 多模态 dispatch + Perception 探测 + Emotion→Blendshape 映射. 当前已运行交互端、模型训练工作站与开发 Harness; Perception 与 Evie Runtime 状态/情绪/MetaHuman 表现链路正在集成最小端到端闭环.

工程 demo 展示直达 联系
《银翼杀手 2049》的 AI 伴侣 Joi —— 我们的灵感原型
灵感来源 ·《银翼杀手 2049》Joi(© Warner Bros.)
01 / WHY

人越来越孤独, 而 AI 还停在一问一答

人正在结构性地变孤独 —— 独居、远程、弱关系, 这是趋势不是矫情。能补这个位置的, 本该是一个随时在、记得你、有连贯人格的存在。可今天的 AI 给不了: chat、agent、各种工具栏, 都是同一个形态 —— 你发起请求, 它回应一次, 上下文从零开始, 关掉就清空。

问题不在模型不够强。哪怕 context 撑到百万 token, 它仍然是一根会话线 —— 没有持续在场, 没有跨会话记忆, 没有主动性, 也没有一张能看你、回应你的脸。差的是一整套一直缺位的能力: 感知、记忆、人格、表达。把这几层补齐, 它才从"一个会回话的接口"变成"一个真的在那儿的对象" —— 这条路走不走得通, 正是我们要验证的。

02 / SYSTEM

三层架构, 六个组件

把架构按职责拆成三块: 开发 Evie 的工具系统 (A), 给 Evie 提供身份资产的离线管线 (B), Evie 本体运行时 (C). 每个组件链接到详情. 状态: live / mvp / building / exploring. 最近验证: 2026-06.

03 / WHERE

现在到哪了

哪一段已经在跑、哪一段在做、哪一段还在试, 以及我们怎么看接下来。

  1. live · 已经在跑

    talking-with (Evie Runtime · Interaction) — 本地 JSON 打包 → Workers 边缘 (300+ anycast) → LLM API 双段 TCP 架构, 4 provider 路由 + 三层缓存 (sw.js / CDN / IndexedDB), PWA 部署在线。
    agent-harness (Development Infrastructure) — 本地知识库 + 343 篇结构化 memory article + 自研 skill (检索: MEMORY.md 索引 + rg 全文搜索, 语义向量检索仍在探索), 跑在 Claude Code × Codex 上的开发工作台 (不是 Evie 运行时一部分)。

  2. mvp / building · 骨架到位, 还在打磨

    lora-tts-studio (Offline Model Adaptation, mvp) — LoRA 训练 + TTS 声音克隆端到端编排, 桌面应用 + 远程 pod 训练。故障自愈和参数自适应尚未完成。
    evie-agent (Evie Runtime · Cognition, building) — Runtime 主体. MLLM router + persona state + 跨模态 dispatch 跑通, emotion model 仍为 mock, 长期记忆和持续在场尚未接通。
    perception (Evie Runtime · Perception, building) — 视觉/人脸跟随/VAD 语音检测, 框架在常驻 daemon 里跑通, 灵敏度调参与 Cognition 决策闭环仍在打磨。

  3. exploring · 还在验证假设

    ue-realtime (Evie Runtime · Embodiment, exploring) — MetaHuman 表情驱动原型. 表情数据走 UDP (LiveLink, 延迟优先), 文本走 TCP (可靠优先) — QoS 分层传输. 评估预渲染表情库 (4,800 片段查表+插值) 与 WebTransport/WebRTC 云端方案.

  4. 下一步

    在 Evie Runtime 内把 Cognition (evie-agent) 与 Embodiment (ue-realtime) 接起来, 跑通一次"用户说话 → 状态更新 → LLM 回复 → TTS + 表情同步"的端到端闭环。

这套三层架构是适配当下模型能力的一个解。出现真正带连贯记忆的大模型架构时, 架构会推翻重写。

04 / CONTACT

下一段对话, 从一封邮件开始

写一封邮件

周程

lucaszhouc@gmail.com 杭州 UTC+8 open to talk