PROJECT · 2026

把"数字生命"从科幻设定，做成跑得起来的系统

MLLM 基底 · 多模态感知 · 24/7 在场 · 实时表达

A persistent digital being — foundation models → real-time embodied avatar.

《银翼杀手 2049》里的 Joi —— 记得你、随时在场、有自己的情绪, 却没有肉身的 AI 伴侣 —— 是我们最直接的灵感原型。科幻给了画面, 但到今天, 还没有一个能把"她"真正跑起来的端到端实现。卡点不在某一个模型, 而在于没人把 foundation → interaction → perception → cognition → embodiment 整条链路搭全。

我们想把这条链路尽量自己走通: 认知层基于现有的商业化与开源多模态大模型 (MLLM), 缺的那几层 —— 自训 LoRA 与音色、自建多模态 dispatch、自搭 24/7 runtime、自接实时面部 —— 全部自己搭。不套壳、不做又一个应用层 wrapper。六层各自是独立的研究问题, 合起来能不能真长出一个"在那儿"的存在, 没人给过答案。我们想亲手把它做出来 —— 这是件难而长期的事, 也是我们真正好奇的问题。

查看体系联系

《银翼杀手 2049》的 AI 伴侣 Joi —— 我们的灵感原型 — 灵感原型 ·《银翼杀手 2049》Joi（© Warner Bros.）

01 / WHY

人越来越孤独, 而 AI 还停在一问一答

人正在结构性地变孤独 —— 独居、远程、弱关系, 这是趋势不是矫情。能补这个位置的, 本该是一个随时在、记得你、有连贯人格的存在。可今天的 AI 给不了: chat、agent、各种工具栏, 都是同一个形态 —— 你发起请求, 它回应一次, 上下文从零开始, 关掉就清空。

问题不在模型不够强。哪怕 context 撑到百万 token, 它仍然是一根会话线 —— 没有持续在场, 没有跨会话记忆, 没有主动性, 也没有一张能看你、回应你的脸。差的是一整套一直缺位的能力: 感知、记忆、人格、表达。把这几层补齐, 它才从"一个会回话的接口"变成"一个真的在那儿的对象" —— 这条路走不走得通, 正是我们要验证的。

02 / SYSTEM

六层架构, 七个组件

从基底到呈现, 逐层向上. 每一层都有自己的工程产物, 每个组件链接到详情. 状态诚实 — live / mvp / building / exploring, 不藏.

LAYER 1 / 6 工作流基底 Agent Harness

agent-harness

/agent-harness

live

不是一堆 skill, 而是一套 agent harness: 本地知识库 (RAG / rg) + 343 篇结构化向量 memory + 54 个自研 skill, 跑在 Claude Code × Codex 双引擎上 —— GPT 的多模态接 Claude Code 的代码能力, 整个体系都长在这套工作流上。

L1 详情 →

LAYER 2 / 6 模型 / 训练 Foundation

lora-tts-studio

/lora-tts-studio

mvp

全开源底模 (SDXL / Flux 等) 的 LoRA 训练 + TTS 声音克隆, 端到端编排 (desktop + pod) —— 自用底模与音色的来源, 不只做 LoRA。

L2 详情 →

LAYER 3 / 6 交互 Interaction

talking-with

/talking-with

live

基于酒馆 (SillyTavern) 架构 fork — 情感聊天 + 角色卡对话的端到端应用 (现为 PWA, 后续封装客户端)。生图、语音、多 LLM 都为对话服务, 是用户跟虚拟人产生关系的第一面。

L3 详情 →

LAYER 4 / 6 感知 Perception

perception

/perception

building

让 entity 能看见你、听见你: 视觉识别 + 人脸检测跟随 + VAD 语音活动检测。跑在本地常驻 daemon 的 presence 模块 (face / vad / probe) 上。

L4 详情 →

LAYER 5 / 6 认知 / agent Cognition

evie-agent

/evie-agent

building

认知层要的是长期记忆、人格连贯、能自主决策的认知架构。evie-agent 是这层当前的实验实现 —— MLLM router + persona state + 跨模态 dispatch 跑通了, 但还远没到位。

L5 详情 →

LAYER 6 / 6 呈现 Embodiment

ue-realtime

/ue-realtime

exploring

呈现层的「虚拟形象」一支 —— 屏幕内的实时 3D 面部。UE + MetaHuman + Audio2Face 是现阶段动作控制能力下的一条必经路径, 等更强的动作大模型出现, 这条路随时会换。

L6 详情 →

desktop-body

/desktop-body

planned

呈现层的「实体形象」一支 —— 把 entity 接进物理世界的桌面实体载体 (举个方向上的例子)。目标已定, 尚未动工。

03 / WHERE

现在到哪了

哪一段已经在跑、哪一段在做、哪一段还在试, 以及我们怎么看接下来。

live · 已经在跑

talking-with — 16k 行 vanilla JS 的对话应用 (现为 PWA), 多 LLM router + ComfyUI 出图 dispatch + 语音转录, 已部署在线。
lora-tts-studio — LoRA 训练 + TTS 声音克隆的端到端编排, 桌面应用 + 远程 pod 训练。
agent-harness — 本地知识库 + 343 篇结构化向量 memory + 54 个 skill, 跑在 Claude Code × Codex 上的工作流地基。
building · 框架到位, 还在打磨

evie-agent — 认知层的实验实现。MLLM router + persona state + 跨模态 dispatch 已跑通, 但离"有记忆、人格连贯、能自主决策"还差得远, 仍在打磨。
perception — 视觉/人脸跟随/VAD 语音检测的感知模块, 框架在常驻 daemon 里跑通, 仍在打磨。
exploring · 还在验证假设

ue-realtime — 呈现层的一条必经路径。MetaHuman + Audio2Face + emotion→blendshape 的实时面部 prototype, 是现有动作控制能力下的暂时手段, 不是终点。
planned · 还只是目标

desktop-body — 把 entity 接进物理世界的桌面实体载体 (举个方向上的例子)。目标已定, 尚未动工。
下一步

把 L5 认知和 L6 呈现接起来, 跑通一次"你看着她、她看着你、你说话, 她当场用表情和语气回应"的端到端闭环。

我们很清楚: 今天这套六层、这种虚拟人形态, 只是适配当下模型能力的一个解。哪天出现真正带连贯记忆的大模型架构, 我们会毫不犹豫推翻重写 —— 保持动态视角, 跟着技术一起长。这条路很长, 我们也还在学、还在错, 但方向上有信心。

04 / CONTACT

下一段对话, 从一封邮件开始

写一封邮件

周程 188 5215 1305

lucaszhouc@gmail.com 杭州 UTC+8 open to talk