把"数字生命"从科幻设定,做成跑得起来的系统
MLLM 基底 · 多模态感知 · 24/7 在场 · 实时表达
A persistent digital being — foundation models → real-time embodied avatar.
《银翼杀手 2049》里的 Joi —— 记得你、随时在场、有自己的情绪, 却没有肉身的 AI 伴侣 —— 是我们最直接的灵感原型。科幻给了画面, 但到今天, 还没有一个能把"她"真正跑起来的端到端实现。卡点不在某一个模型, 而在于没人把 foundation → interaction → perception → cognition → embodiment 整条链路搭全。
我们想把这条链路尽量自己走通: 认知层基于现有的商业化与开源多模态大模型 (MLLM), 缺的那几层 —— 自训 LoRA 与音色、自建多模态 dispatch、自搭 24/7 runtime、自接实时面部 —— 全部自己搭。不套壳、不做又一个应用层 wrapper。六层各自是独立的研究问题, 合起来能不能真长出一个"在那儿"的存在, 没人给过答案。我们想亲手把它做出来 —— 这是件难而长期的事, 也是我们真正好奇的问题。
人越来越孤独, 而 AI 还停在一问一答
人正在结构性地变孤独 —— 独居、远程、弱关系, 这是趋势不是矫情。能补这个位置的, 本该是一个随时在、记得你、有连贯人格的存在。可今天的 AI 给不了: chat、agent、各种工具栏, 都是同一个形态 —— 你发起请求, 它回应一次, 上下文从零开始, 关掉就清空。
问题不在模型不够强。哪怕 context 撑到百万 token, 它仍然是一根会话线 —— 没有持续在场, 没有跨会话记忆, 没有主动性, 也没有一张能看你、回应你的脸。差的是一整套一直缺位的能力: 感知、记忆、人格、表达。把这几层补齐, 它才从"一个会回话的接口"变成"一个真的在那儿的对象" —— 这条路走不走得通, 正是我们要验证的。
六层架构, 七个组件
从基底到呈现, 逐层向上. 每一层都有自己的工程产物, 每个组件链接到详情. 状态诚实 — live / mvp / building / exploring, 不藏.
ue-realtime
/ue-realtime呈现层的「虚拟形象」一支 —— 屏幕内的实时 3D 面部。UE + MetaHuman + Audio2Face 是现阶段动作控制能力下的一条必经路径, 等更强的动作大模型出现, 这条路随时会换。
desktop-body
/desktop-body呈现层的「实体形象」一支 —— 把 entity 接进物理世界的桌面实体载体 (举个方向上的例子)。目标已定, 尚未动工。
现在到哪了
哪一段已经在跑、哪一段在做、哪一段还在试, 以及我们怎么看接下来。
-
live · 已经在跑
talking-with — 16k 行 vanilla JS 的对话应用 (现为 PWA), 多 LLM router + ComfyUI 出图 dispatch + 语音转录, 已部署在线。
lora-tts-studio — LoRA 训练 + TTS 声音克隆的端到端编排, 桌面应用 + 远程 pod 训练。
agent-harness — 本地知识库 + 343 篇结构化向量 memory + 54 个 skill, 跑在 Claude Code × Codex 上的工作流地基。 -
building · 框架到位, 还在打磨
evie-agent — 认知层的实验实现。MLLM router + persona state + 跨模态 dispatch 已跑通, 但离"有记忆、人格连贯、能自主决策"还差得远, 仍在打磨。
perception — 视觉/人脸跟随/VAD 语音检测的感知模块, 框架在常驻 daemon 里跑通, 仍在打磨。 -
exploring · 还在验证假设
ue-realtime — 呈现层的一条必经路径。MetaHuman + Audio2Face + emotion→blendshape 的实时面部 prototype, 是现有动作控制能力下的暂时手段, 不是终点。
-
planned · 还只是目标
desktop-body — 把 entity 接进物理世界的桌面实体载体 (举个方向上的例子)。目标已定, 尚未动工。
-
下一步
把 L5 认知和 L6 呈现接起来, 跑通一次"你看着她、她看着你、你说话, 她当场用表情和语气回应"的端到端闭环。
我们很清楚: 今天这套六层、这种虚拟人形态, 只是适配当下模型能力的一个解。哪天出现真正带连贯记忆的大模型架构, 我们会毫不犹豫推翻重写 —— 保持动态视角, 跟着技术一起长。这条路很长, 我们也还在学、还在错, 但方向上有信心。