exploring EMBODIMENT / ue-realtime

ue-realtime · UE5 MetaHuman 实时面部 + 动作推理

UE5 MetaHuman realtime face + motion inference — the final embodiment.

在体系里属于 第 1 层 · Embodiment 呈现层 · 上游接 Cognition 层 (evie-agent emotion → blend shape) 与 Foundation 层 (TTS audio) · 下游被 用户 (UE viewport / 桌面浮窗 / 未来 VR 头显) 引用 (见架构图)

01 / demo 展示

prototype 录屏

当前 exploring 阶段, 3 段 MetaHuman + emotion → blend shape 链路 prototype — 是体系最远地平线的真实状态. 点 play 看每段.

clip 01 · prototype

clip 02 · prototype

clip 03 · prototype

02 / 在系统里的位置

为什么这一层需要它

Embodiment 是虚拟人最贴近用户感官的一层 — 它把 Cognition 层产出的语义/情绪信号, 还原成一张能看、能眨眼、能微微前倾的脸. 没有这一层, 整个体系就停留在"对话框里的字"而不是"在场的实体".

ue-realtime 在数据流上承接两条上游: 一条是 evie-agent 输出的 emotion vector 与对话状态, 另一条是 TTS 的音频流 (Foundation 层). 它的下游是真实用户 — 现在是 UE viewport, 未来是桌面浮窗、可能延伸到 VR 头显形态.

它的难度在于"实时" — Cognition 已经决定虚拟人此刻该露什么表情, Embodiment 必须以足够低的 latency 把这个决定渲染成像素, 否则在场感整体崩塌.

03 / 想解决什么

vision-aligned 问题陈述

文字对话是有天花板的. 虚拟人愿景的"最终态"不是一个聊天窗口, 而是一个能看你、能露表情、能 nod / shake / lean in 的 entity. 这意味着 LLM → emotion vector → MetaHuman blend shape 这条链路必须实时 (sub-100ms 是理想数), 必须可控 (情绪强度、过渡曲线可调), 必须躲开"恐怖谷" (静止帧再真也会因为微表情错位垮掉).

如果没有这一层, 体系的愿景会卡在"一个很会说话的 LLM" — 这恰恰是当前 AI 产品最拥挤的赛道. ue-realtime 是把"持久数字生命"从 chat surface 带到 embodied surface 的关键跃迁.

目前这一层在 exploring 阶段, 是整个体系最远的地平线 — 这点必须诚实说明, 不掩饰.

04 / 现状 + 已知 limit

现在做到哪了

状态: exploring. 链路已经走通最小可行原型, 但离"可看的产品形态"还有距离.

已落地: UE5.4 MetaHuman 基础渲染跑通; UE MCP 工具集已能通过 PowerShell 控制 MetaHuman 的表情 / 说话 / 场景切换; Audio2Face (NVIDIA Omniverse) 接入实验; prototype LLM → emotion → MetaHuman face blend shape 链路已经能端到端跑一遍.
探索中: A2F latency 优化 (当前 ~0.5-1s, 远未到实时); motion library 设计 (idle / nod / lean in 等几个基础动作还在规划); lip sync 调试 (中英文音素对齐还有 artifact).
待解决: real-time emotion → expression 仍有恐怖谷区间, 微表情过渡不够柔; 没有自建 motion capture 数据集, 现在依赖 MetaHuman 默认动画; 桌面浮窗形态 (UE5 viewport 嵌 PWA? 独立 OBS 推流? 浮窗 overlay?) 未定方案.

05 / 下一里程碑

接下来推什么

A2F latency 压到 < 200ms — 关键性能门槛, 突破了才有"实时"可言.
跑通第一个完整 emotion → face blend 链路 demo, 录屏作为体系最远地平线的 visual proof.
搭一个 5 动作的最小 motion library (idle / nod / shake / lean in / blink), 让 MetaHuman 不再是"只有表情的头".
对接 evie-agent, 端到端跑通"用户说话 → Cognition 推理 → Embodiment 实时反应"一条链.
选定桌面浮窗形态 (UE viewport 嵌入 / 独立窗口 / 推流 overlay), 给虚拟人一个"出场"的容器.