以下是我对计算驱动型/AIGC型虚拟人制作 流程的概括总结。
1. 设计形 象。扫描真人形 态及表 演、采集驱动数据 。利用多方位摄像头,对通用/特定模特进行打点 扫描,采集其说话时的唇 动、表 情、面部肌肉变 化细节、姿态等数据。
2. 形 象建模,进行绑定 。设计所需的模型,或基于特定真人进行高 还原度建模,进行关 键点 绑定。关 键点 绑定的数量及位置影响最终效果。
3. 训练各 类驱动模型 。决 定最终效果的核心步骤 利用深度学习,学习模特语音、唇 形 、表 情参数间 的潜 在 映射关 系,形 成各 自 的驱动模型与 驱动方式。 充足的驱动关 键点 配合 以精度较高 的 驱动模型,能够高 还原度的复原人脸骨骼和 肌肉的细微变 化,得到逼真的表 情驱动模型。
4. 内容 制 作。 基于输入的语音(或由 输入文本转化的语音),预测唇 动、表 情等参数 核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合 成技术), 将输入的本文转化为语音。基于语音,结合 第3步得到的驱动模型,并 利用生 成对抗模型GAN选出最符合 现实 的图片,推理得到每帧数字人的图片。通过时间 戳,将语 音和 每帧的数字人图片进行结合 。
5.进行渲染,生 成最终内容。 直播时进行实 时渲染。为保证 在 特定场景下能够实 现实 时低延迟渲染,计算框架的大小、算力供 给等技术问 题同样会 影响到虚拟数字人的最终生 成效果