我认为以交互、服务为目的,具备形、声、行、神四类模因中的一类或多类 数字模因的对象,都属于虚拟数字人。
1.虚拟数字人四大模因的分类及特征
形模因
虚拟数字人的外观和形象层次,涵盖了其外观、造型、配饰等形象设计, 是虚拟数字人在视觉上产生影响的基本元素,对用户第一印象的形成起着关键 作用。 从“复制因子”属性来看,形模因的复制有两条明显的“道路”:一是以“真 人复刻”为目标,不断拓展设计精度,去接近和还原真人;二是以“拟人”为目标, 通过物理世界的动物、植物等赋予人的“形模因”进行再创造,如具有人类特 征的眼、口、鼻、耳、手、脚、服装等。 结合当前实践,虚拟数字人的形模因可以进行更细致的分类,如根据图形 维度,分为 2D 和 3D 两大类,2D 为平面驱动式,3D 需要建模完成;从外形上 可分为二次元、高仿真、超写实等风格;按照设计由易到难,市场上有 2D 真人 型、二次元型、3D 卡通型、3D 真人型、3D 超写实等类型。 形模因是所有虚拟数字人“诞生”的首个要素,是承载了设计学、美学的重 要模因,是最直观地形成用户印象的模因。形模因的演化与社会审美紧密相关, 无论是哪种模因类型,都有其不同的追随者,因此形模因的多样性将长期存在, 且其美术评级标准例将长期多元化。例如二次元风格的洛天依与超写实的星瞳虽 然风格不一,但在审美评级上都成为成功范本。

声模因
虚拟数字人的语言和对话层次,包含了其音色、语调、语速、用词、语种等声音设计和语言表达,是虚拟数字人与 用户交流的主要方式,会直接影响用户对其的感知和情感体验。 虚拟数字人声模因的表现主要通过声音克隆、语音合成。从“复制因子”的属性上看,声模因分为通用 TTS 和个性化 TTS 两大类,其复制方式目前主要有“拼接法”和“参数法”两种:拼接法,从预先录制的大量语音中,选择所需 的音节、音素等基本单位拼接而成,这种声模因质量高,但所需语料数据大,成本也高;参数法,根据统计模型来产生 每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。 作为重要的交互模因,声模因直接关系虚拟数字人的使用体验。当前,通用 TTS 主要用拼接法,个性化 TTS 则多 使用参数法,智能客服、有声读物等都是声模因可以独立应用的、常见的应用场景。在抖音、快手、B 站、小红书等虚 拟数字人聚集平台,声模因往往是“通用模型”,如萝莉音、大叔音、游戏音,甚至是“广西老表语音包”等都成为流 行的声模因。而在虚拟数字人的实际应用中,个性化 TTS 的制作、真人语音的“高保真、超写实”的克隆需求开始增加。 如:3D 真人虚拟主播,需要将真人的语音、语调、语速、语气、停顿、重音、尾音等都进行高保真,然后输出;而拥有 “人设”的虚拟偶像、数字员工等,其设计者们也是不断追求其声音的“真”度、独特性。
行模因
虚拟数字人的动作和行为层次,包括其表情、动作、互动方式等。虚拟数字人的动作、行为及互动方式设计对于创 造生动、有吸引力的用户体验至关重要,是与用户建立联系的重要手段。 虚拟数字人的行模因通过表情、微表情、肢体动作、标志性行为等进行表达,同时也包含了技能定义,如舞蹈技能、 音乐技能、金融知识技能、模特表现技能等。例如,初音未来爱给粉丝进行“眨眼”的互动,美妆捉妖达人柳夜熙的招 牌动作是盲打键盘,敦煌天妤的飞天、弹琵琶是其标志性动作。 当前,与形模因、声模因相比,流畅的、高拟真度的、更加自然、令人愉悦的行模因表达仍然困难,发展受到多重 因素的影响,其中包括技术和模因设计两大因素。首先是技术因素,技术水平直接影响了行模因的表现。行模因依赖动 作捕捉、图形处理、动作引擎等的进步,也依赖“中之人”们的驱动训练,才能更好地模拟真实生活中的各种动作和表情。 其次是设计因素,包括人物设计、用户交互设计、反馈机制设计等:虚拟数字人的世界观建构需要匹配不同的行模因, 以保持一致性和真实感,如舞蹈明星就需要有招牌动作;用户的交互操作和指令匹配度越高,会提升行模因的接受度, 例如虚拟模特对不同气质服装的走秀方式;用户反馈机制则关系着行模因的优化,但目前的数字员工、虚拟主播、虚拟 偶像等的反馈机制、反馈通路很少,往往让虚拟数字人的行模因的优化陷入困境。
神模因
“神”模因,即虚拟数字人的文化模因,一方面包含了文化和社会层次,主要涉及虚拟数字人的世界观设计,在文 化多样性的背景下,世界观建构的文化适应性影响着其生命力与价值张力;另一方面包含了虚拟数字人的情感表达和个 性特质,如何让虚拟数字人拥有“灵魂”,自我学习、自我展示、高效交互,甚至自我进化,已成为技术界追逐的方向, 也是神模因的发展方向。神模因的进化视为是数字生命可能性的重要变量。 神模因是虚拟数字人将模因人格化的关键因素,其主要影响因素是人工智能技术,特别是生成式 AI、通用人工智 能的发展,两者的发展逻辑一致,通过模仿真人来实现:模仿理性→模仿感性→模仿非逻辑非理性,通过模仿实现对“人” 的主体性的回归。目前,AI 可以解决的是知识库的学习,完成理性的模仿,但“人”的感性认知(如各异的审美)、以 及非逻辑非理性的表现(如规则、目标、偏好等)仍然无法通过算力的提升等硬件实现,需要通过各种规训、预训练去 模仿和形成,使得神模因越来越接近真人。 GPT 为代表的生成式 AI 正在不断加持神模因。以当前市场上的陪聊型虚拟数字人为例,人物设定为“男朋友、幽默、 有耐心、金融男”,或者“男朋友、霸道总裁、电竞爱好者”等关键词的聊天交互已经可以实现各自的角色贴合,甚至 可以将相应的习惯、知识设定绑定并完成交互输出,但并不能完成自主的聊天主题、目标设定等。
2.虚拟数字人模因的应用
当前,虚拟数字人的四类模因复制从低维到高维、从初级到高级、从人工驱动到智能驱动,让虚拟数字人的设计、 制作、生产、应用越来高效、智能,对社会生产生活的影响也越来越深入。 从数字模因“创意策划 - 设计 - 运营 - 演化”的形成和演进阶段来看:创意阶段通过外观、世界观、能力等形、声、 行、神模因的设定去定义虚拟数字人;设计阶段呈现虚拟数字人的形、声模因;运营阶段在数字化、智能化媒介中去呈现、 传播四类模因;随着用户的不断互动和反馈,去迭代、升级、规训四类模因。 从形、声、行、神四类模因的发展来看,目前的虚拟数字人“声”的发展最成熟,智能化水平和程度最高;其次是“形”, 超写实数字人的制作与生产也集结了很多美术与技术人才;“行”和“神”模因的发展仍处于初级阶段,特别是神模因 面临很大的挑战,但以 GPT 为代表的生成式 AI 快速发展,使得技术方、设计者们对虚拟数字人拥有“灵魂”充满了期待。 可以看到,虚拟数字人崛起,是人类生产生活高度数字化的结果,是其数字模因规模化、效率化的结果。而虚拟数 字人作为元宇宙的多模态“个体”,在应用中,应围绕其形、声、行、神数字模因去融合、创新,不断塑造强势模因
1. 挖掘有鲜明特色和可引起用户共同记忆的“形模因” 对于年轻用户而言,虚拟偶像的“美颜”是第一个吸引他们的模因,例如 360 度无死角的韩系美女 AYAYI、拥有清 丽古典东方面容的花西子虚拟品牌代言人花西子,拥有黑巧克力色的肌肤、11 头身的惊人比例的虚拟超模 Shudu;除了“美” 之外,熟悉度以及鲜明特色的“辨识度”也是重要的模因要素。“先贤 / 名人复刻”就是模因正向作用的重要体现。中华 书局 2022 年复活了中华文化偶像“苏东坡”,将其运用于表情包、城市宣传、文旅赋能、东坡诗社 IP 周边开发等领域。 李白故里四川省绵阳江油推出了数字人“少年李白”,通过数字藏品、直播、城市宣传片、音乐剧等方式为文旅产业赋能。
2. 形成易于记忆和表达的“声模因” 歌手、偶像、名人的声模因是强势模因。AI 孙燕姿、数字人邓丽君一经推出便吸引了众多受众。通过采集孙燕姿 约 100 首歌曲作为训练数据、建立声音模型,让 AI 孙燕姿推出的翻唱歌曲与真人“一模一样”“就是原唱”;而数字 人邓丽君空降 2023 年北京台春晚,与王心凌、韩雪同屏演绎《我只在乎你》,也成为出圈现象。
3. 从数字人到数智人,AI 加持塑造“行模因”与“神模因” 一首诗、一幅画、一首歌、一部短句,强势的虚拟数字人行模因可以持续创造热点和流行文化,而 AI 赋能下可智 能交互的“数智人”则是行模因的发展趋势。小冰公司与中央美院联合推出的数字人夏语冰,推出了毕设作品《历史的 焦虑》,由录像、绘画、诗歌三个部分组成,都是 AI 赋能行模因的产物。值得注意的是,在技术条件未完善,不能高度 智能化时,多数虚拟数字人的行为驱动还是“真人 +AI 混合驱动”,仍需注意“行模因”不稳定带来的“塌房”问题, 例如 Asoul 组合中的珈乐,因中之人身体和学业原因退出而无法继续运营。
4. 扩大模因影响力,从虚拟走向物理,从线上走到线下 数字模因的主要舞台在网络、虚拟设备上,但只有影响到物理世界、线下活动的强势模因才具有持久的生命力。 以虚拟偶像初音未来为例,2007 年诞生至今 16 年,全球拥有 6 亿粉,究其原因是已经形成独有的初音文化、粉丝社群: 有全球巡演的演唱会,有包括手办、鞋服、头饰等的初音套装,有线下可以互动的游戏、虚拟硬件、粉丝节。2023 年正 好是初音未来推出发售的 16 周年,设定上初音为 16 岁的少女,在 16 岁生日之际,以“凝聚未来”等为主题的活动陆续全 球展开,知名的手机、耳机、手表、手办、玩偶等厂商纷纷加入宣布发售纪念款,其粉丝聚集的现场活动会设置专门的应 援棒、道袍、祭坛,并由“打师”们设计专门的舞蹈、荧光棒舞姿势等用于现场应援,形成独特的“WOTA 艺”(演唱会 等现场活动中一种引人注目的应援方式,御宅艺、光棒艺、荧光棒舞蹈等通称 WOTA 艺),而初音未来便是他们的“精神