虚拟现实涉及如下关键技术:近眼显示技术、内容制作技术、感知交互技术、渲染 计算技术、网络传输技术等。
1.近眼显示技术
VR近眼显示的理论基础是双眼立体视觉原理,同一物体在左右双眼视网膜成像时存在着视差,双眼 视差通过视觉皮层融合进而产生三维立体感。头戴式显示技术正成为虚拟现实主流立体视觉显示技术, 头盔式显示器(Head Mounted Display, HMD)的技术思路是当用户佩戴头盔显示器后,左右眼显示屏可 为双眼提供立体图像,进而产生立体视觉效果。近眼显示的参数指标是影响用户体验感受的主要因 素[29],主要包括视场角(Field of View, FOV)、分辨率(Resolution)、刷新率(Refresh Rate)、运动到成 像时延(Motion-to-Photon Latency, MTP)等。
视场角主要用于衡量宽广度,指的是显示器两侧边缘与观察点(眼睛)连线的夹角,视场角的大小直 接决定着用户的视觉感受,视场角是用户的临场感[30]和沉浸感[31]的重要因素。在水平方向上,人单眼 的舒适角度为60°,在此方位区间内人眼视力最为敏感;单眼的视野(不转动眼球、脖颈)约为左右各 95°,双眼重合的视野角度为120°。通常VR头显的水平视场角要达到90°,才能保证较高的沉浸感,目 前主流商用头盔显示器的FoV通常是在90°-120°。角分辨率(Pixel Per Degree, PPD)是衡量清晰度的重 要概念,指的是视野里单位角度包含的像素数,通常计算方式是(单眼成像)视野内最长对角线像素量除 以该对角线的视场角。从数字上看,PPD越高,显示的画面自然可以越精细,有研究称人眼正常视力下 角分辨率极限为60 PPD。目前,主流VR显示设备的角分辨率多为20PPD左右,距离理想效果的要求尚 有较大差距,VR头显屏幕的低分辨率通常是引发“纱窗效应”的重要原因。刷新率主要用于衡量画面的流 畅程度,指的是VR屏幕上图像的每秒更新的频次,理想的刷新率应在90-120Hz或以上。一般而言,VR 显示的刷新频率越高,屏幕上图像闪烁感就越小,稳定性也就越高,图像显示越自然清晰,可以减轻用 眼疲劳[32]。若画面延迟较高,则可能在高速位移或视野转动时发生画面闪烁、重影、余晖等现象,使用 户产生眩晕感[33]。一般来说,如能达到80Hz以上的刷新频率,就可完全消除图像闪烁和抖动感,减轻 用眼疲劳。运动到成像时延是用户头部移动与VR设备显示反映用户移动的变化之间的延迟。一旦用户的 头部移动,VR场景应该与移动相匹配。这两个动作之间的延迟越多,VR画面看起来就越不真实,并且 容易产生晕动症[34],VR系统一般需要<20ms的低延迟,甚至是<7ms的低延迟。
2.内容制作技术
基于用户与虚拟环境内容之间的交互程度,可分为弱交互和强交互两种类型。前者用户在虚拟环境 中可选择视点和位置,用户体验是相对被动,体验内容也是预先规划好的,主要包括VR直播、VR全景 视频等应用场景;后者是内容须根据用户的交互信息进行实时渲染,自由度、实时性与交互感更强。在 弱交互方面,主要呈现出强调高质量、多格式的专业生成内容(PGC)和操作便捷、成本可控的用户生成 内容(UGC)两种发展诉求,技术选型包括手机式、一体单目/多目、阵列式、光场式等内容采集设备。 VR视频的交互体验自由度也正从基于视野转动的3DoF发展为场景中自由移动与观看的6DoF。同时,通 过采集用户实时心率、眼动、语音、微表情等多元化生理指标,可建构出依据用户偏好反馈的定制化内 容叙述线。此外,随着VR直播的常态化,制作上云将成为简化虚拟现实内容摄制流程的关键技术。在强 交互方面,3D数字模型通常基于扫描数据或多视角图像进行三维建模,通过纹理映射实现实体表面真实 感处理,并嵌入文本、音频和视频信息完成实体重建。当前,基于RGBD相机等技术方案低成本、高速 率生成高质量3D模型正成为可能。此外,虚拟化身的制作作为VR多人社交的关键,通过追踪采集用户 数据并实时投射于虚拟化身的外观及行为表现,使得VR用户对于虚拟化身的感知与控制形成交互闭环。 在技术方面,基于口型、眼动、表情、手势肢体等上半身虚拟化身技术初步走向成熟,有望增强VR社交 的临场感与互动程度。
在支撑性技术方面,Web XR推动了虚拟现实内容与各类终端平台、操作系统间的解耦,提供了更 加便捷的网页VR/AR应用开发环境,有望成为下一代Web沉浸体验的基石。Open XR在强化对Web XR 网页开发框架支撑的同时,深化了对新一代3D图形应用程序Vulkan的协同,适配了手势、眼动追踪等 多元化的交互方式,丰富5G边缘计算等应用场景。操作系统(OS)聚焦发展实时性、多任务、感知交 互与端云协同;开发引擎方面可选择具有平衡性能和低功耗的特性的引擎(Unity、Unreal)。
3.感知交互技术
理想人机交互可让虚拟现实用户聚焦交互活动本身,而忘记交互界面的存在,自然化、情景化与智 能化成为感知交互技术的主要特征。追踪定位是感知交互领域的基础能力,存在着Outside-in和 Inside-out两条技术路线[35]。前者需要在环境中布置(基站外设)定位器,实现从外到内的位置计算;后 者则只需借助VR设备自身的传感器进行环境感知与位置计算。当前,基于视觉+IMU惯性测量融合的 Inside-out追踪定位技术全面成熟,正规模化应用于头显终端。Inside-out在追踪定位方面已接近 Outside-in的效果,这种省去基站外设的追踪方式符合大众市场发展趋势。在VR交互方面,VR控制器 输入是当前最为常见的输入方式,手势追踪初步成熟,基于手势追踪的裸手输入、裸手+控制器等交互 外设协同共存将成为发展趋势。手势追踪技术的优势在于消减了用户对交互外设的配置操作与购买成 本,无须考虑充电配对问题,且手势信息等增强了虚拟现实体验的社交表现力。当前,6DoF头动追踪 仍是VR终端的重要交互输入,但在达到沉浸体验门槛后,眼动追踪成为VR终端的新标配。眼动追踪技 术主要分为基于特征与基于图像的发展路径,该技术发展焦点在于眼动算法如何基于所采集的原始眼动 行为来理解用户意图。
4.渲染计算技术
虚拟现实渲染的核心在于渲染质量与效率间的平衡优化,主要包括本地渲染与云渲染两种类型。在本 地渲染方面,PC VR的计算与渲染是在配备GPU显卡的PC主机进行处理,VR头显承担的是视音频输出、 交互输入等功能,代表性产品包括HTC VIVE PRO、Oculus Rift系列。VR一体机由于具备独立处理器、支 持HDMI输入,能够在本地进行独立运算、输入和输出的功能,代表性产品譬如HTC VIVE Focus3、Pico Neo 4。沉浸式VR眼镜作为轻量级的VR设备,则是利用手机、PC机的独立显卡的计算能力,从而为用 户渲染显示,代表性产品为Huawei VR GLASS、HTC VIVE Flow等。
云渲染与本地渲染并非是相互独立的发展轨道,相比于本地渲染依赖于终端完成,其聚焦云网边端 的协同渲染,将渲染算力导入云端,具有降低终端配置成本的优点。当前,公有云的云控网联需要解决 云上算力成本、确定性网络成本等难题,面向消费者进行大规模推广应用仍然存在一定距离。在教育领域,尤其是高等教育,云端渲染不需要依托公有云支持,可通过学校区内私有云共享算力资源、并改 造学校局域网满足确定性时延的要求,从云-管-边-端协同配合,实现端云算力协同、终端算显分离,有 助于解决掉原来传统功能型虚仿教室的各种问题。
5.网络传输技术
工信部出台的“双千兆”网络协同发展行动计划中提到,系统推进固定网络和移动宽带迈入千兆时 代,第五代固定网络(F5G)千兆宽带和5G网络共同构成双千兆接入网络联接。教育部“数说教育十年”新 闻发布会显示,学校的信息化配置水平显著提高,2021年全国义务教育学校互联网(固定网络)接入率接 近100%。固定网络作为新基建的先导基础,经历了语音时代、宽带时代、视频时代、4K超高清时代, 正跨入以10G PON全光接入、200G/400G OTN全光传送为代表的第五代全光网络(F5G)全光时代。光纤 网络在光纤入户(FTTH/FTTO)的基础上,正进一步拓展至房间(FTTR)、终端等,通过配合WiFi6保障每 间教室的高质量、多并发的虚拟现实学习体验。此时,千兆光网+云VR将成为F5G时代的典型特征与重 点应用的结合。与前几代固定网络相比,F5G千兆网络凭借着超大带宽(eFBB)、全光连接(FFC)和极致 体验(GRE)关键特征推动光纤网络突破传统的产业边际,可为教育的高质量发展提供高速、便捷、绿 色、安全的数字底座,持续助力教育数字化转型与智能升级。
第五代移动通信技术(5G)是具有高速率、低时延和大连接特点的新一代宽带移动通信技术,5G通讯 设施是实现人机物互联的网络基础设施。5G的三大类应用场景包括增强移动宽带(eMBB)、超高可靠低 时延通信(uRLLC)和海量机器类通信(mMTC)。由于虚拟现实编码率高、交互性强,在4G网络下仅可满 足2K业务,尚难以满足4K/8K虚拟现实在教育教学中的规模部署,须依托于5G的上行大带宽、网络低 时延等能力满足虚拟现实的进阶体验。此外,多接入边缘计算(MEC)将密集型计算任务迁移到附近的网 络边缘,降低核心网和传输网的拥塞与负担,减缓网络带宽压力,并快速响应用户请求并提升服务质 量。通过MEC边缘服务,可降低云化虚拟现实(Cloud VR)在教育应用中的网络连接和终端硬件门槛,加 速教育行业的规模化应用。
除了以上五种关键技术外,在《虚拟现实与行业应用融合发展行动计划(2022—2026年)》中还 提到了压缩编码技术和安全可信技术。压缩编码技术是对传输的内容进行压缩编码以其更快的传输内容 的方法。在《行动计划》[36]中,压缩编码技术重点推动基于视角的超高分辨率(8K及以上)虚拟现实 视频编码技术。突破六自由度虚拟现实视频、球体视频、全息视频、沉浸式音频、多模态数据等压缩编 码技术。研究自适应网络传输等关键技术,推动虚拟现实编解码向网络智能协同方向发展。以5G、人工 智能、大数据、云计算、区块链、数字孪生等为代表的信息技术时代的发展,网络安全存在的问题受到 广泛的关注和极大的重视。基于主动免疫的主动防御可信计算技术可有效提高系统整体的防护效果[37]。 可信计算是在计算和通信系统中广泛使用基于硬件安全模块支持下的可信计算平台,其组件、操作或过程的行为在任意条件下是可预测的,并能很好地抵抗应用程序软件、病毒以及一定物理干扰造成的破 坏,可以维护计算机系统用户本身的利益和外来用户的正常运行,提高了系统整体的安全性[38]。在《行 动计划》[39]中,安全可信技术重点推动安全可信的虚拟现实产品和服务在各场景中应用,突破基于可信 计算主动免疫双体系并行动态度量检验技术,加快可信计算在虚拟现实网络应用协议与接入机制的应用 研究与推广