场景数据集是一组相关联的驾驶场景的集合,可以存储在一个文件或一组文件中,用于一些特定的任务,如机器学习。
1.数据库技术概述
场景库是场景数据库的简称,是数据库技术在场景数据管理中的应用形式。数据库是一个结构化的数据存储系统,由多个数据项以及与这些数据项相关的元数据、标注和索引等组成。场景数据库可以用来支持对采集数据的有效存储、管理和查询,为各种应用提供有关场景数据的数据源,帮助实现采集数据的可持久性存储和高效访问。数据库系统包括数据库、数据库管理系统、应用程序和数据库管理员组成的存储、管理、处理和维护数据的系统。不引起混淆的情况下,可将场景数据库系统简称为数据库[36]。
数据集和数据库是两个不同的概念。场景数据集是一组相关联的驾驶场景的集合,可以存储在一个文件或一组文件中,用于一些特定的任务,如机器学习。数据集通常是为分析而设计的,而不是针对不同用户的持续更新,代表数据集合的结束或特定时间的快照。数据库是一组使用数据库管理系统组织和访问的数据。可以支持复杂的查询和交互,以便用户快速访问和操作数据。数据库通常(但并非总是)由多个链接在一起的表组成,这些表经常被不同的用户同时访问、修改和更新。因此,可以说数据库是操作数据集的一种存储形式。也可以说数据集是数据库的一个子集,而数据库则是一种更复杂的数据存储形式。
2.数据库系统组成
场景库系统组成包含硬件平台、软件和人员。硬件平台具备充足的内存空间用来存放操作系统、管理系统的核心模块、数据缓存区和应用程序,足够大的磁盘存放数据库及备份,高速数据传送通道,进而满足运行、存储、备份、传输需求。软件主要包括数据库管理系统、操作系统、高级语言及其编译系统、应用开发工具和数据库应用系统。对应地,开发、管理和使用数据库系统的人员包括数据库管理员、系统分析员和数据库设计人员、应用程序员和最终用户。

3.技术特点
数据管理是指对数据进行分类、组织、编码、存储、检索和维护,具备以下特点: (1)数据“整体”结构化,数据间相互联系;(2)数据共享性高、冗余度低且易扩充; (3)数据独立性高,物理存储和逻辑应用彼此分离;(4)数据由数据管理系统统一管理和控制,解决并发共享的干扰及安全隐患。
3.场景库构建流程
(1)确定单个场景的数据存储方式与标准 规范格式:首先要规范场景数据存储的格式,提高数据一致性、集成性、可读性和可理解性,同时为数据分析、维护和管理提供便利。确认来源:根据上文所述场景构建路线的不同,确认场景数据的数据来源,典型的数据来源有自然驾驶数据(包括开放道路测试数据、封闭场地数据),标准法规和第三方数据。 (2)构建单个自动驾驶虚拟测试场景 需要根据数据来源以不同手段方案进行构建,参考上文3.1.2建方法实现。构建的场景需具备完整、多样、可靠和丰富的数据。
(3)根据特征标签选取适当场景 1)场景筛选:场景库构建过程中需要注意规范界定有效场景库的权重设置和资源分配,识别有效场景过滤无效场景。 2)场景分类:场景库架构分类决定了库的组织构建。目前主要通过多个层次进行细化分类,分类依据包括按场景要素、抽象程度、数据来源等,进而获得精细化场景类型,即场景库标签。 3)数据关联:通过场景库标签与场景描述文本的相互匹配,实现各层级特征标签的有序组织;也可根据构建文件定义的需求,在设计运行域范围下有效组合高价值场景。 4)更新优化:面向功能需求,场景库需不断更新优化以丰富完善数据内容,同时管理调度存储资源。更新动作来自场景调用后的结果反馈,在读入需求后进行模板实例化并保存入库。优化管理面向效率和性能,其内容涵盖硬件及系统优化、逻辑配置和内部设计。

4.场景库应用技术
4.1 数据回灌测试技术
数据及场景被誉为车辆的“血液”,打通研发及测试端的数据闭环已经成为车辆步入高阶的必经之路。受限仿真技术的发展,仿真测试结果的可信度还未能有效解释的前提下,如何最大化实现真实路采数据的价值成为各家应用者迫切考虑的问题。因此基于存量实景的数据回注是解决此问题的关键行为,可以极大地提高研发效率、节省开发成本、减少迭代次数、节约研发时间、提高安全性。而数据回灌由于其数据是离线固定不变的,无法跟随自动驾驶系统的更新迭代而机动调整,天然存在交互性缺失的问题,数据复用难度较大。因此只能作为开环测试的手段,更多用作对相同车型的算法训练、危险场景复现验证等。
回灌数据
目前自动驾驶系统正常运行需要的数据,可分为环境感知和行为控制两方面数据,通过搭建数据采集系统,实现对所需原始数据进行同步采集和存储,并提供必要的显示功能。由于数据需要保证同步性,因此需要对传感器和采集系统进行授时,从而实现所有传感器的数据同步。 环境感知是自动驾驶系统与外界环境交互的首要环节,随着自动驾驶技术的不断深入,感知方式也变得愈发多元,目前环境感知主要由摄像头、激光雷达、毫米波雷达、超声波雷达以及惯导定位等组成。摄像头回灌数据主要可分为原始图像和压缩后的视频数据,激光雷达回灌数据主要可分为网络数据包PCAP和点云帧 PCD 文件,毫米波雷达、超声波雷达和惯导定位回灌数据主要是CAN/CANFD 的总线报文包,格式主要有 csv、asc 等。行为控制是自动驾驶车辆内部交互数据,它包含了功能状态启动输入数据和正常工作控制输出数据。通过连接路由,采集车载通讯数据,主要是CAN/CANFD总线数据包和车载以太网数据包。 另外也能对算法信号级数据进行采集,以满足对算法回灌测试的需求。例如基于 ROS 系统下,通过采集所需要的话题消息(topic),储存数据包(rosbag)。
数据回灌系统
基于实景的场景数据回灌系统大体可以分为两类,一个是软件回灌系统,另一个是硬件回灌系统。软件回灌系统的被测对象通常是自动驾驶算法,通常由数据服务器、数据回放工具组成。数据服务器用于储存用于回放的真值数据,可以分为本地存储和云端存储两种方式。数据回放工具依赖通讯中间件,将真值数据按照中间件协议进行同步发送。

硬件回灌系统基于道路采集的传感器数据、惯导定位数据、车身总线数据,完成对智驾域控制器的开环注入,最终实现对自动驾驶感知算法和功能算法的验证。系统组成可由数据服务器、实时注入服务器、传感器仿真注入单元组成。数据服务器用于路采数据的存储保存,也分为本地储存和云端储存两种形式。实时注入服务器可实现回灌数据拉取、数据格式转换、注入板卡参数配置、监控数据显示、数据同步控制下发等。传感器仿真注入分为视频注入板卡、CAN(CANFD)总线仿真板卡、车载以太网仿真板卡、射频信号矢量发生器等功能模块。
回灌实时注入服务器需具备硬件同步能力,需要支持gPTP 同步,各类回注信号之间都需要通过硬件的方式来实现同步。回注控制器需要兼容三种同步时钟源,按照路采时间戳和高性能晶振时间源,同步误差不超过1ms。
4.2 场景数据闭环测试应用技术
自动驾驶测试场景对自动驾驶研发和测试工作起着重要作用。在以场景为驱动的自动驾驶研发测试中,自动驾驶测试场景的科学有序构建,能有效支撑自动驾驶的测试研发工作。同时,自动驾驶研发测试工作的开展能够给场景库提供反馈意见,并丰富自动驾驶测试场景,从而形成场景库构建与应用的正向循环。用,实现数据闭环应用。一个完整的数据闭环通常包括数据采集、数据处理、数据标注、模型训练、测试验证这几个环节。汽车采集数据经过标注、清洗、筛选等处理,形成有效数据集,进一步存储在云端服务器中,之后传输至算法模型,经过训练后部署到车端进行应用验证,形成一套由数据驱动算法迭代、进而驱动自动驾驶能力升级的闭环模型。在这种模型下,会有新的数据源源不断被触发回传,从而形成循环。

基于自动驾驶数据闭环的原理和框架,要提高数据闭环的效率,高效方便的工具链必不可少。工具链主要包括了三大平台——车云协同平台、数据平台、仿真平台。 (1)车云协同平台 车云协同平台主要连接车端和云端。在车端,通过一个可视化的界面,辅助在车端挖掘数据。同时,云端的新版本模型可以通过OTA 的方式更新到车端,车端抓取的数据也可以直接回传到云端平台。借助车云协同平台,工程师可以在云端很方便地查看车端场景的回放以及一些参考指标——例如安全员接管的频率、急刹的频率等。
(2)数据平台 数据平台主要用来收集、管理需要用到的数据。数据平台在车端采集的数据上传到云端后,可进行二次挖掘,充分发挥云端的大算力优势,处理一些更复杂的场景挖掘的需求。同时,挖掘高价值场景可以依据需求筛选,直接通过数据平台找到相应的数据。 (3)仿真平台 仿真平台主要会根据实际的路测数据生成仿真场景。仿真场景可以作为自动驾驶系统测试的辅助,仿真测试可以替代很大一部分的实车测试,极大地节省测试时间,实际道路测试中遇到的新的问题,也可以在虚拟仿真环境中进行更充分的测试和验证。此外,仿真平台也可以帮助丰富场景库,补充现实环境中较难采到的场景。 完备的闭环模型需要大规模、高质量、多场景的数据,高算力、高效率、相对低成本的算法模型,趋向自动化的数据标注与处理,高速率、低成本的传输速率与存储模式,再加上安全合规的保驾护航,在新数据的喂养下不断循环向前,实现自动驾驶的自动化成长。
5.场景库建设现状
(1)苏州智行众维智能科技有限公司场景库 IAE 智行众维® 的“水木灵境”场景工场,基于中国智能网联汽车行业相关标准、来自车端/路端的真实道路数据和交通行为特征,以人工智能和数字孪生为底层技术,通过跨平台和大数据驱动,开发并形成场景数据采集、处理、分析和批量化生产的全流程及自动化工具链,实现仿真测试场景的大规模、高质量、多平台生产和海量云仿真,构建大规模仿真测试和评价所需的核心支撑体系。目前已构建超过 10000 组实际可用的仿真场景,涵盖城市级数字孪生、自然驾驶、国内外法规标准、CIDAS 交通事故复现、预期功能安全、V2X等场景。在提供标准场景适配服务同时,也可以满足 IAE X-in-Loop®全栈式仿真测试、验证体系的场景需求并支持按需订阅的 SaaS 化服务。
(2)国汽(北京)智能网联汽车研究院场景库 国汽(北京)智能网联汽车研究院有限公司(以下简称“国汽智联”)联合国内 10 余家企业,在全国范围内共同采集了百万公里的自然驾驶数据,覆盖雾雨雪等多种天气与国内复杂交通状况,搭建仿真场景模型,自研场景数据管理平台,建立具备中国道路特色的智能网联汽车场景库(图3-17)。场景库包含自然驾驶场景、标准法规场景、功能解析场景、交通事故场景、典型场景、边缘场景和感知数据集。基于采集的百万公里自然驾驶数据,泛化生成测试案例超10万;参考 40 余项标准法规,生成 1300 余个测试场景;功能解析场景覆盖30 余项智能驾驶功能,设计测试场景 1 万余个;具备国内外交通事故场景素材3000 余例,已搭建 700 余例场景;多模态感知数据集包含覆盖不同地点、天气、交通、道路等场景共计 350 个(每个场景片段为 10 秒),已累积包含时间、空间对齐的3.5万帧图像、激光雷达点云、4D 毫米波雷达点云数据,该数据集是全球首个以场景为单位组织的多模态感知数据集,为不同环境下具有挑战性驾驶条件的各类感知算法研究提供了一个新的训练和测试基准。基于场景库搭建了模型在环、软件在环、硬件在环等仿真测试能力,场景数据库应用于算法训练、回灌测试、模拟仿真测试、数据闭环等。
(3)北京赛目科技股份有限公司场景数据库 北京赛目科技股份有限公司(以下简称“赛目科技”)自主研发适用于中国特色智能网联汽车测试、验证和认证的场景数据库。该场景库基于OpenX 标准格式,满足多种工具链的接口需求。融合真实交通多源数据,以及专家经验知识、人工智能、对抗样本等数据,包括典型场景、边角场景、事故场景、标准法规场景、预期功能安全场景等多种场景类型,工况覆盖高速、城市、乡村、停车场等重点领域,环境覆盖晴天、雨天、雪天、雾霾等多种天气,具有无限性、扩展性、批量化、自动化等特点。截至 2023 年6 月,赛目科技测试场景库已积累两千多个逻辑场景,可为智能网联汽车行业客户提供全栈式测试验证解决方案,深度赋能自动驾驶技术商业落地。