2023年中国AI基础数据服务市场规模45亿元,未来5年复合增长率30.4%。
1.中国AI基础数据服务产业图谱
AI基础数据服务产业的中游即数据标注等数据服务的供应商,包括专业厂商及云厂商两类,其中后者以支持内部算法研发及云业务 客户需求为主。上游提供原料数据、人力资源支持及IT基础设施,其中人力资源服务供应商主要包括垂直做数据标注的厂商和综合IT 类厂商两类,目前业界通常采用远程线上服务即云BPO的模式进行人力支持。下游为数据服务的需求方,包括大模型、智能驾驶等 各行业各领域投入AI算法研发的厂商。
2.中国AI基础数据服务市场规模
基于对数据服务专业厂商、云厂商、大模型研发厂商、智能驾驶研发厂商等中国AI基础数据服务市场的供需两侧企业调研,结合艾 瑞对中国人工智能市场整体及AI基础数据服务市场的发展判断,艾瑞推算2023年中国AI基础数据服务市场规模为45亿元。在需求侧, 随着AI算法研发从面向特定任务领域的小模型向具备更强通用泛化能力的大模型过渡,数据服务需求企业将产生大量高质量、多模 态的数据需求。同时,随着大模型在通用及垂直场景中的应用拓展和智能驾驶等AI技术的规模化商业落地,良好的商业回报将进一 步推动需求侧加大对基础数据的投入。在供给侧,随着数据要素等相关支持政策的持续深化,服务商将加快数据源的获取及数据集 的制作。数据工程技术、数据标准规范、标注方法等日益成熟,人才生态及服务软件平台的自动化、流程化也在不断完善,供给侧 的供应能力和服务质量得以加强。综合供需两侧的情况,艾瑞预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五 年的复合增长率为30.4%。

3.AI基础数据服务商的市场结构分析
延续艾瑞在2020年中国AI基础数据服务行业研究中的供给方划分方式,本报告将供给方分为需求方自建团队、品牌数据服务商、中 小数据服务三类。其中,有AI基础数据对外服务的云厂商最为特殊,因其所属集团的内部AI算法研发所需的数据服务,可能由云服 务业务线、算法研发业务线的内部标注团队,以及外部的品牌和中小数据服务商等四种团队承接。在艾瑞对供给方的市场份额统计 中,云服务业务线的对内支持计入需求方自建团队的市场;因云服务厂商具备较大的市场影响力、相对完善的服务软件平台,将云 业务线对外部厂商的数据服务计入品牌数据服务商的市场。
相比4年的市场份额情况,中小数据服务商的整体市场份额下滑约41%,需求方自建团队上升36%,品牌数据服务商上升5%:传统 AI数据标注市场竞争激烈,而大模型、智能驾驶等新兴项目体量较大需要较强的综合服务能力,叠加疫情影响,较多中小数据服务 商已退出市场;在大模型、智能驾驶等新兴AI算法及对应标注方式快速迭代时期,为追求更高的开发效率、保障信息安全,较多需 求方通过自建团队满足数据服务需求;未来随着品牌数据服务商的数据版权的丰富、专业能力的提升、标注方法的成熟,品牌数据 服务商将承接更多的数据服务需求。
据艾瑞调研统计,2023年中国AI基础数据服务行业的CR4(前四大企业的市场份额)为22.0%,市场仍较为分散。相比2019年 14.3%的CR4,中国AI基础数据服务市场在2023年的集中度显著提升。市场份额位居前四的企业包括以海天瑞声、数据堂为代表的 数据服务专业厂商以及以百度智能云为代表的云服务厂商。在传统AI标注市场的激烈竞争中,百度智能云、数据堂等AI基础数据服 务企业敏锐的捕捉到了大模型标注的需求变迁,凭借强大的资源整合及项目管理能力、丰富的行业经验和专业理解,快速响应市场 需求的变化,及时投入大模型相关产品和服务的研发,从而在AI基础数据服务的整体竞争中赢得了更高的市场份额,也成为了大模 型标注领域的头部厂商。
展望未来,随着大模型等AI技术的发展,数据服务的需求日益庞大且复杂,这对服务企业的综合能力提出了更高的要求。没有自动 化软件平台或平台能力较弱、资源整合能力有限的厂商将面临生存空间不断被挤压的困境;高质量数据版权丰富、运营管理能力强 大、行业理解深刻的头部数据服务厂商有望持续提升市场份额。
4.AI基础数据服务行业面对的挑战与机遇
由于大模型对数据集的要求更加复杂、高质量数据需求的增加,以及需求方对数据安全及保护核心技术的重视,AI基础数据服务行 业面临诸多挑战,包括数据标注工程师的门槛提升、项目管理复杂性增加、项目规模大、高质量数据获取困难、信息安全问题等。 尽管面对挑战,行业也迎来了新的机遇。大模型等AI技术的快速发展带来了高涨的数据需求,推动了AI基础数据服务市场的增长, 高质量数据集成为供应商的核心竞争力,此外,多模态数据集的需求也将增加。凭借精细的流水分工和日益精准的AI算法,数据服 务软件平台在行业中的价值不断提升,平台可帮助服务方更好的满足需求方的高质量数据需求,应对好人力及项目管理方面的挑战。