弈衡通用大模型评测体系白皮书.pdf

上传者：v*****
时间：2023/08/15
热度：1174
0人点赞
举报

弈衡通用大模型评测体系白皮书。人工智能大模型（以下简称大模型）是实现生成式人工智能服务（AIGC）的重要技术， ChatGPT上线两个月活跃用户（MAU）突破 1 亿，激发了大模型技术的爆发式发展，全球科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、META等，加快大模型研发，并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发，百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度，OpenAI、谷歌、百度已经在短短几个月内多次升级大模型版本，能力提升明显，大模型行业竞争激烈。

与此同时，随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型，泛化能力更强、灵活性更高、适应性更广，多任务、多场景，评测维度、评测指标和数据集更复杂，面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织，如OpenAI、微软、斯坦福大学、信通院，在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告，从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测，为用户和行业充分掌握大模型能力发挥了积极作用。

目前业界多家机构发布了大模型的评测榜单，但是评测维度及侧重点各有不同。从推动 AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度，有必要从用户视角，构建一套客观全面、公平公正的大模型评测体系。