弈衡通用大模型评测体系白皮书.pdf

  • 上传者:v*****
  • 时间:2023/08/15
  • 热度:1174
  • 0人点赞
  • 举报

弈衡通用大模型评测体系白皮书。人工智能大模型(以下简称大模型)是实现生成式人工智能服务(AIGC)的重要技术, ChatGPT上线两个月活跃用户(MAU)突破 1 亿,激发了大模型技术的爆发式发展,全球 科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、META等,加快大模型研发, 并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研 发,百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继 推向市场。各家公司也加快大模型的迭代升级速度,OpenAI、谷歌、百度已经在短短几个 月内多次升级大模型版本,能力提升明显,大模型行业竞争激烈。

与此同时,随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模 型,泛化能力更强、灵活性更高、适应性更广,多任务、多场景,评测维度、评测指标和数 据集更复杂,面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、 主流科研机构和重点高校等权威组织,如OpenAI、微软、斯坦福大学、信通院,在评测框 架、评测指标、数据构建方法等方面发表了一些论文和研究报告,从准确性、鲁棒性、毒害 性、公平性等评测维度对相关大模型进行了评测,为用户和行业充分掌握大模型能力发挥了 积极作用。

目前业界多家机构发布了大模型的评测榜单,但是评测维度及侧重点各有不同。从推动 AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度,有必要从用户视角,构建一 套客观全面、公平公正的大模型评测体系。

1页 / 共24
弈衡通用大模型评测体系白皮书.pdf第1页 弈衡通用大模型评测体系白皮书.pdf第2页 弈衡通用大模型评测体系白皮书.pdf第3页 弈衡通用大模型评测体系白皮书.pdf第4页 弈衡通用大模型评测体系白皮书.pdf第5页 弈衡通用大模型评测体系白皮书.pdf第6页 弈衡通用大模型评测体系白皮书.pdf第7页 弈衡通用大模型评测体系白皮书.pdf第8页 弈衡通用大模型评测体系白皮书.pdf第9页 弈衡通用大模型评测体系白皮书.pdf第10页
  • 格式:pdf
  • 大小:3.7M
  • 页数:24
  • 价格: 6积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至