SuperCLUE:中文大模型基准测评2025年5月报告.pdf

  • 上传者:元*
  • 时间:2025/06/16
  • 热度:364
  • 0人点赞
  • 举报

SuperCLUE:中文大模型基准测评2025年5月报告。o4-mini(high)在本次5月测评中表现优异,总分达到70.51分,超过国内最好模型7.35分。 该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力,特别 是在代码生成(91.52)、指令遵循(68.07)方面得分较高。

Doubao-1.5-thinking-pro-205415、SenseNova V6 Reasoner等国内模型表 现亮眼。其中,Doubao-1.5-thinking-pro-205415在文本创作与理解任务以 81.04的高分领先其他模型。

Hunyuan-T1-20250403在国内模型中指令遵循得分第一,为36.97分,但是与海外模型指 令遵循得分第一的o4-mini(high)相比,差距达到了31.1分,国内模型在指令遵循方面表现 较弱,还有较大的提升空间。

1页 / 共39
SuperCLUE:中文大模型基准测评2025年5月报告.pdf第1页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第2页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第3页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第4页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第5页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第6页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第7页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第8页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第9页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第10页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第11页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第12页 SuperCLUE:中文大模型基准测评2025年5月报告.pdf第13页
  • 格式:pdf
  • 大小:13.3M
  • 页数:39
  • 价格: 13积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至