SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf

  • 上传者:N***
  • 时间:2025/08/12
  • 热度:260
  • 0人点赞
  • 举报

SuperCLUE团队:中文大模型基准测评2025年上半年报告。海外头部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基准测评中取得了 73.78分、73.32分和68.98分的总成绩,分别位于榜单前三。Doubao-Seed-1.6-thinking 250715以68.04的总分取得国内第一、全球第四的成绩。

海外模型在推理任务上的优势尤其显著,o3和o4-mini(high)在推理任务上分别取得了 75.02和72.68的分数,领跑推理任务榜单。国内推理任务成绩最好的模型分别是 DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715,均有超过65分的表现,但与 海外头部模型依旧相差近10分。

1页 / 共60
SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第1页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第2页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第3页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第4页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第5页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第6页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第7页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第8页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第9页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第10页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第11页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第12页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第13页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第14页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第15页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第16页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第17页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第18页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第19页 SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf第20页
  • 格式:pdf
  • 大小:6.1M
  • 页数:60
  • 价格: 6积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至