警惕AI“信口开河”:大语言模型幻觉控制能力深度测评报告.pdf

  • 上传者:简****
  • 时间:2025/10/15
  • 热度:78
  • 0人点赞
  • 举报

警惕AI“信口开河”:大语言模型幻觉控制能力深度测评报告。在人工智能浪潮席卷全球的背景下,大语言模型(LLM)正加速扎根知识 服务、医疗诊断、商业分析等专业领域,其应用深度与广度持续拓展。然而,一 个关键障碍始终横亘在前:“幻觉”——即输出看似逻辑自洽,实则与事实相悖 或偏离语境的现象——已成为制约其可信度的关键瓶颈。为此,香港大学蒋镇辉 教授领衔的人工智能评估实验室(AIEL),针对37个中美大语言模型(含20个 通用模型、15个推理模型、2个一体化系统),从事实性、忠实性幻觉两方面评 估其幻觉控制能力。测评结果显示,GPT-5(思考模式)和GPT-5(自动模式) 分别斩获冠亚军,Claude4Opus系列紧随其后;字节跳动公司的豆包1.5Pro系 列表现突出,领跑国产模型阵营,但与国际顶尖模型之间仍存在显著差距;整体 来看,本次测评模型更擅长于避免产生忠实性幻觉、但事实性幻觉控制能力仍有 短板。这项研究揭示了AI可信度需兼顾事实与忠实性幻觉协同提升的必要性, 为未来模型的优化提供了明确方向,推动AI从“能生成”向“可信赖”的关键 性迈进。

1页 / 共12
警惕AI“信口开河”:大语言模型幻觉控制能力深度测评报告.pdf第1页 警惕AI“信口开河”:大语言模型幻觉控制能力深度测评报告.pdf第2页 警惕AI“信口开河”:大语言模型幻觉控制能力深度测评报告.pdf第3页 警惕AI“信口开河”:大语言模型幻觉控制能力深度测评报告.pdf第4页
  • 格式:pdf
  • 大小:1.4M
  • 页数:12
  • 价格: 4积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至