金融工程行业专题报告：基于大模型外部评价体系框架介绍.pdf

上传者：9*****
时间：2025/07/01
热度：114
0人点赞
举报

金融工程行业专题报告：基于大模型外部评价体系框架介绍。构建评价大模型金融问答能力的基准： 为系统性地评估大模型在金融领域的专业问答能力，本报告首先梳理了现有通用及金融领域评价基准的特点与不足。在此基础上，我们构建了一个全新的、专注于逻辑推理的金融问答能力评价基准。该基准围绕金融相关的计算、财务报表分析、权益投资等九大核心类别，构建了包含 188 道高质量单项选择题的题库。每道题目附带了平衡了客观性与代表性的、可验证的推理过程（思维链），旨在深入考察模型的逻辑推理与专业知识应用能力。

评测实验： 为检验模型的实际表现，我们设计了全面的评测实验。实验选取了 DeepSeek、混元、Qwen、GLM 等国内主流大模型，并在基准（zeroshot）、思维链（CoT）、少样本提示（few-shot）以及二者结合共四种场景下进行测试。我们采用准确率和Pass@K作为核心量化评价指标，并对模型的错误案例进行了深入的定性分析，以全面评估其在不同提示工程策略下的性能表现。

实验结果与核心结论： 实验结果表明，主流国产大模型已具备一定的金融问答基础能力，但表现存在差异，且在处理复杂问题时仍有较大提升空间。其中，思维链提示（CoT）对所有模型的准确率均有显著提升（最高超过 15%），证明了提供高质量逻辑线索在引导模型解决复杂金融问题上的关键作用。相比之下，简单的少样本提示效果有限。错误分析进一步揭示，模型在处理概念相近、存在逻辑陷阱的题目时容易出现理解偏差。