2025年金融工程行业专题报告：基于大模型外部评价指标体系框架介绍

来源：中邮证券
发布时间：2025/07/07
浏览次数：171
举报

相关深度报告REPORTS

金融工程行业专题报告：基于大模型外部评价指标体系框架介绍.pdf

金融工程行业专题报告：基于大模型外部评价指标体系框架介绍。构建评价大模型金融问答能力的基准：为系统性地评估大模型在金融领域的专业问答能力，本报告首先梳理了现有通用及金融领域评价基准的特点与不足。在此基础上，我们构建了一个全新的、专注于逻辑推理的金融问答能力评价基准。该基准围绕金融相关的计算、财务报表分析、权益投资等九大核心类别，构建了包含188道高质量单项选择题的题库。每道题目附带了平衡了客观性与代表性的、可验证的推理过程（思维链），旨在深入考察模型的逻辑推理与专业知识应用能力。评测实验：为检验模型的实际表现，我们设计了全面的评测实验。实验选取了DeepSeek、混元、Qwen、GLM等国内主...

1 大模型评价基准

1.1 主流大模型能力评估基准综述

近年来，随着越来越多的公司推出大模型，不同模型之间的侧重点越来越细分，模型评价与筛选越来越成为一个重要的工作。

以 OpenAI 公司的 ChatGPT 系列为例，截至目前OpenAI 将旗下模型分为：推理模型、旗舰模型、成本优化模型、实时模型、图片生成模型、文生语音模型、语音转录模型、特定工具模型、Embedding 模型、适度微调模型、较早前模型。除去特定场景使用模型，仅考虑推理模型、旗舰模型、成本优化模型三类模型，现阶段就有 17 个模型可供选择。在如此之多的选择下，如何在合理评价的基础上选择合适的模型已成为必不可少的环节。

而客观、量化的评价大模型离不开大模型评价基准（benchmark）。没有明确的评价标准时，选择模型通常依靠直觉或厂商宣传，容易误选不适合自身需求的模型；与此同时，在众多企业都追求大模型本地化的当下，大模型的部署和维护成本通常较高，盲目选择可能导致资源浪费。我们常见的大模型评价基准可以按能力维度进行分类，包括：代码能力、数学与逻辑推理能力、指令遵循能力、工具/函数调用能力以及通用知识与多任务推理能力。

1.2 常见大模型评价基准

LiveCodeBench：综合代码能力评测

LiveCodeBench 是由 UC Berkeley、MIT 等机构提出的一个综合且无数据污染的代码能力评测基准。它持续收集最新的编程竞赛问题，并设计多种场景测试代码相关的不同能力。LiveCodeBench 不仅包含传统的代码生成（根据问题描述生成正确工作的代码），还扩展到代码自我修复（模型对自己生成的错误代码进行调试修改）、代码执行（预测代码运行的结果）、测试输出预测（根据代码和输入推测单元测试的输出）等多方面。这使评测更全面，反映真实编程场景中的多种需求。截至 2025 年 4 月，LiveCodeBench（release_v6）已收录了1055道高质量编程题目。这些题目来自 LeetCode、AtCoder、Codeforces 三大竞赛平台，每道题都有明确的问题描述和对应的参考解答/测试，用于自动评估代码正确性。题目难度覆盖简单到高难，能够区分不同水平模型的性能。基准允许按题目发布日期筛选，以评估模型在训练截止后出现的新题上的泛化能力，从而检测训练数据泄漏（污染）情况。在评分过程中，LiveCodeBench 采取 Pass@K 打分模式，即根据模型在K次尝试中是否能够至少有一次成功给出正确的解答来计算，具体步骤为：1. 模型生成代码：模型针对同一个任务多次生成代码。2. 运行代码并评测结果：执行每次生成的代码并对其进行评测。3. 计算 Pass@k：根据在前 k 次生成的代码是否成功，通过标准单元测试来判断 Pass@k。 LiveCodeBench 还会进行思维链评估，部分任务要求模型输出推理步骤（Chain-of-Thought），再生成代码，以检验逻辑严谨性。

AIME：数学与逻辑推理能力评估基准

数学问题评测可考查模型的多步推理、定量计算和逻辑思维能力，通常通过提出需要推导过程才能得出结果的题目。AIME 全称为American InvitationalMathematics Examination（美国数学邀请赛），由于题目难度高、形式严谨，AIME近年来被广泛用于评估 LLM 的数学推理能力。

AIME 的问题涉及各类高中奥林匹克数学领域，包括代数、几何、组合数学、数论等高级数学知识和巧妙解题技巧，要求模型输出0-999 范围内的整数答案。数据集包含 30 道竞赛级数学题，题目难度呈梯度分布：前5 题对应AMC12中等难度水平；中段题目需要综合应用多个数学领域知识；后5 题达到国际数学奥林匹克（IMO）预选题难度。

对于 AIME 这类填空题，评测只需将模型最终答案与标准答案比对即可。由于答案是整数，准确匹配即可计分。评测可自动完成，无需人工判断。值得注意的是，模型在 AIME 题上很容易出错在推理中途。为了提高准确率，评测者有时会让模型生成多个答案尝试（如所谓的 pass@k 指标）。还有研究使用投票验证或链式思维技术提升模型表现。OpenAI 等机构报告显示，即使最强模型GPT-4，在未特殊训练下 AIME 题的正确率也远低于人类满分水平，但借助特殊技巧可逐步提升。

BFCL：函数与工具调用能力评测

BFCL（Berkeley Function-Calling Leaderboard）基准是由UCBerkeleyGorilla 团队开发的大模型评价基准，旨在系统评估LLM 在函数调用场景下的表现，被认为是首个全面测试模型工具使用能力的基准。目前是AI 智能体（AIAgent）领域最具影响力的评测基准之一。

2 大模型金融能力评价基准

可以看出，目前常见的基准偏向于考察大模型的逻辑、数学、代码能力，以及在智能体构建过程中需要使用到的能力。我们可以发现，评价大模型金融能力的基准并不如数学、编程领域常见，这与金融领域的特殊性相关：1）金融任务往往包含主观性、上下文依赖强、模糊空间大；2）金融数据涉及隐私、合规和实时性，不能像医学题库或代码题库一样开源发布；3）金融任务覆盖面太广：从企业财报分析、风控建模、客户推荐、合规审查，到交易指令生成，每个任务模型能力需求都不同，难以统一评价框架；4）如果模型错误生成金融建议，可能涉及法律风险（如误导投资者），这使得机构对相关benchmark 开放性更谨慎。

但若要想将大模型应用于金融领域，相应的评价基准是必不可少的工具。当前其实已经推出了多种用于评估大模型在金融领域能力的基准测试，涵盖不同任务类型和语言环境。以下我们整理了几个主流的金融领域基准，包括FinanceBench、FinBen、SuperCLUE-Fin 等，试图探究如何构建一个可以有效评价大模型金融能力的评价基准。

2.1 FinanceBench

FinanceBench 专注于开放金融问答（Open-book QA）。它包含关于上市公司的事实性问题，需要模型在提供的财务文档证据中查找答案。问题场景多样且贴近真实金融业务，但题目设计为明确且单一答案，作为金融问答的最低能力要求。例如，模型可能被问及某公司年报中的特定财务指标值或事项，需从10-K等报告中提取答案。

FinanceBench 当前收集了 10,231 道金融问答，每问都附有标准答案和出处证据。问题主要基于真实公开财报等金融文件（如美国上市公司10-K 年报），确保问题的生态有效性。作为开放版本，官方公开了其中 150 个标注样例及相关PDF文档。

在评估指标方面，模型需要给出准确且有依据的答案。FinanceBench评估侧重于答案准确率和引用依据正确性。在论文测试中，研究者对模型作答进行了人工判定：统计正确回答率、错误回答率以及拒答情况。例如，GPT-4 (搭配检索)在150 问样本中有高达 81%的问题回答错误或拒答，说明现有LLM 在金融问答上正确率仍偏低。此外，还观察模型是否产生不实信息（幻觉）或不当拒答。因此评估指标主要是人工审核的准确率，辅以对错误类型（幻觉率等）的分析。FinanceBench 设计用于评估各类大语言模型在读取长财务文档并回答问题方面的能力，包括类 ChatGPT 的对话模型以及传统 Transformer 架构的模型。论文中测试了 16 种主流模型配置，涵盖 OpenAI GPT-4 Turbo、Anthropic Claude2、Llama2等开源模型，部分还结合向量检索工具或长上下文窗口以处理长篇幅财报。这表明无论是封闭源的 API 模型还是开源的金融大模型，都可以通过提供检索证据或扩展上下文来参与评测。

2.2 FinBen

FinBen 是一个全面的金融领域评估基准，涵盖多达24 种金融任务。这些任务分属七大能力方面，包括：信息抽取（如金融命名实体识别、关系抽取）、文本分析（如情感分类、新闻主题分类）、问答（金融知识问答、阅读理解）、文本生成（如财报摘要、生成人工分析报告）、风险管理（如欺诈检测、信用风险评估）、预测（如股票走势或指标预测）以及决策制定（如交易决策、投资组合生成等）。举例来说，FinBen 既包含结构化数据任务（如从公告中抽取财务指标），也有生成任务（如根据财务数据写分析报告）和决策任务（如模拟交易策略）。这种任务覆盖面远超以往单一任务的数据集。

FinBen 汇总并新构建了 36 个数据集（开源版本约35 个）横跨上述任务，共计数万条数据。数据来源多样，既整合了现有公开金融数据集，又新增了三个由团队标注的数据集，分别用于金融文本摘要、金融问答和股票交易决策评估。这些数据多数来自真实世界金融资料，如年报公告、财经新闻、交易数据等，并经过统一格式整理和难度标注。FinBen 还引入了股票交易模拟评测，通过历史数据构建交易决策场景，是首个将自动交易能力纳入LLM 评估的数据集。所有数据和任务说明均已开放获取，方便研究者直接使用。由于 FinBen 包含多种任务，它采用各任务各自适合的评价指标，并提供整体评估结果。例如，对于分类、信息抽取等任务，多使用准确率、精确率/召回率、F1 分数等；对于生成任务如摘要和报告，则采用ROUGE、BLEU 等度量文本与参考答案的接近程度。股票交易任务则可能根据收益率或预测准确率评估模型决策质量。此外，FinBen 设计了统一的综合评分机制：将各任务得分归一后计算模型总体得分。例如，在零样本下 GPT-4 的总体得分仅约32.37%，其余模型普遍低于 30%，反映出任务整体难度较高。评测还记录模型在不同能力维度上的强弱：例如 GPT-4 在信息抽取、数值推理和股票交易上表现领先，而在复杂生成和预测任务上依然欠缺。 FinBen 适用于评测各类大模型，包括通用 LLM 和经过金融领域微调的模型。官方评估了 15 个具有代表性的模型，既有闭源API（如GPT-4、ChatGPT）也有开源模型（如 Llama2 系列）、以及中国最新的大模型（如提到的Gemini等）。同时，FinBen 还鼓励检索增强型(RAG)模型和金融智能体进行测试，提供了针对检索+LLM 和多步决策代理的评估方案。因此，无论是ChatGPT 这类对话模型，还是传统Transformer架构模型，都可以通过适当Prompt或插件支持参与FinBen评测。许多模型在不同任务上的表现揭示了各自优势领域（如GPT-4 擅长定量分析，Gemini 在生成和预测更优）和薄弱环节。

3 大模型金融能力评价基准构建

我们可以看到，大模型在金融领域所涉及的能力还是多种多样的，包括信息提取（Information Extraction）、文本生成（Text Generation）、文本分析（Textual Analysis）、金融问题解答（Question Answering）、风险管理（RiskManagement）、预测能力（Forecasting）、决策制定（Decision-making）。其中，信息提取、文本生成、文本分析等能力更接近于大模型通用能力范畴，也已有相应的基准用于衡量大模型在该领域的表现；而风险管理、预测能力以及决策制定，更偏向于在特定场景下进行二次开发后大模型所拥有的能力。因此，在大模型层面，最值得关注的便是金融问题解答能力。而金融问题解答又可以分为两种，一种是较为简单，相应知识内容在公开资料中均可查询，只需要进行搜索与匹配就可以回答的问题；另一种是需要在底层知识的基础上，进行推理才可以得到答案的问题。我们认为第一种问题并不能体现出大模型在金融领域的能力，因此在题目选择上我们倾向于选择需要逻辑与推理才能得到答案的问题。我们试图构建一个可以评价大模型金融问题解答能力的基准，来测试大模型在该基准上的表现情况。在构建之前我们需要明确题目选择的原则。金融领域的知识与内容浩如烟海，以权益基本面研究为例：不同的行业有不同的研究方法论，科技行业与医药行业的方法论就不能通用；不同的股票和不同的股票也有不同的估值逻辑，有些行业中个股之间的估值逻辑较为相似，有些行业中哪怕是相同细分行业的个股和个股之间都可能差异巨大。最理想的情况是，大模型学会了所有细枝末节的框架与方法论，那么在考察大模型相应能力时就可以按照考察相应行业研究员的难度进行考察。但目前来看在金融领域大模型并无法做到该水准，尚且不论很多细节的研究还是变动的，不是一成不变的。因此在题目选择上，需要兼顾题目的代表性与客观性：既不能选择太宽泛，相关答案不需要推理在网上就能找到答案的题目，也不能选择太过于专业的知识内容（比如医药行业翻石头型研究某个股的估值逻辑）。除此之外，我们还要保证所出的题目不能存在较大的异议与疑点，答案是清晰且唯一的。由于我们想要考察的是大模型在带有推理需要的金融问题解答中的能力，因此题目中的推理逻辑需要具有可验证性，也就是每一道题目的推理都需要有清晰的逻辑支撑。因此，我们对于题目的选择需要满足以下四条条件：1）客观性，2）答案唯一性，3）可验证性，4）代表性。在以上的基础上，该基准构建的过程主要分为以下两个部分：分别是题目选择和架构搭建。

4 实验设计

在构建了题库文件后，我们需要在该题库上对大模型进行推理检验。

4.1 实验场景

我们一共设计了四个实验场景，分别是： 1. 基准场景：通过提示词将问题直接喂给大模型，大模型按要求返回答案，进行评测比对。 2. 思维链（CoT）场景：在提示词中加入思维链或推理指引/线索，思维链语料来源于“Solution”字段。 3. 样本提示（few-shot）场景：用多轮对话进行少样本提示4. 样本提示+思维链场景：同时使用样本提示与思维链。

4.2 数据集构建

为了进行样本提示，防止测试集数据泄露，应将整个数据集划分为测试集和样本提示集。由于每个类别下的题目个数不同，因此我们选择在每个类别下抽取8 道题目作为样本提示集，因此将得到：样本提示集：72 道题目；测试集：116 道题目。

4.3 模型选择

本实验主要测试现有国产大模型，包括： DeepSeek-R1 、 DeepSeek-V3 、 HUNYUAN-T1 、Qwen-max、DouBAO-seed-1.6-thinking、GLM-4-plus。

4.4 评测指标

选择现在较为主流的准确率指标和 Pass@K 评测指标。准确率指标较为直白，假设每道题的权重是相等的，将大模型答对的题目数量比上测试总数量，即可获得对应的准确率指标。而 Pass@K 指标最早是一个用来评估大模型代码生成（或其他生成任务）能力的指标。它的核心思想是：“如果模型生成 k 个不同的解决方案，其中至少有一个是正确的，那么我们就认为模型通过了这次测试。”这个指标源于Google发布的著名代码评测集 HumanEval 的论文《Evaluating Large LanguageModelsTrained on Code》。现在越来越多的评测基准引入 Pass@K 用于对大模型进行评价，一个重要原因是大模型的输出存在不确定性，即使是同一个问题，模型在不同的生成轮次中也可能产生完全不同的结果（与温度 temperature 采样有关），因此Pass@k提供了一个更宽容、更实际的评估视角来考察模型的“潜在能力”。Pass@K 指标的计算其实就是计算：对于单个问题，生成n 个独立的样本，其中有 c 个是正确的。现在我们想知道，如果我们只从中随机抽取k 个样本（k<=n），那么这 k 个样本中至少有一个是正确的概率是多少？

4.5 日志文件生成

由于推理大模型会输出自己的推理逻辑，因此我们想要记录下大模型做错的题，并研究大模型在这些题目中推理的逻辑与正确逻辑之间的差异。每个实验均保留对应的日志文件，日志文件会记录错题类型、错题题目、预测选项、正确选项、模型推理以及截至当时的正确率。

5 实验结论

5.1 对比实验

从实验结果来看，参与测试的大模型基准能力并不差，其中DeepSeek-R1和豆包旗下的 seed-1.6-thinking，在基准测试中就获得了79.31%的正确率，这两款以推理出名的大模型展现出了他们的实力。但同时该两款模型也是测试的6款模型中推理时间最久的，相比最快的 Qwen-max 模型时间消耗超过100%。Qwen-max初始准确率最低，但在提示词工程方法帮助下也有82.76%的准确率。除此之外我们还可以发现，使用思维链后模型的准确率均有显著的提升，提升最大的 GLM 模型准确率提升超过了 15%，由于题库内题目的思维链/逻辑线索均由人工标注，因此我们认为数据质量较高的逻辑线索对于大模型回答金融领域问题有显著帮助。作为对比我们可以看到，样本提示对于模型准确率的提升帮助不大，甚至在DeepSeek-R1 模型上出现了跑输基准的情况。这种情况我们认为主要原因是，样本提示的样例不够具有代表性。在实验设计过程中，我们将题目分为9类，但是每一类题目中又有很多细分的赛道，若要想利用样本提示的方法提升大模型在相应的题目上的准确性，必须要足够相似的样本作为提示才足以提供帮助。我们依然认为样本提示是大模型领域最好用的提示词工程方法，只不过需要较高质量的样例筛选与数据处理。最后思维链+样本提示组的表现较为一致：模型初始能力较差的，在此情况下提升较大，模型初始能力较强的提升反而较小。

5.2 不同类别题目对比

大模型在金融相关的计算、投资组合管理、另类投资三个类别中普遍得分较高，反之在经济学和财务报表分析类别中表现较差，6款参与评测的大模型在这两个类别中的平均得分分别为63.64%和63.58%。

5.3 Pass@K 评价标准

我们选择了 temperature=0.8，试图引入一些随机性与波动性，避免了 temperature=0 时输出结果的一成不变。从结果看，Pass@K 指标与准确率指标结论一致的是，样本提示的增益效果并不如思维链，思维链情境下Pass@3概率达到 0.8922。同时我们可以发现，Pass@1 是一种比较严格的评价标准，四种情景下的Pass@1 值均是 0.5~0.6 左右区间内。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）