大模型金融能力评价基准梳理

大模型金融能力评价基准梳理

最佳答案 匿名用户编辑于2025/07/17 10:38

当 前其实已经推出了多种用于评估大模型在金融领域能力的基准测试,涵盖不同任 务类型和语言环境。以下我们整理了几个主流的金融领域基准,包括 FinanceBench、FinBen、SuperCLUE-Fin 等,试图探究如何构建一个可以有效评 价大模型金融能力的评价基准。

FinanceBench 专注于开放金融问答(Open-book QA)。它包含关于上市公司 的事实性问题,需要模型在提供的财务文档证据中查找答案。问题场景多样且贴 近真实金融业务,但题目设计为明确且单一答案,作为金融问答的最低能力要求。 例如,模型可能被问及某公司年报中的特定财务指标值或事项,需从 10-K 等报 告中提取答案。

FinanceBench 当前收集了 10,231 道金融问答,每问都附有标准答案和出处证 据。问题主要基于真实公开财报等金融文件(如美国上市公司 10-K 年报),确保问题的生态有效性。作为开放版本,官方公开了其中 150 个标注样例及相关 PDF 文 档。 在评估指标方面,模型需要给出准确且有依据的答案。FinanceBench 评估侧 重于答案准确率和引用依据正确性。在论文测试中,研究者对模型作答进行了人工 判定:统计正确回答率、错误回答率以及拒答情况。例如,GPT-4 (搭配检索)在150 问样本中有高达 81%的问题回答错误或拒答,说明现有 LLM 在金融问答上正确率仍 偏低。此外,还观察模型是否产生不实信息(幻觉)或不当拒答。因此评估指标主 要是人工审核的准确率,辅以对错误类型(幻觉率等)的分析。 FinanceBench 设计用于评估各类大语言模型在读取长财务文档并回答问题方 面的能力,包括类 ChatGPT 的对话模型以及传统 Transformer 架构的模型。论文 中测试了 16 种主流模型配置,涵盖 OpenAI GPT-4 Turbo、Anthropic Claude2、 Llama2 等开源模型,部分还结合向量检索工具或长上下文窗口以处理长篇幅财报。 这表明无论是封闭源的 API 模型还是开源的金融大模型,都可以通过提供检索证 据或扩展上下文来参与评测。

FinBen 是一个全面的金融领域评估基准,涵盖多达 24 种金融任务。这些任 务分属七大能力方面,包括:信息抽取(如金融命名实体识别、关系抽取)、文本 分析(如情感分类、新闻主题分类)、问答(金融知识问答、阅读理解)、文本生 成(如财报摘要、生成人工分析报告)、风险管理(如欺诈检测、信用风险评估)、 预测(如股票走势或指标预测)以及决策制定(如交易决策、投资组合生成等)。 举例来说,FinBen 既包含结构化数据任务(如从公告中抽取财务指标),也有生 成任务(如根据财务数据写分析报告)和决策任务(如模拟交易策略)。这种任 务覆盖面远超以往单一任务的数据集。

FinBen 汇总并新构建了 36 个数据集(开源版本约 35 个)横跨上述任务, 共计数万条数据。数据来源多样,既整合了现有公开金融数据集,又新增了三个 由团队标注的数据集,分别用于金融文本摘要、金融问答和股票交易决策评估。 这些数据多数来自真实世界金融资料,如年报公告、财经新闻、交易数据等,并 经过统一格式整理和难度标注。FinBen 还引入了股票交易模拟评测,通过历史 数据构建交易决策场景,是首个将自动交易能力纳入 LLM 评估的数据集。所有数 据和任务说明均已开放获取,方便研究者直接使用。 由于 FinBen 包含多种任务,它采用各任务各自适合的评价指标,并提供整 体评估结果。例如,对于分类、信息抽取等任务,多使用准确率、精确率/召回 率、F1 分数等;对于生成任务如摘要和报告,则采用 ROUGE、BLEU 等度量文本与 参考答案的接近程度。股票交易任务则可能根据收益率或预测准确率评估模型决策质量。此外,FinBen 设计了统一的综合评分机制:将各任务得分归一后计算模 型总体得分。例如,在零样本下 GPT-4 的总体得分仅约 32.37%,其余模型普遍 低于30%,反映出任务整体难度较高。评测还记录模型在不同能力维度上的强弱: 例如 GPT-4 在信息抽取、数值推理和股票交易上表现领先,而在复杂生成和预测 任务上依然欠缺。 FinBen 适用于评测各类大模型,包括通用 LLM 和经过金融领域微调的模型。 官方评估了 15 个具有代表性的模型,既有闭源 API(如 GPT-4、ChatGPT)也有 开源模型(如 Llama2 系列)、以及中国最新的大模型(如提到的 Gemini 等)。同 时,FinBen 还鼓励检索增强型(RAG)模型和金融智能体进行测试,提供了针对检 索+LLM 和多步决策代理的评估方案。因此,无论是 ChatGPT 这类对话模型,还 是传统 Transformer 架构模型,都可以通过适当 Prompt 或插件支持参与 FinBen 评测。许多模型在不同任务上的表现揭示了各自优势领域(如 GPT-4 擅长定量分 析,Gemini 在生成和预测更优)和薄弱环节。

参考报告

金融工程行业专题报告:基于大模型外部评价体系框架介绍.pdf

金融工程行业专题报告:基于大模型外部评价体系框架介绍。构建评价大模型金融问答能力的基准:为系统性地评估大模型在金融领域的专业问答能力,本报告首先梳理了现有通用及金融领域评价基准的特点与不足。在此基础上,我们构建了一个全新的、专注于逻辑推理的金融问答能力评价基准。该基准围绕金融相关的计算、财务报表分析、权益投资等九大核心类别,构建了包含188道高质量单项选择题的题库。每道题目附带了平衡了客观性与代表性的、可验证的推理过程(思维链),旨在深入考察模型的逻辑推理与专业知识应用能力。评测实验:为检验模型的实际表现,我们设计了全面的评测实验。实验选取了DeepSeek、混元、Qwen、GLM等国内主流大...

查看详情
相关报告
我来回答