大模型金融能力评价基准梳理

提问时间：2025/07/17
浏览次数：120
提问者：匿名用户
举报
分享微信 QQ 微博

大模型金融能力评价基准梳理

标签

大模型
金融能力

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/07/17 10:38

当前其实已经推出了多种用于评估大模型在金融领域能力的基准测试，涵盖不同任务类型和语言环境。以下我们整理了几个主流的金融领域基准，包括 FinanceBench、FinBen、SuperCLUE-Fin 等，试图探究如何构建一个可以有效评价大模型金融能力的评价基准。

FinanceBench 专注于开放金融问答（Open-book QA）。它包含关于上市公司的事实性问题，需要模型在提供的财务文档证据中查找答案。问题场景多样且贴近真实金融业务，但题目设计为明确且单一答案，作为金融问答的最低能力要求。例如，模型可能被问及某公司年报中的特定财务指标值或事项，需从 10-K 等报告中提取答案。

FinanceBench 当前收集了 10,231 道金融问答，每问都附有标准答案和出处证据。问题主要基于真实公开财报等金融文件（如美国上市公司 10-K 年报），确保问题的生态有效性。作为开放版本，官方公开了其中 150 个标注样例及相关 PDF 文档。在评估指标方面，模型需要给出准确且有依据的答案。FinanceBench 评估侧重于答案准确率和引用依据正确性。在论文测试中，研究者对模型作答进行了人工判定：统计正确回答率、错误回答率以及拒答情况。例如，GPT-4 (搭配检索)在150 问样本中有高达 81%的问题回答错误或拒答，说明现有 LLM 在金融问答上正确率仍偏低。此外，还观察模型是否产生不实信息（幻觉）或不当拒答。因此评估指标主要是人工审核的准确率，辅以对错误类型（幻觉率等）的分析。 FinanceBench 设计用于评估各类大语言模型在读取长财务文档并回答问题方面的能力，包括类 ChatGPT 的对话模型以及传统 Transformer 架构的模型。论文中测试了 16 种主流模型配置，涵盖 OpenAI GPT-4 Turbo、Anthropic Claude2、 Llama2 等开源模型，部分还结合向量检索工具或长上下文窗口以处理长篇幅财报。这表明无论是封闭源的 API 模型还是开源的金融大模型，都可以通过提供检索证据或扩展上下文来参与评测。

FinBen 是一个全面的金融领域评估基准，涵盖多达 24 种金融任务。这些任务分属七大能力方面，包括：信息抽取（如金融命名实体识别、关系抽取）、文本分析（如情感分类、新闻主题分类）、问答（金融知识问答、阅读理解）、文本生成（如财报摘要、生成人工分析报告）、风险管理（如欺诈检测、信用风险评估）、预测（如股票走势或指标预测）以及决策制定（如交易决策、投资组合生成等）。举例来说，FinBen 既包含结构化数据任务（如从公告中抽取财务指标），也有生成任务（如根据财务数据写分析报告）和决策任务（如模拟交易策略）。这种任务覆盖面远超以往单一任务的数据集。

FinBen 汇总并新构建了 36 个数据集（开源版本约 35 个）横跨上述任务，共计数万条数据。数据来源多样，既整合了现有公开金融数据集，又新增了三个由团队标注的数据集，分别用于金融文本摘要、金融问答和股票交易决策评估。这些数据多数来自真实世界金融资料，如年报公告、财经新闻、交易数据等，并经过统一格式整理和难度标注。FinBen 还引入了股票交易模拟评测，通过历史数据构建交易决策场景，是首个将自动交易能力纳入 LLM 评估的数据集。所有数据和任务说明均已开放获取，方便研究者直接使用。由于 FinBen 包含多种任务，它采用各任务各自适合的评价指标，并提供整体评估结果。例如，对于分类、信息抽取等任务，多使用准确率、精确率/召回率、F1 分数等；对于生成任务如摘要和报告，则采用 ROUGE、BLEU 等度量文本与参考答案的接近程度。股票交易任务则可能根据收益率或预测准确率评估模型决策质量。此外，FinBen 设计了统一的综合评分机制：将各任务得分归一后计算模型总体得分。例如，在零样本下 GPT-4 的总体得分仅约 32.37%，其余模型普遍低于30%，反映出任务整体难度较高。评测还记录模型在不同能力维度上的强弱：例如 GPT-4 在信息抽取、数值推理和股票交易上表现领先，而在复杂生成和预测任务上依然欠缺。 FinBen 适用于评测各类大模型，包括通用 LLM 和经过金融领域微调的模型。官方评估了 15 个具有代表性的模型，既有闭源 API（如 GPT-4、ChatGPT）也有开源模型（如 Llama2 系列）、以及中国最新的大模型（如提到的 Gemini 等）。同时，FinBen 还鼓励检索增强型(RAG)模型和金融智能体进行测试，提供了针对检索+LLM 和多步决策代理的评估方案。因此，无论是 ChatGPT 这类对话模型，还是传统 Transformer 架构模型，都可以通过适当 Prompt 或插件支持参与 FinBen 评测。许多模型在不同任务上的表现揭示了各自优势领域（如 GPT-4 擅长定量分析，Gemini 在生成和预测更优）和薄弱环节。

参考报告

金融工程行业专题报告：基于大模型外部评价体系框架介绍.pdf

金融工程行业专题报告：基于大模型外部评价体系框架介绍。构建评价大模型金融问答能力的基准：为系统性地评估大模型在金融领域的专业问答能力，本报告首先梳理了现有通用及金融领域评价基准的特点与不足。在此基础上，我们构建了一个全新的、专注于逻辑推理的金融问答能力评价基准。该基准围绕金融相关的计算、财务报表分析、权益投资等九大核心类别，构建了包含188道高质量单项选择题的题库。每道题目附带了平衡了客观性与代表性的、可验证的推理过程（思维链），旨在深入考察模型的逻辑推理与专业知识应用能力。评测实验：为检验模型的实际表现，我们设计了全面的评测实验。实验选取了DeepSeek、混元、Qwen、GLM等国内主流大...

查看详情

大模型金融能力评价基准梳理

金融工程行业专题报告：基于大模型外部评价体系框架介绍.pdf

海内外大模型落地进展如何？

未来大模型的发展方向是什么？

大模型产业发展与企业应用情况如何？

海内外基础大模型发展趋势及技术展望分析

字节大模型核心亮点在哪？

国内大模型瓶颈及商业化难点在哪？

大模型产业链投资机遇在哪？

大模型金融能力评价基准梳理

海内外大模型厂商产品迭代方向和下游应用趋势分析

大模型技术路线、创新与改进分析

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王