2025年金融工程行业专题报告:基于大模型外部评价体系框架介绍
- 来源:中邮证券
- 发布时间:2025/07/04
- 浏览次数:106
- 举报
金融工程行业专题报告:基于大模型外部评价指标体系框架介绍.pdf
金融工程行业专题报告:基于大模型外部评价指标体系框架介绍。构建评价大模型金融问答能力的基准:为系统性地评估大模型在金融领域的专业问答能力,本报告首先梳理了现有通用及金融领域评价基准的特点与不足。在此基础上,我们构建了一个全新的、专注于逻辑推理的金融问答能力评价基准。该基准围绕金融相关的计算、财务报表分析、权益投资等九大核心类别,构建了包含188道高质量单项选择题的题库。每道题目附带了平衡了客观性与代表性的、可验证的推理过程(思维链),旨在深入考察模型的逻辑推理与专业知识应用能力。评测实验:为检验模型的实际表现,我们设计了全面的评测实验。实验选取了DeepSeek、混元、Qwen、GLM等国内主...
1 大模型评价基准
1.1 主流大模型能力评估基准综述
近年来,随着越来越多的公司推出大模型,不同模型之间的侧重点越来越细 分,模型评价与筛选越来越成为一个重要的工作。
以 OpenAI 公司的 ChatGPT 系列为例,截至目前 OpenAI 将旗下模型分为:推 理模型、旗舰模型、成本优化模型、实时模型、图片生成模型、文生语音模型、 语音转录模型、特定工具模型、Embedding 模型、适度微调模型、较早前模型。 除去特定场景使用模型,仅考虑推理模型、旗舰模型、成本优化模型三类模型, 现阶段就有 17 个模型可供选择。在如此之多的选择下,如何在合理评价的基础 上选择合适的模型已成为必不可少的环节。

而客观、量化的评价大模型离不开大模型评价基准(benchmark)。没有明确 的评价标准时,选择模型通常依靠直觉或厂商宣传,容易误选不适合自身需求的 模型;与此同时,在众多企业都追求大模型本地化的当下,大模型的部署和维护 成本通常较高,盲目选择可能导致资源浪费。 我们常见的大模型评价基准可以按能力维度进行分类,包括:代码能力、数 学与逻辑推理能力、指令遵循能力、工具/函数调用能力以及通用知识与多任务 推理能力。
1.2 常见大模型评价基准
LiveCodeBench:综合代码能力评测
LiveCodeBench 是由 UC Berkeley、MIT 等机构提出的一个综合且无数据污 染的代码能力评测基准。它持续收集最新的编程竞赛问题,并设计多种场景测试 代码相关的不同能力。LiveCodeBench 不仅包含传统的代码生成(根据问题描述 生成正确工作的代码),还扩展到代码自我修复(模型对自己生成的错误代码进 行调试修改)、代码执行(预测代码运行的结果)、测试输出预测(根据代码和输 入推测单元测试的输出)等多方面。这使评测更全面,反映真实编程场景中的多 种需求。 截至 2025 年 4 月,LiveCodeBench(release_v6)已收录了 1055 道高质量 编程题目。这些题目来自 LeetCode、AtCoder、Codeforces 三大竞赛平台,每道题都有明确的问题描述和对应的参考解答/测试,用于自动评估代码正确性。 题目难度覆盖简单到高难,能够区分不同水平模型的性能。基准允许按题目发布 日期筛选,以评估模型在训练截止后出现的新题上的泛化能力,从而检测训练数 据泄漏(污染)情况。 在评分过程中,LiveCodeBench 采取 Pass@K 打分模式,即根据模型在 K 次 尝试中是否能够至少有一次成功给出正确的解答来计算,具体步骤为: 1. 模型生成代码:模型针对同一个任务多次生成代码。 2. 运行代码并评测结果:执行每次生成的代码并对其进行评测。 3. 计算 Pass@k:根据在前 k 次生成的代码是否成功,通过标准单元测试 来判断 Pass@k。 LiveCodeBench 还会进行思维链评估,部分任务要求模型输出推理步骤 (Chain-of-Thought),再生成代码,以检验逻辑严谨性。
AIME:数学与逻辑推理能力评估基准
数学问题评测可考查模型的多步推理、定量计算和逻辑思维能力,通常通过 提出需要推导过程才能得出结果的题目。AIME 全称为 American Invitational Mathematics Examination(美国数学邀请赛),由于题目难度高、形式严谨,AIME 近年来被广泛用于评估 LLM 的数学推理能力。
AIME 的问题涉及各类高中奥林匹克数学领域,包括代数、几何、组合数学、 数论等高级数学知识和巧妙解题技巧,要求模型输出 0-999 范围内的整数答案。 数据集包含 30 道竞赛级数学题,题目难度呈梯度分布:前 5 题对应 AMC12 中等 难度水平;中段题目需要综合应用多个数学领域知识;后 5 题达到国际数学奥林 匹克(IMO)预选题难度。
对于 AIME 这类填空题,评测只需将模型最终答案与标准答案比对即可。由 于答案是整数,准确匹配即可计分。评测可自动完成,无需人工判断。值得注意 的是,模型在 AIME 题上很容易出错在推理中途。为了提高准确率,评测者有时 会让模型生成多个答案尝试(如所谓的 pass@k 指标)。还有研究使用投票验证或 链式思维技术提升模型表现。OpenAI 等机构报告显示,即使最强模型 GPT-4,在 未特殊训练下 AIME 题的正确率也远低于人类满分水平,但借助特殊技巧可逐步 提升。
BFCL:函数与工具调用能力评测
BFCL(Berkeley Function-Calling Leaderboard)基准是由 UC Berkeley Gorilla 团队开发的大模型评价基准,旨在系统评估 LLM 在函数调用场景下的表 现,被认为是首个全面测试模型工具使用能力的基准。目前是AI智能体(AI Agent) 领域最具影响力的评测基准之一。
函数调用(Function-Calling)是大模型到智能体发展路径中必不可少的工 具,一般大模型进行函数调用的步骤为: Step 1:用户提示词:由用户输入提示词。 Step 2: 大模型任务处理:大模型会对提示词和目标进行分析与确 认,一般包含两个部分: a. 从提前定义好的工具/函数库中确定要使用的工具/函数; b. 选择在调用函数过程中应该使用的参数。 Step 3: 大模型输出:大模型生成生成机器可读的 JSON 格式调用 指令,指导如何调用函数。 Step 4: 函数执行与反馈:外部系统执行该函数并返回结果。
2 大模型金融能力评价基准
可以看出,目前常见的基准偏向于考察大模型的逻辑、数学、代码能力,以 及在智能体构建过程中需要使用到的能力。我们可以发现,评价大模型金融能力 的基准并不如数学、编程领域常见,这与金融领域的特殊性相关:1)金融任务 往往包含主观性、上下文依赖强、模糊空间大;2)金融数据涉及隐私、合规和实 时性,不能像医学题库或代码题库一样开源发布;3)金融任务覆盖面太广:从 企业财报分析、风控建模、客户推荐、合规审查,到交易指令生成,每个任务模 型能力需求都不同,难以统一评价框架;4)如果模型错误生成金融建议,可能 涉及法律风险(如误导投资者),这使得机构对相关 benchmark 开放性更谨慎。

但若要想将大模型应用于金融领域,相应的评价基准是必不可少的工具。当 前其实已经推出了多种用于评估大模型在金融领域能力的基准测试,涵盖不同任 务类型和语言环境。以下我们整理了几个主流的金融领域基准,包括 FinanceBench、FinBen、SuperCLUE-Fin 等,试图探究如何构建一个可以有效评 价大模型金融能力的评价基准。
2.1 FinanceBench
FinanceBench 专注于开放金融问答(Open-book QA)。它包含关于上市公司 的事实性问题,需要模型在提供的财务文档证据中查找答案。问题场景多样且贴 近真实金融业务,但题目设计为明确且单一答案,作为金融问答的最低能力要求。 例如,模型可能被问及某公司年报中的特定财务指标值或事项,需从 10-K 等报 告中提取答案。
FinanceBench 当前收集了 10,231 道金融问答,每问都附有标准答案和出处证 据。问题主要基于真实公开财报等金融文件(如美国上市公司 10-K 年报),确保问题的生态有效性。作为开放版本,官方公开了其中 150 个标注样例及相关 PDF 文 档。 在评估指标方面,模型需要给出准确且有依据的答案。FinanceBench 评估侧 重于答案准确率和引用依据正确性。在论文测试中,研究者对模型作答进行了人工 判定:统计正确回答率、错误回答率以及拒答情况。例如,GPT-4 (搭配检索)在150 问样本中有高达 81%的问题回答错误或拒答,说明现有 LLM 在金融问答上正确率仍 偏低。此外,还观察模型是否产生不实信息(幻觉)或不当拒答。因此评估指标主 要是人工审核的准确率,辅以对错误类型(幻觉率等)的分析。 FinanceBench 设计用于评估各类大语言模型在读取长财务文档并回答问题方 面的能力,包括类 ChatGPT 的对话模型以及传统 Transformer 架构的模型。论文 中测试了 16 种主流模型配置,涵盖 OpenAI GPT-4 Turbo、Anthropic Claude2、 Llama2 等开源模型,部分还结合向量检索工具或长上下文窗口以处理长篇幅财报。 这表明无论是封闭源的 API 模型还是开源的金融大模型,都可以通过提供检索证 据或扩展上下文来参与评测。
2.2 FinBen
FinBen 是一个全面的金融领域评估基准,涵盖多达 24 种金融任务。这些任 务分属七大能力方面,包括:信息抽取(如金融命名实体识别、关系抽取)、文本 分析(如情感分类、新闻主题分类)、问答(金融知识问答、阅读理解)、文本生 成(如财报摘要、生成人工分析报告)、风险管理(如欺诈检测、信用风险评估)、 预测(如股票走势或指标预测)以及决策制定(如交易决策、投资组合生成等)。 举例来说,FinBen 既包含结构化数据任务(如从公告中抽取财务指标),也有生 成任务(如根据财务数据写分析报告)和决策任务(如模拟交易策略)。这种任 务覆盖面远超以往单一任务的数据集。
FinBen 汇总并新构建了 36 个数据集(开源版本约 35 个)横跨上述任务, 共计数万条数据。数据来源多样,既整合了现有公开金融数据集,又新增了三个 由团队标注的数据集,分别用于金融文本摘要、金融问答和股票交易决策评估。 这些数据多数来自真实世界金融资料,如年报公告、财经新闻、交易数据等,并 经过统一格式整理和难度标注。FinBen 还引入了股票交易模拟评测,通过历史 数据构建交易决策场景,是首个将自动交易能力纳入 LLM 评估的数据集。所有数 据和任务说明均已开放获取,方便研究者直接使用。 由于 FinBen 包含多种任务,它采用各任务各自适合的评价指标,并提供整 体评估结果。例如,对于分类、信息抽取等任务,多使用准确率、精确率/召回 率、F1 分数等;对于生成任务如摘要和报告,则采用 ROUGE、BLEU 等度量文本与 参考答案的接近程度。股票交易任务则可能根据收益率或预测准确率评估模型决策质量。此外,FinBen 设计了统一的综合评分机制:将各任务得分归一后计算模 型总体得分。例如,在零样本下 GPT-4 的总体得分仅约 32.37%,其余模型普遍 低于30%,反映出任务整体难度较高。评测还记录模型在不同能力维度上的强弱: 例如 GPT-4 在信息抽取、数值推理和股票交易上表现领先,而在复杂生成和预测 任务上依然欠缺。 FinBen 适用于评测各类大模型,包括通用 LLM 和经过金融领域微调的模型。 官方评估了 15 个具有代表性的模型,既有闭源 API(如 GPT-4、ChatGPT)也有 开源模型(如 Llama2 系列)、以及中国最新的大模型(如提到的 Gemini 等)。同 时,FinBen 还鼓励检索增强型(RAG)模型和金融智能体进行测试,提供了针对检 索+LLM 和多步决策代理的评估方案。因此,无论是 ChatGPT 这类对话模型,还 是传统 Transformer 架构模型,都可以通过适当 Prompt 或插件支持参与 FinBen 评测。许多模型在不同任务上的表现揭示了各自优势领域(如 GPT-4 擅长定量分 析,Gemini 在生成和预测更优)和薄弱环节。
3 大模型金融能力评价基准构建
我们可以看到,大模型在金融领域所涉及的能力还是多种多样的,包括信息 提取(Information Extraction)、文本生成(Text Generation)、文本分析 (Textual Analysis)、金融问题解答(Question Answering)、风险管理(Risk Management)、预测能力(Forecasting)、决策制定(Decision-making)。其中, 信息提取、文本生成、文本分析等能力更接近于大模型通用能力范畴,也已有相 应的基准用于衡量大模型在该领域的表现;而风险管理、预测能力以及决策制定, 更偏向于在特定场景下进行二次开发后大模型所拥有的能力。因此,在大模型层 面,最值得关注的便是金融问题解答能力。 而金融问题解答又可以分为两种,一种是较为简单,相应知识内容在公开资 料中均可查询,只需要进行搜索与匹配就可以回答的问题;另一种是需要在底层 知识的基础上,进行推理才可以得到答案的问题。我们认为第一种问题并不能体 现出大模型在金融领域的能力,因此在题目选择上我们倾向于选择需要逻辑与推 理才能得到答案的问题。
我们试图构建一个可以评价大模型金融问题解答能力的基准,来测试大模型 在该基准上的表现情况。在构建之前我们需要明确题目选择的原则。金融领域的 知识与内容浩如烟海,以权益基本面研究为例:不同的行业有不同的研究方法论, 科技行业与医药行业的方法论就不能通用;不同的股票和不同的股票也有不同的 估值逻辑,有些行业中个股之间的估值逻辑较为相似,有些行业中哪怕是相同细 分行业的个股和个股之间都可能差异巨大。最理想的情况是,大模型学会了所有 细枝末节的框架与方法论,那么在考察大模型相应能力时就可以按照考察相应行 业研究员的难度进行考察。但目前来看在金融领域大模型并无法做到该水准,尚 且不论很多细节的研究还是变动的,不是一成不变的。因此在题目选择上,需要 兼顾题目的代表性与客观性:既不能选择太宽泛,相关答案不需要推理在网上就 能找到答案的题目,也不能选择太过于专业的知识内容(比如医药行业翻石头型 研究某个股的估值逻辑)。除此之外,我们还要保证所出的题目不能存在较大的 异议与疑点,答案是清晰且唯一的。由于我们想要考察的是大模型在带有推理需 要的金融问题解答中的能力,因此题目中的推理逻辑需要具有可验证性,也就是 每一道题目的推理都需要有清晰的逻辑支撑。因此,我们对于题目的选择需要满 足以下四条条件:1)客观性,2)答案唯一性,3)可验证性,4)代表性。 在以上的基础上,该基准构建的过程主要分为以下两个部分:分别是题目选 择和架构搭建。
4 实验设计
在构建了题库文件后,我们需要在该题库上对大模型进行推理检验。
4.1 实验场景
我们一共设计了四个实验场景,分别是: 1. 基准场景:通过提示词将问题直接喂给大模型,大模型按要求返回答案, 进行评测比对。 2. 思维链(CoT)场景:在提示词中加入思维链或推理指引/线索,思维链 语料来源于“Solution”字段。 3. 样本提示(few-shot)场景:用多轮对话进行少样本提示 4. 样本提示+思维链场景:同时使用样本提示与思维链。
4.2 数据集构建
为了进行样本提示,防止测试集数据泄露,应将整个数据集划分为测试集和 样本提示集。由于每个类别下的题目个数不同,因此我们选择在每个类别下抽取 8 道题目作为样本提示集,因此将得到: 样本提示集:72 道题目; 测试集:116 道题目。
4.3 模型选择
本实验主要测试现有国产大模型,包括: DeepSeek-R1、DeepSeek-V3、HUNYUAN-T1、Qwen-max、DouBAO-seed-1.6- thinking、GLM-4-plus。
4.4 评测指标
选择现在较为主流的准确率指标和 Pass@K 评测指标。 准确率指标较为直白,假设每道题的权重是相等的,将大模型答对的题目数 量比上测试总数量,即可获得对应的准确率指标。 而 Pass@K 指标最早是一个用来评估大模型代码生成(或其他生成任务)能 力的指标。它的核心思想是:“如果模型生成 k 个不同的解决方案,其中至少有 一个是正确的,那么我们就认为模型通过了这次测试。”这个指标源于 Google 发 布的著名代码评测集 HumanEval 的论文《Evaluating Large Language Models Trained on Code》。 现在越来越多的评测基准引入 Pass@K 用于对大模型进行评价,一个重要原 因是大模型的输出存在不确定性,即使是同一个问题,模型在不同的生成轮次中 也可能产生完全不同的结果(与温度 temperature 采样有关),因此 Pass@k 提供 了一个更宽容、更实际的评估视角来考察模型的“潜在能力”。 Pass@K 指标的计算其实就是计算:对于单个问题,生成 n 个独立的样本, 其中有c 个是正确的。现在我们想知道,如果我们只从中随机抽取k 个样本(k <= n),那么这 k 个样本中至少有一个是正确的概率是多少?
4.5 日志文件生成
由于推理大模型会输出自己的推理逻辑,因此我们想要记录下大模型做错的 题,并研究大模型在这些题目中推理的逻辑与正确逻辑之间的差异。每个实验均 保留对应的日志文件,日志文件会记录错题类型、错题题目、预测选项、正确选 项、模型推理以及截至当时的正确率。
5 实验结论
5.1 对比实验

从实验结果来看,参与测试的大模型基准能力并不差,其中 DeepSeek-R1 和 豆包旗下的 seed-1.6-thinking,在基准测试中就获得了 79.31%的正确率,这两 款以推理出名的大模型展现出了他们的实力。但同时该两款模型也是测试的 6 款 模型中推理时间最久的,相比最快的Qwen-max模型时间消耗超过100%。Qwen-max 初始准确率最低,但在提示词工程方法帮助下也有 82.76%的准确率。 除此之外我们还可以发现,使用思维链后模型的准确率均有显著的提升,提 升最大的 GLM 模型准确率提升超过了 15%,由于题库内题目的思维链/逻辑线索 均由人工标注,因此我们认为数据质量较高的逻辑线索对于大模型回答金融领域 问题有显著帮助。 作为对比我们可以看到,样本提示对于模型准确率的提升帮助不大,甚至在 DeepSeek-R1 模型上出现了跑输基准的情况。这种情况我们认为主要原因是,样 本提示的样例不够具有代表性。在实验设计过程中,我们将题目分为 9 类,但是 每一类题目中又有很多细分的赛道,若要想利用样本提示的方法提升大模型在相 应的题目上的准确性,必须要足够相似的样本作为提示才足以提供帮助。我们依 然认为样本提示是大模型领域最好用的提示词工程方法,只不过需要较高质量的 样例筛选与数据处理。 最后思维链+样本提示组的表现较为一致:模型初始能力较差的,在此情况 下提升较大,模型初始能力较强的提升反而较小。
5.2 不同类别题目对比
大模型在金融相关的计算、投资组合管理、另类投资三 个类别中普遍得分较高,反之在经济学和财务报表分析类别中表现较差,6 款参 与评测的大模型在这两个类别中的平均得分分别为 63.64%和 63.58%。
5.3 Pass@K 评价标准
上述实验中,我们选择了temperature=0.8,试图引入一些随机性与波动性, 避免了 temperature=0 时输出结果的一成不变。从结果看,Pass@K 指标与准确 率指标结论一致的是,样本提示的增益效果并不如思维链,思维链情境下Pass@3 概率达到 0.8922。同时我们可以发现,Pass@1 是一种比较严格的评价标准,四 种情景下的 Pass@1 值均是 0.5~0.6 左右区间内。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行.pdf
- 中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期.pdf
- 中国特色衍生品交易账户体系建设探索-金融市场研究.pdf
- 基于行为金融视角的A股市场月频动量效应失效原因与修正策略-金融市场研究.pdf
- 中国金融机构人才发展与培训白皮书(2026年).pdf
- 金融工程:基金窗口粉饰行为的定量识别与FOF投资应用.pdf
- 金融工程:高波动环境下如何捕捉热点板块的投资机会?.pdf
- A股量化择时研究报告:金融工程,AI识图关注船舶、电网、钢铁、机器人.pdf
- 金融工程,大类资产及权益风格月报(2026年2月):权益资金流边际改善,小盘成长风格有望占优.pdf
- 金融工程指数量化系列:高值偏离修复模型(突破型双位点).pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 北京大学数字普惠金融指数(2011-2021).pdf
- 2 2020中国金融科技创新大赛优秀案例集.pdf
- 3 区块链与数字货币深度解析:科技如何重塑金融(103页).pdf
- 4 中国银行中国经济金融展望报告(2022年第3季度):“三重压力”倍增,政策全力稳定宏观经济大盘.pdf
- 5 中国工商银行金融科技研究院:商业银行生物识别技术应用实践及趋势分析.pdf
- 6 2020年全球金融科技指数报告.pdf
- 7 供应链金融创新发展报告2019.pdf
- 8 详解微众银行,见证金融科技的力量.pdf
- 9 2019开放银行与金融科技发展研究报告.pdf
- 10 金融集团大数据分析平台总体架构方案.pptx
- 1 金融壹账通:2024年环境、社会及管治报告.pdf
- 2 2025年中国金融科技(FinTech)行业发展洞察报告.pdf
- 3 阿里云:2025年金融行业Agent百景图.pdf
- 4 RWA行业研究报告:真实资产走向链上世界,开启数字金融新时代.pdf
- 5 区域经济与银行股系列专题报告:山东省三项动能支撑,基建+产业升级+新兴,金融需求持续性强.pdf
- 6 金融工程专题报告:使用投资雷达把握行业轮动机会.pdf
- 7 蚂蚁数科:2025金融智能体深度应用报告.pdf
- 8 RWA行业分析:为实体资产开启数字金融世界之门.pdf
- 9 稳定币行业专题报告:重塑全球金融秩序的变量.pdf
- 10 多元金融行业分析报告:稳定币如何影响和变革传统金融?.pdf
- 1 科技新周期系列1:穿越泡沫,从技术革命到金融资本.pdf
- 2 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 3 A股量化择时研究报告:金融工程,AI识图关注中药、银行和红利.pdf
- 4 非银金融行业深度报告:海南全岛封关运作,跨境资管空间广阔.pdf
- 5 中国金融智能体发展研究与厂商评估报告 (2025).pdf
- 6 金融行业:金融业监管2025年度数据处罚分析及洞察建议.pdf
- 7 金融产品深度报告:广发中证传媒ETF(512980.SH),政策规范护航,AI产能兑现,低估值传媒ETF走向高质量增长.pdf
- 8 金融行业周报(20251214):公募销售新规落地,政银绑定深化下银行扩表动能有望复苏.pdf
- 9 5G环境下供应链金融解决方案.pdf
- 10 非银行金融行业研究:数字人民币专题,应用场景空间广阔,2.0时代将加速发展.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 2 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 3 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 4 2026年量化看市场系列之六:OpenClaw金融行业必备Skills推荐与实战应用
- 5 2026年非银行金融行业深度研究:资本市场范式转移,险资放量、券商扩表、公募重塑
- 6 2026年非银金融行业机构行为更新专题:验证“存款搬家”,居民财富的视角
- 7 2026年第10周高频和行为金融学选股因子跟踪周报:石油石化行业拥挤度较高,高频技术指标类因子表现较好
- 8 2026年政策性金融工具,能撬多少倍?——“财政的底色”系列报告(四)
- 9 2026年金融产品每周见:金融地产行业基金,从投资能力分析到基金经理画像
- 10 2026年非银金融行业春季投资策略:存款迁移,非银负债和资产两端受益
- 1 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 2 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 3 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 4 2026年量化看市场系列之六:OpenClaw金融行业必备Skills推荐与实战应用
- 5 2026年非银行金融行业深度研究:资本市场范式转移,险资放量、券商扩表、公募重塑
- 6 2026年非银金融行业机构行为更新专题:验证“存款搬家”,居民财富的视角
- 7 2026年第10周高频和行为金融学选股因子跟踪周报:石油石化行业拥挤度较高,高频技术指标类因子表现较好
- 8 2026年政策性金融工具,能撬多少倍?——“财政的底色”系列报告(四)
- 9 2026年金融产品每周见:金融地产行业基金,从投资能力分析到基金经理画像
- 10 2026年非银金融行业春季投资策略:存款迁移,非银负债和资产两端受益
- 1 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 2 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 3 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 4 2026年量化看市场系列之六:OpenClaw金融行业必备Skills推荐与实战应用
- 5 2026年非银行金融行业深度研究:资本市场范式转移,险资放量、券商扩表、公募重塑
- 6 2026年非银金融行业机构行为更新专题:验证“存款搬家”,居民财富的视角
- 7 2026年第10周高频和行为金融学选股因子跟踪周报:石油石化行业拥挤度较高,高频技术指标类因子表现较好
- 8 2026年政策性金融工具,能撬多少倍?——“财政的底色”系列报告(四)
- 9 2026年金融产品每周见:金融地产行业基金,从投资能力分析到基金经理画像
- 10 2026年非银金融行业春季投资策略:存款迁移,非银负债和资产两端受益
- 最新文档
- 最新精读
- 1 聚焦中国互联网行业:超大盘股四季度业绩展望;关注重点围绕AI智能体OpenClaw、云定价及资本支出(摘要).pdf
- 2 亚太能源行业:上调中国几大石油公司目标价;买入中海油(成本地位领先)、中石油(长期盈亏平衡点下降);调整覆盖范围(摘要).pdf
- 3 政策双周报:“十五五”开局之年,稳总量、优结构.pdf
- 4 中国乘用车行业月度图评:2026年2月_春节期间零售销量疲软符合预期,价格竞争企稳.pdf
- 5 纺织服装行业周报:推荐关注中游困境反转机会.pdf
- 6 易观GEO行业市场分析报告2026.pdf
- 7 源网荷储同类项目投资路径与风险解析.pdf
- 8 正泰安能:向设计要效益:AI自动化设计的实践与回报.pdf
- 9 中国汽车:海外新能源车机遇和可能带来的风险(摘要).pdf
- 10 中国温泉旅游:2025年中国温泉旅游行业发展报告.pdf
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
