2025年金融工程行业分析：利用强化学习和文本网络改进相关矩阵估计

来源：华安证券
发布时间：2025/05/12
浏览次数：153
举报

相关深度报告REPORTS

金融工程行业分析：利用强化学习和文本网络改进相关矩阵估计.pdf

金融工程行业分析：利用强化学习和文本网络改进相关矩阵估计。RL-TBN基于文本的网络的强化学习模型构造通过融合强化学习的动态优化与文本网络（TBN）的结构化先验，提出了一种数据驱动的协方差矩阵估计框架。在强化学习方面，采用了近似策略优化（PPO）算法，而自然语言处理分析则依靠TBN来衡量企业间的产品相似性。实施方法与协方差矩阵收缩的文献（Ledoit&Wolf，2022）一致，TBN设定了目标相关矩阵，而RL则以数据驱动的方式确定了收缩强度。RL-TBN性能RL-TBN组合在多个指标上优于传统方法，表现出较低的波动率（0.088），较高的夏普比率（1.351）和较低的VaR（0.129...

1 引言

马科维茨（1952）的开创性著作建立了投资组合选择的均值-方差模型，其应用对估计误差的敏感性已得到公认（Best 和 Grauer，1991）。特别是在投资组合选择的第一阶段，需要对相关证券收益的未来均值、方差和相关性进行估计。第二阶段以这些估计值为基础，找到最优配置。然而，忽略估计误差会导致样本外绩效不佳（Michaud，1989）。此外，虽然估计误差来自均值向量和协方差矩阵，但众所周知，前者的估计误差更大（Merton，1980）。鉴于这些挑战，研究人员提出了不同的协方差矩阵估计技术，并使用全局最小方差（以下简称 GMV）组合研究了这些技术的吸引力，这需要单独估计协方差矩阵（Ledoit 和 Wolf， 2022）。文献中提出了许多方法来降低投资组合选择中的估计风险。其中，Ledoit 和 Wolf（2003）的开创性著作提出了一种线性收缩技术，将样本协方差矩阵与收缩目标相结合。缩减技术的原理是在估计值中引入偏差，以换取方差的缩小，即所谓的偏差-方差权衡。在投资组合选择方面，传统观点认为稳健的估计会带来稳健的投资组合。在这方面，投资组合选择问题可视为协方差矩阵估计值均方误差（MSE）的最小化。

一般来说，收缩技术需要两个组成部分。一个是明确定义的收缩目标，另一个是收缩强度。收缩目标的典型候选者是关于协方差矩阵的先验知识。例如，Ledoit 和 Wolf（2003）将资本资产定价模型（CAPM）加到收缩目标中，而 Ledoit 和 Wolf（2004 a）则利用了其他金融市场特征，如股票收益的平均相关性。此外， Ledoit 和 Wolf（2004b）提出将单位矩阵作为通用收缩目标，而 De Nard（2022）则将这一想法推广到平衡单位矩阵的对角线和非对角线元素。这种分析有助于推导缩减协方差矩阵的渐近分布特性，最终确定最佳和可行的缩减强度。然而，这种分析假设股票收益是独立同分布的（Ledoit & Wolf，2022），尽管有大量证据表明情况恰恰相反（例如，见 Stărică&Granger，2005）。此外，自然语言处理（NLP）领域采用 Hoberg 和 Phillips（2016）提出的所谓基于文本的网络（TBN）来确定协方差矩阵目标。从长远的角度来看，RL 使我们能够确定与时间一致的收缩策略，该策略包含了未来由相关资产的新闻所驱动的，并反映了未来的投资组合再平衡的对冲需求。此外，RL 克服了对数据生成过程的任何限制（Kolm & Ritter，2020），这使我们能够纳入替代数据，而这些数据并不一定来自股票收益的相同数据生成函数。

我们的主要实证分析是预测性（样本外），采用了回溯测试程序，并利用了在美国三大证券交易所上市的大量股票数据。我们将 CRSP 数据库与 Hoberg 和 Phillips（2016）的 TBN 数据库合并，找到了从 1995 年到 2022 年持续存在的 430 家公司的股票收益率和 TBN 数据。我们采用了五年的滚动窗口进行回溯测试，以确定每年年底的最优收缩策略。具体来说，对于每个训练子集，我们都要训练一个 RL智能体，直到收敛为止--在收敛过程中，智能体在累积奖励方面取得稳定的表现，从而为给定的训练期找到最优策略。在获得训练有素的智能体后，我们估算出最佳收缩强度，并在下一年利用月度回报评估相应的决策规则。我们将六种著名的收缩方法作为基准，其中包括从股票收益估计协方差矩阵的不同缩减方法。我们还将基于 TBN 的策略作为基准，使用固定的收缩强度将样本协方差矩阵收缩为 TBN。此外，鉴于等权重组合在文献中的流行程度（DeMiguel 等，2009），我们将其视为基准。总体而言，我们的实证结果表明，RL-TBN 规则在样本外标准差和扣除交易成本后的风险调整收益（夏普比率）方面优于基准。具体而言，拟议规则使标准差降低了 8%-52%，夏普比率提高了 6%-187%。

除了早期关于动态投资组合选择的大量文献（Brandt，2005；Gârleanu & Pedersen，2013；Zhao，2021）之外，我们的论文还为近期关于投资组合选择中的 RL 的文献做出了贡献。RL 的一个好处是，只要投资组合经理指定了环境和激励机制，它就不会对股票回报的数据生成函数或先验值施加任何假设。如果能用行动 -回报-状态元组来设定环境，那么就能轻松利用RL的最新进展来训练人工智能体并确定收缩策略（Sutton & Barto，2018）。在目前的文献中，投资策略以及最优投资组合是通过将当前状态映射到权重向量中来确定的。而我们的研究则考虑了一种不同的方法，即利用 RL 确定最优收缩强度，从而将最优策略归结为确定一个实数。因此，我们提出的方法简化了 RL 投资组合选择问题，同时利用收缩技术实现稳健的资产配置。 Hoberg 和 Phillips（2016）的 TBN 因其稳定性（低方差）和基本市场结构（行业边界）而成为缩减目标的理想选择。在这方面，提取的信息依赖于企业的产品相似性，比基于股票的相关矩阵更能从根本上反映企业的相互关联性。这一点非常重要，因为基于股票收益的相关性中有很大一部分可能归因于投资者情绪等非基本面信息（Frijns，2017）。从收缩的角度来看，TBN 的低波动性降低了收缩估计误差，但代价是更高的偏差。与常见的收缩目标（如单位矩阵和因子模型）相比， TBN 表示与前者一致的低波动性目标。同时，它利用了市场结构的先验知识，如基于因子的目标矩阵。然而，TBN 在投资组合选择中的净收益是一个需要实证研究的问题。

与普通先验相比，TBN 的一个主要优势在于它为决策者提供了一个关于股票回报率之间相关性的更基本的视角（Dyer，2021；Ibriyamova，2019）。例如，由于供应链中断（网络效应），冲击会在股票之间传播。长期以来，人们一直在金融网络的背景下研究这种效应（Allen & Gale，2000）。在更普遍的背景下， Cohen 和 Frazzini（2008）证明了此类网络链接（效应）在股票回报可预测性方面的重要性。他们认为这种网络效应捕捉到了潜在的系统性风险，而这种风险最终会反映在均衡资产价格中（Herskovic，2018）。考虑到这些网络效应渠道，我们的最终分析采用了第 4.7 节中 Ibriyamova（2019）的类似实证检验，以研究TBN背后的机制。最后我们研究了主要分析中的全部股票，从而得到了一个包含 300 万个观测值的大型面板。在此基础上，我们运行了面板向量自回归模型（Sigmund & Ferstl， 2021），发现 TBN 在解释股票相关性未来变化方面具有很强的统计证据。该检验揭示了一个有趣的效应，即产品相似性的提高（TBN 分数越高）会导致未来股票相关性的降低。这一发现意味着，产品相似性的增加可能导致市场细分更加成熟。当某一特定行业内的公司所提供的产品或服务越来越相似时，投资者在选择时就会更加严格，选择一种产品而不是另一种。这种机制最终将转化为一家公司的业绩优于另一家公司，从而导致未来的负相关。此外，这种描述性分析还揭示了 TBN 与股票回报之间相互交织的重要关系。在投资组合选择中，人们普遍认为，更好的估计会带来更好的 OOS 结果。我们的预测分析从经济意义上确定了 TBN 的重要性，而描述性分析则探讨了TBN对这一机制的贡献，并从统计意义上重申了其吸引力。本文接下来的内容如下。第 2 节介绍了缩减方法，包括基于文本的网络和强化学习。第 3 节实证研究，包括数据和样本构建、最优缩减策略和回溯测试分析，这与我们的主要研究相对应。第 4 节提供了额外的测试，以了解我们主要结果背后的机制，并作为本文的描述性分析。最后，第 5 节得出结论。

2 方法

在本节中，我们首先介绍了缩减方法，并以此指导下面的章节。然后，我们介绍基于文本的网络构建，该网络可作为缩减目标。此外，我们还展示了投资组合问题的表述以及用于确定最优缩减策略的强化学习算法。最后，我们将介绍回溯测试实验中使用的滚动窗口估算程序。

文本网络

TBN 网络结构通常由其邻接矩阵决定，例如，识别金融网络的一种方法依赖于股票的相关性（Billio，2012；de Carvalho 和 Gupta，2018）。在这种情况下，邻接矩阵由相关矩阵决定。与相关矩阵类似，TBN 是一个衡量企业层面行业相关性的平方矩阵。每个矩阵条目代表两家公司之间成对的相似性/相关性。相似度得分是通过解析和比较公司的 10-K 报告（第 1 项）获得的。由于矩阵是从文本中获得的，表示的是一种相似结构，因此被称为基于文本的网络。

建立TBN背后的理念是，同一行业的公司往往使用相似的术语来描述其产品。在解析公司 10-K 报告中包含产品/业务描述的第 1 项后，就能计算出相似度得分。同时，并非 10-K 报告中的所有词语都用于计算相似度得分。Hoberg 和 Phillips （2016）专注于名词，并利用一小部分独特的词来代表一个行业。具体来说，作者排除了一组定义明确的词汇，如停止词、地理词和超过 25%的公司使用的产品描述中的常用词。然后，通过提取在所有产品描述中出现率低于 25% 的名词，为每家公司建立一套独特的非通用词汇。每个公司的非通用独特名词集平均为 200 个。因此，在描述空间中，平均有 200 个专有名词代表一家公司的产品。

强化学习

RL 背后的理念是通过试错来优化目标。作为一种近似动态编程（DP），尽管 RL 与 DP 有着相似的结构，但在寻找最优策略时面临的限制较少。例如，RL 可能不需要环境模型，如关于过渡概率函数的知识。简而言之，RL 模拟的是一个人工智能体，它与环境交互，并根据历史交互数据更新其决策策略（用π表示）。在下面的讨论中，我们将首先介绍 RL 相对于经典机器学习（以下简称 ML）在投资组合管理中的优势。然后，我们将详细介绍如何在 RL 的背景下为最优收缩强度问题建模。之后，我们将讨论使用最先进的近端策略优化算法（Schulman，2017）来解决这一问题。

强化学习的优势

在探讨问题陈述之前，我们首先要强调强化学习与传统 ML 方法相比的独特优势。一般来说，监督学习（SL）和无监督学习（UL）是最广为人知的 ML 技术类型，前者使用标记特征预测未见数据，后者则试图发现隐藏的关系和模式，因此当目标是估计和预测预期收益和协方差时，这两种方法很受欢迎。在构建投资组合的过程中，首先要估计结构化输入（如数据分布的矩值），其次要解决优化问题以生成最优决策。对于 ML 而言，这种做法可视为 “先预测、后优化 ”的方法（Elmachtoub 和 Grigas 2022 等）。与此相反，RL 设置使智能体能够通过纳入与环境互动的反馈做出连续决策，从根本上学习其行动的后果、立即获得的回报以及潜在的未来回报。这使得 ML 非常有吸引力，非常适合跨期选择，比如在投资组合预期效用最大化的情况下，点式决策不仅会影响下一期，还会影响后续几期。由于 RL 尝试同时学习环境和做出决策，我们可以将 RL 视为一个“预测和优化”系统。在协方差矩阵收缩的情况下，我们可以使用 SL 或 UL 来训练收缩强度网络，因为投资组合权重向量取决于该值。不过，这需要一个额外的验证步骤，即决策者需要在事后监督收缩强度，选择一个能带来最高回报的值 α。有了这样一个缩减强度的监督序列，决策者就可以使用映射函数映射资产回报等数据，或许还可以映射其他公司特征，从而确定最优的样本外缩减强度。

上述 SL/UL 有两大挑战/缺点。首先，根据所使用的数据源，SL/UL 方法面临着复杂性问题，即资产多而时间观测值少（由于事后监督收缩强度）。另一方面， RL 不需要监督，也不会损害部分训练数据，只要设置环境和激励机制来反映样本外的最佳结果即可。其次，也是最重要的一点，SL/UL 解决方案不像 RL 那样考虑顺序决策。虽然利用的是投资组合的封闭式解决方案，但 RL 的最优策略是非短视的，并考虑了潜在的对冲需求。这是 ML（使用 SL/UL）与 RL 之间的一个主要区别，因为后者特别适合于不仅影响下一步，而且影响后续几个时期的决策。这就激发了在投资组合选择中应用 DP 的概念以及对冲需求的重要性。为了更好地理解第二个问题的重要性，我们参考了 Gârleanu 和 Pedersen （2013）的研究成果。作者在他们的框架中，依靠可预测信号（即状态变量）推导出了一个闭式最优投资组合策略。非短视投资组合由两个基金的线性组合给出：马科维茨投资组合（短视投资组合）和一个 “目标投资组合”，表示投资组合选择中的非短视部分。这是因为最优投资组合是一个移动目标，决策时应考虑未来的交易成本。在 Malamud 和 Vilkov（2018）的两期模型中，非短视投资组合结合了短视投资组合和另一个反映未来对冲需求的基金，可以得出类似的直觉。简单来说，RL 方法提供了一种以数据驱动的方式推导非短视策略的方法。虽然 Gârleanu 和 Pedersen（2013）等人提出的分析框架严谨而富有洞察力，但它们往往依赖于简化假设，这可能会限制其完全捕捉数据的能力。在我们的 RL 解决方案中，我们认为全局最小方差投资组合的移动目标是给定的，而我们的主要创新在于确定最优非短视收缩强度，这反过来又决定了最优非短视投资组合。因此，可以将其视为全力 RL（如 Cong，2020）和完全分析方法（如 Gârleanu 和 Pedersen，2013）之间的一种补救方法。

滚动窗口程序

为了测试 RL 智能体的样本外表现，我们在第 3.2 节中使用了滚动窗口程序来训练算法。例如，我们估算最优策略，进而估算第 t 末的缩减强度，以构建第 t+ 1 的样本外缩减 GMV 投资组合。给定从 t-?到 t 的数据子集，我们对 RL 智能体进行样本内训练。这里，T 表示滚动窗口的样本大小。考虑到总共有 T 个周期和大小为 ?的滚动窗口，我们有 T-? +1 个策略估计值。从 1 到?，在对第一个子集进行训练后，智能体事先确定最优收缩强度，用于构建? + 1 的 GMV 投资组合。接下来，智能体将进入第二个子集，范围 2 到? +1。总之，智能体在每个数据子集上都使用相同的样本量进行训练。通过采用滚动窗口方法，我们依靠最近的数据来生成估计值并训练智能体。考虑到股票收益和金融数据中通常存在的非平稳性，这一程序具有很强的相关性。此外，滚动窗口法是评估样本外决策规则的典型程序（Kan，2022）。因此，它为评估 RL 智能体的样本外性能提供了一个自然环境。

我们注意到，RL 方法的实施非常简单，我们使用道琼斯工业平均指数（DJIA）的构成来训练 RL 智能体，以确定随时间变化的最优策略。道琼斯工业平均指数是领先的股票市场指数，通常被视为整体股票市场的指标。鉴于此，我们假定从道琼斯工业平均指数得出的最优缩减强度可以推广到代表更广泛的市场动态。事实上，由于收缩强度是基于市场的当前状态，因此我们训练智能体根据可用于更广泛市场的代表性股票样本来过滤当前的市场条件。例如，如果估算风险是由大盘的不确定性引发的，那么智能体就会根据这种系统性风险推导出一种策略，以决定是否选择 TBN 等低方差目标，而不是选择噪声更大的股票相关矩阵。给定道琼斯工业平均指数策略后，我们就可以将其应用于不同的资产组合，而无需考虑投资组合的规模。这种做法只需要较少的参数估计，从而降低了估计风险，同时减少了所需的计算能力，并确保 PPO 算法的收敛性。

3 实证分析

本节是我们的主要实证分析。首先，我们将介绍整个研究过程中使用的主要数据源（第 3.1 节）。第 3.2 节介绍了 RL 智能体的实际训练过程，在此基础上，我们实施了投资策略，并在第 3.3 节中使用回溯测试评估了其样本外性能。我们评估了 RL 投资策略与常见的收缩技术相比的性能。在绩效方面，我们考虑用样本外的夏普比率（波动率）来表示策略的风险调整收益（风险性）。在所有情况下，我们都考虑净收益，以将投资组合的换手率和潜在的交易成本考虑在内。

3.1 数据

我们利用 CRSP 的每日股票收益数据，并将其与 Hoberg-PhillipsDataLibrary 的 TBN 数据合并。在 CRSP 范围内，我们考虑了在美国三大证券交易所交易的所有股票。我们保留了 1995 至 2022 期间交易活跃的股票。在与 TBN 数据合并后，最终的股票范围对应于在样本期内同时拥有股票回报和 TBN 分数的 430 家公司。我们根据这个由 430 种资产组成的综合投资组合对投资策略进行了回溯测试，并根据既定基准对其表现进行了评估。这一广泛的评估是我们的主要成果，突出了该策略在广泛市场背景下的有效性。此外，作为稳健性检验，我们对不同维度的投资组合进行了进一步分析，随机选择了由 10、50 和 150 项资产组成的投资组合。

3.2 最优策略

现在，我们将讨论如何通过经验实施来确定最优策略，进而确定收缩强度。如第 2.3 节所述，我们的方法是利用滚动窗口，随时间动态推导出最优强度。具体来说，在 1995 到 2022 之间的 28 样本中，我们创建了 23 个滚动窗口子集，固定窗口为 5。我们将每个滚动窗口视为一个训练子集。我们在每个训练子集上训练 RL 智能体，直到收敛为止。收敛意味着智能体在累积奖励方面取得了稳定的表现，从而为给定的训练期找到了最优策略。获得训练有素的智能体后，我们就可以估算出下一年的最佳收缩强度。

3.3 回溯测试

下面，我们将从投资组合绩效的角度来研究 RL 估算方法的经济贡献。在绩效指标方面，我们考虑了不同的样本外指标，如投资组合的平均收益率、波动率、夏普比率、风险价值（VaR）和换手率。我们将在第 3.3.2 节介绍这些绩效指标的定义。除了样本估计值，我们还考虑了文献（Ardia，2017；Ardia & Boudt，2015）中使用的五种收缩技术，作为利用股票回报的基准。我们还将基于 TBN 的策略作为基准，使用固定的收缩强度将样本协方差矩阵向 TBN 收缩。最后，我们将等权重组合作为基准（DeMiguel，2009）。我们将在第 3.3.3 节详细介绍基准。在第 3.4 节中，我们将报告并总结我们的主要发现。

3.4 主要结论

我们报告了扣除交易成本后的投资组合绩效指标。回溯测试期为 2000 至 2021。所有策略均基于相同的 430 只股票，并以 5 年滚动窗口为基础。面板（a）报告了仅使用股票收益数据的基准的投资组合表现，而面板（b）（分别为面板（c））报告了基于 TBN 规则（分别为 RL 和天真规则）的投资组合表现。从表 1 中可以看出几个重要的现象。首先，就 OOS 标准差、夏普比率和风险价值而言，RL 方法优于所有基准。RL 方法的 OOS 标准差最低，为 0.088，与基准相比降低了 8%-52%。其次，RL 方法的 OOS 夏普比率最高，为 1.351，与其他规则相比夏普比率提高了 6%-187%。第三，我们没有发现 RL 方法在平均收益率方面有明显改善，因此夏普比率的优异表现来自其较低的波动性。例如，RL 方法的风险值最低，为 0.129，与基准相比降低了 5%-46%。

需要注意的是，RL 方法性能的提高归功于 RL 在优化收缩强度和将 TBN 作为收缩目标方面的双重应用。通过对 RL 性能与其他基准的比较分析，可以看出这些组成部分各自的贡献。将基于 TBN 的 RL 方法与图表 4 中的 RL_diag 基准进行比较，可以明显看出使用 TBN 的边际效益。基于 TBN 的 RL 方法以更低的 std （RL_diag - 0.101 vs.RL- 0.088）、更低的 VaR（RL_diag - 0.192 vs.RL- 0.129）和更高的 SR（RL_diag - 1.112 vs.RL- 1.351）优于 RL_diag。此外，根据图表 4 中基于 TBN 的规则与 RL 方法的比较，我们还发现了使用 RL 的边际效益。TBN 方法和 RL 方法都有相同的目标矩阵，因此它们的性能差异来自于收缩强度。特别是，RL 方法在更低的 std（TBN - 0.186 vs.RL- 0.088）、更低的 VaR（TBN - 0.238 vs.RL- 0.129）和更高的 SR（RL_diag - 0.805 vs.RL1.351）方面优于基于 TBN 的基准。RL 与 TBN 的结合有助于提高 RL 方法的整体性能。我们还进一步在不同的估计风险水平下对所提出的 RL 方法进行了稳健性检验。我们考虑了 4 种不同的投资组合维度（N= 10、50、150 和 430 资产）和 3 种不同的滚动窗口（τ= 1、3和5）来检验RL方法的稳健性。尽管如此，为了便于说明，我们使用图表 5 所示的小提琴图直观显示 RL 方法相对于基准的相对改进，从而总结了稳健性检查的性能。图表 5 特别展示了拟议的 RL 规则与 10 个基准相比的相对改进（详见第 3.3.3 节），该图从分布的角度说明了这种差异，涵盖了所有 10 个规则、3 个估计窗口和 4 个投资组合划分。面板（a）和（b）分别对应夏普比率和投资组合波动率的差异。虚线表示零水平，即没有改善。因此，面板（a）（面板（b））中高于（分别低于）虚线的点表示使用建议的 RL 规则后性能指标有所改善。

3.5 其他结果

在本节中，我们将扩展主要研究结果，并进一步研究提出的 RL 方法的性能和策略影响。在第 3.5.1 节中，我们探讨了不同风险规避水平下的样本外确定性等价收益率，证明了 RL 方法对风险规避型投资者的有效性。我们通过研究收缩强度与宏观经济指标之间的关系，深入探讨了 RL 策略的决策过程。这一探讨突出了收缩 RL 策略如何适应可观察到的特征，加深了我们对由此产生的投资组合规则的动态性质的理解。

4 模型机制的理解分析

在上一节建立了投资组合选择的实证分析后，我们现在深入了解我们主要发现的机制。我们从统计学角度研究了利用TBN估算相关矩阵的益处。通常情况下，收缩技术依赖于不同的先验，这些先验涉及常量矩阵（例如将单位矩阵设为目标）或其他股票相关矩阵（例如因子模型）。这种分析简化了缩减协方差矩阵渐近分布特性的推导。另一方面，TBN 是使用文本数据提取的，并不一定服从相同的数据生成函数。例如，TBN 相似性得分的下限为零。标准缩减技术背后的另一个假设是股票收益是完全相同且独立分布的（Ledoit & Wolf，2022）。然而，有大量证据表明这一假设遭到了违反（Stărică 和 Granger (2005)）。因此，我们的实证调查采用了数据驱动法，利用 RL 来确定收缩强度。

4.1 矩阵范数

我们展示了 TBN 的不同准则，并将其与股票收益率样本相关矩阵的准则进行了比较。在整个样本期间，与样本相关矩阵相比，TBN 的矩阵准则要小得多，显示出较高的（较低的）稳定性（波动性）。在方差-偏差权衡方面，应用 TBN 具有优势。不过，这一优势也适用于其他先验（Ledoit & Wolf， 2022）。

利用 TBN 的另一个潜在益处在于，它能让决策者对股票收益之间的相关性有更基础的了解（Dyer，2021；Ibriyamova，2019）。例如，TBN 可以描述冲击是如何在股票之间传播的，尤其是在涉及供应链中断和由此产生的网络效应的情况下。在系统性风险和金融稳定性领域，对此类网络效应的探索有着丰富的历史（Allen & Gale，2000）。Cohen和Frazzini（2008）在具体冲击之外，对更广泛的经济联系和股票回报的可预测性提出了更广泛的见解。此外，Herskovic（2018）证明“网络的变化是反映在均衡资产价格中的系统性风险的来源”。无论如何，我们的猜想是股票收益之间的相关性捕捉到了反映市场/行业相关新闻的二阶效应。这些新闻也可能是特异性的，如果公司是系统性的，则可能导致市场/行业的进一步混乱。无论哪种情况，在一个相互关联、不断发展的市场中，业务和产品的相似性都能为风险管理者提供一个更基本的视角，让他们了解企业之间的潜在联系，进而了解企业的股票回报。

4.2 面板回归

为了证明 TBN 在股票联动性方面的吸引力，我们沿用了 Ibriyamova（2019）的类似实证分析。具体而言，Ibriyamova（2019）以（Hoberg & Phillips，2016）背后的 TBN 理念为基础，将其应用于全球可用的第三方公司描述。

5 结论

我们的研究利用了强化学习（RL）和自然语言处理（NLP）的最新进展，改进了相关矩阵的估计，从而改进了协方差矩阵的估计。在强化学习方面，我们采用了近似策略优化（PPO）算法，而自然语言处理分析则依靠基于文本的网络（TBN）来衡量企业间的产品相似性。实施方法与协方差矩阵收缩的文献（Ledoit & Wolf， 2022）一致，其中 TBN 设定了目标相关矩阵，而 RL 则以数据驱动的方式确定了收缩强度。 TBN 的主要优势在于其利用产品描述对企业的市场结构和行业边界进行了基本分析。我们研究的描述性分析探讨了这一机制，并建立了强有力的支持证据。总体而言，所提出的基于 RL 的收缩投资组合在标准差、夏普比率和风险价值方面提高了样本外绩效。传统的收缩方法基于 IID 分布的渐近特性，虽然理论上站得住脚，也能得到闭式解，但实际应用性可能有限。另一方面，RL 是一种以数据为导向的方法，能捕捉资产回报动态和未来潜在的对冲需求。虽然基于 RL 的缩减投资组合的计算复杂度更高，但我们的研究表明，与传统缩减技术相比，这种成本带来了样本外性能的提升。

虽然 RL 是一种数据驱动的方法，但它仍然需要设置环境和奖励函数。在本研究中，我们利用指数效用函数将收益映射为奖励，使 RL 智能体模型符合风险规避偏好。这种选择的理由是，CARA 效用的吸引力是为了迎合选择 GMV 投资组合的极端风险规避智能体，但我们的整体框架使我们能够将分析推广到不同的效用函数。从估计风险的角度来看，在考虑跨期投资组合选择时，探索均值-方差范式与预期效用框架之间的一致性是很有意义的。这将为 Markowitz (2014), Simaan (2014), 和 Schuhmacher 等 (2021)等先前的文献提供更广阔的视角。值得注意的是，最近的文献继 Martellini 和 Ziemann（2010）的早期工作之后，研究了收缩技术对高阶漫差的价值。例如，Boudt（2020）对单目标收缩框架进行了概括，为余弦收缩纳入了多个收缩目标。他们还提出了一种无偏且一致的收缩强度估计方法。Lassance 和 Vrins（2021）利用基于独立分量分析（ICA）的因子模型来估计收益的高阶矩，并获得更高的样本外风险调整绩效。根据 Khashanah （2022）的研究，我们可以将收益率和投资组合权重分解为椭圆项和非椭圆项。这种分解方法揭示了二者之间缩减的概念。一种可能的创新是利用 RL 来估计纳入非椭圆项的最佳收缩强度，以提高投资组合的绩效。这个问题留待今后研究。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）