2025年金融工程专题报告：异常值稳健回归控制下的EP因子有效性重估

来源：华安证券
发布时间：2025/08/07
浏览次数：147
举报

相关深度报告REPORTS

金融工程专题报告：异常值稳健回归控制下的EP因子有效性重估.pdf

金融工程专题报告：异常值稳健回归控制下的EP因子有效性重估。e_Summary]本篇是学海拾珠系列第二百四十四篇。本文作者使用一种理论依据充分的稳健横截面回归方法来控制异常值，以证明当用于单因子和多因子模型时，盈利价格比因子（EP）以及一个基于盈利预测、预测修正和广度的复合因子（CTEF），在1980-2007年和2008-2020年期间，对于CRSP®、R3000和R2000股票池具有统计显著性。由于异常值的不利影响，采用标准1%缩尾处理的最小二乘（LS）回归未能表明EP和CTEF是显著因子。引入mOpt稳健回归解决因子显著性误判问题针对传统最小二乘法（LS）在横截面回归中易受异常值...

1 引言

自 Graham 和 Dodd(1934)以来，盈利价格比率（EP）或市盈率（PE）倍数几十年来一直被学术界和实务界广泛视为首选的价值因子，股票的高 EP 或低 PE 值被视为买入信号。McWilliams(1966)、Breen(1968)、Niederhoffer 和 Regan(1972)以及 Graham(1974)的研究反映了从 1934 年到 1972 年形成的共识：盈利至关重要。随后的 Basu(1977)和 Basu(1983)论文进一步支持了低 PE（等价于高 EP）的价值投资原则。然而，在 Fama 和 French(1992)(FF92)关于规模、账面市值比（BP）、贝塔和 EP 因子在多大程度上解释预期回报横截面的实证资产定价研究之后，学术界对 EP 的看法发生了改变。特别是，FF92 发现，尽管 EP 本身在 Fama-MacBeth 回归中是显著的，但当与规模和 BP 因子一起纳入模型时，它变得不再显著，因此 BP 成为了首选的价值因子。随后Fama和French(1993)(FF93)引入了基于BP的高减低（HML）因子，以及许多使用 HML 的研究，进一步巩固了 BP 作为首选价值因子的地位，而 EP 则被摒弃。Arnott 等人(2021)简明扼要地描述了这种状况：“继 Fama 和 French(1992,1993)的研究之后，学术界的共识将 BP 作为价值的主要定义。”

令许多从业者和学者惊讶的是，BP 在 2007 年及之后不再是一个价值因子，这引出了一个问题：为什么会发生这种情况？一些研究关注 BP 的缺陷，旨在创造一种增强型的 BP，使其能再次作为价值因子。例如，Arnott 等人(2021)以及 Lev 和 Srivastava(2022)指出了对无形资产核算不足的问题，并提议使用改进版的 BP 来恰当地反映无形资产的价值。此外，Goncalves 和 Leonard(2021)提出了一种基本股权与市场股权比率，它提供了比 BP 更好的价值溢价信号。另一方面，人们可能会质疑最初用 BP 取代 EP 的基本原理，特别是考虑到盈利相比账面价值具有简单性和直观吸引力。正如本文将要展示的，其原因在于回报和 EP 因子暴露的横截面中存在小比例的异常值，这些异常值会使最小二乘斜率估计产生负向偏倚。即使对 EP 因子暴露采用标准但无效的 1%缩尾处理，这种情况也会发生，而解决这个问题的办法是使用一种有效的稳健回归方法。迄今为止，稳健回归在量化金融中的应用相对较少，在基于横截面回归的实证资产定价研究中几乎完全没有使用，例如 FF92 以及数百项其他研究。一个相当显著但被忽视的例外是 Knez 和 Ready(1997)的稳健回归研究（以下简称 KR97）。这些作者使用了一种基于修剪的稳健回归方法，称为最小化修剪平方和（LTS），他们证明，仅使用 1%的小修剪比例，规模溢价显著为正，而不是 FF92 中的负值。

横截面 LS 回归当然在 Markowitz 均值-方差最优投资组合构建和风险分析的背景下使用了很长时间，其中拟合相对低维的横截面因子模型是为了构建高维协方差矩阵。此外，多年前 Bloch 等人(1993)在此背景下使用了稳健回归方法，并且 Guerard,Markowitz,和Xu(2015);Guerard,Xu,和Markowitz(2021);以及Markowitz等人(2021)针对各种因子模型对该方法进行了进一步研究。特别是，后一项研究使用了一个包含 EP 和 BP 的 10 因子模型，并表明 EP 是一个比 BP 更能提升夏普比率的重要因子。本文使用一种理论依据充分的稳健回归估计量，称为 mOpt 估计量，它能自动识别并剔除数千只股票横截面中的异常值，从而避免 LS 估计量对异常值的脆弱性。 mOpt 回归估计量在 Martin 等人(2023)发表于《投资组合管理杂志》的教育导向型稳健统计背景文章中进行了详细讨论。在那篇文章中，mOpt 与 LS 回归一起用于 Fama-MacBeth横截面回归，说明了mOpt在确定来自证券价格研究中心（CRSP®）数据库的 294 只股票小样本中 EP 和 BP 因子显著性方面的价值。

上述结果促使对本文报告的 EP 和 BP 因子的重要性进行更深入的研究，作者还研究了基于盈利预测、预测修正和修正广度度量的 CTEF 复合因子的重要性。考虑到与学术界和从业者的相关性，本文研究了这些因子在 CRSP®股票池以及 RussellR3000、R2000 和 R1000 股票池中的显著性。分别对 1980-2007 年和 2008- 2020 年这两个时间段进行了研究，选择这两个时间段是因为 BP 在 2007 年及之后不再是一个价值因子，这一点在文献中已得到公认。基于 Fama-MacBeth 方法，作者针对 mOpt 和 LS 估计量展示了两组结果。在第一组中，比较了 EP 和 BP 因子单独及联合使用时的 mOpt 和 LS 结果。在第二组中，比较了一个包含 EP、BP 和 CTEF 因子以及其他因子的 10 因子模型的 mOpt 和 LSt 统计量。这个 10 因子模型在 Markowitz 等人(2021)关于均值-方差最优投资组合构建的背景下讨论过，被称为 REG10 模型。对于这两组结果，使用保守的阈值 3.0 来比较 mOpt 和 LS 的 t 统计量（Tstat）值，以声明一个因子是显著的，并将 Tstat值在 2.0 和 3.0 之间的因子视为弱显著。两组结果都压倒性地再次确认了 EP 作为一个显著的价值因子。此外，第二组结果表明，基于盈利预测的 CTEF 因子是一个更显著的价值因子。本文的其余部分安排如下。第一节首先简要描述了本研究所用的四个股票池，使用图形展示揭示了回报和 EP 暴露横截面中存在的厚尾非正态性和异常值。然后描述了所使用的基本横截面因子模型，并引入了一个能够产生此类异常值的混合分布模型，该模型支持建立 mOpt 估计量的最小最大偏倚最优性性质。第二节介绍了 mOpt 稳健回归估计量的计算方法，并展示了一个生动的回报和 EP 因子暴露横截面应用示例。这个例子清晰地揭示了异常值对 LS 拟合产生的负斜率偏倚影响，以及对 mOpt 拟合缺乏这种影响。第三节展示了分别使用 mOpt 和带 1%缩尾的 LS（LSwin）对 1980-2007 年和 2008-2020 年两个时间段以及四个股票池，将回报单独和联合拟合到 EP 和 BP 上的结果。第四节对设计用于 Markowitz 最小方差组合优化的 10 因子模型进行了同样的分析，该模型包含 EP、BP 和 CTEF 因子。最后是结论评述部分。附录讨论了支持 CTEF 因子的盈利预测研究。

2 数据与异常值生成模型

在本节中，首先描述本研究所用的 CRSP®、R3000、R2000 和 R1000 股票池，然后分析这些股票池回报和 EP 因子暴露的非正态异常值生成特征。对非常大规模股票横截面的股票回报和 EP 因子暴露分别绘制正态 QQ 图，将揭示典型的行为：回报和 EP 暴露都具有单变量异常值生成的厚尾分布。对于 EP 因子暴露，这些图还揭示了标准 1%缩尾处理在控制异常值方面的完全不足。对同一横截面的联合回报和 EP 暴露进行特殊的 Hexbin 数据分箱展示，揭示了数据中诱导最小二乘偏倚的特性，这激发了使用稳健回归的必要性。最后，提出一个 Tukey-Huber 双分量混合分布族来描述联合回报和因子暴露的分布，该族既包含正态回归误差分布，也包含能够生成本节第一部分所展示类型异常值的非正态分布。

2.1 四个数据样本空间

文章重点关注 1980-2007 年和 2008-2020 年两个时间段内四个股票池的月度股票回报和因子暴露。选择这两个时间段的分界点是因为，尽管 BP 在第一个时间段被广泛接受为价值因子，但在 2007 年及之后不再被视为价值因子。第一个股票池包含 CRSP®数据库中的月度股票横截面。图表 1 展示了整个 CRSP®横截面股票数量的时间序列，以及其中的微市值、小市值和大市值子集的股票数量。遵循了常见做法，例如像 Fama 和 French(2008)以及 Hou,Xue,和 Zhang(2020)等研究那样，使用纽约证券交易所（NYSE）市值数据的第 20 百分位和第 50 百分位作为微市值与小市值之间、以及小市值与大市值之间的分界点。另外三个股票池是模拟的 RussellR3000、R2000 和 R1000 股票池，通过将 Russell 指数股票的证券统一识别程序委员会（CUSIP）代码与 CRSP®数据库的代码进行匹配，从CRSP®数据库中创建了它们。这产生了模拟的Russell 指数股票池，其股票数量略少于 3000、2000 和 1000 只。本文中使用的因子暴露值是利用 Compustat 数据库的资产负债表数据计算的。对于每个日历年，使用日历年 t−1 结束的财年的资产负债表数据，用于从 t 年 6 月开始到 t+1 年 5 月结束的估计，预测从 t 年 7 月到 t+1 年 6 月的回报。

在第四节中，专注于四个数据池中的 EP 和 BP 因子。EP 值是每股收益（EPS）除以每月末的股票价格，其中 EPS 是公司损益表中报告的净收益（NI）除以其流通普通股数量。BP 值是每股账面价值除以每股价格，其中账面价值是普通股股东权益。在第五节中，专注于一个 10 因子模型，其因子将在该节描述。

2.2 回报和 EP 暴露的非正态性与异常值生成

股票回报和因子暴露通常具有边缘和联合的厚尾分布，这些分布会单独和联合地产生异常值，其程度取决于市场状况、因子类型和市值分组。此外，众所周知，异常值可能对最小二乘因子模型拟合产生巨大的不利影响。在此，本文展示了回报和 EP 因子暴露单独及联合的非正态异常值生成分布的性质和异常值的大小，以 2009 年 5 月为例，此时 CRSP®、R3000、R2000 和 R1000 股票池的横截面规模分别为 6,586、2,812、1,863 和 949 只。回报分布的异常值。2009 年 5 月，这些股票池分别包含 6,586、 2,812、1,863 和 949 只股票。这些图反映了偏斜的厚尾非正态性，在所有四个股票池中不同程度地产生了异常值，规模大得多的 CRSP®股票池不出所料地同时显示了左尾肥尾和最大的右尾肥尾。作者顺便指出，尽管对数回报相对于算术回报的偏斜程度大大降低，但在本文中始终使用算术回报，因为这是从业者和许多实证资产定价研究中最常用的。回报正态 QQ 图的形状表明，横截面回报的分布可以通过正态分布的混合很好地建模，CRSP®股票池需要三个正态分布，而三个 Russell 股票池可能两个正态分布就足够了。从 1980 年到 2020 年的所有月份，月度回报 QQ 图的形状在性质上是相似的，其变化与随时间变化的市场状况相一致。 EP 因子暴露分布的异常值与缩尾处理的无效性。结果表明，R3000、R2000 和 R1000 股票池中分别有 76%、75%和 77%的股票存在 EP 值，但 CRSP®股票中只有 51%存在 EP 值。原因是 CRSP®数据库中微市值股票占比非常高，导致因各种原因（包括与延迟报告相关的原因）而缺失盈利数据。

γ%缩尾处理是将观测值中最小的 γ%和最大的 γ%分别设置为下一个最小值和下一个最大值。在实证资产定价研究中，对因子暴露值进行 γ=0.5%或 γ=1%的缩尾处理相当常见；例如，参见 Bali,Engle,和 Murray(2016)的第 1.2 节。注意到，对于 CRSP®股票池的图，55%的 EP 值落在 0 到 0.2 之间，16%大于 0.2，29% 为负值；对于 R3000 股票池，相应的百分比分别为 69%、10%和 21%。注意到，缩尾处理是一种完全临时的缩小异常值的方法，通常以机械的方式应用，完全不考虑数据驱动的方法来选择 γ，或者对偏斜因子暴露分布的左右尾部使用不同的 γ 值。此外，最重要的是，缩尾处理的一维性质使其在缩小多元回报和因子暴露异常值方面效果相当差。足以说明的是，强烈反对使用缩尾处理来减轻异常值对 LS 回归的影响。

回报和 EP 的联合非正态性与异常值。处理回报和因子暴露异常值的基本挑战在于它们在本质上是多元的，需要相应地处理。作为这种行为的一个简单二元例子，两个 Hexbin 图，它们展示了 2009 年 5 月 CRSP®股票池中 6,586 只股票（除一只外）的回报与 EP 的关系。Panel A 包含原始 EP 数据，Panel B 包含经过 1%缩尾处理的 EP 数据。Panel B 揭示了大量联合回报和 EP 异常值，其中大部分是具有负 EP 值的大正回报值。很自然地推测，此类异常值将导致最小二乘直线拟合到数据时产生负斜率偏倚，将在下文中看到情况确实如此。

2.3 EP 和 BP 因子：单独与联合分析

对 1980-2007 年和 2008-2020 年期间，CRSP®、R3000、R2000 和 R1000 股票池的 EP 和 BP 因子（单独和联合）进行了使用 mOpt 稳健回归以及使用带 1%因子暴露缩尾的最小二乘法（LSwin）的 Fama-MacBeth 计算。选择这两个时间段是因为众所周知 BP 在第二个时间段内不再是价值因子。接下来报告并讨论四个股票池和两个时间段的单因子和双因子 EP 和 BP 的平均回报及其 HACt 统计量。之后，报告并讨论 mOpt 剔除的异常值的时间序列平均百分比。

使用 LSwin 时唯一显著的因子是第一个时间段的 BP 因子，而其 EP 的 Tstat 值完全不显著。这个结果与 FF92 的 LSwin 分析误导性地得出“当 EP 与 BP 和规模因子一起包含时，EP 不显著”的结论是一致的。至于第二个时间段 CRSP®股票池使用 mOpt 的 BP，其 Tstat 值是一个令人惊讶的-4.75。因此，对于 CRSP®股票池使用 mOpt 时，BP 在第二个时间段不仅消失了，它甚至变成了一个负的价值因子。

2.4 异常值剔除统计

回顾一下，mOpt 稳健横截面回归方法将那些稳健尺度化预测残差绝对值大于 3.0 的回报和因子暴露对剔除为异常值。鉴于前两小节中 mOpt 和 LSwin 平均斜率和 Tstat 结果之间存在显著差异，了解所研究的四个股票池中 EP 和 BP 各自随时间平均剔除的异常值百分比是很有意义的。首先，注意到，对于 EP 和 BP 中的每一个，所有四个股票池在第二个时间段内的异常值百分比相对于第一个时间段都有所增加，CRSP®股票池的增加较少，其他三个股票池的增加较多。至于四个股票池之间异常值百分比的差异，CRSP®股票池因其异常值百分比高于 Russell 股票池而显得突出，并且值得注意的是，R3000 和 R2000股票池的异常值百分比非常相似。后一个事实很可能是因为异常值主要发生在包含在R3000中的R2000股票上。最后，尽管预期R1000的异常值百分比应小于R2000，但其异常值百分比仍高于我们预期。

2.5 因子模型中的 EP 和盈利预测

鉴于在单因子和双因子模型中，当使用 mOpt 控制异常值时，EP 的显著性和 BP 的缺失，人们自然会质疑这些因子在通常用于均值-方差最优（MVO）投资组合构建的多因子模型中表现如何。作者在一个特定的 10 因子模型（称为 REG10 模型）的 mOpt 和 LS 稳健回归拟合背景下探讨这个问题，该模型在 MVO 组合中的表现已在 Markowitz 等人(2021)中研究过。该文（为方便起见称为 MG2021）使用 REG10 模型计算股票预期回报估计值，作为 Axioma 商业 MVO 优化和风险分析系统的输入，该系统提供基于因子模型的复杂协方差矩阵估计。当使用标准基准相对 MVO 组合指标（如信息系数（IC）和信息比率（IR））进行评估时，MG2021 表明 REG10 模型表现极佳。REG10 模型的一个特殊方面是它包含了一个基于盈利预测、修正和广度的 CTEF 复合因子，该因子由 Guerard 和 Mark(2003)引入。CTEF 因子的研究背景在附录中提供。

3 结论

大规模的回报和因子暴露横截面包含异常值，这些异常值可能对最小二乘回归产生相当大的不利偏倚影响，从而导致关于因子作为回报预测因子显著性的误导性结论。存在稳健回归方法来处理这个问题，然而在数百项 Fama-MacBeth 横截面回归研究中，它们几乎从未被使用过。受此空白启发，本文建立了 mOpt 稳健回归方法作为最小二乘法的补充，用于通过 Fama-MacBeth 横截面回归研究因子显著性的有用性。mOpt 估计量具有简单的 WLS 形式，其直观的权重函数旨在最小化由小比例异常值引起的最大偏倚。在此过程中，mOpt 识别并剔除了相对较小比例的异常值，对于 EP 和 BP 因子，该比例在所研究的 1980-2007 年和 2008-2020 年两个时间段内，平均而言，从 R1000 的最小值 3.2%到 CRSP®股票池的最大值 5.2%。由此产生的因子模型从而为绝大多数无异常值的数据提供了良好的拟合，并附带识别出异常股票以供进一步研究。

在“EP 和 BP 因子：单独与联合分析”一节中，对 1980-2007 年和 2008-2020 年时间段内单独及联合 EP 和 BP 因子模型的稳健 mOpt 和非稳健 LSwin 分析传递出的首要信息相当清晰：对于 CRSP®、R3000 和 R2000 股票池的绝大多数股票（通过 mOpt 回归剔除了小部分异常值），EP 是一个重要的价值因子；但由于诱导偏倚的异常值，使用 LSwin 时 EP 因子的显著性被完全掩盖了。与现有文献一致，BP 在 2008-2020 年期间作为价值因子的消亡被稳健 mOpt 和 LSwin 两者再次确认。在“10 因子模型中的 EP 和盈利预测”一节中，EP 和 BP 的稳健 mOpt 和 LS 分析结果有力地支持了“EP 和 BP 因子：单独与联合分析”中对 EP 和 BP 模型的结论。此外，CTEF 因子在 REG10 模型中成为两个时间段内高度显著的因子。在第一个时间段，CTEF 对所有四个股票池在 mOpt 和 LS 下都高度显著；在第二个时间段， CTEF 在 LS 下不显著，但在 mOpt 下，它对 CRSP®和 R2000 股票池显著，对 R3000 股票池弱显著。注意到 CTEF 是一个直观上吸引人的因子，它似乎尚未在实证资产定价研究中使用，并且除了 Markowitz 等人(2021)及其引用的 Guerard 及其合著者的论文外，也未在投资组合优化研究中使用。推荐在两种应用中使用 CTEF 因子。

R1000 股票池的结果引人注目，因为无论是 EP 还是 CTEF 都不是一个持续显著的因子。这表明 R1000 构成了一个相当有效的市场，并且是否能为 R1000 找到任何持续显著的因子仍有待观察。为了避免微市值股票潜在的异常值问题，一些研究人员在研究结果时剔除了微市值股票。一方面，Martin 和 Xia(2021)表明，剔除所有微市值股票不足以解决异常值问题，因为例如小市值和大市值股票也包含影响力递减的异常值。另一方面，在此的结果表明，在像 CRSP®、R3000 和 R2000 这样的大型股票池中，剔除不超过 5.5% 的异常值，就移除了大多数有影响力的微市值异常值，这使得此类股票池中的绝大多数微市值股票保持不变。因此，为了保护免受其异常值影响，既没有必要也不充分去移除所有微市值股票。总之，本文的结果，连同 Martin 等人(2023)的结果，为在因子研究以及基于因子模型的均值-方差最优投资组合构建和风险分析中，将 mOpt 作为最小二乘法的补充进行常规使用提供了强有力的理由。似乎许多（如果不是大多数）基于 LS 的大型横截面股票池因子研究都值得用 mOpt 稳健回归重新审视。最后，我们无论怎样强调 mOpt 稳健回归作为诊断工具的有用性都不为过，它可以检查最小二乘回归是否在不知不觉中受到了异常值的影响。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）