2025年“学海拾珠”系列之二百五十九：基于马氏距离K_Means聚类的价值_成长股分类

来源：华安证券
发布时间：2025/12/23
浏览次数：70
举报

相关深度报告REPORTS

“学海拾珠”系列之二百五十九：基于马氏距离K_Means聚类的价值_成长股分类.pdf

“学海拾珠”系列之二百五十九：基于马氏距离K_Means聚类的价值_成长股分类。本篇是学海拾珠系列第二百五十九篇。本文深入探讨了在价值与成长投资风格分类的研究背景下，如何通过集成K均值聚类与马氏距离来提升标普500股票分类的准确性与稳定性。研究指出，尽管传统方法依赖于单一财务比率进行风格划分，但此类方法难以捕捉金融指标间的多元依赖性。本文通过比较标准K均值MD、K均值++MD及新型K均值++MD混合算法，结合2008至2023年的Refinitiv数据，系统性地验证了混合算法在簇稳定性、经济可解释性及时间一致性方面的优势，为无监督学习在金融风格分类中的应用提供了方法论创...

1 引言

价值与成长投资仍是股票市场的核心主题，构成了大量研究其相对表现及组合管理影响的实证基础（Chan and Lakonishok, 2004）。价值股通常以低市净率（P/B）和市盈率（P/E）、高股息收益率和强劲的基本面估值为特征；而成长股则常与较高的估值倍数和优异的盈利增长预期相关，尽管短期盈利指标较弱（Wang, 2011）。区分价值与成长风格对投资者和资产管理人至关重要，因为这些分类指导资产配置策略和特定风格基准指数的构建。尽管研究广泛，但价值与成长股尚无普遍接受的定义，因为分类方法在学术和实务中各异。传统方法（如 Fama and French, 1998 提出）依赖于基于单一财务比率（如 P/B 和 P/E）的股票排序，常聚焦于十分位分类。这些方法虽提供有用见解，但未能捕捉股票估值的复杂多维性（Cakici and Topyan, 2014）。更精细的替代方案是指数提供商（如 S&P）采用的评分方法，它将多个财务指标汇总为复合分数以分类股票。然而，此类方法引入降维处理，且常忽略指标间的动态关系。本研究探索一种基于无监督学习技术（特别是 K-Means 聚类）的替代方法，以在不降维的情况下将股票分割为价值与成长类别。K-Means 聚类是一种成熟的方法，通过最小化簇内方差将数据分区（Mirkin, 1996）。传统上使用欧氏距离（ED）作为相似性度量，但该方法假设特征等权重并忽略财务指标间的相关性，可能导致高维金融数据中的误分类（Jain, 2010）。更复杂的替代方案是马氏距离（MD），它考虑了方差和特征相关性，使其更适合聚类股市数据（Melnykov and Melnykov,2014）。尽管马氏距离 K-Means 聚类在其他领域已有探索，但其在股票分类中的应用仍不成熟，本研究旨在填补这一空白。

本研究调查了马氏距离 K-Means 聚类在将 S&P 500 股票分类为价值与成长类别中的有效性。此外，引入了两种算法增强版本——K-Means++ MD 和 K-Means++ MD 混合方法——以提升初始化稳定性和聚类鲁棒性。K-Means++ MD 变体通过利用 K-Means++初始化（Arthur and Vassilvitskii, 2007）改进质心选择，而 K-Means++ MD 混合算法则通过多次初始化运行、选择具有最低马氏惯性（MI）的配置，进一步增强了聚类一致性。此混合方法是本研究的主要方法论贡献，解决了先前 K-Means 聚类在金融数据应用中的关键局限。实证分析基于 2008 年至 2023 年的 S&P 500 股票综合数据集，包含广泛财务比率，如 P/B、P/E、市现率（P/FCF）、市销率（P/Rev）和平均季度增长率（AQGR）。利用此多维特征集，研究检验马氏距离 K-Means 聚类是否能提供更准确稳定的价值 -成长股分类，以及此类分类能否转化为可行交易策略。研究结果对资产配置、因子投资和组合构建具有直接意义，因为它们展示了数据驱动的多维分类相较于传统单变量排序方法的潜在优势。更广泛地，本研究贡献于机器学习在金融中应用的文献，展示了聚类技术如何通过捕捉财务指标间的复杂交互来增强投资决策。论文余下部分结构如下：第 2 节回顾价值与成长投资文献，讨论用于分类的财务指标，并检验 K-Means 聚类及其扩展的理论基础。第 3 节描述数据集，概述数据来源、预处理步骤和特征变换以确保聚类过程稳健性。第 4 节提出方法论框架，详述聚类算法、距离度量和验证指标。第 5 节报告实证结果，比较聚类结果与 S&P 风格指数并评估分类鲁棒性。最后，第 6 节总结关键发现、讨论局限并展望未来研究方向。

2 文献综述

价值与成长投资长期作为股票市场的基本策略，在实证金融中被广泛研究。本节回顾这些策略的演变、用于股票分类的财务指标以及 K-Means 聚类的方法进展。它还检验 S&P 500 定义价值与成长股的方法，并讨论聚类技术在金融中的先前应用。

2.1 价值与成长投资的演变

价值与成长股的区分可追溯至 Benjamin Graham 的证券分析奠基工作，他提出基于财务基本面选股（Graham and Dodd, 1934）。Nicholson（1960）和 Basu（1977）的早期实证证据证实低市盈率（P/E）股票往往跑赢高 P/E 股票。 Fama-French 三因子模型（Fama and French, 1992）的引入确立了账面市值比（B/M）作为股票收益的关键决定因素。模型表明价值股（高 B/M 比股票）往往比成长股产生更高预期收益，强化了低估与优异长期表现相关的假设。然而，此优势日益受到挑战，尤其在 2000 年后，由信息技术公司驱动的成长股跑赢价值股，引发对价值溢价持续性的质疑（Miller and Prondzinski, 2020）。

2.2 定义价值与成长股

股票的价值与成长分类缺乏普遍接受标准，导致学术和实务方法各异。传统价值投资依赖财务比率如 P/E、市净率（P/B）和市销率（P/S）（Fama and French, 1998; Chan and Lakonishok, 2004），而成长股常通过盈利增长率和动量指标识别。在最广泛使用的估值指标中，B/M 比因其在资产定价中的预测能力被广泛研究（Cakici and Topyan, 2014）。Fama and French（1992）将其效应归因于风险因子，而 Lakonishok 等（1994）认为它反映市场错误定价。其他研究如 Penman（1996）检验了 P/E 和 P/B 比的相对作用，强调它们对预期收益和盈利性的各自含义。尽管有用，但仅财务比率可能无法完全捕捉价值与成长特征的多维性，这推动了多指标评分方法（如指数提供商所用）的发展。

2.3 S&P 500 价值与成长方法论

实务者常依赖基准指数将股票分类为价值或成长。S&P 道琼斯指数维护的 S&P 500 风格指数提供广泛认可的分类框架。该方法基于加权评分法使用多个财务指标将股票分配至价值或成长类别。根据 Indices（2024a），价值股通过以下指标识别：账面价值与价格比（B/P），盈利与价格比（E/P），销售额与价格比（S/P）。反之，成长股基于以下分类：三年每股净收益（EPS）增长率，三年每股销售额（SPS）增长率，动量（12 个月价格百分比变化）。为确保数据完整性，S&P 应用 90 分位数缩尾处理，随后标准化，确保异常值不会不成比例影响分类（Indices, 2024a）。计算的价值与成长分数决定股票被分配至 S&P 500 价值指数或 S&P 500 成长指数，总市值的 33%分配至每个类别，其余 34% 为混合特征股票。为提升风格纯度，S&P 引入了 S&P 500 纯成长和纯价值指数，消除两种风格间的重叠。这些指数中，股票基于风格分数强度加权，并设上限以防单只股票不成比例影响指数表现。此基于评分的方法与传统十分位排序法对比，提供了整合基本面和动量驱动标准的多因子框架。

2.4 股票能否完全分割为价值或成长？

尽管 S&P 分类方法提供了股票的实用分割，但关键问题仍在：价值与成长股是否真正 distinct 类别，还是存在于一个谱系中？ Fama and French 使用的十分位排序法表明价值与成长分类可能非完全离散。他们的方法按 B/M 比排序股票，仅比较最高和最低十分位，其中价值-成长区分最明显（Fama and French, 1992; Chan and Lakonishok,2004）。然而，中间十分位股票展现价值与成长双重特征，强化了风格分类应视为连续而非二元的观点。 S&P 方法论进一步支持此观点，因为 S&P 500 风格指数中 34%的股票不纯属于任一类。此观察与先前学术发现一致，即价值与成长特征可在单个公司中共存（Indices, 2024a）。

2.5 K-Means 聚类与马氏距离

刚性风格分类的挑战推动了无监督学习技术如 K-Means 聚类的使用，它允许基于财务特征分组股票而无预定义类别边界。 K-Means 由 Forgy（1965）和 MacQueen（1967）首次提出，通过最小化簇内方差将数据分区。传统实现使用欧氏距离（ED），而马氏距离（MD）通过考虑财务指标间相关性提供了更优替代，使其特别适用于多维股票分类（Xiang et al, 2008; Nelson,2012; Melnykov and Melnykov,2014）。尽管有优势，马氏距离 K-Means 聚类在金融应用中探索不足。先前研究主要关注替代聚类验证指标和初始化技术（Arthur and Vassilvitskii, 2007; Franti and Sieranoja, 2019）。本研究基于这些进展提出改进的 K-Means++ MD 混合算法，整合更优质心初始化和多次初始化以确保稳定聚类结果。

2.6 聚类在金融中的应用

为有效构建和分析价值与成长组合，股票必须基于财务指标分类。如前所述，分类可通过排序单一财务比率或将多指标聚合为评分框架（如 S&P 方法）实现。本节回顾聚类方法在金融中的使用，强调其在组合构建中的应用。 Nanda 等（2010）探索了多种聚类技术（包括 K-Means、自组织映射和模糊 CMeans）以识别印度股市中高绩效组合。他们的发现表明K-Means提供最有效分割。类似地，Bini and Mathew（2016）比较了 1,232 只股票的不同聚类方法，结论是 KMeans 和期望最大化产生最有效股票分组。相关研究中，Al-Augby 等（2014）将 KMeans 和模糊 C-Means 应用于海湾合作理事会市场的银行和能源股，凸显了聚类在金融分析中的作用。 Issakainen（2023）通过在赫尔辛基股市使用 K-Means 聚类构建价值型投资组合扩展了此研究线。他们证明聚类财务比率如 P/E、P/CF 和 P/B 能有效识别跑赢传统指数的高质量价值股。其研究还强调了优化聚类数的重要性，九簇配置产生最高累计收益。尽管先前研究展示了 K 均值聚类在金融应用中的潜力，但它们主要依赖欧氏距离（ED）进行聚类，忽略了财务指标间的统计依赖性。如前所述，马氏距离（MD）通过考虑特征间的相关性提供了更稳健的替代方案，但其在股票分类中的应用仍有限。此外，标准 K 均值对初始质心选择敏感，可能导致不一致的结果。本研究通过整合 K 均值++初始化和马氏距离到一个混合聚类框架中来弥补这些空白。通过评估其相对于现有方法的有效性，作者旨在提供更稳定且经济意义明确的股票价值-成长细分。下一节概述方法论，详细说明聚类框架、验证指标和组合构建过程。

3 数据

本研究使用源自 Refinitiv 的 2005 年至 2023 年数据集。由于计算关键财务比率所需的前置时间，最终分析中包含的数据集始于 2008 年 3 月，以确保交易模拟中感兴趣变量的全面数据覆盖。

3.1 数据收集与样本构建

为构建样本，本文获取了标普 500 成分股的季度数据，重点关注交易历史超过 360 天的公司以确保数据充分可用。该标准导致 47 家公司被排除在分析之外。

4 方法论

本节介绍使用 K 均值聚类将标普 500 股票分类为价值与成长簇的方法论。关键创新是将马氏距离（MD）整合到聚类过程中以提高分类准确性。此外，使用 K 均值 ++初始化以增强聚类稳定性。方法论包括以下步骤：数据处理和特征选择，确保与行业标准一致。聚类技术，包括使用欧氏距离（ED）、马氏距离（MD）的 K 均值聚类和 K 均值++初始化。 K 均值++ MD 混合算法，本研究的主要贡献，优化质心初始化和距离度量。聚类验证指标，用于评估聚类效果。组合构建和模拟，将聚类结果转化为可投资组合并评估表现。

5 实证结果

本节展示应用基于 K 均值的聚类方法将标普 500 股票分类为价值和成长组合的实证发现。分析沿几个维度进行。首先，评估重复模拟中聚类结果的鲁棒性和一致性，比较标准 K 均值 MD、K 均值++MD 和提出的 K 均值++MD 混合算法。其次，检验基础财务特征（特别是标准化估值和增长比率）的贡献，以评估增加的复杂性是提高聚类质量还是引入冗余。第三，通过比较每个簇与标普 500 风格指数的中位数财务特征，分析识别的簇是否与经济意义明确的价值-成长区分一致。虽然作者不旨在复制这些指数，但该比较可作为方法论的有效性检验。作者进一步研究簇隶属的时间动态，以评估分类随时间的稳定性，这对实际组合构建至关重要。最后，使用标准风险收益指标评估构建组合的绩效，以市场和风格指数为基准，评估基于聚类的策略在现实世界中的适用性。

5.1 K 均值聚类方法的鲁棒性分析

为确保聚类框架的方法论鲁棒性，首先分析初始化阶段——鉴于其对簇分配稳定性和组合一致性的影响，这是一个关键步骤。对三种方法（K 均值 MD、K 均值 ++MD 和提出的 K 均值++MD 混合）各进行了 100 次模拟，使用 2008 年 3 月的数据作为初始化基准。结果在图中展示，使用点（簇 0）和十字（簇 1）视觉区分簇。

基线 K 均值 MD 方法在模拟中显示簇质心的高变异性，突显其对初始条件的敏感性。K 均值++MD 虽旨在改善质心分散度，但由于对马氏距离计算关键的早期协方差估计不稳定，表现出不一致的结果。相比之下，K 均值++MD 混合算法结合了广泛的初始质心分散和马氏距离为基础的细化阶段，产生显著更稳定的聚类结果。

5.2 特征复杂性

本节研究特征复杂性与聚类性能之间的关系，以确定额外的财务指标（特别是增长相关指标）是增强还是削弱价值-成长分割的质量和可解释性。使用 K 均值++MD 混合算法评估五种不同的财务特征组合，旨在评估扩展的特征空间是有助于更好的簇分离还是引入破坏簇定义的噪声。在评估的组合中，仅包含市净率（P/B）和市盈率（P/E）的特征集产生最一致的聚类结构。

相比之下，纳入增长相关指标（如 1 年动量和账面价值、EPS 及营收的平均季度增长率 AQGR）会降低聚类性能。特别是，“增长”特征组合产生 1.68 的 DBI，表明簇分离差。聚类倾向于按增长强度分割公司，而非区分价值与成长股，削弱了预期的基于风格的分类法。

总之，这些发现强化了在无监督金融分类中仔细选择特征的重要性。虽然纳入额外变量可能看似吸引人，但此种复杂性未必转化为改进的聚类结果。相反，它可能模糊经济解释并损害鲁棒性。对于价值和成长股的分类，基于经济基础的简约特征集产生更可靠和可解释的结果。

5.3 聚类结果的解读

一个关键问题是K-Means++ MD 混合方法识别的簇是否与价值和成长投资风格有意义上的对应。为评估这一点，使用截至 2023 年 12 月 31 日的最新可用数据，将所得投资组合的中位数财务特征与标普 500 风格指数进行比较（下表）。由于方法论差异（如使用中位数而非缩尾均值以及异常值处理），这些比较是说明性的而非确定性。

从所提方法得到的簇展现出与传统定义一致的财务特征：价值组合往往显示较低的估值比率，而成长组合展现较高比率和更强动量。值得注意的是，使用轮廓系数和距离比率阈值构建的组合显示出更鲜明的对比，凸显了其在分离典型股票方面的有效性。

总体而言，该聚类方法产生了与风格投资框架一致的经济可解释分组。纯组合中观察到的增强分离度和时间一致性确认了结合马氏距离与优化初始化的优势。

5.4 绩效评估

为评估聚类方法的实际意义，在全样本期（2008-2023）模拟投资组合表现，应用 K-Means MD 和 K-Means++ MD 混合方法。每次模拟重复十次以评估组合结果对初始化变动的敏感性。

相比之下，K-Means++ MD 混合方法在模拟中产生明显更稳定的绩效轨迹。马氏距离与重复 K-Means++初始化的结合确保簇分配（进而组合权重）对随机变化保持稳健，为绩效评估提供更一致基础。

值得注意的是，全组合相对于标普 500 等权指数的超额部分归因于数据预筛选，因缺失或极端财务比率的股票被排除在聚类范围外。所有聚类组合均以此过滤基准比较以确保一致性。这些结果强调了基于聚类的组合构建在系统股票策略中的潜力。总体证据表明聚类方法——尤其是K-Means++ MD混合法——产生了与既定价值成长观念一致的经济有意义分类。尽管在具体财务指标和加权方案上相对于标普指数存在差异，但核心估值区分得以保留，组合构成反映现实投资风格。时间动态分析进一步凸显了簇成员随时间的相对稳定性，尤其对具清晰风格特征的股票。然而某些切换行为持续存在，强调了稳健初始化程序与聚类后过滤标准的重要性。总体而言，这些发现验证了所提聚类框架的实际适用性。它们也推动进一步研究市场机制、宏观经济冲击或公司特定信息流如何影响通过无监督方法构建的风格组合的稳定性与构成。

6 结论

本研究提出并评估了一种基于聚类的新方法，利用增强马氏距离（MD）的 K 均值算法将标普 500 股票分类为价值与成长类别。针对传统风格分类（常依赖单一财务比率）的局限，本文的方法整合多公司层面指标并考虑其联合分布，提升了稳健性与可解释性。本文的主要贡献在于 K-Means++ MD 混合算法的开发与实证验证。该方法结合概率质心初始化、重复模拟与基于马氏距离的度量，产生更稳定且理论依据的簇分配。相比标准 K-Means MD 和 K-Means++ MD 实现，混合法显著降低运行间变异，改进内部验证指标（如 DBI 和轮廓系数），并与价值成长投资的程式化定义更紧密对齐。使用 2008 至 2023 年季度数据，基于综合估值与增长指标集对公司聚类，包括 P/B、P/E、P/FCF、P/Rev、1 年动量及 EPS、营收和账面价值的平均季度增长率（AQGR）。绩效分析表明混合聚类法所得组合产生经济有意义分组和稳健样本外收益。特别地，使用严格轮廓系数和距离阈值构建的纯成长组合在风险调整基础上持续超越基准。

本文也解决了聚类应用于金融数据的实际挑战，包括对异常值的敏感性、协方差估计和簇标识的时间不稳定性。这些通过正态分位数转换（NQT）、簇重新分配启发法和基于稳定性的重采样程序组合缓解。从金融计量经济学视角，研究阐明了无监督学习技术在资产分类和组合构建中的潜力。混合聚类框架作为传统因子模型的非参数替代，可适配不同资产范围或条件信息集。然而某些局限仍存。簇特定协方差矩阵计算资源密集，扩展至超二簇（虽具潜在价值）需谨慎经济解释。此外，财务指标选择仍关键；纳入噪声或共线性特征可能降低聚类质量。未来研究可探索替代初始化方法、整合动态或时变特征，或以更复杂监督方法为基准比较聚类性能。扩展也可涉及将所提框架应用于国际股票市场、其他资产类别或宏观经济机制检测。总体而言，本研究贡献了一种稳健、实证基础且灵活的基于风格的股票分类方法。K-Means++ MD 混合法为寻求揭示金融数据潜在结构并将其转化为可操作投资见解的研究者和从业者提供了有前景的工具。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）