AI选股模型特征筛选与处理：SHAP、中性化与另类特征.pdf

上传者：D***
时间：2024/09/11
热度：289
0人点赞
举报

AI选股模型特征筛选与处理：SHAP、中性化与另类特征。模型的特征工程研究。随着机器学习模型在量化投资领域的广泛应用，我们在此前的《Alpha掘金系列之九：基于多目标、多模型的机器学习指数增强策略》、《Alpha掘金系列之十：机器学习全流程重构》和《ALPHA掘金系列之十二：排序学习对GRU选股模型的增强》中，分别深入探讨了结合树模型和神经网络模型的机器学习量化选股架构、模型训练中的标签选择等细节问题和新的排序学习框架的有效性。然而，对模型输入端因子的特征工程尚缺乏系统的研究。本报告旨在填补这一空白，探索几个关键问题：特征选择的必要性、宏观数据与高频数据等的加入是否有益，因子与标签中性化处理的效果。

通过对这些问题的深入探讨和实证分析，我们得出了一系列重要结论：首先，基于 SHAP（Shapley Additive Explanations）的特征选择方法显著降低了模型训练成本，并在一定程度上提升了GRU模型的精度，同时，SHAP提供的可视化工具能够直观地展示各个因子的作用，为进一步优化模型提供了有价值的参考。相比之下，尽管基于简单统计方法的特征选择方法也取得了一定效果，但深度学习特征选择模块STG的表现则不太理想。其次，关于另类因子的引入，加入宏观经济数据和BARRA因子收益率等反映整体市场的另类因子，虽然能够在一定程度上提升LightGBM 模型的超额收益，但总体而言缺乏显著的正向作用。引入高频因子方面，在小微盘股上显示出较高的有效性，而在大中盘股上的应用方法仍需进一步探索。在因子与标签中性化处理方面，将中性化处理后的标签喂入LightGBM模型并与原模型集成，能够显著优化模型的表现，然而，将因子中性化作为模型输入的整体表现则不尽如人意。

改进后因子与策略效果

最终，我们在保持原框架一致性的基础上，采用经过中性化标签合成改进的GBDT模型和经过SHAP特征选择改进的NN 模型，分别在不同成分股上进行测试，取得了显著的样本外效果。具体来说，在沪深300上，因子IC均值为11.91%，多头年化超额收益达22.92%，而多头超额最大回撤为6.56%。在中证500上，因子IC均值为11.58%，多头年化超额收益率为12.35%。特别是在中证 1000 成分股上，因子表现尤为突出，IC 均值达到15.42%，多头年化超额收益率为 25.42%，多头超额最大回撤仅为4.42%。综合这些结果，我们结合实际交易情况，构建了基于各宽基指数的指数增强策略。其中，沪深300指数增强策略的年化超额收益达到15.83%，超额最大回撤为3.18%；中证500指数增强策略的年化超额收益为18.23%，超额最大回撤为8.21%；而中证1000指数增强策略的年化超额收益则高达32.24%，超额最大回撤为3.88%。这些结果表明，我们的方法在不同市场条件下均取得了显著的超额收益和较低的回撤风险。