2023年中期投资策略报告 量化视角下的行业比较与展望分析

  • 来源:中信建投
  • 发布时间:2023/05/11
  • 浏览次数:849
  • 举报

一、宏观因子体系下的资产配置框架与观点更新

我们构建了自上而下从宏观大类资产到细分板块的研究跟踪体系。包括跨市场的全球宏观因子体系,基于 风险平价策略的战略配置组合,基于普林格周期理论的策略的战术配置组合。对债券类资产构造了中债久期择 时策略;对股票类资产构建了A股上市公司业绩跟踪体系。

1.1、宏观因子跟踪:中国上行有所折返,美国欧洲中期回落不变

经济增长类因子中,美国增长最新值为-0.86,近四周小幅上行0.14,分项驱动信号主要来自汇率、权益市 场,短期震荡下行;欧洲增长最新值为-0.56、近四周小幅上行0.27,驱动信号来自汇率、权益市场;结合制造 业 PMI 来看,欧美增长中期回落趋势不变,体现的是库存周期下行的力量。中国增长反弹收敛,最新值为-1.28,近四周下行-0.51,分项信号来自汇率、商品等市场,结合PMI来看,短期经济修复有所折返,中期仍是内生上行趋势。金融条件类因子中,美国、欧洲、中国的金融条件指数最新值分别为 1.2、2.2 和 0.6,近四周分别上升 0.11、0.16、0.33,总体来看,在海外加息预期小幅上升,国内资金利率短期上行的背景下,金融条件略有收 紧。

1.2、战略配置组合:过去1年收益3.3%,区间最大回撤-0.31%

选取对涵盖股票、债券、商品三大类的 7 种国内资产,构建基于资产和基于主成分宏观因子的月频调仓风 险平价策略,其中后者是宏观因子在资产配置中,仅基于风险进行配置的应用。选取的具体标的为:权益资产 中的沪深 300 全收益、中证 1000 全收益指数,债券资产中的中债国债总财富 1-3 年指数、中债国债总财富 3-5 年指数、中债国债总财富 7-10 年指数及中债信用债总财富指数,商品期货中的金指数。每月末求解各资产的权重,使得各资产对组合的风险贡献相等,具体参见《理论与应用指南:风险平价详 解》一文。从策略的表现来看,自 2010 年 3 月以来,风险平价策略取得了 3.88%的年化收益率,年化波动率 1.78%,最大回撤-2.37%,夏普比率 2.18,月度胜率 74%,双边年化换手率 38.6%。策略最近 12 个月收益率 3.3%,最大回撤-0.31%。

2023 年 5 月,策略在沪深 300、中证 1000 上的权重分别为 1.95%和 1.21%,在债券资产中选择中债国债总 财富 1-3 年、3-5 年、7-10 年指数和中债信用债总财富指数上的权重分别为 31.61%、16.88%、12.58%和 32.79%,在沪金上的配置比例为 2.98%。

1.3、普林格周期配置模型跟踪

普林格周期脱胎于美林时钟模型,在美林时钟模型增长/通胀的基础上加入信贷指标来更好的适应货币主 义时代。在普林格周期中,使用先行指标(M1、M2 同比),同步指标(GDP 同比、工业增加值同比),滞后指 标(PPI 同比)三个指标来衡量经济周期,将经济周期划分为六个阶段,并计算了在上述各个阶段中各类资产 的回报率和股票不同风格回报率,结果表明,在经济周期各个阶段的轮换中,不论是大类资产还是股票风格, 其收益率均有所分化,优势品种有超越大市的表现。

在经济周期第一阶段,央行仍实行宽松的货币政策,继续增加货币供应量,推行各种财政政策刺激经济。 从资产配置的角度看,此时一般短期利率会上行,同时债市经历熊市之后也将迎来拐点,因此债券与现金成为 这一时刻的优质资产。但是在这一阶段,生产与通胀仍处于下降区间,高波动资产依然有相当高的风险,不建 议配置。 在经济周期第二阶段,通货膨胀继续回落,GDP 增长率开始上升,虽然闲置的生产力还没有完全的利用起 来,但企业的利润率已企稳开始回升,同时央行为了使经济全面恢复会持续增加货币供给。从资产配置的角度 看,这时权益市场筑底完成,是配置的最佳时期,建议高配。

在经济周期第三阶段,三指标同步上行,经济全面恢复,企业利润率高速上行。从资产配置角度看,此时 各行各业生产力火力全开,对原材料需求较高,商品迎来行情,此使股票受益于企业基本面快速抬升以及经济 上行的预期会获得普涨,此阶段建议高配股票和商品。 在经济周期第四阶段,生产增长开始减缓,通货膨胀上升。GDP 增长虽然在上升,但增速已明显放缓,为 抑制过热的投资,央行开始加息减少货币供应量。从资产配置角度看,由于股票投资收益依赖企业的利润率和 利率水平,商品是最佳的资产配置选择,同时股票也有一定的配置价值,但是需要重点关注盈利支撑。

在经济周期第五阶段,GDP 增长降低到长期增长趋势以下,但是通货膨胀依然继续上升,经济进入滞胀阶 段。从资产配置角度看,权益市场已经疲态初现,不建议配置,而商品处于最后的疯狂,可以配置但是有一定 的风险,此时黄金成为最优资产。在经济周期第六阶段,三指标同步下行,经济增长严重乏力,从而导致了通货膨胀开始下降,企业利润率 也遭遇滑铁卢。从资产配置角度看,此时建议配置避险属性明显的黄金与债券,其中债券以现金更优。

改进版普林格周期配置建议跟踪

根据我们的改进版普林格周期,普林格六周期信号更新:阶段 2,预计持续到 6 月前后。当前市场流动性 有所改善,先行指标预计上行。2022 年 12 月以来,疫情快速过峰,全国各行各业开始复苏,春节期间第三产 业相关行业迎来报复性反弹,预计同步指标触底回升,正式进入上升区间。当前物价开始回落,滞后指标下 行。建议配置股票。根据我们改进的普林格周期理论构建的策略,过去 7 年年化收益 21.33%,夏普比率 1.66,最大回撤6.38%,分年来看,过去 7 年策略均获得正收益。

1.4、中债久期择时策略

中债久期择时策略为季度调仓,每季度末选择未来一年预期收益率最高的期限品种进行集中持仓,当策略 一段时间表现不佳时选择将持仓信号改为动量信号,即选择过去一段时间表现较好的品种进行集种持仓。2022 年 11 月 30 日开始样本外跟踪,截至 2023 年 4 月底,中债久期择时策略累计绝对收益 1.03%。 我们基于 2023 年 3 月底模型信号对 2023 年二季度持仓进行决策,中债久期择时策略选择货币型市场基金 (银华日利)进行持仓。

1.5、上市公司业绩跟踪体系

根据 A 股上市公司业绩跟踪体系,沪深 300,创业板指超预期值低于同期均值,中证 500 超预期值高于同 期均值,但正向超预期来自少数个股的集中贡献,指数整体超预期情况并不稳定。从一季报来看,三大指数的 超预期程度并不乐观,尤其主板一季报低于预期说明中美经济分化下海外经济对主板影响也比我们此前预期更 高,不过考虑到四月份中国 GDP 等指标迎来利好,上市公司业绩有望在二季度持续回升。一季报情况显示当 前基本面尚不支持全面牛市的到来,建议精选受益于中国经济内生增长的超预期个股。 通过回测,最近 5 年(2018 年-2022 年)我们的 A 股指数择时模型沪深 300 择时准确度为 75%,中证 500 择时准确度为 60%,创业板指择时准确度为 45%。

二、量化视角下的行业比较与展望

我们根据自上而下的宏观、财务指标、行业量化基本面、分析师预期、机构持仓、量价等多维信息,构建了 六维度综合行业配置体系。

2.1、宏观因子跟踪体系

我们的宏观因子跟踪体系综合选择了多维度的宏观因子,包括:反映房地产开发进度的房地产开发投资累 计同比,反映工业企业利润的 PPI 和工业增加值,反映国内物价情况的 CPI 和生猪均价,反映美国物价指数的 CRB 指数,反映国内经济增长情况的名义 GDP 和实际 GDP,反映国内货币发行情况的 M1,M2 和社融增速,反 映国内债券市场流动性的 10 年期国债收益率,信用利差,期限利差,反映美国债券市场流动性的 10 年期美债 收益率,反映 A 股市场估值水平的 EP(除金融市盈率倒数),DP(上证红利指数股息率),反映 A 股市场活跃 度的上证指数波动率。 我们模型构建的方法采用逐步回归法,对每个中信一级行业(除综合金融)构建对应模型,按照预测值选 前 3 行业组合,2018 年 1 月到 2023 年 4 月相对行业等权累计超额 190.5%,年化超额 22.13%。

2.2、行业基本面跟踪体系

行业的一个基本面信息来自中观的量化基本面。我们通过构造量化基本面指标,对单个行业进行择时,具 体方法为:通过阅读行业研究深度报告,厘清行业逻辑和重要指标,构建待选指标池,测试其中的指标和ROE的相关性,选取和ROE相关性高的指标计算和行业相对万得全A指数超额收益的相关性;最后选择和ROE、 行业超额收益都高相关的指标构造单行业择时策略。 此前已经完成了包括煤炭、钢铁、有色金属、农林牧渔、建材、化工、家电等行业的中观择时研究,各行业的多空年化收益率均高于 12%。

2.3、财务指标跟踪体系

财务因子对应行业基本面信息的实际值。根据最新可得的实际财务数据,我们梳理了涵盖偿债能力、成长能力、收益质量、现金流量、盈利能力、 营运能力、资本结构等七个维度,总计 49 个财务指标。 由于多数财务指标的逻辑对金融地产相关行业适用性较低,针对中信一级行业构建财务因子时,不包含银行、非银行金融、房地产、综合金融四个行业。 考虑到权益市场边际定价的特征,并且财务指标都是比率值或增长率类数值,其一阶差分和二阶差分计算 方便且可以横向比较。因此对每个财务指标,在使用指标原始数值作为因子的基础上,我们进一步计算其环比 增量因子、二阶差分因子。

总体来看,对财务指标因子的测试表明,就行业之间的横向比较和优选而言,较为有效的财务指标类别包 括盈利能力和成长能力类的环比增量因子,以及成长能力类的原始因子;即盈利和成长能力相关指标及其边际 变化对行业的选择有重要参考意义。

复合财务因子。 上述财务单因子中,对同一指标类型、同一构建方式下的不同因子,存在相关系数较高的情况下,保留其 中夏普比率较高的多头组合,及夏普比率、胜率综合较高的第 1 或 5 组组合。 根据组合构建符合因子的方式为:对符号多头组合,各组合的持仓行业赋予权重 1,非持仓行业赋 值 0,对分组组合,各组合的持仓行业赋予权重 0.5,非持仓行业赋值 0,从而得到单期各行业的复合财务因 子。 根据复合财务因子对行业从高到低分 5 组测试,当出现单期排名相同的情况时,向前追溯往期得分,直至 可以完全区分各因行业的排序为止,将最终的排名作为分组依据。

复合财务因子整体呈较好的单调性,2007 年 8 月以来,第一组组合年化超额收益率最高, 为 7.16%,夏普比率达 0.326,最大回撤相对更小;第五组表现最差,严格的单调性在第三四组之间被打破, 二者的表现在历史大部分时间中非常接近。

2.4、分析师预期跟踪体系

我们分别计算单季度 ROE 数值、单季度 ROE 环比增量、ROE-TTM 数值、ROE-TTM 环比增值四种类型的实 际行业 ROE 因子,并使用不同的报告期作为数据计算节点:历史_报告期 0(与实际财务数据完全可得的最新 报告期)、未来_报告期 1(历史报告期 0 的下一报告期)、未来_自然季 0/1/2(计算时点所属季度对应的报告 期或以此向后顺延 1-2 个报告期)。其中,历史_报告期 0 为实际类因子,其余四种报告期的计算均使用了未来 信息。 我们对未来的 ROE,计算行业预期 ROE 的上调比例/环比变化因子,选择取值前 4 的行业构造多头策略。预期调整类的 ROE 因子的表现明显好于行业预期 ROE 数值因子,其中各有一 个因子的年化超额收益率超过 5%,夏普比率接近 0.3。

2.5、基金经理跟踪体系

在行业轮动的探索上,我们认为公募股票型基金的基金经理对板块仓位的看法体现着市场关注的焦点,如 果能够构造指标反应基金经理对板块轮动的方向把握并跟踪,就可以跟随市场上最优秀的基金经理进行行业轮 动从而获取超额收益。而公募基金的全持仓披露存在两个问题:一是存在滞后性,公募基金半年报及年报披露 期相较于披露时点有两个月以上的延迟,二是频率过低仅有 6 月和 12 月披露,这导致很难使用现有数据构造 模型。 因此我们基于基金仓位估算结果构造行业轮动模型,在基金仓位估算部分,基金池选择并入二级分类 18 个月以上的普通股票型基金和偏股混合型基金。由于中信一级行业分类共有 30 个,短期内会出现同涨同跌情 况,使用回归时共线性问题会导致对行业仓位的估算出现较大误差,所以我们将 30 个中信一级行业分类人为 降维至 10 个板块进行分析。

我们使用估算板块仓位构造动量策略,使用过去半年至过去一个月板块变动最大的板块构造持有一个月的 多头,为了防止通道效应,策略分为 4 通道。策略相对十个板块平均持有,从 2011 年至今年化超额收益率 7.84%,多空收益年化 14.55%。今年以来多头相对板块基准超额收益 1.5%,多空收益 5.23%。

三、中美分化情景的量化基本面分解

本节内主要容是我们各体系之外,是康波视角下中美独立经济分化下的大胆推演和模型补充。

3.1、从中美PMI分化,自上而下看A股行业趋势变化

2020 年 9 月中国房地产“三条红线政策”拉开了中美 PMI 彻底分化的序幕,2023 年中国官方制造业 PMI 正在刷新 10 年新高,美国 PMI 则持续下行至 2008 年次贷危机以来最低水平(除 2020 年 4 月新冠事件),两者 正呈现 A 股 33 年历史上最大分化,经济分化仍将继续拉大。我们选取各中信一级行业较大市值的 1/2 个股作为行业大市值代表并计算 2018 年 3 月中美贸易战以来行业 大市值月度收益与中美 PMI 的相关性,结果发现:大市值中,交运,传媒,农牧,医药,商贸,家电,建材, 机械,汽车,电子,计算机,轻工,通信,非银金融,食品饮料与中国 PMI 正相关。基础化工,汽车,石油石 化,钢铁与美国 PMI 正相关,通信与美国 PMI 负相关。 其中 2018 年 3 月中美贸易战以来,通信是唯一行业表现与中国 PMI 正相关,与美国 PMI 负相关。这一现 象也一定程度解释了今年以来三大运营商较为优异的表现。

我们选取中信一级行业绝对收益作为各行业代表计算 2020 年 9 月以来与中美 PMI 相关性,结果表明:钢 铁,建材,商贸零售,家电,纺织服装,食品饮料,银行,非银行金融,房地产,交通运输与中国 PMI 正相关, 石油石化,煤炭,有色,电力,钢铁,基础化工,电力设备及新能源,电子与美国 PMI 正相关。 从中信一级各行业指数月度表现分析,2020 年 9 月以来,以家电,地产为主的地产链以及以食品饮料为主 的消费板块继续维持了与中国 PMI 的正相关关系,但以煤炭,有色为代表的上游周期行业则呈现与美国 PMI 的 正相关。需正确面对本轮中国经济复苏的行业受益特征与历史的显著变化。

3.2、一季报业绩整体低于预期导致指数4月中期调整

我们采用超预期因子 作为衡量当期宽基指数表现的指标,以是否超过超预期因子季节性阈值为目标来确定宽基指数整体表现是否超 预期。截止 4 月 10 日 2023 年一季报预告及公告信息,沪深 300,中证 500,创业板指和创业板综的业绩披露及 各自阈值对比结果显示主板超预期而中小市值板块低于预期。具体表现为:沪深 300 板块超预期,中证 500、创 业板均低于预期。主板的业绩情况较为乐观,值得重点推荐,中小市值板块一季报业绩初现不及预期的趋势需 重点跟踪关注。 而后 4 月 21 日的超预期结果,主板最终低于预期出乎我们预料,中证 500 超预期值高于同期均值,但正向 超预期来自少数个股的大幅超预期,指数整体超预期情况并不稳定,创业板综和创业板指依然处于低于预期状 态。

整个4月份,沪深300当月绝对收益-0.54%,中证500当月绝对收益 -1.55%,创业板指当月绝对收益-3.12%, 创业板综当月绝对收益-2.60%,4 月份随着一季报发布期的密集到来,之前表现低迷的主板相对表现优异,之前 表现亮眼的中小市值板块受业绩压力表现有所回调。

3.3、季报业绩兑现分化逻辑:金融板块亮眼,传媒等部分子板块独立崛起

我们将 A 股市场个股按照内在相关性划分为 10 个风格板块,在业绩增速计算上采用剔除亏损样本后的整 体法进行评估,在 2023Q1 中业绩增速环比正增长的风格板块包括周期二、金融和成长,其中周期二和金融板块 业绩增速环比增长在 10%以上。周期二板块包括建筑,建材,轻工制造三个行业。金融板块包括地产,非银金 融,地产三个行业。成长板块包括传媒,电子,计算机,通信四个行业。

在中信一级行业中,在业绩增速计算上继续采用剔除亏损样本后的整体法进行评估,2023Q1 业绩增速环比 正增长的前五行业为非银行金融,房地产,电力及公用事业,电力设备及新能源,传媒,以上行业业绩增速环 比增长均在 20%以上。 其中还应注意部分风格子版块的独立崛起现象,比如传媒在今年行情表现突出的 TMT 板块中业绩增速环 比表现尤其领先,电力及公用事业在交通运输板块业绩增速环比表现突出,建筑在周期二板块中业绩增速环比 表现具备优势。

四、选股策略一一机构博弈下的技术破局

在市场 alpha 难度大幅提升的背景下下,我们仍根据机构博弈市场的潜在规律挖掘到了继续高度有效的选 股策略,并大胆尝试新 AI 技术的投资应用。

4.1、沪深300量化精选组合

中信建投的多因子组合基于常见的大类因子以及分析师因子构建,通过有效性检验精选有效因子,并结合 中信建投的六维度行业轮动 ETF 组合结果,从实现对好行业+好个股的优中选优。 沪深 300 内量化精选组合从 2016 年 2 月至今,年化收益 25.88%,相对沪深 300 年化超额收益 20.79%,最 大回撤 32.19%,信息比 1.85%。 今年以来(截止 4 月 30 日),策略绝对收益 7.55%,相对超额 3.34%。

4.2、摩根持仓等选股策略表现跟踪

摩根持仓策略。基于北向机构托管持仓因子的检验,筛选出具有显著 alpha 收益的机构,定期追踪其持仓以及增持股票, 构建的复合策略。光伏增强策略。在光伏行业中,对 10 大类 300 多个因子进行检验,筛选出表现较好的风格中最突出的因子,构建光伏行 业多因子组合,策略具有显著的收益。基本面 OPENFE 策略。基于 openFE 基本面因子挖掘,将三大报表的数据以及基础算子之间按照一定的结构进行排列组合,构建 出 70 万个不同风格类型的因子,再利用 openFE 的两步筛选法,筛选出不同风格类型下表现最好的合成因子。 利用构造的合成因子以及基础因子,训练月频的选股模型,策略收益较为显著。

4.3、AlphaZero:基于AutoML-Zero的高频数据低频化因子挖掘框架

简介。在量化研究中,因子构建是模型的基石,因子的好坏直接决定了策略的收益率,因此因子挖掘历来是量化 研究的重点。传统的经验为主的因子挖掘方式经历几十年的发展,早已进入了瓶颈期,因子拥挤度不断增加, 在经历市场风格切换时非常容易发生踩踏,导致大幅回撤。对于人工智能在因子挖掘中的应用,目前主要还是停留在遗传规模的方法基础上。近几年机器学习发展迅 速,以 AutoML 为代表的特征工程以及模型搭建也早以在工业界实现了广泛应用。本文我们尝试将 Google Brain 团队提出的 AutoML-Zero 模型应用与因子挖掘领域,结合实际情况对模型做了相应的修改,构建了 AlphaZero 框架。 AlphaZero 主要是对因子的可解释性,因子挖掘的效率,以及因子的多样性上做了相应的优化,最终的框 架不仅能够应用于批量因子的生成,也能够应用于现有因子的改进。

AlphaZero 。传统的因子挖掘以人工构建和以遗传规划为代表的机器挖掘为主,我们在之前的报告中也曾尝试过将遗传 规划与分析师因子结合进行因子挖掘。 AutoML-Zero 为因子挖掘提供了新的思路,本文我们在 AutoML-Zero 的基础上, 构建了 AlphaZero 的因子 挖掘框架。 与所有进化算法面临的问题一样,AlphaZero 同样面临适应度,进化效率以及物种多样性三者之间的不可 能三角问题,即不能够同时满足种群适应度较高,进化效率快,以及种群具有较好的多样性的条件。在实际问 题中,需要做相应的取舍。在 AlphaZero 中,对于三者我们分别采取了一定的优化,从而能够在较高的效率下 实现因子的挖掘。

与传统的遗传规划以及 AutoML-Zero 相比,AlphaZero 在挖掘的效率以及因子的可解释性上做了更多的优 化,首先,我们对所有数据采用了量纲化处理,避免了在因子挖掘中经常出现的不同量纲之间的因子运算,并 且我们要求最终生成的因子为无量纲因子,这样使得因子可解释性问题有所缓解。其次,对于合成因子的长度 我们也进行了限制,避免了因子计算过于复杂,容易导致的过拟合问题。 与 AutoML-Zero 不同的是,由于计算效率的差距,以及金融数据的实际问题,我们并没有简单的四则运算 作为基础算子,而是在此基础上,加入了更多因子构建时常用的算子。在搜索空间上,不同于 AutoML-Zero 的 无关联搜索,我们限制了所有的变异均需要与原有的代码有关联,即所有在图结构上的改动均与原有的边或者 节点相关联。通过这两项改动,能够极大的提高进化的效率。

算子及因子。与 AutoML-Zero 类似,我们将基础数据分为三类; 标量 s:常数 2,5,10,20,240(仅用于分钟数据) 向量 v:中证全指日频涨跌幅,振幅,换手率,上涨股票占比 矩阵 m:股票日频最高价,最低价,开盘价,收盘价,成交量;分钟频率最高价,最低价,开盘价,收盘 价,成交量 为了使得合成的因子具有一定的可解释性,每类数据都标有相应的量纲(高开低收量纲为元,成交量量纲 为手,其他无量纲),在后续计算中,只有特定的量纲之间能够进行合法运算。 所有算子分为三类,分别是元素运算符,时间序列运算符以及横截面运算符。在算子的构建上,尽量选择 基础算子,通过个体在搜索空间内的不断进化,构建出最终适应度较高的种群。

因子挖掘结果。对于种群而言,我们更关注整个种群的统计值,下图展示了进化轮数与种群个体的平均 IC 以及最大个体 IC 的关系,可以看出,随着轮数增大,种群的平均 IC 会不断增加,而 IC 最大的个体变异导致的 IC 增加存在一 定的几率发生,因此会出现几轮不变的情况。 种群的平均 IC 会出现定期下滑的情况,正式由于我们的灾难算法删除了部分相似个体导致的结果,但是很 快种群的 IC 会得到恢复。

从整体种群的表现来看,AlphaZero 能够有效的批量生成因子,对于个体而言,样本内适应度最高的个体 IC 达到了 0.08。因子在样本外的表现同样突出,以以下因子为例: Alpha1 。因子一的定义为: ts_norm(cs_norm(HIGH),20) 因子一的定义较为简单,为改进后的反转因子,代表了股票最高价的横截面排序的 20 日时间序列标准 化,排序相对于过去 20 天的排名越低,未来收益越高。 因子的 IC 均值为-0.0366,IR 为 4.38。因子胜率为 61.22%(小于 0 占比)。从 IC 的时间序列来看,因子在 大部分时间均处于负向 IC 区间,在 4 月份有过明显的反转。 从因子的分组收益率可以看出,多头组自 19 年起,累计收益 118%,空头组的累计收益为-16%,多空年化 收益 26.17%,多头组的年化收益为 23.77%。

Alpha2。 因子二的定义为: ts_max((ts_min(interval(volume, sum, 9:30, 10:00)/VOLUME, 2)+ts_corr(high, volume, 240)), 5) 因子二是开盘后半小时成交量占比的两日最小值与日内的最高价与成交量的相关性求和之后取五日最大值 得到的因子,很明显,此因子是由原始开盘后半小时成交量占比因子与最高价成交量相关性两个因子的基因进 化得到的合成因子。 因子二的 IC 均值为-0.0367,IR 为 7.33,因子胜率为 68.21%,因子二的稳定性和胜率显著高于因子一。 从因子的分组收益率可以看出,多头组自 19 年起,累计收益 103%,空头组的累计收益为-7%,多空年化 收益 22.51%,多头组的年化收益为 21.39%。

4.4、基于openFE的基本面因子挖掘框架

简介。度学习,启发式算法以及枚举法分别代表了三种因子挖掘中的方法,深度学习法的优点在于效率较好且 样本内效果最好,缺点是生成的因子无法解释且要求算子可导。启发式算法效率介于枚举法和深度学习之间, 能够生成批量因子,因子解释性一般,无法保证找到全局最优。枚举法是一种暴力算法,一般生成的因子形式 都较为简单,可解释性较好,生成因子数量较多,导致逐一检验时效率较低,因此需要对因子检验的效率进行 优化。 openFE 是一种基于枚举法的 Expand-And-Reduce 框架,能够高效的检验大量因子(>106)。

OPENFE。不同于 AlphaZero 用于量价因子挖掘,openFE 生成的因子结构较为简单,可解释性较好,因此非常适合用 于基本面因子挖掘。本文采用三大报表中的数据作为基础特征,在此基础上构建合成因子,通过 openFE 进一 步筛选,保留表现较好的因子作为新的合成因子。 OpenFE 是一个基于枚举法的 Expand-And-Reduce 框架,首先通过基础特征以及算子的排列组合构建具有一 定结构的风格因子。而后通过两步的筛选步骤,对因子进行筛选,保留最终特征重要性最高的因子。

因子 Expand。基础特征采用三大报表中的数据(资产负债表,损益表,现金流量表),其中资产负债表为时点数据,损 益表和现金流量表为时期数据,我们将损益表和现金流量表中的数据均转为季频数据。 三大报表中的字段共计有 100 多,大部分字段缺失值较多,对于缺失值大于 10%的字段,予以剔除。利用 剩下的所有字段训练一个 LGBM 模型,保留每张报表内重要性排名前 15 的因子。在这些因子的基础上,再加 入市值,行业,动量(过去一个月收益率)三个对股票收益解释度非常高的因子。共计 45 个基础特征以及 3 个额外添加的特征。为使得因子具有较好的可解释性,采用一些较为简单的算子,包括四则运算(+,-,*,/)、同比算子 (YOY)、环比算子(QOQ)、以及横截面排序算子(CSRank)。

如果采用暴力方式进行排列组合,即使是简单的二阶因子,以上因子以及算子能够组合出~109 个因子, 难以进行处理。 不同类型的风格因子往往具有一定的结构特征,例如常见的 PE,PB,PS 等估值因子均为简单的一阶因子,分 子端净利润/净资产/主营业务收入来自三大报表,分母端为总市值。在构造估值类合成因子时,我们将其扩展 为二阶因子,具体做法为分子端的单因子改为 a±b 的形式,其中 a,b∈损益表/现金流量表/资产负债表,分 母端为总市值,当 a=b,且算子为+时,此二阶因子等价于 PE。 同理,借鉴资产负债率,ROE,净利润现金比率,PE,净利润同比增长率等因子结构,本文构建了杠杆因 子,收益因子,质量因子,估值因子,成长因子共 5 类风格因子。因子均为二阶因子 (不考虑 CSRank),总因子数量~70 万左右。

因子 Reduce 。原始的 70 万因子逐一检验效率较低,openFE 采用两步的筛选方法,极大的提高了筛选效率。在第一步筛 选中,采用了 successive halving(连续二分法)进行单因子检验。具体做法是首先采用部分小样本,对每一类 风格的所有因子进行单因子模型 LGBM 的训练,计算特征的模型表现。下一轮增加样本数量,保留第一次训练 中表现较好的部分因子,再此进行训练,以此类推,不断增加样本数量,减少因子数量,直至用全样本训练, 得到最终筛选的因子列表。

经过第一轮的单因子筛选后,保留约 1/16 的因子,此时因子数量依旧较多(>103),为了进一步筛选因子, 且剔除因子间的相关性问题,第二轮用所有保留的合成因子以及原始的 48 个基础特征进行多因子模型 LGBM 的训练,最终利用 LGBM 输出所有因子的重要性排序。LGBM 在计算特征重要性时有两种方式,分别为 gain 和 split,其中 gain 是通过计算总的 gini 增益来得到特 征重要性,split 是计算模型中特征出现的次数来计算得到特征重要性,本文采用 gain 来计算特征重要性。 在利用 LGBM 进行训练时,openFE 采用 feature boosing 的方法计算因子的边际贡献,即首先利用基础特征 计算模型的预测值 y1 以及效果 metric1,将 y1 作为新的训练的初始值,用新因子训练得到 y2 和 metric2,新因 子的边际贡献为 metric2 -metric1。

因子回测。利用 OPENFE 的方法挖掘出 10 个基础因子以及 50 个合成因子,构建选股模型。具体做法是从 2020 年 1 月 31 日至 2022 年 12 月 31 日,每月滚动训练 LGBM 模型,模型的输入为过去 10 年的月频因子,预测目标为未来 一个月收益率。训练集长度为 9 年,测试集为 1 年,按照时间先后进行切分。股票池为全 A 股票,剔除其中的 次新股,ST 股,涨跌停股票以及流动性过低的股票(日成交金额<500 万或者换手率<0.02%)。每次调仓等权买 入得分最高的 400 只股票。

4.5、如何部署本地版大语言模型提高研究效率

简介 基于网页交互模式的 ChatGPT 对于人类的生活以及工作方式带来的极大的便利,然而这只是 ChatGPT 的冰 山一角。API 以及插件系统的开放,使得 ChatGPT 能够结合各种程序以及软件,让 ChatGPT 的应用空间充满无 尽的可能性,这是真正意义上 AI 的 iphone 时刻。 对于金融工程研究而言,除了日常的网页版交互完成一定的指令之外,通过 API 接口能够使研究工作效率 极大提高。同时,随着各类技术的应用,本地化部署开源大语言模型框架也得以实现。

本地部署Vicuna。OPENAI虽然提供了强大的API支持,能够极大的拓展ChatGPT以及其他模型的应用领域,但是大部分模 型均未开源,而且在使用时存在诸多限制。除了OPENAI 的ChatGPT之外,各大互联网企业也纷纷推出了自己 的大预言模型,例如百度的文心一言,阿里的通义千问,商汤的商量等,与 OPENAI 的战略一致,这些模型也 均未开源。 除此之外,meta开源了LLaMA 模型,清华开源了 GLM 模型,使得一般企业和个人能够部署和训练自己的 “ChatGPT”。 但是大语言模型对于硬件要求极高,限制了个人用户部署自己的“ChatGPT”,随着一系列优化技术的提 出,例如 ZeRO、Gemini、LoRA、AutoChunk 等,使得训练和部署模型的成本极大下降。 各个优化模型也纷纷提出,包括 Colossal-AI,Alpaca, Vicuna 等,能够以较低的成本训练或者部署对话模 型。使得在个人电脑上部署成为可能。

以 Vicuna 模型为例,介绍如何在个人电脑上部署模型。Vicuna 模型是基于 LLaMA 的微调模型,是由 加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员共同提出的。他们从 ShareGPT 收集 了大约 7 万个对话,借鉴 Alpaca 的微调方式,将 LLaMA 模型进行微调。最终实现了 ChatGPT 大约 90%的质 量,但是训练成本仅 300 美元左右。 在本地运行以下命令加载模型: 单 GPU 模式:python3 -m fastchat.serve.cli --model-path /path/to/vicuna/weights 单 CPU 模式:python3 -m fastchat.serve.cli --model-path /path/to/vicuna/weights --device cpu。

五、量化策略应用场景实战化案例

根据前文的思路和独立的模型,我们的最终目的是实现多策略的有效融合,以及适合机构规模的实盘化测 试,本章列举了相关的实战化案例。

5.1、六维度行业轮动策略及历史表现

根据自上而下,结合宏观、量化基本面、财务因子、分析师预期、机构偏好、量价技术和资金流等维度, 我们构建了六维度综合行业配置模型,并自 2022 年 2 月开始对外跟踪。 自 2008 年至初 2022 年 4 月 30 日,模型年化收益率为 15.21%,相对行业等权组合的年化超额收益率为 11.69%,除 2008 年以外,其余年度均获得正超额收益。 2023 年以来(截至 4 月 30 日),六维度行业轮动模型累计收益率为 12.30%,相对行业等权超额收益率为 6.78%。自 2022 年 2 月对外跟踪以来,模型累计收益率 17.30%,相对行业等权超额收益 19.06%。

5.2、六维度行业轮动主动权益基金FOF策略

在如何将效果优秀的六维度行业轮动模型应用至基金选择上,我们进行了一定的探索,建立了基于规划求 解的六维度行业轮动 FOF 组合。 具体应用上,主要思想是将基金组合在各个推荐行业的暴露尽量控制相等,同时使得期望 Alpha 最大,同 样地,为了避免部分行业主动权益基金暴露不够,基金池选择主动权益基金和指数型股票基金对组合权重规划 求解。

基金池选择成立 18 个月以上的主动权益基金和被动指数型基金,计算可得全持仓每只基金在每个中信一 级行业的持仓权重,按照每个信号行业选取相应行业占基金持仓超过 60%的对应基金,每个中信行业信号之间 等权重配比;若无 60%以上行业,则以该行业占比最大的基金选入。其中弱约束为组合在各行业 beta 暴露均 大于 0 且相等。 月度调仓的六维度行业轮动 FOF 体现了行业轮动信号的行业把握能力和基金本身中期能力,剔除暂停大额 申赎的基金和定开基金。主动权益 FOF 策略 2016 年至今年化收益 24.47%,超额年化 15.52%,信息比 1.43。今年以来绝对收益 15.57%,相对主动权益基金累计超额收益 13.31%。(截止 2023 年 4 月 30 日)。

5.3、六维度行业轮动被动指数基金FOF策略

被动指数基金 FOF 基金池选择成立 18 个月以上的被动指数型股票基金,其余计算方法和主动权益基金 FOF 类似,仅在部分暴露参数上进行调整。 被动指数基金组合 2016 年至今年化收益 19.62%,超额年化 14.64%,信息比 1.33。今年以来绝对收益 11.48%,相对股票指数基金超额收益 6.68%。(截止 2023 年 4 月 30 日)。

五层递补 ETF 轮动策略将目标设定为尽量使用披露持仓进行规划求解,在原始的 ETF 策略中加入根据 ETF 披露持仓,将全市场成交规模较高行业和预期收益较高行业交叉保留强势行业和根据 ETF 披露持仓,在给定 5 行业中剔除 ETF 持仓较少行业两层进行递补。 ETF 行业轮动增强组合2016年至今年化收益 25.11%,超额年化 19.9%,信息比 1.93。今年以来绝对收益10.62%,相对股票指数基金超额收益 5.85%。(截止 2023 年 4 月 30 日)。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
分享至