2025年量化投资组合管理研究系列专题报告:中证创新药指数增强的构建

  • 来源:江海证券
  • 发布时间:2025/09/09
  • 浏览次数:216
  • 举报
相关深度报告REPORTS

量化投资组合管理研究系列专题报告:中证创新药指数增强的构建.pdf

量化投资组合管理研究系列专题报告:中证创新药指数增强的构建。医药行业高质量发展:我国医药行业正从“仿制药依赖”向“创新驱动”转型。我国医药产业规模已跃居全球第二位。在研创新药数目占全球比重达到30%左右,充分体现了中国医药创新的强劲势头。“十四五”期间,我国全方位构建药品安全防线,全链条推动医药产业高质量发展进程。创新药、CXO、高端医疗器械等细分赛道具备高研发壁垒与高盈利弹性。创新药指数投资价值:中证创新药指数以沪深市场中从事创新药研发、生产及相关产业链的上市公司为样本,通过研发投入占比、创新药收入占比、专利数量等指标筛...

1 研究摘要

本报告聚焦中证创新药指数增强策略的构建,旨在为投资者提供精准捕捉创新药产业红利的量化工具。研究背景基于创新药行业的高增长潜力,人口老龄化驱动需求扩张、政策支持产业创新转型,而中证创新药指数因覆盖研发、生产及产业链核心环节,成为跟踪行业景气度的优质基准。研究方法上,首先从 120 余个基本面及量价因子中筛选适配标的,通过去极值、标准化、归一化及 Barra 回归处理数据,然后进行单因子回测,按年化收益、夏普比率及分组单调性排序,结合因子正交消除共线性,最终通过线性合成得到核心因子;基于合成因子构建指数增强模型,设定以最小化组合因子值为目标,同时控制个股权重偏离、跟踪误差、集中度等约束。结果显示,合成因子分组表现优异(第一组年化收益率 21.4%,夏普1.275),指数增强策略年化超额收益达 8.74%,年化跟踪误差 4.18%,符合指增要求;分年份看,每年超额均为正,2021 年及 2025 年超额显著(分别为 13.84%、29.71%),且最大回撤较基准改善,验证了策略在创新药行业周期中的有效性。本研究为创新药领域的精细化配置提供了可落地的量化方案。

2 研究背景

2.1 行业指增的必要性

行业指增满足投资者精细化配置的需求,弥补了宽基指数产品的短板。宽基指数(如沪深 300、中证 500)覆盖全市场行业,难以精准捕捉单一行业的景气周期红利。随着居民财富向权益市场转移,投资者对行业敞口的把控需求日益提升。例如在医药行业创新周期上行阶段,投资者想要通过行业指增产品锁定行业收益,同时规避非行业相关的个股波动风险。此外,行业指增可针对不同风险偏好投资者提供分层选择(如高弹性的创新药指增、低波动的消费指增),增强了行业投资的灵活度。 行业内个股分化加剧,增强策略具备超额收益空间。行业内个股分化的核心原因在于:一是行业细分领域差异(如创新药下抗体偶联药物(ADC)、细胞与基因治疗(CGT)、代谢性疾病药物等不同领域的细分);二是企业研发能力、商业化效率的分化;三是政策对细分赛道的差异化影响。这些因素为行业指增策略提供了土壤,通过量化模型筛选高景气细分赛道、表现优异的个股,可在行业基准收益基础上获取稳定超额收益。行业指增能够一定程度对冲行业系统性风险,提升组合抗波动能力。行业指增通过多因子模型动态调整个股权重,在行业下行周期中可通过调整权重降低回撤。

2.2 行业指增的市场驱动因素

一方面,国内行业政策从广谱支持转向精准滴灌。例如,医药行业的《“十四五”医药工业发展规划》明确聚焦创新药、高端医疗器械,为行业指增提供了清晰的赛道选择逻辑;另一方面,行业指数产品因具有独特的赛道贝塔,成为机构资金配置行业的投资工具。截止至 2025 年 8 月 26 日,沪深市场共计 1273 支 ETF,合计规模约 50700 亿,其中行业 ETF 在 ETF 规模中占比约5.05%,在股票型 ETF 中占比约 13%。政策引导下行业型产品具增长潜力。

从机构视角看,保险资金、社保基金对行业配置的需求显著增加。保险属性的资金因负债端久期长,可配置医药、消费等长坡厚雪行业获取长期收益,而行业指增可通过增强策略提升收益水平,匹配其收益目标;此外,北向资金对行业龙头的持仓集中度提升,推动市场对行业内优质个股的定价效率提升,为指增策略提供了更清晰的选股逻辑。

2.3 医药行业指增的核心逻辑

医药行业是典型的弱周期行业,疾病治疗、健康管理的需求具备刚性,受宏观经济波动影响相对小。截至 2024 年末,我国 60 岁及以上老年人口 3.1亿人,65 岁及以上老年人口 2.2 亿人,分别占总人口的 22%和 15.6%,已进入中度老龄化社会,未来还将进一步加深1。老龄化加剧推动慢病管理、肿瘤治疗、养老医疗等需求快速增长,预计 2030 年中国医药市场规模预计可达到 26540 亿元(3707 亿美元2),为行业长期增长提供支撑。我国医药行业正从“仿制药依赖”向“创新驱动”转型。2025 年上半年,国家药品监督管理局共批准 43 款创新药,同比增长 59%,创历史同期新高。其中,由中国企业研发制造的有 40 款,跨国企业研发进口 3 款,改革政策红利正在转化为产业发展动力。3我国医药产业规模已跃居全球第二位。在研创新药数目占全球比重达到 30%左右,这一数据充分体现了中国医药创新的强劲势头。“十四五”期间,我国全方位构建药品安全防线,全链条推动医药产业高质量发展进程。4创新药、CXO、高端医疗器械等细分赛道具备高研发壁垒与高盈利弹性。2024 年生物医药销售毛利率达 32.52%,排名居前三5。从个股维度看,销售毛利率居前的以医药生物和计算机行业个股居多,其中百利天恒、迪哲医药和神州细胞位居前五。CXO 龙头企业药明康德 2025 年中报,实现营业收入约 207.99 亿元,同比增长约 30.64%6,显著高于传统医药板块,为医药指增提供了高弹性的底层资产。

2.4 中证创新药指数捕捉医药行业核心增长极

中证创新药指数以沪深市场中从事创新药研发、生产及相关产业链的上市公司为样本,通过研发投入占比、创新药收入占比、专利数量等指标筛选样本股,涵盖创新药研发企业(如恒瑞医药、百济神州)、CXO企业(如药明康德、泰格医药)、创新医疗器械企业(如迈瑞医疗、微创医疗),创新属性纯正,精准贴合医药行业创新转型的核心方向。中证创新药业绩弹性显著,长期收益跑赢行业基准。指数成分股的盈利增速持续领先。2025 年 6 月归母净利润同比增长 22.09%,高于中证医药指数的 4.59%,为指数增强策略提供了坚实的业绩基础。

2020-2025 年 8 月,中证创新药指数年化收益率较其他主流生物医药指数较好,夏普较高,胜率较高。2025 年中证创新药指数表现强劲,2025 年内涨幅超 30%。这得益于政策、产业、资金等多因素共振。医保“双轨制”优化支付,商保目录为高价值新药开辟通道,研发周期缩短。临床成果密集兑现,ADC、GLP-1 等领域突破显著。资金端,指数估值处于历史低位。老龄化与消费升级驱动需求,行业从“仿制跟随”迈向全球创新前沿。

中证创新药指数成分股平均自由流通市值达 259.8 亿元,近一年平均日成交额达 2213.6 亿元7,流动性较好。优异的流动性可降低指增策略调仓过程中的冲击成本,便于量化模型进行个股权重调整与组合优化,提升策略的执行效率与超额收益稳定性。

3 中证创新药指数介绍

中证创新药产业指数作为中证指数有限公司编制发布的核心行业指数,旨在精准捕捉沪深市场中创新药产业上市公司的整体表现,为投资者提供锚定医药行业核心创新赛道的业绩基准与配置工具。该指数自 2019年 4 月 22 日正式发布以来,凭借对创新药产业链的精准覆盖,已成为观测国内创新药产业景气度、布局行业优质标的的重要参考。8 指数以 2014 年 12 月 31 日为基日,基点设定为 1000 点,兼具长期业绩回溯与短期表现跟踪的功能。指数聚焦创新属性,锚定产业核心,为确保指数对创新药产业的“纯正性”覆盖,该指数建立了多维度、层层筛选的样本编制体系。核心逻辑可概括为“先筛流动性、再定产业属性、后选市值龙头”三步。

3.1 指数编制方法

1. 样本空间与流动性初筛:指数样本空间与中证全指保持一致,覆盖沪深市场全口径上市公司;第一步先对样本空间内证券按过去一年日均成交金额由高到低排序,剔除排名后 20%的证券,确保入选样本具备充足流动性,降低后续投资操作的冲击成本。

2. 产业属性精准界定:在流动性筛选基础上,进一步聚焦主营业务涉及创新药研发的上市公司,待选样本范围明确包含三类核心主体——研发投入强度高的创新药企业、有创新药品在国内或海外获批上市的企业,以及处于创新药研发产业链(如 CXO、创新医疗器械配套)的企业,从源头保障指数的创新属性纯度。

3.2 指数拆解

从市场表现与基本面上看,指数弹性与稳健兼具,龙头特征显著。该指数呈现出“短期弹性突出、长期反映产业周期、基本面扎实”的特征。收益表现短期弹性较强,长期贴合产业周期。在收益率维度,指数近期表现亮眼。7 月份收益率达 16.85%,年初至今收益率约 30%,仅 1 年收益率更是高达 51.9%,体现出创新药赛道在阶段性行情中的高弹性;从历史周期看,2021-2024 年指数分别录得-10.61%、-25.74%、-11.91%、-16.51%的年度收益,与国内创新药产业“研发周期、政策调整”的节奏高度契合,反映出行业在周期波动中的长期表现9。 风险与估值方面,波动率适中,估值处于合理区间。指数最新波动率为28.52%,风险水平与创新药产业“高研发投入、长回报周期”的特性匹配;估值端,截至 2025 年 8 月 28 日,指数滚动市盈率为 54.98 倍,市净率 4.48倍,股息率 1.00%,反映出创新药企业的成长溢价和配置性价比。市值结构上,覆盖大中小市值,龙头主导格局。从市值维度看,指数成分股总市值合计达 237971.05 亿元,自由流通市值 12994.39 亿元。整体规模足以支撑大资金配置。个股市值分布呈现“龙头引领、梯队完整”特征。个股总市值最大达4484.75 亿元(恒瑞医药),最小为 131.63 亿元(细分赛道成长股),平均总市值 559.42 亿元,既覆盖了具备行业定价权的龙头,也纳入了有潜力的中小创新主体,兼顾稳定性与成长空间。

权重分布方面,交易所与行业集中度高,龙头个股地位突出。上市交易所分布,上海市场占比更高。上海市场占比达 70.6%,深圳市场占比 29.4%,反映出上海市场在创新药领域的企业储备更为丰富,尤其是科创板对创新型医药企业的包容度,使得深圳成为指数样本的核心来源地。 行业纯度方面,聚焦医药卫生,赛道高度集中。在行业分布上,该指数成分股 100%隶属于“医药卫生”行业,无其他行业个股掺杂,是目前市场上“创新药赛道纯度最高”的指数之一,完全规避了“跨行业配置稀释赛道属性”的问题,精准匹配投资者对创新药产业的纯赛道配置需求。 十大权重股以龙头主导,产业链覆盖全面。十大权重股进一步凸显了指数对创新药产业链核心环节的覆盖。截至 2025 年 7 月 31 日,权重最高的个股为药明康德,权重达 13.09%,作为 CXO 行业龙头,其表现对指数有显著影响;第二名恒瑞医药权重 10.19%,代表创新药研发龙头企业;其余权重股涵盖科伦药业(创新药研发)、华东医药(创新药+医美)、泰格医药(临床 CRO)等,覆盖创新药研发、生产、服务全产业链,既体现龙头稳定性,也反映产业链多元化。

3.3 核心价值

作为创新药产业的“晴雨表”,该指数的核心价值在于,一方面为投资者提供了精准跟踪创新药产业景气度的基准,避免传统宽基指数中非创新药资产对行业表现的干扰;另一方面为指数基金、ETF 等产品提供了优质标的,目前市场已有多只挂钩该指数的被动型产品,满足投资者一键布局创新药核心资产的需求。综上,中证创新药产业指数凭借创新属性纯、样本质量高、编制逻辑严、数据透明化的特点,已成为国内创新药领域兼具业绩基准与配置工具双重属性的核心指数,为市场参与主体提供了高效的产业跟踪与投资参考。因此,本文选择此指数作为 A 股创新药指数的代表进行增强研究。

4 数据准备与处理

4.1 数据准备

从因子库中先初步选取基本面及量价因子 120 余个。时间范围为2019年 9 月至 2025 年 7 月。另外引入与研发相关的财务数据,如:开发支出、研发费用、专利数,并进一步计算研发费用占比和开发支出占比等比率。

4.2 数据处理

数据处理上,进行了去极值、标准化和归一化的操作。在去极值之后,进行了缺失值填充。去极值:为减少异常值对模型的干扰,采用标准差法,将三倍标准差之外的值调整为三倍标准差的边界值。极端值会显著扭曲均值、方差等统计量,导致统计失真,误判规律,影响合成效果。缺失值填充:把缺失值填充为当日数据截面的平均值。标准化:去除量纲差异,使不同特征具有可比性,便于多因子研究。首先根据股票市值加权计算均值,然后进行标准化处理。即:

? = ? − ????(?) / ???(?)

归一化:将数据缩放到[0, 1]的范围。归一化后可在同一尺度和方向下分析数据的变动模式。在组合优化中,归一化可以防止个股因数值较大而权重过高。对正向因子进行 min-max 归一化,对负向因子进行反向的归一化。使不同向、不同量纲的因子更加可比,便于合成。

正向:? = ? − ???(?) / (???(?) −???(?))

反向:? = ???(?) −? / (???(?) −???(?))

4.3 Barra 回归

将原始因子与 Barra 多因子模型进行线性回归并取残值作为更新后因子值,使因子去除 Barra 风险暴露,通过经典风险定价框架剥离因子中的系统性干扰成分,提纯因子的独立选股信息,获得更纯净的阿尔法。另外,由于是在中证创新药的范围内进行指数增强,因此没有进行更细致的行业中性处理。 Barra 多因子模型的核心是将股票收益拆解为系统性风险因子收益与个股特异性收益两部分,其中系统性风险因子涵盖市场因子(Beta)、行业因子、风格因子(如市值、估值、动量、质量等),这些因子是市场公认的“普适性风险/收益驱动源”,几乎所有原始因子都可能与它们存在隐性相关性,即因子收益部分来自对这些系统性因子的暴露,而非自身独特逻辑。

以本研究的“中证创新药指数因子”为例,假设一个“创新药企业研发投入强度因子”(原始因子),但创新药行业内的个股研发投入强度可能天然与市值因子正相关(大市值企业研发预算通常更高)。此时若直接用原始因子回测,其超额收益可能并非来自研发投入强度本身的选股能力,而是来自对大市值个股的偏好或对医药行业贝塔的暴露。这部分收益是系统性的、可复制性差的,在大市值风格切换时会快速回撤。 通过与 Barra 模型回归取残值的操作,本质是做正交化处理。回归的残值的特征是与所有 Barra 系统性因子的相关性趋近于 0。它剥离了原始因子中因暴露于市场 Beta、行业属性、市值/估值等风格而产生的成分,仅保留了原始因子中独立于系统性风险、仅反映个股独特属性的信息(如研发投入强度中超出行业平均水平、不依赖市值规模的部分。 这种处理让因子从混杂系统性干扰的粗糙指标,变成聚焦个股特异性的精准工具,其选股逻辑更纯粹(如研发效率差异而非市值差异),后续回测的超额收益也更能反映因子的真实选股能力。 中证创新药指数本身已具备明确的行业暴露与市值分布特征,指数增强策略需紧贴基准的系统性风险暴露,比如不偏离指数的行业权重、不显著超配/低配某类风格个股,否则会因风格漂移导致跟踪误差扩大,不符合指增产品的合规与客户需求。若原始因子隐含“超配小市值个股”的风格,而中证创新药指数以中大盘股为主,直接使用原始因子会导致组合与基准的市值暴露偏离度升高,跟踪误差突破阈值。经 Barra 回归后,残值因子已剥离市值因子暴露,用其选股时,组合的市值分布会更贴近指数基准,从源头控制风格漂移风险。

5 因子回测与合成

5.1 回测环境设定

数据准备充分后,在中证创新药指数的样本内单因子进行回测。本文回测环境设置如下:起始金额:1 亿元,买入和卖出佣金比例:0.03%,交易印花税(卖出时征收):0.1%,最低交易佣金:5 元,滑点设置:0.2%,每周一按照开盘价调仓,按照当日收盘价计算组合净值。 另外,开盘涨停的股票不买入且不能向上调整,当天带ST标识的股票不买入,开盘跌停的股票不能调出且不能向下调整,当天不能交易的股票不能进行任何操作,股票价格采用后复权形式,以尽量模拟真实交易环境。

5.2 研发因子分析

四因子的分组收益曲线形态高度趋同(如专利数与研发费用占比的组间收益趋势几乎同步震荡),因子同源性显著,反映传统研发因子均聚焦“资源投入强度”维度,信息高度重叠,未突破单一视角的局限。整体存在“组别越高(因子值越大,代表研发投入更激进),收益表现相对占优”的倾向(如专利数组别 8-10 的长期收益中枢高于组别 1-3),但组别间收益交叉频繁,超额收益极不稳定(无持续的“高组稳赢”规律)组别分化呈弱趋势,Alpha 贡献度微弱。 在创新药行情爆发期(如 2020 年医药牛市),因子分组分化短暂放大;但在行业调整期(如 2022 年集采冲击),高研发组因“投入刚性导致利润承压”表现更弱,暴露传统因子对 研发有效性与商业化能力的刻画盲区,缺失行情适配性。

1. 数据频率滞后,动态价值漏损:专利、研发费用等数据以 季度/年度披露,而创新药的核心价值驱动(如临床进展突破、BD合作落地、医保谈判结果 )是高频事件。传统因子的低频静态属性,导致股价已提前反应事件预期时,因子仍停留在历史投入维度,形成信息差滞后,无法捕捉创新药的动态价值。 2. 传导链条冗长,噪声干扰剧烈:研发投入到盈利的转化需经历“靶点验证→临床推进→上市获批→市场准入→销售放量”五大环节,每个环节存在 失败风险(如临床数据不及预期)、政策冲击(如医保谈判降价)、竞争挤压(如同类产品上市),导致研发投入与短期业绩、股价的关联被“长链条噪声”稀释,因子收益的“因果关系”被弱化。 3. 数据质量粗陋,研发本质失真:财务口径的研发费用仅统计资金规模,未区分有效研发(如 First-in-class 新药、高价值专利)与无效投入(如仿制药改剂型、低质量专利);专利数也未剔除僵尸专利(无商业化潜力)。这种粗放式数据仅能刻画投入规模,无法穿透创新质量,导致因子沦为规模指标,而非能力指标。 要释放研发因子的 Alpha 潜力,可以尝试纳入 BD数据(如license协议金额、合作进度)、临床进展数据(试验阶段、入组人数、数据读出时间)、专利价值评分(PCT 布局、权利要求数量)等高频、精准的创新信号,捕捉报表外的动态价值转化。 唯有突破“低频、粗放、单一”的桎梏,向“高频事件化、质量穿透化、逻辑闭环化”升级,才能真正挖掘研发因子的 Alpha 潜力。这也是中证创新药指数增强策略中,研发类因子优化的核心突破口。

5.3 因子正交

单因子回测后,按照年化收益、夏普的分组收益和分组单调性进行综合排序。在行业指数增强策略构建中,因子的有效性筛选与去冗余处理是核心环节。前者决定策略的 Alpha 来源质量,后者决定 Alpha的稳定性与风险可控性。结合中证创新药指数的行业特性(成分股聚焦创新药研发、生产及产业链,因子逻辑高度依赖研发进展、临床数据、专利储备等行业专属维度),我们先通过单因子回测排序筛选有效因子,再通过正交去除共线性,本质是遵循“先选优、再去重”的框架。 120 余个单因子覆盖多维度,但并非所有因子在中证创新药范围内都具备持续贡献超额收益的能力(例如通用市场的“PE-TTM”在创新药行业可能失效,因创新药企业更依赖研发管线而非短期盈利)。因此,回测+排序的核心目的是从全量因子中筛选出行业适配的有效因子。排序用于确立因子优先级,为后续正交铺垫。因子序列本质是“Alpha贡献能力+稳定性”的优先级排序。这一步的关键是为后续正交设定基准。让最有效、最核心的因子保留完整信息,后续因子仅保留无法被核心因子解释的增量信息,避免因正交顺序导致核心 Alpha 被稀释。比如,若先对弱效因子正交,再处理强效因子,会导致强效因子的信息被残差化,丢失核心收益来源。 因子正交的本质是通过线性回归消除因子间的线性共线性,将原本可能重叠的因子信息,转化为一组相互线性无关(协方差≈0)的新因子。

5.4 因子合成

因子正交后,再次进行单因子回测。按照年化收益、夏普的分组收益和分组单调性进行筛选。

注意到,需要把这些因子统一方向,然后进行合成。本文经对比线性合成、梯度提升树合成(LightGBM、XGBoost 和 CatBoost)和线性+梯度提升树复合模型的效果后,从绝对收益的角度选择线性合成方式。由于因子已通过正交去除共线性,每个因子的独特信息被提纯(仅反映自身独立逻辑),此时因子间的交互效应较弱,线性合成(直接加权)可高效聚合有效信号,无需复杂模型捕捉非线性关联。

6 总结

本研究围绕中证创新药指数增强策略的构建展开,系统验证了量化方法在创新药行业配置中的有效性。 中证创新药指数是构建增强策略的优质基准。该指数精准覆盖创新药研发、生产及产业链核心环节,成分股兼具高成长弹性与流动性,且长期收益跑赢行业基准,为增强策略提供了坚实的底层资产。 科学的因子处理是获取稳定超额的关键。通过 Barra 回归剥离系统性风险,可有效提纯因子的独立选股信息;因子正交消除共线性后,合成因子的分组单调性显著提升(第一组年化收益 21.4%),证明了“筛选-正交-合成”框架对创新药行业因子的适配性。

指数增强策略表现稳健。基于合成因子构建的增强组合,在控制跟踪误差(年化 4.18%)、个股权重偏离等约束下,实现年化超额收益 8.74%,分年份超额均为正,且最大回撤较基准缩短 7.5 个月,体现了策略在行业周期波动中的抗风险能力与收益稳定性。 整体而言,本研究验证了中证创新药指数增强的可行性,为投资者布局创新药赛道提供了量化工具参考。未来可进一步纳入高频临床进展、专利价值评分等精细化数据,以提升因子对行业动态的捕捉能力,优化策略长期表现。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至