2026年医药行业AI制药：从降本增效到分子创新，数据生产构筑长期壁垒

来源：中邮证券
发布时间：2026/01/24
浏览次数：117
举报

相关深度报告REPORTS

医药行业AI制药：从降本增效到分子创新，数据生产构筑长期壁垒.pdf

医药行业AI制药：从降本增效到分子创新，数据生产构筑长期壁垒。前言：AI+制药行业的投资价值在于行业的现状分析和未来判断。投资思路上来看，我们认为在于理解当下AI在制药中的作用地位、商业模式和成长空间、行业成长的关键要素和竞争壁垒。AI在制药中的作用是什么？增效和创新。基于现有的技术和未来的发展状况，我们认为药物研发基于实验科学的本质不会因AI的迭代升级而发生颠覆。AI在制药端最成熟的落地应用在于提升了临床前的降本增效：AI虚拟筛选极大地降低了真实试验中所需要投入的化合物的数量，从而有效缩短了临床前研发周期、大幅减少研发成本。此外，AI分子生成摆脱认知偏见具有创新价值，目前的AI分子（如TNI...

AI在制药中的作用是什么？增效和创新

AI+药物研发：概述

AI制药是指将NLP、深度神经网络，生成模型等AI技术与传统制药环节相结合，提升新药研发效率，拓展药物创新空间的技术应用。AI医疗大模型基于深度学习、自然语言处理等技术，整合海量生物医学数据(如蛋白质结构、基因序列、临床试验数据)，赋能药物研发全流程，包括新药发现(靶点发现、虚拟筛选、蛋白质结构预测)、新药开发(ADMET预测、晶型预测、合成路径)、临床试验优化(患者分层与剂量预测)。

具体应用：基于物理化学原理的AI算法提升小分子药物研发效率；在细胞与基因治疗(CGT)领域，AI也可赋能抗原识别、载体设计、放大优化等关键环节。

AI+药物研发：AI技术不会颠覆药物研发的逻辑

AI制药在谈论AI+新药研发的融合之前，首先需做出判断：AI技术是否会颠覆制药行业？我们认为，不能。基于以下因素考虑：1、应用层面：AI计算的“虚拟”数据无法替代临床的“真实”数据。AI尚未能预测药物在人体系统中的反应，而临床试验中个体异质性还会使复杂程度几何倍增。 2、监管层面：我们认为药物的安全性是监管考虑的首要因素，而临床试验是安全性证明的唯一来源。长期来看不存在替代品，药物开发的审批流程长期不会改变。因此，药物研发的基于实验科学的本质不会因AI的迭代升级而发生颠覆。

AI+药物研发：应用重心在临床前研发阶段

AI发挥降本增效的作用之处在于临床前的研发环节。其主要原因在于药物发现环节可提供技术附加值多。其中虚拟筛选或是最为重要的AI应用，可快速从上百万化合物中通过计算的方式筛选出少量更具有潜在活性的化合物，极大地降低了真实试验中所需要投入的化合物的数量，进入临床前阶段后，通过ADMET预测等方式来协助研究优化分子降低失败风险，从而有效缩短了研发周期同时大大降低了研发成本。此外，AI主要的应用场景还包括靶点发现与验证（研发最早期，利用LLM等方式实现大范围的靶点搜寻）和分子生成（有望产生不存在的新分子）等。

AI赋能下药物发现研发费用节约达90%+，周期大幅缩减。从研发流程来看，依次为：靶点（target）发现及验证、苗头化合物（hit）筛选、先导化合物（lead）的发现、临床前候选药物（PCC）的生成。根据Nature Reviews 发表的统计数据，在由target到hit、由hit到lead和由lead优化（至PCC）的三个阶段传统方法的平均资本支出分别为94、166和414百万美元。根据Insilico Medicine公布的数据，AI能够将上述阶段花费分别缩减至0.2、0.4和2百万美元，缩减比例均为90%以上。同时，AI可将上述阶段的研发周期由传统方法的1年、1.5年和2年缩减至2个月、4个月和11个月，分别节省83%、78%和54%。

AI+药物研发：Think out of box的创新价值

医疗大模型日益发展，AI创新药物在曲折中发展。上述路径具备理论上的可行性，并已有相关的进展。但需要强调的是目前尚未有AI自主设计的分子药物成功上市，同时首个进入临床的AI设计分子DSP-1181已停止研发；截止2026年，英矽智能的AI设计分子Rentosertib完成2a期临床，有望实现首个AI驱动发现的分子落地。

客观来看，AI设计的分子虽然具备新颖性，但脱离“box”同样可能会使产生的分子在现有的合成框架下难以触达。其限制来自于没有足够高质量的数据可提供。我们认为基于传统的数据，AI 在生物路径、化学反应过程等生化知识体系的“学习”并未获得理想效果，因而造成了早期项目的进展并不顺利，但我们认为新技术的突破必然是曲折的，随着技术的迭代，后继者们仍在快速补位，推动AI创新分子的落地。

底层技术决定AI效用，算法+数据是“限速步骤”

回顾发展延用上述框架分析，分子生成（AI创新价值的代表）的限制因素为算法和数据： 1、尚未有算法能够同时兼顾分子结构创新和合成性：分子生成采用的是深度学习等模型，基于虚拟筛选形成的数据库进行“学习”，但是其学习框架依旧在CADD的基础之上：基于配体的药物设计（LBDD）/基于结构的药物设计（SBDD）。因此通过建模获得的分子符合基础的药化原理，但是往往会缺乏合成性原则导致无法在真实世界中合成。2、分子生成所需的数据更多维，且来源往往受到保护不会公开。分子生成的数据需要考虑到多个维度：符合化学规则、生物途径、可合成等。同时，AI模型的训练需要兼顾成功与失败的数据，而往往公开的数据都是成功的案例。 AI+制药公司的项目分为两类——仿制药与创新药。创新药的研发AI的表现如前文所述，尚未概念性验证，AI管线整体偏临床早期；而在仿制药的开发上，由于靶点、阳性参考物（仿制的创新药分子）结构等已确立，以CADD的传统方法即可完成开发，AI的边际效应可能不大。综上，我们认为AI增效作用将会助力AI+药物研发在“1-10” 阶段快速发展。同时，我们看好AI的创新价值，分子生成具备诞生BIC/FIC的潜力。实现这一价值，在于算法的突破和数据的获取或者分享，而两者的攻克都需长期的付出和投入。

市场规模超百亿美金，分子实体是商业化重点所在

AI+制药融资热度有所起伏，产生结构性分化趋势

自2015年以来，全球AI+新药研发投融资快速增长，至2022年累计达246亿美元。国内融资数量及金额在2019年后开始大幅上涨，2021年达99.6亿元。2022受全球经济衰退影响，全球范围内的融资热度有所下降。

24年热度回暖，但产生结构性分化。据智药局监测，2024年全球AI+药物研发融资总金额为58亿美元，融资笔数128起。其中美国AI药物研发融资事件64起，中国37起，其他国家和地区为27起，投融资活动仍然主要活跃在中国、美国和欧洲。从资金占比来看，美国仍然占据全球AI制药的融资高地，中国的AI制药资金占比则为10%。而刨除晶泰科技、BioAgeLabs等公司IPO的影响，中国AI制药初创公司的融资额占比进一步下降，仅占全球融资额的8%。

商业模式：SaaS并非好的新入局模式

SaaS模式的优劣：优点：对于数据的依赖度低、不承担对于药物管线研发失败的风险、资本投入低、现金回流快、利润率高；缺点：赋能新药研发环节有限、技术服务收入低、市场规模小，收益贡献度占比不高。我们认为SaaS的商业模式并不适合行业参与者，基于以下判断：1、SaaS为To B业务，客户群体数量有限、市场容量不高；2、头部公司或已触达天花板，其余参与者避开非理性竞争。头部公司Schrödinger的软件服务行业领先，经过30多年的技术积累，全球TOP20的制药巨头均为SCHRÖDINGER的客户。2024软件收入达1.8亿美元，大客户（超10万美元）留存率达95%。2020-2024软件增长率处于下滑趋势，25年Q1-3有所改善，但综合来看我们认为这预示着行业规模有限，公司或已接近SaaS天花板。而对于竞争者而言，需要证明自身软件产品的非劣/更优，意味着难度大投入高，回报率不理想。

全球AI赋能药物研发费用市场规模已超百亿美金

此外，我们参考2023的公开资料以CRO的收入方式来测算国内管线的潜在市场空间，参考了Benevolent自研管线在不同临床阶段对外的付款价格。根据量子位数据来源，我们更新并梳理了国内管线研发的进度，临床成功率引用QLS和Frost &Sullivan的公开数据，据测算AI+制药的国内潜在市场价值有望2028年达380亿，2033年超1770亿。关键假设：临床前管线数量的增速：参考NMPA公布数据，2018-2021化学药物IND数量CAGR为41%。我们假设2024-2028年，AI+药物的增长率略高于整体水平，而在2028-2033年达到稳定增长期。临床研发周期：AI目前的管线作用发挥在临床前，因此我们假设所有的临床前管线在1年内推进结束。临床后的周期参考传统药物开发经验，QLS数据来源：从I期临床到批准平均需要10.5年，这包括I期临床2.3 年，II期临床3.6 年, III期临床3.3 年，审批阶段1.3年。

行业竞争：高质量数据的生产能力是核心竞争力

算法、数据重要性大于算力

我们认为算力并非关键要素，基于两个判断： I. 算力影响的是计算处理的时间，结果上表现为数天的延迟。然而对于整体药物研发周期而言，数天的影响可以忽略不计； II. 从行业产业链来看，上游的互联网巨头可提供算力支持。同时以NVIDIA为代表的硬件公司前瞻性布局AI赛道，芯片系统满足AI+医疗、生命科学研究的应用需求。

什么是好的算法？算法需要完成对原有CADD框架的突破，做到分子创新性和可解释性兼顾。算法的突破是方法学的创新，属于科研范畴的产出结果。因此研发人才是算法突破的关键因素。我们认为具备领先的AI/CADD算法开发能力+具备丰富药物开发经验的人才团队是算法竞争力的重要指标。

好的数据的标准是什么？大规模+高质量。大规模的数据是AI模型训练准确度提高的前提条件。高质量有AI和实验的双重考量：从AI角度来看，需满足以下特征：结构良好、完全注释、可重现和具有鲁棒性；从实验角度来看，需要多维度、多体系、兼顾成功与失败的训练集等要素。大规模高质量的数据是行业稀缺资源，原因在于纳入训练集的数据要求苛刻+数据不共享（“数据孤岛”）。

由于实验数据涉及核心利益，长期来看，“数据孤岛”的行业特征不会改变。因此，竞争力的判断关键在于哪些公司拥有或者具备生产高质量数据的能力。

高质量数据生产能力是核心竞争力

我们认为传统的制药企业和CRO巨头并不一定拥有高质量的数据。原因在于：

传统实验方式难以达到AI训练的数据采集点的苛刻要求。如，代谢类数据对于药物反应的时间记录往往跨度较大，使得AI预测的准确度提升受阻。同时，AI需要足量的失败案例的数据集，与研发成功的目的相悖。

实验数据需要经过清洗、信息化才能用于AI训练。清洗在于对数据进行人工的判别是否符合训练标准，需要药化专家的经验判断。信息化需要CADD/AIDD的专业人员的处理。传统药企和CRO可能没有相应的人才队伍/研发团队缺乏人工智能专业知识。

高质量实验数据生产能力在于实现数据积累和算法迭代之间的闭环和循环。对应到公司层面：具备成规模的实验平台+AIDD/CADD计算方面具有丰富积累。基于AI训练需求可以设计针对性的实验方案，进而利用实验所生成的数据“喂养”AI模型，进入迭代循环。

结合上述，我们认为两类公司具备高质量的数据的生产能力：1、内部具有实验平台的AI技术型公司；2、内部具有CADD经验累积的CRO公司。即试验平台+AI团队+药物研发团队是自身壁垒构建的三要素。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）