GenAI已经在医疗健康开始了应用探索与落地,包括药物研发、临床 研究、上市及商业化、以及用于病人诊疗等方面:
1.药物研发
随着人类社会对生物学、化学、物理学等的知识积累加深,我们对疾病的认识迅速提 升。然而新药研发、上市的速率却没有同比例增长,其中一个重要原因是药物研发阶 段耗时长、成本高、流程复杂。现如今,GenAI成为潜在的破局利器,在药物研发方 面已有越来越多的应用。GenAI可以通过分析大量的基因组学、蛋白质组学、代谢组 学等多组学数据,帮助研究人员更快地发现可能的靶点、药物分子、药物合成路线 等,从而加速药物的发现和设计进程。
1.1 靶点发现与验证
药物靶点指的是药物与人体内特定分子相互作用的目标位置,也可以是参与疾病发生 和发展的关键蛋白质、酶或细胞结构。靶点的发现是现代药物研发的基础,在药物研 发的早期阶段,科研人员通过对疾病发生机制的深入研究,寻找与疾病相关的靶点, 通过对这些靶点的深入了解,科研人员可以设计出针对性的药物,干预其功能,从而 达到治疗疾病的目的。但疾病的发生非常复杂,基因冗余和多效性、代偿机制、信号 反馈等,都会降低靶点被药物作用造成的影响。药物立项要经过药理学、毒理学、遗 传学等多学科的检验,成功率非常低。疾病相关的靶点的早期识别和评估可以增加药 物批准的机会。目前业界在致力于识别与特定疾病相关的生物学上最合理的靶点。近 年来,传统的生信分析方法、多组学因子分析、知识图谱、图模型、深度学习等都较 多地应用于靶点发现中,而GenAI的发展,则提供了更强有力的技术支持去寻找新的 靶点、分析信号通路、以及寻求靶点与疾病相互关联的证据支撑。 2022年, AI 制药公司英矽智能(Insilico Medicine)在其靶点发现平台 PandaOmics 上 增加了知识图谱的功能,可以从期刊文献中提取相关信息,将基因、疾病、化合物和生物过程联系起来,并将关系网络可视化形成知识图谱。2023年3月,在ChatGPT 开放端口后,英矽智能将其接入靶点发现平台PandaOmics。通过将知识图谱与 ChatGPT相结合,得到了具有AI问答功能的ChatPandaGPT,支持研究人员在浏览和 分析大数据集的同时,高效开展基于自然语言的问答,更便捷发现潜在靶点和 生物标志物。
2023年底,英矽智能发布了全球首个“由AI辅助决策的自动化实验室”,将GenAI应 用于高质量自动化实验,并通过实验数据反馈推动GenAI模型迭代优化。实现在14天 内完成靶点发现和验证的全自动化干湿实验闭环。目前,英矽智能宣布公司研 发的抗特发性肺纤维化候选药物INS018_055已完成2期临床试验首批患者给药,这 是全球首款由GenAI发现靶点并设计化合物的候选药物。 2023年4月,水木分子开源了轻量科研版BioMedGPT-10B,将文献、分子、蛋白、 测序、知识图谱等数据压缩到统一的多模态大模型框架内,实现了分子性质预测、 药物-靶点亲和力预测、性质预测、药物敏感性预测、分子-文本跨模态检索、分子文本跨模态信息生成等多项任务性能优于单一专用模型。

1.2.分子生成
(1)大分子生成
大分子药物的作用机制主要是通过刺激机体免疫系统产生免疫物质(如抗体),从 而发挥其功效,在人体内出现体液免疫、细胞免疫或细胞介导免疫。大分子药物如 抗体有更好的靶向性、mRNA有望带来更好的疫苗与药物等。但这些大分子结构复 杂,开发成本高,发现时间长。GenAI为此提供了新的解决方案,通过学习预测大 分子(例如核酸或氨基酸)的下一个子结构,并产生有关大分子的见解,这些见解 可用于新药物载体的计算机设计、以及预测其在各种药物研发检测的效果。 人类一直以来都在探索如何更高效、直接、自由地控制细胞功能、甚至生命活动, 而运用 GenAI预测大分子结构使得这一切的可行性大大提升,并且其预测性能在精 度、范围、耗时等方面正在不断快速提高。以蛋白质为例,利用GenAI预测结构, 为解码蛋白质的三维奥秘提供了高效手段,从而能够直接按需制造蛋白质、甚至 是创造未知或不存在的蛋白,扩增出近乎无限的、广阔的蛋白质序列和结构空 间,对生命科学和生物医药研究范式的影响将是颠覆性的。
目前,GenAI在蛋白质解码和设计的应用主要有Transformer架构和扩散性模型两大 构建思路。前者的代表是美国初创生物医药公司Profuluent在2023年1月开发的蛋白 质语言模型Progen。该模型基于Transformer架构的12亿参数神经网络,提供了一种 可根据所需属性生成特定蛋白质的方法,从头合成了自然界中不存在的人工酶, 引起了生命科学领域的广泛关注。而后者构建思路则是采取了图像生成领域常用 的扩散性模型的技术路径,更加擅长基于文本生成图像来描述蛋白质序列和结构 之间的关系,并以此快速生成蛋白质的骨架结构。例如2022年10月美国斯坦福大 学和微软研究院经受体内蛋白质折叠过程的启发,引入了一个折叠扩散模型,通 过镜像蛋白质天然折叠过程实现蛋白质主链结构的设计,解决了直接生成结构复 杂多样的蛋白质的难题。 扫描跨国大型药企与科技公司动态,2023年12月,制药巨头阿斯利康与AI 抗体发 现技术初创公司Absci 签署了 2.47 亿美元协议,通过整合阿斯利康的肿瘤学研究和 开发知识、以及利用 Absci 的集成药物创造平台,借助GenAI 技术来开发新的、改 进的抗癌抗体疗法。2023年10月,Deepmind联合Isomorphic Labs共同发布了新一代 AlphaFold模型,从上一代的预测蛋白质结构,扩展到预测蛋白质数据库(PDB) 中几乎任何分子的结构,包括配体(小分子)、蛋白质、核酸(DNA 和 RNA)以 及含有翻译后修饰(PTM)的生物分子。如改变氨基酸序列来改变蛋白质的性 能,用于设计和开发具有特定功能的酶;预测核酸结构,加速 mRNA 疫苗等医疗 创新;预测配体和蛋白质间的相互作用,帮助鉴定和设计可能成为药物的新分子 等。Isomorphic Labs 正在将新一代 AlphaFold 模型应用于治疗药物设计,快速准确 地表征对治疗疾病很重要的多种类型的大分子结构。
国内头部药企与AI制药企业也在GenAI生成大分子药物领域展开布局。2023年8 月,深圳晶泰科技宣布与石药集团在创新药研发AI领域达成战略合作协议,结合 石药集团深厚药物研发经验,利用晶泰科技开发的ProteinGPT大分子药物生成式AI 模型,将“类GPT技术”应用于药物研发,覆盖抗体发现、抗体工程、抗原设计、 蛋白结合剂设计等多个药物研发关键环节,一键生成符合要求的抗体或蛋白药物。 荷兰-瑞士初创公司 Cradle开发的生成人工智能 (GenAI) 和合成生物学平台,旨在 设计基于蛋白质的疗法和其他化合物,正在开展 12 个研发项目,关注工程酶、疫 苗、肽药物和抗体,涵盖广泛所需蛋白质特性,如稳定性、表达、活性、结合亲和 力和特异性。Cradle 的技术可以通过更少、更成功实验大幅加快蛋白质的设计和优 化。与行业基准相比,大多数项目使用 Cradle 平台的进度要快两倍。
(2)小分子生成
小分子药物研发中的一大重要难题是如何识别并且筛选出最有可能实现所需疗效、 值得进一步测试优化的化合物,传统上,药物化学家会在实验室制造化合物并进行 测试,耗时长、投资大,但人工智能可以改变这个过程。GenAI通过先进的基础化 学模型加速筛选过程,如同GPT-4被训练来预测句子中可能的下一个单词,这些模 型可以预测小分子结构中的下一部分原子。通过多次迭代,该模型学习了小分子化 学的基本原理,即使在很大程度上未探索的化学领域,这些模型也可以提供更精确 的预测,医药公司可以通过这些预测来规划后续筛选。 国外大型药企与AI制药企业纷纷开展合作,各取所长。2024年1月,默沙东宣布与 Variational AI公司达成合作,利用其Enki技术平台,共同合作开发小分子药物。 默沙东为Enki平台提供目标产品概况(TPP),平台基于GenAI技术,可在几天时 间内生成符合条件的小分子。生成物是具有多样化、选择性和可合成的先导化合物 结构,从而快速进入先导化合物优化阶段。法国药物化学和新药设计AI解决方案提 供商Iktos则是利用GenAI技术,降低化合物小分子筛选和生成所需的时间和成本。
其解决方案包括三个部分,一是通过Makya基于大量生物数据,来创建一种“满足 所有条件”的分子,即在尽可能低的剂量下有效、安全、稳定、可申请专利且能够 合成的分子;二是利用Spaya探索合成“配方”和途径;三是通过Ilaka 软件控制机 器人,一次性高效合成多种化合物,不断重复上述过程,以找到更有前途的化合 物。目前其拥有 50 多个已完成或正在进行的项目,合作伙伴包括强生、默克、辉 瑞等跨国大型药企。回看国内,多家AI制药企业、大型药企、科技公司等,也在布 局GenAI药物分子生成。英矽智能推出小分子生成AI平台Chemistry42,经过10万种 公开化合物和100亿个构建块(或虚拟分子片段)的训练,生成数百个具有所需特 性的化合物,被输送到管道中评估适用性,并选择满足安全性、效力、合成可用性 和代谢稳定性等目标的分子。生成的分子及其后续分数将返回到生成引擎,以便模 型“学习”得分高的分子类型和得分低的分子类型,重新训练生成模型以生成高分 分子,已实现在一周内发现全新的先导化合物类似分子,远超人类科学家的速度。 自Chemistry42推出以来,已有40多家制药公司授权该软件并将其用于自己的管道程 序,以改善自己对下一个突破性疗法的探索。
2022年4月份,华为云计算技术的健康智能实验室推出了华为盘古药物分子大模 型,该模型训练了17亿个小分子化合物的数据集,这一模型结合了药物分子的图形 结构和SMILES字符表示法,从两个不同的角度理解分子,进而构建了一个自监督 的预训练大模型。该模型适用于多个分子相关的后续任务,如预测分子属性、生 成分子虚拟库以及分子的优化等。目前盘古药物模型的预训练数据集是最大的,涵 盖了多个公共数据源,盘古模型采用cVAE架构,将小分子的图形表示转换成相应 的化学式字符串,这样做避免了在graph2graph模型中遇到的图形生成的困难,并且 相比于seq2seq模型,在训练阶段能够提供更多的信息。此外,通过设计分层的潜在 空间,盘古模型在微调和化学指纹表示方面的能力得到了增强。盘古的创新网络结 构不仅易于训练,还能够通过仅更新一个核心网络来支持所有药物发现任务的步 骤,展现出显著的优势。

2023年底,深度势能团队联合29家单位的通力协作,发布了深度势能预训练大模型 DPA-2。该模型面向丰富的下游任务,在微调DPA-2的"大模型"所需数据量整体上 减少了1-2个数量级。此外,经过进一步蒸馏和压缩,深度势能团队还开发了"小模 型",该模型能够保持过去模型的精度和效率。与去年发布的DPA-1相 比,DPA-2在模型架构方面有显著的更新,最大的特点是采用了多任务训练策略, 可以同时学习计算设置不同、标签类型不同的各类数据集。由此产生的模型在下游 任务上展现出极强的few-shot甚至zero-shot迁移能力,显著超越了过去的解决方 案。目前,用于训练DPA-2模型的数据集已涵盖了半导体、钙钛矿、合金、表面催 化、正极材料、固态电解质、有机分子等多个体系。
洛桑联邦理工学院(EPFL)和美国罗切斯特大学的研究团队,开发出了一款名为 ChemCrow的语言模型代理,这款代理能够执行包括有机合成、药物发现和材料设 计在内的多项化学任务。ChemCrow集成了17种由专家精心设计的工具,不仅提升 了其在化学领域的表现,还赋予了它新的能力。迄今为止,ChemCrow已成功自行 设计出一种驱虫剂、三种有机催化剂以及其他相关分子。通过语言模型评估和专家 的评审,ChemCrow的有效性在自动执行各类化学任务方面得到了证实。
中科大MIRA Lab团队与微软研究院AI4Science团队共同开发了一种创新的分子生成 模型,名为MiCaM。该模型通过构建一个含有数据驱动的高频分子片段词汇库, 显著优化了药物分子的生成过程。MiCaM模型特别强调了对连接感知的高频子图 (Mined Connection-aware Motifs)的利用,这些子图是通过数据驱动算法从分子 库中自动提取的,它们不仅包括常见的分子片段,还细致记录了这些片段之间的连 接信息。利用这一策略,MiCaM设计了一个能够同时选择分子片段并确定其连接 方式的生成器,从而能够基于这些高频子图构造出全新的分子结构。在进行的两项 基准测试中:一项是生成与训练集高度相似的新分子(distribution learning),另 一项是创造具备特定目标属性的新分子(goal-directed),MiCaM 模型展现了其在提高分子生成效率和探索化学空间方面的显著能力。
2.临床研究
以GenAI为代表的基于机器学习、深度神经网络和多模态人工智能的应用有望从多 个角度优化临床开发,包括筛选临床试验中心、监管合规、药物选择和患者入 组、临床研究方案设计和试验报告生成、以及提高药物警戒等方面。以此,从根 本上改变医疗事务部和整个生物制药或医疗技术行业管理科学发现、开发和商业 化的方式。最近在GenAI的动向总体呈现两大规律,一是提升GenAI技术服务能 力,通过技术优势获得大型企业合作方的青睐;二是利用GenAI赋能自身自研管 线,以期转型为创新药研发中心或 药企,巩固行业领先优势。
2.1监管合规
在临床研究中,监管合规是一个非常重要的课题。研究人员需要遵守各种法规和规 定,以确保临床研究的合法性和可靠性。然而,这些法规和规定通常非常复杂,需 要花费大量的时间和精力来理解和遵守。同时,不同地区的监管要求也可能存在差 异,这使得跨地域合规变得更加困难。传统上,研究人员需要手动处理监管文本, 这非常耗时且容易出错。如果能够实现自动化处理监管文本,将大大提高研究人员 的效率,并减少错误的发生。最后,不合规可能会导致严重的财务风险,这将对研 究机构和企业造成巨大的损失。利用GenAI结合自然语言处理、机器学习、知识图 谱构建等先进技术,能够从庞大的法规文本中快速提取与特定目的相关的法规,加 速合规进程,并实现自动化处理监管文本,减少对第三方法律和合规支持的依赖。
2023年3月, Medidata 平台发布了包含超过 30,000 项试验与 900 万名患者的 Medidata AI,将患者层面数据直接从试验中的所有病例报告提取,确保临床试验 产生合规的数据质量,对数据输入中的错误、异常值、前后不一致和错误报告中的 不良事件进行排序和分类,以加快药品审批流程。此外,强生使用的GenAI项目针 对新药上市合规审查的需求给予全方面的赋能,通过获取国家药监局、药物审评中 心、中国食品药品检定研究所的法律法规、指导原则、相关公告等内容并定期更 新,利用大模型的能力进行智能语义检索和细节内容问答,并可通过内置实体模型 对法规文档进行主题分类和实体抽取。针对用户对于药品上市合规审查指导原则 进行全文问答,并溯源至原文段落、针对用户对于法律法规中段落内容的提问,能 通过检索问题相关的文档,可选单篇或多篇进行问答,可准确定位至相应内容,并 总结回复、能帮助用户对于国内药品技术指导原则中较为专业复杂的试验设计进行 分析总结。
2.2 临床试验中心筛选
临床试验中心的筛选是为了评估其在临床试验方面的资质、专业性、合作意愿和 经验等方面,以确保在该中心开展的临床试验具有可靠性和有效性。这一步骤对 于临床试验的成功开展至关重要。通过进行可行性研究,可以为项目组提供在该 中心开展研究的依据,并提前预判可能会遇到的问题。因此,临床试验中心的筛 选和评定是临床试验开展前必不可少的重要环节。生物医药大健康行业在临床试 验中心筛选方面存在许多挑战和痛点,其中,信息不对称是一个显著问题,医药 企业需要了解每个临床试验中心的实力、经验、设备和人员等方面的信息,但这 些信息并不总是公开或易于获取。同时,时间成本高和风险控制难度大也是临床 试验中心筛选的挑战,医药企业需要花费大量时间和精力去筛选临床试验中心, 如若选择不合适的临床试验中心可能会导致试验失败或者延期,增加项目的风险 和成本。 Acorn AI 的 Intelligent Trials 解决方案基于 20000 项临床试验的行业领先数据,提 供分析平台,以提高试验的速度、成功率和质量。Intelligent Trials 解决方案助力 优化试验设计,选择最优的国家/地区与研究中心,并在启动后确保试验表现良 好。GenAI可以利用数据分析、智能决策支持和预测分析等技术手段,为临床试 验中心的筛选提供全面支持和优化。
3.上市及商业化
学术推广
医药企业在营销推广方面目前存在着几大痛点。首先,“医药分离”背景下, 药品进院及推广都对销售团队以及经销商人员的专业能力提出了更高的要求, 医学营销推广需要处理大量的临床研究数据,这些数据往往非常复杂,需要花 费大量的时间和精力进行分析和提取。其次,医学营销推广需要对不同市场的 文 化、语言、习惯等进行深入了解。此外,医学营销推广还需要考虑隐私和合 规性等问题,确保推广活动的合法性和合规性。 首先,在医药企业的销售端,GenAI能帮助企业内部的医药代表和MSL,优化工 作效率,降低人工成本,从而在整体上赋能销售增长。柯基数据针对销售端主 要面临的内容合规审核慢、以及SOP流程类问题多的痛点,为德国MNC药企市 场部门打造了面向销售端的学术推广智能助手。智能助手统一构建和维护销售 端知识库,覆盖临床产品、医学和SOP流程指引类知识,并与十多个销售端业务 系统打通,以接口形式实时更新知识库;通过基于知识图谱和大模型GraphRAG 的技术实现医学素材段落原文问答与溯源,确保学术推广的合规性。在企业微 信中,以对话机器人的形式,自动回复代表90%的问题,10%无法解答的以企 业 邮件的形式与各平台负责人对接并当日及时回复。通过GenAI工具,以10篇最新 文章为例,升级前需要2个月的上线时间,以最新的解决方案,可实时更新发布 上线。降低了人工成本80%,提升上线效率90%以上,且由于智能性大大提 升, 吸引医药代表和MSL使用并提升整体销售端的使用活跃度60%以上。
其次,GenAI在医生端,由于医生面临着医学学术资料数量多,更新快,无法快 速有效学习以提升诊疗和科研能力等相关问题。医药企业需要为医生端提供更 加智 能的学术推广应用。目前,GenAI能够充分利用大量的医学学术会议内 容、训练数据、知识图谱和专家经验,快速准确地回答最新的医学临床研究问 题并做总结。美国医药咨询公司 ZoomRx推出了基于GenAI技术的应用程序 Ferma GPT。Ferma.AI是ZoomRx开发的一个LLM,它利用了全面的生命科学数 据集、精心设计的知识图谱、制药业专用的训练模型以及专业的人类智能和监 督。这 种方法使Ferma.AI能够适应 制药业的具体需求,其处理和理解复杂的医 学和科学语言的独特能力使其有别于传统模型。Ferma.AI可以通过提供快速、准 确的 信息,使繁琐的任务自动化。FermaGPT的AACR应用程序可以梳理所有 8230份提交的摘要和研究,以满足特定的请求,如识别NSCLC中的新型KRAS摘 要或总结围绕前列腺癌种族差异的关键讨论。除了人工智能生成的一两段回答 用户的 问题外,FermaGPT还能够列出原始材料和链接。ZoomRx在2023年4月14 日至 19日举行的美国癌症研究协会(AACR)年会推出其生成性人工智能产品 的公开版本,专门用于医学会议。2024年,ZoomRx计划在数据和信息发布后继 续添 加。ZoomRx计划今年为大多数大型医学会议以及许多小型会议创建 FermaGPT公共访问应用程序,包括AAN、ASCO、ESMO、SABCS和ASH。
患者教育
患者教育是指医疗专业人员向患者及其家属提供有关疾病、治疗和预防的信息和 指导。它旨在增加患者对自身健康状况的了解,提高其自我管理疾病的能力,并 促进良好的健康结果。在患者教育方面,由于医学领域涉及大量的专业术语和复 杂的概念,这对患者来说可能难以理解。医生需要确保以简明扼要的方式传达信 息,避免使用过于专业化的术语,以便患者能够理解和应用。 目前,GenAI可以针对不同市场的本土化特点,以及通过对目前患者的特点,针 对性地生成和构建患教内容,例如图像、内容、数字广告和宣传材料。美国的人 工智能工程公司Fractal Analytics提供Avalok GenAI解决方案,可以帮助营销人员 创建营销内容、分析竞争情报,并通过个性化答案增强客户体验,同时确保隐 私和合规性。
医蝶谷是阿里健康旗下的一款医生个人诊所云平台,专为医生打造,旨在提供便 捷、高效、可信的操作平台,以便于为患者提供优质的医疗服务。医蝶谷的 GenAI能力可以帮助医生制作科普视频,常规录制一个科普视频可能需要几十分 钟,甚至更长。当医生拥有一个数字人模型后,医生无需多次拍摄,只需提交脚 本后会自动生成视频。 另外,GenAI可以辅助医药企业搭建面向患者的健康管理用药助手,提供药品说 明书相关信息、在线和线下购药渠道咨询等智能问答,及时解决患者遇到的相关 问题。同时,GenAI还可以提供慢病智能护理与营养健康知识图谱智能推荐等, 帮助患者更高效的获得疾病及药品、营养等相关的知识内容,提高自我健康管理 的能力。