大模型上下文窗口在过去一年不断突破。
1. 大模型技术与应用的发展现状
1.1 原生多模态成为发展主流
当前,大模型的关键词是“多模态”。近期大模型多模态能力迅速提升,从只支持文 本逐步扩展到不同模态,目前已具有对文本、图像、音频、视频等多模态内容的理解 分析和推理等能力。 2024 年 5 月,OpenAI 发布了支持全模态信息输入的 GPT-4o, Google 发布了同样支持多模态输入的 Gemini 1.5 Pro,能够同时处理和理解文本、 视频和音频数据;国内阿里云等企业也陆续发布文生音频、文生视频等大模型产品。 多模态能力使得模型在处理包含丰富信息的复杂场景时表现出色,例如在视频内容理 解或多语言翻译任务中,模型能够从这些不同模态的数据中提取信息,并在需要时进 行综合分析,以提供更准确和丰富的响应。 原生多模态可能是未来大模型的“主赛道”。区别于将多个不同模态的模型整合来获 取多模态能力,原生多模态大模型是指模型天然具备处理多种不同类型输入数据(例 如文本、图像、音频等)的能力。与传统的单一模态模型不同,原生多模态大模型通 过同时处理、理解、生成多种不同类型的信息,从而实现更加全面和综合的语义理解 和生成任务。这也是 GPT-4o 等模型能够直接输出拟人化、具备情感交流能力的原因, 也进一步提升了生成内容的拟真度。现阶段来看,原生多模态是当下一段时间大模型 主要发展突破的重点。
1.2 超长上下文理解能力不断突破
大模型能够处理的上下文长度是其基础能力的体现。对较长上下文的处理能力是对话 系统、文档处理、代码生成以及工具调用等的基础,能够处理长上下文意味着大模型能够理解和处理越复杂的信息,继而能进行更全面、细致、准确地阅读和理解。这种 能力使得大模型在复杂和不熟悉的情境下能也提供更专业、更有价值的帮助,从而进 一步提高其在日常应用中的实用性和效率。 大模型上下文窗口在过去一年不断突破。得益于近一年大模型相关的算法架构优化 (如位置编码和注意机制改进)、模型压缩技术(如量化和剪枝)以及计算资源(GPU 显存)的显著提升,大模型处理长序列的能力大幅提升。大模型上下文窗口已经从 GPT-4 的 128K 突破到百万乃至千万 token 量级,这意味着可向模型输入数小时视频、 数十小时音频、数万行代码,以及超过百万的单词。Google 的 Gemini、阿里巴巴的 Qwen-Long 等模型均已具备类似能力。
1.3 传统人机交互方式被颠覆重塑
具备多模态能力的大模型可像人一样与用户交互。大模型产品化的加速发展正在重塑 人机交互方式,极大改变了人们与技术的互动模式,人机交互方式未来将更接近人与 人之间的交互。近期不断有大模型产品展示视频发布,大模型通过麦克风接收用户语 音输入,通过摄像头观察用户状态,直接与用户对话并给出工作生活建议。此外,传 统计算机操作系统集成了大模型后,用户可通过自然语言命令控制计算机执行各种任 务,例如微软发布的 Copilot PC。这种交互方式的革新,不仅提高了工作效率,还使 得非技术背景的用户也能轻松使用高级功能,极大降低了技术的使用门槛。 未来,人机交互的范式将从传统的图形界面和复杂的命令行操作转变为更加直观和自 然的多模态交互方式。大模型对人机交互方式的重塑在为人类提供便捷的同时,也为 技术发展开辟了新的道路。
1.4 大模型的应用模式日益丰富、产业生态愈发成熟
产业应用日益广泛的背后是更加丰富的应用模式。在模型开发层面,基于基础大模型 的优化训练、二次开发被广泛应用,使得各行各业能以较低成本训练出垂直领域大模 型。在模型应用层面,检索增强、AI Agent 等技术的发展,使得大量上下文信息、工 具 / 插件成为大模型的一部分,有效促进了大模型与实体经济的深度适配应用。 产业生态愈发成熟呈现出更加清晰的角色分工。数据、算力、算法是大模型的基础, 其相关主体,如数据标注平台和数据提供商、云服务和芯片厂商、学术研究机构和开 源社区等,为大模型提供基础支撑;在模型训练阶段,技术支持者完成数据准备、算 法设计、模型训练和优化等,产出大模型;在服务上线阶段,技术支持者和服务提供 者共同保证选取的大模型、部署环境、应用和系统的质量和安全;在内容生成阶段, 产品和服务将面向用户进行交互,由服务提供者完成模型的运行和监控;最后,由于 大模型在拟真、泛化等方面的超强能力,用户进行生成内容发布和传播阶段的安全措 施也是大模型产业链需要考虑的重要部分。
2. 算力、算法、数据与安全挑战
在大模型高速发展的同时,我们也面临着算力短缺、高质量数据缺乏和模型安全等问 题的挑战。要克服这些障碍,需要技术创新、行业合作和政策支持,从而确保大模型 的安全、可靠、可信赖、可用。
2.1 算力短缺问题突出,制约大模型持续发展
算力短缺是全球共性问题。算力短缺的本质是需求增速远超产能扩张速度和芯片性能 的提升速度。随着模型参数规模的快速增长,以及模型应用的泛化和深化,全球对 算力的需求高速增长,供给缺口巨大。比如,Meta 计划到 2024 年年底拥有 35 万张 H100 英伟达 GPU 卡,微软计划 2024 年采购数万张 B100;亚马逊利用 16000 张以 上 H200 卡在公共云上提供大模型服务。受限于产能不足,英伟达的高端 GPU H100 交货周期尽管已经缩短,但依然需要 8-12 周。 我国算力短缺问题突出。我国正在大模型领域奋勇发展,训练和推理对算力的需求快 速上升。OpenAI 训练 GPT-4 使用了大约 25000 张 A100 GPU 卡;谷歌训练 Gemini 所使用的算力是 GPT-4 训练算力的 4-5 倍。我国企业要训练全球领先水平的大模型, 至少需要万卡、十万卡的集成算力。然而,我国算力短缺问题仍然突出,其主要原因 一是国产 GPU 在短期内还无法完全替代海外高端芯片,无法满足大模型的训练和推 理规模化应用;二是算力市场被区域性分割、大量私有化集群利用率低,导致有限的 资源未被充分利用,造成浪费。
2.2 模型结构创新难度大,可解释性问题加剧
模型结构创新难度大。在理论上我们仍然缺乏对于大模型为何有效以及如何最好地进 行设计的深刻理解。这导致了在模型结构创新时不是依靠坚实的理论基础,而更多地 是依靠经验和试错。由于大模型训练需要海量的高质量数据和算力资源,又缺乏有效 的理论指导,试错成本非常高,而且花费大量资源仍然失败的概率并不低。 大模型算法的“黑盒”特性。大模型通过学习大量数据的模式来进行预测,意味着模 型的行为是数据驱动的,而不是基于明确的因果关系或其他易于理解的原则。即使我 们从技术上知道模型是如何工作的,也很难解释为什么模型会做出某个特定的行为。 大模型通常包含数十亿到万亿级别的参数,这些参数在网络内部通过非线性变换相互 作用。这种高度复杂的交互使得单个参数或层对最终输出的影响变得极其难以追踪, 加剧了可解释性不足的问题。
2.3 高质量数据供给不足,成为模型训练新瓶颈
优质中文语料供给尚显不足。尽管中国互联网用户数量众多,产生了海量数据,但经 过数据筛选、清洗、结构化且标注良好的语料依然相对稀缺。我国正在大力推动中文 语料训练数据资源平台的建设,但短时间内仍难以满足大模型对丰富多样训练数据的 海量需求。在能提升模型价值观引导能力的语料、增强对物理世界专业性理解的科研 数据和期刊论文,以及提升专业知识理解能力的领域知识等方面,还需持续增加训练 数据的深度和广度。 大模型数据资源生态尚未完善。一方面,我国虽然公共数据范围覆盖较广,但在开放 的范围、数据质量、与大模型训练匹配度等方面还有较大差距。另一方面,我国数据资源较为碎片化,数据集开放程度低,企业用于训练的语料来源不清晰、权属不明确, 开源后存在一定隐患,使得企业更倾向于自采、自用,大模型数据流通受阻。综上, 识别高质量训练数据,推动高质量数据有效供给,通过技术方案解决训练数据供给不 足的问题,需要各方共同研究并努力推动。
2.4 大模型的技术特性带来了新的安全风险
输入方面,训练数据中的不当内容内化进模型仍是主要风险 大模型通过深度神经网络,基于大规模真实数据进行训练,形成向量化的概率分布。 模型在给定条件下可能生成多种输出,如果训练数据中存在不当内容的微弱信号,模 型在生成时可能会放大这些信号,产生不当输出。一是数据预处理的局限性可能引入 不当内容,由于训练数据量巨大,过滤算法可能无法完美识别出所有违法不良信息, 很难保证训练数据中完全不存在不当内容。在训练阶段,大模型会内化这些知识,从 而在后续的生成过程中产生安全风险。二是模型对训练数据的创造性组合能力可能新 生成或放大不当内容,大模型在理解上下文方面取得了显著进步,但在处理复杂语境 依赖关系时,仍可能错误地将不同情境下的表达组合在一起,产生不当内容。三是大 模型在试图从有限训练数据中归纳出更广泛的规律时,可能过度简化或泛化某些概念, 甚至放大训练数据中不当内容的微弱信号,导致生成内容时出现偏差。
模型方面,“幻觉”问题爆发带来误导用户的风险 “知识幻觉”是难以避免的技术问题。传统模型通常围绕特定领域的分类、聚类、回 归等单一任务寻找最优损失函数 (Loss Function),形成单一的识别能力。而大模型在 预训练阶段采用无监督学习的方式学习世界知识,在后训练阶段学习如何利用学到的知识解决不同的任务,这个过程是大模型通用能力形成的基础,使其具备了有问必答 的特质,同时也产生“幻觉”。具体而言,幻觉的来源主要包括四方面,一是预训练 阶段缺乏相关领域知识或学到了错误知识,二是后训练阶段引入了问题数据(例如包 含偏见的数据),三是生成阶段大模型超出自身知识边界输出结果,四是大模型生成 的随机性带来了内容含义的偏离。 “幻觉问题”在高安全需求领域有较大影响。从风险角度来看,过于泛化的大模型会 带来结果不真实、偏离客观规律和与世界事实不符等误导用户的风险,这些风险在医 疗、司法等领域应用时,更有可能演化为真实的安全问题,大模型需要重点考虑其泛 化性与安全性的平衡点,并采取相应控制措施。
应用方面,超长技术引发全新的诱导攻击 Transformer 架构的自注意力机制是大模型区别于传统模型并带来智能涌现的基础, 它让大模型如同人类大脑一般理解并学习世界,同时也带来了全新的风险。自注意力 机制允许模型在处理输入时,对不同部分之间的关系给予不同的注意力权重。这意味 着用户可以在大模型产品中获得更具交互性的体验,同时也意味着如果攻击者能够精 心设计输入,使得模型对某些关键词或短语赋予过高的关注度,那么模型就可能被误 导去执行特定的行为,或直接改变、忽略原有的安全机制而生成不当的输出,因此产 生了全新的诱导攻击。如今超长上下文技术的发展,将大模型应用推向了一个全新的 高度,但也极大加剧了这种风险。
输出方面,生成内容愈发逼真加剧误用、滥用、恶意使用风险 随着大模型在多模态理解能力和原生多模态技术等方面的进步,AIGC(人工智能生 成内容)在拟真度方面取得了显著进步,高度的拟真导致了用户更容易对 AIGC 和真 实内容之间产生混淆,一方面增加了误用、滥用的可能性,例如医疗咨询场景中的 AIGC 内容如不清楚标识,可能被误认为医生的诊断结果;另一方面加重了恶意使用 的风险影响,例如 AIGC 在情景化和个性化语境中实施大规模、高效率的信息欺诈变 得更加容易。同时,大模型产品化的加速发展、AI Agent 和垂直领域模型微调的广泛 应用,使得大模型滥用和恶意使用的门槛被降低,并具备了规模化生产的条件。