大模型技术路线、创新与改进分析

大模型技术路线、创新与改进分析
 

最佳答案 匿名用户编辑于2025/06/17 09:41

大模型技术路线呈现出从预训练到后训练的发展过程。

回顾大模型的迭代历程,呈现出从预训练到后训练的发展过程。大语言模型的预训练主要 包括参数集的扩大、训练数据的扩大以及模型架构的优化。自 2017 年 Google 提出 Transformer 架构,通过自注意力机制首次实现了序列数据的全局关联建模与高效并行处理。 自此预训练的 Scaling Law 开启。回顾过去大模型的迭代,2018-2024 年 9 月主要是模型 的预训练阶段。参数量来看,2024 年主流大模型迭代至千亿级别,而后参数扩大的趋势有 所放缓。进入 2025 年,以 Llama 4 Behemoth 为代表的模型进一步将参数扩大至 2 万亿级 别。

自 2024 年 9 月 OpenAI o1 模型开始,大模型进入后训练阶段。随着经典 transformer 架 构下,预训练数据已达到瓶颈(如现有互联网公开文本几乎耗尽),业界从“堆参数”转向 后训练优化,通过指令微调(SFT)和人类反馈强化学习(RLHF)对齐人类意图。大模型 在基础路线和架构上没有太大的变化,强化学习(RL)带来的后训练 test-time compute 是 大模型的主流迭代方向。全球的大模型厂商大都在遵循 OpenAI 于 24 年 9 月提出的这一路 线。包括 2025 年 1 月 DeepSeek 的发布,依然是在基础模型的底座上进行大规模的强化 学习,并没有完全脱离主流路线。

经典 transformer 架构下模型参数规模扩大放缓,新架构探索未来可期。从 2024 年 9 月 后的模型端的更新来看,多数的模型更新的重点在于后训练阶段的优化,模型参数与训练 数据的数量已达到瓶颈,最大规模模型参数数量维持在 2 万亿参数上下,目前还没看到更 大的突破,主要由于在当前架构下扩大参数数量未能看到模型性能的显著提升,当前互联 网公开数据在训练中已经接近使用完毕,这导致了预训练阶段的探索放缓。但在近期,我 们也看到了以新架构探索为代表的新一轮预训练开启的信号。

如果说有一些新的变化,我们认为还是要关注大厂对于模型技术路径的创新,有几个值得 关注的点: 1)腾讯于 25 年 2 月发布了混元大语言模型 TurboS,是业界首个大规模部署的 Transformer-Mamba 专家混合(MoE)模型,通过 Mamba 架构在长序列处理上的卓越效 率与 Transformer 架构在上下文理解上的固有优势的有机协同,实现了性能与效率的平衡。 具体架构采用了创新的“AMF”(Attention → Mamba2 → FFN)和“MF”(Mamba2 → FFN)模块交错模式。 2)Google 的 Gemini Diffusion 可能是另一突破点。Google 于 5 月的 I/O 大会上发布了 Gemini Diffusion文本扩散模型,能够通过将随机噪声转换为连贯的文本或代码来生成输出, 类似图像/视频生成模型的工作模式(Transformer 模型是一个词一个词输出,而 Diffusion 模型一次性输出很多词再做优化,连贯性好)。Gemini Diffusion 在生成内容的速度上明显 快于 Transformer 类模型,官方指出输出速度约 1479 tokens/s,而一般的 Transformer 类 最快也只能每秒输出数百个 token。Gemini Diffusion 在数学和代码等编辑任务中表现出色。 我们认为,Gemini Diffusion 是大厂在商业化模型上首次将扩散模型用于文本生成,或是类 似于 OpenAI o1 一样的重要路径转折点,实现快速地迭代解决方案,并在生成过程中进行 错误校正。

3)大厂在预训练阶段参数量、数据量扩大仍有尝试。从近期的预训练阶段的更新来看,主 要包括 Meta 与小米,Meta 的 Llama 4 系列模型参数进一步扩大,Llama 4 Behemoth 总参 数达 2 万亿级别,是目前发布的最大参数的模型。数据量方面,小米近期发布的 MiMo 系 列模型,运用了约 200B tokens 合成推理数据,进一步扩大了训练数据规模。 4)大规模算力集群落地支持模型预训练的探索。随着 OpenAI 星际之门与 xAI colosuss 大 规模算力集群在未来的交付,预训练有望进一步向前推进。Sam Altman 在星际之门的纪录 片中表示星际之门算力集群的部署是为达到 AGI 而建,而非满足 OpenAI 推理需求。我们 看到在预训练阶段的探索没有停滞,OpenAI、xAI 等厂商在更大规模算力的支持下预训练 有望迎来新的突破。

模型架构的改进,或是 Scaling Law 提速的可行性方案,预训练有望开启新的起点。2024 年 12 月在神经信息处理系统会议(NIPS)上,Ilya Sutskever 指出:1)现阶段语言模型 在预训练阶段,已经达到了瓶颈,因为人类当前生产的公开数据几乎全部被用完。2)新数 据或合成数据没有带来大的变化。3)大模型与人类大脑类似,但人类仍在进步,因为人类 具有自我意识会使用工具创造新的知识,LLMs 将结合 Agent 和工具推动这一进程。另外, Ilya 还引用了《The evolutions of large brain size in mammals: the 'over-700-gram club quartet'》,用来说明人类大脑 Scaling Law 的速度快于普通哺乳动物,因此,将 Transformer 比作哺乳动物的话,那么下一步要点就是发现一个新的架构,其 Scaling 的速度能达到人类 大脑的水平,这样就能在有限的数据下,进一步提高模型性能。我们认为,模型架构的改 进,或是 Scaling Law 提速的可行性方案。

参考报告

科技行业AI展望:New Scaling,New Paradigm,New TAM.pdf

科技行业AI展望:NewScaling,NewParadigm,NewTAM。全球AI展望:NewScaling,NewParadigm,NewTAM展望全球AI发展趋势,1)模型端新架构正逐步探索,预训练ScalingLaw有望呈现新起点;2)算力端训练与推理共同推动算力需求持续上行,有望开启新TAM,同时算力硬件设计进入新范式;3)应用端商业模式变革带来新范式,Agent在细分领域率先落地带来新TAM。持续看好AI产业投资主线,看好全球AI应用进入业绩收获期。模型:预训练ScalingLaw有望开启新起点回顾近三个季度以来的大模型迭代情况,强化学习(RL)带来的后训练test-timeco...

查看详情
相关报告
我来回答