大模型技术路线、创新与改进分析

提问时间：2025/06/17
浏览次数：223
提问者：匿名用户
举报
分享微信 QQ 微博

大模型技术路线、创新与改进分析

标签

大模型

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/06/17 09:41

大模型技术路线呈现出从预训练到后训练的发展过程。

回顾大模型的迭代历程，呈现出从预训练到后训练的发展过程。大语言模型的预训练主要包括参数集的扩大、训练数据的扩大以及模型架构的优化。自 2017 年 Google 提出 Transformer 架构，通过自注意力机制首次实现了序列数据的全局关联建模与高效并行处理。自此预训练的 Scaling Law 开启。回顾过去大模型的迭代，2018-2024 年 9 月主要是模型的预训练阶段。参数量来看，2024 年主流大模型迭代至千亿级别，而后参数扩大的趋势有所放缓。进入 2025 年，以 Llama 4 Behemoth 为代表的模型进一步将参数扩大至 2 万亿级别。

自 2024 年 9 月 OpenAI o1 模型开始，大模型进入后训练阶段。随着经典 transformer 架构下，预训练数据已达到瓶颈（如现有互联网公开文本几乎耗尽），业界从“堆参数”转向后训练优化，通过指令微调（SFT）和人类反馈强化学习（RLHF）对齐人类意图。大模型在基础路线和架构上没有太大的变化，强化学习（RL）带来的后训练 test-time compute 是大模型的主流迭代方向。全球的大模型厂商大都在遵循 OpenAI 于 24 年 9 月提出的这一路线。包括 2025 年 1 月 DeepSeek 的发布，依然是在基础模型的底座上进行大规模的强化学习，并没有完全脱离主流路线。

经典 transformer 架构下模型参数规模扩大放缓，新架构探索未来可期。从 2024 年 9 月后的模型端的更新来看，多数的模型更新的重点在于后训练阶段的优化，模型参数与训练数据的数量已达到瓶颈，最大规模模型参数数量维持在 2 万亿参数上下，目前还没看到更大的突破，主要由于在当前架构下扩大参数数量未能看到模型性能的显著提升，当前互联网公开数据在训练中已经接近使用完毕，这导致了预训练阶段的探索放缓。但在近期，我们也看到了以新架构探索为代表的新一轮预训练开启的信号。

如果说有一些新的变化，我们认为还是要关注大厂对于模型技术路径的创新，有几个值得关注的点： 1）腾讯于 25 年 2 月发布了混元大语言模型 TurboS，是业界首个大规模部署的 Transformer-Mamba 专家混合（MoE）模型，通过 Mamba 架构在长序列处理上的卓越效率与 Transformer 架构在上下文理解上的固有优势的有机协同，实现了性能与效率的平衡。具体架构采用了创新的“AMF”（Attention → Mamba2 → FFN）和“MF”（Mamba2 → FFN）模块交错模式。 2）Google 的 Gemini Diffusion 可能是另一突破点。Google 于 5 月的 I/O 大会上发布了 Gemini Diffusion文本扩散模型，能够通过将随机噪声转换为连贯的文本或代码来生成输出，类似图像/视频生成模型的工作模式（Transformer 模型是一个词一个词输出，而 Diffusion 模型一次性输出很多词再做优化，连贯性好）。Gemini Diffusion 在生成内容的速度上明显快于 Transformer 类模型，官方指出输出速度约 1479 tokens/s，而一般的 Transformer 类最快也只能每秒输出数百个 token。Gemini Diffusion 在数学和代码等编辑任务中表现出色。我们认为，Gemini Diffusion 是大厂在商业化模型上首次将扩散模型用于文本生成，或是类似于 OpenAI o1 一样的重要路径转折点，实现快速地迭代解决方案，并在生成过程中进行错误校正。

3）大厂在预训练阶段参数量、数据量扩大仍有尝试。从近期的预训练阶段的更新来看，主要包括 Meta 与小米，Meta 的 Llama 4 系列模型参数进一步扩大，Llama 4 Behemoth 总参数达 2 万亿级别，是目前发布的最大参数的模型。数据量方面，小米近期发布的 MiMo 系列模型，运用了约 200B tokens 合成推理数据，进一步扩大了训练数据规模。 4）大规模算力集群落地支持模型预训练的探索。随着 OpenAI 星际之门与 xAI colosuss 大规模算力集群在未来的交付，预训练有望进一步向前推进。Sam Altman 在星际之门的纪录片中表示星际之门算力集群的部署是为达到 AGI 而建，而非满足 OpenAI 推理需求。我们看到在预训练阶段的探索没有停滞，OpenAI、xAI 等厂商在更大规模算力的支持下预训练有望迎来新的突破。

模型架构的改进，或是 Scaling Law 提速的可行性方案，预训练有望开启新的起点。2024 年 12 月在神经信息处理系统会议（NIPS）上，Ilya Sutskever 指出：1）现阶段语言模型在预训练阶段，已经达到了瓶颈，因为人类当前生产的公开数据几乎全部被用完。2）新数据或合成数据没有带来大的变化。3）大模型与人类大脑类似，但人类仍在进步，因为人类具有自我意识会使用工具创造新的知识，LLMs 将结合 Agent 和工具推动这一进程。另外， Ilya 还引用了《The evolutions of large brain size in mammals: the 'over-700-gram club quartet'》，用来说明人类大脑 Scaling Law 的速度快于普通哺乳动物，因此，将 Transformer 比作哺乳动物的话，那么下一步要点就是发现一个新的架构，其 Scaling 的速度能达到人类大脑的水平，这样就能在有限的数据下，进一步提高模型性能。我们认为，模型架构的改进，或是 Scaling Law 提速的可行性方案。

参考报告

科技行业AI展望：New Scaling，New Paradigm，New TAM.pdf

科技行业AI展望：NewScaling，NewParadigm，NewTAM。全球AI展望：NewScaling，NewParadigm，NewTAM展望全球AI发展趋势，1）模型端新架构正逐步探索，预训练ScalingLaw有望呈现新起点；2）算力端训练与推理共同推动算力需求持续上行，有望开启新TAM，同时算力硬件设计进入新范式；3）应用端商业模式变革带来新范式，Agent在细分领域率先落地带来新TAM。持续看好AI产业投资主线，看好全球AI应用进入业绩收获期。模型：预训练ScalingLaw有望开启新起点回顾近三个季度以来的大模型迭代情况，强化学习（RL）带来的后训练test-timeco...

查看详情

大模型技术路线、创新与改进分析

科技行业AI展望：New Scaling，New Paradigm，New TAM.pdf

海内外大模型落地进展如何？

未来大模型的发展方向是什么？

大模型产业发展与企业应用情况如何？

海内外基础大模型发展趋势及技术展望分析

字节大模型核心亮点在哪？

国内大模型瓶颈及商业化难点在哪？

大模型产业链投资机遇在哪？

大模型金融能力评价基准梳理

海内外大模型厂商产品迭代方向和下游应用趋势分析

大模型如何基于图片思考？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王