百度（9888.HK）专题研究报告：大模型研究笔记.pdf

上传者：2******
时间：2023/05/15
热度：352
0人点赞
举报

百度（9888.HK）专题研究报告：大模型研究笔记。现有的市场研究主要聚焦下游应用，即大语言模型能够实现什么功能，满足什么市场需求，而将大语言模型本身视为黑匣子，缺乏对语言模型本身机制的研究。本篇报告主要是对学界在 LLM 模型架构、预训练各环节、下游调优等领域的探索进行系统梳理，旨在增进市场对 LLM 技术原理的理解。需要指出的是，由于相关文献较多，本报告可能存在遗漏，并引致风险。

模型结构方面，现有的主流模型均基于 Transformer 架构。行业发展的关键节点在于 1）下游任务逐渐被统一；2）研究总结出 Scaling Law，从而催生规模竞赛；3）Google 团队提出 CoT 研究，大模型+CoT prompt 效果显著提升。因此，此前行业主流范式是训练更大的模型，通过引入代码数据等方式激活模型的潜在能力。但一些最新研究表明规模效应带来的涌现可能是度量选择的结果，规模带来的性能提升可能没有此前的研究所表明的那么显著，因而引发一些对进一步推动规模扩展的谨慎观点。

预训练仍存在非常充分的优化空间。1）训练数据集上，当前参数规模相比数据集过度扩张明显，训练数据集一定程度上制约了性能的提升。另一方面，数据集扩大可能带来重复数据的问题，而研究表明训练中的重复数据会显著影响模型的性能提升，因此对数据的清洗可能是业界实践中比较重要的环节；2）知识图谱方面，一些团队如百度 ERNIE 将知识图谱引入 LLM 训练，实现性能提升，但研究表明，由于知识图谱数据库搭建的高成本，且也不适用于所有类别/场景的数据，规模化难度较高。此外，知识图谱的性能提升是以推理速度的下降为代价的；3）参数规模方面， OpenAI 提出的 Scaling Law 引发此前行业的规模竞赛，但斯坦福大学团队近期研究质疑了这一规律，并通过实验表明规模提升带来的效果突变是测试函数表达形式的结果，剔除影响后模型性能随规模变化更接近线性曲线。考虑到其他环节的优化空间，规模进一步大幅扩张可能不是厂商们的首要考虑目标；4）训练策略方面，Google 提出了 Fixup、Skipint 等初始化策略，其中后者在 Transformer 模型小 Batch size 训练下性能优于基准；稀疏训练和过参数方面的研究指出过参数有益于训练，但对推理部署成本有负面影响， UCB 团队研究指出先训练大模型，再进行压缩、剪枝是给定计算资源约束下的最优选择。大批量学习方面， Google 团队提出 LAMB 优化器，实现 32K Batch size 下无损训练（1K=1024）。