百度(9888.HK)专题研究报告:大模型研究笔记.pdf
- 上传者:2******
- 时间:2023/05/15
- 热度:352
- 0人点赞
- 举报
百度(9888.HK)专题研究报告:大模型研究笔记。现有的市场研究主要聚焦下游应用,即大语言模型能够实现什么 功能,满足什么市场需求,而将大语言模型本身视为黑匣子,缺 乏对语言模型本身机制的研究。本篇报告主要是对学界在 LLM 模型架构、预训练各环节、下游调优等领域的探索进行系统梳理, 旨在增进市场对 LLM 技术原理的理解。需要指出的是,由于相 关文献较多,本报告可能存在遗漏,并引致风险。
模型结构方面,现有的主流模型均基于 Transformer 架构。行业 发展的关键节点在于 1)下游任务逐渐被统一;2)研究总结出 Scaling Law,从而催生规模竞赛;3)Google 团队提出 CoT 研究, 大模型+CoT prompt 效果显著提升。因此,此前行业主流范式是 训练更大的模型,通过引入代码数据等方式激活模型的潜在能 力。但一些最新研究表明规模效应带来的涌现可能是度量选择的 结果,规模带来的性能提升可能没有此前的研究所表明的那么显 著,因而引发一些对进一步推动规模扩展的谨慎观点。
预训练仍存在非常充分的优化空间。1)训练数据集上,当前参数 规模相比数据集过度扩张明显,训练数据集一定程度上制约了性 能的提升。另一方面,数据集扩大可能带来重复数据的问题,而 研究表明训练中的重复数据会显著影响模型的性能提升,因此对 数据的清洗可能是业界实践中比较重要的环节;2)知识图谱方 面,一些团队如百度 ERNIE 将知识图谱引入 LLM 训练,实现性 能提升,但研究表明,由于知识图谱数据库搭建的高成本,且也 不适用于所有类别/场景的数据,规模化难度较高。此外,知识图 谱的性能提升是以推理速度的下降为代价的;3)参数规模方面, OpenAI 提出的 Scaling Law 引发此前行业的规模竞赛,但斯坦福 大学团队近期研究质疑了这一规律,并通过实验表明规模提升带 来的效果突变是测试函数表达形式的结果,剔除影响后模型性能 随规模变化更接近线性曲线。考虑到其他环节的优化空间,规模 进一步大幅扩张可能不是厂商们的首要考虑目标;4)训练策略方面,Google 提出了 Fixup、Skipint 等初始化策略,其中后者在 Transformer 模型小 Batch size 训练下性能优于基准;稀疏训练和过参数方面的研究指出过参数有益于训练,但对推理部署成本有负面影响, UCB 团队研究指出先训练大模型,再进行压缩、剪枝是给定计算资源约束下的最优选择。大批量学习方面, Google 团队提出 LAMB 优化器,实现 32K Batch size 下无损训练(1K=1024)。
免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。
- 相关标签
- 相关专题
- 全部热门
- 本年热门
- 本季热门
- 百度专题报告:前瞻布局AI+智能驾驶,MaaS浪潮来临有望开启第二增长曲线.pdf 544 7积分
- 百度分析报告:云与自动驾驶机器人引领AI新增长.pdf 468 6积分
- 百度大模型研究笔记(二).pdf 420 5积分
- 百度(9888.HK)专题研究报告:大模型研究笔记.pdf 353 7积分
- 百度大模型研究笔记(三).pdf 322 8积分
- 百度电话销售提高篇【百度公司,电话营销】.pptx 226 18积分
- 2024AI+研发数字峰会:与开发者同频——百度构建人机协同新范式的实践.pdf 197 8积分
- 百度-2025百度智能云精选案例集.pdf 94 10积分
- 百度公司研究报告:回落给昆仑芯期权带来更清晰的切入点.pdf 49 3积分
- 2024AI+研发数字峰会:与开发者同频——百度构建人机协同新范式的实践.pdf 197 8积分
- 百度-2025百度智能云精选案例集.pdf 94 10积分
- 百度公司研究报告:回落给昆仑芯期权带来更清晰的切入点.pdf 49 3积分
