百度(9888.HK)专题研究报告:大模型研究笔记.pdf

  • 上传者:2******
  • 时间:2023/05/15
  • 热度:352
  • 0人点赞
  • 举报

百度(9888.HK)专题研究报告:大模型研究笔记。现有的市场研究主要聚焦下游应用,即大语言模型能够实现什么 功能,满足什么市场需求,而将大语言模型本身视为黑匣子,缺 乏对语言模型本身机制的研究。本篇报告主要是对学界在 LLM 模型架构、预训练各环节、下游调优等领域的探索进行系统梳理, 旨在增进市场对 LLM 技术原理的理解。需要指出的是,由于相 关文献较多,本报告可能存在遗漏,并引致风险。

模型结构方面,现有的主流模型均基于 Transformer 架构。行业 发展的关键节点在于 1)下游任务逐渐被统一;2)研究总结出 Scaling Law,从而催生规模竞赛;3)Google 团队提出 CoT 研究, 大模型+CoT prompt 效果显著提升。因此,此前行业主流范式是 训练更大的模型,通过引入代码数据等方式激活模型的潜在能 力。但一些最新研究表明规模效应带来的涌现可能是度量选择的 结果,规模带来的性能提升可能没有此前的研究所表明的那么显 著,因而引发一些对进一步推动规模扩展的谨慎观点。

预训练仍存在非常充分的优化空间。1)训练数据集上,当前参数 规模相比数据集过度扩张明显,训练数据集一定程度上制约了性 能的提升。另一方面,数据集扩大可能带来重复数据的问题,而 研究表明训练中的重复数据会显著影响模型的性能提升,因此对 数据的清洗可能是业界实践中比较重要的环节;2)知识图谱方 面,一些团队如百度 ERNIE 将知识图谱引入 LLM 训练,实现性 能提升,但研究表明,由于知识图谱数据库搭建的高成本,且也 不适用于所有类别/场景的数据,规模化难度较高。此外,知识图 谱的性能提升是以推理速度的下降为代价的;3)参数规模方面, OpenAI 提出的 Scaling Law 引发此前行业的规模竞赛,但斯坦福 大学团队近期研究质疑了这一规律,并通过实验表明规模提升带 来的效果突变是测试函数表达形式的结果,剔除影响后模型性能 随规模变化更接近线性曲线。考虑到其他环节的优化空间,规模 进一步大幅扩张可能不是厂商们的首要考虑目标;4)训练策略方面,Google 提出了 Fixup、Skipint 等初始化策略,其中后者在 Transformer 模型小 Batch size 训练下性能优于基准;稀疏训练和过参数方面的研究指出过参数有益于训练,但对推理部署成本有负面影响, UCB 团队研究指出先训练大模型,再进行压缩、剪枝是给定计算资源约束下的最优选择。大批量学习方面, Google 团队提出 LAMB 优化器,实现 32K Batch size 下无损训练(1K=1024)。

1页 / 共47
百度(9888.HK)专题研究报告:大模型研究笔记.pdf第1页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第2页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第3页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第4页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第5页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第6页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第7页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第8页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第9页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第10页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第11页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第12页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第13页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第14页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第15页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第16页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第17页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第18页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第19页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第20页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第21页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第22页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第23页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第24页 百度(9888.HK)专题研究报告:大模型研究笔记.pdf第25页
  • 格式:pdf
  • 大小:7.4M
  • 页数:47
  • 价格: 7积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
分享至