百度大模型研究笔记（二）.pdf

上传者：A*****
时间：2023/05/31
热度：419
0人点赞
举报

百度大模型研究笔记（二）模型结构方面，Context Window 拓展下游应用场景。技术路线上，引入局部注意力机制能一定程度上延长 context window，但难以实现量级的拓展。斯坦福大学和纽约州立大学团队于 2022 年 5 月提出的 FlashAttention 结合前述研究，并基于 CUDA 对底层内存读取做出优化，实现 context window 的大幅拓展。斯坦福大学和蒙特利尔大学的研究团队于 2023 年 2 月进一步提出 Hyena 架构，较此前 FlashAttention 进一步实现性能优化。

预训练环节存在广阔优化空间。1）并行化环节，主要思路是结合模型并行与数据并行，并引入分片策略，核心差异在于分片应用环节不同，以及不同并行策略应用顺序的差异。从公开研究所披露的效果看，英伟达>谷歌>微软；2）大规模计算集群方面，阿里巴巴在大规模计算集群的通信优化方面较为领先，同时在确定性网络、准确测量两条路径上均有重要工作，基本处于国内领先地位，与谷歌、思科等国际大厂仍存在一定差距；3）内存置换与 checkpoint 优化方面，该领域偏向训练过程的工程技巧，法国国家信息与自动化研究所将 offload 与 checkpoint 结合，实现在训练环节降低训练损耗。此前，Google 团队在 Palm 论文也提到对 checkpoint 做出的其他优化，提升模型训练的稳定性。

下游调试方面，比较重要的研究来自微软和 CMU 研究团队于 2021 年 6 月提出 LoRA，核心思想是通过秩分解矩阵来间接训练神经网络中的一些密集层，同时冻结预训练模型权重，降低存储占用，同时提升训练速度。LoRA 降低了模型二次调优的门槛，并成为简单应用开发的重要技术。后续斯坦福大学研究团队基于 LLaMA 模型，收集 ChatGPT 回答并应用 LoRA 调优，实现低成本、高效率的小模型开发（参数规模在 7~13B，远小于 ChatGPT），并实现简单任务上的性能匹配。此外，Anthorpic 与 OpenAI 引入基于 AI 反馈的强化学习（RLAIF），并实现无害性优化。