百度大模型研究笔记(二).pdf

  • 上传者:A*****
  • 时间:2023/05/31
  • 热度:419
  • 0人点赞
  • 举报

百度大模型研究笔记(二)模型结构方面,Context Window 拓展下游应用场景。技术路线 上,引入局部注意力机制能一定程度上延长 context window,但 难以实现量级的拓展。斯坦福大学和纽约州立大学团队于 2022 年 5 月提出的 FlashAttention 结合前述研究,并基于 CUDA 对底层 内存读取做出优化,实现 context window 的大幅拓展。斯坦福大 学和蒙特利尔大学的研究团队于 2023 年 2 月进一步提出 Hyena 架构,较此前 FlashAttention 进一步实现性能优化。

预训练环节存在广阔优化空间。1)并行化环节,主要思路是结合 模型并行与数据并行,并引入分片策略,核心差异在于分片应用 环节不同,以及不同并行策略应用顺序的差异。从公开研究所披 露的效果看,英伟达>谷歌>微软;2)大规模计算集群方面,阿里 巴巴在大规模计算集群的通信优化方面较为领先,同时在确定性 网络、准确测量两条路径上均有重要工作,基本处于国内领先地 位,与谷歌、思科等国际大厂仍存在一定差距;3)内存置换与 checkpoint 优化方面,该领域偏向训练过程的工程技巧,法国国 家信息与自动化研究所将 offload 与 checkpoint 结合,实现在训练 环节降低训练损耗。此前,Google 团队在 Palm 论文也提到对 checkpoint 做出的其他优化,提升模型训练的稳定性。

下游调试方面,比较重要的研究来自微软和 CMU 研究团队于 2021 年 6 月提出 LoRA,核心思想是通过秩分解矩阵来间接训练 神经网络中的一些密集层,同时冻结预训练模型权重,降低存储 占用,同时提升训练速度。LoRA 降低了模型二次调优的门槛, 并成为简单应用开发的重要技术。后续斯坦福大学研究团队基于 LLaMA 模型,收集 ChatGPT 回答并应用 LoRA 调优,实现低成 本、高效率的小模型开发(参数规模在 7~13B,远小于 ChatGPT), 并实现简单任务上的性能匹配。此外,Anthorpic 与 OpenAI 引入 基于 AI 反馈的强化学习(RLAIF),并实现无害性优化。

1页 / 共29
百度大模型研究笔记(二).pdf第1页 百度大模型研究笔记(二).pdf第2页 百度大模型研究笔记(二).pdf第3页 百度大模型研究笔记(二).pdf第4页 百度大模型研究笔记(二).pdf第5页 百度大模型研究笔记(二).pdf第6页 百度大模型研究笔记(二).pdf第7页 百度大模型研究笔记(二).pdf第8页 百度大模型研究笔记(二).pdf第9页 百度大模型研究笔记(二).pdf第10页 百度大模型研究笔记(二).pdf第11页 百度大模型研究笔记(二).pdf第12页 百度大模型研究笔记(二).pdf第13页 百度大模型研究笔记(二).pdf第14页 百度大模型研究笔记(二).pdf第15页
  • 格式:pdf
  • 大小:5.1M
  • 页数:29
  • 价格: 5积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
分享至