百度大模型研究笔记(二).pdf
- 上传者:A*****
- 时间:2023/05/31
- 热度:419
- 0人点赞
- 举报
百度大模型研究笔记(二)模型结构方面,Context Window 拓展下游应用场景。技术路线 上,引入局部注意力机制能一定程度上延长 context window,但 难以实现量级的拓展。斯坦福大学和纽约州立大学团队于 2022 年 5 月提出的 FlashAttention 结合前述研究,并基于 CUDA 对底层 内存读取做出优化,实现 context window 的大幅拓展。斯坦福大 学和蒙特利尔大学的研究团队于 2023 年 2 月进一步提出 Hyena 架构,较此前 FlashAttention 进一步实现性能优化。
预训练环节存在广阔优化空间。1)并行化环节,主要思路是结合 模型并行与数据并行,并引入分片策略,核心差异在于分片应用 环节不同,以及不同并行策略应用顺序的差异。从公开研究所披 露的效果看,英伟达>谷歌>微软;2)大规模计算集群方面,阿里 巴巴在大规模计算集群的通信优化方面较为领先,同时在确定性 网络、准确测量两条路径上均有重要工作,基本处于国内领先地 位,与谷歌、思科等国际大厂仍存在一定差距;3)内存置换与 checkpoint 优化方面,该领域偏向训练过程的工程技巧,法国国 家信息与自动化研究所将 offload 与 checkpoint 结合,实现在训练 环节降低训练损耗。此前,Google 团队在 Palm 论文也提到对 checkpoint 做出的其他优化,提升模型训练的稳定性。
下游调试方面,比较重要的研究来自微软和 CMU 研究团队于 2021 年 6 月提出 LoRA,核心思想是通过秩分解矩阵来间接训练 神经网络中的一些密集层,同时冻结预训练模型权重,降低存储 占用,同时提升训练速度。LoRA 降低了模型二次调优的门槛, 并成为简单应用开发的重要技术。后续斯坦福大学研究团队基于 LLaMA 模型,收集 ChatGPT 回答并应用 LoRA 调优,实现低成 本、高效率的小模型开发(参数规模在 7~13B,远小于 ChatGPT), 并实现简单任务上的性能匹配。此外,Anthorpic 与 OpenAI 引入 基于 AI 反馈的强化学习(RLAIF),并实现无害性优化。
免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。
- 相关标签
- 相关专题
- 全部热门
- 本年热门
- 本季热门
- 百度专题报告:前瞻布局AI+智能驾驶,MaaS浪潮来临有望开启第二增长曲线.pdf 544 7积分
- 百度分析报告:云与自动驾驶机器人引领AI新增长.pdf 467 6积分
- 百度大模型研究笔记(二).pdf 420 5积分
- 百度(9888.HK)专题研究报告:大模型研究笔记.pdf 352 7积分
- 百度大模型研究笔记(三).pdf 321 8积分
- 百度电话销售提高篇【百度公司,电话营销】.pptx 225 18积分
- 2024AI+研发数字峰会:与开发者同频——百度构建人机协同新范式的实践.pdf 197 8积分
- 百度-2025百度智能云精选案例集.pdf 94 10积分
- 百度公司研究报告:回落给昆仑芯期权带来更清晰的切入点.pdf 48 3积分
- 2024AI+研发数字峰会:与开发者同频——百度构建人机协同新范式的实践.pdf 197 8积分
- 百度-2025百度智能云精选案例集.pdf 94 10积分
- 百度公司研究报告:回落给昆仑芯期权带来更清晰的切入点.pdf 48 3积分
