百度大模型研究笔记(三).pdf
- 上传者:2******
- 时间:2023/06/25
- 热度:321
- 0人点赞
- 举报
百度大模型研究笔记(三)模型结构方面,Meta 研究团队于 2023 年 5 月提出 Megabyte,基 于对 Transformer 架构做出改进:Transformer 架构是以 token 为 基本单位的,而 token 形式的目的是将输入数据转换成计算机可 以处理的形式,但 token 与单词并非一一对应,这等于带来额外 的分词成本。Megabyte 对模型处理的基础单元做出修改,从 token 改为 patch,此外引入局部模块预测 patch 内文本序列,相当于引 入二次注意力机制,最终实现计算成本降低、速度提升。
预训练环节,现有超大参数模型部署端侧时受限于终端计算资源 和功耗,需要小、低延迟和低能耗的神经网络模型,从而节省成 本。混合精度训练是把 FP32 表示的权重、参数和激活值用 FP16、 INT8、INT4 重新表示,并且通过浮点数转定点数将连续的数值 映射为离散化的数值,从而加快训练速度和降低存储占用。最新 的进展来自 ETH 的 SpQR,将剪枝思想迁移至推理环节的混合精 度,在 1%的性能损失下大幅提升推理效率。
下游调试方面,1)Alignment 环节的数据质量和多样性可能比数 量重要。Meta 研究团队提出 Alignment 实质是模型在预训练阶段 学习知识,在 Alignment 阶段学习人类交互形式。研究团队通过 控制变量比较了数据质量、规模对 Alignment 后模型性能的影响, 发现数据质量对性能影响显著,数量影响则不显著;2)Prompt 环节 ToT 提升 LLM 解决复杂问题的能力。Google DeepMind 等 团队于 2023 年 5 月提出 Tree-of-thoughts(ToT)。ToT 则是借鉴 人类思考的思维树范式,相比于 CoT,ToT 增加了对问题的分解 和评估,实现模型解决复杂问题的表现提升。
免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。
- 相关标签
- 相关专题
- 全部热门
- 本年热门
- 本季热门
- 百度专题报告:前瞻布局AI+智能驾驶,MaaS浪潮来临有望开启第二增长曲线.pdf 544 7积分
- 百度分析报告:云与自动驾驶机器人引领AI新增长.pdf 467 6积分
- 百度大模型研究笔记(二).pdf 420 5积分
- 百度(9888.HK)专题研究报告:大模型研究笔记.pdf 352 7积分
- 百度大模型研究笔记(三).pdf 321 8积分
- 百度电话销售提高篇【百度公司,电话营销】.pptx 225 18积分
- 2024AI+研发数字峰会:与开发者同频——百度构建人机协同新范式的实践.pdf 197 8积分
- 百度-2025百度智能云精选案例集.pdf 94 10积分
- 百度公司研究报告:回落给昆仑芯期权带来更清晰的切入点.pdf 48 3积分
- 2024AI+研发数字峰会:与开发者同频——百度构建人机协同新范式的实践.pdf 197 8积分
- 百度-2025百度智能云精选案例集.pdf 94 10积分
- 百度公司研究报告:回落给昆仑芯期权带来更清晰的切入点.pdf 48 3积分
