百度大模型研究笔记（三）.pdf

上传者：2******
时间：2023/06/25
热度：321
0人点赞
举报

百度大模型研究笔记（三）模型结构方面，Meta 研究团队于 2023 年 5 月提出 Megabyte，基于对 Transformer 架构做出改进：Transformer 架构是以 token 为基本单位的，而 token 形式的目的是将输入数据转换成计算机可以处理的形式，但 token 与单词并非一一对应，这等于带来额外的分词成本。Megabyte 对模型处理的基础单元做出修改，从 token 改为 patch，此外引入局部模块预测 patch 内文本序列，相当于引入二次注意力机制，最终实现计算成本降低、速度提升。

预训练环节，现有超大参数模型部署端侧时受限于终端计算资源和功耗，需要小、低延迟和低能耗的神经网络模型，从而节省成本。混合精度训练是把 FP32 表示的权重、参数和激活值用 FP16、 INT8、INT4 重新表示，并且通过浮点数转定点数将连续的数值映射为离散化的数值，从而加快训练速度和降低存储占用。最新的进展来自 ETH 的 SpQR，将剪枝思想迁移至推理环节的混合精度，在 1%的性能损失下大幅提升推理效率。

下游调试方面，1）Alignment 环节的数据质量和多样性可能比数量重要。Meta 研究团队提出 Alignment 实质是模型在预训练阶段学习知识，在 Alignment 阶段学习人类交互形式。研究团队通过控制变量比较了数据质量、规模对 Alignment 后模型性能的影响，发现数据质量对性能影响显著，数量影响则不显著；2）Prompt 环节 ToT 提升 LLM 解决复杂问题的能力。Google DeepMind 等团队于 2023 年 5 月提出 Tree-of-thoughts（ToT）。ToT 则是借鉴人类思考的思维树范式，相比于 CoT，ToT 增加了对问题的分解和评估，实现模型解决复杂问题的表现提升。