计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf

  • 上传者:J***
  • 时间:2024/09/23
  • 热度:524
  • 0人点赞
  • 举报

计算机行业专题研究:MoE与思维链助力大模型技术路线破局。Transformer 架构大模型对算力成本要求高,一定程度阻碍了大模型研发和应用的 进一步创新,随着o1大模型的发布以及MoE架构的成熟,技术路线有望破局。

巨额算力投入成为技术和效益优化的瓶颈,技术路径破局迫在眉睫。从效益端看,基于Transformer架构的模型在训练计算量(training FLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在 大模型训练任务中,算力成为必须的基础性资源。但随着模型越来 越大,算力成本越来越高,成本飙升源于模型复杂度和数据量攀升 对计算资源的需求。Anthropic 首席执行官表示,三年内AI模型的 训练成本将上升到100 亿美元甚至 1000 亿美元。巨额的大模型训 练投入一定程度减缓了技术进步和效益提升,因此技术路径破局尤 为关键。当前MoE以及OpenAI o1的“思维链”是重要探索实践。

MoE框架是对Transformer 架构的优化,关键在于路由策略及微调。其能在不给训练和推理阶段引入过大计算需求的前提下大幅提 升模型能力。在基于Transformer的大型语言模型(LLM)中,每个 混合专家(MoE)层的组成形式通常是?个“专家网络”搭配一个“门 控网络”G。门控函数(也被称路由函数)是所有 MoE 架构的基础 组件,作用是协调使用专家计算以及组合各专家的输出。根据对每 个输入的处理方法,该门控可分为三种类型:稀疏式、密集式和soft 式。其中稀疏式门控机制是激活部分专家,而密集式是激活所有专 家,soft 式则包括完全可微方法,包括输入token融合和专家融合。 MoE 在 NLP、CV、语音识别以及机器人等领域表现出色,且在更 高性能的大模型推理芯片LPU加持下,MoE模型提升效果显著。

OpenAI o1基于“思维链”的创新推理模式,学会人类“慢思考”, 专业领域的效果突出。OpenAI o1相比之前的AI大模型最跨越性的 一步在于拥有人类“慢思考”的特质:系统性、逻辑性、批判性、 意识性。在响应用户提出的难题之前,OpenAI o1 会产生一个缜密 的内部思维链,进行长时间的思考,完善思考过程、意识逻辑错误、 优化使用策略、推理正确答案。这种深度思考能力在处理数学、编 程、代码、优化等高难度问题时发挥重要作用,能够进行博士级别 的科学问答,成为真正的通用推理。推理侧的应用模式创新有望在 更为专业的领域创造价值应用,从通用的偏娱乐领域逐步过渡到偏 严肃的专业领域场景,AI大模型的真正实践价值有望进一步释放, 因此 o1 模型提供的新应用范式和能力维度在大模型技术路线演绎 中,具有里程碑意义。

1页 / 共21
计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf第1页 计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf第2页 计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf第3页 计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf第4页 计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf第5页 计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf第6页 计算机行业专题研究:MoE与思维链助力大模型技术路线破局.pdf第7页
  • 格式:pdf
  • 大小:2.4M
  • 页数:21
  • 价格: 6积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至