盘古大模型的优势体现在哪里?

盘古大模型的优势体现在哪里?

最佳答案 匿名用户编辑于2024/03/13 08:48

应用场景纷繁复杂叠加“作坊式”的开发模式导致传统 AI 模型商业化落地较难。

1.30 亿参数 CV 模型+千亿级 NLP 大模型业界领先

盘古大模型从 2020 年启动研发,2021 年 4 月正式发布,到 2022 年聚焦行业应用落地, 其进化路径可分为 L0-L1-L2 三个阶段,上层是在下层的基础上演化而来。L0 是指基础大 模型,包括 NLP(中文语言)大模型、CV(视觉)大模型、多模态大模型、科学计算大模 型以及 Graph(图网络)大模型。 自然语言处理(NLP)系列是业界首个千亿级生成与理解中文 NLP 大模型,由华为云、循 环智能和鹏城实验室联合开发,在训练过程中使用了 40TB 的中文文本数据,其中包含大 量的通用知识与行业经验,具备领先的语言理解和模型生成能力,并通过行业数据的小样 本调优提升模型在场景中的应用性能。在中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、阅读理解单项均排名第一,刷新了三项榜单世界历史纪录,总 排行榜得分 83.046(人类水平为 85.61),多项子任务得分业界领先。在 NLPCC 2018 文 本摘要任务中,盘古 NLP 大模型取得了 Rouge 平均分 0.53 的业界最佳成绩,超越第二名 百分之六十。此外,基于提示调优、动态冰化等一系列正则化技术,NLP 大模型还实现了 小样本学习任务超越 GPT 系列。

 

计算机视觉(CV)系列为业界最大的 CV 模型。其包含 30 亿+参数,在业界首次实现了模 型的按需抽取,可以在不同部署场景下抽取出不同大小的模型,动态范围可根据需求覆盖 特定的小场景到综合性的复杂大场景,实现了在 ImageNet 上小样本学习能力业界第一。 盘古 CV 大模型致力于解决 AI 工程难以泛化和复制的问题,使得研发成本降低 90%。此外, 盘古 CV 大模型提供模型预训练、微调、部署和迭代的功能,形成了 AI 开发完整闭环,极 大提升了 AI 开发效率。CV(视觉)大模型已成功应用在铁路巡检、国家电力巡检等场景。 华为南方工厂的 PCB 版质检即借助了盘古 CV(视觉)大模型进行展开,目前正被更多制 造企业应用在工业质检环节。

科学计算大模型主要解决各种科学问题,如气象预报、海浪预测、分子动力学预测、微分 方程求解等,旨在利用 AI 促进基础科学的发展。 多模态大模型具备图像和文本的跨模态理解、检索与生成能力,通过跨模态语义关联实现 视觉-文本-语音多模态统一表示,采用一个大模型即可灵活支撑图-文-音全场景 AI 应用, 可用于产品设计、艺术创作、语音播报、海报创作等领域。 Graph(图网络)大模型首创图网络融合技术,在工艺优化、时序预测、智能分析等场景 有广泛应用,如预测企业财务风险、制造企业优化工艺等。在时序预测场景下,图网络大 模型可协助中央空调系统进行可挥发气体浓度的预测、智能监测空气质量,同时可以帮助 零售企业进行销量预测。在工艺优化场景下,图网络大模型则可以帮助制造行业优化工艺、 降本增效。

L1 是指行业大模型,是在 L0 基础上导入行业数据进行训练后衍生出的模型,如盘古金融 大模型、盘古矿山大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型 等行业大模型。 L2 是指在 L1 基础上结合行业细分场景得到的推理模型。以在电力行业为例,华为云基于 盘古电力大模型,针对无人机电力巡检细分场景,通过一次预训练+下游任务的微调,推 出盘古电力巡检大模型,解决了无人机智能巡检系统(缺陷检测)中的小样本学习、主动 学习、增量学习等问题,同时解决了海量数据标注工作量大和缺陷种类繁多的问题。此外, 在华为云 AI 生态中,通过开源开放,盘古大模型充分借助开发者和合作伙伴的力量,如 将 L1 行业大模型开放给 ISV 伙伴等,将大模型的能力进一步下沉到场景,从而打造开放 生态。 总的来看,盘古大模型分为三个训练阶段:一是预训练,利用海量数据进行预训练得到通 用基础模型,二是微调,针对下游行业具体任务,结合行业数据进行微调;三是大模型迭 代,结合不断产生的新数据和之前训练使用的数据,实现大模型的终身学习。

目前,盘古大模型已经在 100 多个行业场景完成验证,包括能源、零售、金融、工业、医 疗、环境、物流等等。盘古 NLP 大模型涉及千亿参数、40TB 训练数据,对算法、算力、 海量数据处理、并行优化都提出了很大挑战。在算法方面,华为云算法团队和循环智能 (Recurrent AI)的 NLP 团队联合攻关,突破了大模型微调的难题。鹏城实验室的国内最 大规模 AI 训练集群鹏城云脑 II 在盘古 NLP 大模型训练中提供了强大的 AI 算力和数据吞 吐能力,为盘古大模型训练打下坚实的基础。此外,华为底层软件、训练框架、ModelArts 平台协同优化,充分释放算力,达成了全栈性能最优。 具体来看,首先,针对底层算子性能,盘古大模型基于华为 CANN 采用了算子量化、算子 融合优化等技术,将单算子性能提升 30%以上。其次,华为 MindSpore 创新性地采用了“流 水线并行、模型并行和数据并行”的多维自动混合并行技术,大幅降低了手动编码的工作 量,并提升集群线性度 20%。华为云 ModelArts 平台提供 E 级算力调度,同时结合物理网 络拓扑,提供动态路由规划能力,为大模型训练提供了最优的网络通信能力。通过借助 ModelArts 平台的高效处理海量数据能力,仅用 7 天就完成了 40TB 文本数据处理。一站 式 AI 开发平台 ModelArts 为盘古大模型训练和推理提供计算优化、通信优化、存储优化 以及算法优化,是盘古大模型重要的基础平台资源。

2.泛化能力极强、适用大量复杂行业场景

盘古大模型具备极强的泛化能力、一个模型适用大量复杂行业场景。在 to B 以及 to C 场景下,盘古大模型具备良好的泛用性,大规模参数的模型可以更深层挖掘数据背后的逻 辑,达到更高的泛化性能,对不同场景的鲁棒性更强,原来需要多个模型覆盖的视觉场景, 大模型可以用一个模型覆盖多个场景,以此解决模型碎片化问题。盘古大模型吸收了海量 数据知识,盘古 NLP 大模型学习了 40TB 的中文文本数据,CV 大模型包含了 30 亿+参数, 并通过行业数据的小样本调优,提升了模型在场景中的应用性能,提高了大模型的泛化能 力以及算法对新鲜样本的适应能力,从而提高模型的学习能力,减少对领域数据标注的依 赖。在大多数工业场景,从海量数据搜集缺陷样本耗时耗力,盘古大模型能够实现缺陷样 本高效筛选,节省了 80%以上的人力标注代价。 此外,基于产业场景中存在大量的内容理解需求,盘古大模型采用兼顾架构,在预训练阶 段沉淀了大量的通用知识,能够同时完成理解与生成任务,使得大模型有能力支持行业知 识库和数据库的嵌入,对接行业经验。随着盘古大模型的开放,各行各业的开发者不必再 “从零开始”,只需在云上找到所需要的模型,盘古大模型相当于各个行业 AI 通用的“轮 子”,助力各行各业加速智能化转型。

在面向开发者方面,盘古大模型逐步上线到华为云 AI 资产共享社区,通过提供相对通俗 易用的工作流以满足开发者的 AI 开发需求, 充分释放预训练模型能力,从而实现和开发 者共建生态。大模型在实际场景中的应用不仅可以帮助用户提高训练进度并且缩短训练时 间,随着模型上应用数量不断增多,用户成本亦会有所降低。

3. 工业化 AI 开发模式赋能千行百业

预训练+下游微调的工业化 AI 开发模式赋能千行百业。相对于传统的“作坊模式”AI 开 发过程,盘古大模型是一种工业化 AI 开发的新模式,可以解决小模型的定制化难题,使 一个模型应用到多个场景中。一方面,盘古大模型 AI 开发门槛较低,能够提供自动化工 作流,自动生成模型,减少对 AI 开发工程师的专业依赖,同时可以根据更新数据快速进 行模型迭代,做到“边用边学”。另一方面,盘古 CV 大模型首次兼顾了图像判别与生成 能力,能同时满足底层图像处理与高层语义的理解需求,同时能够融合行业知识的微调, 快速适配各种下游任务。盘古 CV 大模型已经在 100 余项实际任务中得到验证,大幅提升 了业务测试精度,能够节约 90%以上的研发成本。此外,盘古 CV 大模型在预训练阶段主 要集中在数据处理、架构设计和模型优化三个阶段进行优化。目前盘古 CV 大模型在 Image Net 1%、10%数据集上的小样本分类精度上均达到目前业界最高水平。

 

 

总的来看,盘古大模型提升了复杂场景下的小样本学习能力,在小样本学习上提升了一个 数量级的效率;在微调能力上,盘古大模型有着更好的数据吸收理解能力,可以在真实行业场景中实现提升模型应用效率;此外盘古大模型具备更强的集成行业知识的能力,其采 用更灵活的模块设计,能够根据业务场景适配,提升行业知识吸收效率。“预训练+下游 微调”的模式与目前全球主流大模型所匹配,具备极强的泛化能力,真正实现了“举一反 三”。 瞄准 AI 工业化及现实场景,打造“实干式”大模型。盘古大模型始终以工业化为目标, 瞄准现实场景,在开发初期即与合作伙伴进行了一系列的商业化验证,以确保在真实产业 场景中的效率和适用能力,是一个以商业价值驱动研发创新的“实干模式”大模型。盘古 大模型极大降低了研发的人力和算力成本,使 AI 开发进入工业化模式。

参考报告

华为盘古大模型研究:盘古开天,AI落地.pdf

华为盘古大模型研究:盘古开天,AI落地。应用场景纷繁复杂叠加“作坊式”的开发模式导致传统AI模型商业化落地较难。传统的AI开发模式下,一个场景对应一个模型,数据质量差、样本少,模型精度差,并且应用场景相对单一。不同行业、不同场景对AI的需求既复杂且碎片化,每个痛点都需要进行定制化地开发和改造;另一方面,AI算法从理论上能够极大提升产品及服务的价值量,但由于开发过程中存在大量的碎片化因素,不同的应用场景往往需要独立的架构设计与调参,效率相对较低。“小作坊式”的AI开发模式在一定程度上限制了生产力。五个基础大模型涵盖不同方向,三层进化路径打造&ldq...

查看详情
相关报告
我来回答