2024年算力产业研究专题报告:算力应用分化,推理能力带来新的商业模式

  • 来源:国泰君安证券
  • 发布时间:2024/12/02
  • 浏览次数:1286
  • 举报
相关深度报告REPORTS

算力产业研究专题报告:算力应用分化,推理能力带来新的商业模式.pdf

算力产业研究专题报告:算力应用分化,推理能力带来新的商业模式。应用在落地,未来对AI的关注点应转向推理端。未来我们认为对算力和应用关注的分化的趋势会越加的明显,从算力能力推动推理落地,变成推理推着上游算力迭代。人们对算力的预期也是期望观测到更多应用落地,以及杀手级应用的出现,因此我们认为未来关注重点应转向,应优先关注推理应用落地进度。我们认为,真正通向AGI的路上将遭遇多次质疑,是否需要全新的训练方法会成为核心分歧。随着推理的scalinglaw加大飞轮效应,AI推理侧应用成熟度爆发式增长。目前,AI编程领域CodeCopilots采用率高达51%,很多程序员从原先认为AI编程不可实现,转向认...

1. 应用在落地,未来对 AI 的关注点应转向推理端

近期,人们开始关注是 Scaling Law 是否失效。在追求人工通用智能 (AGI)的过程中,市场普遍面临当前新模型开发数据缺乏、成本高昂、 性能不达预期的问题,AI 业者正在探索新的训练方法,如测试时运算和 后训练方法,以克服模型发展的瓶颈。AI 产业关注的核心将由算力转向 优先关注推理应用落地进度。 生成式 AI 占 AI 市场比例继续上升,生成式 AI 技术的迅速迭代,其垂 直领域正在加速产业化、垂直化。目前,生成式 AI 应用尚处于早期阶 段,但部分应用已经通过提高生产力或运营效率带来了切实的投资回报。 随着更多生成式 AI 技术应用的发展和落地,AI 产业有望带来新一轮的 爆发式增长。

企业采用多模型策略,基础设施支出持续扩大。据 IDC,服务提供商在 计算和存储基础设施上的支出预计将以 17.1% 的复合年增长率增长, 到 2028 年达到 2330 亿美元。同时,经过一年的快速发展,现代人工 智能堆栈在 2024 年趋于稳定。通过不断尝试和犯错,企业越来越认识 到数据脚手架和集成在构建复杂的复合人工智能架构中的重要性。企业 也不再依赖单一的供应商,而是采用多模型策略,通常会在其人工智能 堆栈中部署三种及以上基础模型,并根据用例或结果选择不同模型。 我们认为,AI 产业关注的核心将由算力转向优先关注推理应用落地进 度,分化的趋势会越加的明显。2024 年底会发布诸多新进展,或进一步 促进对推理应用落地的信心。目前人们对 AI 的观点开始分化。有一部 分比较坚挺的看好整个 AI 产业,但是可能整体的带动所有 AI 赛道的机 会没有原来这么多了。另一部分开始慢慢的往 AI 生态和落地应用场景 上分化,包括海外的几个标志性的人物也都在宣传 AI 落地的场景,现 在开始有些关注在往应用落地上分化。未来我们认为这个分化的趋势会 越加的明显,从算力能力推动推理落地,变成推理推着上游算力迭代。 人们对算力的预期也是期望观测到更多应用落地,以及杀手级应用的出 现,因此我们认为未来关注重点应转向,应优先关注推理应用落地进度。

1.1. Capex 支出持续上升,各大 CSP 争相布局推理场景

全球人工智能相关的支出预计增长巨大。根据 IDC《全球人工智能和生 成人工智能支出指南》的一项最新预测,到 2028 年,全球人工智能相 关的支出(重点包括人工智能支持的应用程序、AI 芯片等人工智能基础 设施以及相关的 IT 和商业服务)较当前将至少翻番,预计将达到约 6320 亿美元。人工智能,特别是生成人工智能(GenAI)快速融入各种终端设备 与产品,IDC 预计全球人工智能支出将在 2024-2028 年的预测期内实现 29.0%的复合年增长率(CAGR)。

1.2. 通向 AGI 的路上将遭遇多次质疑,是否需要全新的训练 方法会成为核心分歧

OpenAI、谷歌、Anthropic 新模型遇瓶颈:缺数据、成本高、性能不及 预期。据彭博社报道,OpenAI 的最新模型 Orion 在开发过程中未能达到 预期的性能,特别是在编码任务上未能超越前代产品 GPT-4;谷歌的 Gemini 模型同样未能实现重大突破;Anthropic 的 Claude 3.5 Opus 模型 因技术难题推迟了发布计划,并多次调整发布时间。 新模型开发的风险和期望持续增加,AI 模型的训练成本已达到历史新 高。过去,许多 AI 公司坚持“越多越好”的策略,普遍奉行 Scaling Law, 投入大量资源,以期打造接近人类智能的 AI 系统,认为随着数据量和 算力的增加,模型性能也应随之提升。但随着计算资源和数据的成本不 断上升,新模型开发的风险和期望也在持续增加。Anthropic CEO 阿莫 迪在播客中透露,预计 2024 年公司将花费 1 亿美元来训练尖端模型, 未来几年这一数额可能达到 1000 亿美元。而 OpenAI 的 GPT-4 模型训 练成本预计为 7800 万美元,谷歌的 GeminiUltra 模型更是高达 1.91 亿 美元。这种成本的上升,可能会导致资源过度集中在少数大型企业中, 进而影响到 AI 技术的多样性和普及性。

Scaling Law 策略可行性遭遇质疑,人们的对 AI 的侧重点正在分化。基 于 Scaling Law 理论,诸多 AI 公司纷纷投入巨资,建设 AI 基础设施, 扩展数据中心,并购买大量 GPU 进行训练。近年来,OpenAI、谷歌和 美国 AI 大模型独角兽 Anthropic 在极短的时间内推出了大量复杂的 AI 模型。然而,随着高质量数据的短缺,这些公司在模型开发的速度和性 能上出现了明显放缓,甚至未能达到预期的效果,因此,继续依赖这一 策略的可行性开始遭遇质疑。近期的困难表明,单纯依赖规模扩展已难 以带来预期的技术飞跃。对于实现 AGI(通用人工智能)的可行性,业 内的信心也开始动摇。OpenAI 的 CEO 萨姆·阿尔特曼(Sam Altman) 近期谈道,未来的突破可能不会是模型规模的单纯扩展,而是开发新的 应用和用例,例如 AI Agent。

我们认为,真正通向 AGI 的路上将遭遇多次质疑,是否需要全新的训 练方法会成为核心分歧。AI 初创公司 Hugging Face 首席伦理科学家玛 格丽特·米切尔(Margaret Mitchell)谈道,AGI 的“泡沫”正在破裂, 现有的训练方法可能无法满足 AI 在多任务处理上的需求,急需全新的 训练方法来应对这一挑战。 AI 业者通过开发新的训练方法,寻求克服 AI 模型发展瓶颈的方式。AI 大型语言模型 LLM 进步变慢。随着用来训练人工智能(AI)的大型语 言模型(LLM)进步速度变慢,OpenAI 和其他 AI 业者正通过开发新的 训练方法,寻求克服 AI 模型发展瓶颈的方式,这可能重塑 AI 硬件的竞 争版图。 测试时运算(test-time compute)或能在推论阶段提升现有 AI 模型。 LLM 每一轮的训练都可能耗费数百万美元,也较容易出现由硬件造成 的故障,且研究人员要在可能长达数个月的训练期结束后,才知道模型 的最终性能。另外,LLM 需要大量数据,而目前的 AI 模型已用尽世上 所有容易取得的数据。再者,训练模型需要大量能源,各地电力短缺的 情况,也使训练受阻。据世界新闻网报道,为克服这些困难,研究人员 正探索一个能在推论阶段,提升现有 AI 模型的方法,称为测试时运算 (test-time compute)。此方法让 AI 模型能将更多力气用在特定的困难 任务上。OpenAI 已在其最新发表的模型 o1 中使用此方法。o1 能用类似 人类推理的方式,多步骤思考问题。其他 AI 业者如 Anthropic、xAI 和 Google DeepMind,也都开始发展这种方法的自家版本。

后训练(post-training)被寄予厚望。近期发布的 OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练 阶段强化学习训练和推理阶段思考计算量的增大。基于此,北大对齐团 队认为,新的扩展律——后训练扩展律(Post-Training Scaling Laws)已 经出现,并可能引发社区对于算力分配、后训练能力的重新思考。根据 OpenAI 官网报告,在绝大多数推理密集型任务中,o1 的表现明显优于 GPT-4o。帮助 o1 取得如此性能飞跃的,是 Post-Training 阶段 RL 计算 量的 Scaling 和测试推理阶段思考时间的 Scaling。

Ai2 开源 Tülu 3 新模型,为后训练的细节和做法提供了参考。曾经重新 定义“开源”并发布了史上首个 100% 开源大模型的艾伦人工智能研究 所(Ai2)开源了两个性能超过 Llama 3.1 Instruct 相应版本的新模型 — —Tülu 3 8B 和 70B(未来还会有 405B 版本),在技术报告中公布了 详细的后训练方法。Tülu 3 是一组具有完全开放数据、评估代码和训 练算法的最先进的指导模型。Ai2 发明了使用 RL 微调语言模型的新方 法,并在社区最佳实践的基础上扩展了合成指令和偏好数据。

智能基础设施调配(AI Infrastructure Provisioning)或成为短期内 AI 市场最大的应用场景。据 IDC 报告,智能基础设施调配是目前关注的焦 点,它包括基础设施服务提供商为 AI 系统创建和管理 IT 基础设施的投 资,即基础设施服务提供商向用户授予对此基础设施的访问权限,为 AI 系统开发提供计算和存储所需的资源,或向最终客户提供 AI 服务。 增强的智能客服(Augmented Customer Service Agents)是市场规模第 二大的应用场景。它专注于通过即时查询解决问题、高效的回答和个性 化定制的建议来改善客户体验。我们认为,在不远的未来,或许人均将 拥有一个个性化定制的、可随身携带的 AIAgent 小助手,它将成为新的 超级终端,融合手表、手机、XR/VR、电脑、家电等多终端功能,极大 提升人们的工作与生活效率。老年人对科技的使用效率可能可以变得向 当今的中青年,中青年将更容易成为某些小领域的专家,小领域的专家 将更容易成为大领域的专家,全国性的产品将更容易成为世界级的产品。 当所有人的生活和工作效率都上一台阶,AI 在切实的提升全社会的生 产效率。

AI 全面提升广告和云业务表现。谷歌旗下的“全栈 AI 产品”已实现大 规模运营,正被数十亿用户使用并创造出良性循环。据 IDC 数据显示, 在过去的六个月内,Gemini API 的调用量增加了近 14 倍。此外,谷歌 旗下 Gemini 模型即将上线软件项目托管平台 AI 助手 GitHub Copilot, 使用 GitHub Copilot 的开发者将能够使用 Gemini 1.5 Pro。 桑德·皮查伊近期表示,在 AI 方面的长期关注和投资,正在产生积极 效果,让消费者和合作伙伴受益于我们的 AI 工具。在搜索领域,新的 AI 功能拓展了人们可以搜索的内容和方式。在云计算领域,AI 解决方 案推动了现有客户的产品使用率提升,吸引新客户。而在 YouTube 业务 上,广告和订阅收入在过去四个季度中累计首次突破 500 亿美元。

1.3. 推理 scaling law 放大飞轮效应,AI 应用成熟度爆发式 增长

生成式 AI 占 AI 市场比例预计呈上升趋势。据 IDC 数据显示,2022 年 生成式 AI 占 AI 市场投资总规模的 4.6%。随着生成式 AI 技术的快速发 展,2027 年生成式 AI 投资占比将达到 33.0%,投资规模超 130 亿美元, 五年复合增长率(CAGR)为 86.2%。IDC 认为,生成式 AI 将成为向自 动化迈进的关键技术,在通用生产力、业务特定功能或行业特定任务方 面都能产生影响。例如,企业员工可以使用生成式 AI 来总结报告、生 成职位描述、优化工作任务或获取有关某一主题的知识。软件开发者可 以利用生成式 AI 工具丰富和加速与开发相关的工作流程并改变开发体 验。

生成式 AI 技术迭代迅速,该垂直领域正在加速产业化、垂直化。随着 更多生成式 AI 技术应用的发展和落地,AI 产业有望带来新一轮的爆发 式增长。未来,生成式 AI 模型的复杂性和质量将不断提高,可能会与 物联网和边缘计算集成,以增强数据收集和分析能力。与此同时,数据 安全和隐私保护是生成式 AI 技术的核心挑战。在促进人工智能更多场 景落地的同时,确保 AI 应用的安全性和合规性也是需要重点关注的领 域。

目前看来,生成式 AI 应用尚处于早期阶段。据 Menlo Ventures2024 年 生成式 AI 报告,企业对生成式 AI 的投资有 60% 来自创新预算,然 而,40% 的生成式 AI 支出来自更长期的预算(其中 58% 是从现有拨 款中重新分配的),企业对 AI 转型的承诺日益坚定,生成式人工智能从 未来技术转变为基本商业工具。

生成式 AI 应用层增长比基础模型更快。企业采用生成式 AI 的两个关 键维度分别为应用层和基础设施。虽然基础模型投资仍是企业生成式 AI 支出的主导,但受益于基础设施层面设计模式的融合,应用层现在 增长更快。企业正在利用这些工具优化跨部门的工作流程,从而创造巨 大价值,为更广泛的创新铺平道路。

1.3.1. 生成式 AI 应用处于早期阶段

生成式 AI 应用处于早期阶段。Menlo Ventures 数据显示,2024 年,随 着许多架构设计模式的建立,应用层公司正在利用 LLM 跨领域的能力 来解锁新的效率和功能。大多数企业仍处于采用的早期阶段,只有少数 应用投入生产,而三分之一(33%)仍在进行原型设计和评估。企业买 家抓住了这一时机,在 2024 年向生成式 AI 应用投入了 46 亿美元, 几乎比 2023 年报告的 6 亿美元增长了 8 倍。企业不仅在加大投入,而 且在谋划更多。 行业用户积极探索和打造生成式 AI 的应用场景、开发数字化产品和服 务、挖掘数据要素的价值、探索智能化商业模式。IDC 数据显示,软件 和信息服务(Software and Information Services)、银行(Banking)与通 讯行业(Telecommunications)是人工智能投资最多的三个行业,预计 2027 年占比分别为 23.8%、9.7%与 9.4%。IDC 调查显示,近一半(43%) 的受访组织目前正在探索潜在的生成式 AI 用例,其中 55%的金融机构 和电信公司在 2023 年投资生成式 AI 技术。人工智能与生成式 AI 技术 正在帮助金融行业和电信行业加强其反犯罪和监控能力,提供个性化投 资建议,减少人工支出成本。

部分应用已经通过提高生产力或运营效率带来了切实的投资回报。目前 市场关注的重点已从原先的算力基础设施转向可产生实际的、ROI 驱动 的应用。Menlo Ventures 数据显示,前五大应用(代码生成、聊天机器 人、企业搜索、数据转换和会议摘要)侧重于提高生产力和效率。 随着推理的 scaling law 加大飞轮效应,AI 推理侧应用成熟度爆发式增 长。Menlo Ventures 数据显示,目前,AI 编程领域 Code Copilots 采用 率高达 51%,很多程序员从原先认为 AI 编程不可实现,转向认为它真 的成为了很好的辅助助手。它使开发人员成为人工智能最早的强大用户。 GitHub Copilot 的收入迅速攀升至 3 亿美元,也同样验证了这一轨迹, 而 Codeium 和 Cursor 等新兴工具也在快速增长。除了一般的编码助 手,企业还在购买针对特定任务的 Copilot,比如 Harness 这种 AIDevOps Engineer 和 QA Assistant,用于管道生成和测试自动化,以及 All Hands 等能够执行更多端到端软件开发的 AI 代理。 AI 客服支持类的企业应用率达到 31%。这些应用程序为内部员工和外 部客户提供可靠、全天候、基于知识的支持。Aisera、Decagon 和 Sierra 的座席人员直接与终端客户互动,而 Observe AI 则在呼叫过程中为联 络中心座席人员提供实时指导。 企业搜索和检索以及数据提取和转换应用分别占 28% 和 27%。这反 映出,人们强烈希望发掘和利用隐藏在各组织数据孤岛中的宝贵知识。 Glean 和 Sana 等解决方案可连接电子邮件、消息应用和文档存储,实 现跨不同系统的统一语义搜索,并提供人工智能驱动的知识管理。 AI 会议总结在使用案例中排名第五,应用率为 24%。它通过自动记笔 记和记录来节省时间和提高生产力,包括面向通用场景和一些垂直场景 如医疗、创投等行业。

企业在采用生成式人工智能时优先考虑价值而非短期利益。企业有明确 的优先考虑事项:在选择生成式人工智能应用时,投资回报和特定行业 的定制化最为重要。令人惊讶的是,价格并不是主要问题。在 Menlo Ventures 调查的企业领导者中,仅有 1%的人提到价格重要的考量因素。 他们考虑的是长期价值,更关注能提供可衡量价值的工具(30%)和能 理解其工作独特背景的工具(26%),而不是价格最低的工具(1%)。

生成式人工智能的应用扩大到更多部门。Menlo Ventures 数据显示,生 成式 AI 的应用引人注目的不仅仅是规模,还有范围。2024 年,生成式 人工智能的预算流向了每个部门。其中技术部门占据了最大的支出份额, IT(22%)、产品+工程(19%)和数据科学(8%)共占企业生成式人工 智能投资的近一半。 医疗保健行业正引领着人工智能的发展。传统医疗保健行业在采用技术 方面进展缓慢,但如今企业支出达 5 亿美元。Abridge、Ambience、Heidi 和 Eleos Health 等环境转录软件正在成为医生办公室的主打产品,而自 动化解决方案正在临床生命周期中不断涌现,从分诊和接诊(如 Notable) 到编码(如 SmarterDx、Codametrix)和收入周期管理(如 Adonis、Rivet)。 法律行业开始采用生成式人工智能来管理海量非结构化数据。法律行业 历来对技术有抵触情绪,但现在却开始采用生成式人工智能来管理海量 非结构化数据,并实现复杂的、基于模式的工作流程自动化,企业人工 智能支出达 3.5 亿美元。该领域大致分为诉讼法和交易法,并有许多分 支专业。Everlaw 扎根于诉讼领域,专注于法律持有、电子发现和庭审 准备,而 Harvey 和 Spellbook 则在交易法领域推进人工智能,为合同 审查、法律研究和并购提供解决方案。特定的实践领域也是人工智能创 新的目标:EvenUp 专注于伤害法,Garden 专注于专利和知识产权, Manifest 专注于移民和就业法,而 Eve 正在重新发明原告案件从客户 接收到解决的整个过程。

金融服务是人工智能转型的最佳选择。金融服务企业人工智能支出达 1 亿美元,拥有复杂的数据、严格的法规和关键的工作流程。Numeric 和 Klarity 等初创公司正在彻底改变会计工作,而 Arkifi 和 Rogo 则通过 先进的数据提取技术加速金融研究。Arch 正在利用人工智能颠覆 RIA 和投资基金的后台流程。Orby 和 Sema4 是从对账和报告开始的更广 泛的横向解决方案,而 Greenlite 和 Norm AI 则提供实时合规监控,以 跟上不断变化的法规。 生成式人工智能正在重塑媒体和娱乐业。从好莱坞的银幕到创作者的智 能手机,生成式人工智能正在重塑媒体和娱乐业,企业人工智能支出达 1 亿美元。像 Runway 这样的工具现在已成为工作室级的主打产品,而 Captions 和 Descript 这样的应用程序则为独立创作者提供了能力。Black Forest Labs、Higgsfield、Ideogram、Midjourney 和 Pika 等平台推 动了专业人士的图像和视频创作。

1.3.2. 基础设施支出扩大,现代人工智能堆栈趋于稳定

现代人工智能堆栈趋于稳定。经过一年的快速发展,现代人工智能堆栈 在 2024 年趋于稳定。企业围绕核心构件展开合作,这些构件构成了大 多数生产型人工智能系统的运行时架构。基础模型仍占主导地位。LLM 层获得了 65 亿美元的企业投资。然而,通过反复试验,企业越发认识 到在构建能够在生产环境中可靠运行的复杂复合人工智能架构(而不仅 仅是一次性演示)时,数据框架搭建与集成的重要性。 Menlo Ventures 将现代人工智能堆栈的关键层定义如下: 第一层:计算和基础模型。计算和基础模型层包含基础模型本身,以及 用于训练、微调、优化和最终部署模型的基础设施。 第二层:数据。数据层包含将 LLMs 连接到正确上下文(无论它们存在 于企业数据系统中的任何位置)的基础设施。核心组件包括数据预处理、 ETL 和数据管道,以及向量数据库、元数据存储和上下文缓存等数据库。 第三层:部署。部署层包含帮助开发人员管理和编排人工智能应用程序 的工具,包括代理框架、提示管理以及模型路由和编排。 第四层:可观察性。现代人工智能堆栈的最后一层包含帮助监控运行时 LLM 行为并防范威胁的解决方案,包括用于 LLM 可观察性和安全解决 方案的新类别。

人工智能革命不仅刺激了对新基础设施堆栈的需求,还积极重塑了企业 处理应用程序开发、研发支出和团队组成的方式。企业人工智能架构的 四个关键设计原则为: 1. 大部分支出用于推理而非训练。Menlo Ventures 最近的企业人工智能 调查表明,几乎 95% 的人工智能支出都花在运行时和预训练上(runtime vs. pre-training)。在应用程序层,即使像 Writer 这样复杂的 AI 构 建者也会将超过 80% 的计算花费在推理上,而不是训练上。 2. 我们生活在一个多模型世界。单一模型不会“统治一切”。根据 Menlo 的企业人工智能报告,60% 的企业使用多种模型,并将提示路由到性能最佳的模型。这种多模型方法消除了单模型依赖性,提供了更高的可控 性并降低了成本。 3. RAG 是主导的架构方法。LLMs 是优秀的推理引擎,但具有有限的 领域和企业特定知识。为了创造有用的人工智能体验,团队正在快速部 署知识增强技术——从检索增强生成(RAG)开始。 4. 现在所有开发者都是人工智能开发者。全球范围内有 3000 万开发人 员、30 万机器学习工程师,而只有 3 万机器学习研究人员。过去需要 多年基础研究和复杂的机器学习专业知识的任务现在可以由主流开发 人员在强大的预训练基础上工程数据系统在几天或几周内完成。

LLM 趋势:多模型战略占上风。企业不再依赖单一的供应商,而是采 用了务实的多模型方法。研究表明,企业通常会在其人工智能堆栈中部 署三种或三种以上的基础模型,并根据用例或结果选择不同的模型。

闭源解决方案占据绝大多数市场份额。多模型策略延伸到了开放源代码 与封闭源代码的争论中,尽管行业讨论激烈,但人们对开放源代码与封 闭源代码的偏好一直保持稳定。2024 AI 指数报告显示,闭源解决方案 占据了绝大多数市场份额,达到 81%,而开源替代方案(以 Meta 的 Llama 3 为首)则稳定在 19%,与 2023 年相比仅下降了一个百分点。 在闭源模型中,OpenAI 的先发优势有所削弱,企业市场份额从 50% 降 至 34%。Anthropic 是主要受益者,它的企业市场份额从 12% 倍增到 24%,因为一些企业在 Claude 3.5 Sonnet 成为最先进模型后,从 GPT4 转向了 Claude 3.5 Sonnet。在转向新的 LLM 时,企业最常见的动机 是安全考虑(46%)、价格(44%)、性能(42%)和扩展功能(41%)。

企业 AI 设计模式正在快速发展。Menlo Ventures 数据显示,企业 AI 设计模式用于构建高效、可扩展 AI 系统的标准化架构、RAG(检索增 强生成)目前占据主导地位,采用率为 51%,较 2023 年的 31% 大幅 上升。与此同时,微调仍然出奇地少见,只有 9% 的生产模型经过微调。 最大的突破是 Agentic 架构首次亮相,并且已经为 12% 的实施提供支 持。

数据库、ETL 和数据管道是 RAG 的基础。要为 RAG 提供动力,企 业必须高效地存储和访问相关的查询知识。尽管 Postgres(15%)和 MongoDB(14%)等传统数据库仍很常见,但人工智能优先的解决方案仍在不断壮大。Pinecone 是一款人工智能原生向量数据库,已经占据了 18% 的市场份额。类似的转变也发生在数据 ETL/准备领域。传统的 ETL 平台(如 Azure Document Intelligence)仍然占据了 28%的部署份 额,但 Unstructured 等专业工具旨在处理 PDF 和 HTML 等文档中的 非结构化数据的细微差别,正在开辟自己的空间,占据了 16%的市场份 额。在整个技术堆栈中,我们看到了对专为满足现代人工智能需求而设 计的技术的需求。 受人工智能相关项目投资推动,共享云基础设施继续引领基础设施支出。 长期来看,IDC 预测 2023-2028 年,云基础设施支出的复合年增长率 (CAGR) 为 18.1%,到 2028 年将达到 2530 亿美元,占计算和存储基 础设施总支出的 76.4%。共享云基础设施支出将占 2028 年云总支出的 78.6%,复合年增长率为 18.9%,达到 1988 亿美元。专用云基础设施 支出将以 15.3% 的复合年增长率增长至 543 亿美元。非云基础设施支 出也将以 5.3 % 的复合年增长率反弹,到 2028 年达到 783 亿美元。服 务提供商在计算和存储基础设施上的支出预计将以 17.1% 的复合年增 长率增长,到 2028 年达到 2330 亿美元。

AI 产业链正在带动上下游产业发展。由于 AI 服务器的整体出货规模有 望逐步提升,且技术规格也大幅升级,许多周边芯片业者都看好这块应 用在 2025 年能够让营运有显着成长。

2. Transform 缺陷逐渐显现,AI 大模型需探讨更多 可商业化落地的技术路线

未来各厂商都将选择自主研发模型。虽然开源模型提供了基础模型, 但微调效果不如自主研发。自主研发能够控制数据和训练过程,为客 户提供更多定制化选项。 LLM 并非适用于所有领域。虽然 Transformer 模型可以处理很多问 题,但在某些领域可能效率较低,例如图结构数据。在这些领域,可 能需要更专业的模型才能实现更高的效率。模型构建需要高度的技术能力,只有少数公司掌握核心技术。市场上 出现的模型价格下降并非商品化的标志,而是价格倾销的结果。未来 市场将受到增长压力和投资回报率的影响,目前以亏损或免费提供昂 贵技术的做法是不可持续的。AGI 并非一个非黑即白的概念,而是一 个持续发展的过程,我们已经在构建通用智能机器的道路上取得了很 大进展。人类将利用人工智能技术创造富足,而不是依赖于一个“上 帝”般的超级智能来实现。未来多智能体将合并构成终极智能体。

2.1. 未来需要建立“目标驱动的通用 AI”(Objective-driven AI)

对人类来说微不足道、不需要智能的任务,对机器来说可能非常困 难。杨立昆在近期演讲中提到,一个 17 岁的青少年通常只需大约 20 小时的练习就能学会开车,但我们仍然没有能够实现完全自动驾驶的 5 级自动驾驶汽车,也没有能够帮忙清理餐桌、装洗碗机的家用机器 人。这说明我们确实缺少了一些关键的东西,否则我们应该早就能用 AI 系统完成这些任务了。我们经常碰到一个叫做 Moravec 悖论的现 象,即那些看似对我们来说微不足道、不需要智能的任务,对机器来 说却非常困难,而那些高层次的、复杂的抽象思维,比如语言处理, 反而对机器来说很容易,比如下棋或围棋等。 杨立昆在演讲中多次提到,未来需构建目标驱动型的通用 AI,世界模 型或是一个较好的方式。世界模型就是你对世界如何运作的心理模 型。你可以想象自己采取的某些行动序列,并通过世界模型预测这些 行动对世界的影响。 在目标去顶的通用 AI 概念下,推理过程不是通过学习,而是通过找到 最优的行动序列来最小化这些目标。人们可以通过搜索离散的选项来 实现这一点,但这种方式效率不高。更好的方法是让所有的模块都是 可微分的,然后通过梯度下降法更新行动序列。

机器不会分层决策,视频帧概率分布表示较困难。目前机器也学不会 分层决策,像素学习预测失败的原因是,未来有很多种可能性,而在 离散空间(如文本中),虽然我们无法确切预测下一个词是什么,但 可以生成所有可能词的概率分布。然而,对于视频帧,我们没有一种 有效的方式来表示视频帧的概率分布。 放弃生成模型和概率模型,转向联合嵌入预测架构和基于能量的模 型。 为了解决这个问题,杨立昆提出了一种称为“联合嵌入预测架构” (Joint Embedding Predictive Architecture, JEPA)的方法。这个想法就 是放弃像素预测,而是学习一个抽象表示,然后在这个表示空间中进 行预测。重建的效果并不好,更好用的是,找到一个好的表示,进行 预测。如果你想预测行星的轨迹,尽管行星是一个非常复杂的对象, 有气象、温度、密度等许多复杂的因素,但要预测它的轨迹,你只需 要知道六个数字:三个位置和三个速度,这就足够了。杨立昆建议, 放弃生成模型,转向这种联合嵌入预测架构,放弃概率模型,转向基 于能量的模型,也放弃对比学习方法。 杨立昆提出了以下几种学习方式,或成为未来商业化落地的可能。 学习世界抽象表示并在该表示空间进行预测的 JEPA 模型。JEPA 是一 种学习世界抽象表示并在该表示空间进行预测的架构,而非直接预测 像素。通过将输入和输出嵌入到共同表示空间中,JEPA 避免了传统生成式架构在学习图像表示方面的困难。学习抽象表示整个空间,只需 要抓住几个关键要素,能量模型。

通过优化目标函数来做出决策的目标驱动 AI(Objective-Driven AI)。 目标驱动 AI 是一种 AI 架构,其推理过程是运行一个优化算法,而不 仅仅是执行多个神经网络层。该系统通过优化目标函数来做出决策, 基于输入与预期输出的兼容性进行测量,计算出最匹配的输出值。 学习数据的底层结构,生成与训练数据相似的数据样本的生成式模型 (Generative Model)。 生成式模型是一种旨在重建原始信号的模 型,通过学习数据的底层结构,能够生成新的、与训练数据相似的数 据样本。比如,训练于文本数据的生成式模型可以生成新文本,而训 练于图像数据的生成式模型能够生成新图像。 能预测行动对世界的影响世界模型 (World Model)。世界模型是 AI 系 统对世界运作方式的心理模型,能够预测行动对世界的影响。通过将 假设的行动序列输入世界模型,系统可以推测这些行动将导致的结 果。

更新架构的一半,而不对另一半的梯度进行反向传播的蒸馏式方法 (Distillation-style Methods)。 蒸馏式方法是一种训练技术,这种方法 能够有效防止 JEPA 在训练过程中的崩溃,尽管其具体原理尚不清楚, 但在实践中已被证明有效。 广泛应用于语言模型的自回归预测(Autoregressive Prediction)。自回归 预测是一种预测方法,模型只能参考其左方的标记或单词来预测下一 个标记或单词。这种方法广泛应用于语言模型,尤其是大型语言模型 (LLM),它们通过自回归预测逐步生成文本。 预测缺失部分,无需人工标注的自监督学习(Self-Supervised Learning)。自监督学习是一种训练 AI 系统的方法,它并不针对特定 任务,而是通过从数据本身创建代理标签来学习输入的良好表示。模 型通过遮蔽部分输入并预测缺失部分,从而利用大量未标记数据学习 有用的特征表示,而无需人工标注。

2.2. Transformer 架构:自注意力机制

大语言模型构建的全过程包括数据清洗、分词技术、位置编码、模型预 训练、微调技术、对齐方法以及解码策略等核心内容。 Transformer 模型使用的是正弦和余弦函数生成的绝对位置编码。这种 方法的巧妙之处在于,它允许模型外推到训练时未见过的序列长度。然 而,随着研究的深入,研究人员发现相对位置编码经常能带来更好的性 能。 模型预训练是构建大语言模型的核心步骤。这个过程就像是让模型"阅 读"大量的文本,从中学习语言的规律和知识。预训练的主要目标是让模 型能够理解和生成自然语言,而不是针对特定任务进行优化。 目前的主流预训练方法主要有 MLM 和 ALM 两种。比如,BERT 使用 的是掩码语言模型(Masked Language Model, MLM),而 GPT 系列则 使用自回归语言模型(Autoregressive Language Model, ALM)。

近几年,一些研究开始探索混合专家模型(Mixture of Experts, MoE) 在大语言模型预训练中的应用。MoE 允许模型在不同的任务或输入类 型上激活不同的"专家"子网络,这种方法能够大大提高模型的容量,同 时保持相对较低的计算成本。 Transformer 是大模型的核心架构,基于自注意力机制。自注意力机制 允许模型在任意输入位置间建立全局依赖关系,不依赖循环神经网络 (RNN) 或卷积神经网络 (CNN),却在许多自然语言处理 (NLP) 任务中 表现卓越。 Transformer 的核心部分分为编码器和解码器两个模块。①编码器 (Encoder):负责接收输入数据并将其表示为潜在空间的高维向量。② 解码器(Decoder):根据编码器的输出生成目标数据(例如翻译或文本 生成)。一个标准的 Transformer 模型包括 6 个编码器层和 6 个解码器 层,通过堆叠这些模块实现强大的表示能力。 Transformer 模型能高效可应用于生成式任务(GPT 系列、Bard 等)、 自然语言理解任务(BERT、T5)和图像生成任务(Vision Transformer, ViT)。模型在机器翻译、文档摘要和问答系统中实现了 SOTA(Stateof-the-Art)。其优点在于:①高效并行:移除 RNN 的序列化依赖,大 幅提高训练速度。②扩展性强:易于扩展到更大规模。

2.3. 大规模多模态模型是近年来人工智能的重要发展方向

大规模多模态模型是近年来人工智能的重要发展方向。它结合多种模态 信息,旨在实现更全面的人工智能。将语言、视觉、音频等多模态输入 结合在一个模型中学习(如 CLIP, Flamingo, GPT-4V)。 大规模多模态模型泛用性强,应用领域广。大规模多模态模型能实现跨 模态的理解和生成能力,支持“文本到图像生成(如 DALL-E 系列)”、 “视频理解与生成(如 Meta 的 VideoGen 模型)”等任务。模型具备统 一模态处理能力,适用于创意生成、内容理解、多模态检索等领域。也 可应用于医学领域多模态分析,如 MRI 影像+报告解读),以及目标检 测、物体检测(CLIP 的应用:ViLD)。

2.4. 稀疏激活模型(Sparse Activation)能显著提升计算效 率

稀疏激活模型是一种通过选择性激活网络的部分单元(如特定的专家或 神经元)的技术。模型能显著提升计算效率,减少 GPU/TPU 占用,支 持大规模训练与推理,同时保持高容量,适应不同任务复杂度,降低推 理开销。模型应用场景:①云端推理:实时翻译、对话系统。②边缘计 算:如智能家居中的低功耗 AI 设备。③技术发展:更细粒度稀疏控制 (如分层稀疏模型)。

2.5. 模块化架构与专家混合(Mixture of Experts, MoE)可 以显著提高模型容量,同时降低计算成本

MoE 模型是一种基于稀疏激活的深度学习架构,可以显著提高模型容 量,同时降低计算成本。如图,把 MoE 以卷积的方式放在多层 LSTM 层之间。在文本的每个位置上,就会调用 MoE 一次,进而可能选择不 同的专家组合。不同的专家会倾向于变得高度专业化(基于语法和语义)。 MoE 包含:①一些专家,每个专家都是一个简单的前馈神经网络。②一 个可训练的门控网络,它会挑选专家的一个稀疏组合,用来处理每个输 入。③所有网络都是使用反向传播联合训练的。 模型效果:①高效利用模型参数。②为多任务学习提供灵活性。 优点:①解释性强:模块间职责明确。②任务性能高:减少不必要的计 算。 应用场景:①复杂多任务场景:如多语言翻译系统。②高需求计算任务: 如超大规模科学计算。③发展方向:自适应路由机制提升模型性能。

2.6. BERT 模型(Bidirectional Encoder Representations from Transformers)显著提升准确性

与最近的语言表征模型不同,BERT 通过在每一层中连接左边和右边的 内容而被设计成一个双向表征的深度预训练模型。这样做的结果是,预 训练的 BERT 表征可以只添加一个输出层来进行微调,从而使很多任务 达到 SOTA 的结果,例如 QA,语言推断,无需针对特定任务进行模型 结构的修改。 BERT 概念上理解起来比较简单,在实验中的表现也很强大。它在 11 种 自然语言处理任务上获得了新的 SOTA 结果,包括将 GLUE 的 benchmark 提高到 80.4%(提高了 7.6%),MultiNLI(多语型自然语言推理) 的准确性提高到 86.7%(提高了 5.6%)。SQuAD v1.1 问题回答测试 F1 达到 93.2(提高了 1.5),比人工的表现高 2 个点。

2.7. 强化学习与人类反馈结合(Reinforcement Learning from Human Feedback,RLHF)为模型训练提供新的 思路

基于人类反馈的强化学习(RLHF)为模型训练提供新的思路。传统的 训练方法往往依赖于大规模的语料库和基于规则的损失函数,但这在处 理复杂、主观和依赖上下文的任务时存在局限性。因此,RLHF 应运而 生,为模型的训练提供了一种新思路。在 RLHF 中,人类的偏好被用作 奖励信号,以指导模型的训练过程,从而增强模型对人类意图的理解和 满足程度。这种方法使得模型能够更自然地与人类进行交互,并生成更 符合人类期望的输出(如 ChatGPT)。 RLHF 框架是一个复杂但高效的系统,包括强化学习算法、行动、环境、 观察和奖励机制。 常用的强化学习算法之一是近端策略优化( Proximal Policy Optimization, PPO)。PPO 是一种用于训练代理的“on-policy”算法, 它直接学习和更新当前策略,而不是从过去的经验中学习。 行动指的是语言模型根据给定的提示(prompt)生成的输出文本。这些 输出文本是模型在尝试完成特定任务或响应特定指令时产生的。行动空间(Action Space)是词表所有 token(可以简单理解为词语)在所有输 出位置的排列组合。 环境是代理(即我们的语言模型)与之交互的外部世界。它提供了代理 可以观察的状态、执行的动作以及根据这些动作给予的奖励。

状态空间(State Space):这是环境可能呈现给代理的所有可能状态的 集合。在 RLHF 中,状态通常对应于输入给模型的提示(prompt)或上 下文信息。 动作空间(Action Space):这是代理可以执行的所有可能动作的集合。 在 RLHF 中,动作对应于模型生成的输出文本,即模型根据输入提示生 成的响应。 奖励函数(Reward Function):这是一个根据代理在环境中的行为(即 生成的输出)来分配奖励的函数。在 RLHF 中,奖励函数通常不是直接 给出的,而是通过训练一个奖励模型来预测的,该奖励模型能够基于人 类反馈来评估不同输出的质量。 观察指的是模型在生成输出文本时所接受到的输入提示(prompt)。这 些提示是模型尝试完成任务的依据,也是模型进行决策和行动的基础。 观察空间(Observation Space)是可能输入的 token 序列,即 Prompt。 奖励机制是 RLHF 框架中的核心组成部分之一。它基于奖励模型对人 类偏好的预测来给予模型奖励或惩罚。它需要使用大量的人类反馈数据 来进行训练,以确保能够准确地预测人类对不同输出的偏好。这些数据 通常通过让标注人员对模型生成的输出进行排序、打分或提供其他形式 的反馈来收集。 RLHF 模型能提升生成内容的连贯性、相关性和用户满意度,实现更自 然的对话。模型高度定制化,生成符合特定需求的内容,与人类交互的 透明度也更高。可以应用于智能客服、对话机器人、个性化内容生成(如 广告文案、文章摘要)等场景。

2.8. 生成扩散模型(Diffusion Models)生成高质量样本

生成扩散模型(Diffusion Models)是一类基于概率的方法,用于生成高 质量样本(如图像、声音等)。它们近年来在生成建模领域取得了显著 的进展,尤其是在图像生成任务中表现出色。模型能实现高保真图像生 成,在文本到图像生成中取得顶级表现。生成内容的真实感和细节丰富 性领先,灵活性强,适用于多种生成任务。模型可应用于影视制作,场 景设计、角色生成;游戏开发,高质量素材生成等场景。

2.9. 目前唯一可商业化的仍是 Transformer 架构,未来模型 需在不可量化测评的专家知识型模型上试验更多架构

占据主导地位且能够实现商业化落地的架构仍旧是 Transformer 架构。 在当下人工智能领域的发展态势中,就商业应用层面而言,目前占据主 导地位的架构仍是 Transformer 架构。Transformer 架构凭借其独特的自 注意力机制等优势,在诸多自然语言处理任务以及部分其他领域的应用 中展现出了卓越的性能,进而成为了各大科技企业及研究机构在进行产 品化、商业化部署时的核心架构选择。 未来,仅仅依赖 Transformer 架构是远远不够的。随着人工智能应用场 景的不断拓展以及对模型性能要求的日益精细化和专业化,我们需要在 那些难以通过常规可量化测评手段来衡量其效果的专家知识型模型领 域开展更为深入的探索,并在这些特定类型的模型上试验更多种类的架 构。为了突破现有架构在处理这类复杂专业知识场景下的局限,就必须 勇于尝试不同的新型架构,通过不断的试验和优化,探寻能够更好适配 专家知识型模型特点的架构方案,从而推动人工智能在更广泛专业领域 的深度应用与发展。

3. 未来推理能力的出现将带来新的商业模式

3.1. AI 模型领域美国目前领先,中国正在加速赶超

美国是顶级 AI 模型的主要来源。2023 年,有 61 个著名的 AI 模型 来自美国机构,远远超过欧盟的 21 个和中国的 15 个。

国内科技厂商在开放源码模型领域已能和美国业者并驾齐驱。阿里巴 巴集团所开发的开放源码人工智能(AI)模型 Qwen2.5-Coder 在编码 能力方面已不亚于 OpenAI 和 Anthropic 等美国对手开发的领先模型。

3.2. AI 法规和治理需要提上日程

AI 法规数量急剧增加。2024 年以来,全球多个国家和地区加快构建和 完善 AI 治理框架,我国应密切关注相关政策法规的进展,包容审慎地 推进 AI 监管,促进 AI 技术创新与监管的平衡发展。2023 年,美国有 25 项与 AI 相关的法规,高于 2016 年的 1 项。仅 2023 年一年,与 AI 相关的法规总数就增长了 56.3%。

3.3. AI Agents 和机器人是未来人工智能两大趋势

黄仁勋认为,人工智能正在掀起科学革命,正在推动加速模拟、实时 控制实验、建立预测模型,以及从药物发现、基因学到气候科学等多 领域的革命性变革。11 月 23 日,黄仁勋出席香港科技大学学位颁授典 礼并发表演讲:“人工智能无疑是我们这个时代最重要的技术,整个 世界都被重置(reset)了。”他指出,这些突破只是一个开始,并且 提到了 AI Agents 和机器人两大趋势。 很快,公司将有 AI Agents(人工智能体)和团队并肩工作。黄仁勋表 示:“世界各地的企业和公司都在竞相采用人工智能来加速创新和提 高生产力,很快,公司将有 AI Agents 和每个团队一起并肩工作,这些 团队来自营销、销售、供应链、芯片设计、软件开发等各个组织。” 在重工业和制造业,由于物理领域的新突破,对机器人的投资正在激 增。黄仁勋表示:“认知智能基础模型已经快速进步,物理智能基础 模型也在取得快速进展,机器人时代正在到来。”

3.4. 推理能力的出现将带来新的商业模式

我们认为,未来更符合 AI 时代需求的软件将是模式创新的应用。就像 互联网的出现,带来了手游、团购的完全创新模式的应用,AI 时代真 正符合需求的软件也将重新建立商业模式。客户可以通过增加推理时 间计算量来获得更智能的模型,而无需等待数月进行新的模型训练。 这意味着客户可以根据需求灵活地调整模型性能,获得更好的产品体 验。 人们将自发的有更多信心与热情投入在 AI 推理侧应用。近期, 《Attention is all you need》的联合作者 Aidan Gomez 提到,这种从资 本支出(CAPEX)模式到消费模式的转变将吸引更多客户投资于解决 问题,而无需承担高昂的训练成本和时间成本。推理时间计算量的增 加还将对芯片层和数据中心建设产生影响,未来需要开发更适合处理 推理任务的芯片,以及建设更适合分布式计算的数据中心。 任何需要多步骤解决的问题都更适合使用推理能力来解决。例如,多 项式求解,人类在解决这类问题时,需要将其分解成多个步骤,逐步 解决,最终得到答案。而目前的 LLM 只能通过记忆的方式来解决这 类问题。市场普遍低估了推理时间计算。推理时间计算在提供智能方 面的作用尚未被市场充分认识。推理能力的加入为客户提供了一种新 的选择:客户可以通过增加推理时间计算量来获得更智能的模型。

3.5. 杀手级应用将是与现有行业结合的应用

AI 将通过与各个行业的深度融合,创造出全新的、有巨大影响力的杀 手级应用。就像当年蒸汽机的出现,并不是凭空变出了需求,而是通 过与现有的各行业的结合,比如轮船、火车等,将传统渠道的优势放 大,并满足更多个性化定制需求的应用。AI 的真正价值将不仅仅体现 在现有的一些应用场景中,全新的、具有巨大影响力的杀手级应用是 和各个行业的深度融合的。这些应用将充分利用 AI 的优势,根据不 同行业和用户的个性化需求,提供定制化的解决方案,从而推动各行 业的变革和发展,并满足人们日益多样化和个性化的需求。 基于已有的产品,与 AI 结合,将放大了独特性和适应人群。AI 不能 凭空产生需求,都是基于现有的需求,就像网络放大了最优秀的人、 优秀的产品,从全国性变成全球性,加大两极分化的趋势。世界互联 网大会乌镇峰会上,蚂蚁集团董事长兼 CEO 井贤栋表示,AI 将从根 本上改变所有的行业,让服务业迎来真正大规模个性化的时代,生成 式人工智能能够更好地理解人的意图,并生成个性化的供给,以智能 化的方式交付给用户,从而实现端到端、全生命周期的个性化体验。 根据 Gartner 的报告,到 2026 年,三分之一的新应用程序将使用人 工智能来创建个性化和自适应的用户界面,相比目前只有约 5% 的应 用程序以这种方式使用人工智能,这表明了 AI 在打造个性化定制应 用方面的巨大潜力和未来发展趋势。AI 能够帮助产品更精准的对接客 户,找到人们想不到的客户群体。AI 真正的作用不在于支持人类的想 法,而是把主动权交给 AI,让它自主发现适用的用户群体,优化整个 产品决策流程。 Agents 代理将推动下一波转型。代理自动化将推动下一波人工智能转 型,处理复杂、多步骤的任务,这些任务超出了当前专注于内容生成 和知识检索的系统的能力。这种转变将需要新的基础设施:代理认 证、工具集成平台、人工智能浏览器框架以及人工智能生成代码的专 用运行时。

3.6. 下阶段需聚焦于将 AI 提高收益的产品

目前对应用的关注点在"平台"类产品,平台类产品面向转化进行优 化,引擎从稀疏大模型变成稠密大模型。目前对搜索的提升较大,对 推荐的提升效果还不显著。包括数据库和开发工具,目前已成为生成 式 AI 投资的主要受益者。目前能够帮助用户优化转化,发现产品市场 中发现不了了用户群里,精准推荐,未来等待成本进一步下降,大模 型能力更加完善,将进一步调节推荐功能。这些平台既能够最佳利用 AI 基础设施,又能为构建下一代应用程序提供基础模块。 对于下阶段关注点,应聚焦有望从 AI 广泛应用中获得最大生产力提升 的产品。有望从 AI 广泛应用中获得最大生产力提升的产品,诸如软件 和 IT 服务企业。除了各大 CSP 外,云服务商、软件设计公司、数据库 公司都是潜在可关注方向,具体例如劳动密集型行业中的软件服务、 商业服务等,人工智能自动化将大幅提升其销售转化率和生产效率。 我们认为,未来长期最受益的方向是最后真正因 AI 做到“生产力提升” 的产品,因此,未来需聚焦于因 AI 技术提高生产效率的各方向产品。 训练存在上限,推理的 scaling law 开启新一轮飞轮效应。强化学习是 训练的最后一步,加入符合人需要的答案。推理也实现了 scaling law,每一步都写出来,中间过程就符合人需要的答案,再反过头来用 于训练,就实现了飞轮效应,一开始是人和它问答,后面奖励模型, 自问自答,o1 preview 和这些小模型的数据都用于 GPT5,这就是合成 数据,能够帮助训练参数量更大的模型。对机间互联的需求没那么 大,除非是好复杂的问题,现在内存需求很大,一般的计算过程就在 机内循环访存,但会有选择,比如复杂问题就需要用上 GPT4,否则就 是浪费算力。

3.7. 未来推理的市场空间或百倍于训练

推理侧应用与 Agent 将带来百倍于训练的算力需求,将成为下一步算 力需求主要驱动力。Agent 的算力需求会是目前训练本身的百倍。基础 的通用模型会变成同质化竞争的流通品,用于制作 Agent、制作端侧小 模型、供企业做传统特定领域定制化企业 AI+转型模型。端侧模型、 企业本地部署模型、Agent,会让算力需求未来几年持续超过供应。目 前下一步的重点就是用基座模型构建更多 Agent。Agent 可大可小,可 以多个 Agent 融合成 Agent 群体,形成中型 Agent,再集合成大型通用 Agent,大型通用 Agent 或是几十亿个小 Agent 集合。各个 Agent 将集 合小模型、编排层、执行层、工作流等的组合,其对算力需求的增加 源自多个 agent 之间通信、协作时消耗的 token,比起单个训练集群将 是百倍以上的通信、协作的算力需求。OpenAI o1 模型的 C-O-T(思维 链)思考过程就需要消耗 10 万 token,未来推理每做一次深度思考都 是多个 Agent 协作的大量算力消耗。salesforce 的 agent 按照用量消耗 收费,其消耗定价模式也说明了推理侧对算力的消耗量巨大。目前 copilot 的订阅模式每月 30 美金,但 2024 年 12 月,微软预计将推出另 外 10 个 Agent,来应对 Salesforce 的 Agent 产品,也进一步说明了推 理模式 token 消耗量成倍增加。

3.8. AI 应用竞争格局将更分散,长期转向软件定义硬件

大型 CSP 将获得更多通用性机会,但更多垂直特定领域机会将属于传 统企业 AI+转型。CSP 和软件厂商更多会得到通用型的领域的机会, 通用领域需要大量训练,和昂贵、强大的模型,但不需要太多专业性数据,且其结果可量化,更易校正,比如重复性知识工作如翻译、纪 要转录、法律、编程、通用 Agent、设计等。但特定垂直 AI 领域,如 药物发现、医疗诊断、保险、金融等,需要大量特定数据,且垂直领 域模型不需要做高强度训练,将来机会或属于传统企业+AI 转型。小 AI 模型领域,如 Phi-3,构建更专精的小模型如专家、医生、护士等, 第三方和大平台提供的技术差别较小,小企业和大型 CSP 都可以与特 定领域传统企业合作。 过去,硬件的性能和架构往往限制了软件的发展和应用范围,软件需 要适配特定的硬件来实现功能。然而,随着 AI 技术的不断进步,这 种情况正在发生改变。未来,软件将更加主导硬件的设计和功能实 现,通过软件的优化和创新,可以充分挖掘硬件的潜力,甚至使硬件 具备原本不具备的功能和特性。比如,AI 芯片的发展方面,传统的芯 片设计主要基于固定的指令集架构,而如今为了满足 AI 计算的需 求,出现了专门为 AI 优化的芯片,如 GPU、FPGA、TPU 等。这些 芯片的设计和发展很大程度上是由 AI 软件算法的需求所驱动的。 英特尔中国研究院院长宋继强曾在 2019 新智元 AI 技术峰会上提出 超异构计算的概念。他强调了多种架构芯片与统一异构计算软件相结 合的重要性,以应对未来数据的多样化和处理方式的多样性,这预示 着软件在定义和整合硬件资源方面将发挥越来越关键的作用。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至