大模型未来投资新方向分析

大模型未来投资新方向分析

最佳答案 匿名用户编辑于2025/01/20 14:34

预训练和现实数据触顶,后训练时代将开启新的 Scaling Law 方向。

1.方向一:用推理代替思考

OpenAI 于 2024 年 9 月 12 日发布了新的 AI 模型系列 o1,这是 OpenAI 首个具有"逻辑推 理"能力的模型系列,特别擅长处理复杂的推理任务,尤其是在科学、技术、工程和数学 (STEM)领域的问题,在这些领域其评测分数都远远超过 GPT-4o。o1 模型将计算资源从大 规模预训练数据集重新分配到训练和推理阶段,增强了复杂推理能力,在费用和成本上也 进行了重分配,使用 o1-preview 的 API 相比于 GPT-4o 输入 tokens 价格是 GPT-4o 的 5 倍 (每百万 tokens $15.00:$3.00),输出 tokens 差距 o1-preview 的价格是 GPT-4o 的 6 倍(每百万 tokens $60.00:$10.00)。

在 OpenAI 发布 o1 之后,其他大模型公司包括国内的 Deepseek 和阿里通义也发布了类似 通过增强推理阶段的计算资源来提高能力的模型,并且开始有论文揭露底层技术。阿里发 布的 Marco-o1 由思维链(CoT)微调、蒙特卡洛树搜索(MCTS)、自反机制和创新性推理 策略驱动,专门针对复杂的现实世界问题解决任务进行了优化。同时,阿里在 Open-o1 数 据集的基础上进行了筛选,并且使用合成数据方法合成了一个新的 Macro-o1 数据库,用 来监督微调。最终,在应用了蒙特卡洛树微调后,模型在评测上实现了大幅超过了基底模 型 Qwen2-7B 的成绩。

Deepseek 也推出了一款名为 DeepSeek-R1,对标 OpenAI 的 o1 模型,同样是采用"思维链 "技术,可以将复杂任务分解为多个步骤逐一解决,在 AIME 和 MATH 两项基准测试中,R1 的 表现与 o1 相当或更优,但是仍未公布论文和技术详细信息。

2.方向二:测试时训练

测试时训练(Test-Time Training)是 24 年 11 月份由 MIT 提出的另一条实现大模型 Scaling Law的路线,这是一种在推理过程中根据测试输入动态更新模型参数的技术。它 不同于标准的微调,因为它在极低数据的情况下运行,通常对单个输入或一两个上下文中 的标记示例使用无监督或监督目标。相当于对推理过程中的数据进行调整后合成测试时训 练数据用来更新模型的参数,这种方法对抽象推理的问题效果较好,MIT 团队在 Llama3 8B 模型上使用这种方法后,相比于 1B 的基础微调模型,准确率提高了 6 倍;在 8B 参 数的语言模型上应用 TTT,在 ARC 公共验证集上实现了 45% 的准确率,比 8B 基础模型 提高了近 157%。但是该方法仍在初期试验阶段,对计算资源要求也很高,所以论文的评 估主要在 ARC 公共验证集的一个子集上进行,并没有提交到官方排行榜。

3. 方向三:合成数据

合成数据在 LLM 开发中的应用正在迅速扩大,从预训练到微调阶段都发挥着重要作用。它 不仅解决了数据获取和隐私问题,还能有针对性地增强模型在特定任务上的表现。OpenAI 的模型训练和 Alignment 项目大量使用合成数据;Anthropic 公司在 Claude 系列模型中 采用了 Constitutional AI (CAI)方法,通过合成数据显著提升了模型的稳健性,使得 Claude 模型能够更准确地识别和拒绝回答不确定的问题;阿里通义的 Qwen 系列则采取了 一种独特的方法,利用早期版本的 Qwen 模型来生成合成数据,用于增强预训练数据集的 质量,同时在训练过程中创新性地使用合成数据生成多个候选响应,再通过奖励模型筛选 出最优答案;Apple 的 AFM 模型也在这一领域做出了重要尝试,特别是在预训练阶段使用 合成数据来延长上下文长度,并且特别关注数学和代码任务相关的高质量合成数据生成。

据 Gartner 预测,到 2030 年,合成数据将在 AI 模型中完全超过真实数据的使用,而合成 数据的生成过程需要消耗大量计算资源。以使用 OpenAI 的模型为例,使用 GPT-4 生成十 万个 JSON 合成数据元素预计成本高达 506 美元,随着现实世界数据被逐渐发掘用尽,合 成数据消耗的推理资源会快速上升。

4. 方向四:模型量化逐渐失效

量化是把模型里的数字用更少的位数表示,比如用整数代替小数,这样计算更快,占用的 空间也更小。在模型推理时使用量化后的模型是主流的节约推理成本的方法,但是在 24 年 11 月,哈佛和斯坦福大学等顶尖学府学者发布的《Scaling Laws for Precision》引 起了大模型行业科学家的广泛讨论,研究发现在预训练阶段使用更低精度的参数会会降低 模型的有效参数数量,而推理量化后的模型的性能下降会随着模型训练数据量的增加而增 加,意味着数据太多反而对推理低精度模型有负面影响。论文还提出了感知量化训练技术, 是一种有效的模型量化技术,模型仍然使用高精度(例如 FP32 或 BF16)进行训练,但 在每次前向和反向传播过程中,都会模拟低精度量化的操作,感知到降低哪些部分的参数 精度对模型效果的影响较小,可以在保持较高推理性能的同时降低模型的计算和存储成本。

参考报告

2025 AI行业前瞻报告:Al行业关键时刻,瓶颈与机遇并存.pdf

2025AI行业前瞻报告:Al行业关键时刻,瓶颈与机遇并存。2025年,AI将迎来模型与应用的双向奔赴:模型侧,模型将朝大小模型互补的方向演进,聚焦增强推理能力以突破当前的ScalingLaw瓶颈。大型预训练市场逐渐收敛,由OpenAI、Meta的Llama、Mistral、阿里通义等主导,更多中小厂商则专注于特定任务的微调与Agent业务。新兴技术路径如测试时训练、合成数据应用及感知量化训练将推动模型能力提升,而多模态融合模型在实时交互、音频与视觉生成领域展现出巨大潜力。应用侧,渗透率持续快速上升,ChatGPT活跃度持续攀升,视频生成模型如Runway和可灵国际版表现稳定。我们持续看好如下...

查看详情
相关报告
我来回答