大模型迭代情况如何?

大模型迭代情况如何?

最佳答案 匿名用户编辑于2024/05/08 09:21

语言大模型较为成熟,处于 Emerging AGI 水平。

根据 DeedMind 的创始人兼首席 AGI 科学家 Shane Legg 的定义,AGI 能够执行一般人 类可完成的认知任务、甚至超越这个范围。具体而言,AGI 应能够学习广泛任务,能够执 行复杂、多步骤的任务。DeepMind 根据 AI 模型性能和学习处理任务的广泛性对 AGI 水 平进行分类,从 Level-0 无人工智能,到 Level-5 超越人类共 6 个等级。

现阶段大模型在处理任务的广泛性上还有很大提升空间,虽然 GPT-4、Gemini 1.5、Claude 3 等模型已经能够处理文本、图像、视频等多模态输入,但尚未具备独立决策和执行行动 的能力。此外,现阶段更多的模型仍聚焦在某单一领域进行性能提升,比如 Kimi 在处理 长文本输入领域表现突出,但尚不能进行图片生成;Sora 能够高质量完成文生视频任务, 但不具备问答功能。因此,现阶段评价大模型性能情况、分析模型演进方向,仍需根据模 型专长领域进行分类。

在语言大模型以及偏重问答能力的多模态模型领域,自 2020 年 GPT-3 发布后进入 爆发期,各主流玩家加速模型迭代,包括 OpenAI 的 GPT 系列、Google 的 Gemini 系列、Meta 的开源 LLaMA 系列等。目前定量测评分数最高的为 Anthropic 旗下的 Claude 3 Opus,在 MMLU(Undergraduate Level Knowledge)、GSM8K(Grade School Math)、MGSM(Multilingual Math)等多个测试项目中准确率超过 85%;模 型参数量最高的为 23 年3 月谷歌发布的 PaLM-E,参数量达到 5,620 亿,是 ChatGPT 的 3.2 倍,模型能够理解自然语言及图像,还可以处理复杂的机器人指令;谷歌于24 年 2 月发布的 Gemini 1.5 能够处理的上下文长度高达 100 万 tokens(相当于 70 万单词,或 3 万行代码,或 11 小时音频,或 1 小时视频),为目前长文本处理能力 的上限。

文生图、文生视频类模型可追溯至 2014 年的 GAN 框架,2021 年 OpenAI 发布 DALL-E 后图像生成类模型开始爆发,包括谷歌的 Imagen、OpenAI 的 DALL-E 2、 Stability 旗下的 Stable Diffusion;至 2023 年文生图功能与大语言模型相结合,并出 现文生视频技术,24 年 2 月 OpenAI 发布文生视频模型 Sora,在生成视频长度和质 量上均为目前最优水平。

机器人模型包括感知、决策、控制、交互 4 个部分,涉及视觉、图像、声音、导航、 动作等多个模态,在实际应用中需要根据特定的环境、动作、障碍、反馈等数据进行 决策,因此,机器人对算法的跨模态、泛用性要求更高。

将语言大模型的底层框架和训练方式应用于机器人的感知、决策、控制成为现阶段重 要趋势。2021 年 OpenAI 推出基于 Transformer 架构和对比学习方法的 VLM(视觉 -语言模型)CLIP;2022 年起,谷歌先后推出 RT-1/RT-2/RT-X/RT-H 系列模型,同 样采用 Transformer 架构,能够将语言描述的任务映射为机器人行动策略;24 年 3 月,初创公司 Figure 与 OpenAI 合作推出机器人 Figure01,由 OpenAI 提供视觉推 理和语言理解能力,Figure01 能够描述看到的一切情况、规划未来的行动、语音输 出推理结果等。

按照 DeepMind 的 6 级 AGI水平分类,目前国际顶尖大模型仍处于 Level-1 Emerging AGI阶段。具体而言,各类大模型成熟度:语言大模型>多模态大模型>具身智能类大模型。 语言大模型能力相对完备,底层技术路线大多选择 Transformer Decoder-only 架构, 结合MOE和多模态embedding,算法细节优化方向区别较小。以GPT-4、Gemini 1.5、 Claude 3 为例,语言大模型在推理、长文本、代码生成领域已经能够完成初级任务, 但距复杂、专业水平仍有差距; 多模态大模已经能够面向 B\C 端提供商业化产品,底层技术路线主要采用 Diffusion Transformer,但细节优化空间较大,高质量和成规模的数据集仍在发展初期;  具身智能类大模还在探索阶段,底层技术路线尚不清晰,数据收集、训练方法、测评 方法等都处于发展初期。在实际应用场景中准确率较低。

参考报告

人工智能行业专题研究:如何实现AGI,大模型现状及发展路径展望.pdf

人工智能行业专题研究:如何实现AGI,大模型现状及发展路径展望。目前大模型能力仍处于EmergingAGI水平,就模型成熟度而言,语言大模型>多模态大模型>具身智能大模型。根据DeepMind的定义,AGI应能够广泛学习、执行复杂多步骤的任务。模型的AGI水平可分为Level-0至Level-5共6个等级,现阶段大模型在处理任务的广泛性上还有很大提升空间,即使是国际顶尖的大模型也仍处于Level-1EmergingAGI阶段。不同类型大模型成熟度差异较大,目前大语言模型能力相对完善,落地应用场景丰富,底层技术路线较为成熟;多模态大模型已经能够面向B\C端推出商业化产品,但细节优化空...

查看详情
相关报告
我来回答