大模型迭代情况如何？

提问时间：2024/05/08
浏览次数：99
提问者：匿名用户
举报
分享微信 QQ 微博

大模型迭代情况如何？

标签

大模型

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/05/08 09:21

语言大模型较为成熟，处于 Emerging AGI 水平。

根据 DeedMind 的创始人兼首席 AGI 科学家 Shane Legg 的定义，AGI 能够执行一般人类可完成的认知任务、甚至超越这个范围。具体而言，AGI 应能够学习广泛任务，能够执行复杂、多步骤的任务。DeepMind 根据 AI 模型性能和学习处理任务的广泛性对 AGI 水平进行分类，从 Level-0 无人工智能，到 Level-5 超越人类共 6 个等级。

现阶段大模型在处理任务的广泛性上还有很大提升空间，虽然 GPT-4、Gemini 1.5、Claude 3 等模型已经能够处理文本、图像、视频等多模态输入，但尚未具备独立决策和执行行动的能力。此外，现阶段更多的模型仍聚焦在某单一领域进行性能提升，比如 Kimi 在处理长文本输入领域表现突出，但尚不能进行图片生成；Sora 能够高质量完成文生视频任务，但不具备问答功能。因此，现阶段评价大模型性能情况、分析模型演进方向，仍需根据模型专长领域进行分类。

在语言大模型以及偏重问答能力的多模态模型领域，自 2020 年 GPT-3 发布后进入爆发期，各主流玩家加速模型迭代，包括 OpenAI 的 GPT 系列、Google 的 Gemini 系列、Meta 的开源 LLaMA 系列等。目前定量测评分数最高的为 Anthropic 旗下的 Claude 3 Opus，在 MMLU（Undergraduate Level Knowledge）、GSM8K（Grade School Math）、MGSM（Multilingual Math）等多个测试项目中准确率超过 85%；模型参数量最高的为 23 年3 月谷歌发布的 PaLM-E，参数量达到 5,620 亿，是 ChatGPT 的 3.2 倍，模型能够理解自然语言及图像，还可以处理复杂的机器人指令；谷歌于24 年 2 月发布的 Gemini 1.5 能够处理的上下文长度高达 100 万 tokens（相当于 70 万单词，或 3 万行代码，或 11 小时音频，或 1 小时视频），为目前长文本处理能力的上限。

文生图、文生视频类模型可追溯至 2014 年的 GAN 框架，2021 年 OpenAI 发布 DALL-E 后图像生成类模型开始爆发，包括谷歌的 Imagen、OpenAI 的 DALL-E 2、 Stability 旗下的 Stable Diffusion；至 2023 年文生图功能与大语言模型相结合，并出现文生视频技术，24 年 2 月 OpenAI 发布文生视频模型 Sora，在生成视频长度和质量上均为目前最优水平。

机器人模型包括感知、决策、控制、交互 4 个部分，涉及视觉、图像、声音、导航、动作等多个模态，在实际应用中需要根据特定的环境、动作、障碍、反馈等数据进行决策，因此，机器人对算法的跨模态、泛用性要求更高。

将语言大模型的底层框架和训练方式应用于机器人的感知、决策、控制成为现阶段重要趋势。2021 年 OpenAI 推出基于 Transformer 架构和对比学习方法的 VLM（视觉 -语言模型）CLIP；2022 年起，谷歌先后推出 RT-1/RT-2/RT-X/RT-H 系列模型，同样采用 Transformer 架构，能够将语言描述的任务映射为机器人行动策略；24 年 3 月，初创公司 Figure 与 OpenAI 合作推出机器人 Figure01，由 OpenAI 提供视觉推理和语言理解能力，Figure01 能够描述看到的一切情况、规划未来的行动、语音输出推理结果等。

按照 DeepMind 的 6 级 AGI水平分类，目前国际顶尖大模型仍处于 Level-1 Emerging AGI阶段。具体而言，各类大模型成熟度：语言大模型>多模态大模型>具身智能类大模型。语言大模型能力相对完备，底层技术路线大多选择 Transformer Decoder-only 架构，结合MOE和多模态embedding，算法细节优化方向区别较小。以GPT-4、Gemini 1.5、 Claude 3 为例，语言大模型在推理、长文本、代码生成领域已经能够完成初级任务，但距复杂、专业水平仍有差距；多模态大模已经能够面向 B\C 端提供商业化产品，底层技术路线主要采用 Diffusion Transformer，但细节优化空间较大，高质量和成规模的数据集仍在发展初期；具身智能类大模还在探索阶段，底层技术路线尚不清晰，数据收集、训练方法、测评方法等都处于发展初期。在实际应用场景中准确率较低。

参考报告

人工智能行业专题研究：如何实现AGI，大模型现状及发展路径展望.pdf

人工智能行业专题研究：如何实现AGI，大模型现状及发展路径展望。目前大模型能力仍处于EmergingAGI水平，就模型成熟度而言，语言大模型>多模态大模型>具身智能大模型。根据DeepMind的定义，AGI应能够广泛学习、执行复杂多步骤的任务。模型的AGI水平可分为Level-0至Level-5共6个等级，现阶段大模型在处理任务的广泛性上还有很大提升空间，即使是国际顶尖的大模型也仍处于Level-1EmergingAGI阶段。不同类型大模型成熟度差异较大，目前大语言模型能力相对完善，落地应用场景丰富，底层技术路线较为成熟；多模态大模型已经能够面向B\C端推出商业化产品，但细节优化空...

查看详情

大模型迭代情况如何？

人工智能行业专题研究：如何实现AGI，大模型现状及发展路径展望.pdf

海内外大模型落地进展如何？

未来大模型的发展方向是什么？

大模型产业发展与企业应用情况如何？

海内外基础大模型发展趋势及技术展望分析

字节大模型核心亮点在哪？

国内大模型瓶颈及商业化难点在哪？

大模型产业链投资机遇在哪？

大模型金融能力评价基准梳理

海内外大模型厂商产品迭代方向和下游应用趋势分析

大模型技术路线、创新与改进分析

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王