国内外公司大模型产业进展如何?

国内外公司大模型产业进展如何?

最佳答案 匿名用户编辑于2024/11/15 16:14

驱动智能算力指数增长,供需缺口或将进一步扩大。

近两年全球大模型经历了高速迭代,已经从技术竞赛阶段逐渐过渡到应用普及阶段,从文本到多模态,从通用到垂直,各家AI公司的主流大模型不断进化。我们以国外 OpenAI、谷歌、高通、meta为代表,国内以百度、阿里、清华、腾讯、幻方旗下DeepSeek-V2、百川智能等为代表进行对比分析。

OpenAI的GPT-01模型标志着AI领域的一个新里程碑,其不仅展现了类似人类的思维方式和推理能力,并且提示了大模型发展方向的变化--优化推理过程可能比单纯增加参数和算力更有效。9月13日,OpenAI发布大模型最新版本--具有复杂推理能力的GPT-01,相较之前的GPT-40,GPT-01在处理数学、物理以及代码生成等复杂任务时具有独特优势。GPT-01首次通过构置“思维链”,使得模型具有能够在给出最终答案前生成长链的隐藏思维过程,并且通过优化推理过程,使得模型能够尝试不同的策略并识别自身的错误,展现了类似人类的思维方式和推理能力。在数学奥林匹克问题上,GPT-01的准确率为83.3%,而GPT-40为13.4%。在博士级问题上,GPT01平均准确率为78%,而人类专家和GPT-40分别为69.7%的56.1%。尽管推理能力强大,01当前也存在一些不足。比如,使用成本是GPT-40的三倍;思维链构建过程的速度相对较慢,有时可能需要超过10秒;目前只支持文本对话,不具备处理文件和图像等多模态能力,且在关于世界的事实知识方面表现不佳。而5月13日发布的GPT-40是Open AI首个原生多模态大模型,是跨文本。视觉和音频端到端训练的新模型,所有输入和输出都由同一个神经网络处理,对标谷歌Gemini.GPT-40是 GPT-4的升级款模型,相比 GPT-4Turbo,GPT-4o的速度快了两倍,成本降低了 50%API速率限制(用户可发出的请求调用额度)提高了五倍。

谷歌的大模型根据设计理念的不同,可以分为以“LaMDA”为代表的旨在与人类进行多轮自然对话的语言模型和以“Gemini1.5Pro”为代表的专注于任务的模型。LaMDA可广泛应用于使用AI语音助手的场景。LaMDA具有较高的自然语言处理能力,能更好地在对话中表达情感、意图和复杂的语义,产生更加逼真和流畅的对话体验,在智能家居、车载系统、智能办公平台、自然对话机器人领域提升用户体验。Gemini1.5Pro探索多模态理解和长上下文处理的新前沿,推动 AI在复杂信息场景的应用。Gemini模型最初有 Ultra,Pro和Nano三个版本,后谷歌推出改进版1.5 Pro和 1.5 Flash。(emini 1.5 Pro具备超长上下文埋解和音频处理能力,能够对大量数据进行本机多模态推理,已在个人用户及企业用户如思爱普、TBS、Replit的多维任务数据处理中取得优秀实践成果。谷歌利用 1.5 Pro对模型进行“蒸馏”训练,1.5 Flash速度更快,在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。

高通的大模型以“Stable Diffusion”图像生成模型为代表。Stable Diffusion的核心功能在于其能够根据简短的描述,创造出内容丰宫、符合用户预期的视觉作品,强大的图像生成能力使其在艺术创作领域有着广泛的应用。广告设计注重创意与速度,Stable Diffusion能够迅速根据创意团队的想法生成广告原型,并通过调整和迭代,快速找到最符合市场和客户需求的设计方案;在游戏开发领域,Stable Diffusion能够快速生成大量的游戏素材,并根据游戏的风格和背景,生成与

之相匹配的视觉元素。Meta的大模型以“LLaMA”为代表,其中lama 3.2为其最新推出的开源大模型。Llama3.2可处理图像和文本,并且创建AI应用程序,例如提供实时视频理解的AR应用程序、基于内容对图像进行视觉搜索引擎或长文本分析。在性能上能够与业界头部模型如GPT-40、Claude 3.5Sonnet和 Gemini Ultra等媲美。

国内方面,5月7日,知名私募巨头幻方量化旗下的AI公司DeepSeek发布全新第二代MOE 大模型 DeepSeek-V2。性能直逼 GPT-4 Turbo,综合能力位于大模型第一梯队,其API价格降至约GPT-4Turbo百分之一,大模型价格战即将拉开帷幕,利好A应用层快速渗透。DeepSeek-V2是一个参数为2360亿的MoE模型,每个token 仅激活 210亿参数,支持128K的上下文长度。1)纵向对比:对比去年11月发布的DeepSeek67B性能取得显著提升训练成本节省了 42.5%,KV缓存减少了93.3%,最大生成吞吐量提高到了5.76倍。2)横向对比:上下文长度对标 GPT-4Turbo(128K);中文综合能力(AlignBench)超越Llama3,在开源模型中表现最强,与文心 4.0等闭源模型在评测中处于同一梯队,仅次于 GPT-4Turbo; 英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B处于同一梯队,超过 MoE 开源模型Mixtral8x22B。此外在知识、数学、推理、代码等方面也有出色的性能。API价格降至约 GPT-4Turbo 百分之一,大模型价格战即将拉开帷幕,利好AI应用层快速渗透。目前 DeepSeek-V2 API定价为每百万token输入1元、输出2元(32K上下文),几乎低于所有市面上主流大模型价格,约为 GPT-4Turbo的1/100。

百度的大模型以文心大模型为代表,包括NLP大模型、CV大模型和跨模态大模型。NLP大模型面向NLP任务场景,具备超强语言理解能力和文学创作能力;CV大模型提供基于视觉技术的强大基础模型和视觉任务定制能力;跨模态大模型基于知识增强的跨模态语义理解技术,支持跨模态检索和图文生成等应用。

阿里大模型更专注于行业和场景应用,以通义千问系列为代表,基于通义千问的八大行业模型带来降本增效和体验升级。自2023年4月问世以来,通义千问1.0已经进入电力、金融、医疗、法律等众多行业。

腾讯持续推进混元大模型的能力爬坡和在海量业务场景中的应用。腾讯于2022年发布的万亿中文 NLP预训练模型 HunYuan-NLP-1T(混元 AI大模型)首创“层级化”表征,对输入文字、视频做分层后再进行关联性检索,大幅提升检索准确度,已落地于腾讯广告、腾讯搜索等多个核心业务场景。经过一年迭代,腾讯混元大模型支持多模态视觉生成,新增的文生图能力已被广泛用于素材创作、商品合成、游戏出图等业务场景。

清华GLM模型在中文处理方面表现优秀,最新的GLM-4智能体能力突出,在中文能力上可以比肩GPT-4。GLM-130B第一次将千亿模型量化到int4层次,使得模型的推断算力需求大大减小,且从预训练到评估都可复现且评估代码开源。智谱AI推出了GLM-4的开源版本,全球下载量超过 2000万,是下载量和开源影响力最高的国产大模型之一。GLM-4还包括多模态版本 GLM-4V,能够处理高分辨率输入,将视觉和文本数据直接混合进行训练。目前,智谱AI已经与蒙牛、火山引擎、金山、中国电信等产业巨头合作,将GLM-4应用于实际场景。

百川智能的大模型可以分为以“Baichuan-NPC”为代表的角色大模型和以“Baichuan4”为代表的基座大模型。Baichuan-NPC在对话能力、角色一致性、扮演吸引力等方面领先,是目前中文领域最强角色模型。Baichuan-NPCLite版本提供高度开放的个性化角色定制能力,具有角色扮演相似度高、表述口语化强,回答高度准确的特点,Turbo版本在此基础上进一步强化对角色扮演相似度、逻辑能力、指令跟随能力的支持,结合“角色创建平台+搜索增强知识库”组成的开发套件,能够在游戏、影视等诸多领域实现零代码、低成本、高效率地构建角色,已为完美世界等游戏公司提供支持。Baichuan4和“百小应”为市场调研、产业分析带来智能化解决方案。相较于Baichuan 3,Baichuan 4在知识百科、长文本生成、创作等中文任务上明显优于国外主流模型。基于该模型的AI应用产品“百小应”融合Baichan4行业领先的通用能力与百川智能前沿的搜索技术,具有多步搜索和智能定向搜索等能力,不仅在市场调研、产业分析等应用场景中表现优秀在搜索结果呈现方面也表现出色。

大模型表现的比较,我们主要参考国内较权威机构SuperCLUE在2024年8月的测评结果从综合能力来看,GPT-40是中文上全球表现最好的模型,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,端侧小模型进展迅速。国内大模型竞争加剧,SuperCLUE每个月会发布测评,国内模型在过去16个月的测评中,Top1的模型经历了9次易主。最新2024年8月的测评结果,国内闭源模型中 Hunyuan-Turbo-Preview、AndesGPT-2.0、SenseChat 5.5、Doubao-pro_preview表现优异;开源模型表现最好的是DeepSeekV2-0628、Qwen2-72BInstruct,并且超过了众多国内外闭源模型。总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。国内外大模型在不同任务上表现各有优势,在文科、理科和Hard任务中,GPT-40在Hard 任务中表现突出,Hunyuan-Turbo-Preview、AndesGPT-2.0在理科和文科任务上表现优异。值得一提的是,端侧小模型表现惊艳,部分小尺寸模型表现要好于上一代的稍大尺寸模型,极大提升了落地的可行性。

参考报告

科技行业分析:大拐点,大机遇,创新变革,拥抱科技新动能.pdf

科技行业分析:大拐点,大机遇,创新变革,拥抱科技新动能。

查看详情
相关报告
我来回答