Claude是由美国人工智能初创公司Anthropic开发的大语言模型。
1.国外大模型
(1)ChatGPT
ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI研发的一款聊天机 器人程序,于2022年11月30日发布。它是基于GPT-3.5模型的一个专门优化用于对话 生成的语言模型。ChatGPT能够根据用户输入的文本产生智能化的回答,并且具备连 续对话的能力,能够捕捉用户的意图,理解上下文,并在多轮对话中提高准确率。
截至2023年12月,ChatGPT已无可争议地成为全球范围内增长速度空前的消费级软件 应用典范,其用户基数在以突破1.8亿大关,并在此背景下,促使OpenAI公司的估值 跃升至800亿美元的新高度。ChatGPT这一划时代产品的发布不仅引发了全球科技界 的广泛关注,还强有力地激发了市场对同类竞品的研发热潮,诸如Gemini、 ErnieBot、 LLaMA 以及Claude等项目应运而生。值得注意的是,ChatGPT在线服务提 供了两个迭代版本,分别基于GPT-3.5和更为先进的GPT-4架构构建而成。这两个版 本均隶属于OpenAI专有的生成预训练转换器(Generative Pre-trained Transformer,GPT)模型系列,该系列的设计灵感与核心技术基础源自谷歌所研发 的Transformer架构。为了满足不同用户的需求, ChatGPT 允许普通用户免费体验基 于GPT-3.5版本的服务;而对于追求更高级功能和持续更新内容的用户,则通过商业 化品牌“Chat GPT Plus”提供基于GPT-4版本及其后续优化功能的付费订阅服务。
(2)Gemini
Gemini 是由Google DeepMind团队研发的人工智能模型,是LaMDA和PaLM2的继 任者,于2023年12月6日发布。这是一个多模态模型家族,支持文本、图像、音 频、视频和代码的全方位理解和生成。Gemini模型家族包含三个针对不同应用场景 优化的版本:Gemini Ultra作为旗舰版,专为数据中心级别的高性能计算环境设 计;Gemini Pro则定位为通用型解决方案,能在多种工作任务上展现高效性能, 并且特别适用于企业级应用及云端服务;而小巧灵活的Gemini Nano,则通过高度 优化实现了在资源受限的移动设备上的高效运行,为智能手机和平板电脑等移动平 台带来了强大且实时的AI交互体验。Gemini的设计使其能够原生地支持多模态能 力,即从一开始就在不同模态上进行预训练,并利用额外的多模态数据进行微调, 以提高其有效性。
(3)Claude
Claude是由美国人工智能初创公司Anthropic开发的大语言模型,Anthropic成立于 2021年,是一家专注于人工智能安全和研究的公司,旨在建立可靠、可解释、可操 纵的人工智能系统。Claude模型提供了API和Slack机器人两种访问方式,其中API访 问需要申请并通过后才能使用,而Slack机器人目前处于beta版本,不收费。
Claude是由Anthropic公司于2023年3月首次推出的语言模型系列的初代版本,尽管在 编码、数学推理等方面尚存在一定的性能局限性,但依然在执行多样化任务上展现 出了显著的能力。针对用户的不同需求,Claude推出了两种优化版本:常规版 Claude和响应速度更快、成本更低廉、运行更为轻巧的Claude Instant。后者将输入 上下文的处理能力提升至容纳10万token,约等同于7.5万个英文单词的内容量。同 年7月11日,Anthropic发布了Claude系列的重要迭代产品——Claude2,该版本对公 众开放使用,而其前身Claude1则仅限于经Anthropic审核批准的特定用户群 体。Claude2实现了一次重大飞跃,将上下文窗口从原来的9,000个token扩展到了10 万个token,并新增了上传PDF和其他文档的功能,使得Claude能够阅读、总结文件 内容并辅助完成相关任务。11月份发布的Claude2.1版本中,聊天机器人的处 理能力再度翻倍,token扩大至20万个,相当于500页的书面材料。 Anthropic在2024 年3月4日正式推出了革新性的Claude3系列,Claude3分为三个型号,按功能强大程 度依次排列为Haiku、Sonnet和旗舰款Opus。默认配置的Claude3 Opus token为20万 个,而在特殊应用场景下,该窗口可扩展至高达100万个token,且在知识深度、数学 处理和复杂任务解决方面展现出了超越GPT-4和Gemini 1.0 Ultra的实力。
(4)LLaMA
LLaMA(全称为“大语言模型Meta AI”)是Meta AI于2023年2月推出的自回归式 大语言模型系列,它囊括了多种参数规模的版本,其参数量分别为7 亿、130亿、330亿以及650亿。通常情况下,顶级LLM仅能通过有限或专属API途径 访问,而Meta则破例在非商业许可框架下向全球研究社群开放了LLaMA模型权重 的下载权限。值得关注的是,在LLaMA发布后短短一周内,其模型权重即通过 BitTorrent在网络论坛4chan上被公开泄露给了公众。 2023年7月18日,Meta与微软携手推出了LLaMA系列的迭代升级产品—— LLaMA-2,标志着双方在大语言模型技术领域的合作迈入了新的阶段。当 日,Meta正式揭晓了三种不同规模配置的LLaMA-2模型,参数量分别达到了70 亿、130亿以及700亿。尽管在架构设计上,LLaMA-2延续了前代LLaMA-1的基本框 架,但值得注意的是,在构建基础模型的过程中,Meta引入了相较于LLaMA-1多出 40%的数据进行训练,从而提升了模型对广泛语境和任务的理解能 力。LLaMA-2产品系列不仅包括针对通用自然语言处理任务的基础模型,而且还推 出了经过对话场景微调优化的变体——LLaMA-2 Chat,专为提升人机交互体验而 打造。相比于其前身LLaMA-1,LLaMA-2的一大突破性举措在于所有模型权重的全 面开放,并且对于广泛的商业应用场景,提供免费使用的权限,此举无疑拓宽了 LLaMA-2在业界的应用范围和影响力。
(5)Mixtral
Mixtral是由MistralAI开发的一款大语言模型,它采用了专家混合(MoE)架构,这 种架构通过一个网关网络将输入数据分配给被称为“专家”的特定神经网络组 件。Mixtral 8x7B模型由八个各自拥有70亿参数的专家组成,这种设计提高了模型 训练和运算的效率及可扩展性。Mixtral8x7B在多个领域表现出色,包括综合性任 务、数据分析、问题解决和编程支持等。 2023年9月27日,Mistral AI通过官方BitTorrent磁力链接以及Hugging Face平台发布了 Mistral 7B模型,该模型采用了拥有7亿个训练参数,并且严格遵循Apache2.0开源许 可证,为全球开发者和研究者提供了自由访问和使用的权限。2023年12月9 日,Mistral AI发布了Mixtral 8x7B,其构建在稀疏专家混合(MoE)的革新框架之 上,尽管总体参数量达到了467亿之多,但得益于MoE技术的高效性,对于每个 Token仅激活12.9亿相关参数进行运算。此款模型支持包括法语、西班牙语、意大 利语、英语及德语在内的五大语言环境,并在多项基准测试中表现卓越,声称已成 功超越了Meta公司的LLaMA 270B模型的性能水平。2024年2月26日面世的Mistral Large,则是Mistral AI的又一旗舰产品,被定位为紧随OpenAI GPT-4之后的顶级 大模型。它不仅支持多种语言处理任务,还具备编程能力,在多领域应用上展示了 强大的适应性和创造性。用户现可通过Microsoft Azure云端平台便捷使用这款高 性能模型。Mistral Medium型号则是在广泛的多语言文本和代码数据集上进行深 度训练后推出的,其综合性能评价位于Claude模型与GPT-4之间,为寻求平衡资源 占用与处理效能需求的用户提供了一个理想的选择。最后,Mistral Small作为轻量 化解决方案,旨在提供低延迟响应且性能不俗的小型模型。相较于Mixtral 8x7B, 它在保证快速响应的同时,实现了更优的性能指标,从而在有限计算资源场景下展 现出极高的实用价值。
2.国内大模型
(1)百度-文心一言
文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术研发的知识增强大语 言模型,被外界誉为“中国版ChatGPT”。其核心理念在于运用深度学习算法和大 规模语料库,模拟人类的语言理解和生成能力,从而为用户提供智能化、个性化的 服务。能够实现与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信 息、知识和灵感,并且在文学创作、商业文案创作、数理逻辑推算、中文理解、多 模式生成方面有很好的应用前景。
文心一言最早应该可以追溯到2010年百度成立的“自然语言处理部”,2019年3月16 日,百度正式发布知识增强的文心大模型ERNIE1.0,该模型基于飞桨深度学习平台 打造,通过将数据与知识融合,提升了大模型学习效率及学习效果。2019年7月31 日,百度文心大模型升级到2.0。ERNIE 2.0通过持续学习框架,持续学习大规模语料 中的词法、语法、语义等知识,在共计16个中英文任务上取得全球最好效 果。2021年7月6日,百度发布文心大模型 3.0 (ERNIE 3.0)。ERNIE 3.0首次在千亿级预 训练模型中引入大规模知识图谱,ERNIE 3.0刷新54个中文NLP任务基准,并在国际 权威的复杂语言理解评测SuperGLUE上, 以超越人类水平0.8个百分点的成绩登顶全球 榜首。2023年3月16日,百度新一代大语言模型文心一言正式启动邀测。2023年8月31 日,文心一言率先向全社会全面开放。开放首日,文心一言共计回复网友超3342万 个问题。2023年10月17日,百度世界2023大会上,李彦宏宣布文心大模型4.0正式发 布,开启邀请测试。
(2)阿里-通义
阿里通义是阿里云推出的一系列人工智能产品和服务平台,旨在提供类人智慧的 通用智能服务。这些产品和服务包括通义千问、通义智文等,它们支持多种API接 口,使得AI应用开发变得更加简单和高效。通义千问(Qwen)是阿里云推出的一 款超大规模语言模型,采用了阿里云自主研发的大规模预训练语言模型架构,通过 先进的深度学习技术和海量数据训练而成。通义智文是另一个阿里云的AI产品, 它可能包含了文本生成、内容理解、自动摘要、情感分析等功能,旨在帮助用户高 效地处理和创造文本内容。 目前,通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。2023年12月1日, 阿里云举办发布会,正式发布并开源“业界最强开源大模型”通义千问720亿参数 模型Qwen-72B。同时,通义千问开源了18亿参数模型Qwen-1.8B和音频大模型 Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言 模型,以及视觉理解、音频理解两款多模态大模型,实现了“全尺寸、全模态”开 源。自此,阿里云大模型的开源逻辑更加清晰,即通过开源的方式提供技术产品, 降低门槛,推动技术普惠,为企业客户到个人开发者提供多元化、全方位的技术服 务。在通义千问的基础上创建的大模型、小模型越丰富,AI生态就越繁荣。
(3)讯飞-星火认知大模型
讯飞星火认知大模型是由科大讯飞推出的新一代认知智能大模型。基于讯飞最新的 认知智能大模型技术,经历了各类数据和知识的充分学习训练,可以和人类进行自 然交流,解答问题,高效完成各领域认知智能需求。 讯飞星火V2.0已具备“代码生成、代码补齐、代码纠错、代码解释、单元测试生 成”等能力,并且在业界参考测试集与真实应用场景均达到优异效果,逼近国外领 军者。星火认知大模型V3.0的快速落地,更是推动着讯飞大模型能力迅速迫近行业 前列,其在数学自动提炼规律、小样本学习、代码项目级理解能力以及多模态指令 跟随与细节表达等方面进行了进一步升级,这些能力的提升将融入星火金融大模型 中,为大模型在金融行业的落地应用带来全新机遇。2024年1月30日,科大讯飞发 布了基于首个全国产算力平台「飞行一号」训练的全民开放大模型——讯飞星火 V3.5版本。相较于上一个版本,讯飞星火V3.5版本在文本生成、语言理解、知识问 答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力上均实现大幅提 升,进一步逼近GPT-4 Turbo的最新水平。
(4)华为-盘古大模型
华为盘古大模型是华为云推出的一系列人工智能大模型,旨在通过强大的计算能 力和先进的算法,解决行业难题并释放AI的生产力。该模型涵盖了NLP大模 型、CV大模型、多模态大模型、预测大模型和科学计算大模型五大类别,旨在为 气象、医药、水务、机械等领域提供强大的科学计算能力。盘古大模型的研发不仅 体现了华为在AI技术领域的深厚积累,也展示了华为在推进AI技术产业化应用方 面的决心和能力。 在2021年4月,盘古大模型1.0就已经发布,早于今天大部分的大模型。2022年11月7 日的华为全联接大会2022中国站上发布了盘古气象大模型、盘古海浪大模型、盘古 矿山大模型、盘古OCR大模型等新服务。2023年7月举行的华为开发者大会上,华 为云曾发布了盘古大模型3.0,是中国首个全栈自主的AI大模型,该模型已具备文 生图、文生文、文生代码、文生视频等多模态能力,提供5+N+X的三层解耦架 构:L0层有5个基础大模型,提供满足行业场景的多种技能;L1层是N个行业大模 型,提供使用行业数据训练的行业大模型;L2层为客户提供更多细化场景模型,它 更加专注于某个具体应用场景或特定业务。华为常务董事、华为云CEO张平安表 示,盘古大模型聚焦产品研发、软件工程、生产供应、市场营销、客户运营等价值 场景,致力于深耕行业,如政务、金融、制造、煤矿、铁路、制药、气象等。