国内外GenAI大模型发展现状如何？

提问时间：2024/05/20
浏览次数：269
提问者：匿名用户
举报
分享微信 QQ 微博

国内外GenAI大模型发展现状如何？

标签

大模型
GenAI

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/05/20 14:27

Claude是由美国人工智能初创公司Anthropic开发的大语言模型。

1.国外大模型

（1）ChatGPT

ChatGPT（Chat Generative Pre-trained Transformer）是由OpenAI研发的一款聊天机器人程序，于2022年11月30日发布。它是基于GPT-3.5模型的一个专门优化用于对话生成的语言模型。ChatGPT能够根据用户输入的文本产生智能化的回答，并且具备连续对话的能力，能够捕捉用户的意图，理解上下文，并在多轮对话中提高准确率。

截至2023年12月，ChatGPT已无可争议地成为全球范围内增长速度空前的消费级软件应用典范，其用户基数在以突破1.8亿大关，并在此背景下，促使OpenAI公司的估值跃升至800亿美元的新高度。ChatGPT这一划时代产品的发布不仅引发了全球科技界的广泛关注，还强有力地激发了市场对同类竞品的研发热潮，诸如Gemini、 ErnieBot、 LLaMA 以及Claude等项目应运而生。值得注意的是，ChatGPT在线服务提供了两个迭代版本，分别基于GPT-3.5和更为先进的GPT-4架构构建而成。这两个版本均隶属于OpenAI专有的生成预训练转换器（Generative Pre-trained Transformer，GPT）模型系列，该系列的设计灵感与核心技术基础源自谷歌所研发的Transformer架构。为了满足不同用户的需求， ChatGPT 允许普通用户免费体验基于GPT-3.5版本的服务；而对于追求更高级功能和持续更新内容的用户，则通过商业化品牌“Chat GPT Plus”提供基于GPT-4版本及其后续优化功能的付费订阅服务。

（2）Gemini

Gemini 是由Google DeepMind团队研发的人工智能模型，是LaMDA和PaLM2的继任者，于2023年12月6日发布。这是一个多模态模型家族，支持文本、图像、音频、视频和代码的全方位理解和生成。Gemini模型家族包含三个针对不同应用场景优化的版本：Gemini Ultra作为旗舰版，专为数据中心级别的高性能计算环境设计；Gemini Pro则定位为通用型解决方案，能在多种工作任务上展现高效性能，并且特别适用于企业级应用及云端服务；而小巧灵活的Gemini Nano，则通过高度优化实现了在资源受限的移动设备上的高效运行，为智能手机和平板电脑等移动平台带来了强大且实时的AI交互体验。Gemini的设计使其能够原生地支持多模态能力，即从一开始就在不同模态上进行预训练，并利用额外的多模态数据进行微调，以提高其有效性。

（3）Claude

Claude是由美国人工智能初创公司Anthropic开发的大语言模型，Anthropic成立于 2021年，是一家专注于人工智能安全和研究的公司，旨在建立可靠、可解释、可操纵的人工智能系统。Claude模型提供了API和Slack机器人两种访问方式，其中API访问需要申请并通过后才能使用，而Slack机器人目前处于beta版本，不收费。

Claude是由Anthropic公司于2023年3月首次推出的语言模型系列的初代版本，尽管在编码、数学推理等方面尚存在一定的性能局限性，但依然在执行多样化任务上展现出了显著的能力。针对用户的不同需求，Claude推出了两种优化版本：常规版 Claude和响应速度更快、成本更低廉、运行更为轻巧的Claude Instant。后者将输入上下文的处理能力提升至容纳10万token，约等同于7.5万个英文单词的内容量。同年7月11日，Anthropic发布了Claude系列的重要迭代产品——Claude2，该版本对公众开放使用，而其前身Claude1则仅限于经Anthropic审核批准的特定用户群体。Claude2实现了一次重大飞跃，将上下文窗口从原来的9,000个token扩展到了10 万个token，并新增了上传PDF和其他文档的功能，使得Claude能够阅读、总结文件内容并辅助完成相关任务。11月份发布的Claude2.1版本中，聊天机器人的处理能力再度翻倍，token扩大至20万个，相当于500页的书面材料。 Anthropic在2024 年3月4日正式推出了革新性的Claude3系列，Claude3分为三个型号，按功能强大程度依次排列为Haiku、Sonnet和旗舰款Opus。默认配置的Claude3 Opus token为20万个，而在特殊应用场景下，该窗口可扩展至高达100万个token,且在知识深度、数学处理和复杂任务解决方面展现出了超越GPT-4和Gemini 1.0 Ultra的实力。

（4）LLaMA

LLaMA（全称为“大语言模型Meta AI”）是Meta AI于2023年2月推出的自回归式大语言模型系列，它囊括了多种参数规模的版本，其参数量分别为7 亿、130亿、330亿以及650亿。通常情况下，顶级LLM仅能通过有限或专属API途径访问，而Meta则破例在非商业许可框架下向全球研究社群开放了LLaMA模型权重的下载权限。值得关注的是，在LLaMA发布后短短一周内，其模型权重即通过 BitTorrent在网络论坛4chan上被公开泄露给了公众。 2023年7月18日，Meta与微软携手推出了LLaMA系列的迭代升级产品—— LLaMA-2，标志着双方在大语言模型技术领域的合作迈入了新的阶段。当日，Meta正式揭晓了三种不同规模配置的LLaMA-2模型，参数量分别达到了70 亿、130亿以及700亿。尽管在架构设计上，LLaMA-2延续了前代LLaMA-1的基本框架，但值得注意的是，在构建基础模型的过程中，Meta引入了相较于LLaMA-1多出 40%的数据进行训练，从而提升了模型对广泛语境和任务的理解能力。LLaMA-2产品系列不仅包括针对通用自然语言处理任务的基础模型，而且还推出了经过对话场景微调优化的变体——LLaMA-2 Chat，专为提升人机交互体验而打造。相比于其前身LLaMA-1，LLaMA-2的一大突破性举措在于所有模型权重的全面开放，并且对于广泛的商业应用场景，提供免费使用的权限，此举无疑拓宽了 LLaMA-2在业界的应用范围和影响力。

（5）Mixtral

Mixtral是由MistralAI开发的一款大语言模型，它采用了专家混合（MoE）架构，这种架构通过一个网关网络将输入数据分配给被称为“专家”的特定神经网络组件。Mixtral 8x7B模型由八个各自拥有70亿参数的专家组成，这种设计提高了模型训练和运算的效率及可扩展性。Mixtral8x7B在多个领域表现出色，包括综合性任务、数据分析、问题解决和编程支持等。 2023年9月27日，Mistral AI通过官方BitTorrent磁力链接以及Hugging Face平台发布了 Mistral 7B模型，该模型采用了拥有7亿个训练参数，并且严格遵循Apache2.0开源许可证，为全球开发者和研究者提供了自由访问和使用的权限。2023年12月9 日，Mistral AI发布了Mixtral 8x7B，其构建在稀疏专家混合（MoE）的革新框架之上，尽管总体参数量达到了467亿之多，但得益于MoE技术的高效性，对于每个 Token仅激活12.9亿相关参数进行运算。此款模型支持包括法语、西班牙语、意大利语、英语及德语在内的五大语言环境，并在多项基准测试中表现卓越，声称已成功超越了Meta公司的LLaMA 270B模型的性能水平。2024年2月26日面世的Mistral Large，则是Mistral AI的又一旗舰产品，被定位为紧随OpenAI GPT-4之后的顶级大模型。它不仅支持多种语言处理任务，还具备编程能力，在多领域应用上展示了强大的适应性和创造性。用户现可通过Microsoft Azure云端平台便捷使用这款高性能模型。Mistral Medium型号则是在广泛的多语言文本和代码数据集上进行深度训练后推出的，其综合性能评价位于Claude模型与GPT-4之间，为寻求平衡资源占用与处理效能需求的用户提供了一个理想的选择。最后，Mistral Small作为轻量化解决方案，旨在提供低延迟响应且性能不俗的小型模型。相较于Mixtral 8x7B，它在保证快速响应的同时，实现了更优的性能指标，从而在有限计算资源场景下展现出极高的实用价值。

2.国内大模型

（1）百度-文心一言

文心一言（英文名：ERNIE Bot）是百度基于文心大模型技术研发的知识增强大语言模型，被外界誉为“中国版ChatGPT”。其核心理念在于运用深度学习算法和大规模语料库，模拟人类的语言理解和生成能力，从而为用户提供智能化、个性化的服务。能够实现与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感，并且在文学创作、商业文案创作、数理逻辑推算、中文理解、多模式生成方面有很好的应用前景。

文心一言最早应该可以追溯到2010年百度成立的“自然语言处理部”，2019年3月16 日，百度正式发布知识增强的文心大模型ERNIE1.0，该模型基于飞桨深度学习平台打造，通过将数据与知识融合，提升了大模型学习效率及学习效果。2019年7月31 日，百度文心大模型升级到2.0。ERNIE 2.0通过持续学习框架，持续学习大规模语料中的词法、语法、语义等知识，在共计16个中英文任务上取得全球最好效果。2021年7月6日，百度发布文心大模型 3.0 (ERNIE 3.0)。ERNIE 3.0首次在千亿级预训练模型中引入大规模知识图谱，ERNIE 3.0刷新54个中文NLP任务基准，并在国际权威的复杂语言理解评测SuperGLUE上, 以超越人类水平0.8个百分点的成绩登顶全球榜首。2023年3月16日，百度新一代大语言模型文心一言正式启动邀测。2023年8月31 日，文心一言率先向全社会全面开放。开放首日，文心一言共计回复网友超3342万个问题。2023年10月17日，百度世界2023大会上，李彦宏宣布文心大模型4.0正式发布，开启邀请测试。

（2）阿里-通义

阿里通义是阿里云推出的一系列人工智能产品和服务平台，旨在提供类人智慧的通用智能服务。这些产品和服务包括通义千问、通义智文等，它们支持多种API接口，使得AI应用开发变得更加简单和高效。通义千问（Qwen）是阿里云推出的一款超大规模语言模型，采用了阿里云自主研发的大规模预训练语言模型架构，通过先进的深度学习技术和海量数据训练而成。通义智文是另一个阿里云的AI产品，它可能包含了文本生成、内容理解、自动摘要、情感分析等功能，旨在帮助用户高效地处理和创造文本内容。目前，通义千问的综合性能已经超过GPT-3.5，加速追赶GPT-4。2023年12月1日，阿里云举办发布会，正式发布并开源“业界最强开源大模型”通义千问720亿参数模型Qwen-72B。同时，通义千问开源了18亿参数模型Qwen-1.8B和音频大模型 Qwen-Audio。至此，通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现了“全尺寸、全模态”开源。自此，阿里云大模型的开源逻辑更加清晰，即通过开源的方式提供技术产品，降低门槛，推动技术普惠，为企业客户到个人开发者提供多元化、全方位的技术服务。在通义千问的基础上创建的大模型、小模型越丰富，AI生态就越繁荣。

（3）讯飞-星火认知大模型

讯飞星火认知大模型是由科大讯飞推出的新一代认知智能大模型。基于讯飞最新的认知智能大模型技术，经历了各类数据和知识的充分学习训练，可以和人类进行自然交流，解答问题，高效完成各领域认知智能需求。讯飞星火V2.0已具备“代码生成、代码补齐、代码纠错、代码解释、单元测试生成”等能力，并且在业界参考测试集与真实应用场景均达到优异效果，逼近国外领军者。星火认知大模型V3.0的快速落地，更是推动着讯飞大模型能力迅速迫近行业前列，其在数学自动提炼规律、小样本学习、代码项目级理解能力以及多模态指令跟随与细节表达等方面进行了进一步升级，这些能力的提升将融入星火金融大模型中，为大模型在金融行业的落地应用带来全新机遇。2024年1月30日，科大讯飞发布了基于首个全国产算力平台「飞行一号」训练的全民开放大模型——讯飞星火 V3.5版本。相较于上一个版本，讯飞星火V3.5版本在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力上均实现大幅提升，进一步逼近GPT-4 Turbo的最新水平。

（4）华为-盘古大模型

华为盘古大模型是华为云推出的一系列人工智能大模型，旨在通过强大的计算能力和先进的算法，解决行业难题并释放AI的生产力。该模型涵盖了NLP大模型、CV大模型、多模态大模型、预测大模型和科学计算大模型五大类别，旨在为气象、医药、水务、机械等领域提供强大的科学计算能力。盘古大模型的研发不仅体现了华为在AI技术领域的深厚积累，也展示了华为在推进AI技术产业化应用方面的决心和能力。在2021年4月，盘古大模型1.0就已经发布，早于今天大部分的大模型。2022年11月7 日的华为全联接大会2022中国站上发布了盘古气象大模型、盘古海浪大模型、盘古矿山大模型、盘古OCR大模型等新服务。2023年7月举行的华为开发者大会上，华为云曾发布了盘古大模型3.0，是中国首个全栈自主的AI大模型，该模型已具备文生图、文生文、文生代码、文生视频等多模态能力，提供5+N+X的三层解耦架构：L0层有5个基础大模型，提供满足行业场景的多种技能；L1层是N个行业大模型，提供使用行业数据训练的行业大模型；L2层为客户提供更多细化场景模型，它更加专注于某个具体应用场景或特定业务。华为常务董事、华为云CEO张平安表示，盘古大模型聚焦产品研发、软件工程、生产供应、市场营销、客户运营等价值场景，致力于深耕行业，如政务、金融、制造、煤矿、铁路、制药、气象等。

参考报告

生成式人工智能（GenAI）在生物医药大健康行业应用进展报告.pdf

生成式人工智能（GenAI）在生物医药大健康行业应用进展报告。自2022年底起，OpenAI推出的ChatGPT在全球掀起了热潮。生成式人工智（GenAI）技术日新月异，各行各业正积极探索如何整合最新的GenAI技术以推动数字化转型。据统计，全球大型企业中，已有10%成功将GenAI技术应用于公司层面的平台级项目，50%正在进行小规模尝试，而另外40%仍在观望阶段。生物医药大健康行业作为一个高度专业化和知识密集型的领域。从药物研发到临床试验，再到上市后的学术推广和患者教育等全流程应用场景，涉及到大量非结构化文本、图片和视频的处理。随着集采政策的实施和监管要求的提高，运营成本和复杂性不断上升，因...

查看详情

国内外GenAI大模型发展现状如何？

1.国外大模型

2.国内大模型

生成式人工智能（GenAI）在生物医药大健康行业应用进展报告.pdf

海内外大模型落地进展如何？

未来大模型的发展方向是什么？

大模型产业发展与企业应用情况如何？

海内外基础大模型发展趋势及技术展望分析

字节大模型核心亮点在哪？

国内大模型瓶颈及商业化难点在哪？

大模型产业链投资机遇在哪？

大模型金融能力评价基准梳理

海内外大模型厂商产品迭代方向和下游应用趋势分析

大模型技术路线、创新与改进分析

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王