通过分析多模态大模型在通用行政办公、软件开发、创意设计、金融、 医疗等不同领域的应用,来探讨不同垂直场景智能化升级的统一性和差异点。
一、生成式 AI 技术驱动通用行政办公类软件行业快速变革
从技术到商业化,国产通用行政办公软件的智能化升级进展距离海外有差距。在海 外AI大模型技术较为成熟的情况下,嵌入了Copilot的微软办公类和企业管理类软件 已经表现出较为显著的智能化升级效果,已吸引海外较多客户尝试使用其产品。从 技术、产品到商业化,微软在各方面都已经走在了行业前列。与之相比,国内的WPS AI、新钉钉等办公类AI应用离成熟到大量客户认可还有较长的时间,主要障碍在于国 内AI大模型的功能和性能距离海外仍有一定差距。总体而言,国内公司的AI应用整体 落后海外公司一个阶段,即产品化初中期 vs 商业化前夜。国内AI大模型在通用行 政办公类软件的应用仍需要一段时间克服从产品化到商业化的挑战。
1. 微软走在行业前列,树立了多模态大模型技术和商业化探索的标杆
Office系列软件嵌入Copilot,内容生成功能亮眼。2023年3月,微软发布Microsoft 365 Copilot智能插件产品,对于其既有的Microsoft Graph工具包和Microsoft 365办 公软件产品进行了全面升级。Copilot是基于大规模语言模型开发的。通过嵌入Copilot, 微软打通了Word、PowerPoint、Excel、Outlook、Teams等各软件产品间内容共享 的通道,原本各自独立的办公软件可以根据用户的指令自动引用全类别Office软件中 的既有内容,并自动编辑成满足客户需求的内容。例如,根据Word中的既有文字, 用户可自动生成Powerpoint中的演示稿。Copilot对各软件产品具体提升效果如下: (1)嵌入了Copilot的Word软件可根据用户指令自动生成文字,例如,新品发布会 的演讲稿。此外,其还可以根据既有文字内容进行要点总结、扩写等高级别功能。 (2)嵌入了Copilot的Powerpoint软件根据用户指令不仅可以自动生成演示稿的文字 和图片等内容,还能实现演示稿的美化、添加动画等高级功能。 (3)嵌入了Copilot的Excel软件可以根据用户指令自动生成分析表格并可视化为柱 状图、曲线图等图表。 (4)嵌入了Copilot的Outlook软件可总结较长邮件内容,并根据用户回复内容的草 稿进行扩写、添加图表等。 (5)嵌入了Copilot的Teams软件可在会议中实时进行要点总结、咨询讨论话题等。

Bing全面开放,智能化的搜索引擎应用前景广阔。2023年2月7日,微软首次推出嵌 入了AI大模型的New Bing搜索引擎和Bing Chat产品,可通过直接问答的方式得到用 户所需内容。之后,微软进行了一系列的升级。2023年3月,Bing Chat在嵌入了 DALL∙E大模型后升级了Bing Image Creator功能,用户可在Bing搜索栏中输入文字 生成图片。随着Bing的智能化功能持续升级,其用户数量快速增长。截止2023年5 月4日,用户在New Bing上已累计完成5亿次对话,生成了2亿张图片。New Bing的 日活量已经超过1亿人次。在Bing和Edge的智能化功能已实现较大突破,用户数量 积累到一定规模的背景下,微软于2023年5月4日宣布了下一步的产品开放和升级计 划,具体如下: 1. 全面开放:自5月4日起,New Bing的智能化功能将不再设置候补名单。用户使用 微软账户登录Bing后,即可直接使用Bing Chat功能。 2. 回答内容的表现形式更加生动和丰富:Bing Chat的回答内容由此前的纯文本形 式,升级为文字、图像、网页链接等更加直观和丰富的表现形式。3. 对话内容的保存和继续对话:Bing Chat中的对话内容可实现在Edge浏览器中的 保存。用户在下次打开浏览器后,可选择上次未完成的聊天记录继续对话。 4. 面向开发者的第三方插件即将推出:Bing Chat上即将推出第三方插件功能,并创 建一个开发者平台。开发者在平台上创建了满足自己需求的插件后,在聊天过程中 可自由调用插件的功能(例如:可以通过OpenTable插件自动查找、预订餐馆)。
相较于办公类软件,企业管理软件功能复杂,门槛较高,智能化升级的难度较大。 微软的Dynamic 365是面向企业用户,覆盖从内部管理到对外销售,从产品采购到售 后服务等各个环节的企业管理软件产品线,其中企业资源规划(ERP)和客户管理 管理(CRM)是两个重要软件产品。与办公类软件不同,企业管理软件的功能复杂, 门槛较高,其需要对包括采购、生产、存储、分销、运输、财务、人力资源等企业内 部所有资源进行整合,合理规划后实现效益最大化。因此,企业管理软件通过AI大模 型赋能后智能化升级的难度较大。
Copilot赋能Dynamic 365,提高信息在各流程间流转的效率。2023年3月,微软推 出Dynamic 365 Copilot,对其ERP和CRM等企业管理软件智能化升级。过去 Dynamic 365涉及到需要手动输入、编辑、标注等繁重的人工操作,较大部分将由 Copilot所替代。通过减少机械的、重复的工作,Copilot赋能采购、生产、销售等各 环节人员快速响应,提升供应链敏捷性、并降低业务风险。Copilot对于各企业管理 软件的提升效果如下: 1. 在 Dynamics 365 Sales和Viva Sales中,Copilot能够帮助销售显著减少花在案 头工作上的时间。Copilot可根据CRM系统中产品、报价之类的数据,自动生成回复 给客户的邮件内容。这大大减少了销售回复邮件等文案工作的时间,从而可以将更 多精力用于客户交流工作。 2. 嵌入了Copilot的Dynamics 365 Customer Insights软件,市场人员只要用自然语 言与客户数据平台进行一些简单的对话,就能得到高度定制化和目标明确的客户分 类,较大提升了用户分类以及发现潜在用户的效率。 3. 嵌入了Copilot的供应链管理软件Dynamics 365 Supply Chain Management能主 动为影响供应链流程的事件发出预警,例如天气、财务或者地理环境等;随后预测 洞察将筛选出受影响的订单,并将物料、库存、承运商、配送网络等细节信息提供给 客户。供应链规划功能随后会自动撰写一封由Copilot生成的电子邮件向受到影响的 合作伙伴发出预警,提醒防范可能出现的负面影响。
Copilot对Dynamic 365的智能化升级更多是效率提升,而非核心功能的颠覆。 Copilot对Office系列软件产品的智能化升级效果更加显著,其主要原因是涉及办公软 件的核心功能。例如,Word的核心功能文字撰写可以被Copilot替换;PowerPoint的 核心功能演示文稿制作可以被Copilot替换。而Copilot在Dynamic 365的应用中并未 涉及核心功能颠覆。企业管理的关键环节仍需要管理人员做部分工作,并最终决策。 我们认为,B端应用软件面临的可靠性、扩展性、稳定性和数据交互涉及的安全性等 要求,使得其智能化改造的程度和节奏较C端应用软件或呈现出不同的发展趋势。
AI实质性推动微软应用软件实现功能性上质的飞跃。我们在2023年2月14日发布的 AI行业深度报告《ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较 大挑战》曾提到“未来,GPT系列AI大模型最具有成功潜力的商业化落地形式是其 与微软从浏览器Bing到Office的全线软件的融合应用。二者的融合应用有望对微软的 软件产品的门槛和附加值有较大提高效果,同时对相应竞品实现降维竞争。我们可 以预期微软相关产品线的竞争优势会迅速扩大并能逐步新增体现在全球市场份额和 财务回报上。”微软Copilot智能插件产品的推出并有效赋能其办公软件产品验证了 我们此前对于AI大模型商业化落地的判断。我们看好嵌入了Copilot的微软办公类和 企业管理类未来商业化应用前景。
在AI大模型商业化落地的探索方面,微软已走在行业前列。AI时代,通过算力、数 据、算法模型和商业软件的有机融合方面,微软正快速积累用户数量,培养用户习 惯,构建生态壁垒,先发优势明显。一方面,这进一步增加了各同行公司进行智能化 升级的压力和时间紧迫感;另一方面,微软的不断突破树立了技术和商业化探索的 标杆,给国内相关应用生态发展开拓了可供学习的经验路径。同行公司通过学习微 软模式,也有望实现应用软件产品在智能化升级后的商业化规模落地。
2. 国产行政办公软件持续追赶,多模态大模型提升产品价值量
金山办公发布WPS AI,国内协同办公赛道首个类ChatGPT式应用。4月18日,金山 办公正式发布了具备大语言模型能力的生成式人工智能应用WPS AI,这也是国内协 同办公赛道首个类ChatGPT式应用。WPS AI搭载在金山办公新一代在线内容协作编 辑工具轻文档(airPage)上,使其编辑能力更专业、插入功能更丰富、使用界面更 友好。接入WPS AI后,AI生成的内容可以直接嵌入到文档正文,并能按照当前文档 所能支持的格式进行实时渲染,同时也支持多轮对话,通过多次、连续自然语言的 输入控制内容的生成,进一步提高创作效率。未来WPS AI计划逐步放开公测,有望 嵌入金山办公全线产品。
WPS AI 的功能主要分为三大类:内容生成、文本处理、知识分析: (1)内容生成:搭载了WPS AI的轻文档可根据用户指令自动生成文字,协助用户 写出优质内容。例如广告文案、新闻稿、运营策略案等文本类作品以及创意故事、诗 歌等文艺创造性内容。不仅如此,WPS AI还支持多轮对话,用户可以就某个话题与 WPS AI持续沟通,例如用户对其提供的文本内容不满意,可以补充更多细节要求让 WPS AI重新优化文字表达。 (2)文本处理:WPS AI能够对已有文案进行加工和再处理,包括编辑、改写、扩 充、缩短、润色等,例如“WPS AI”可在不改变原有文案意思的前提下使用用户习 惯的语言风格优化文本内容,同时为了满足多语言场景,WPS AI可以实现对现有文 字内容进行中英文互相翻译。 (3)知识分析:WPS AI可以根据用户提供的现成文档,快速总结归纳文档中的内 容。例如,WPS AI可以根据其他人的旅行游记文档和用户自己的预算表生成属于用 户自己的旅行计划。用户也可以插入多篇工作日报,让AI生成出一周的工作总结。此 外,WPS AI还可指定文档,生成待办事项、文章大纲、撰写新闻稿件、提炼主旨摘 要等。
AIGC、阅读理解和问答、人机交互塑造WPS AI在AI+办公赛道的差异化优势。WPS AI未来锚定三个战略方向,第一个方向是AIGC,主要是辅助编辑、改写、润色,帮 助用户生产更优质的文章,提高基本办公生产力;第二个方向是阅读理解和问答, 基于已储备的语料做问答式的交互,辅助阅读和知识检索。第三个方向是人机交互, 基于大语言模型技术去做下一代基于自然语言的人机交互,用自然人类语言给WPS AI下命令、提要求。 钉钉接入千问大模型,输入“/”唤起10余项AI能力。4月18日,在2023春季钉峰会上, 钉钉发了一条斜杠“/”,并现场演示接入千问大模型后,通过输入“/”在钉钉唤起10 余项AI能力,包括使用AI生成推广文案、生成图片及表情包、使用图片识别方式创建 应用、在视频会议中生成会议纪要等。新钉钉有望全面智能化,带来各场景用户体 验的升级。目前,钉钉与大模型融合场景正在测试中,将在相关安全评估完成后上 线。
新钉钉主要在四个方面展现出智能化升级,除了这四个高频场景,钉钉也在同步测 试钉钉个人版、搜索、邮箱、AI助理、智能客服等产品,让客户和生态基于钉钉PaaS 底座的能力,更好地对接大模型。 (1)在聊天中:在传统群聊中,用户经常会因为一段时间未关注群聊消息而错过某 些信息,现在用户可以使用新版钉钉“/”获取关键群信息,即使是新入群者也无需爬 楼,在对话框输入“/”即可自动整理群聊要点,快速了解上下文。此外,用户输入自 己的要求,“/”可以配合参会人的时间来生成待办事项清单并预约日程并在群聊中创 作文案、表情包等。在新钉钉中,用户也可以训练专属的助理机器人,用“/”创建机 器人后只需要发送文档、网页或者知识库的一条链接,就可以让机器人自动学习其中内容,并可生成对话问答,不用再手动设置问题和答案。 (2)在文档中:“/”可以扮演用户创意助理的角色,根据用户指令生成文本及图片, 例如推广文案、新闻稿、创意故事等,同时“/”可以润色文本、改写语气、精简或丰 富文本内容等。 (3)在视频会议:“/”可以扮演会议助理角色,将会议语音转为文本,即使用户是 入会迟到也能快速了解会议先前讨论的内容。散会后“/”还可以能一键生成完整的议 程回顾,讨论要点、会议结论、待办事项等。 (4)在拍照生成应用中:“/”还可用自然语言或拍照生成应用,自动生成缺失内容, 并以钉钉酷应用的形式在群聊内使用。比如,公司行政人员需要统计午餐的订餐份 数,只需要在群聊对话框中输入“/”和需求,几秒钟后一个订餐统计小程序就会展现 在群聊中。如果用户想要统计其它同事的想法,只需要告诉“/”自己的需求是什么, “/”会自行生成一个群投票。
国产办公软件在AI领域有所积累,叠加AI大模型的内容生成能力实现质的提升。 2021年7月,金山办公发布深度学习框架KSAI-Lite,并创新推出智能写作、演示文 稿、文档翻译等功能,推动AI技术在办公场景应用落地。2023年3月,阿里推出通义 千问大模型,对于人机对话、长文本内容生成等AI应用效果较好。国产应用软件不仅 在AI领域已有一定技术积累,还深刻理解办公类软件的客户需求。因此,在内容生成 类AI大模型取得通用化效果突破后,国产办公软件公司能敏锐的觉察相应的AI技术 给既有办公产品可能带来的智能化升级效果,并及时结合产业链公司的技术优势快 速推出AI内容生成的功能。我们认为,WPS AI的推出和阿里钉钉的升级不仅体现了 公司快速结合新兴技术增强产品竞争力的创新力,还反映了其通过解决下游用户需 求痛点实现产品价值量提升的商业敏感性。
金蝶国际与多个模型提供商合作,ERP产品智能化升级值得期待。2023年3月,金蝶 国际宣布其正在与微软OpenAI联手进行一些具体应用场景的探索和测试,同时也宣 布其接入百度文心一言大模型。2023年5月,金蝶国际与百度签约,正式成为文心千 帆的生态伙伴。未来,金蝶基于AI大模型的能力,结合其既有的行业知识、专有数 据,以及B端业务的商业积累,有望对其ERP等企业管理软件产品进行智能化升级。 在微软推出Dynamic 365 Copilot智能化功能后,金蝶的ERP软件的智能化升级路径 更加清晰,功能开发也有迹可循。
从技术到商业化,国产通用行政办公软件的智能化升级进展距离海外有差距。 (1)海外方面,根据国外媒体The information报道,微软超过600家最大的客户, 包括美国银行、沃尔玛、福特、埃森哲等,预计将尝试使用微软Office 365 Copilot 应用,其中至少100家客户已经分别支付了10万美元的费用,满足最多1000个账号 在一年内使用AI功能。这意味着海外GPT大模型在办公四件套 (Word\Excel\PPT\PDF)的应用或将进入实质性成规模的商业化推广阶段。(2)国内方面,WPS AI功能目前还处于测试阶段,相关办公智能化应用距离成熟 到大量客户认可还有较长的时间,主要障碍之一在于国内AI大模型的成熟度相较于 ChatGPT和GPT-4仍有一段距离。 总体而言,海外以GPT为代表的AI大模型在办公软件的应用已进入商业化前夜,国 内AI大模型在通用行政办公类软件的应用处于产品化的初中期,仍需要一段时间克 服从产品化到商业化的挑战。
二、AI 大模型有效提高程序开发效率,软件开发行业开启变革
AI大模型可自动生成代码,助力程序高效开发。经过大量代码数据训练的AI大模型, 具备代码生成的能力,可有效减少程序开发人员编写代码的时间和精力,特别是基 础类算法的代码。在AI大模型的帮助下,程序开发人员可以专注于更复杂和创造性 的工作,从而提高整体生产力。在具体应用方面,主要有微软旗下GitHub Copilot X、 亚马逊CodeWhisperer,国内的华为云CodeArts Snap、商汤的商量Sensechat、硅 心科技的aiXcoder XL等。根据《Big Ideas 2023》报告,程序开发人员在人工智能 编码助手GitHub Copilot的帮助下,减少了55%的代码开发时间,效率提升效果显著。
AI大模型有效减少基础类算法代码的开发,减少重复工作量。对于开发人员来说, 有许多基础性、重复性的算法开发任务很耗时。部分厂商通过建立代码库供程序开 发人员搜索的方式来减少重复代码开发的时间。例如,aiXcoder的智能代码搜索功 能中可以帮助开发者搜索相似的代码进行开发。在AI大模型的帮助下,代码的搜索 功能有望逐渐被代码生成功能取代。GitHub和OpenAI合作开发的GitHub Copilot工 具可实现基础算法代码的自动生成,有效减少程序开发人员的重复工作。此外,该 工具还可将代码的格式自动编排,有助于保持代码格式的一致性,使代码更容易阅 读和理解。
AI大模型助力提高所生成代码的质量。编写简洁、高效和可读性强的代码对于程序 开发至关重要。AI大模型可自动检查代码语法错误,调试代码,有效提升代码质 量。在程序开发早期,AI大模型可以识别一些由于设计缺陷或不良编程习惯带来的 问题,提供给开发人员进行快速修改,减少了后续传播对整体程序的影响。
国外方面,多模态大模型的代码生成功能已具备语音交互的能力。GitHub是世界最 大的面向开源及私有软件项目的托管平台,拥有超1亿的开发者用户。2023年3 月,GitHub基于GPT-4推出智能编程助手GitHub Copilot X,其不仅在GitHub Copilot(基于GPT-3)的基础上提升了代码生成、代码建议、代码注释的响应速度 和准确性,还支持通过语音交互生成代码的功能。在代码开发过程中,开发者可以 通过文字和语音聊天的方式与GitHub Copilot X进行交互,实现代码生成、运行程 序等。我们认为,基于GPT-4多模态大模型的GitHub Copilot X与开发者可交互的 信息类型更多,进一步提升了软件开发的易用性和开发效率。
GitHub Copilot提高开发人员工作体验。根据GitHub的官方博客,90%使用GitHub Copilot的开发人员表示编程速度更快,其自发布以来,GitHub Copilot已经帮助一百 多万开发人员将编码速度提高了55%,超过400个组织已经在使用GitHub Copilot。 如今,在所有编程语言中,平均有46%的代码是使用GitHub Copilot构建的。此外, 根据《量化GitHub Copilot对开发人员生产力和幸福感的影响》研究结果,高达88% 的用户表示使用GitHub Copilot帮助他们对工作更有满足感,96%的开发人员在重复 性任务中完成的更快,74%的开发人员更容易在GitHub Copilot加持下获得更多工作 满足感。
国内方面,多家公司已开发代码生成类的AI应用。 (1)华为:2023年2月,华为联合CSDN发布了智能化编程助手Coderarts Snap。 该应用基于华为自研的代码大模型盘古Pangu-coder开发。CSDN的用户使用该工具, 可提升应用开发效率和代码质量。(2)商汤:2023年4月10日,商汤推出的商量大语言模型中,包含代码生成功能。 “商量SenseChat”提供代码补全、注释生成代码、测试代码生成、代码翻译、代码修 正、代码重构、复杂度分析等功能,有效提升研发效率。从根据商汤内部测试的结果 来看,在使用“AI代码助手”后,代码编写效率可以提升62%,Humaneval测试集一次 通过率可以达到40.2%。 (3)硅心科技:公司开发的aiXcoder是基于深度学习代码生成技术的智能编程工具, 支持Java、Python、C#、C/C++、 JavaScript、TypeScript、Go等多种编程语言。 aiXcoder社区版的开发者用户已覆盖130多个国家和地区,为超过30万国际开发者提 供智能化编程服务。

多模态大模型代码生成功能驱动软件开发行业的技术变革刚刚开始。多模态大模型 代码生成功能可部分替代人工程序开发工作,程序开发人员可以更专注于难度更高、 更有创造力的工作。在软件开发过程中,AI大模型不仅提升了基础类算法开发效率, 还大大降低了软件开发的技术门槛,有望推动程序开发的普及。我们判断,AI大模型 在软件开发行业降本增效效果显著,其开启的技术变革才刚刚开始,充分利用AI大 模型生成代码功能的公司有望取得先机,获得先发优势,快速成长。
三、多模态大模型替代人工生成创意内容,创意设计软件迎智能化升级
1. 多模态大模型技术变革创意设计软件,创新内容生产的流程新范式
多模态大模型在创意内容设计领域有较好应用前景。在游戏、广告、美术和影视等 创意设计内容的领域,多模态大模型可帮助用户实现角色立绘、特效设计、动画分 镜等多种图像的自动生成,较大提升创意设计工作的效率,降低制作成本,催生更 多创意作品的产生。根据《Big Ideas 2023》报告,一般而言,美术设计人员耗时5 小时,花费150美元的成本可创作一幅高精细度的图像。若用文生图的多模态大模型 替代人工设计工作,其耗时少于一分钟,花费0.08美元的成本即可完成同样的工作。 我们认为,以文生图为代表的多模态大模型在创意内容设计方面具有较好的人工替 代效果,未来其大规模推广有望给行业带来变革式发展。
在游戏领域,多模态大模型有望在文案、道具、角色、场景生成及玩法设计方面提 升游戏研发效率,降低创作门槛。随着游戏行业市场竞争加剧,产品研发成本持续 高涨,尤其对于高品质、内容宏大的游戏来说,制作难度更高、周期更长。多模态大 模型的内容生成能力能够广泛应用于游戏角色、道具、特效及动画分镜各种场景的 生成中。例如,Midjourney、Stable Diffusion等工具可以根据设计者输入的描述文本 快速生成概念图像,降低制作成本,提升研发效率。我们认为,多模态大模型在游戏 领域的应用有望全方位节省制作团队人力成本,包括策划、美术、程序等环节,有效 提升游戏研发效率,降低制作门槛,增强行业创造力。
在广告领域,多模态大模型高效、多样的内容生产能力有望提高营销内容创新性和 丰富度,从而带来更好的营销效果。广告创意阶段,多模态大模型可以辅助设计人 员生成广告的初稿,减轻相关人员在内容创意方面的压力。营销内容生成阶段,多 模态大模型能够大量、高效产出营销内容,包括文字、图片、语音、视频等各种形 式,帮助营销公司在内容生产环节降本增效。在广告投放环节,AI算法可以更精准地 匹配消费者喜好,实现广告的智能推荐,提升触达消费者的广度和精确度。
在平面设计领域,多模态大模型可生成设计样稿,为工作人员提供设计灵感。基于 大模型的涌现能力,多模态大模型可低成本生成大量参考设计素材。以Midjourney、 Stable Diffusion为代表的AIGC美术工具基于大量公开优质作品进行训练和整合,对 于相同提示词,可低成本产出多个随机图像,为美术人员在装修设计、服装设计、场 景构图等方面提供参考和灵感。目前已有包括服装设计公司和装修设计公司开始调 用这些大模型的API进行辅助设计工作。例如,美国的时尚设计公司CALA利用 DALL∙E模型快速生成各种服装样式,提供设计人员参考。新加坡的地产公司Stacked Homes利用Midjourney模型生成的房间内饰装修方案,有效减少工作人员设计时间。
2. 文生图模型提供商均推出按次、按时长收费模式,但商业化拓展策略不同
随着扩散模型和CLIP模型技术的逐渐成熟,国内外厂商纷纷推出文生图大模型,包 括DALL∙E 2、Midjourney、Stable Diffusion等。以上三大多模态模型的技术较为成 熟,使用人数较多,已形成一定的生态。 (1)DALL∙E 2:DALL∙E大模型是OpenAI于2021年1月公布的产品,并于2022年4 推出第二代,可根据自然语言的描述创作高质量的图像,此外还能进行画面场景的 扩展和画面内容的修改。2022年11月,OpenAI将DALL∙E 2的API开放供第三方调用。(2)Stable Diffusion:Stable Diffusion由Stability AI开发的大模型,于2022年8月 发布并同时宣布开源,已经历4次迭代。目前其多采用本地部署,对电脑配置要求较 高,且插件多功能复杂,学习成本更高。 (3)Midjourney:Midjourney于2021年8月成立,由11人组成的小团队开发,至今 已迭代5个版本。目前其主要搭载在Discord社区上,用户向Midjourney Bot输入指令 即可在云端完成生成。
Midjourney利用Discord社区快速拓展用户规模。Midjourney搭载在Discord社群 中,用户可以选择进入在Discord中的一个聊天室,通过在聊天框中调用/imagine, 根据图片特征输入符合语法的prompt,即可自动生成图片。聊天室属于公共频道, 用户也可看到其它排队的用户所生成的图片。同时,使用Midjourney bot应用的用 户可以在个人频道中进行图片生成操作。用户不仅可以在自己的频道上创作,而且 可以在公共频道欣赏其它用户的作品,这种交互式体验可以激发创作灵感,吸引潜 在客户。通过Discord社区,Midjourney的用户数量快速增长。截止到2023年6月, Midjourney用户量已达1600万以上。
Midjourney采取SaaS订阅制模式,共有三种订阅模式,Basic Plan(10美元/月或 96美元/年)、Standard Plan(30美元/月或288美元/年)、Pro Plan(60美元/月 或576美元/月)。不同的订阅模式对应用户的使用权限是不同的,具体体现在使用 GPU训练图片的时间长度、在公共聊天室生成图片的数量等。
Stable Diffusion在2022年8月推出的时候即以免费开源的形式推出,因此用户可以 免费使用该模型的源代码进行图像等内容生成。对于普通用户,使用程序语言来进 行图片生成仍然存在一定门槛。因此,Stability AI在其官网上也推出了Dream Studio工具,直接输入关键词就可以进行图片的生成。用户在Dream Studio上生成 图片是需要付费使用的,其收费价格根据生成图片的分辨率和步骤数在0.1-9.5美分 /张之间。其中,步骤数量是和生成内容匹配提示词的契合度直接相关的。一般而言,对于提示词较为复杂的图像,用户往往需要选择较高的步骤数量才能得到满意 的结果。
与Stability AI相比,OpenAI给DALL∙E大模型制定的收费规则更加简单。DALL∙E目 前仅针对三种不同分辨率的图像生成分档来收取费用,其单张图片的价格在0.016- 0.02美元之间,其收费的价格区间较Stable Diffusion的更窄。我们对比生成相同质 量的图像,二者收费的价格。以生成一张512 X 512分辨率的图像为例,DALL∙E的 收费价格是固定的,即1.8美分,高于Stable Diffusion的价格(0.1至1.0美分之 间)。而生成一张1024 X 1024较高分辨率的图像,DALL∙E的收费价格是2美分; Stable Diffusion的价格根据步骤数不同,在1.0至9.5美分之间。
3. 多模态大模型推动创意设计软件智能化升级,有望提升产品价值量
在专业设计软件领域,Adobe已将多模态大模型的生成能力融合到其创意设计软件 中。海外的Adobe在2023年3月21日发布了嵌入多模态大模型的平面设计新产品 Firefly。在Firefly软件界面上,用户通过输入自然语言就能快速生成图片、特效等内 容。基于Firefly的内容生成能力,Adobe对其既有的设计软件进行了一系列升级: (1)2023年4月,Adobe宣布将Firefly的智能生成功能集成在Premiere Pro视频制作 产品中。在视频编辑过程中,用户通过输入文字提示词,即可实现视频的色彩优化、 特效添加、背景音乐更换等功能。 (2)2023年5月,Adobe宣布将Firefly嵌入Photoshop图像编辑软件中,并新增 Generative Fill功能,根据用户输入的提示词,自动修改图像部分区域。 Adobe Firefly智能生成功能的亮点在于用户用自然语言即可完成各类复杂的设计操作工作,大大缩短了设计工作的周期,降低了专业设计类软件的使用门槛,有效提 升产品的吸引力。目前Firefly的智能化功能还处于Beta测试阶段,部分客户可提出 Firefly的使用申请后免费使用。我们认为,嵌入了Firefly功能的Adobe全系列产品线 的竞争力得到有效增强,后续有望扩大客户规模,并在市场份额和客户规模达到一 定程度后提高ARPU及付费用户转换率,推动营收的快速增长。
国内方面,万兴科技是创意设计领域的领先公司。万兴科技面向C端用户为主,提供 数字创意产品和服务,具体包括视频创意、绘图创意、文档创意、实用工具四大产品 线: (1)视频创意软件:提供包含视频、图片、音乐及特效素材资源在内的多种优质视 频创意解决方案与服务。具体产品包括视频类的万兴喵影视频编辑软件、万兴播爆 数字人营销短视频创作工具,图片类的Sweet Selfie、Sweet Snap图片编辑软件和 素材资源类的万兴喵库。 (2)绘图创意软件:针对企业用户完成工作创意的构建和灵感转化的需求,提供包 括思维导图、项目管理、平面布置、工艺工程等在内的各类图形图表的绘制工具。主要产品包括亿图脑图(国外版本:EdrawMind)、亿图图示(国外版本:EdrawMax)、 墨刀(国外版本:Mockitt)等。此外,近期推出的万兴爱画也属于该类软件,利用AI 生成技术帮助用户创作高质量、多风格的创意绘画作品。 (3)文档创意软件:主要产品即万兴PDF(国外版本:PDFelement),PDF处理软 件,满足文档创作、编辑、阅读、翻译、保护等多样需求。 (4)实用工具软件:包括万兴恢复专家(国外版本:Recoverit)、Dr.Fone、万兴 手机管家、万兴易修(国外版本:Repairit)等多款数据及设备管理类应用工具产品。
万兴科技已推出图像生成类AI绘画产品万兴爱画。2022年11月,万兴科技公司推 出万兴爱画AI绘画产品,可根据用户输入的描述文字生成图片,或根据用户上传的 图片生成不同风格的图片,具体风格包括粉彩、超彩、二次元增强、写实2.5D等。 该产品典型目标客户包括设计师、游戏工作者、自媒体人等。例如在游戏方面,万 兴爱画能够快速生成游戏场景、角色与道具等高精度的美术素材,提升游戏内容的创作质量及效率,而自媒体人也能够通过通过万兴爱画快速实现个性化内容生产。
万兴科技的智能化设计软件万兴爱画已开始收费。万兴爱画的定价方面,首先注册 登陆用户每天将获赠5次免费创作次数。如需创造更多作品,则需单独购买。当前, 公司共推出三种创作权益包,10次创作5元人民币(0.5元/次)、30次创作12元人民 币(0.4元/次)以及100次创作20元人民币(0.2元/次)。
总体而言,面向C端的消费服务和行政办公类的应用已率先开始智能化升级的进程。 消费服务和通用行政办公等领域由于数据相对容易获取,应用壁垒偏低和行业特征 较弱等属性,使得相应领域在接入通用AI大模型后的应用产品化落地较快,普适性 较高,但下游应用相应也面临较大的同质化挑战。 技术驱动下,行业智能化升级的趋势清晰。多模态大模型在各类文本、图片、音视 频等方面表现出了愈加出众的能力,一方面能够以优于人类的知识水平承担信息挖 掘、素材调用、编辑优化等基础劳动,另一方面更重要的是能够创新内容生产的流 程和范式,为更具想像力的内容、更加多样化的传播方式提供可能性,降低创作门 槛,推动内容生产更加高效、便捷。我们认为,在技术驱动下产生的行业变革已经 显现,全面拥抱生成式AI技术,提升产品智能化功能,或成为文本办公类、程序开发 类、创意设计类等各类应用软件的必然选择。
竞争格局方面,下游应用面临同质化竞争的背景下,在商业模式和收费方式上取得 差异化优势的企业有利于占据领先地位。目前,商业模式正在向两个方向探索:模 型提供商推出的AI服务多以“按次收费”或“按时长收费”的形式落地,并尝试自研 应用的拓展;其也寻求与应用厂商的合作,将模型能力嵌入到应用软件后实现商业 化。总体而言,现阶段仍处于商业化早期阶段,最终价值将如何在大模型厂商与应 用厂商之间分配,目前仍有较大不确定性。下一阶段,各科技厂商能否探索出稳定、 可持续的尤其是To B端的商业模式并确定合理的产业链定位将会成为竞争的关键。