伴随AI预训练大模型持续发展,生成式人工智能(GenAI)算法不断创新以及多模态 AI日益主流化,以ChatGPT为代表的GenAI技术加速成为AI领域的最新发展方向,推 动AI迎来下一个大发展、大繁荣的时代,将对经济社会发展产生重大的影响。
1.G enAI技术定义及背景
GenAI(Generative AI,生成式人工智能)指的是通过人工智能技术自动生成内容的生产 方式。通过训练模型来生成新的、与训练数据相似的内容。与传统类型的AI主要关注 识别和预测现有数据的模式不同,GenAI着重于创造新的、有创意的数据,其关键原 理在于学习和理解数据的分布,进而生成具有相似特征的新数据,在文本、图像、音 频、视频等多种领域都有广泛的应用。GenAI目前最引人注目的应用当属ChatGPT。 ChatGPT是基于OpenAI公司的大语言模型GPT-3.5训练、调试、优化的聊天机器人应 用,同一个AI模型可以处理各种各样的文字和推理任务。 ChatGPT发布仅两个月即获得1亿月活用户,超越了历史上所有互联网消费者应用软 件的用户增长速度。以大语言模型、图像生成模型为代表的GenAI技术,成为新一代 人工智能的平台型技术,助力不同行业实现价值跃升。GenAI大爆发的背后,普遍认 为三个领域的AI技术的发展为其提供了肥沃的土壤,分别是生成算法、预训练模型 和多模态技术。
第一,随着各种生成算法的不断创新突破,AI现在已经可以生成文字、代码、图 像、语音、视频物体等各种类型的内容和数据。GenAI与过去最显著的区别是从分析 式 AI(Analytical AI)发展为生成式AI(Generative AI)。分析式AI模型是根据已有数 据进行分析、判断、预测,最典型的应用之一是内容智能推荐;生成式AI模型则是 学习已有数据后进行演绎、生成创造全新内容。 第二,预训练模型,特别是以ChatGPT为代表的大模型,引发了GenAI技术能力的质 变。在过去,研究人员需要针对每一个类型的任务单独训练AI模型,训练好的模型 只能从事特定任务,不具有通用性。而预训练的大模型技术显著提升了GenAI模型的 通用化能力.
和工业化水平,让GenAI模型成为自动化内容生产的“工厂”和“流水线”。 GenAI 模型,包括ChatGPT、GPT-4等大语言模型(Large Language Models,LLM)和 Midjourney、Stable Diffusion等图像生成模型,又被称为基础模型(Foundation Models),其作为基于种类丰富的海量数据预训练的深度学习算法,展现出强大的、 更加泛化的语言理解和内容生成能力。以大语言模型(LLM)为例,经过海量的互联 网内容数据的训练,大语言模型的参数可以达到万亿甚至百万亿级别。这大大增强了 语言模型的生成能力,同一个大语言模型可以高质量地完成各种各样的文字和推理任 务,例如作诗、写文章、讲故事、写代码、提供专业知识等等。因此,大语言模型已 经成为了各大企业竞相追逐的AI方向。 第三,多模态AI技术的发展。多模态技术让GenAI模型可以跨模态地去生成各种类型 的内容,比如把文字转化为图片、视频(Sora)等等,进一步增强了GenAI模型的通 用能力。
3.GenAI应用领域
(1)多模态内容生成
A. 文本生成领域 自然语言生成是一种GenAI技术,可以生成逼真的自然语言文本。生成式AI可以 编写文章、故事、诗歌等,为作家和内容创作者提供新的创作方式。同时,它还 可以用于智能对话系统,提高用户与AI的交流体验。ChatGPT(全名:Chat Generative Pre-trained Transformer对话生成式预训练变换模型 )是由OpenAI开发的 一个人工 智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架 构的大语言模型并通过强化学习进行训练。 ChatGPT 目前仍以文字方式互动,可以解决包括自动文本生成、自动问答、自动 摘要等在内的多种任务。Jasper已经开始为谷歌、脸书等知名公司提供文案 GenAI的商业服务。 B. 图像生成领域 图像生成是GenAI技术中最为普遍的应用之一。Stability AI发布了稳定扩散 (Stable Diffusion)模型,通过开源快速迭代大幅降低了AI绘画的技术使用门 槛,消费者可以通过订阅旗下产品DreamStudio来输入文本提示词生成绘画作 品,产品已经吸引全球 50多个国家超过100万的用户注册。
C. 音视频创作与生成 2024年2月16日, OpenAI继一年前发布ChatGPT语言大模型之后,又发布了一款基于 人工智能技术的视频生成工具Sora,再次引发轰动。这是一款输入文本即可自动生成 高质量视频的文生视频大模型,实现了视频生成领域革命性变革,提供了全新的视 觉体验。在部分样片中,Sora还展现了对“物理规律”超强的学习能力,如能够模拟 现实环境中的重力、碰撞等物理现象,可以通过直播视频功能实时传递信息,用于 直播秀、在线教育、远程医疗等场合。在“现实已经不存在”的惊呼声 中,Sora确 实打开了人类视频创作的新天空,它将重塑视觉内容生成的未来,同时也反映出人 工智能技术远超预期的快速进步。有媒体称,Sora 不仅仅是一个工具,更是一种新 的生活方式,将会对整个社会产生重要影响。 GenAI技术还可以用于语音合成,即生成逼真的语音。例如,通过学习人类的语音特 征,生成式模型可以生成逼真的语音,从而用于虚拟助手、语音翻译等应用。GenAI 技术可以用于生成音乐。生成式AI可以根据给定的风格和旋律创作新的音乐作品, 为音乐家提供新的创作灵感。这种技术还可以帮助音乐家更有效地探索音乐风格和 元素的组合。这些曲目可以用于音乐创作、广告音乐等应用。
D. 电影与游戏 GenAI可以用于生成虚拟角色、场景和动画,为电影和游戏制作带来更多的创意可 能。此外,AI还可以根据用户的喜好和行为生成个性化的故事情节和游戏体验。 2023年3月,腾讯AI Lab在GDC上提出了3D虚拟场景自动生成解决方案,能够帮助游 戏开发者以更低成本创造风格多样、贴近现实的虚拟城市,提升3D虚拟场景的生产 效率。其中重点分享了城市布局生成、建筑外观生成和室内映射生成三大能力。整 个路网生成和微调过程仅需要不到30分钟,相比手动设计效率提升近100倍;而单个 独特建筑的制作时间也降低至17.5分钟,大大提升了场景制作的效率。 E. 代码生成领域 经过自然语言和数十亿行代码的训练。部分GenAI模型精通十几种语言,包括 Python、JavaScript、Go、Perl、PHP、Ruby等等。能够根据自然语言的指令生成相应 的代码。 GitHub Copilot是一个GitHub和OpenAI合作产生的AI代码生成工具,可根据命名或 者正在编辑的代码上下文为开发者提供代码建议。官方介绍其已经接受了来自 GitHub 上公开可用存储库的数十亿行代码的训练,支持大多数编程语言。
(2) 翻译
GenAI可以直接应用于翻译实践之中,与传统机器翻译系统采用以句子为单位的方 式训练不同,大语言模型采用以单词为单位的方式进行训练。这使得大语言模型可 以理解并再现单词之间的连贯性和上下文信息,译文因而更加自然、准确。此外, 传统机器翻译系统在遇到较为复杂的语言环境时,往往会出现句法和语义方面的错 误,而大语言模型可以应付更为复杂的语言环境,产出更为准确、自然的译文。相 比较而言,大语言模型在翻译方面展现的性能要比传统机器翻译更加突出,能够产 出可与人工翻译译文相媲美的翻译作品。
(3) 内容理解与分析
腾讯会议AI小助手:只需通过简单自然的会议指令,基于对会议内容的理解,就 可以完成信息提取、内容分析、会管会控等多种复杂任务。会后可以自动生成智能 总结摘要,还能基于智能录制的能力,帮助用户高效回顾,提升用户开会和信息流 转效率。
(4) 科研与创新(AI for Science)
GenAI可以在化学、生物学、物理学等领域探索新的理论和实验方法,帮助科学家发 现新的知识。此外,GenAI还可以用于药物设计、材料科学等领域,加速技术创新和 发展。