人工智能定义与发展浪潮回顾

人工智能定义与发展浪潮回顾

最佳答案 匿名用户编辑于2025/08/21 10:59

人工智能是智能机器所执行的通常与人类智能有关的智能行为,这些智能行为涉及学习、感知、思考、理 解、识别、判断、推理、证明、通信、设计、规划、行动和问题求解等活动。

随着时代的演进,人们对人工智 能的定义也在不断地发生变化。 1950 年图灵(Turing)设计和进行的著名实验(后来被称为图灵实验,Turing test),提出并部分回答了“机器 能否思维”的问题,是对人工智能的一个很好的诠释。图灵测试的方法很简单,就是让测试者与被测试者(一个 人和一台机器)隔开,通过一些装置向被测试者随意提问。进行多次测试后,如果有超过 30%的测试者不能确定 出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人工智能。 其后也有很多学者机构对人工智能提出定义。在 Transformer 架构发布前后,Google 提出人工智能是能够执 行通常需要人类智能的任务,诸如视觉感知、语音识别、决策和语言翻译的计算机系统理论和开发。

进入大语言模型(LLM)时代,人们对人工智能的认识进入到了一个全新的阶段,提出通用人工智能 (Artificial General Intelligence, AGI)的概念作为人工智能终极目标。AGI 是指一种智能系统,其智能水平与人 类相似,能够在广泛的任务和领域中表现出类似于人类的推理能力和智慧。AGI 的目标在于构建一个能够像人 类一样执行各种认知任务的智能系统,具备高度的灵活性和自适应性,能够在多样化的任务和环境中学习、改 进,并展现出卓越的智能表现。

人工智能第一次发展浪潮:推理与搜索占据主导,但由于当时机器计算能力的不足而经历了第一次低迷期。 人工智能(Artificial Intelligence,缩写 AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术 及应用系统的一门新的技术科学。这一概念最早由麻省理工学院的约翰·麦卡锡在 1956 年的达特茅斯会议上提 出,随之迎来了人工智能的第一次发展浪潮(1956-1974)。这一时期的核心在于让机器具备逻辑推理能力,通过 推理与搜索尝试开发能够解决代数应用题、证明几何定理、使用英语的机器。该阶段的成果几乎无法解决实用 问题,另外实际应用中人工智能计算量的增长是惊人的,特别是模拟人类感知带来的巨大运算量远超 70 年代的 计算能力,因此人工智能经历了第一次低迷期。 人工智能第二次发展浪潮(1980-1987):专家系统开始商业化,场景局限性限制其发展。这一时期的核心 是基于“专家系统”思想,让 AI 程序能解决特定领域问题,知识库系统和知识工程成为了这一时期的主要研究 方向,专家系统能够根据该领域已有的知识或经验进行推理和判断,从而做出可以媲美人类专家的决策。典型 代表如医学专家系统 MYCIN,MYCIN 具有 450 条规则,其推导患者病情的过程与专家的推导过程类似,开处 方的准确率可以达到 69%,该水平强于初级医师,但比专业医师(准确率 80%)还是差一些。随着人们发现专 家系统具有很强的场景局限性,同时面临着升级迭代的高难度和高昂的维护费用,因而 AI 技术发展经历了第二 次低迷期。

从 1993 年开始,AI技术步入了第三次发展浪潮(1993-):深度学习引领浪潮。这一时期,计算性能上的障 碍被逐步克服,2006 年深度学习这一重要理论被提出,并解决了训练多层神经网络时的过拟合问题。2011 年以 来,深度学习算法的突破进一步加速了 AI 技术发展的第三次浪潮,标志性事件是 2012 年 ImageNet 图像识别大 赛,其深度 CNN 网络的错误率仅为 15%左右,远远好于第二名支持向量机算法的 26%,这一结果迅速点燃了 产业对神经网络和深度学习的兴趣,深度学习也快速的实现了商业化。

机器学习(ML)是人工智能(AI)的重要分支(其它核心子领域包括自然语言处理 NLP 和计算机视觉 CV 等),主要解决计算机从数据中学习拟合规律,从而实现智能预测、决策与优化这一问题。机器学习三要素分别 为数据、算法、模型,三者关系可以简单理解为数据+算法=模型,即将数据在不同算法的训练学习下,最终形 成模型,用以对外部数据进行预测。按照范式分类,机器学习可分为监督学习、无监督学习、强化学习等。

神经网络是机器学习的重要分支。但是受算力限制影响,上个世纪 50-60 年代神经网络只能处理线性分类, 因此应用领域狭窄,使得神经网络研究陷入 20 年停滞。在深度学习概念被明确提出之前,针对神经网络的研究 为后续深度学习的提出和发展完成了基础性工作。第一代神经网络从 1958 年感知机算法被提出开始,其可以对输入的多维数据进行二分类,并通过梯度下降(使网络的预测值与网络的实际/期望值之间的差异不断缩小)的 方法从训练样本中自动学习更新权值(模型进行分类的参数),由此引发了第一次神经网络研究的热潮。1969 年, Minsky 在著作中证明了感知机本质上只是线性模型,对于即使是最简单的非线性问题都无法正确分类,随后导 致了对神经网络的研究陷入了近 20 年的停滞。

上个世纪 80-90 年代神经网络具备持续优化和解决非线性能力后,开启第二代神经网络研究热潮,但由于 存在梯度消失问题,研究也逐渐冷淡。Hinton 于 1986 年提出了反向传播算法(从最后输出的神经元开始,反向 更新迭代每一个神经元的权值,计算当前数据通过神经网络后的结果与实际结果的差距,从而根据差距进行参 数优化),并采用 Sigmoid 作为激活函数进行了非线性映射,让神经网络具有了解决非线性问题的能力,由此开 启了第二代神经网络研究热潮。但后续由于神经网络缺乏相应的严格数学理论支持,甚至被指出存在梯度消失 问题(随神经网络层数增多,靠近输入层的层之间的权重无法得到有效修正),严重影响深度神经网络的训练效率 和效果,因而神经网络的第二次热潮也逐渐冷淡。这一时期中,也出现了具有革新意义的模型,如 CNN-LeNet 和 LSTM 模型,其分别在手写数字识别、序列建模两个方面取得了良好效果,但由于神经网络研究整体处于下 坡而并没有引起足够关注。

解决了梯度消失以及利用 GPU 进行神经网络训练后,计算机能处理的神经网络层数大大增加,而当神经网络层数增加到一定数量后,模型学习能力得到了质的提升,这就是深度学习,而深度学习也被认为是神经网 络的第三次研究热潮,并持续至今。2006 年 Hinton 提出了梯度消失的解决方案以及利用 GPU 进行深度学习训 练,首次提出了深度学习这一概念。2011 年,新的 ReLU 激活函数被提出,有效抑制了梯度消失的问题。2011 年,微软首次将深度学习应用在语音识别上,取得了重大突破。2012 年,Hinton 课题组参加 ImageNet 图像识别 比赛,其深度学习模型 AlexNet 夺得冠军,识别率远远超越了基于 SVM 方法的第二名。理论上的不断完善和硬 件算力(GPU)的突破共同在全世界范围内掀起了研究深度学习的热潮并持续至今。

深度学习在自然语言处理、计算机视觉领域展现出了前所未有的重要性。在自然语言处理领域中, Transformer 结构的提出是深度学习发展过程中的重要里程碑,为后续深度学习的进一步发展奠定基础。2017 年,为 NLP 下游任务中的机器翻译而提出的 Transformer 模型成为了新的重要创新。其利用多个注意力模块的 组合,让神经网络得以利用有限的资源从大量信息中快速筛选出高价值信息,不断提取并学习目标对象中更为 重要的特征,进而实现了传统卷积遍历等方法所不能实现的效率,促成了模型参数量与性能的大幅提升。

Transformer 架构最初设计用于序列转导或神经机器翻译,Transformer 擅长将输入序列转换为输出序列。 这是第一个完全依靠自关注来计算输入和输出表示的转导模型,而不使用序列对齐 RNN 或卷积。Transfor me r 架 构的核心是编码器-解码器模型。如果将 Transformer 架构简单理解成一个连接输入输出的“黑盒”,那么这个黑 盒的核心组成部分就是编码器(encoder)和解码器(decoder)。 编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理 token 的模型不同,Transformer 编码 器根据整个序列捕获每个 token 的上下文。工作基本步骤为:输入嵌入、位置编码、编码器层堆栈。解码器的作 用主要是制作文本序列。与编码器类似,解码器也配备了一组类似的子层。它具有两个 Multi-Head attention 层, 一个点前馈层,并且在每个子层之后都包含剩余连接和层归一化。

在解决了模型参数量限制的问题后,OpenAI 和 Google 基于 Transformer 分别提出了 GPT 和 BERT,提 升了诸多自然语言处理下游项目的最优性能。后续 Transformer 强大的特征提取能力被包括计算机视觉在内的其 他人工智能领域广泛采用,其核心注意力模块逐渐成为深度学习中不可或缺的部分,大幅推进了各领域人工智能算法的性能表现。后续人工智能深度学习中的大部分模型框架也都是建立在 Transformer 的基础上,包括引发 热议的 GPT-3 和 ChatGPT。而 GPT 是一个自回归模型,意味着它生成每个词时仅依赖于前文。BERT 的核心是 通过双向编码器进行训练,能够理解一个词的前后文信息而非只有前文。二者的路线差异最终导致了 GPT 成为 现行技术框架的主宰,而 BERT 渐渐淡出了这场大模型的百舸争流。至此,深度学习便从最初简单的感知机算 法,简单的神经网络,发展到目前参数量达到数千万亿的庞大而复杂的神经网络,成为当下人工智能技术、应 用、产业中的主流解决方案。

2018 年,OpenAI 团队发布 GPT-1,其核心技术逻辑是在大规模未标注数据集上预训练一个通用的语言模 型,再在特定 NLP 子任务上进行微调,从而将大模型的语言表征能力迁移至特定子任务中。其创新之处在于, 提出了一种新的预训练-微调框架,并且特别强调了生成式预训练在语言模型中的应用。生成式,指的是通过模 拟训练数据的统计特性来创造原始数据集中不存在的新样本,这使得 GPT 在文本生成方面具有显著的优势。 GPT 使用了 Transformer 的解码器部分,整体上模型结构分为三部分:输入层(将文本转换为模型可以处 理的格式,涉及分词、词嵌入、位置编码等)、隐藏层(由多个 Transformer 的解码器堆叠而成,是 GPT 的核心, 负责模型的理解、思考的过程)、输出层(基于隐藏层的最终输出生成为模型的最终预测,在 GPT 中,该过程 通常是生成下一个词元的概率分布)。在隐藏层中,最核心的两个结构分别是掩码多头自注意力层、前置反馈网 络层。

基于这一技术路线,2022 年 11 月,ChatGPT 发布,生成式人工智能(AIGC)正式进入平民时代。ChatGPT 通过对话框,利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理 系统需要大量小模型定制开发才能分别实现的能力。ChatGPT 是 AI 从专用工具向通用助手进化的里程碑,是 AI 产业从单点突破到生态爆发的里程碑,自 ChatGPT 发布后,“人工智能改变世界”正式从口号变为了现实。

针对 AGI 的远大愿景与目前人工智能领域所能触及的智能边界,OpenAI 对于 AGI 未来发展之路做出了 进一步的阶段性解读,将 AI发展划分为了五个阶段,分别为:L1-聊天机器人/Chatbots。AI 具备基本对话和交 互能力,能与用户进行流畅的对话;L2-推理者/Reasoners,AI 将能解决类似人类博士水平的复杂问题,展现强 大推理和问题解决能力;L3-智能体/Agents,AI 能独立采取行动,不仅能思考,还可以在没有人类持续监督的情 况下执行任务;L4-创新者/Innovators,AI 能协助发明创造,推动科技进步,具备创造性和创新能力;L5-组织者 /Organizations,AI 将能执行整个人类组织的工作,展现出高度的自主性和策略性。

人工智能正向智能体发展,AI发展五大阶段中,目前处于推理者与智能体的交叠时期。随着模型越来越智 能,能够使用工具的智能体会变得越来越重要。智能体将具备更高的情境感知能力和自主执行力,能够在动态 环境中整合信息,自主判断并选择合适的行动方案,从被动的任务执行者转变为能够主动规划和优化行动的综 合性系统。GPT4 系列基础模型效果不及预期,说明预训练受到 Scaling Law 限制愈发明显,仅提升参数规模、 扩大数据集对模型性能的提升边际递减。另一方面,后训练、测试时 Scaling 方兴未艾,DeepSeek-R1 等实践已 经证明,现在推理时代已经全面开启。

强化学习(Reinforcement learning, RL)是一种很重要的模型训练技术,它的基本原理可以这样理解:智能 体(也就是模型)通过和环境互动,按照人为设定的策略来行动,之后会收到相应的奖励,同时进入下一个状 态。它的最终目标,就是找到能让累计奖励尽可能最大化的最优策略。借助动态优化机制和 “试错搜索” 这种 目标导向的反馈循环,强化学习能生成高质量的推理过程,大大增强了大语言模型的推理能力。它的核心逻辑 是把人类思考时的推理过程,转化成一个可以量化的决策问题,再通过奖励函数引导模型自己去探索最优策略。 在基于强化学习的推理模型里,模型经过多轮优化迭代的过程,其实就相当于它在进行推理思考;可以说,正 是强化学习让模型具备了推理能力。

以 DeepSeek R1 为例,其采用两轮 RL+两轮 SFT(监督微调)的多阶段训练框架,每一轮训练都基于前一轮 迭代调整,成功在后训练阶段赋予了模型推理能力。第一阶段通过纯 RL(GRPO)优化推理准确性,第二阶段通 过 SFT 解决语言混合问题,再通过 RL 结合规则奖励进一步提升性能 在强化学习之外,研究者也发现了“测试时扩展(Test-time scaling)”。在大语言模型结束强化学习之后,即 使在推理阶段,通过不断延长大语言模型的推理时间,大语言模型也能够取得更加优异的推理成绩。模型预训练、后训练的强化学习、推理时的测试拓展共同组成了我们现在看到的三段式 Scaling Law。

在 AI发展的五个阶段中,我们目前处于 L2→L3,即推理式人工智能向智能体人工智能升级阶段,这两个 阶段中,强化学习均起到了至关重要的作用。业界实践已证实,让 AI 增强思考能力、提升行动能力的关键在于 强化学习。此外强化学习也已经越来越深入大模型的训练(DeepSeek-R1、阿里 QwQ)、测试(TTRL)阶段,以进一 步提升模型能力。 AI基准测试的设定原则也将随着强化学习的应用而更新,人们对人工智能能力的评价基准也或将进入通过 强化学习不断迭代升级的发展新路径。旧路径:新模型在基准测试中不断改进、催生更难的基准测试,而后诞 生新的模型,模型-基准-模型依次阶梯上升。新路径:开发针对现实世界能自我迭代的泛化基准,在迭代的基准 中提升 AI 能力,实现模型与基准的实时同步升级。

不过也应注意 RL 在一些实际场景出现技术弊端。例如奖励欺诈、过度思考等问题。RL中不完备的奖励函 数会变相鼓励模型“瞎掰”,通过最佳猜测达成最大化奖励,进而导致幻觉率提升。(例如 OpenAI o3 幻觉率为 o1 的 2 倍,被认为是 RL 奖励机制所致)另一方面,基础模型反思的能力在预训练阶段就能显现,说明推理能 力并非一定是强化学习促成。因此,RL 固然重要,但还远未达到“RL is all you need”的程度。

参考报告

人工智能行业分析:AI新纪元,砥砺开疆·智火燎原.pdf

人工智能行业分析:AI新纪元,砥砺开疆·智火燎原。自ChatGPT发布后,大模型向更强、更高效、更可靠方向发展,呈现推理模型深化、智能体模型爆发的格局。美国在探索更强大模型上保持全球领先,中国企业则在算力受限下实现高效性全球领先。2025年是应用加速落地之年,OpenAI已达百亿美金ARR,Claude月收入环比增速超20%。受互联网大厂推动AI与业务结合、Agent推出、主权AI需求及多模态渗透等因素影响,AI算力消耗从训练转向推理,带来显著增量,国内算力自主可控趋势凸显。B端应用渗透率慢于C端,落地顺序由容错率与复杂度决定,从高容错、单一任务场景到低容错、高复杂度场景尚需时间...

查看详情
相关报告
我来回答