智能语音技术发展历史介绍

智能语音技术发展历史介绍

最佳答案 匿名用户编辑于2023/06/14 13:10

对语音技术的研究可追溯至上世纪 50 年代。

受限于计算机能力和信号处理技术水平,早期 学者们对语音技术的研究主要聚焦在声学语音学方面,开发的识别系统可用来识别通过模拟装 置产生的在频谱上具有共振峰特性的不同元音。1952 年贝尔实验室研发出第一个特定人数字识 别系统 Audery,该系统可以识别英文发音的 10 个阿拉伯数字 0~9,对熟人发音的识别准确率达 到 90%以上,对陌生人则偏低。1962 年 IBM 推出 Shoebox 系统,可以识别和理解 16 个英文单 词,以及对 10 个数字进行加减运算的语音指令。1972 年,CMU 发布了针对孤立词语以及简单 句式的语音识别系统 Harpy,该系统能够识别 1011 个单词,使大词汇量、孤立词识别取得突破 性进展。同期语音端点检测的概念和方法也被提出,进一步提升了语音识别的能力。随着线性预 测编码和动态规划技术的发展,语音信号建模问题和时序匹配问题得到了更好的解决,建模思路 也开始从传统的基于模板匹配的方法发展为基于概率统计的方法,从而将语音识别从孤立词识 别阶段推进到连续语音识别阶段。进入二十世纪 80 年代,隐马尔可夫模型(HMM,Hidden Markov Model)被用来建模短时平稳的语音信号的动态特性,解决连续语音识别问题。1988 年第一个非 特定人、大词汇量、连续语音识别系统 SPHINX 问世,可支持近 1000 个词汇。进入 90 年代, GMM-HMM(GMM,Gaussian Mixture Model)成为语音识别的主流框架,语音识别水平也在逐 渐提升,实现了超过上万词汇量的大词表连续语音识别系统(LVCSR,Large Vocabulary Continuous Speech Recognition)。然而,受限于训练语料规模、模型建模能力以及计算机水平, 这一时期技术水平只能支持简单的产品形态,未达到支持大规模商用的成熟度。

2006 年基于深度学习理论的建模方法在机器学习任务被成功应用。深度神经网络(DNN, Deep Neural Network)通过多层非线性结构将输入特征转换为更加抽象的高层表示,具有更强的特征表达能力和建模能力。2009 年 DNN 成功取代 GMM 对语音信号进行特征变换和状态预 测,DNN-HMM 的混合框架也成为语音识别的主力架构,将语音识别性能相对提升 30%,取得突 破性进展。随后语音识别技术更加快速地发展起来,卷积神经网络(CNN,Convolutional Neural Network)被用来提取更精细和更鲁邦的特征表示,长短时记忆网络(LSTM,Long-short Term Memory)用于建模长时时序动态相关性,说话人自适应声学模型和鉴别性训练等技术都使得系 统性能持续提升。到 2017 年微软公布 Switchboard 任务错误率达到 5.1%,与人类识别水平相当。 DNN 除在语音识别领域取得成功外,也为其他语音处理技术带来了突破,如声纹识别、语种识 别、音频分类等都可以利用深度神经网络的特征表达能力将不定长的帧级输入转为固定维度的 深度嵌入向量特征(Deep Embedding),再针对目标任务进行分类和判别。这些分析语音中除语 义内容以外其他信息的任务被统称为副语言语音属性识别,可以采用统一的 Deep Embedding 框 架,相比传统的统计建模方法有显著优势。技术瓶颈的突破为智能语音行业带来了快速迭代升级, HMM-Hybrid 框架已经在很多语音产品和行业中落地商用。

近年来端到端语音识别系统(End-to-end ASR)快速发展起来。端到端的语音识别框架直接 建立语音和输出的字母或音素之间的映射关系,将声学模型、语言模型和发音模型以统一的目标 容纳到一个整体中,与传统 Hybrid 框架相比简化了建模过程。目前主流的端到端模型主要包括 CTC(Connectionist Temporal Classification)、RNN-Transducer以及基于注意力机制的LAS(Listen, Attend and Spell)等。单从语音识别的性能来看,End-to-end ASR 已经逐渐赶超 Hybrid 框架, 表现出更强的鲁棒性。相信随着在实际复杂场景的应用中不断进行打磨,端到端语音识别系统的 应用成熟度会越来越高,并进一步推动语音产业的发展。

语音识别是让机器听懂人说话,而语音合成是为了让机器更准确、更自然地表达。语音合成 的历史可以追溯到 17 世纪法国人研发的机械式说话装置。在 19 世纪开始研究电子语音合成技 术,语音合成技术得到了飞速发展。1939 年贝尔实验室利用共振峰原理制作出第一个电子式语音合成器 VODER0,1960 年瑞典语言学家 G. Fant 阐述了语音产生的理论,极大地推动了语音合 成技术的发展。1980 年 E. Moulines 和 F.Charpentier 提出了 PSOLA(Pitch Synchronous Overlap Add)[3] 算法,使得合成语音更加自然。

19 世纪 90 年代,语音合成商用系统还是以单元挑选与波形拼接的方法为主,基于大语料 库,从预先录制和标注好的音频库中选择合适的语音片段进行拼接,得到最终合成的声音[4] 。 这种方法可以保持较高的语音质量,但无法保证领域外文本的合成效果,并且很难在移动设备上 离线部署。

20 世纪末,基于统计建模和机器学习的语音合成技术被提出。语音合成的技术框架在此时 已基本形成,由文本前端、声学模型、声码器三部分组成。文本前端负责将输入的待合成文本转 换成较为复杂的语言学特征;声学模型负责将语言学特征映射为声学参数特征;声码器负责将声 学参数特征重建为最终的时域波形。这种方法可以利用较少的语音数据快速地构建出语音合成 系统,且不受语料库限制,支持离线部署和嵌入式设备等多样化语音合成的需求。但该方法所需 的语言学特征较为复杂,且由于生成的声学特征参数过于平滑等问题,合成语音的自然度仍然有 待提升。

进入 21 世纪,随着深度学习的飞速发展,基于统计建模的语音合成技术逐渐被深度神经网 络所取代。基于深度学习的语音合成技术将声学模型输入所需的复杂语言学特征简化为包含韵 律信息的拼音/音素序列,甚至可以直接将文本作为输入。得益于深度神经网络强大的建模能力, 语音合成的质量和自然度有了大幅提升,有些情况下甚至难以分辨是合成语音还是真实语音。

在人机交互中,除了语音识别和语音合成,为了让机器“听清”复杂场景下的语音信号,前 端信号处理技术也是非常重要的部分。前端信号处理就是利用数字信号处理技术对语音信号进 行一系列处理,以实现存储、传输,增强等目的。根据要解决的问题,可以分为多个方向,包括 语音活动检测、回声消除、噪声抑制、波束形成、声源定位、去混响和语音分离等。上个世纪,随着数字信号处理技术的发展,语音前端信号处理的各个方向都有相应的经典算法提出。

语音活动检测最早的方法是基于语音能量,后续又有各种效果更好的特征被提出,一些经典 的算法也被国际标准所采用,例如国际电信联盟电信标准分局(International Telecommunication Union, ITU-T)的 G.729B、第三代合作伙伴计划(The Third Generation Partner Project, 3GPP)的自 适应多速率编码(Adaptive Multi-Rate, AMR)等。这些方法通过提取特征,并与阈值比较来实现语 音或非语音的判断。由于在复杂噪声环境下,这些方法可能性能会下降,有研究提出基于隐马尔 可夫模型(Hidden Markov Model, HMM)的方法。近些年来,神经网络在语音活动检测发现得到 广泛应用,获得了优异的性能,同时具有良好的噪声鲁棒性。

由于早期电话应用使用低延时的模拟技术并且通讯距离普遍较短,回声消除问题在当时并 不明显。20 世纪中叶以后,由于卫星系统发展,需要解决遇到的回声消除问题。一种方法是使 用切换的方式来隔断回音信号,这种方法虽然有效,但会导致交谈不自然。上个世纪六十年代以 前,普遍采用一种叫回声抑制器的方法来实现回声消除,其原理是对回声进行一定程度衰减从而 提高通信质量,但是只适用于时间延迟很小的场景。而随着卫星通信和 IP 电话的发展,传输时 延有可能超过 100--300ms,回声抑制器在这种情况下不再有效,因此需要对回声消除技术进行 更多的研究。在众多方法中,基于自适应滤波器的回声消除技术表现良好,逐渐成为主流方向。 20 世纪 80 年代以来,国际电联 ITU 先后制定了消除线路回声的 G165(Echo Canceller),消除音 频终端回声的 G167(Acoustic Echo Canceller)及消除数字网络回波的 G 168(Digital Network Echo Canceller)等国际标准。近些年,基于神经网络的回声消除方法不断被提出,获得了优于传统方法 的性能。

噪声抑制的研究始于 20 世纪 70 年代。1978 年,Lim 和 Oppenheim 提出了基于维纳滤波的 方法。1979 年,Boll 提出了谱减法来抑制噪声。1980 年,Maulay 和 Malpass 提出了软判决噪声 抑制的方法。1984 年,Ephraim 和 Malah 提出了基于 MMSE 短时谱幅度估计的方法。1987 年,Paliwal 把卡尔曼滤波引入到语音增强领域。在多年的研究中,越来越多的方法不断被提出。近些 年,基于神经网络的方法能够实现对稳态和非稳态噪声很好的抑制,同时能够做到对语音的失真 影响极小。

波束形成最基本的方法是延迟求和技术。1969 年,Capon 提出了最小方差无失真响应 (Minimum Variance Distortionless Response, MVDR)波束形成算法,是目前应用广泛的自适应波 束形成方法之一。1972 年,Frost 提出了线性约束最小方差(Linearly Constrained Minimum Variance, LCMV)波束形成器,它实际上是 MVDR 的扩展。1982 年 Griffiths 提出了广义旁瓣相消 器,避免了 LCMV 推导过程中的约束条件。神经网络技术近年来也被应用于波束形成中,通过神 经,实现对信号统计量更准确的估计,从而获得更好的性能。

声源定位的常用算法是 1976 年 Knapp 提出了广义互相关方法,利用声音时间差和阵列的几 何结构计算声源方位。1979 年 Schmidt 等人提出了多重信号分类方法,对方位的估计具有很高 的分辨率,同时对麦克风阵列的阵型没有要求。此外也有学者提出了可控波束响应的方法,基于 不同方向上的波束形成后的功率谱实现定位。

波束形成方法也可用于去混响,但目前常用的方法主要是基于逆滤波的方法。2010 年 Nakatani 提出的加权预测误差算法,能够实现良好的去混响效果。而后的研究借助神经网络对其 进行改进,通过神经网络更准确地估计信号统计量,实现了更好的效果。除了通过神经网络估计 信号统计量,也有越来越多的研究尝试直接从混响语音中估计直达语音来实现去混响。

语音分离的经典方法是独立成分分析,在此基础上,又发展出多种新方法,例如独立向量分 析等。近些年,基于神经网络的语音分离方法的性能能够很好地将多个说话人的语音分离开来, 而通过引入说话人的信息,能够实现针对特定用户的语音分离,效果进一步得到提升。 随着多年的发展,不断有新的前端信号处理技术被提出,这些技术将不断为语音系统中的后 续模块,例如语音识别、语音通信等提供越来越好的使用体验。

参考报告

智能语音行业技术白皮书.pdf

智能语音行业技术白皮书。语音是指人类通过发音系统,包括肺部、气管、喉部声门和声带、咽腔、口腔、鼻腔等,发出的在空气中传播的、具有一定意义的声音,是语言的声音形式,是人人交流中最主要的信息载体。另外,通过让机器能听会说,语音也成为人机交互的重要入口。语音技术一般包括传输、存储、识别、合成、增强等方面,智能语音技术的研发主要聚焦于语音的识别理解、合成输出和声音增强。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段。对智能语音技术的研究可追溯到上个世纪50年代,在经历了萌芽期、起步期、变革期后,目前正在进入发展高峰期。由智能语音技术驱动的语音用户界面已成为键盘鼠标、触摸...

查看详情
相关报告
我来回答