语音识别技术,也被称为自动语音识别(automatic speech recognition,asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别一般来说具有两种工作模式:识别模式和命令模式。语音识别程序的实现也会根据两种模式的不同而采用不同类型的程序。识别模式的工作原理是:引擎系统在后台直接给出一个词库和识别模板库,任何系统都不需要再进一 步对识别语法进行改动,只需要根据识别引擎提供的主程序源代码进行改写就可以了。命令模式相对来说实现起来比较困难,词典必须要由程序员自己编写,然后再进行编程,最后还要根据语音词典进行处理和更正。识别模式与命令模式最大的不同就是,程序员要根据词典内容进行代码的核对与修改。  2019年8月17日,北京互联网法院发布《互联网技术司法应用白皮书》,该《白皮书》阐述了十大典型技术应用,其中包括语音识别技术。

中文名

语音识别技术

外文名

speech recognition technology

涉及领域

号处理、模式识别、信息论等

优 势

人机用户界面更加自然和容易使用

语音识别技术

随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科拄发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。  

语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。   语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。语音识别asr的最大优势在于使得人机用户界面更加自然和容易使用。  

国外研究

从开始研究语音识别技术至今,语音识别技术的发展已经有半个多世纪的历史。语音识别技术研究的开端,是davis等人研究的audry系统,它是当时第一个可以获取几个英文字母的系统。到了20世纪60年代,伴随计算机技术的发展,语音识别技术也得以进步,动态规划和线性预测分析技术解决了语音识别中最为重要的问题——语音信号产生的模型问题;70年代,语音识别技术有了重大突破,动态时间规整技术(dtw)基本成熟,使语音变得可以等长,另外,矢量量化(vq)和隐马尔科夫模型理论(hmm)也不断完善,为之后语音识别的发展做了铺垫;80年代对语音识别的研究更为彻底,各种语音识别算法被提出,其中的突出成就包括hmm模型人工神经网络(ann);进入90年代后,语音识别技术开始应用于全球市场,许多著名科技互联网公司, 如ibm,apple等,都为语音识别技术的开发和研究投入巨资;到了 21 世纪,语音识别技术研究重点转变为即兴口语和自然对话以及多种语种的同声翻译。  

中国研究

中国关于语音识别技术的研究与探索从20 世纪80 年代开始,取得了许多成果并且发展飞速。例如:清华大学研发的语音识别技术以1183 个单音节作为识别基元,并对其音节进行分解,最后进行识别,使三字词和四字词的准确率高达98%;中科院采用连续密度的hmm,整个系统的识别率达到89.5%,声调和词语的识别率分别是 99.5%和95%。目 前,中国的语音识别技术已经和国际上的超级大国实力相当, 其综合错误率可控制在10%以内。  

清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。

中科院自动化所及其所属模式科技(pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——pattekasr,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

2018年,科大讯飞提出深度全序列卷积神经网络(dfcnn),使用大量的卷积直接对整句语音信号进行建模。同年,阿里提出lfr-dfsmn模型,将低帧率算法和dfsmn算法进行融合,语音识别错误率相比上一代技术降低20%,解码速度提升3倍。2019年,百度提出了流式多级的截断注意力模型smlta,该模型在lstm和ctc的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。在线语音识别率上,该模型比百度上一代deeppeak2模型提升相对15%的性能。   2021年,科大讯飞提出“语音识别方法及系统”专利,通过“静态 动态”网络空间实时融合路径解码寻优算法解决了面向多领域、多用户、多场景下识别效果差、反应速度慢、系统构建时间长等技术问题,显著地提升了语音识别效果。  

语音识别是涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的交叉学科,具有广阔的应用前景,如语音检索、命令控制、自动客户服务、机器自动翻译等。当今信息社会的高速发展迫切需要性能优越的,能满足各种不同需求的自动语音识别技术。但是,这样的目标面临着诸多困难,如:①语音信号会受 到上下文的影响而发生变化;②发音人以及口音的不同会导致语音特征在参数空间分布的不同;③同一发音人心理和生理变化带来的语音变化;④不同的发音方式和习惯引起的省略、连读等多变的语音现象;⑤环境和信道等因素造成的语音信号失真问题。  

对于自动语音识别的探索,实际是早于计算机的出现的,早期的声码器可以看作是语音合成和识别技术的雏形,20世纪20年代出现的“radio rex”玩具狗也许是人类历史上最早的语音识别机。现代自动语音识别技术可以追溯到上世纪50年代贝尔实验室的 研究员使用模拟元器件,提取分析元音的共振峰信息,实现了十个英文孤立数字的识别功能。到了50年代末,统计语法的概念被伦敦大学学院的研究者首次加入到语音识别中(fry,1959),具有识别辅音和元音音素功能的识别器问世。在同一时期,用于特定环境中面向非特定人10个元音的音紊识别器也在麻省理工大学的林肯实验室被研制出来。概率在不确定性数据管理中扮演重要角色,但多重概率的出现也极大的加大了数据处理的繁杂度。  

声学特征提取

模拟的语音信号进行采样得到波形数据之后,首先要输入到特征提取模块,提取出合适的声学特征参数供后续声学模型训练使用。好的声学特征应当考虑以下三个方面 的因素。第一,应当具有比较优秀的区分特性.以使声学模型不同的建模单元可以方便准确的建模。其次,特征提取也可以认为是语音信息的压缩编码过程,既需要将信道、说话人的因素消除保留与内容相关的信息,又需要在不损失过多有用信息的情况下使用尽量低的参数维度,便于高效准确的进行模型的训练。最后,需要考虑鲁棒性,即对环境噪声的抗干扰能力。  

声学模型

如今主流语音识别系统都采用隐马尔科夫模型(hmm)作为声学模型,这是因为hmm具有很多优良特性。hmm模型的状态跳转模型很适合人类语音的短时平稳特性,可以对不断产生的观测值(语音信号)进行方便的统计建模;与hnn相伴生的动态规划算法可以有效地实现对可变长度的时间序列进行分段和分类的功能;hmm的应用范围广泛。只要选择不同的生成概率密度,离散分布或者连续分布,都可以使用hnm进行建模。hmm以及与之相关的技术在语音识别系统中处于最核心的地位。自从hmm的理论被提出以来(baum and easo,1967),它在语音信号处理及相关领域的应用范围变得越来越广泛,在语音识别领域起到核心角色的作用,它还广泛活跃精音的参数合成、语言理解、 机器翻译等其他领域。  

以汉语为例:

汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。

汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,复元音13个,复鼻尾音16个。

目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。

基于统计的语音识别模型常用的就是hmm模型λ(n,m,π,a,b),涉及到hmm模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

语言模型与语言处理

语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。

语音识别技术常用的方法有如下四种:1. 基于语言学和 声学的方法,2. 随机模型法,3. 利用人工神经网络的方法,4. 概率语法分析。其中最主流的方法是随机模型法。  

基于语言学和声学的方法

基于语言学和声学的方法是最早应用于语音识别的方法,但是这种方法涉及的知识太过于困难,导致现在并没有得到大规模普及。  

随机模型法

随机模型法目前应用较为成熟,该方法主要采用提取特征、训练模板、对模板进行分类及对模板进行判断的步骤来对语音进行识别。该方法涉及到的技术一般有3种:动态时间规整(dtw),隐马尔科夫模型(hmm)理论和矢量量化(vq )技术。其中,hmm 算法相较于其他两者的优点是简便优质, 在语音识别性能方面更为优异。也正因为如此,如今大部分语音识别系统都在使用hmm算法。  

神经网络的方法

(ann)神经网络方法是在语音识别发展的后期才有的一种新的识别方法。它其实是一种模拟人类神经活动的方法,同时具有人的一些特性,如自动适应和自主学习。其较强的归类能力和映射能力在语音识别技术中具有很高的利用价值。业界将 ann 与传统的方法进行结合,各取所长,使得语音识别的效率得到了显著的提升。  

概率语法分析法

概率语法分析法是一种能够识别大长度语段的技术,主要是为了完成“区别语言的特征”,对于不同层次的知识利用相应层次的知识来解决。这种方法最大的不足就是,建立一个有效、适宜的适用知识系统存在着一定的困难。  

语音识别的工作模式

语音识别一般来说具有两种工作模式:识别模式和命令模式。语音识别程序的实现也会根据两种模式的不同而采用不同类型的程序。识别模式的工作原理是:引擎系统在后台直接给出一个词库和识别模板库,任何系统都不需要再进一 步对识别语法进行改动,只需要根据识别引擎提供的主程序源代码进行改写就可以了。命令模式相对来说实现起来比较困难,词典必须要由程序员自己编写,然后再进行编程,最后还要根据语音词典进行处理和更正。识别模式与命令模式最大的不同就是,程序员要根据词典内容进行代码的核对与修改。  

语音识别环境设置

一般语音识别程序的环境设置步骤包括cti服务器硬件默认参数采集与设定,识别硬件采集卡初始化,引擎端口设置等几个部分。  

1、cti 服务器设置。

应用程序的所有工作都是根据cti技术(computer telephone integration)来工作的, 语音硬件平台默认设定 cti 服务器。

2、语音采集系统的初始化。

语音识别的平台会通过判断是否已经输入语音来进行工作,那么获得语音就需要语音采集系统了。为了采集和输出,我们一般采用语音卡作为工具。工作时,打开语音卡内自带的板卡,然后在程序中加入参数就可以运行了。  

3、引擎端口设置。语音开发平台已对硬件api接口函数进行提供, 因此只需对函数进行调用和赋值即可。 4.

语音字典的编译

语音字典的设置包括语法、识别语音的规则、语音模板制作等内容,根据语音平台的规则来进行。在语音字典设置时,首先要设置语音识别核心包,再根据自己编译的语音的规则来完成字典的全部设置。  

编制识别主程序

在编译语音识别程序的最后阶段,程序员需要为主程序编写gui((graphical user interface) 界面,以便于用户与计算机进行交互操作。  

语音识别系统可以根据对输入语音的限制加以分类。

从说话者与识别系统的相关性考虑

可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

从说话的方式考虑

也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

从识别系统的词汇量大小考虑

也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

就算法模型方面而言

需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。

就自适应方面而言

语音识别技术也有待进一步改进。目前,象ibm的viavoice和asiaworks的spk都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一二个百分点识别率更重要。事实上,viavoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。

就强健性方面而言

语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(noisecancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。

此外,带宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。语音识别技术要进一步应用,就必须在强健性方面有大的突破。  

多语言混合识别以及无限词汇识别方面

简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如“信噪比"等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。  

多语种交流系统的应用

最终,语音识别是要进一步拓展我们的交流空间,让我们能更加自由地面对这个世界。可以想见,如果语音识别技术在上述几个方面确实取得了突破性进展,那么多语种交流系统的出现就是顺理成章的事情,这将是语音识技术、机器翻译技术以及语音合成技术的完美结合,而如果硬件技术的发展能将这些算法进而固化到更为细小的芯片,比如手持移动设备上,那么个人就可以带着这种设备周游世界而无需担心任何交流的困难,你说出你想表达的意思,手持设备同时识别并将它翻译成对方的语言,然后合成并发送出去;同时接听对方的语言,识别并翻译成已方的语言,合成后朗读给你听,所有这一切几乎都是同时进行的,只是机器充当着主角。

任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间,以使我们获得更大的自由,就服务于人类而言,这一点显然也是语音识别技术的发展方向,而为了达成这一点,它还需要在上述几个方面取得突破性进展,最终,多语种自由交流系统将带给我们全新的生活空间。  

比尔盖茨曾说过:“语音技术将使计算机丢下鼠标键盘”。 随着计算机的小型化,键盘鼠标已经成为了计算机发展的一大阻碍。人类的计算机从超大体积发展到现在占地不到1平方米的微型计算机,想必未来的计算机可能会有意想不到的小,那么键盘鼠标对其来说就是障碍了,这时候就需要语音识别来完成命令。一些科学家也说过:“计算机的下一代革命就是从图形界面到语音用户接口”。这表明了语音识别技术的发展无疑改变了人们的生活。在某些领域,电话正在逐渐地演变成一个服务者而非简单的对话工具,通过电话,人们也可以使用语音来获取自己想获得的信息,其工作效率也自然而然提高了一个档次。  

语音识别技术渐渐地变成了人机接口的关键一步,这样一个极具竞争性的新兴产业,其市场的发展更是十分迅速, 发展趋势也在逐步上升。从1999到2005年间,语音识别技术市场正在以每年31%的趋势增长,如今在 iphone等智能 手机中,语音助手已经成为了标配功能,为用户带来了许多的便利,人们也可以通过电话和网络来订购机票火车票,甚至是旅游服务。因此,语音识别技术在我们实际生活中也有着越来越广阔的发展前景和应用领域。  

在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。  

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。  

可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。