登录 注册 论坛
《科学大众》

《科学大众》

开博时间:2016-07-01 14:43:00

创办于1937年,是我国创刊最早、影响最大的科普刊物之一。现由江苏省科技厅主管、江苏省科协主办。70多...

文章数383
当前位置:
主题站>名刊精选>《科学大众》>详情页

让机器听懂你说话

2014-10-21 10:35:19

让机器听懂你说话

□文/柠檬夸克

 

29368

让机器听懂你说话,可不像你想的那么简单

 

科幻电影中,机器人与人类成为伙伴的例子比比皆是。无论是《终结者》中的阿诺,还是《变形金刚》中的擎天柱,当机器人与人类共同生活的时候,就不可避免地要互相交流。也就是说,机器人说的话,我们人类能听懂,人类说的话,机器人也能听懂。你有没有想过,以我们现在的技术,能做到这一点吗?机器又在怎样一步步学习听懂人类的话呢?

 

最早的语音识别系统很挑剔

我们知道,要想让机器发出声音,是比较简单的,只要将电信号转化为声音信号就可以,收音机、CD机、电视都是这么工作的。可是想让机器听懂我们说出的话,就不那么容易了,这要涉及一项很重要的技术——语音识别技术。

 

29369

这就是声音的波形,每一个波形密集的区域,代表一个音节

 

简单地说,语音识别技术就是让计算机能够识别接收到的声音信号,并把信号转变为文字或者可执行指令的技术。也许你觉得这好像并不是很难,先把声音信号转换为电信号输入计算机,再让计算机把电信号转化为文字或命令,不就可以了吗?可是不要忘了,每个人说话的声音都是不一样的,他们的音调、口音、用词习惯都不相同,可以说,每个人都有一套自己的声音信号。要想让一台计算机识别所有人的声音信号,这几乎是一件不可能完成的工作。

世界上最早的语音识别系统,被安装在了一种名为“Radio Rex”的玩具狗上。这种玩具狗生产于上个世纪20年代。设计师的想法是,当人们呼唤这只狗的名字时,它就可以从底座上一跃而起。这样的狗狗多讨喜啊!然而这个语音识别系统的识别率极低,对于大部分人的呼唤,它没有任何反应,只有极少数字正腔圆的呼唤,才能让这只挑剔的狗跳起来。

随后,美国的贝尔实验室开发出了一套能够识别10个音节的语音系统。它的工作原理十分简单,当系统接收到一段语音信号时,首先,它会把这段信号转换成电信号,并将电信号拆分为很多段,每一段对应语音中的一个单词;接着,系统将这些代表单词的电信号与系统内置的语音词典进行比对,根据比对结果,将电信号转换为文字;最后,再将这些文字合成为一句话,从而完成对语音的识别。

这下,是不是看起来简单可行了?如果你认为是,那我先讲个笑话给你听———话说在寻呼机时代,一位男士本想给妻子的寻呼机留言说:我已到家乐福,在门口等你。可呼台小姐给打成:我已到家了,伏在门口等你。

人都会犯这样的断句错误,何况机器!韩愈的《师说》里说:句读之不知,惑之不解。意思是,如果你不知道一句话该怎么断句,就无法解开心中的疑惑。对于要去识别语言的机器来说,断句之不能,错之必出

 

机器怎样一步步学会了听话

这个问题对于中文来说,还好一点。因为中文以汉字为基本单元,很好拆分,可是对于英文等外文来说,大部分词都是多音节的,如何正确地拆分更加令人头疼。

一个很有用的数学工具——隐式马尔科夫模型(HMM)帮助科学家解决了这一问题。隐式马尔科夫模型采用概率论的方法,通过大量的计算,可以找到比较合理的拆分单词的方法。

单词拆分以后,就需要将其和系统中的语音词典进行比对。在这个过程中,无疑英文是有优势的,因为它的同音词比较少。而我们中文里有大量的同音字,同一个发音,到底要对应哪一个字呢?这显然不仅仅是声音信号分析的问题了。

为了解决这一问题,科学家们在声音信号分析的基础上,开始引入知识分析的方法,也就是利用语言的构词方式、句法、语义、对话背景等来帮助进行语音识别,并且对识别出来的语音进行纠错和校对。

尽管如此,由于音调、口音的差别,语音识别的准确率仍然不够高。为了提高识别的准确率,很多系统都增加了学习的功能。所谓学习功能,指的是当系统接收到一段不能识别的语音信号的时候,会将说话者的声音和说话者手动给出的识别结果存储在语音词典中,从而总结出说话者的发音习惯,提高识别的准确率。

这样做的好处在于,当系统学习了足够多的语音的时候,它的识别准确率会大大提高。而它的不足之处也是十分明显的,就是一个语音系统只能学习一个人的语音。如果让它学习多个人的语音,就会对它的学习系统造成混乱。

 

字正腔圆仍是基本要求

随着科学技术的发展,科学家们在不断地优化语音识别的程序,丰富语音词典的内容,使得语音识别的准确率越来越高。

进入21世纪以来,语音识别技术已经相当成熟,识别率很高。我们手机上的语音识别软件,可以让我们打电话时根本不用拨号,直接对着电话大叫老妈张哥“Hellen”……手机就会听懂你的话,立刻帮你拨通那个人的电话。

随着语音识别技术的成熟,语音对话机器人、语音助手、语音记录等软件和应用也层出不穷。不过即使在现在,你使用语音软件的时候,字正腔圆仍然是基本要求。因为系统的识别能力仍然有限,希望在不久的将来,语音识别技术能够真正改变我们的生活。