《科学之友》
《会说话的电脑》——刘庆峰
2014-07-08 16:45:41 他让电脑巧舌如簧, 可以模仿任何人说话的声音,就连主持人张腾岳都惊呼自己被抢了饭碗;他让电脑学识广博,中文、英语甚至粤语、维语都可以信口拈来;他让电脑不但会听,而且能理解,各种问题都能对答如流,他打造了一款能听会说的巧舌电脑。
有人说他是天才, 有人说他是完人,他自己从不承认这一点,但不可否认,他有着惊人的履历:就读于中国科技大学,本科二年级即被选入国家级实验室;保送研究生后成为国家863语音合成项目的负责人,先后荣获中国科学院系统内研究生的最高荣誉——"院长奖学金特别奖"等;创业后,他带领团队研发
的语音合成技术先后获得2002年“国家科技进步二等奖”和2005年“中国信息产业重大技术发明奖”,并成为中国语音产业的领跑者……
他有着辉煌的过去,正在创造更辉煌的未来,他就是刘庆峰。
大山里飞出的金凤凰
刘庆锋的家在皖南山区的泾县,1990考到了中国科技大学,大二的时候就被我国语音大师王仁华教授选到实验室了,参加实验室的课题研究,谈到为什么王教授会选择自己,刘庆峰谦虚的说“因为那个时候,主要是在我们班的同学中挑选学习成绩比较好,同时却又学有余力,有时间、有空闲的人,所以就挑了三个学生到实验室。当时我对语音也不太理解,但是进入实验室以后我才发现,语音确实很有用,用脑子稍微想一下就会知道,语音是人类沟通和获取信息最自然便捷的手段了,所以它的意识无穷广阔。到了研究生开始,王老师就把很多人员交给我了,我基本成为国家863语音合成项目的负责人。”
在跟随我国语音大师王仁华学习语音技术的过程中,让刘庆峰逐渐了解语音并且对它产生了浓厚的兴趣。然而,20世纪90年代,我国的语音技术水平还不高,电脑说出的词语都是一个字一个字往外蹦,根本无法连续,也无法让人接受并应用,因此,我国的语音市场长期被国外公司占据,年少的刘庆峰立
志,一定要让电脑能够流利地说话,然而要做到这一点并不容易。
要想让电脑像人一样说话,首先就得让电脑学习发声,如果电脑能够模仿人发声的规律和特点,也许就能够像人一样说话。刘庆峰在老师的带领下,用计算机对人发声的整个过程进行分析和模拟,一番努力后,终于找到了规律。然而,用这种方法电脑虽然能够发出声音,却模糊不清,根本听不清楚到底说了什么,这让刘庆峰意识到,让电脑说话,不但得让它会发声,还得让它发出的声音清楚易懂。“语音是个典型的交叉学科,必须要了解实验语音学,了解汉语的韵律规则、语气语调等,所以我在1995年的时候就到语言所,跟随著名的语言学家吴宗济老先生进行学习,在那边非常艰苦的条件下,在地下室连续住了三个月,就是学习语言的基础知识。虽然感觉比较辛苦,但是其乐无穷,而且觉得其乐无穷的不光是我,还有我们Innovation characters|创新人物特别尊重的吴老先生。吴老先生当时88岁高龄,每天早晨我们七八点钟到他家去,晚上10点钟以后才走,然后过了二三个月,有一天我问他,我说吴先生你累不累啊?他说我一点不累,庆峰你累不累啊?然后指着他书房的那个猫头鹰说,我就是猫头鹰,晚上不睡觉都可以。他说我40年的成果3个月就被你学去了,但是我高兴。”谈起当时的经历,刘庆峰仍然记忆犹新。
经过语言学的学习,刘庆峰对汉语的发声和语调规律有了更深的了解,在此基础上,他和团队成员进行了大量的标记和分切工作,将每个词每个字在不同语境中的变化用参数区分开来,这样,电脑合成的声音就更加流畅和清晰,1998年,刘庆峰和
他的团队参加了国家863语音比赛,他们合成的语音首次达到了3分的标准,也就是说,电脑说的话终于达到了可以让人接受的程度,这无疑是对刘庆峰最大的肯定。然而,欣喜过后,刘庆峰却面临着一个重要的难题,他研究生的学习即将结束,未来的
路怎么走,需要他作一个果断的决定。
我是土博士,坚决不留洋
1999年以前,中文语音市场几乎全部掌握在国外公司手中,且Microsoft、IBM、Motorola等众多国际巨头都纷纷在中国设立研究院,把中文语音作为重要方向,竞争形势非常危急。刘庆峰在硕士毕业时毅然放弃了出国深造的机会,响应团中央"大学生创业"的号召,带领一批科大优秀毕业生,一边攻读博士学位一边创立了科大讯飞公司,立志要将中文语音技术在中国人自己手里全面产业化。当记者问及为何会作出这样的决定时,刘庆锋说:“当年我们的主流价值观真的是出国,可是那个时候,我们认为时不我待了,1998年我们的系统刚刚达到3.0分,但是我觉得接下来还有很多创新发展还没做完,那当时都在我的脑子中,我自己知道,再做一定会继续到3.5~4分,甚至4.5分,如果出国,这个方法没有机会实现了,在科大有10几个人帮助你一起做,出国的话呢,导师就让你给他干活,所以我觉得科大给了最好的创业环境和机制,我们可以实现自己对新技术的探索。我自认为当时我是中国做语音最有潜力的人,假如我出国加入到外企或者是国外去,那一定会超过咱们中国自己做的,我觉得出去跟我那么尊重的导师竞争,好像反而变成在一个产业中相互竞争了,所以我决定留下来,但是最终下决心留下来的时候,我和王仁华老师提了个建议,一定要有产业,而且一定要有
机制,要给我们团队。当时只有我一个人,后来我们慢慢拉了一批人创业,要有股权、期权机制,一定要这样做,王老师非常开明地让我们做,所以是这样一个过程。其实我们真的创业以后,1999年创业,2004年才盈亏平衡,熬了5年,每年都亏损,不过我现在想起来,如果说再迟5年,假如真的出国,可能今天这些成果就没有了。因为2000年以前,中国的语音市场,80%都是国外公司控制的,所以我觉得留下来还是对的。”
将语音技术产业化
放弃留洋,刘庆峰不但把自己留在了国内,也把中国最好的语音技术留在了国内。1999年,刘庆峰在攻读博士期间,在导师的支持下开始创业,逐渐将语音合成技术产业化。然而,现实却并不像他想得那么顺利,“创业做了一年不到,好不容易才把科大的团队留下。我当时是班长,我们班的同学,我的师弟们,还有科大BBS刚刚流行的时候,那时候大概1998年,科大BBS站的站长,首任黑客版版主,什么软件版的版主,八个电子计算机版主有6个人被我忽悠一起去创业,还是挺牛的。结果创
业一年又发现,什么都没干成, 为什么,因为当时创业的18个人,完全是由在校大学生组成的创业团队,即不懂怎么建渠道,又不懂怎么在电视上做广告,又没有社会服务体系,偶尔卖出一两个给社会领导干部,结果他麦克风没插好也让你上门服务一
下,显示器没插电源他说你的软件有问题,所以我们后来发现那个产品根本不适合去推广。我们不懂怎么做商业宣传,后来我们又改了,咱也不卖电脑了,也不卖电视了,我就卖芯,然后以这个概念,我们一家家上门去谈,告诉他你看我们的技术多好,到了2000年底就拿了50多个客户。”
让中国语音产业顶天立地
创业初期的失利,让刘庆峰意识到,要将实验室的成果转变成日常生活中应用的产品,并不像他想象中那么容易,于是,刘庆峰转变思路,根据用户的需求和自身的长处,把创业方向转变为提供最核心的软件支持,为电信、银行、车载导航等客户
开发语音客服系统。随着用户数量的增多,刘庆峰的语音数据库越来越大,语音识别的准确率取得了大跨步的提高。
如今,刘庆峰不仅能让计算机会讲话,而且讲话水平也越来越高。如果把播音员的语音水平打5分的话,他开发的语音软件现在已经可以做到4.5分,而一般普通人的平均语音水平只能达到4.0分。2003年2月,这项技术获得中文语音研究领域迄今
唯一的“国家科技进步奖”。2 0 0 4 年底, 在国家科技部8 6 3 项目组织的新一轮汉语语音合成国际评测中,在包含有日本A T R、清华大学等国际知名研究机构参加的权威评比中,刘庆峰及其团队参评的语音合成系统——INTERPHONIC系统再次大比分囊括了所有评测指标第一名。这一成果,标志着科大讯飞继续保持了1994年以来的历次中文语音合成国际国内权威机构
评比中的第一名成绩。同时,刘庆峰在多语种合成上也取得突破进展,英文合成技术现已达到国际领先水平。2006年、2007年,蝉联荣获国际英文合成大赛第一名。
此外,在国家教育部语信司、国家语委科研攻关项目支持下,在普通话评测技术方面又取得了重大突破。2005年底,刘庆峰及团队开发的“面向网络和嵌入式环境智能语音合成技术”荣获我国信息产业界最高荣誉—信息产业重大技术发明奖。这是我
国智能语音产业首次获此殊荣,也标志着我国中文智能语音技术迈上一个崭新台阶。
在谈到为什么要把“顶天立地”作为口号时,刘庆峰说:“这是863的口号,我们借用了。顶天的核心就是国际顶天,立地就是大规模产业化。因为客观上这两个一定是在新的时代,尤其是“十一五”强调创业,“十二五”转变经济发展更是需要这样,
你没有产业化立地的基础,就不可能有那么多资金,有那么好的机制把最优秀的人才吸引过来。原来我们在实验室一年招两三个年轻人都不错了,现在一年有几百位优秀毕业生被招到我们的研究团队来。你一定要国际领先,产业才有竞争力。”
2000年以前,在中国语音产业内有一句流传很广的话:要想了解中国语音产业未来五年发展的前景,那就看美国;未来两年就要看日本;未来一年就要看台湾。这句话精辟地概括出了当时中国大陆语音产业的发展落后于世界发达国家和地区的状况,中国大陆语音技术应用的水平和实际市场应用与美国的差距在5年以上!不仅如此,2000年以前中文语音应用几乎全部为国外公司所垄断。微软、IBM、Motorola等均在华设立专门语音研究基地。
然而,令人惊喜的是,短短几年之后,中国语音技术应用和市场应用水平已经追上,甚至赶超了世界先进水平。更令人振奋的是,中国语音产业的格局发生了翻天覆地的变化,超过80%的市场份额已经回到了中国人自己的手中。这与中国科技界、特别是IT界常常感慨核心技术掌握在外国人手中的情况形成了鲜明的对比。这不仅是中国语音界的骄傲,更是中华民族的骄傲。
从1999年至今,刘庆峰举起中国语音产业的大旗,在短短十几年的时间里,让中国的语音合成技术与应用已经追上,甚至赶超了世界先进水平。刘庆峰带领团队通过技术创新,将最前沿的科技应用到人们的日常生活中,先后获得国家科技进步二等奖等诸多奖项,我们希望刘庆峰的语音技术让电脑更加能言善道,希望会说话的电脑能给我们的生活带来更多美好与便利。