深圳科技网  >  新闻 > 正文

聆听世界,让心意相通

童话故事里,阿里巴巴用“芝麻开门”的口令获取了宝藏;科幻电影里,主人公用几个字操控了汽车......一句话,到底隐含了多少未知的奥秘?用声音做钥匙又是如何炼成的?本期节目邀请到了北京得意音通技术有限责任公司的董事长——郑方先生,跟随他的讲述一起走进声音的世界。

11.2.jpg

人脸识别,指纹识别,虹膜识别是目前大众所熟知的生物特征识别方式。那声纹识别和这些识别方式相比,它的优势是什么呢?郑方科普道:“在所有生物特征里,声纹是唯一兼具生理特性的行为特征,可以做到高可变性与唯一性的完美统一,这就使得声纹天然就具备了不易丢失、不怕泄露属性以及很强的防攻击能力和不惧遮挡的特点。不仅如此,声音还具有‘形简意丰’的特点。它虽然只是简单的一维信号,却蕴含着丰富的信息,例如内容、语种、性别、情绪等。将这些信息提取出来分别组合,便可以满足适应各种复杂情况、更高等级的安全认证需求。”

围绕语音信号“形简意丰”的独有特性,融合包括声纹识别、语音识别、活体检测、情感识别和防声纹时变等技术,北京得意音通技术有限责任公司研发了“声纹+”多维技术融合的可信身份认证技术方案,多技术的融合,使得声纹特征更加深层、难以篡改、伪造困难,可有效防范假体攻击行为,确保身份认证强度更高、更安全,交互更方便、优雅。

例如,得意音通与中国建设银行联合推出了“一句话解决所有问题”的服务。当用户发起转账指令时,只需说一句话,“给某人转账XX元。”产品即可在自动识别和理解语音命令的同时进行声纹身份认证,为用户省去了输入密码的操作步骤。别看只有短短的几个字的指令,背后却蕴含着多重技术的保证。首先,要进行用户身份认证,确认说话人是用户本人;接着要做语音识别和语义理解,分析出目标用户名、转账金额等信息,这里的语义理解不能是传统的、基于统计方法的,因为其对没有见过的句式的“不知道自己不知道”的特点是很危险的,唯有具有“知道自己不知道”能力的语义理解方法才能完成任务;除此之外,还需要进行数据关联分析和操作,才能最终得到目标户名、开户银行、开户账号等;最后,还要有情感识别,判断用户的真实意图。看似轻松优雅的一句话,背后有这么多种算法协同工作才可以执行完用户的指令,郑方描述为“把繁杂交给算法,把优雅留给用户”。

11.2.2.jpg

古人语:天地之功不可仓卒,艰难之业当累日月。在这个行业里,郑方深耕三十年。站到云端做规划,低到尘埃做产品,是对他最好的描述。郑方提到大学期间,导师时常教诲一定要学以致用。这简单的四个字——“学以致用”,郑方用了整整三十年,把产品从实验室送到了大众身边。

返回顶部