语音识别有什么问题?
⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。
⒉语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。
⒊语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。
⒋单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。
⒌环境噪声和干扰对语音识别有严重影响,致使识别率低。
中兴能否靠语音识别改变颓势?
在有了上述的技术基础之后,接下来我们看一看语音识别的应用以及发展:
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。说到这些应用方向,我们首先会想到Apple的Siri。伴随着iPhone4S的发布,Siri首次出现在人们的视野里,Siri作为一款内建在苹果iOS系统中的人工智能助理软件。此软件使用自然语言处理技术,使用者可以使用自然的对话与手机进行互动,完成搜寻资料、查询天气、设定手机日历、设定闹铃等许多服务。可以说Siri是语音识别技术一个非常典型的应用代表。苹果作为一家不会轻易将不成熟的技术应用到自己的产品中的科技公司,对于Siri的出现,可以从侧面去印证语音识别技术已经发展到了一个相对成熟的水平。
然而,Siri的出现虽然让人们眼前一亮,但却没有给我们的日常应用带来本质的变化。可以说,Siri的出现让很用户出于好奇而进行体验,不过,并没有带来人们想象中的方便。更多的用户平时的使用中不会大量的使用语音交互,由于语音交互的使用环境,识别率以及使用习惯等等的问题,目前触控还是一个更佳的选择。Siri在经历了几代的更新之后,苹果已经没有将语音识别作为主打的新体验,siri的关注度也随之慢慢下降。
据了解,上世纪 70年代到 80年代是一个语音识别技术发展的高峰期,很多企业涌入,例如IBM、苹果等,后来大部分企业都放弃了,包括苹果。最典型的是IBM开发出听写机引擎 Viavoice,汉王是这款产品的国内代理,并结合手写识别技术推出了汉王听写大师,虽然红火了一阵,但大家在电脑上还是习惯于用键盘而不是语音输入,最终归于沉寂。
那么,siri走过的路以及不温不火的语音识别技术已经证明要想让语音识别成为一种主流的交互方式并不是容易的,中兴押宝语音识别,能否改变目前的颓势?笔者持不乐观的态度。