一.中文语音技术处理原理
中文语音处理策略的英文词有 “Chinese speech processing strategy” 或 “Chinese speech recognition”, ( 中文语音识别 ) 和 “hearing aid algorithm” ( 助听器算法 ) 等。其中, algorithm ,即 “ 算法 ” 一词使用较多,尤其涉及到数字助听器的开发, “ 算法 ” 代表了某一特殊技术的核心。 “ 算法 ” 可以被简单地看作为实现某些特定信号处理功能的指令序列。中文语音特征可以通过算法研究来形成的。数字信号处理器和算法构成了数字助听器的 DSP 线路。包含多通道动态范围压缩、噪音衰减等处理,设计助听器的算法的主要目标是利用中文语音处理技术,即使在不同的听音环境中,须确保言语被听见并聆听舒适。同时,利用数字助听器改善汉语可懂度,使有听力损失的中国患者能更容易地理解汉语。
汉语是声调单字语言,声调是汉语的重要语音特征之一。声调特征主要体现在嗓音基频随时间变化的模式上。 Eady 技术 (1982) 曾考察过声调语言 — 汉语的基频模式与重音语言 — 英语有什么不同。汉语的声调在词语中具有辩意作用,在生活实践当中,大家也都能体会到声调有助于我们听懂别人的话,而 “ 南腔北调 ” 常表示不易听懂和不大好懂和不大好听的意思。
对于连续言语来说,长时间平均的正、负颤动因数,各种语言和男女发音人是差不多的。只是负颤动总是比正颤动大,而且出现频率也较高。 Eady 的测量结果表明,汉语的说话速度要比英语慢一些。这可能是由于说汉语时,说话人要花更大的努力在每一个音节上来控制声带运动,也就是说声调语言的音节喉运动控制有较大的语言学负荷,因而花的时间就多一些。结果就表现为说话慢一些。
因此,声调信息主要存在于基频随时间的变化中,强度变化对声调信息有补偿作用,以及清辅音的存在与否对声调清晰度是有一定的影响的。
1 原理 (Principles)
本文介绍一种可应用于数字助听器的提高汉语可懂度的语音处理方法,其目标是使以汉语为母语的听残人士能更容易地理解语言。增强言语可懂度的思路来源于人们的实践经验。回想一下,当你为使一个有听力障碍的人更容易听懂自己说话时所采用的方法:你不仅仅要提高音量,而且还要改变发音方式,说得更慢和更清晰。一些研究表明清楚地读无意义的语句,比在日常会话句子,大约能提高 17% 的单词可懂度。这里所谓说得更清晰是指强调言语信号中的某些暗示,这些暗示有许多不同的形式,如特定音段的持续时间,元音的共振峰位置或者音素之间的过渡等。
不是所有人都会简单地、方便地对听力损失患者 “ 清楚地 ” 讲话。因此,我们要采用言语增强的方法就是在说话人和听话人中间构造一个处理模型,该模型能强调并突出语句中的特定成分,使语句听起来更清晰。
一切语音之所以能够表达意义,是由于各个音之间存在区别。这些区别产生于声腔内部的器官和肌肉等活动决定的发音方法和发音部位的差异,同时又表现为语音的声学特征的差异。本文提出的言语增强的方法正是通过对语音信号的重构来强化这些差异。所谓重构是指对语音信号中不同性质的信号进行识别并有针对性地予以处理,强调其中对人的感知起作用的特征,从而达到提高言语清晰度的目的。该方法可以简单地概括为:放大辅音、强调重音和突出声调。