多话者环境下说话人辨识听觉线索研究
声 学 技 术 Technical Acoustics
多话者环境下说话人辨识听觉线索研究
罗海风 龙长才
华中科技大学物理学院,武汉,430074
Auditory Cuing of speaker discrimination in a multi-talker
environment
Luo Hai-feng Long Zhang-cai
School of Physics, Huazhong University of Science and Technology, Wuhan 430074, China
1 引 言
在多个说话人语音以及复杂的声环境中,辨识和跟踪某一个说话人的语音并提取语音信息,是语音识别技术走向应用面临的重要课题和难题。技术上是从接收的语音信号中提取某些特征,利用这些特征和一定的判据将语音信号进行分类。迄今,所取得的效果并不令人满意。但是,听觉系统却有很好的说话人跟踪和辨识能力,其工作模式和机理值得借鉴。在说话人辨识技术中,以MFCC 为代表的主流语音特征在时域上对语音作均匀权重处理[1]。但是听觉系统是否按这种方式工作呢?由于说话人音质特征信息对于噪声环境中搜索目标语音起到了最为关键性的作用,这就转化成几个需要明确的具体问题:(1)音质特征信息量在语音时域上如何分布? 语言学研究[2]表明在词汇处理上辅音音素起到支配性作用, 但是包含说话人音质特征的信息是否储存在清辅音中,还需要实验验证。(2)如果说话人音质特征信息储存在元音/浊辅音中, 那么不同的元音/浊辅音对说话人识别过程的重要性是否一样的呢? 如果不一样, 那与什么因素有关?
直接对不同音素中语音音质特征信息量进行测量具有一定的难度,但是近年来心理声学研究中发现的“提示效应”[3,4]实验模式很好地解决了这个问题。提示效应是指通过预先播放与目标声音相关的提示音,能够有效提高人类在噪声中识别目标语音的能力的现象。我们研究了被试在进行说话人辨识任务时所依赖的提示信息,发现提示音中不同音素有着不同的提示效果,这反映出音素所包含的说话人语音特征信息是不等量的。同时,通过与自然语言环境中发音的统计结果相比较,不同音素所包含
的说话人的特征信息,与信息论中的信息熵的估计是一致的。这些研究结果,为说话人听觉辨识机制的揭示,以及说话人辨识的语音特征时域非均匀权重处理提供了全新的思路和实验证据。
2 实验方法
2.1清浊音所含音质特征信息的测定
该实验检验在说话人识别过程中元音/浊辅音和清辅音的重要性。每名被试先后听到两个语音信号S1,S2,S1结束1秒后出现S2。S1内容从单元音串, 清辅音串, 浊辅音串三项中随机选择。S2内容为随机选择三份语句信号线性叠加, 分别由三个不同的说话人发音, 其中一人为S1发音人。我们要求被试听完听力材料后, 在S2中判断S1发音人存在与否或选择”不知道”。测试进行20轮。通过统计三种不同S1情况下被试正确率, 它代表着S1所包含的说话人音质特征信息的多少。
2.2不同元音所含音质特征信息的测定
该实验设计检验在说话人识别过程中不同元音重要性与其在语言环境中出现概率的相关性。首先,我们通过《现代汉语常用字表》统计出汉语中各元音发音概率,这在一定程度上反映了日常语言环境中各元音的发音概率P 。统计采用两种模式进行:解析模式将复元音拆解为两个元音发音进行统计,元音有a ,o ,e ,i ,u ,v 六个;综合模式将复元音独立统计,元音就包括i ,a ,ia ,u ,e ,ou ,ei 等十五个。具体实验过程与前一实验一致,只是S1改由高频单元音串,低频单元音串,高频复元音串,低频复元音串四项中随机选取。高频单元音串
1
基金项目:国家自然科学基金重大研究计划“视听觉信息的认知计算”(90820001)
作者简介:罗海风,(1984), 男, 湖北潜江, 汉, 在读博士, 从事语言及心理声学, 语音信号处理研究; 通信作者:龙长才,Email :[email protected]。
罗海风等:提示效应下说话人识别线索研究
即经过解析模式统计得到的单元音中发音概率最高若干单元音组成发音串,其余类推。
3 实验结果及分析
3.1清浊音所含音质特征信息的测定
表1 实验一中不同提示音类型下被试的说话人判断正确率 Tab.1 The accuracy rate of speaker judgment under different kind of
priming voices in Experment.1
元音浊辅音 清辅音提示音 (a,o,e,i,u,v )
(m,n,l,,r) (b,p,f,d,t,g„)
判断正确率
65%
54%
0%
如表1所示,在实验一中,和元音浊辅音对照组相比,清辅音作为提示时,被试几乎不能分辨出说话人。这说明了在音素层面上, 包含说话人音质特征信息并不分布在清辅音里, 而在元音及浊音中。这也与我们的猜想一致。
3.2不同元音所含音质特征信息的测定
表2 实验二中不同提示音下被试的说话人判断正确率
Tab.2 The accuracy rate of speaker judgment under different priming
voices in Experment.2
解析模式
综合模式
高概率元音低概率元音高概率元音高概率元音提示音 (i,a,u)
(o,e,v)
(i,a,u,ia)
(ie,uo,io,ai)
判断正确率
36%
50%
38%
51%
如表2所示,在实验二中,无论按照解析模式还是综合模式进行统计,低概率元音作为提示时,识别率较高;高概率元音作为提示时相反。这说明人类在进行说话人识别时,对于语言环境中出现概率较低的发音可能更加关注,对其进行的分析更加细致。
为了进一步检验在人类的说话人识别过程中,对于音素的处理是按照解析模式还是综合模式, 我们借鉴信息论中自信息量的概念,定义说话人音质特征信息熵I 的概念。例如提示音串o ,e ,v 提供的说话人音质特征信息熵定义为:
I o , e , v =-lg P o -lg P e -lg P v
其中P o ,P e ,P v 分别为e ,o ,v 发音在常用字表中出现的概率。显然,采用两种模式统计得到的各元音发音概率是不一样的,其对应的信息熵计算结果如图1所示。
7.2
80 6.4
t i 5.6 b
/率/%60 4.8 熵确息正4 信断40
3.2 征判特试被2.4
质20
1.6 音0.8 i,a, i,a,u, o,e, ie,uo i,a,o u
ia
v
io,ai
e,u,v
五组不同的提示音
图1 不同对照组中识别率和提示音信息熵的关系
Fig.1 The relationship of accuracy rate and priming information content in
5 Control groups
如图所示,按照解析模式进行统计计算得到的各提示音串信息熵与实验各对照组得到的说话人判断正确概率相当吻合;而按照综合模式进行统计计算得到的信息熵,则与实验各对照组结果不符。这反映出人在进行说话人识别的分析时,遇到连续变化的如双元音等音素串时,是将其分解成基本音素单元作为判断依据的。
4 结 论
通过以上两个实验及定量分析,我们发现:语音信号中,含有说话人音质特征信息的音素主要是元音及浊辅音,清辅音中几乎不含有音质信息。而不同的元音所携带的信息量也是不等的,与该元音发音在日常语言环境中出现概率的信息熵成正比。同时,信息熵的计算分析还表明,在说话人识别过程中,大脑会将连续变化的发音分解成基本音素单元进行判断。
参考文献:
[1] Unsupervised speaker segmentation with residual phase
and MFCC features. S.Jothilakshmi et al. Expert Systems with Applications, doi: 10. 1016/j.eswa. 2009. 02. 040 [2] Consonants, but not vowels, prime lexical decision
following masked priming, Boris New et al. J. Acoust. Soc. Am., Vol. 123, No. 5, Pt. 2, May 2008
[3] Effect of number of masking talkers and auditory
priming on informational masking in speech recognition. Framen et al. J. Acoust. Soc. Am, 2004, vol.115:2246-56 [4] Auditory priming releases Chinese speech from
informational masking, Zhigang Yang et al. J. Acoust. Soc. Am., Vol. 120, No. 5, Pt. 2, November 2006
2