多话者环境下说话人辨识听觉线索研究

11-03

声学技术 Technical Acoustics

多话者环境下说话人辨识听觉线索研究

罗海风龙长才

华中科技大学物理学院，武汉，430074

Auditory Cuing of speaker discrimination in a multi-talker

environment

Luo Hai-feng Long Zhang-cai

School of Physics, Huazhong University of Science and Technology, Wuhan 430074, China

1 引言

在多个说话人语音以及复杂的声环境中，辨识和跟踪某一个说话人的语音并提取语音信息，是语音识别技术走向应用面临的重要课题和难题。技术上是从接收的语音信号中提取某些特征，利用这些特征和一定的判据将语音信号进行分类。迄今，所取得的效果并不令人满意。但是，听觉系统却有很好的说话人跟踪和辨识能力，其工作模式和机理值得借鉴。在说话人辨识技术中，以MFCC 为代表的主流语音特征在时域上对语音作均匀权重处理[1]。但是听觉系统是否按这种方式工作呢？由于说话人音质特征信息对于噪声环境中搜索目标语音起到了最为关键性的作用，这就转化成几个需要明确的具体问题：（1）音质特征信息量在语音时域上如何分布? 语言学研究[2]表明在词汇处理上辅音音素起到支配性作用, 但是包含说话人音质特征的信息是否储存在清辅音中，还需要实验验证。（2）如果说话人音质特征信息储存在元音/浊辅音中, 那么不同的元音/浊辅音对说话人识别过程的重要性是否一样的呢? 如果不一样, 那与什么因素有关?

直接对不同音素中语音音质特征信息量进行测量具有一定的难度，但是近年来心理声学研究中发现的“提示效应”[3,4]实验模式很好地解决了这个问题。提示效应是指通过预先播放与目标声音相关的提示音，能够有效提高人类在噪声中识别目标语音的能力的现象。我们研究了被试在进行说话人辨识任务时所依赖的提示信息，发现提示音中不同音素有着不同的提示效果，这反映出音素所包含的说话人语音特征信息是不等量的。同时，通过与自然语言环境中发音的统计结果相比较，不同音素所包含

的说话人的特征信息，与信息论中的信息熵的估计是一致的。这些研究结果，为说话人听觉辨识机制的揭示，以及说话人辨识的语音特征时域非均匀权重处理提供了全新的思路和实验证据。

2 实验方法

2.1清浊音所含音质特征信息的测定

该实验检验在说话人识别过程中元音/浊辅音和清辅音的重要性。每名被试先后听到两个语音信号S1,S2，S1结束1秒后出现S2。S1内容从单元音串, 清辅音串, 浊辅音串三项中随机选择。S2内容为随机选择三份语句信号线性叠加, 分别由三个不同的说话人发音, 其中一人为S1发音人。我们要求被试听完听力材料后, 在S2中判断S1发音人存在与否或选择”不知道”。测试进行20轮。通过统计三种不同S1情况下被试正确率, 它代表着S1所包含的说话人音质特征信息的多少。

2.2不同元音所含音质特征信息的测定

该实验设计检验在说话人识别过程中不同元音重要性与其在语言环境中出现概率的相关性。首先，我们通过《现代汉语常用字表》统计出汉语中各元音发音概率，这在一定程度上反映了日常语言环境中各元音的发音概率P 。统计采用两种模式进行：解析模式将复元音拆解为两个元音发音进行统计，元音有a ，o ，e ，i ，u ，v 六个；综合模式将复元音独立统计，元音就包括i ，a ，ia ，u ，e ，ou ，ei 等十五个。具体实验过程与前一实验一致，只是S1改由高频单元音串，低频单元音串，高频复元音串，低频复元音串四项中随机选取。高频单元音串

基金项目：国家自然科学基金重大研究计划“视听觉信息的认知计算”（90820001）

作者简介：罗海风，(1984), 男, 湖北潜江, 汉, 在读博士, 从事语言及心理声学, 语音信号处理研究；通信作者：龙长才，Email ：[email protected]。

罗海风等：提示效应下说话人识别线索研究

即经过解析模式统计得到的单元音中发音概率最高若干单元音组成发音串，其余类推。

3 实验结果及分析

3.1清浊音所含音质特征信息的测定

表1 实验一中不同提示音类型下被试的说话人判断正确率 Tab.1 The accuracy rate of speaker judgment under different kind of

priming voices in Experment.1

元音浊辅音清辅音提示音（a,o,e,i,u,v ）

(m,n,l,,r) (b,p,f,d,t,g„)

判断正确率

65%

54%

如表1所示，在实验一中，和元音浊辅音对照组相比，清辅音作为提示时，被试几乎不能分辨出说话人。这说明了在音素层面上, 包含说话人音质特征信息并不分布在清辅音里, 而在元音及浊音中。这也与我们的猜想一致。

3.2不同元音所含音质特征信息的测定

表2 实验二中不同提示音下被试的说话人判断正确率

Tab.2 The accuracy rate of speaker judgment under different priming

voices in Experment.2

解析模式

综合模式

高概率元音低概率元音高概率元音高概率元音提示音 (i,a,u)

(o,e,v)

(i,a,u,ia)

(ie,uo,io,ai)

判断正确率

36%

50%

38%

51%

如表2所示，在实验二中，无论按照解析模式还是综合模式进行统计，低概率元音作为提示时，识别率较高；高概率元音作为提示时相反。这说明人类在进行说话人识别时，对于语言环境中出现概率较低的发音可能更加关注，对其进行的分析更加细致。

为了进一步检验在人类的说话人识别过程中，对于音素的处理是按照解析模式还是综合模式, 我们借鉴信息论中自信息量的概念，定义说话人音质特征信息熵I 的概念。例如提示音串o ，e ，v 提供的说话人音质特征信息熵定义为：

I o , e , v =-lg P o -lg P e -lg P v

其中P o ，P e ，P v 分别为e ，o ，v 发音在常用字表中出现的概率。显然，采用两种模式统计得到的各元音发音概率是不一样的，其对应的信息熵计算结果如图1所示。

7.2

80 6.4

t i 5.6 b

/率/%60 4.8 熵确息正4 信断40

3.2 征判特试被2.4

质20

1.6 音0.8 i,a, i,a,u, o,e, ie,uo i,a,o u

io,ai

e,u,v

五组不同的提示音

图1 不同对照组中识别率和提示音信息熵的关系

Fig.1 The relationship of accuracy rate and priming information content in

5 Control groups

如图所示，按照解析模式进行统计计算得到的各提示音串信息熵与实验各对照组得到的说话人判断正确概率相当吻合；而按照综合模式进行统计计算得到的信息熵，则与实验各对照组结果不符。这反映出人在进行说话人识别的分析时，遇到连续变化的如双元音等音素串时，是将其分解成基本音素单元作为判断依据的。

4 结论

通过以上两个实验及定量分析，我们发现:语音信号中，含有说话人音质特征信息的音素主要是元音及浊辅音，清辅音中几乎不含有音质信息。而不同的元音所携带的信息量也是不等的，与该元音发音在日常语言环境中出现概率的信息熵成正比。同时，信息熵的计算分析还表明，在说话人识别过程中，大脑会将连续变化的发音分解成基本音素单元进行判断。

参考文献:

[1] Unsupervised speaker segmentation with residual phase

and MFCC features. S.Jothilakshmi et al. Expert Systems with Applications, doi: 10. 1016/j.eswa. 2009. 02. 040 [2] Consonants, but not vowels, prime lexical decision

following masked priming, Boris New et al. J. Acoust. Soc. Am., Vol. 123, No. 5, Pt. 2, May 2008

[3] Effect of number of masking talkers and auditory

priming on informational masking in speech recognition. Framen et al. J. Acoust. Soc. Am, 2004, vol.115:2246-56 [4] Auditory priming releases Chinese speech from

informational masking, Zhigang Yang et al. J. Acoust. Soc. Am., Vol. 120, No. 5, Pt. 2, November 2006

与《多话者环境下说话人辨识听觉线索研究》相关的范文

07-06 小说的阅读技巧与实例解析(一)

小说的阅读技巧与实例解析（一）小说的阅读是初中语文学习中的一个重点。小说是以塑造人物形象为中心，通过故事情节的叙述和环境的描写来反映社会生活的一种文体。小说按照篇幅的长短，可分为长篇、中篇、短篇小说及小小说。一篇小说必须具备三个要素，即生动的人物形象、完整的故事情节和人物活动的具体环境。其中，人物形象又是主要要素。小说塑造人物的方法是丰富多样的，有概括介绍，也有形象描绘；有外貌和内心描写， ...

03-02 煤矿安全风险预警防控实施方案

煤矿安全风险预警防控实施方案为认真贯彻落实“安全第一、预防为主、综合治理”的安全生产方针，根据《国家安全监督总局国家煤矿安监局关于学习贯彻煤矿安全风险预控管理体系规范的通知》(安监总煤行[20xx]133号）精神，按照《曲靖市煤炭工业局关于印发曲靖市煤矿安全风险预警防控办法（试行）的通知》（曲煤发[20xx]14号）要求，结合我矿实际，特制定xx县地方煤矿安全风险预警防控实施方案。一、指导思想 ...

01-17 如何写好工作总结

　在实际工作中，下级公务人员向上级领导汇报工作是常有的事情，而且汇报的场合、方式多种多样，因此，汇报材料也就有多种类型。本文所说的汇报材料，主要指一个地区、部门、单位负责人在会议上或其他比较正规的场合向上级领导所作综合性较强的工作汇报的文稿。　　向领导汇报工作，看似很平常，实际很重要。汇报得好不好，一是体现着汇报人的素质，二是关系到能否真实地反映汇报主体的实际工作水平，三是有时关系到能否赢得上级 ...

09-20 幼儿园教师个人工作总结

幼儿园教师个人工作总结岁月匆匆而逝，似乎只是弹指一瞬，一学年的工作就结束了，回顾这一年来所经历的事，工作虽然很忙，但忙得很充实。“为了每一个孩子都有进步”，这是我为之不懈努力的动力，望着渐渐成长、学习进步的孩子们，从他们身上让我感受到一种自豪感。这一学年里，在领导的关心、同事们的帮助下，较好的完成了各项教学工作，现将一学年来的工作总结如下，通过总结吸取经验和教训，在以后的工作中取长补短，争取更大 ...

02-02 工业区安全管理制度<2>

5.2.3风险评价准则 a)现有的法律法规和标准的要求，法律法规可以参照法律法规获取制度和法律法规符合性评价的要求； b）行业的设计规范、技术标准的要求； c）企业安全标准化的要求及其它安全管理标准、技术标准要求； d）合同规定、相关方的要求； e）安全生产方针和目标； f）上级主管部门和顾客有关安全生产、环境保护、能源、资源使用等要求 g）其它需要关注的要求。 5.2.4危险有害因素的辨识 a） ...

07-05 征文演讲-机遇偏爱有准备的人

　　上帝仁慈地抛下金苹果，我们谓之“机遇”。机遇真是神奇，它给“疑无路”的人带来“柳暗花明”，让商人散尽的千金“还复来”，还能让“屈心抑志”的文人从此“青云直上九重霄”。说来神奇，其实它经常出现在我们身边，而智者能发现它、利用它走向成功，愚人往往错过它却抱怨命运不公，其原因就在于机遇只偏爱有准备的头脑，有准备的头脑才能辨识和把握机遇。　　在科学史上，善于辨识和把握机遇而获得成功的事例屡见不鲜。英 ...

12-26 日报采访中心社会实践报告

本人从8月中旬开始在**日报采访中心实习。在四个月的实习过程中，在采访中心各个部门记者的带领下，深入采访一线，单独和合作完成采访作品总共60余篇。参加了**传统节日中秋民俗博饼的采写、参加**日报读者节活动的采写、对陕西华南虎事件的落地追踪报道、灶王府酒店的案件过程追踪报道和其他一些社会新闻和热线新闻的采写。不但锻炼了自己的胆量，让我更加的成熟和稳重，让我的内心更加的丰富。　　刚刚进入报社的时候 ...

04-18 中小学幼儿园音乐教师合唱指挥培训心得

中小学幼儿园音乐教师合唱指挥培训心得音乐艺术不仅是一门知识，更是一种内心体验，一种音乐审美愉悦的体验。而合唱是一门综合性的艺术，对学生的要求较高，尤其对于儿童，训练起来难度更大。在大力倡导素质教育的今天，童声合唱以作为声乐艺术的一种，是小学音乐教育中不可缺少的一个重要组成部分。它不仅能引导学生步入丰富多彩的音响世界，启发学生学习音乐的兴趣，并获得美的熏陶，而且可以培养学生对音乐的感受能力和表现力 ...

09-05 培养幼儿语言心得体会

要给幼儿创造良好的语言环境，必须丰富幼儿的生活。因为生活是语言的源泉，只有丰富的生活，才能为丰富的语言提供良好的环境。因此，在教育工作中，要给幼儿创设丰富多彩的生活环境，增长幼儿知识，开阔幼儿视野，扩大加深对周围事物的认识和理解，促进幼儿思维发展，培养幼儿良好的口语表达能力。一、掌握幼儿学习语言的规律，有计划地进行培养和训练（一）通过直接感知，在认识周围事物中发展幼儿语言幼儿学习语言，都要与周 ...

04-13 初中语文课外阅读精选记叙文部分1-8

初中语文课外阅读精选记叙文部分1-8 1.父亲的歌声 (一)在我童年的记忆中，父亲是一个口不离曲的歌迷。 (二)其实，父亲唱的歌并不动听。他没文化，不识"多来咪"，也没有天生一副好嗓子。他只是随意地哼些俚曲俗调，或是从戏台上学来的零碎唱句，别人是很难听出他唱的内容的。但父亲唱歌时派头十足，有板有眼，有顿有挫，有时还摇头摆脑，洋洋自得，显出愉悦惬意的神情，街坊邻里、亲戚朋友都称父亲唱的"无字曲"是 ...

多话者环境下说话人辨识听觉线索研究

·学习纪律保证书

·新教师培训个人计划

·三国演义阅读笔记

·仪表接地和防雷基础知识培训资料

·荷兰的高等院校

·[图形的对称]教学反思

·售后人员岗位职责

·起诉离婚有时间限制吗

·运动的描述测试题题

·展开与折叠练习题

·高三班暑假补课管理制度

·通风调度管理制度

·蜀南竹海导游词

·地税人员学习十七大心得体会

·数字时代的编程比尔.盖茨典藏版

·农民工医疗保障制度路径选择及政策建议

·"房乔,字玄龄"阅读答案及翻译

·[我必须去]教学设计

·粽子里的故事课件

·五年级下册六年级上册日积月累

多话者环境下说话人辨识听觉线索研究

与《多话者环境下说话人辨识听觉线索研究》相关的范文

·学习纪律保证书

·新教师培训个人计划

·三国演义阅读笔记

·仪表接地和防雷基础知识培训资料

·荷兰的高等院校

·[图形的对称]教学反思

·售后人员岗位职责

·起诉离婚有时间限制吗

·运动的描述测试题题

·展开与折叠练习题

·高三班暑假补课管理制度

·通风调度管理制度

·蜀南竹海导游词

·地税人员学习十七大心得体会

·数字时代的编程 比尔.盖茨典藏版

·农民工医疗保障制度路径选择及政策建议

·"房乔,字玄龄"阅读答案及翻译

·[我必须去]教学设计

·粽子里的故事课件

·五年级下册六年级上册日积月累

·数字时代的编程比尔.盖茨典藏版