基于音频比对的声纹识别技术

08-11

　第26卷第4期　　　　　　佛山科学技术学院学报(自然科学版) 　

　2008年7月　Jou rnal of Fo shan U n iversity (N atu ral Science Editi on )

文章编号:100820171(2008) 0420001205. 26N o . 4V o l . 2008Ju l

基于音频比对的声纹识别技术

王　东, 陈俊龙, 张鸿贤

(佛山科学技术学院计算机系, 广东佛山528000)

摘要:为了克服声纹识别技术在应用中存在识别率低、、。通过大量实验分析, 建立了一系列声纹识别的音频特征模型, 。与传统的声纹识别技术相比, 声纹识别的准确率提高了20%。

关键词:声纹识别; 音频特征; 中图分类号:TN 912. :A

, 声纹识别技术逐渐成为了研究热点。声纹识别属于生物特征识别技术, 是一种根据语音波形所反映的说话人生理和行为特征的语音参数的技术。声纹识别系统主要包括两部分:特征提取和模式匹配。特征提取的任务是选取惟一能表现说话人身份的有效且稳定可靠的特征, 并以此作为身份验证的依据; 而模式匹配的任务是把提取的音频特征与训练时提取的音频特征进行相似性匹配。

1　基本的声学特征

在对音频进行采样的过程中, 需要从采样的样本数据中提取表征说话人惟一特征的音频特征参数, 即能代表原始音频中主要信息的参数[1, 2]。

1. 1　短时能量

音频短时能量体现了音频信号的幅值随时间的变化情况, 其主要作用是区分话音成分和非话音成分, 即用来区分“有说话区”和“无说话区”, 也可以用作语音端点检测。音频信号的短时能量定义为

E n =N N -1i ∑i =m [S n (i ) Ξ(n -m ) ]2, Ξ(i ) =1, 　0≤i ≤N -10, 　　o ther w ise 　　, (1)

式(1) 中, m =0～(N -1) , 如果Ξi 的起点不是从i =0, 而是某个整数m , 那么相应的能量求和范围为m ～(N -1) 。

1. 2　短时过零率

过零率定义为单位时间内的过零次数, 其应用主要包括两类:一类是用于粗略描述信号的频谱特性, 另一类是用于判别一段音频信号中是否有语音。由于一般的过零率定义计算得到的值易受干扰, 因此对其计算模型作出如下改进:设一个门限T , 将过零的含义修改为超过正负门限, 可得下式

∞

Z n =

m =-∞∑ sgn [x (n ) -T ]

-sgn [x n -1-T ] + sgn [x (n ) +T ]-sgn [x n -1+T ]Ξn -m 。(2)

1. 3　质心和均方根

质心反映音频帧内信号的基本频率带。

收稿日期:2008203226

作者简介:王　东(19702) , 男, 黑龙江甘南人, 佛山科学技术学院讲师。

2佛山科学技术学院学报(自然科学版) 　　　　　　　　　　　第26卷

K 32

2j 32j j M j =∑S

t =1(t ) K , 　C i =∑jM ∑M j =1j =1。(3)

　　均方根用于衡量音频信号的强弱。

R i =∑M j =12j 32。(4)

1. 4　M el 倒谱系数

人的听觉系统是一个特殊的非线性系统, 它响应不同频率信号的灵敏度是不同的, 基本上是一个对数关系。M el 倒谱系数充分利用人的听觉系统这种特殊的感知特性, 从而比较有效地表征人的音频特征。为计算M el 倒谱系数, 首先应计算音频的频域信息, 对音频帧进行快速傅立叶变换, 将时域信息x i (n ) (n ∈[1, …,N um ]) 转换为频域信息y i (n ) (n ∈[0, …,N um -1]) ,

N um -1

y i (n ) =∑e

n =0-j nk N um x i (n +1) , k 0, …(5)

　　式(5) 中j 为虚数单位1kH z ) , 并按“1kH z 以下以线性的形式计算11个频率点, 1kH z 12个频率点”的原则确定出24个频点的频率f i (i ∈[1, …, 24])

f 12=20H z =1000H z =f =i -11+11f H z 。(6) 1324f 14=…=24=22000H z

　　根据上式的计算结果, 代入下式, 即可计算出对应的M el 频率

F i =6ln 600+(600) 2+1, (7)

　　计算M el 倒谱系数:利用24个三角带通虑波器分别与傅立叶变换得到的频域信息y i (n ) (n ∈[0, …, N um -1]) 求卷积, 得到每个频率点的对数能量p i (n ) (n ∈[1, …, 24]

) , 根据该频点能量进行余弦变换(DCT ) 即可得到M el 倒谱系数

24) (8) M FCC i =∑p i (k ) co s (k -　d ∈[1, 2, …, 12]。2k =1

式(8) 中, d 代表取M el

倒谱系数的个数(本文取前12个) 。

2　音频特征建立过程

按照图1所示过程建立语音特征[3]。

图1　原始音频数据处理流程

2. 1　音频数据预处理

无论采用哪一种采样频率都会产生数据量过大的问题。因此, 在提取音频特征之前, 必须对原始音频数据进行H aar 小波变换以压缩音频信息。H aar 小波函数定义为

1, 　当0≤x

(9) Ω(x ) =-1, 当1 2≤x

0　其他

第4

期　　　　　　　　　　　王　东等:基于音频比对的声纹识别技术3设有一段有N 个数据的原始音频为X ={x 1+x 2+…+x N }(N m od2=0) , 用H aar 小波变换为

(10) x i =, i =1, 2, …, N 4, 　j =4 (i -1) +1, 2

　　把原始音频数据压缩后, 对音频数据进行细化, 即做分帧处理:设一个音频序列的采样频率为f s , 实

(1000 32) , 每个音频的数验采用22050H z , 采样位数为W s , 每个子带的数据个数为K =f s W s 20

据个数为N um =K 32, x n (n ∈[1, …,N um ]) 为帧音频数据集, s i (j ) (j ∈[1, …, 32]) 为第i 帧第j 子带的音频数据集。

2. 2　音频帧的划分

对于音频信号处理, 可假定为短时平稳, 即在10～20m s 内, 其频谱特性和一些物理特征是稳定不变的, 然后采用平稳过程分析方法进行处理。对音频数据进行特征提取前, 首先把音频数据进行分帧处理。把每20m s 采集的音频数据作为一帧, 相邻两帧之间重叠10m s , ; 然后, 把每帧的数据平均分成32个子带。音频帧的划分如图2所示

。

图2　音频帧划分示意图

2. 3　语音端点检测

在对音频数据进行特征提取前, 先把特征有效音频序列分离出来。而新的音频序列都是包含了惟一可代表说话人的主要特征, 即进行语音端点检测。根据式(1) 计算短时能量, 得到音频的短时能量E n , 然后根据式(2) 计算得到音频的短时过零率Z n 。至此可根据短时能量判断一个字的末点。

通常情况下, 短时平均幅度值降低到该音节中最大短时平均幅度的1 16左右, 就可以认为该音节已经结束了。而语音的开端, 其短时能量的大小与背景噪声的短时能量相差不大, 为了能够正确地找到音节的起点, 本文采用双门限前端检测, 其方法如下:语音开始以后会出现能量较大的浊音, 设一个较高的门限T h 用以确定语音已经开始, 再取一个比T h 稍小的门限T l , 用以确定真正的起点N 1和结束点N 2。判断清音与无话的差别, 是采用另一个较低的门限T 1, 求越过该门限的“过零率”。只要T 1取得合适, 如图(3) 所示。为了下文所述的模式匹配计算方便, 对每段有效音频只取固定的音频帧数[3

24]。

图3　语音端点检测示意图

2. 4　提取特征参数

有了上述的基础, 就可以对经过上述处理的音频序列进行音频特征参数的提取。首先根据质心和均方根的定义及式(3) 和(4) , 计算得到每个音频帧的质心C i 和均方根R i 。然后根据式(5) 对每一个音频正进行快速傅立叶变换, 把时域信息转化为频域信息。并按照式(6) 计算出24个频率点f i (i ∈[1, …, 24]) , 把f i (i ∈[1, …, 24]) 代入式(7) 得到24个频率点分别对应的M el 频率。最后利用24个三角带通虑波器分别与傅立叶变换得到的频域信息y i (n ) (n ∈[0, …,N um -1]) 求卷积, 得到每个频率点的对数能量p i (n ) (n ∈[1, …, 24]) , 把每一个音频帧的对数能量p i (n ) (n ∈[1, …, 24]) 代入式(8) , 进行余弦变换(DCT ) 即可得到M el 倒谱系数。到此, 对每个音频帧都提取了包括:短时能量、短时过零率、质心、

4佛山科学技术学院学报(自然科学版) 　　　　　　　　　　　第26卷均方根以及M el 倒谱系数的音频特征参数。

3　音频特征匹对模型

对待检测音频特征的匹对模型如图4所示

。

图4　音频特征匹对模型

3. 1　建立特征模型

　　在提取特征参数的过程中, 已经得到了一系列能表征人的身份的音频特征参数。对于每一个音频帧, 根据音频特征参数:1个质心、1个均方根以及12个M el 倒谱系数, 14维的特征模型。把质心C i 和均方根R i 作为一个特征向量V =(C i , R i ) , 把特征向量V i 12个M el 倒谱系数构成的特征向量作为另一个样本向量。

3. 2　模式匹配

在音频帧所提取的14, 把每个音频帧的12个M el 12个补偿倒谱系数作为另一个样本向量。。夹角越小, 表示相似度越高, 反之, 相似度越低3. 3　质心和均方根比对__首先把被测音频中每个音频帧的特征向量V i (k ) 与样本向量V i 中心音频帧的位置一一对应起来, 然后把V i k 和代入式(11) 计算出夹角Η。对计算出i 的余弦值co s Ηi , 然后利用反三角函数计算出夹角Ηi 的值

的所有的Η, 判定Η≤Εi 求出平均值Η1是否成立, 如果成立, 则表明被测音频与样本音频相似, 否则不相似[5]。

co s Ηi =

2___() C i +R i 2(k ) (k ) (k ) , (k ) (11) (C i ) 2+(R i ) 2

　　式(11) 中, C i 表示样本音频中的第i 帧的质心, C i (k ) 表示被测音频第i 帧的质心; R i 表示样本音频中的第i 帧的均方根, R i (k ) 表示被测音频中第i 帧的均方根, Ε。1是经过大量实验确定的一个阀值

3. 4　M el 倒谱系数比对

利用倒谱平均消去法, 计算补偿倒谱系数。首先把倒谱系数的期望定为零, 那么就有[5]

N (12) A v i (j ) =∑M FCC i (j ) j ∈[1, …, 音频帧数],　M FCC i (j ) =M FCC i (J ) -A v i , N j =1

　　式(12) 中, N 为倒谱系数的个数, A v i 为第i 个帧的倒谱系数的平均值, M FCC i (j ) 为补偿后的倒谱系数。把上述计算得到的每一个音频帧补偿后的倒谱系数作为一个12维向量[5]

M i =(M FCC i (1) ,M FCC i (2) , …,M FCC i (12) ) , _(13)

　　首先把被测音频中每个音频帧的特征向量M

后把M _(k ) i _(k ) i 与样本向量M i 中心音频帧的位置一一对应起来, 然_和M i 代入式(14) 计算出夹角Υi 的余弦值co s Υi , 然后利用反三角函数计算出夹角Υi 的值并求出_

平均值Υ, 判定Υ≤Ε2(Ε2是经过大量实验确定的一个阀值) 是否成立, 如果成立, 则表明被测音频与样本

[5]音频相似, 否则不相似。

co s Υi =

(M FCC i (1) ) +…+(M FCC i (12) ) 22(14) (M FCC ′(M FCC ′i (1) ) +…+i (12) ) 22

4　总结与展望

通过对音频特征的筛选以及对提取音频特征方法的改进, 在较理想的环境下, 能把声纹识别的准确

第4期　　　　　　　　　　　王　东等:基于音频比对的声纹识别技术5率提升到60%左右。由于在提取音频特征前对噪音的过滤效果还没达到预期的目标, 音频特征还没有建立足够多, 以及硬件设备精良等问题对本识别率都造成了一定的影响。在后续工作中, 应继续完善音频特征模型, 改进匹配算法, 力求把声纹识别的准确率逐步提高, 进而把声纹识别技术应用到实际中。参考文献:

[1]　郭兴吉. 基于特征的音频比对技术[J ]. 河南师范大学学报, 2006, 34(2) :35238.

[2]　张万里, 刘桥. M el 频率倒谱系数提取及其在声纹识别中的作用[J ]. 贵州大学学报, 2005, 22(2) :2072210.

[3]　易克初. 语音信号处理[M ]. 北京:国防工业出版社, 2000.

[4]　姚天认. 数字语音处理[M ]. 武汉:华中科技大学出版社, 2002.

[5]　同济大学应用数学系. 线性代数[M ]. 4版. 北京:高等教育出版社, 2006.

Vo ice -pr i n t technology ba tch i ng

W AN long , ZHAN G Hong 2x ian

t of Compu ter , Fo shan U n iversity , Fo shan 528000, Ch ina )

Abstract :In o rder to overcom e som e sho rtages w h ile u sing vo ice 2p rin t recogn iti on techno logy , such as low recogn iti on rate , in stab ility an un recogn ized sp eech and so on . T h rough a lo t of exp eri m en tal has been done to recogn ize a series of vo ice featu res m odel fo r vo ice 2p rin t recogn iti on . A s a resu lt , the w idely 2u sed m atch ing algo rithm is i m p roved to increase the recogn iti on rate of vo ice 2p rin t by 20p ercen t com

p are w ith the traditi onal vo ice 2p rin t techno logy .

Key words :vo ice 2p rin t recogn iti on ; vo ice featu re ; featu re m odel ; m atch ing algo rithm

与《基于音频比对的声纹识别技术》相关的范文

02-01 收音机焊接电工实习报告

　　一、实习内容：　　(1)学习识别简单的电子元件与电子线路；　　(2)学习并掌握收音机的工作原理；　　(3)按照图纸焊接元件，组装一台收音机，并掌握其调试方法。　　二、实习器材介绍：　　(1)电烙铁：由于焊接的元件多，所以使用的是外热式电烙铁，功率为30w，烙铁头是铜制。　　(2)螺丝刀、镊子等必备工具。　　(3)松香和锡，由于锡它的熔点低，焊接时，焊锡能迅速散步在金属表面焊接牢固 ...

07-24 电子测量实训报告

电子测量实训报告一.实训目的（1）熟悉常用电子仪器的功能及使用方法。（2）掌握常用电子仪器的工作原理。（3）掌握常用电子仪器附加功能的使用。（4）熟练使用常用电子仪器进行数据测量。（5）掌握常用电子元器件的测量方法，掌握电子元器件的焊接技巧和装配工艺；学会使用万用表、示波器、毫伏表、频率计、信号发生器等电子测量仪器。掌握查找电子设备故障的一般方法。培养学生实际动手操作能力；为学生以后参加工作打 ...

08-30 电子工艺实习报告

电子工艺实习报告一、观看电子产品制造技术录像总结通过观看电子产品制造技术录像，我初步了解了PcB板的制作工艺以及表贴焊技术工艺流程：PcB版制作基本步骤：用软件化电路图，打印菲林纸，曝光电路板，显影，腐蚀，打孔，连接跳线。制版布局要求整体美观均衡，疏密有序，走线合理，防止相互干扰，尽量减少过线孔，减少并行线条密度等。表贴焊技术是目前最常用的焊接技术，其基本步骤：解冻、搅拌焊锡膏，焊膏印制，贴片 ...

12-18 2014年春毕业生电子收音机工艺实习报告

　　一、目的意义　　熟悉手工焊锡的常用工具的使用及其维护与修理。基本掌握手工电烙铁的焊接技术，能够独立的完成简单电子产品的安装与焊接。熟悉电子产品的安装工艺的生产流程，印制电路板设计的步骤和方法，手工制作印制电板的工艺流程，能够根据电路原理图，元器件实物。了解常用电子器件的类别、型号、规格、性能及其使用范围，能查阅有关的电子器件图书。能够正确识别和选用常用的电子器件，并且能够熟练使用普通万用表和 ...

03-09 发票管理应对措施

　　当前，发票违法活动出现了一些新动向，制售假发票和非法代开虚开发票成为久治不愈的顽症。发票管理中多发性问题成为税收执法矛盾焦点。深入分析发票管理和执法中的突出问题，研究应对措施，制定规范管理、综合整治办法，对提高税收管理质效，及时化解执法风险，有效打击发票违法，维护市场经济秩序，具有重要现实意义。一、发票管理中存在的突出问题（一）发票打假任务更加艰巨。表现在：一是制售假发票和非法代开虚开发票 ...

12-21 职业技术学院学生毕业实践报告

职业技术学院学生毕业实践报告题目：乐捷显示科技（厦门）有限公司的实习报告年级：07级电信（1）班专业：电子信息工程技术学号： 070102109 学生姓名：杨海彬指导教师：张建国 20XX年 5月 4日目录内容摘要…………………………………………………………2 1.公司简介………………………………………………………2 2.岗位介绍……………………………………………………… ...

04-12 多媒体教室建设方案

多媒体教室建设方案一、项目背景作为新型的教育、培训模式，学校多媒体教室的建设为其提供了丰富的教学手段，计算机教学、视音频教学、视频展台替代黑板板书等现代教学方式又为教师提供了充分利用各种课件的条件。这极大丰富了教学的手段和教学的内容，带给学生更加生动的课堂感受，是改革教学手段的必然发展方向。随着科学技术的发展，演示型多媒体教学方式作为现代教育手段中一个必不可少的环节，正受到学校的青睐和推崇。众 ...

12-31 王阜庄小学现代远程教育资源库建设实施方案

王阜庄小学现代远程教育资源库建设实施方案为发挥我校农村中小学现代远程教育的优势，在全校营造更加浓厚的教育现代化、信息化氛围，我校决定在20XX年，全面加强我校教育教学资源库的建设工作，使远程教育资源真正融入到教育教学工作当中。为落实好各项工作任务，特制定本实施方案。一、工作目标各校要整合各级、各类优质教育教学资源,搭建多层次、智能化的开放式教育平台，逐步建设具有一定规模、符合本地实际的资源 ...

06-08 暑期北京实习报告(研究所)

　　20XX年暑假，系里为大家安排了前往中国科学院在北京的几个研究所的认识实习，这对我们0111的同学来说是一个难得机会。三年的大学生活已经过去，不少同学都面临继续深造或参加工作的选择，然而，大多数同学对计算机专业的认识还只停留在书本理论上，对于如何应用学到知识，以及现代社会需要什么样的计算机人才还是知之甚少。所以，大家急需这样一次对能够本专业研究和应用现状进行系统全面认识了解的机会。参加这次实 ...

08-29 多媒体工作室2014年上半年工作计划

多媒体工作室20XX年上半年工作计划简介:本部门是于20XX年下半年秋季开学后成立的新部门,主要是基于目前多媒体网络时代而成立的一个新兴技术部门。主要是针对于文字,图片,音频,视频的处理和创作。现状:由于是新成立部门,上一个学期的入部人员基本是大一新生,所以没有做出什么作品。上个学期工作室部员大多提交了自我介绍的PPT,了解到了大家的取向和能力. 计划: 1.开学后第一次社团活动会为部员们总结 ...

随机推荐

猜你喜欢

基于音频比对的声纹识别技术

·教师学习群众路线教育实践活动心得体会

·2010年镇工会工作总结

·2013年校本研修总结

·团委秘书处竞选演讲稿

·大学生入党自传格式

·农村产业发展情况调研报告

·新生办理户口迁移手续须知doc

·流动儿童生活技能工作总结

·口语交际:接待

·诚信王国的故事

·苏教版七年级上册地理期末试卷

·转炉炼钢设备结构改进分析

·雾对城市边界层和城市环境的影响

·二十四节气钓鱼歌

·崔玉涛:服用退烧药的三种途径

·营业线施工安全知识

·安静是一种修养[散文欣赏]

·黔南州科长任5年须轮岗针对州直党政机关及事业单位

·请感谢你的敌人

·试论房地产评估中市场法的运用

基于音频比对的声纹识别技术

与《基于音频比对的声纹识别技术》相关的范文

·教师学习群众路线教育实践活动心得体会

·2010年镇工会工作总结

·2013年校本研修总结

·团委秘书处竞选演讲稿

·大学生入党自传格式

·农村产业发展情况调研报告

·新生办理户口迁移手续须知doc

·流动儿童生活技能工作总结

·口语交际:接待

·诚信王国的故事

·苏教版七年级上册地理期末试卷

·转炉炼钢设备结构改进分析

·雾对城市边界层和城市环境的影响

·二十四节气钓鱼歌

·崔玉涛:服用退烧药的三种途径

·营业线施工安全知识

·安静是一种修养[散文欣赏]

·黔南州科长任5年须轮岗 针对州直党政机关及事业单位

·请感谢你的敌人

·试论房地产评估中市场法的运用

·黔南州科长任5年须轮岗针对州直党政机关及事业单位