基于DTW的语音识别和说话人识别的特征选择
第18卷第1期2005年2月
模式识别与人工智能
PR&AI
V01.18Feb
No.12005
基于DTW的语音识别和说话人识别的特征选择
刘敬伟1’2
徐美芝3
郑忠国2
100084)100871)100084)
程乾生2
1(清华大学电子工程系北京2(北京大学数学科学学院北京3(清华大学数学科学系北京
摘要研究了基于动态时间规正(DTW)和图论方法的语音识别和说话人识别的特征子集选择问题,提出了基于
DTW距离的有向图方法(DTWDAG).此方法推广了基于欧氏距离的相似矩阵聚类方法,将图论聚类方法改进为语音和说话人特征选择的代价函数.并将此代价函数与(z—r)优化算法结合应用于孤立数字的特定人的语音识别和文本有关的说话人辩认的特征选择,实验结果表明,DTWDAG方法能够较好反映语音识别和说话人识别的特征子集的重要性.
关键词特征选择,相似矩阵,动态时间规正,(z—r)优化算法
中图法分类号TN912;TP391;0235
DTW—Based
FeatureSelectionforSpeechRecognition
andSpeakerRecognition
LIU
Jing—Weil'2,XUMei—Zhi3,ZHENG
Mathematical
Zhong—Gu02,CHENGQian—Shen92
1(DepartmentofElectronicsEngineering,TsinghuaUniversity,Beijing100084)
2(Schoolof
Sciences,PekingUniversity,Beijing100871)Sciences,TsinghuaUniversity,Beijing100084)
2(Departmentof
Mathematical
ABSTRACT
Inthispaper,a
DTW~based
graphtheoreticmethodforfeature
a
subsetselectionofspeech
recognitionandspeakerrecognitionisdiscussed,and
DTW-based
directedacyclicgraphoptimization
based
similaritymatrix
a
method(DTWDAG)isproposed.We
clusteringmethodaccording
to
to
extendtheEuclidean—distance
DTW—based
similarity
matrixclustering,and
cost
constructcost
function
similaritymatrix.Combiningtheis
applied
to
functionwith(Z—r)optimizationalgorithm,
speechrecognitionand
text—
themethodthe
isolateddigital
speaker—dependent
dependentspeakeridentification.Theexperimentresultsdemonstratetheefficientperformanceof
DTWDAG
Words
infeaturesubsetselectionprocessing.
Key
FeatureSelection,SimilarityMatrix,DynamicTimeAlgorithm
Warping,(Z—r)Optimization
收稿日期:2002—12—09;修回日期:2004—11—22
作者简介刘敬伟,男,1970年生,博士,主要研究方向为语音识别、说话人识别、基因识别、随机过程和统计学习.E—mail:liujingwei03@tsinghua.org.cn.徐美芝,女,1968年生,学士,主要研究方向为计算机软件、概率模型、图论和模式识别.郑忠国,男,1938年生,教授,博士生导师,主要研究方向为数理统计、不完全数据处理和生物统计.程乾生,男,1940年生,教授,博士生导师,主要研究方向为时间序列分析、信号处理和模式识别.
万方数据
1期刘敬伟等:基于DTW的语音识别和说话人识别的特征选择
1
引言
{T(1),…,T(以),…,T(N))为两个语音数据,其中R(m)和T(行)均为K维向量,不妨设为R(m)一语音识别和说话人识别是语音信号处理的两个{r。(1),…,r。(K)),T(咒)一{t。(1),…,t。(K)).令重要研究方向,是智能计算机听觉系统必须解决的D表示加权欧氏距离,DDrw表示两个语音数据的两个问题.语音识别是识别语音数据的语义信息,而DTW距离,则
N
说话人识别是要将说话人区分开来[1].同时,作为模D叩w(T,R)一min
y
D[-n。,rn,],
(1)
式识别的分支,语音识别和说话人识别也遵循标准0(’)Hl一1;mt一圣(ni)
的模式识别过程:特征抽取或特征提取、测度或分类其中
K
器选择、建立模板或训练模型及分类或聚类[2_6].
Dini,m。]一∑训蠢(f,(是)一^(忌))2,
语音识别和说话人识别的关键是如何寻找合适k=1
w(1e)一1,k一1,…,K.
(2)
的特征和分类器,这两者的研究是相辅相成的.对于西是从(1,1)到(N,M)的斜率范围在1/2到2之间特征的研究,在提出新特征的同时,挖掘特征里面的
信息——选择权重、选择特征子集降低维数、研究维
的路径.本文采取两个语音参数序列的起点固定,终点放松两帧.为了得到对称DTW距离,采用
数的重要性等,是语音识别和说话人识别的一个重D肌w—min(DDrW(T,R),DDTw(R,T)).
(3)
、要的研究方向,形成了很多研究特征的技术,如F比[1],PCA,以及近几年发展起来的利用人工神经网3
络、遗传算法、GMM、HMM、EER、(z—r)优化算法DTW意义下的相似矩阵旷4]
等研究特征的方法[7_15|.虽然,说话人识别和语音基于图论的聚类分析是聚类分析和模式分类研
识别的目的不同,但是,现代语音识别领域的研究究中的一个重要方法,其核心思想是将K维向量空中,说话人识别的特征和语音识别的特征却通常采间的各个样本(K维向量)之间的关系用图表示出取相同的特征,例如,线性预测倒谱系数(LPCC)和来‰16’17|.Duda[31给出了基于标准距离d(x,z7)的Mel频率倒谱系数(MFCC)被广泛应用于说话人识别和语音识别中[7’8].由于标准的语音特征提取过相似矩阵的聚类方法,其中任意两个样本点之间的标准距离d(x,z7)必须满足三个条件:
程中普遍采用帧间重叠处理,导致了特征序列中向(i)d(x,X7)一O{:ax=z7,量之间的相关性,所以本文采用标准DTW度量,研(Ii)d(x,367)一d(x7,z),
究16阶LPCC、16阶MFCC及其一阶差分倒谱的(Ⅲ)d(x,∥)≤d(x,z7)+d(x,7).
优化特征子集对语音识别和说话人识别的不同“贡对于语音特征序列,每个语音数据所包含的特献”和重要性.
征向量的个数不同,并且,公式(1)中的DTW距离由于本文的研究对象是特征序列,所以本文从显然不满足(i)(ii)条件口].下面用本文推广的相图论出发,将标准距离下的相似矩阵[31推广为基于似矩阵,给出DTW意义下的相似矩阵表示[3].
DTW距离的有向图的结点间的相似矩阵,提出了假设C1,C2,…,G表示模式空间的N个待分的
基于DTW距离的有向图方法(DTWDAG).并利用模式类,不妨设n一{C1,Cz,…,CN},其中每一类的
有向图的最大入度口6叫83作为特征优化的标准,将此样本个数为M—lCfI,每个样本是K维向量序列,即
标准与(z—r)优化算法[2』1结合,应用于16阶每个样本由有限个同维多元向量组成.记向量空间ALPCC和16阶MFCC[5’6]以及它们的一阶差分倒谱一{(z1'.一,.72K):(∞,…,zK)∈RK)(即特征空间).以的组合特征的特征子集优化问题.在英语孤立数字下都是在向量空间A上的K维向量序列模式空间n库T146上特定人的语音识别和与文本有关的说话上讨论问题.显然,如果每个样本均由一个K维向量人辨认的特征优化的模拟实验说明,DTWDAG方组成,上述的模型就是经典的模式识别问题.
法能够较好地刻画语音和说话人的特征选择问题.
定义1
对于任意z∈Ci,称
d如w(z)一
rainD册w(z,y)
(4)
2
测试选择——动态时间规正
yE{O\Ci}
为.7C到其余类的组间距.则C:的所有样本到其余类(DTW)[1,6]
的组间距构成的向量,称为阈值向量.
显然,阈值向量构成了类C。与其余类的非线性假设R一{R(1),…,R(仇),…,R(M)}和T一
边界.
万
方数据
模式识别与人工智能18卷
定义2设C为模式空间n中的任一类,C={7d,,u。,…m。},其中u,为C的样本数据.d觚,(C)=
{d觚,(口。),…,d觚,(73。))为类C的阈值向量.设G一(V,E)是一个简单有向图,它有咒个结点V={u。,可:,…,巩},则恕阶方阵A(G)一(口擒)称为G的相似矩阵,其中
f1,
DDrw(Vj,矾)<db:。(q)
,~
…
1
0,
否则
显然,相似矩阵与邻接矩阵[183的差异在于n¨l≤J≤咒.在相似矩阵中‰一1,但是在邻接矩阵中a。一0.因为d加。,(C)中各个分量不一定相同,此时A(G)不一定是对称矩阵.当d胁,(C)中各个分量都相同时,例如,若取
d胁,(C)一rain{d胁,,(u,))[1,1,…,1],
则此时A(G)是对称矩阵,这就是通常意义下的关于无向图的相似矩阵.
从A(G)的定义知'[1,…,1]A(G)的第i个分量等于结点Vi的入度加1.[1,…,1]A(G)[1,…,1]1’表示在以阈值向量为非线性边界的G中所有结点的入度之和加订.由上分析,给出如下特征选择的标准作为特征子集优化的目标函数.
准则对模式空问的N个待分的模式类n一
阢∥“慨)一志萎坠丑甏必
{C。,C:,…,C~},令
(6)
或
阢,,…m,=南冀型幽寄业型.
(7)
则式(6)表示组内数据以组间距为阈值下的有向图的每个结点与其余结点的平均相关程度,式(7)表示组内数据以组间距为阈值下的有向图的最大入度结点与其余结点的相关程度.F越大,组内数据越集中.
4
基于最大人度和(Z—r)优化算法‘2,93的特征选择
特征选择即寻找特征子集@一{oT。“,…,
zk}∈A一{zl,z2,…,zK},使得
F(x。,…,z。)一
max
F(x,,,…,z,).(8)
”‘
{(Jl・…,J.):1≤f≤K}
因为A一{z。,z:,…,zK)的所有可能的特征子集总共有2K一1种可能.考察所有的子集显然是
万
方数据NP—hard问题[5].我们采取基于最大人度(式(7))和(z—r)优化算法[1’9’183的特征选择方法(其中z一2,r一1),具体如下:
步骤1
1)初始化A一{zj,‘z2,…,zK),@一O.2)计算il—argmaxF(x,),将zi添加到@,并
J
2.t^
从以中删掉乳.
步骤2
3)记i2一argmaxF(@,乃),将z。添加到@,并
‘
j3.t^
从以中删掉z…
4)重复3)z次.
5)计算il—argminF(zj),将zfl从@中删掉,
J
z・∈e
并添加到A.
6)重复5)r次.步骤3
7)重复步骤2直至@一{zPXi:,…,z‰),其中m为预先设定的维数.或者
F(xj,,…,巧。)一F(zJ。,…,z^,Xk+1)l<e,£为预先给定的精度.
8)结束.
为了与特征优化的子集结果做比较,本文的实验中采取基于DTW的平均模板(单模板)[I.63下的识别率作为比较.
5
实验结果与分析
5.1
实验数据及特征提取
实验数据是标准的英语数据库T146中的孤立
数字{0~9),包括8男8女,第一次录音,每人每音
发10遍,作为训练集.第二次录音,每人每音发16
遍,作为测试集.所有语音数据经过12500Hz抽样和16bit量化,用过零率和短时能量检测语音数据的首尾.然后,经过H(z)一1—0.95z_1预加重后,以帧长256个点,帧移量128个点,逐帧加Hamming窗,提取特征16阶LPCC、16阶MFCC[5’6’14],并对每
帧倒谱特征加权叫(愚)一1+会sin(-~访-),K=16,作
厶
1、
为第一个实验集.特征子集选择在训练集上进行,并应用于测试集测试识别率作为比较.上述倒谱系数中只考虑c,~C,。,C。被删掉[141.之后,将16阶LPCC、16阶MFCC求一阶差分倒谱,分别构成32维的特征序列作为第二个实验集.
5.2
16阶LPCC及16阶MFCC的特征选择在实验1中,首先考察16阶MFCC在语音识
1期
刘敬伟等:基于DTW的语音识别和说话人识别的特征选择
别和说话人识别中的特征选择.实验结果见图1,然后考察16阶LPCC在语音识别和说话人识别中的特征选择,具体见图2.
0ptimizeddimensionnumber
图1
16阶MFCC在语音识别和说话人识别的特征选择中,代价函数F值和相应的DTW识别率
Fig.1
FValueandrecognition
ratein16一order
MFCC
featureselectioninspeechrecognitionandspeakerrecognitionrespectively
aptimizeddimensionnumber
图2
16阶LPCC在说话人识别的特征选择中,代价函数F值和相应的DTW识别率
Fig.2Fvalueand
recognition
ratein16一order
LPCC
featureselectioninspeechrecognitionandspeakerrecognitionrespectively
在标准的T146语音库的实验结果表明,图论方法能够较好地反映特征选择的“动态”优化过程.同时,LPCC作为说话人特征,优化特征子集的个数为6时,识别率达到87.10%.LPCC作为语音特征,优化特征子集的个数是2时,识别率达到86.79%;优化特征子集的个数为3时,识别率达到93.59%.MFCC作为说话人特征,优化特征子集的个数为6
万
方数据时,识别率达到86.51%.MFCC作为语音特征,优化特征子集的个数是1时,识别率达到89.38%;优化特征子集的个数为2时,识别率达到93.80%.
通过上述分析,我们对16阶LPCC及16阶MFCC在基于DTW的图论聚类方法下,对说话人识别和语音识别的不同“贡献”分布情况有了较为清楚的认识.但是,由于测试数据中时间序列的长度差异太大,使得DTWDAG方法的聚类算法没有找到优化的特征子集.为了与文献Eg]中的结果作比较.我们在第二个实验数据集上进行了特征优化实验.
5.3
16阶LPCC、16阶MFCC及一阶差分倒谱的特征选择
在实验中,我们将16阶LPCC、16阶MFCC及
一阶差分倒谱分别组成的32维时间序列,利用DT—
WDAG进行优化.实验结果见图3和图4.
实验结果表明,MFCC及差分倒谱作为语音特征在优化子集个数为12时识别率(98.01%)超过全
部32维特征的识别率(97.97%).LPCC及差分倒谱作为语音特征在优化子集个数为12时识别率(97.62%)超过全部32维特征的识别率(97.54%),作为说话人特征优化子集个数为30时识别率(92.03%)超过全部32维特征的识别率(91.72%).实验结果表明,DTWDAG方法可以在说话人识别和语音识别中获得优化子集.对于MFCC及差分倒谱在本文的实验中没有找到优化子集的一个可能的原因是,预处理时自动能量检测切音算法,导致某些数据信息损失太大.
0ptimizeddimensionnumber
图3
16阶MFCC及一阶差分倒谱在语音识别和说话人识别中特征选择中,代价函数F值和相应的DTW识别率
Fig.3FValueandrecognition
ratein16一orderMFCC
anddelta
MFCCfeatureselectioninspeech
recog—
nitionandspeakerrecognitionrespectively
54
模式识别与人工智能
18卷
op略z
0ptimizeddimensionnumber
图4
16阶LPCC及一阶差分倒谱在语音识别和说话人识别特征选择中,代价函数F值和相应的DTW识别率
Fig.4FValueandrecognition
rate
in16-orderLPCCand
deltaLPCCfeatureselectionin
speechrecognition
andspeakerrecognitionrespectively
6
结论
本文将基于图论和动态时间规正的聚类方法结合,推广了基于标准距离的相似矩阵方法,提出了基于DTW和图论的说话人识别和语音识别的特征选择方法.实验结果表明,本文所提的方法较好地反映了LPCC和MFCC以及它们的一阶差分倒谱在不同的模式识别过程中特征子集的选择和维数的重要性.进一步的工作是把本方法应用于噪声环境的特征分析、不同加权测度下的特征选择问题、不同语言的语音数据库上的特征选择问题等.同时,本方法为非标准距离在统计模式识别中的应用,尤其是高维相关时间序列的模式识别提供了有向图相似矩阵聚类方法.
致谢本文的部分工作开始于北京大学数学科学学院攻读硕士、博士学位期问.由博士后科学基金赞助发表.
参
考文献
[1]Yang
X
J,Chi
H
S.Digital
Processingof
SpeechSignal.Bei
jing:Press
ofElectric
Industry,1995(in
Chinese)
万
方数据(杨行峻,迟惠生.语音信号数字处理.北京:电子工业出版社,
1995)
[2]Fukunaga
K.IntroductiontO
StatisticalPatternRecognition.2nd
Edition.London,UK:AeademicPress,1990
E3]DudaR,HartP.PatternClassificationandSceneAnalysis.New
York。USA:JohnWiley&Sons,1973
F4]Bian
Z
Q,Zhang
XG.Pattern
Recognition.2nd
Edition.Bei—
jing:TsinghuaUniversity
Press,2000(inChinese)
(边肇祺,张学工.模式识别.第二版.北京:清华大学出版社,
2000)
[5]LiuJW.DTW—Similarity—Based
Statistical
Learning
Methodand
ItsApplication
inPattern
Recognition.Ph.D
Dissertation.Pe—
kingUniversity,Beijing,2002(in
Chinese)
(刘敬伟.基于DTW相似度的统计学习方法及其在模式识别中的应用.博士论文.北京大学,北京,2002)
[6]Rabiner
L
R,Juang
BH.Fundamentalsof
SpeechRecognitions.
New
Jersey,USA:Prentice
Hall,1993
[7]CampbellJ
P.Speaker
Recognition:A
Tutorial.Procof
the
IEEE,1997,85(9):1437—1462
[83
FuruiS.RecentAdvances
inthe
SpeakerRecognition.Pattern
Recognition
I。etters,1997,18(9):859—872
[9]PanditM,KittlerJ.FeatureSelectionforaDTW—BasedSpeaker
Verification
System.In:Proc
oftheIEEEInternationalConference
on
Acoustics,Speech,and
Signal
Processing.Seattle,
USA,1998,Ⅱ:769
772
[103
van
VuurenS,Hermansky
H.Onthe
Importance
of
Compo
nents
of
theModulation
SpectrumforSpeaker
Verification.In:Procofthe
InternationalConferenceon
Spoken
I。anguage
Pro—
cessing.Sydney,Australia,1998,3205—3208
[11]Kanedera
N,AraiT,HermanskyH,PavelM.On
the
Impor—
tance
ofVarious
Modulation
Frequencies
for
SpeechRecogni—tion.In:ProcoftheEuropeanConferenceon
Speech
Communi—
cation
andTechnology.Rhodes,Greece,1997,Ⅲ:1079—1082
[12]SamurMR.Selection
ofAcousticFeaturesfor
SpeakerIdentifi—
cation.IEEE
Trans
on
Acoustics,SpeeCh
and
SignalProcess—
ing,1975,23(2):176—182
[13]CharletD,JouvetD.Optimizing
FeatureSet
forSpeaker
Veri—
fication.PatternRecognition
Letters,1997,18(9):873—879
[14]Juang
B
H,Rabiner
L
R,WilponJ
G.OntheUseofBandpass
Lifteringin
SpeechRecognition.IEEE
Trans
on
Acoustics,
SpeechandSignalProcessing,1987,35(7):947—954
[153HaydarA,DemireklerM,YurtsevenM
K.FeatureSelection
Using
Genetic
Algorithmand
Its
Applicationto
Speaker
Verifi
cation.ElectronicsLetters,1998,34(15):1457—1459
[16]Everitt
B
S.Cluster
Analysis.3rdEdition.New
York,USA:
John
Wiley&Sons.1993
[17]Gordon
A
D.Classification.London,UK:Chapman
andHall,
1981
[18]BollobfisB.ModernGraph
Theory.NewYork,USA:Springer
—Verlag,1998
基于DTW的语音识别和说话人识别的特征选择
作者:作者单位:
刘敬伟, 徐美芝, 郑忠国, 程乾生, LIU Jing-wei, XU Mei-Zhi, ZHENG Zhong-Guo, CHENG Qian-Sheng
刘敬伟,LIU Jing-wei(清华大学,电子工程系,北京,100084;北京大学,数学科学学院,北京,100871) , 徐美芝,XU Mei-Zhi(清华大学,数学科学系,北京,100084), 郑忠国,程乾生,ZHENG Zhong-Guo,CHENG Qian-Sheng(北京大学,数学科学学院,北京,100871)模式识别与人工智能
PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE2005,18(1)5次
刊名:英文刊名:年,卷(期):被引用次数:
参考文献(18条)
1. Yang X J;Chi H S Digital Processing of Speech Signal 19952. FuKunaga K Introduction to Statistical Pattern Recognition 19903. Duda R;Hart P Pattern Classification and Scene Analysis 19734. Bian Z Q;Zhang X G Pattern Recognition.2nd Edition 2000
5. Liu J W DTW-Similarity-Based Statistical Learning Method and Its Application in PatternRecognition.Ph.D Dissertation 2002
6. Rabiner L R;Juang B H Fundamentals of Speech Recognitions 19937. Campbell J P Speaker Recognition:A Tutorial 1997(09)8. Furui S Recent Advances in the Speaker Recognition 1997(09)
9. Pandit M;Kittler J Feature Selection for a DTW-Based Speaker Verification System[外文会议] 199810. van Vuuren S;Hermansky H On the Importance of Components of the Modulation Spectrum for SpeakerVerification 1998
11. Kanedera N;Arai T;Hermansky H;Pavel M On the Importance of Various Modulation Frequencies forSpeech Recognition 1997
12. Samur M R Selection of Acoustic Features for Speaker Identification 1975(02)
13. CHARLET D;Jouvet D Optimizing Feature Set for Speaker Verification[外文期刊] 1997(09)
14. Juang B H;Rabiner L R;Wilpon J G On the Use of Bandpass Liftering in Speech Recognition 1987(07)15. Haydar A;Demirekler M;Yurtseven M K Feature Selection Using Genetic Algorithm and Its Applicationto Speaker Verifi cation[期刊论文]-Electronics Letters 1998(15)16. Everitt B S Cluster Analysis 199317. Gordon A D Classification 198118. Bollobás B Modern Graph Theory 1998
本文读者也读过(8条)
1. 一种基于DTW的孤立词语音识别算法[期刊论文]-计算机仿真2009,26(10)
2. 朱旻昊. 张忠能. Zhu Minhao. Zhang Zhongneng DTW算法的研究和改进[期刊论文]-微型电脑应用2010,26(9)3. 张俊 基于VQ和DTW相结合的语音识别算法研究[学位论文]2007
4. 李宏言. 盛利元. 陈妮. LI Hong-yan. SHENG Li-yuan. CHEN Ni 基于矢量量化和查找表的改进DTW语音识别方法[期刊论文]-计算机工程与设计2007,28(19)
5. 肖利君 基于DTW模型的孤立词语音识别算法实现研究[学位论文]2010
6. 汲清波. 卢侃. 李康. JI Qing-bo. LU Kan. LI Kang 在孤立词语音识别中动态时间规正的改进算法[期刊论文]-计算机工程与应用2010,46(25)
7. 姜干新. 陈伟 嵌入式语音识别系统中的DTW在线并行算法[期刊论文]-计算机应用研究2010,27(3)8. 余良俊 基于DTW的话者识别系统的实现[期刊论文]-软件导刊2010,09(5)
引证文献(5条)
1. 黎育红. 张熹. 袁荃 基于语音识别技术的门禁系统的研究[期刊论文]-电子技术应用 2006(12)2. 金小峰. 崔荣一. 洪炳镕 语音特征匹配的图像配准方法[期刊论文]-哈尔滨工业大学学报 2008(7)3. 张燕. 唐振民. 李燕萍 基于单字音特征提取的说话人识别方法[期刊论文]-计算机工程 2009(10)4. 李超 嵌入式语音识别技术实现与应用[期刊论文]-计算机与现代化 2011(11)
5. 胡文吉. 王让定 基于小波包分析的特征参数提取[期刊论文]-宁波大学学报(理工版) 2007(1)
本文链接:http://d.wanfangdata.com.cn/Periodical_mssbyrgzn200501009.aspx