基于DTW的语音识别和说话人识别的特征选择

10-27

第１８卷第１期２００５年２月

模式识别与人工智能

ＰＲ＆ＡＩ

Ｖ０１．１８Ｆｅｂ

Ｎｏ．１２００５

基于ＤＴＷ的语音识别和说话人识别的特征选择

刘敬伟１’２

徐美芝３

郑忠国２

１０００８４）１００８７１）１０００８４）

程乾生２

１（清华大学电子工程系北京２（北京大学数学科学学院北京３（清华大学数学科学系北京

摘要研究了基于动态时间规正（ＤＴＷ）和图论方法的语音识别和说话人识别的特征子集选择问题，提出了基于

ＤＴＷ距离的有向图方法（ＤＴＷＤＡＧ）．此方法推广了基于欧氏距离的相似矩阵聚类方法，将图论聚类方法改进为语音和说话人特征选择的代价函数．并将此代价函数与（ｚ—ｒ）优化算法结合应用于孤立数字的特定人的语音识别和文本有关的说话人辩认的特征选择，实验结果表明，ＤＴＷＤＡＧ方法能够较好反映语音识别和说话人识别的特征子集的重要性．

关键词特征选择，相似矩阵，动态时间规正，（ｚ—ｒ）优化算法

中图法分类号ＴＮ９１２；ＴＰ３９１；０２３５

ＤＴＷ—Ｂａｓｅｄ

ＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ

ａｎｄＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ

ＬＩＵ

Ｊｉｎｇ—Ｗｅｉｌ＇２，ＸＵＭｅｉ—Ｚｈｉ３，ＺＨＥＮＧ

Ｍａｔｈｅｍａｔｉｃａｌ

Ｚｈｏｎｇ—Ｇｕ０２，ＣＨＥＮＧＱｉａｎ—Ｓｈｅｎ９２

１（ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｉｎｇ，ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８４）

２（Ｓｃｈｏｏｌｏｆ

Ｓｃｉｅｎｃｅｓ，ＰｅｋｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００８７１）Ｓｃｉｅｎｃｅｓ，ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８４）

２（Ｄｅｐａｒｔｍｅｎｔｏｆ

Ｍａｔｈｅｍａｔｉｃａｌ

ＡＢＳＴＲＡＣＴ

Ｉｎｔｈｉｓｐａｐｅｒ，ａ

ＤＴＷ～ｂａｓｅｄ

ｇｒａｐｈｔｈｅｏｒｅｔｉｃｍｅｔｈｏｄｆｏｒｆｅａｔｕｒｅ

ａ

ｓｕｂｓｅｔｓｅｌｅｃｔｉｏｎｏｆｓｐｅｅｃｈ

ｒｅｃｏｇｎｉｔｉｏｎａｎｄｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｉｓｄｉｓｃｕｓｓｅｄ，ａｎｄ

ＤＴＷ－ｂａｓｅｄ

ｄｉｒｅｃｔｅｄａｃｙｃｌｉｃｇｒａｐｈｏｐｔｉｍｉｚａｔｉｏｎ

ｂａｓｅｄ

ｓｉｍｉｌａｒｉｔｙｍａｔｒｉｘ

ａ

ｍｅｔｈｏｄ（ＤＴＷＤＡＧ）ｉｓｐｒｏｐｏｓｅｄ．Ｗｅ

ｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄａｃｃｏｒｄｉｎｇ

ｔｏ

ｅｘｔｅｎｄｔｈｅＥｕｃｌｉｄｅａｎ—ｄｉｓｔａｎｃｅ

ＤＴＷ—ｂａｓｅｄ

ｓｉｍｉｌａｒｉｔｙ

ｍａｔｒｉｘｃｌｕｓｔｅｒｉｎｇ，ａｎｄ

ｃｏｓｔ

ｃｏｎｓｔｒｕｃｔｃｏｓｔ

ｆｕｎｃｔｉｏｎ

ｓｉｍｉｌａｒｉｔｙｍａｔｒｉｘ．Ｃｏｍｂｉｎｉｎｇｔｈｅｉｓ

ａｐｐｌｉｅｄ

ｔｏ

ｆｕｎｃｔｉｏｎｗｉｔｈ（Ｚ—ｒ）ｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ，

ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｎｄ

ｔｅｘｔ—

ｔｈｅｍｅｔｈｏｄｔｈｅ

ｉｓｏｌａｔｅｄｄｉｇｉｔａｌ

ｓｐｅａｋｅｒ—ｄｅｐｅｎｄｅｎｔ

ｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈｅｅｆｆｉｃｉｅｎｔｐｅｒｆｏｒｍａｎｃｅｏｆ

ＤＴＷＤＡＧ

Ｗｏｒｄｓ

ｉｎｆｅａｔｕｒｅｓｕｂｓｅｔｓｅｌｅｃｔｉｏｎｐｒｏｃｅｓｓｉｎｇ．

Ｋｅｙ

ＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎ，ＳｉｍｉｌａｒｉｔｙＭａｔｒｉｘ，ＤｙｎａｍｉｃＴｉｍｅＡｌｇｏｒｉｔｈｍ

Ｗａｒｐｉｎｇ，（Ｚ—ｒ）Ｏｐｔｉｍｉｚａｔｉｏｎ

收稿日期：２００２—１２—０９；修回日期：２００４—１１—２２

作者简介刘敬伟，男，１９７０年生，博士，主要研究方向为语音识别、说话人识别、基因识别、随机过程和统计学习．Ｅ—ｍａｉｌ：ｌｉｕｊｉｎｇｗｅｉ０３＠ｔｓｉｎｇｈｕａ．ｏｒｇ．ｃｎ．徐美芝，女，１９６８年生，学士，主要研究方向为计算机软件、概率模型、图论和模式识别．郑忠国，男，１９３８年生，教授，博士生导师，主要研究方向为数理统计、不完全数据处理和生物统计．程乾生，男，１９４０年生，教授，博士生导师，主要研究方向为时间序列分析、信号处理和模式识别．

万方数据　

１期刘敬伟等：基于ＤＴＷ的语音识别和说话人识别的特征选择

１

引言

｛Ｔ（１），…，Ｔ（以），…，Ｔ（Ｎ））为两个语音数据，其中Ｒ（ｍ）和Ｔ（行）均为Ｋ维向量，不妨设为Ｒ（ｍ）一语音识别和说话人识别是语音信号处理的两个｛ｒ。（１），…，ｒ。（Ｋ）），Ｔ（咒）一｛ｔ。（１），…，ｔ。（Ｋ））．令重要研究方向，是智能计算机听觉系统必须解决的Ｄ表示加权欧氏距离，ＤＤｒｗ表示两个语音数据的两个问题．语音识别是识别语音数据的语义信息，而ＤＴＷ距离，则

Ｎ

说话人识别是要将说话人区分开来［１］．同时，作为模Ｄ叩ｗ（Ｔ，Ｒ）一ｍｉｎ

ｙ

Ｄ［－ｎ。，ｒｎ，］，

（１）

式识别的分支，语音识别和说话人识别也遵循标准０（’）Ｈｌ一１；ｍｔ一圣（ｎｉ）

的模式识别过程：特征抽取或特征提取、测度或分类其中

Ｋ

器选择、建立模板或训练模型及分类或聚类［２＿６］．

Ｄｉｎｉ，ｍ。］一∑训蠢（ｆ，（是）一＾（忌））２，

语音识别和说话人识别的关键是如何寻找合适ｋ＝１

ｗ（１ｅ）一１，ｋ一１，…，Ｋ．

（２）

的特征和分类器，这两者的研究是相辅相成的．对于西是从（１，１）到（Ｎ，Ｍ）的斜率范围在１／２到２之间特征的研究，在提出新特征的同时，挖掘特征里面的

信息——选择权重、选择特征子集降低维数、研究维

的路径．本文采取两个语音参数序列的起点固定，终点放松两帧．为了得到对称ＤＴＷ距离，采用

数的重要性等，是语音识别和说话人识别的一个重Ｄ肌ｗ—ｍｉｎ（ＤＤｒＷ（Ｔ，Ｒ），ＤＤＴｗ（Ｒ，Ｔ））．

（３）

、要的研究方向，形成了很多研究特征的技术，如Ｆ比［１］，ＰＣＡ，以及近几年发展起来的利用人工神经网３

络、遗传算法、ＧＭＭ、ＨＭＭ、ＥＥＲ、（ｚ—ｒ）优化算法ＤＴＷ意义下的相似矩阵旷４］

等研究特征的方法［７＿１５｜．虽然，说话人识别和语音基于图论的聚类分析是聚类分析和模式分类研

识别的目的不同，但是，现代语音识别领域的研究究中的一个重要方法，其核心思想是将Ｋ维向量空中，说话人识别的特征和语音识别的特征却通常采间的各个样本（Ｋ维向量）之间的关系用图表示出取相同的特征，例如，线性预测倒谱系数（ＬＰＣＣ）和来‰１６’１７｜．Ｄｕｄａ［３１给出了基于标准距离ｄ（ｘ，ｚ７）的Ｍｅｌ频率倒谱系数（ＭＦＣＣ）被广泛应用于说话人识别和语音识别中［７’８］．由于标准的语音特征提取过相似矩阵的聚类方法，其中任意两个样本点之间的标准距离ｄ（ｘ，ｚ７）必须满足三个条件：

程中普遍采用帧间重叠处理，导致了特征序列中向（ｉ）ｄ（ｘ，Ｘ７）一Ｏ｛：ａｘ＝ｚ７，量之间的相关性，所以本文采用标准ＤＴＷ度量，研（Ｉｉ）ｄ（ｘ，３６７）一ｄ（ｘ７，ｚ），

究１６阶ＬＰＣＣ、１６阶ＭＦＣＣ及其一阶差分倒谱的（Ⅲ）ｄ（ｘ，∥）≤ｄ（ｘ，ｚ７）＋ｄ（ｘ，７）．

优化特征子集对语音识别和说话人识别的不同“贡对于语音特征序列，每个语音数据所包含的特献”和重要性．

征向量的个数不同，并且，公式（１）中的ＤＴＷ距离由于本文的研究对象是特征序列，所以本文从显然不满足（ｉ）（ｉｉ）条件口］．下面用本文推广的相图论出发，将标准距离下的相似矩阵［３１推广为基于似矩阵，给出ＤＴＷ意义下的相似矩阵表示［３］．

ＤＴＷ距离的有向图的结点间的相似矩阵，提出了假设Ｃ１，Ｃ２，…，Ｇ表示模式空间的Ｎ个待分的

基于ＤＴＷ距离的有向图方法（ＤＴＷＤＡＧ）．并利用模式类，不妨设ｎ一｛Ｃ１，Ｃｚ，…，ＣＮ｝，其中每一类的

有向图的最大入度口６叫８３作为特征优化的标准，将此样本个数为Ｍ—ｌＣｆＩ，每个样本是Ｋ维向量序列，即

标准与（ｚ—ｒ）优化算法［２』１结合，应用于１６阶每个样本由有限个同维多元向量组成．记向量空间ＡＬＰＣＣ和１６阶ＭＦＣＣ［５’６］以及它们的一阶差分倒谱一｛（ｚ１＇．一，．７２Ｋ）：（∞，…，ｚＫ）∈ＲＫ）（即特征空间）．以的组合特征的特征子集优化问题．在英语孤立数字下都是在向量空间Ａ上的Ｋ维向量序列模式空间ｎ库Ｔ１４６上特定人的语音识别和与文本有关的说话上讨论问题．显然，如果每个样本均由一个Ｋ维向量人辨认的特征优化的模拟实验说明，ＤＴＷＤＡＧ方组成，上述的模型就是经典的模式识别问题．

法能够较好地刻画语音和说话人的特征选择问题．

定义１

对于任意ｚ∈Ｃｉ，称

ｄ如ｗ（ｚ）一

ｒａｉｎＤ册ｗ（ｚ，ｙ）

（４）

２

测试选择——动态时间规正

ｙＥ｛Ｏ＼Ｃｉ｝

为．７Ｃ到其余类的组间距．则Ｃ：的所有样本到其余类（ＤＴＷ）［１，６］

的组间距构成的向量，称为阈值向量．

显然，阈值向量构成了类Ｃ。与其余类的非线性假设Ｒ一｛Ｒ（１），…，Ｒ（仇），…，Ｒ（Ｍ）｝和Ｔ一

边界．

万　

方数据

模式识别与人工智能１８卷

定义２设Ｃ为模式空间ｎ中的任一类，Ｃ＝｛７ｄ，，ｕ。，…ｍ。｝，其中ｕ，为Ｃ的样本数据．ｄ觚，（Ｃ）＝

｛ｄ觚，（口。），…，ｄ觚，（７３。））为类Ｃ的阈值向量．设Ｇ一（Ｖ，Ｅ）是一个简单有向图，它有咒个结点Ｖ＝｛ｕ。，可：，…，巩｝，则恕阶方阵Ａ（Ｇ）一（口擒）称为Ｇ的相似矩阵，其中

ｆ１，

ＤＤｒｗ（Ｖｊ，矾）＜ｄｂ：。（ｑ）

，～

…

１

０，

否则

显然，相似矩阵与邻接矩阵［１８３的差异在于ｎ¨ｌ≤Ｊ≤咒．在相似矩阵中‰一１，但是在邻接矩阵中ａ。一０．因为ｄ加。，（Ｃ）中各个分量不一定相同，此时Ａ（Ｇ）不一定是对称矩阵．当ｄ胁，（Ｃ）中各个分量都相同时，例如，若取

ｄ胁，（Ｃ）一ｒａｉｎ｛ｄ胁，，（ｕ，））［１，１，…，１］，

则此时Ａ（Ｇ）是对称矩阵，这就是通常意义下的关于无向图的相似矩阵．

从Ａ（Ｇ）的定义知＇［１，…，１］Ａ（Ｇ）的第ｉ个分量等于结点Ｖｉ的入度加１．［１，…，１］Ａ（Ｇ）［１，…，１］１’表示在以阈值向量为非线性边界的Ｇ中所有结点的入度之和加订．由上分析，给出如下特征选择的标准作为特征子集优化的目标函数．

准则对模式空问的Ｎ个待分的模式类ｎ一

阢∥“慨）一志萎坠丑甏必

｛Ｃ。，Ｃ：，…，Ｃ～｝，令

（６）

或

阢，，…ｍ，＝南冀型幽寄业型．

（７）

则式（６）表示组内数据以组间距为阈值下的有向图的每个结点与其余结点的平均相关程度，式（７）表示组内数据以组间距为阈值下的有向图的最大入度结点与其余结点的相关程度．Ｆ越大，组内数据越集中．

４

基于最大人度和（Ｚ—ｒ）优化算法‘２，９３的特征选择

特征选择即寻找特征子集＠一｛ｏＴ。“，…，

ｚｋ｝∈Ａ一｛ｚｌ，ｚ２，…，ｚＫ｝，使得

Ｆ（ｘ。，…，ｚ。）一

ｍａｘ

Ｆ（ｘ，，，…，ｚ，）．（８）

”‘

｛（Ｊｌ・…，Ｊ．）：１≤ｆ≤Ｋ｝

因为Ａ一｛ｚ。，ｚ：，…，ｚＫ）的所有可能的特征子集总共有２Ｋ一１种可能．考察所有的子集显然是

万　

方数据ＮＰ—ｈａｒｄ问题［５］．我们采取基于最大人度（式（７））和（ｚ—ｒ）优化算法［１’９’１８３的特征选择方法（其中ｚ一２，ｒ一１），具体如下：

步骤１

１）初始化Ａ一｛ｚｊ，‘ｚ２，…，ｚＫ），＠一Ｏ．２）计算ｉｌ—ａｒｇｍａｘＦ（ｘ，），将ｚｉ添加到＠，并

Ｊ

２．ｔ＾

从以中删掉乳．

步骤２

３）记ｉ２一ａｒｇｍａｘＦ（＠，乃），将ｚ。添加到＠，并

‘

ｊ３．ｔ＾

从以中删掉ｚ…

４）重复３）ｚ次．

５）计算ｉｌ—ａｒｇｍｉｎＦ（ｚｊ），将ｚｆｌ从＠中删掉，

Ｊ

ｚ・∈ｅ

并添加到Ａ．

６）重复５）ｒ次．步骤３

７）重复步骤２直至＠一｛ｚＰＸｉ：，…，ｚ‰），其中ｍ为预先设定的维数．或者

Ｆ（ｘｊ，，…，巧。）一Ｆ（ｚＪ。，…，ｚ＾，Ｘｋ＋１）ｌ＜ｅ，￡为预先给定的精度．

８）结束．

为了与特征优化的子集结果做比较，本文的实验中采取基于ＤＴＷ的平均模板（单模板）［Ｉ．６３下的识别率作为比较．

５

实验结果与分析

５．１

实验数据及特征提取

实验数据是标准的英语数据库Ｔ１４６中的孤立

数字｛０～９），包括８男８女，第一次录音，每人每音

发１０遍，作为训练集．第二次录音，每人每音发１６

遍，作为测试集．所有语音数据经过１２５００Ｈｚ抽样和１６ｂｉｔ量化，用过零率和短时能量检测语音数据的首尾．然后，经过Ｈ（ｚ）一１—０．９５ｚ＿１预加重后，以帧长２５６个点，帧移量１２８个点，逐帧加Ｈａｍｍｉｎｇ窗，提取特征１６阶ＬＰＣＣ、１６阶ＭＦＣＣ［５’６’１４］，并对每

帧倒谱特征加权叫（愚）一１＋会ｓｉｎ（－～访－），Ｋ＝１６，作

厶

１、

为第一个实验集．特征子集选择在训练集上进行，并应用于测试集测试识别率作为比较．上述倒谱系数中只考虑ｃ，～Ｃ，。，Ｃ。被删掉［１４１．之后，将１６阶ＬＰＣＣ、１６阶ＭＦＣＣ求一阶差分倒谱，分别构成３２维的特征序列作为第二个实验集．

５．２

１６阶ＬＰＣＣ及１６阶ＭＦＣＣ的特征选择在实验１中，首先考察１６阶ＭＦＣＣ在语音识

１期

刘敬伟等：基于ＤＴＷ的语音识别和说话人识别的特征选择

别和说话人识别中的特征选择．实验结果见图１，然后考察１６阶ＬＰＣＣ在语音识别和说话人识别中的特征选择，具体见图２．

０ｐｔｉｍｉｚｅｄｄｉｍｅｎｓｉｏｎｎｕｍｂｅｒ

图１

１６阶ＭＦＣＣ在语音识别和说话人识别的特征选择中，代价函数Ｆ值和相应的ＤＴＷ识别率

Ｆｉｇ．１

ＦＶａｌｕｅａｎｄｒｅｃｏｇｎｉｔｉｏｎ

ｒａｔｅｉｎ１６一ｏｒｄｅｒ

ＭＦＣＣ

ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｉｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｎｄｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｒｅｓｐｅｃｔｉｖｅｌｙ

ａｐｔｉｍｉｚｅｄｄｉｍｅｎｓｉｏｎｎｕｍｂｅｒ

图２

１６阶ＬＰＣＣ在说话人识别的特征选择中，代价函数Ｆ值和相应的ＤＴＷ识别率

Ｆｉｇ．２Ｆｖａｌｕｅａｎｄ

ｒｅｃｏｇｎｉｔｉｏｎ

ｒａｔｅｉｎ１６一ｏｒｄｅｒ

ＬＰＣＣ

在标准的Ｔ１４６语音库的实验结果表明，图论方法能够较好地反映特征选择的“动态”优化过程．同时，ＬＰＣＣ作为说话人特征，优化特征子集的个数为６时，识别率达到８７．１０％．ＬＰＣＣ作为语音特征，优化特征子集的个数是２时，识别率达到８６．７９％；优化特征子集的个数为３时，识别率达到９３．５９％．ＭＦＣＣ作为说话人特征，优化特征子集的个数为６

万　

方数据时，识别率达到８６．５１％．ＭＦＣＣ作为语音特征，优化特征子集的个数是１时，识别率达到８９．３８％；优化特征子集的个数为２时，识别率达到９３．８０％．

通过上述分析，我们对１６阶ＬＰＣＣ及１６阶ＭＦＣＣ在基于ＤＴＷ的图论聚类方法下，对说话人识别和语音识别的不同“贡献”分布情况有了较为清楚的认识．但是，由于测试数据中时间序列的长度差异太大，使得ＤＴＷＤＡＧ方法的聚类算法没有找到优化的特征子集．为了与文献Ｅｇ］中的结果作比较．我们在第二个实验数据集上进行了特征优化实验．

５．３

１６阶ＬＰＣＣ、１６阶ＭＦＣＣ及一阶差分倒谱的特征选择

在实验中，我们将１６阶ＬＰＣＣ、１６阶ＭＦＣＣ及

一阶差分倒谱分别组成的３２维时间序列，利用ＤＴ—

ＷＤＡＧ进行优化．实验结果见图３和图４．

实验结果表明，ＭＦＣＣ及差分倒谱作为语音特征在优化子集个数为１２时识别率（９８．０１％）超过全

部３２维特征的识别率（９７．９７％）．ＬＰＣＣ及差分倒谱作为语音特征在优化子集个数为１２时识别率（９７．６２％）超过全部３２维特征的识别率（９７．５４％），作为说话人特征优化子集个数为３０时识别率（９２．０３％）超过全部３２维特征的识别率（９１．７２％）．实验结果表明，ＤＴＷＤＡＧ方法可以在说话人识别和语音识别中获得优化子集．对于ＭＦＣＣ及差分倒谱在本文的实验中没有找到优化子集的一个可能的原因是，预处理时自动能量检测切音算法，导致某些数据信息损失太大．

０ｐｔｉｍｉｚｅｄｄｉｍｅｎｓｉｏｎｎｕｍｂｅｒ

图３

１６阶ＭＦＣＣ及一阶差分倒谱在语音识别和说话人识别中特征选择中，代价函数Ｆ值和相应的ＤＴＷ识别率

Ｆｉｇ．３ＦＶａｌｕｅａｎｄｒｅｃｏｇｎｉｔｉｏｎ

ｒａｔｅｉｎ１６一ｏｒｄｅｒＭＦＣＣ

ａｎｄｄｅｌｔａ

ＭＦＣＣｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｉｎｓｐｅｅｃｈ

ｒｅｃｏｇ—

ｎｉｔｉｏｎａｎｄｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｒｅｓｐｅｃｔｉｖｅｌｙ

５４

模式识别与人工智能

１８卷

ｏｐ略ｚ

０ｐｔｉｍｉｚｅｄｄｉｍｅｎｓｉｏｎｎｕｍｂｅｒ

图４

１６阶ＬＰＣＣ及一阶差分倒谱在语音识别和说话人识别特征选择中，代价函数Ｆ值和相应的ＤＴＷ识别率

Ｆｉｇ．４ＦＶａｌｕｅａｎｄｒｅｃｏｇｎｉｔｉｏｎ

ｒａｔｅ

ｉｎ１６－ｏｒｄｅｒＬＰＣＣａｎｄ

ｄｅｌｔａＬＰＣＣｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｉｎ

ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ

ａｎｄｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｒｅｓｐｅｃｔｉｖｅｌｙ

６

结论

本文将基于图论和动态时间规正的聚类方法结合，推广了基于标准距离的相似矩阵方法，提出了基于ＤＴＷ和图论的说话人识别和语音识别的特征选择方法．实验结果表明，本文所提的方法较好地反映了ＬＰＣＣ和ＭＦＣＣ以及它们的一阶差分倒谱在不同的模式识别过程中特征子集的选择和维数的重要性．进一步的工作是把本方法应用于噪声环境的特征分析、不同加权测度下的特征选择问题、不同语言的语音数据库上的特征选择问题等．同时，本方法为非标准距离在统计模式识别中的应用，尤其是高维相关时间序列的模式识别提供了有向图相似矩阵聚类方法．

致谢本文的部分工作开始于北京大学数学科学学院攻读硕士、博士学位期问．由博士后科学基金赞助发表．

参

考文献

［１］Ｙａｎｇ

Ｘ

Ｊ，Ｃｈｉ

Ｈ

Ｓ．Ｄｉｇｉｔａｌ

Ｐｒｏｃｅｓｓｉｎｇｏｆ

ＳｐｅｅｃｈＳｉｇｎａｌ．Ｂｅｉ

ｊｉｎｇ：Ｐｒｅｓｓ

ｏｆＥｌｅｃｔｒｉｃ

Ｉｎｄｕｓｔｒｙ，１９９５（ｉｎ

Ｃｈｉｎｅｓｅ）

万　

方数据（杨行峻，迟惠生．语音信号数字处理．北京：电子工业出版社，

１９９５）

［２］Ｆｕｋｕｎａｇａ

Ｋ．ＩｎｔｒｏｄｕｃｔｉｏｎｔＯ

ＳｔａｔｉｓｔｉｃａｌＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２ｎｄ

Ｅｄｉｔｉｏｎ．Ｌｏｎｄｏｎ，ＵＫ：ＡｅａｄｅｍｉｃＰｒｅｓｓ，１９９０

Ｅ３］ＤｕｄａＲ，ＨａｒｔＰ．ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＳｃｅｎｅＡｎａｌｙｓｉｓ．Ｎｅｗ

Ｙｏｒｋ。ＵＳＡ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，１９７３

Ｆ４］Ｂｉａｎ

Ｚ

Ｑ，Ｚｈａｎｇ

ＸＧ．Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ．２ｎｄ

Ｅｄｉｔｉｏｎ．Ｂｅｉ—

ｊｉｎｇ：ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ

Ｐｒｅｓｓ，２０００（ｉｎＣｈｉｎｅｓｅ）

（边肇祺，张学工．模式识别．第二版．北京：清华大学出版社，

２０００）

［５］ＬｉｕＪＷ．ＤＴＷ—Ｓｉｍｉｌａｒｉｔｙ—Ｂａｓｅｄ

Ｓｔａｔｉｓｔｉｃａｌ

Ｌｅａｒｎｉｎｇ

Ｍｅｔｈｏｄａｎｄ

ＩｔｓＡｐｐｌｉｃａｔｉｏｎ

ｉｎＰａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ．Ｐｈ．Ｄ

Ｄｉｓｓｅｒｔａｔｉｏｎ．Ｐｅ—

ｋｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ，２００２（ｉｎ

Ｃｈｉｎｅｓｅ）

（刘敬伟．基于ＤＴＷ相似度的统计学习方法及其在模式识别中的应用．博士论文．北京大学，北京，２００２）

［６］Ｒａｂｉｎｅｒ

Ｌ

Ｒ，Ｊｕａｎｇ

ＢＨ．Ｆｕｎｄａｍｅｎｔａｌｓｏｆ

ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｓ．

Ｎｅｗ

Ｊｅｒｓｅｙ，ＵＳＡ：Ｐｒｅｎｔｉｃｅ

Ｈａｌｌ，１９９３

［７］ＣａｍｐｂｅｌｌＪ

Ｐ．Ｓｐｅａｋｅｒ

Ｒｅｃｏｇｎｉｔｉｏｎ：Ａ

Ｔｕｔｏｒｉａｌ．Ｐｒｏｃｏｆ

ｔｈｅ

ＩＥＥＥ，１９９７，８５（９）：１４３７—１４６２

［８３

ＦｕｒｕｉＳ．ＲｅｃｅｎｔＡｄｖａｎｃｅｓ

ｉｎｔｈｅ

ＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ．Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ

Ｉ。ｅｔｔｅｒｓ，１９９７，１８（９）：８５９—８７２

［９］ＰａｎｄｉｔＭ，ＫｉｔｔｌｅｒＪ．ＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎｆｏｒａＤＴＷ—ＢａｓｅｄＳｐｅａｋｅｒ

Ｖｅｒｉｆｉｃａｔｉｏｎ

Ｓｙｓｔｅｍ．Ｉｎ：Ｐｒｏｃ

ｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄ

Ｓｉｇｎａｌ

Ｐｒｏｃｅｓｓｉｎｇ．Ｓｅａｔｔｌｅ，

ＵＳＡ，１９９８，Ⅱ：７６９

７７２

［１０３

ｖａｎ

ＶｕｕｒｅｎＳ，Ｈｅｒｍａｎｓｋｙ

Ｈ．Ｏｎｔｈｅ

Ｉｍｐｏｒｔａｎｃｅ

ｏｆ

Ｃｏｍｐｏ

ｎｅｎｔｓ

ｏｆ

ｔｈｅＭｏｄｕｌａｔｉｏｎ

ＳｐｅｃｔｒｕｍｆｏｒＳｐｅａｋｅｒ

Ｖｅｒｉｆｉｃａｔｉｏｎ．Ｉｎ：Ｐｒｏｃｏｆｔｈｅ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ

Ｓｐｏｋｅｎ

Ｉ。ａｎｇｕａｇｅ

Ｐｒｏ—

ｃｅｓｓｉｎｇ．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，１９９８，３２０５—３２０８

［１１］Ｋａｎｅｄｅｒａ

Ｎ，ＡｒａｉＴ，ＨｅｒｍａｎｓｋｙＨ，ＰａｖｅｌＭ．Ｏｎ

ｔｈｅ

Ｉｍｐｏｒ—

ｔａｎｃｅ

ｏｆＶａｒｉｏｕｓ

Ｍｏｄｕｌａｔｉｏｎ

Ｆｒｅｑｕｅｎｃｉｅｓ

ｆｏｒ

ＳｐｅｅｃｈＲｅｃｏｇｎｉ—ｔｉｏｎ．Ｉｎ：ＰｒｏｃｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎ

Ｓｐｅｅｃｈ

Ｃｏｍｍｕｎｉ—

ｃａｔｉｏｎ

ａｎｄＴｅｃｈｎｏｌｏｇｙ．Ｒｈｏｄｅｓ，Ｇｒｅｅｃｅ，１９９７，Ⅲ：１０７９—１０８２

［１２］ＳａｍｕｒＭＲ．Ｓｅｌｅｃｔｉｏｎ

ｏｆＡｃｏｕｓｔｉｃＦｅａｔｕｒｅｓｆｏｒ

ＳｐｅａｋｅｒＩｄｅｎｔｉｆｉ—

ｃａｔｉｏｎ．ＩＥＥＥ

Ｔｒａｎｓ

ｏｎ

Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅＣｈ

ａｎｄ

ＳｉｇｎａｌＰｒｏｃｅｓｓ—

ｉｎｇ，１９７５，２３（２）：１７６—１８２

［１３］ＣｈａｒｌｅｔＤ，ＪｏｕｖｅｔＤ．Ｏｐｔｉｍｉｚｉｎｇ

ＦｅａｔｕｒｅＳｅｔ

ｆｏｒＳｐｅａｋｅｒ

Ｖｅｒｉ—

ｆｉｃａｔｉｏｎ．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ

Ｌｅｔｔｅｒｓ，１９９７，１８（９）：８７３—８７９

［１４］Ｊｕａｎｇ

Ｂ

Ｈ，Ｒａｂｉｎｅｒ

Ｌ

Ｒ，ＷｉｌｐｏｎＪ

Ｇ．ＯｎｔｈｅＵｓｅｏｆＢａｎｄｐａｓｓ

Ｌｉｆｔｅｒｉｎｇｉｎ

ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ．ＩＥＥＥ

Ｔｒａｎｓ

ｏｎ

Ａｃｏｕｓｔｉｃｓ，

ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１９８７，３５（７）：９４７—９５４

［１５３ＨａｙｄａｒＡ，ＤｅｍｉｒｅｋｌｅｒＭ，ＹｕｒｔｓｅｖｅｎＭ

Ｋ．ＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎ

Ｕｓｉｎｇ

Ｇｅｎｅｔｉｃ

Ａｌｇｏｒｉｔｈｍａｎｄ

Ｉｔｓ

Ａｐｐｌｉｃａｔｉｏｎｔｏ

Ｓｐｅａｋｅｒ

Ｖｅｒｉｆｉ

ｃａｔｉｏｎ．ＥｌｅｃｔｒｏｎｉｃｓＬｅｔｔｅｒｓ，１９９８，３４（１５）：１４５７—１４５９

［１６］Ｅｖｅｒｉｔｔ

Ｂ

Ｓ．Ｃｌｕｓｔｅｒ

Ａｎａｌｙｓｉｓ．３ｒｄＥｄｉｔｉｏｎ．Ｎｅｗ

Ｙｏｒｋ，ＵＳＡ：

Ｊｏｈｎ

Ｗｉｌｅｙ＆Ｓｏｎｓ．１９９３

［１７］Ｇｏｒｄｏｎ

Ａ

Ｄ．Ｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｌｏｎｄｏｎ，ＵＫ：Ｃｈａｐｍａｎ

ａｎｄＨａｌｌ，

１９８１

［１８］ＢｏｌｌｏｂｆｉｓＢ．ＭｏｄｅｒｎＧｒａｐｈ

Ｔｈｅｏｒｙ．ＮｅｗＹｏｒｋ，ＵＳＡ：Ｓｐｒｉｎｇｅｒ

—Ｖｅｒｌａｇ，１９９８

基于DTW的语音识别和说话人识别的特征选择

作者：作者单位：

刘敬伟，徐美芝，郑忠国，程乾生， LIU Jing-wei， XU Mei-Zhi， ZHENG Zhong-Guo， CHENG Qian-Sheng

刘敬伟,LIU Jing-wei(清华大学,电子工程系,北京,100084;北京大学,数学科学学院,北京,100871) ，徐美芝,XU Mei-Zhi(清华大学,数学科学系,北京,100084)，郑忠国,程乾生,ZHENG Zhong-Guo,CHENG Qian-Sheng(北京大学,数学科学学院,北京,100871)模式识别与人工智能

PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE2005,18(1)5次

刊名：英文刊名：年，卷(期)：被引用次数：

参考文献(18条)

1. Yang X J;Chi H S Digital Processing of Speech Signal 19952. FuKunaga K Introduction to Statistical Pattern Recognition 19903. Duda R;Hart P Pattern Classification and Scene Analysis 19734. Bian Z Q;Zhang X G Pattern Recognition.2nd Edition 2000

5. Liu J W DTW-Similarity-Based Statistical Learning Method and Its Application in PatternRecognition.Ph.D Dissertation 2002

6. Rabiner L R;Juang B H Fundamentals of Speech Recognitions 19937. Campbell J P Speaker Recognition:A Tutorial 1997(09)8. Furui S Recent Advances in the Speaker Recognition 1997(09)

9. Pandit M;Kittler J Feature Selection for a DTW-Based Speaker Verification System[外文会议] 199810. van Vuuren S;Hermansky H On the Importance of Components of the Modulation Spectrum for SpeakerVerification 1998

11. Kanedera N;Arai T;Hermansky H;Pavel M On the Importance of Various Modulation Frequencies forSpeech Recognition 1997

12. Samur M R Selection of Acoustic Features for Speaker Identification 1975(02)

13. CHARLET D;Jouvet D Optimizing Feature Set for Speaker Verification[外文期刊] 1997(09)

14. Juang B H;Rabiner L R;Wilpon J G On the Use of Bandpass Liftering in Speech Recognition 1987(07)15. Haydar A;Demirekler M;Yurtseven M K Feature Selection Using Genetic Algorithm and Its Applicationto Speaker Verifi cation[期刊论文]-Electronics Letters 1998(15)16. Everitt B S Cluster Analysis 199317. Gordon A D Classification 198118. Bollobás B Modern Graph Theory 1998

本文读者也读过(8条)

1. 一种基于DTW的孤立词语音识别算法[期刊论文]-计算机仿真2009,26(10)

2. 朱旻昊. 张忠能. Zhu Minhao. Zhang Zhongneng DTW算法的研究和改进[期刊论文]-微型电脑应用2010,26(9)3. 张俊基于VQ和DTW相结合的语音识别算法研究[学位论文]2007

4. 李宏言. 盛利元. 陈妮. LI Hong-yan. SHENG Li-yuan. CHEN Ni 基于矢量量化和查找表的改进DTW语音识别方法[期刊论文]-计算机工程与设计2007,28(19)

5. 肖利君基于DTW模型的孤立词语音识别算法实现研究[学位论文]2010

6. 汲清波. 卢侃. 李康. JI Qing-bo. LU Kan. LI Kang 在孤立词语音识别中动态时间规正的改进算法[期刊论文]-计算机工程与应用2010,46(25)

7. 姜干新. 陈伟嵌入式语音识别系统中的DTW在线并行算法[期刊论文]-计算机应用研究2010,27(3)8. 余良俊基于DTW的话者识别系统的实现[期刊论文]-软件导刊2010,09(5)

引证文献(5条)

1. 黎育红. 张熹. 袁荃基于语音识别技术的门禁系统的研究[期刊论文]-电子技术应用 2006(12)2. 金小峰. 崔荣一. 洪炳镕语音特征匹配的图像配准方法[期刊论文]-哈尔滨工业大学学报 2008(7)3. 张燕. 唐振民. 李燕萍基于单字音特征提取的说话人识别方法[期刊论文]-计算机工程 2009(10)4. 李超嵌入式语音识别技术实现与应用[期刊论文]-计算机与现代化 2011(11)

5. 胡文吉. 王让定基于小波包分析的特征参数提取[期刊论文]-宁波大学学报（理工版） 2007(1)

本文链接：http://d.wanfangdata.com.cn/Periodical_mssbyrgzn200501009.aspx

与《基于DTW的语音识别和说话人识别的特征选择》相关的范文

05-02 市世博科技项目申报材料

为进一步推进世博会建设.保障世博会运行和管理,在国家科学技术部的支持下,*市科学技术委员会发布*年世博科技专项指南. 一.研究内容和期限专题1世博园区建设规划及后续利用研究研究目标:针对世博会"城市试验区"."创新广场".世博园区新能源利用和园区后续利用.以及世博科技推进的需求,完成相应的规划方案,为世博会"城市,让生活更美好"主题提 ...

03-02 国税信息技术交流材料

一、推进征管工作组织方式变革　　（一）加强对应用需求的统筹　　信息技术的持续快速发展，使得技术应用需求不断增长和扩充，而来自决策层、管理层和执行层的几乎每一个应用需求都需要征管资源的配套。面对应用需求快速增加、征管资源供给总量不足的现实，决策层必须建立健全识别应用需求的重要性、急迫性和可实现性的工作机制，改变过去分工组织、分别统筹、分散推动的领导模式，加强决策高层的内部协调，以及时、准确地确定 ...

12-29 登山行动重大项目申报材料

　　为了进一步加强本市的基础研究工作，提升*科技持续创新能力和国际学术地位，围绕国家和*市中长期科技发展规划和“登山行动计划”的要求和重点任务，针对生命科学、信息科学、材料科学等领域的前沿科学问题。开展以应用为导向的创新研究，特发布本指南。　　一、研究专题和期限　　专题一、成形制造中材料微观结构与应力场控制的研究　　研究目标、内容　　成形制造过程中的材料微观结构与应力场的控制是高精度、高性 ...

02-01 收音机焊接电工实习报告

　　一、实习内容：　　(1)学习识别简单的电子元件与电子线路；　　(2)学习并掌握收音机的工作原理；　　(3)按照图纸焊接元件，组装一台收音机，并掌握其调试方法。　　二、实习器材介绍：　　(1)电烙铁：由于焊接的元件多，所以使用的是外热式电烙铁，功率为30w，烙铁头是铜制。　　(2)螺丝刀、镊子等必备工具。　　(3)松香和锡，由于锡它的熔点低，焊接时，焊锡能迅速散步在金属表面焊接牢固 ...

09-08 六年级语文期末复习教案

六年级语文期末复习教案一、汉语拼音　　汉语拼音是帮助识字和学习普通话的工具。在小学阶段要求熟练掌握声母、韵母、拼音、声调、整体认读音节和一些拼写规则，能正确地拼读、拼写音节；能按顺序背诵、默写字母表，认识大写字母，会用音序查字典；能运用拼音识字，正音和学习普通话。 1、声母、韵母、声调一般说来，一个汉字就是一个音节。绝大多数汉语的音节是由声母和韵母组成的。起头的音节叫声母，声母后面的音节叫韵母 ...

10-20 供电企业年企业文化建设指导意见

公司各党支部（总支）：　　企业文化建设是一项事关企业发展大局的系统工程，先进的企业文化是企业持续发展的精神支柱和动力源泉，是企业核心竞争力的重要组成部分。建设先进的企业文化，是企业深化改革、加快发展、做强做大的客观需要；是发挥党的政治优势，建设高素质的员工队伍，促进企业全面发展的必然选择；对于确保企业提高管理水平、增强凝聚力和持续、健康、快速发展具有重要意义。　　一、企业文化建设的指导思想　 ...

09-12 幼儿园小班秋季学期班务工作计划

幼儿园小班秋季学期班务工作计划　　　一、环境分析：　　　　本学期全班共有幼儿35人，其中男19人，女16人。大都为刚入园的新生。因为孩子年龄小，对于家人的依恋，对于环境感到生疏，情绪很不稳定，是以刚入园的一周内，班级内哭闹征象比力严重，如：王心怡、来晓宇等依赖性特别强，还影响到其它的孩子，经过家园的配合教育，现在初步适应了幼稚园生活，不再哭闹。在教员的耐烦安慰及疏导下，经过各种方法转移了孩子的 ...

01-01 三年级英语试卷分析

三年级英语试卷分析一、试卷整体情况分析本次试题分两大部分，一部分是听力，另一部分是笔试。从本次考试的情况看，失分较多的是听力题，这次的试题主要以听力题为主，就本次考试的情况分析如下。听力部分第一题，听录音在括号中选择正确单词填空，此题是考查学生对单词的朗读能力，正确率较高，约为96%。第二题，听录音、标序号。此题主要考查学生对日常交际用语的运用能力，学生错题的原因有的是因为粗心、紧张导致 ...

07-05 2014年度第二学期考试英语试卷分析

20xx-20xx学年度第二学期考试英语试卷分析优秀率及格率均分三年级 86.38% 97.8% 89 四年级 82.6% 96.8% 88.3 五年级六年级 74.23% 38.42% 84.45 此次的英语试卷主要考察语言知识，语言技巧以及学习策略等方面对学生的综合语言运用能力进行了全面的、系统的检测。共分为两部分，第一部分是听力题，第二部分是笔试题。一、试题的特点: (一)、三年 ...

03-11 "绿坝-花季护航"使用心得体会

“绿坝-花季护航”绿色过滤软件是一款保护未成年人健康上网的终端过滤软件。它基于图像内容和语义的智能识别技术，文字和图像过滤功能强大，能主动识别、拦截黄色图像及不良网站。该软件文字过滤采用语义分析技术，拥有独特的褒贬义判断与红黑判断技术，可根据全文语境分析文章内容，锁定不良信息，避免了同类软件中依靠“关键字”技术导致对错难分、一律屏蔽的不足。另外，其强大的管理功能还可以限定上网内容与时间，帮助用户有 ...

随机推荐

猜你喜欢

基于DTW的语音识别和说话人识别的特征选择

·定结县中学学习实践科学发展观第二阶段工作总结

·敬业奉献

·2010年上半年新农村建设总结

·事业单位财务管理工作总结

·调研学习心得体会

·浅谈成都三大历史文化街区的保护与利用

·支部民主生活会总结

·[移动终端销售能力提升培训]课程方案

·民法总论的简答题

·女人公认的陌陌上最有好感的头像及展示面

·"与经典同行"读书心得征文比赛方案

·暑期广州打工社会实践报告

·内部审计师工作总结

·行政助理实习报告

·毕业祝福语写给我的同学我的朋友

·顶着雾霾来上学作文

·小班上主题一[幼儿园真好]第一周备课

·广告行业常用词中英文对照

·打开孩子心中的那把锁

·走进抽象艺术教案