中国生物医学工程学报
AR模型在远程心电诊断中的应用
1
,
2
(1.浙江科技学院信息与电气工程学系,杭州市310012 ; 2.浙江大学生物医学工程教育部重点实验室,杭州310027)
摘要: 在远程心电诊断中,计算机辅助ECG诊断通常是在接收到ECG信号、进而解压重建后进行的,这样便造成诊断工作的延误。为此,本文提出了一种适于远程心电诊断的基于AR模型的ECG直接分类的方法,它无需等ECG解压重建后再行诊断。特别地,AR模型方法能克服现存ECG分类技术实现困难、处理时间长和只能对2-3类ECG进行分类的不足。具体地,利用AR模型系数及其建模误差作为特征对ECG信号进行压缩和分类,在对信号特征分类时,采用了非线性二次判别函数的形式。利用文中方法对MIT-BIH标准数据库中的NSR、APC、PVC、SVT、VT和VF各200个样本信号进行了测试,获得了93.5%-97.86%的分类精度。
关键词: 远程心电,ECG信号,AR建模,二次判别函数,特征提取
Application of AR Model in Telediagnosis of Cardiac Arrhythmias
GE Ding-fei1,XIA Shun-ren2
(1. Department of Information & Electrical Engineering, Zhejiang University of Science and Technology, Hangzhou 310012;
2.The Key Laboratory of Biomedical Engineering, Ministry of Education, Zhejiang University, Hangzhou 310027)
Abstract:
Electrocardiogram (ECG) feature extraction for the classification and diagnosis is performed on the
reconstructed ECG signals in telecardiogram diagnosis systems. Computer-assistant automatic diagnosis will be delayed due to the reconstruction and feature extraction. A technique based on autoregressive (AR) modeling is proposed, which is suitable for telecardiogram diagnosis systems. The classification can be performed directly before ECG signal reconstructed. The AR coefficients and modeling errors were used to compress and classify the ECGs. More importantly, AR modeling is easy to compute and implement, and most of other existing techniques classify two or three arrhythmias only or have significantly large processing times. AR technique was utilized for classification into arrhythmias such as NSR, PVC, APC, VT, VF, and SVT. The accuracy of classification is 93.5% to 97.86% using the quadratic discrimination function stage-by-stage.
Key words: Telecardiogram, ECG signal, AR modeling, Quadratic discrimination function, Feature extraction
0 引言
随着现代通迅技术的发展,远程医疗的实现已成为可能,并将会越来越流行。心电信号(ECG)是医生进行诊断的重要依据。在远程心电诊断中,ECG的压缩方法对计算机辅助自动诊断的快速性有着直接的影响,ECG的压缩方法可分为三类[1]:(1)直接方法:在空域内处理ECG信号的压缩方法。直接方法因为计算简单和高效率而得到广泛地应用,但在远程心电诊断中,计算机辅助自动诊断必须在信号重建、特征提取以后才进行,这便造成诊断工作的延误;(2) 变换方法:将ECG信号进行正交变换的压缩方法。变换压缩方法计算复杂而且压缩率很低,特别是在单导联情况下压缩率更低;(3) 参数方法:提取ECG信号特征来压缩的方法,该特征除了可被用来重建信号外,同时还可以被用来分类。因此基于参数方法的ECG信号分类和重建是个并行的过程,可以极大地提前诊断的时间。
本文介绍了适于远程心电诊断的基于AR模型的ECG压缩和分类方法,AR模型在远程心电诊断中的应用方案如图1所示。基于AR建模技术的ECG压缩是属于参数压缩的方法,它把AR系数及其建模误差作为特征来进行ECG的压缩、解压和分类,在分类时,采用了二次判别函数分类法[2]。更重要的是,AR建模技术还能克服其它ECG分类技术实现困难、处理时间长和只能对2至3类ECG进行分类的不足,
比如:相关波形法(CWA)[3]、直接ECG特征检测法[4]、傅立叶变换法[5]、功率谱分析法[6]、复杂度测量法[7]
、TLS (Total Least Squares)Prony建模法[8]、自适应卡尔曼滤波器法[9]、使用LPC系数和模糊ARTMAP神经网络分类法等[10]。本文利用AR建模技术对MIT-BIH标准数据库中的以下几类ECG进行了分类测试:正常窦性心律(NSR)、心房早期收缩(APC)、心室早期收缩(PVC)、室上性心动过速(SVT)、心室性心动过速(VT)和心室纤维性颤动(VF)。结果表明,该方法可获得7.8倍的压缩率和93.5%到97.86%的分类精度。
1 方法
1.1 ECG信号的预处理
本文中所使用的ECG信号取自MIT-BIH数据库:NSR信号、APC信号和PVC信号取自“MIT-BIH arrhythmia database”,其采样频率是360Hz;VT信号和VF信号取自“MIT-BIH Ventricular Arrhythmia database”,其采样频率是250Hz;SVT信号取自“MIT-BIH superventricular arrhythmia database”,其采样频率是128Hz。在建模时,所有ECG信号的频率都转化为250Hz。每类ECG各选了200个样本信号,每个样本信号有300个采样点,即数据窗口为300个采样点,其中,100个采样点在ECG峰值R以前,200
个采样点在ECG峰值R以后。 在建模以前,先对ECG信号进行滤波以消除由电源、呼吸等原因引起的噪音。为了满足医生和护士监视的需要,ECG信号的带宽应保持在1Hz到50Hz之间[11]。用一个带通滤波器(BPF)对ECG信号进行滤波[11],其上下边带截止频率是1Hz和50Hz。这能有效地消除电源引起的噪音(60Hz)、呼吸引起的噪音(0.2Hz左右)、电极移动引起的低频噪音以及肌肉收缩引起的高频噪音。
不同种类的ECG有着不同的心跳率和RR间期。本文使用了通常情况下的NSR信号,其心跳率是每分种60至100次。APC的RR间期比NSR的RR间期短,而且紧跟其后的RR间期不会比NSR的RR间期长,VT和VF的RR间期比NSR的RR间期更要短得多。因此300个采样点的数据窗口能足以包含一个周期的ECG信息。 1.2 AR模型的建立
AR模型是一个线性输出模型,其方程式是[12]:
v(k)aiv[ki1]n(k) (1)
i2
p1
其中,v(k)为ECG信号的时间序列;ai为AR模型的预测系数;p为AR模型的阶次;n(k)为预测误差,即建模误差。本文采用Burg算法进行AR模型参数估计[12],在建模中,阶次p的选择至关重要。这里引用以下二个准则来确定模型阶次。 (1)自相关系数ρ[13]:
N~(i)m~)(v(i)m)(vip1
NN~~)2(v(i)m)2(v(i)mip1ip1
(2)
~分别为ECG信号原始值和预测值~(i)分别为ECG信号i时刻的原始值和预测值;m和m其中,v(i)和v
的均值;N为数据窗口长度;p为模型的阶数。
(2)MDL准则(Minimizes the Description Length)[12,14]:
2
MDL(Np)lnnpln(Np) (3)
式中
2
n为建模误差
n(k)的方差。
MDL
MDL的敏感性函数SP:
MDL
SP
MDL/MDL
(4)
p/p
MDL
其中,ΔMDL是对应于ΔP的变化量 (本文ΔP =1 ),SP反映了模型阶数p对MDL的影响。
1.3 ECG特征的提取
我们采用AR系数作为ECG的特征,此外,由建模误差n(k)可得到特征n1和n2,k=p+1, p+2,…N ,其算法是[15]:(1)选定某一阈值th,thCn(k)), C为待定正数。(2)计算n1,n2:n1是n(k)的值大于th的个数;n2是n(k)的值小于-th的个数。所以本文利用了特征向量x=[a2, a3, …,ap+1, n1, n2]作为ECG信号的特征。
1.4 ECG数据压缩与解压的方案 关于ECG的压缩,我们参考了Ruttimann和Pipeerger的改进霍夫曼编码法对ECG进行压缩的结果[11],其编码对象是AR系数和建模误差,得到的压缩率为7.8倍。图1中远程传输的信息为AR系数、模误差及特征n1和n2。尽管建模误差和原始ECG信号有着相同的采样点数,但是建模误差动态范围比原始ECG动态范围更小,所以表示建模误差所需的位数(Bit)比表示原始ECG所需的位数更少,从而可获得较高的压缩率。
压缩率的计算公式为: 压缩率代表ECG原始值所需的位数 (5)
压缩后代表ECG所需的位数
1.5 基于非线性二次判别函数的分类算法及性能评测
根据特征向量x,利用树状决策过程并基于二次判别函数对ECG信号进行分类。二次判别函数的方程为[2]:
yw0wixi2
i1d
d1i1ji1
w
d
ij
xixj (6)
其矩阵形式为:
yXW (7)
其中,x1,x2,…xd分别为ECG特征值;y为目标值,即成员关系;ε为二次判别函数误差;X为1×(d(d+3)/2+1)的行矩阵,W为(d(d+3)/2+1)×1的列矩阵,X和W分别为:
X=[1,x1,x2,…xd,x12,x22,…xd2,2x1x2, 2x1x3…2x1xd,2x2x3,2x2x4,…2x2xd,…2xdxd-1] W=[w0,w1,w2,…wd,w11,w22,…wdd,w12,w13,…w1d,w23,w24,…w2d,…wdwd-1]T
将各类ECG的目标值y分别定义为某一整数,如1、-1等,假设所有ECG样本数为D,则可得到如下的方程:
YAWE (8)
其中,Y=[y1,y2,…yD]T,为相应于D个样本的目标向量;E=[ε1,ε2,…εD ]T,为相应于D个样本的二次判别函数误差向量;A=[X1,X2,…XD]T,为D×(d(d+3)/2+1)矩阵,其中,Xi(i=1,2,…,D)为D个样本按以上X方式定义的矩阵。
式(8)基于最小二乘平方误差准则的伪逆解为:
W(ATA)1ATY (9)
所以分类器的判别函数为:
~yXW (10)
在分类过程中,其分类算法如表1所示。首先,对各类ECG进行分组,依据各类ECG特征值之间的
中心距进行分组,中心距小的被分为同一组;其次,在每一步中,分别定义各组的成员关系,即各组y对应于1、-1等。我们在各类ECG样本集中随机选取一定数量的样本作为学习数据,把其余的作为测试数据。在分类算法的每一步中,利用学习数据按式(9)计算出W,并利用式(10)计算出试验数据判别函数值,并依据此值进行分类。
为进一步评价文中算法,本文利用了敏感性和特异性来衡量分类结果的性能。其计算公式分别为:
敏感性
TEFN
(11) TE
特异性
TEFP
(12) TE
其中,TE为各类ECG样本总数;FN为各类ECG假阴性总数;FP为各类ECG假阳性总数。
2 结果
在这一节中,我们给出了AR建模、压缩及分类的结果。在本文中,6类不同ECG经过预处理后分别用于AR建模,利用AR系数和建模误差对各类ECG进行压缩、解压和分类。在分类时,进行了基于树状决策过程和二次判别函数的分类。 2.1 AR建模、压缩与解压的结果
如上所述,我们利用MDL、MDL敏感性函数和自相关系数ρ作为选择AR模型阶次的准则。在图2中,我们给出了MDL与模型阶次p的关系。由此可见,MDL在开始时随着模型阶次的增加而减少,但是当p≧4时,MDL基本保持不变。我们同时在图3中给出了MDL敏感性函数SPMDL与模型阶次p的关系。从中可见,当p≧4时,p对MDL的影响很小。因而我们选择模型阶次p=4,这一结果与其它的研究结果是一致的。有关研究认为,当p≧3时,建模误差不会随p的增加而减少[16,17]。在p=4时,我们得到各类ECG自相关系数ρ=0.99,这表明预测ECG与原始ECG有着极强的相关性。图4为各类ECG建模误差n(k)分布的一个结果(p=4)。由此可见,各类ECG存在明显不同的分布,因此本文选择n1,n2作为ECG特征值,这不会导致因生成n1,n2而额外地增加成本。仿真结果还表明,在C=0.25时,可取得最好的分类结果。各特征值的平均值如表2所示。我们直接参考Ruttimann和Pipberger对ECG进行了压缩的结果,可得到压缩率为7.8倍[11]。 2.2 ECG分类的结果
在分类时,利用树状决策过程和二次判别函数对各类ECG进行分类。分类过程中的数据分组、成员关系和决策规则如分类算法表1所示。表3是各类ECG特征值之间的欧几里得中心距。由表3可知:VT/VF、NSR/APC/PVC和SVT分别聚集在一起,而VT/VF、NSR/APC/PVC和SVT互相离得较远。因此我们按如下步骤进行分类:第一步:把SVT单独分为一组,把NSR/APC/PVC和VT/VF各分为一组,并分别定义其成员关系为“2”、“1”和“-1”,且依据ỹ1的值进行分类,SVT首先被分离出来。第二步:把APC和PVC各分为一组,并分别定义其成员关系为“1”和“-1”,且依据ỹ2的值进行分类;把VT和VF各分为一组,并分别定义其成员关系为“1”和“-1”,且依据ỹ3的值进行分类,VT和VF即被分离出来。同理在第三步中,APC、PVC、和NSR分别被分离出来。
在学习和测试过程中,各类ECG学习样本和测试样本分别都是60个和140个。在分类的每一步中,利用学习数据按式(9)计算出W,并利用式(10)计算出试验数据判别函数值ỹ,并依据此值进行分类。测验分类结果如表4所示,敏感性和特异性的平均值如表5所示。
3 讨论
由上可知p=4是合适的选择,如果p太高,不仅会大大地增加运算量,而且AR预测精度和ECG压
缩率得不到提高。采用AR系数和建模误差来进行ECG压缩,可得到的压缩率是7.8。因为在远端直接利用了AR系数和建模误差来分类,所以ECG重建和分类是个并行处理的过程,不像采用其它非参数压缩方法,分类诊断必须在ECG重建、特征提取后进行,这就大大提高了AR建模技术的应用意义。
基于AR模型的ECG特征生成有着计算简单和容易实现的优点,此外,本文在计算AR系数时所需的数据窗口是300个采样点,即1.2秒,而基于复杂度测量法所需的数据窗口是3至7秒[7],TLSProny建模技术所需的数据窗口是5到9秒[8]。
我们利用AR技术对6类不同ECG进行了分类,并获得了93.5%-97.86%的分类精度。因此AR技术克服了许多方法只能对2至3类ECG进行分类的缺点。比如:模糊ARTMAP分类法对NSR和PVC进行分类[10];傅立叶变换神经网络法对SVT和PVC/VT进行分类[5];复杂度测量技术适用于VT、VF和NSR分类[7];以QRS为特征,采用神经网络来分类的方法,虽然可对APC和PVC等ECG进行分类,但却不能同时对VT和VF分类[18];Prony建模技术可对SVT、VT和VF进行分类,但不能同时包括对NSR、APC和PVC的分类[8]。由此可见,利用AR技术进行分类诊断是非常高效的。
我们把AR建模技术分类结果与最近发表的关于ECG分类结果进行了如下比较:用LPC系数和QRS波的MSV(Mean Square Value)作为特征值,采用模糊ARTMAP分类法对NSR和PVC进行分类,获得敏感性为97%、特异性为99%[10];利用改进顺序概率比测试(SPRT)算法对VT和VF进行分类,分别获得的分类精度是93%和96% [19];利用人工智能神经网络(ANN)对威胁性ECG进行分类,可获得93%至99%的分类精度[18],但ANN在学习过程中需要结构非常特殊数据,在学习数据中,NSR和PVC的样本数量特别大,而且APC的分类精度也不高;利用TLSProny建模法,SVT、VF和VT可分别获得95%、96%和97%的分类精度[8]。
本文使用了固定长度的数据窗口,如果使用变化的数据窗口也许可以得到更好的分类效果(随RR间期而变)。AR模型是线性模型,ECG信号严格地讲也不是平稳随机过程,因此利用非线性参数模型也许更适合ECG信号,如双线性BL模型(Bilinear Model)等。有关研究表明,ECG信号和血液动力学信号、呼吸信号等有很强的相关性,我们可考虑混合这些信号来进行进一步研究[20]。虽然本文所采用的数据取自MIT-BIH数据,但极为容易扩展到实时条件下的应用。
4 结论
在远程心电诊断中,基于AR模型和二次判别函数分类法应用于ECG信号数据压缩、重建和危急病人ECG分类诊断是有效的,并极具实时应用意义。
5 参考文献
[1 ] Jalaleddine SMS, Hutchens CG, Strattan RD, and Coberly WA. ECG data compression techniques-a unified approach [ J ]. [1][ 1]
IEEE Trans on BME. 1990; 37:329-343.
[2 ] Duda RO, Hart PE. Pattern classification [M]. United States of America: A wiley-Interscience Publication, John Wiley & [2][ 2]
Sons.INC, 2001; 219-223
[3 ] Caswell SA, Kluge KS, Chiang CMJ. Pattern recognition of cardiac arrhythmias using two intracardiac channels [ C ]. [3][ 3]
Proc Comp Cardiol. 1993; 181-184.
[4 ] Zhou SH, Rautaharju PM, Calhoun HP. Selection of a reduced set of parameters for classification of ventricular [4][ 4]
conduction defects by cluster analysis[ C ]. Proc Comp Cardiol. 1993; 879-882.
[5 ] Minami KC, Nakajima H, Toyoshima T. Real-time discrimination of ventricular tachyarrythmia with Fourier-transform [5][ 5]
neural network[ J ]. IEEE Trans Biomed Eng. 1999; 46:179-185.
[6 ] Afonoso VX, Tompkins WJ. Detecting ventricular fibrillation: Selecting the appropriate time-frequency analysis tool for [6][ 6]
the application [ J ]. IEEE Eng Med Biol Mag. 1995; 14:152-159.
[7 ] Zhang XS, Zhu YS, Thakor NV, Wang ZZ. Detecting ventricular tachycardia and fibrillation by complexity measure [ J ]. [7][ 7]
IEEE Trans Biomed Eng. 1999; 46:548-555.
[8 ] Chen SW. Two-stage discrimination of cardiac arrhythmias using a total least squares-based Prony modeling [8][ 8]
algorithm[ J ]. IEEE Trans Biomed Eng. 2000; 47:1317-1326.
[9 ] Arnold M, Miltner WHR, Witte H. Adaptive AR modeling of nonstationary time series by means of Kalman filtering [ J ]. [9][ 9]
IEEE Trans Biomed Eng. 1998; 45:553-562.
[10 ] Ham FM, Han S. Classification of cardiac arrhythmias using fuzzy ARTMAP[ J ]. IEEE.Trans Biomed Eng. 1996; [10][ 10]
43:425-430.
[11 ] Tompkins W. Biomedical Digital Signal Processing [ M ]. Englewood Cliffs, New Jersey: Prentice Hall, 1993; 246-253. [11][ 11][12 ] Proakis JG, ,Manolakis DGV. Digital Signal Processing [ M ]. Upper Saddle River, New Jersey: Prentice-Hall, 1996; 926 [12][ 12][13 ] Mukhopadhyay S, Sircar P. Parametric modelling of ECG signal[ J ]. Med Biol Eng Comp. 1996; 34:171-173. [13][ 13]
[14 ] Giraldo BF, Bolea Y, Caminal P. Comparision of diffetent models to analyze the number of patients in waiting-list[ C ]. [14][ 14]
Proceeding of the Second Joint EMBS/MBES Conference, Houston USA. 2002; 23-26.
[15 ] Kristiansen DE, Husoy JHE. Rhythm detection in ECG signals [ C ]. Proceedings Norsing-95,Staranger Norway. [15][ 15]
1995;173-178.
[16 ] Lin KP, Chang WH. QRS feature extraction using linear prediction [ J ]. IEEE Trans Biomed Eng. 1989; 36: 1050-1055. [16][ 16][17 ] Ge DF, Srinivasan N, Krishnan SM. Cardiac arrhythmia classification using autoregressive modeling[ J ]. Biomedical [17][ 17]
Engineering Online. 2002,1:5.
[18 ] Melo SL, Caloba LP, Nadal J. Arrhythmia analysis using artificial neural network and decimated electrocardiographic [18][ 18]
data [ J ]. Comp Cardiol. 2000; 27:73-76.
[19 ] Chen SW, Clarkson PM, Fan Q. A robust sequential detection algorithm for cardiac arrhythmia classification [ J ]. IEEE [19][ 19]
Trans Biomed Eng. 1996; 43:1120-1121.
[20 ] Korhonen I. Multivariate closed-model for analysis of cardiovascular dynamics [ J ]. Methods of Information in Medicine. [20][ 20]
1997; 36:264 -267.
表1 分类算法
表2 各特征值的平均值
表3 各类ECG特征值之间的欧几里得中心距
表4 测试分类结果
表5 敏感性和特异性的平均值
图1 AR模型在远程心电诊断中的应用方案
图2 MDL与模型阶数p的关系
图3 MDL敏感性函数SPMD与模型阶数p的关系
图4 ECG预测误差n(k)的分布