距离判别法xin
距离判别法
距离判别的思想是由训练样本得出每个分类的重心(中心)坐标, 然后对新样品求出它们离各个类别重心的距离远近,从而归入离的最近的分类,,最常用的距离是马氏距离.
距离判别的特点是直观、简单,适合于对自变量均为连续变量的情况进行分类,且它对变量的分布类型无严格要求,特别是并不严格要求总体协方差阵相等。
判别分析的模型可以概括为:假设有个k个总体G1,G2~Gk,并且都是p维总体,对应的数据指标为: X=(X1,X2,~~Xp)TT
在各个总体下具有不同的分布特征。现对某一新的样品数据x=(x1,x2,~~xp)T,要根据各总体的特征按一定准则判断该样品应属于哪一个总体。
定义x与总体G的马氏平方距离:
纸上1
两个总体的判别准则:
设是G1,G2两个不同的p维已知总体,G1的均值向量是μ1,协方差矩阵为Σ1;G2的均值向量是μ2,协方差矩阵为Σ2;设x=(x1,x2,~~xp)T是一个待判样品,距离判别准则为:
纸上2
即当x到1G的马氏距离不超过到G2的马氏距离时,判定x来自G1;反之,判定x来自。2G
Bayes判别法
基本思想:
设有k个总体G1,G2,~~Gk,它们的先验概论分别为q1,q2,~~qk (可以利用经验给出,也可以通过估计得到)。各总体的密度函数分别为: f1(x),f2(x),~~fk(x),在观测到一个样品x的情况下,可以用Bayes公式计算它来自第个总体的后验概率: g 纸上3
并且在纸上4时,则判定X来自第总体。
Bayes判别的基本方法
设每一个总体Gi的分布密度为fi(x),i=1,2,~k,来自总体G的样本X被错判为来自总体Gj(i,j=1,2,~~k)时所造成的损失记为C(j!i),并且C(i!j)=0. 那么,对于判别规则R=(R1,R2,~~,Rk)产生的误判概率记为P(j!i,R),有 纸上5
如果已知样本X来自总体iG的先验概率为qi, i=1,2,,k,则在规则R下,误判的总平均损失为:
纸上6
R1,R2,~~,Rk确实能够使总平均损失达到极小,他就是Bayes判别的解。 这样,我们以Bayes判别的思想得到的划分为R=(R1,R2,~~,Rk)为
纸上7
具体来说,当抽取了一个未知总体的样本X,要判断它属于哪个总体,只要先计算出k个按先验分布加权的误判平均损失:
纸上8
然后再比较这个误判平均损失h1,h2~~的大小,选取其中最小的,则判定样品X来自该总体。