商业银行客户流失预测模型研究
第22卷第12期(总第132期) 系 统 工 程2004年12月 SystemsEngineering文章编号:100124098(2004)1220067205
Ξ
Vol.22,No.12
Dec.,2004
商业银行客户流失预测模型研究
蒙肖莲1,2,蔡淑琴1,杜宽旗2,寇建亭3
(1.华中科技大学管理学院,湖北武汉 430074;2.南京理工大学经管学院,江苏南京 210094;
3.南京华夏银行,江苏)
摘 要:,的因素,。关键词:;Logistic回归;交叉表分析中图分类号:F27 文献标识码:A
1 商业银行客户流失预测模型的
得的概率值即可对客户进行分类,从而识别出更有可能流失(或留在企业)的客户群,企业就可以针对各客户群的特征采取相应的营销努力。
研究方法和研究对象
1.1 研究方法的思考——Logistic回归分析方法
数据挖掘指的是为了建立商务决策支持系统,从大型数据库中抽取以前未知的、有效的和可控的模式或知识的过程[16]。基于可以在数据库中发现的知识的类型,数据挖掘技术可分为几类,包括分类、聚类、依赖分析、数据视图和背景挖掘。Logistic回归分析方法是数据挖掘技术中的分类方法,作为一种计算机实现的、基于统计理论的识别技术,它具有很多优点,具体表现在:能够处理二值因变量;不需要满足其它的多变量技术所要求的假设,例如不需要满足正态分布变量、同方差性以及自变量和因变量之间线性的假设;自动进行变量选择;可以进行模型精确度和拟合优度的检验,使得我们可以掌握和了解模型的预测力,从而可有效地用于对数据的分类。
本文采用Logistic回归分析的思路是:首先在样本数据基础上生成一个多自变量的模型,以充分反映数据之间的联系,然后对模型自变量进行筛选,选择适当的模型用于新样本的分类。具体而言,即是从样本实例中导出一个客户流失模型(建立客户流失状态和变量之间的关系),然后将该模型的参数应用于整个总体(或新样本),即可获得每个个体(客户)的“保持或离开企业的概率”。根据这些获
1.2 对研究对象的一般观察和思考
我们以某商业银行为研究对象,从其中心数据库获取
12个月的客户数据。数据包括这家银行客户的人口学特
征和行为特征。这些客户既包括到2003年9月30日仍留在银行中的客户,也包括在2002年10月1日至2003年9月30日期间离开这家银行的客户。在这一期间,全部样本数为2843,其中撤销账户的有147个案例,保持开户的有
2696个案例。将被选择和观察的客户划分成两个不同的
群体。第一个群体为“关闭群”,指在样本期间关闭(撤销)所有账户以及将账户关闭了至少一个月的客户。第二个群体为“打开群”,即在样本期间仍在这家银行活跃的客户。只有那些当分析的分割日期确定之后的3个月或更多月份内仍留在银行的客户属于“打开群”。所有客户均为个体客户。
本项研究的基本目的是讨论如何根据客户可区分的属性特征将只知道属性变量值的新样本中的客户分类为“关闭客户”或“打开客户”。即因变量仅包括“关闭客户”和“打开客户”两个值,取值为1表示客户是“关闭客户”离开银行,0表示客户是“打开客户”留在银行。
因为不同的产品群拥有不同类型的客户,本文选择只
Ξ收稿日期:2004207222;修订日期:2004210224
基金项目:国家自然科学基金资助项目(70271030)
作者简介:蒙肖莲(19662),女,广西南宁人,南京理工大学经济管理学院讲师,华中科技大学管理学院博士研究生,研究方向:客户关系管理,管理决策理论与方法;蔡淑琴(19552),女,华中科技大学管理学院教授,博士生导师,研究方向:管理信息系统,电子商务,知识管理;杜宽旗(19622),男,南京理工大学经管学院副教授,研究方向:数量经济,管理决策理论与方法;寇建亭(19632),男,南京华夏银行支行行长。
68系 统 工 程 2004年
由于Logistic回归分析仅接受数值变量,因此所有非数值属性均设为分枝变量,编码为0或1,取值为1表示客户离开银行。
表1 有关变量和代码代码
XXXXXXXX
[1**********]11
使用银行的一种产品群的客户进行分析,并且选择拥有活期储蓄存款账户的客户进行研究。因为,在我国当前的商业银行实际经营的业务领域中,储蓄存款账户是银行基数最大、成本最低、最有利可图的投资账户,相应的这些客户是银行优先考虑进行客户保持的对象。
变量
账户包含的业务数量客户拥有的产品数量客户性别客户邮政区号改变
抱怨客户税费免除
年龄服务的时间长度
1.3 变量考察和分析
本文选择该商业银行的中心数据库储存的每个月每个客户的58个属性。应用专家评判法,从存档的数据中选择了最为关键的主要部分属性,并通过考察在其它的相关研究中使用的变量和由银行管理人员根据经验提出的变量,选择相应的变量来建立模型。
根据国际上现有的文献研究我们认为:[17];];[17];客户行为的变化会影响客户流失的概率,且地址的变化能够预示潜在的客户流失[18];生活方式的变化可能对客户流失概率有影响[19];客户所得到的折扣、客户所使用的渠道方式也与客户流失有关[20];客户抱怨对客户流失有正面影响
[21]
;服务的时间长度和
账户余额的减少也是两个有助于预测客户流失的变量。
因此,本文确定影响商业银行客户流失的主要变量有如下11个,显示在表1中。其中,使用“税、费免除”来辨别客户是否得到折扣,使用“主要渠道”辨别客户是如何与组织接触的。渠道是指客户与银行之间的接触点(例如分支行、电话银行和网络银行)。由于客户所偏好ATM、的渠道与组织最有利可图的渠道之间是有差异的,为了考察使用不那么有利可图渠道的客户是否更倾向于流失,本研究中的“渠道”定义为“客户通常使用银行分支机构作为交易渠道”。服务的时间长度的计算方法是:对于已流失的客户,计算从开户之日到终止日期之间持续的时间;否则,测量从开户之日到样本考察期结束日之间的天数。
2 技术方法的应用和结果分析
2.1 应用交叉表分析方法识别
显著影响客户流失的变量
本文应用SPSS11.0中的交叉表分析技术进一步分析和识别在上述考察分析阶段所考虑的属性变量中哪些是显著影响银行客户流失的变量。首先根据全部样本情况建立由每一属性和观察到的具有这一属性的流失客户数量构成的数据文件,然后将每一属性均放入交叉表,并使用PearsonChi2square显著性检验和Fisher准确性检验对每一属性进行检验。经过处理以后,每一属性和它们各自所辨别的流失客户的概率大小列于表2。
表2 各属性识别流失客户的情况
属性名称
账户包含的业务数量X客户拥有的产品数量X
12
3
流失百分比
96.3◊83.2◊45.1◊8◊7.4◊7.1◊
7
全部百分比
16.5◊15.3◊12.8◊4.7◊7.3◊7.8◊7.7◊8◊8.9◊
比率
5.835.443.521.81.020.910.830.750.64
客户与银行接触的主要渠道X
关闭另一个账户X账户余额的下降X
客户性别X
6
45
邮政区号改变X
抱怨X
8
6.4◊6◊
客户税费免除X
9
5.7◊
第12期 蒙肖莲,蔡淑琴等:商业银行客户流失预测模型研究 表中的“流失百分比”是指各属性识别的已经离开银行和显示出特定流失客户特征的客户占全部流失客户的比重。“全部百分比”是指全部样本中实际拥有这一属性的客户的比重。例如,在全部样本中,15.3◊的客户仅拥有一个产品种类,但已流失客户的83.2◊拥有这一属性特征。用各行的“流失的百分比”除以“全部百分比”得到“比率”,这一数值可以说明相应的每一属性的解释力。根据这一比率可将各属性进行排序。
有些属性不能显著地识别将要流失的客户而被从分析中排除,因为具有这一属性的这一部分的流失者与银行数据库中的全部总体相比没有显著的区别。5个属性在交叉表分析阶段被排除而不进入下一步的考虑,:户性别、账户余额的下降、、除,户没有贡献。变化范围大,。
表2说明比率值较高的三个属性:账户包含的业务数量、客户拥有的产品数量、客户与银行接触的主要渠道,在识别流失的客户方面具有显著性。由于这些属性能够从具有这一属性的全部客户比重中辨别出很大比重的流失客户,因此在分析中接受这些属性作为显著影响客户流失的变量。
69
对建模样本进行分层取样,数据集有295个个体,其中
148个是“打开客户”,147个是“关闭客户”。
设个体选择方案i=1(客户留在银行)的概率为P,则
个体选择方案j=2(客户离开银行)的概率为Q=1-P,
P与它的影响因素之间的关系可用下列模型来表示:
P=P=
(1)
1+exp(Β0+Β1X1+Β2X2+…+ΒmXm)
(Β0+Β1X1+Β2X2+…+ΒmXm))
(2)
1+exp(-
,Β0,Β1,Β2,…,Βm是回归,Xi。由于Q=1-P,Q=
(3)
1+exp(Β0+Β1X1+Β2X2+…+ΒmXm)ln
=Β0+Β1XQ
1
+Β2X2+…+ΒmXm(4)
上式就是常用的统计指标比数比(oddsratio)的对
数。在式(4)中,Β1的意义是:当因素Xi每改变一个测量单位时所引起的比数的自然对数改变量。
本文通过一个迭代过程分析各属性的集成贡献。对于显示在表1中的每一个属性变量,在每一次循环中通过识别每一个属性对改善分析的贡献来考察它们。在本次循环中选择具有最大贡献的属性,然后在下一循环中不再考虑它,将其从选择中排除。Logistic回归分析的前向逐步法共筛选出三个影响银行客户流失的变量,产生了下列形式的方程:
LN=Β0+Β1X
LN=-1
2.2 应用Logistic回归分析方法
建立客户流失预测模型
交叉表分析方法考察了单个属性变量对客户流失影响的贡献,而Logistic回归分析方法则可以考察多个属性变量在识别将要流失客户方面的集成贡献。使用
SPSS11.0中的Logistic回归分析的前向逐步法可以分析
+Β2X2+Β3X
3
在本研究中,具有3个变量的具体模型是:
5.8129+0.8781X1+2.8302X2+2.3021X
31
数据和建立客户流失预测模型。
Logistic模型的因变量或结果变量是分类的而不是
其中,LN为所估计的客户留在银行与流失的比数比,X产品数量,X
连续的,是由分析者构造的、正在被模拟的“感兴趣的事件”。本过程考察客户在样本期间是“关闭客户”或是“打开客户”的概率。在此过程中用于建立模型的样本(训练样本)不是严格随机的,为了获得更加精确的参数估计,本文
为客户活期储蓄账户包含的业务数量,X2为客户拥有的
3
为客户与银行接触的主要渠道。有关
Logistic回归分析的结果见表3。表3表明:由于筛选出来
的这三个属性显著地对模型有贡献而被模型所接受。
表3 某商业银行客户流失原因Logistic回归分析表
变量主要渠道账户包含的业务数量客户拥有的产品数量
Β
0.87812.8302
S.E0.3305
Wald6.9124
df11
Sig0.00860.0004
R0.0636
expΒ2.4062
95%CIofexpΒlower1.25013.5796
upper4.630380.2688
0.793212.72580.399216.9505
2.30210.79838.316310.00390.28029.99522.090347.7907
70系 统 工 程 2004年
使用的客户流失预测技术的预测效果是令人满意的。
在使用训练样本获得模型的具体结构和参数后,将参数代入方程(1)或方程(3)来估计总体(或新样本)中每一个体(客户)流失的概率,确定这一个体所属的类型。初始的默认分割点是0.5,例如,如果某个体的流失概率值在
0.5之上,则将此个体归类为关闭客户;如果某个体的流
3 结论和建议
交叉表格和Logistic回归分析结果表明3个属性特征有助于识别银行将要流失的客户。以下任何一种情况均标志着可能的流失:客户仅持有银行的一个产品、客户的活期储蓄账户只包含一种业务;客户的主要渠道是银行分支机构。针对识别出的流失客户特征,银行可以采取相应的营销策略预防客户流失。实际上,如果进一步,,然而,即使只使用现有属性,本研究也成功地将流失客户识别出来。在考察与客户保持策略有关的潜在收益方面,进一步的研究方向是证明这一模型的预测力和它在其它场合及行业的适用性。
银行能够识别将要流失的客户意味着能够减少维系客户的成本,并且意味着增加了客户与组织保持关系更持久的可能性。值得注意的是:客户的储蓄行为可能随着时间而演变或对银行服务市场的事件敏感,因此根据过去的数据库信息构造和推导出来的客户流失模型的预测效果可能随着时间而逐渐衰落,模型需要不断进行更新或重新发现。在识别将要流失客户的过程中,使用数据库进行分析是关键,以客户为中心的企业数据仓库需要为模型构造和客户流失预测目标提供快速和容易的数据析取。从管理上说,维护和正确使用数据库能够提供一个实质的竞争优势。
Logistic回归分析方法要求在样本数据中包含初始
失概率值是在0.5之下,则将此个体归类为打开客户。由于最理想的分割点的水平值依赖于维系现有客户和获得新客户之间的相对成本,而Colgate提出吸引新客户的成本是保持现有客户成本的5到10倍,因此在本研究中设定分割点在0.15到0.05之间,即在分析中以增加“打开客户”被错误预测的数量为代价来减少“关闭客户”被错误预测的数量。表4和表5。同的集合,果,。表4考虑5倍相对错误分类成本时Logit模型的分类表
预测类型
保持
观
察的类型
保持流失全部
12641167
[6]
流失
22106128
全部
148147295
表5考虑10倍相对错误分类成本时Logit模型的分类表
预测类型
保持
观察的类型
保持流失全部
13528163
流失
13119132
全部
148147295
分类即观察分类。作为一种数据挖掘工具,Logistic回归分析可以将观察所得分类结果和与分类有关的变量指标结合起来,发现它们之间的某种关系。这种关系的可靠程度往往取决于观察分类的准确度和有关变量指标集合的充分程度。Logistic回归分析采用观察分类结果作为输入相当于在建模过程中包含输入性系统误差,因此对新样本进行分类必然会以准确率为代价产生一些错误分类。尽管如此,Logistic回归分析仍然不失为一种有效的辅助分类工具,除了用于客户流失预测还可以用于欺诈检测、客户轮廓探查等之类的客户管理工作。
当考虑5倍相对错误分类成本时,最优分类因此能识别72.11%流失的客户;当考虑10倍相对错误分类成本时,最优的分类能识别81.42%流失的客户,正确识别了留在银行客户的91.22%1总体上,这些属性以0.05的分割点正确识别了全部客户的86.10%1实证结果表明,所
参考文献:
[1] DawesJ,SwilesS.Retentionsansfrontiers:issuesforfinancialserviceretailers[J].InternationalJournalofBank
~43.Marketing,1999,17(1):36
[2] AspinallE,NancarrowC,StoneM.Themeaningandmeasurementofcustomerretention[J].Journalof
TargetingMeasurementandAnalysisforMarketing,2001,10(1):79.
[3] 申丽.入世对中国银行业的冲击及对策[J].徐州师范大学学报(哲学社会科学版),2003,29(4):122~125.
第12期 蒙肖莲,蔡淑琴等:商业银行客户流失预测模型研究71
[4] BersonA,SmithS,ThearlingK.Customerretention[A].BuildingdataminingapplicationsforCRM[C].New
York:McGrawHill,2000.
[5] MarcusC.Apracticalyetmeaningfulapproachtocustomersegmentation[J].JournalofConsumerMarketing,
1998,15(5):494~504.
[6] ColgateM,StewartK,KinsellaR.Customerdefection:astudyofthestudentmarketinIreland[J].
~29.InternationalJournalofBankMarketing,1996,14(3):23
[7] LewisB.
Youthmarketsforfinancialservices[Z].CasesinMarketingFinancialServices,Butterworth2
Heinemann,Oxford,1993.
[8] 张海峰.资企业客户流失对中资银行的影响及其对策[J].中国金融半月刊,2003,21.
[9] Bain,Company.Customerloyaltyanditsfunctioninthe"90s"[J]M,25.
[10] CardellNS,GolovnyaM,DanSteinberg.Churnr:WinningtheDuke