数据挖掘功能之四_关联分组_戴稳胜
数据挖掘功能之四:
关联分组
文/戴稳胜 张阿兰 谢邦昌
关联分组是指在所有的对象当中把相关的对象放在一起,它描述的是数据间的密切关系。广义上讲,关联分组所寻找的密切相关的关系包括两种类型,一种是同一时间内几个数据项或事件同时发生或共同出现,比如经典的“啤酒与纸尿布”的故事,另一种是某些事件或数据项呈先后顺序有规律地发生,比如“移动通讯顾客当月消费额下跌30%,则两个月后该顾客就会流失”。
关联分组通常用于市场营销中发现捆绑销售或交叉销售的机会,从而设计出吸引顾客的产品群。比如某保险公司发现“购买长期意外险的30岁以下男士通常会在三年后购买幼儿医疗险”,该公司客服人员就可以每年专门针对那些三年前购买过长期意外险的人进行幼儿医疗险的推介活动。再如某旅游公司发现其会员预定外出旅游活动后,95%的人会订购相应的野外生存用具,则该公司就可以提供旅游活动与野外生存用具的打包销售以获取收益并为其会员提供便利。目前的实证研究中还发现过“某公司财务报告中某指标上升1%,则一个月后其股票价格会上涨”这样的规律,这种规律的价值当然不言而喻,发现规律的公司对此当然会讳莫如深。
关联分组通常依赖于关联规则分析及顺序关联规则分析,常用于解决关系规则分析的算法包括APPRIORI、GRI等,常用于解决顺序关系规则的算法则包括
sequence analysis和CAPRI,但两者在统计意义上的基本原理一致,以下不再作区分,简称“关联规则”分析。有兴趣的读者可以阅读相关算法研究的文献。
做关联规则分析及使用关联规则前首先要了解,关联规则是一种单向的关系。比如关联规则“X→Y”表示,当X事件发生的时候有发生Y事件的趋势,但反过来讲就不一定成立。这里X事件与Y事件的含义很广泛,比如可以表示“购买的物品里有啤酒”、“股市上升一个百分点”、“顾客流失转向竞争对手”等等。
关联规则按不同的标准可以分成不同的类别。常见分类包括以下三种。
1.按关联规则中处理的变量类别,可以分为布尔型和数值型
布尔型关联规则中两边变量都是离散变量或类别变量, 比如“买啤酒→买婴儿尿布”; 数值型关联规则处理的是数值型变量,如“年均收入为10万元→年旅游费1.5万元”。但是实际上,关联规则本身不能处理连续型数值变量,寻找这类变量的关联规则前要将数值型变量离散化,比如将收入层次划分为高、中、低、上升、持平、下降等取值后再进行处理,所以有时关联规则的挖掘与进行模糊预测共同进行。
2.按关联规则中数据的抽象层次, 可以分为单层关联规则和多层关联规则
单层关联规则是指规则没有考虑现实世界中数据的分层, 而多层关联规则则充分考虑了数据的多层性。比如“买啤酒→买纸尿布”是一个细节数据上的单层关联规则,而“买蔬菜→买苹果”是一个较高层次和细节层次间的多层关联规则。
3.按关联规则涉及变量数可分为一维与多维关联规则
一维关联规则只涉及数据的一个维度(即一个变量),如用户购买的物品;而多维关联规则要处理多维数据,涉及多个变量。单维关联规则处理单一属性中的关系,而多维关联规则处理的是多个属性间的某些关系。比如“买啤酒→买婴儿尿布”只涉及用户购买的商品,属于单维关联规则,而“喜欢野外活动→购买慢跑鞋”涉及到两个变量的信息,属于二维关联规则。
任何两个变量间都可能存在潜在的关联,怎样判断关联规则的有效性呢?可以从两方面看,一方面可从顾客角度看。直观上讲,一个好的关联规则至少有两个特点,一是它要有用,因为数据挖掘本来的目的就在于应用;二是它还要出乎人们的意料,如果是一般常识性的东西那它就没什么价值了。另一方面是从技术角度看,只有那些满足一定技术要求的规则才能展示给用户,否则如果将所有可能的潜在联系全部展示,会使顾客在大量的信息面前无从分辨与选择,那也就失去数据挖掘的意义了。一
CHINA STATISTICS
中国统计
53