移动通信业务中的数据关联性分析_杜娟
移动通信业务中的数据关联性分析
杜
娟
泉州’(#$$$)
&泉州移动通信公司网络部,福建
前言! 、
移动通信企业是通过向用户提供更多更好的服务内容,通过促进用户的使用率来提高企业自身的经济效益。从国外的发展经验及纵观国内电信行业的发展规律表明,随着移动通信普通话音业务的日趋饱和,开拓增值业务领域成为企业今后发展的重点。在众多的增值业务服务中,应向哪部分用户群体推介,推介哪些增值业务,这些增值业务间是否有关联关系,成为一个
(*+,+-././0)重要问题。运用数据挖掘技术将很好地解决这些
问题,而关联分析是数据挖掘技术中重要的一部分。
数据挖掘(*+,+-././0),又称数据库中的知识发现(1/2345605*.78295:;./*+,+
(=7728.+,.2/>?457)所广泛研究,其中关联规则的挖掘是一个重
要的问题。关联规则是从大量的数据中或对象间抽取其相互之间的关联性,揭示数据间未知的依赖关系,根据这种依赖关系,可以从某一数据对象的信息推断出另一数据对象的信息,关联规则挖掘通过支持度和可信度定量地描述这种关联关系的程度,以知道数据分析的过程。
现实中,这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有@$A 的人同时购买了铁钉。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。因此发现
(项)交易数据库中不同商品之间的联系,这些规则找出顾客购
买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。
关联规则基本概念和问题描述#、
关联分析方法是由=0:+3+4等于!BB’年提出的,通过产生频集的方法,确定产品间的相互关联情况,在产生频集的过程
(C?DD2:,)(E2/F.65/85)中,就要用到支持度和可行度。
设G H I . ! J . #J K K KJ . L M 是二进制文字的集合,其中的元素称为项&.,5L ) 。记*为交易&,:+/7+8,.2/) N 的集合,这里交易N 是项的集合,并且N *G 。对应每一个交易有唯一的标识,如交易号,记作NG*。设O 是一个G 中项的集合,如果O *N ,那么称交易N 包含O 。
一个关联规则是形如O +P 的蕴涵式,这里O , GJ P , G ,并
(7?DD2:,)且O -P H ! 。规则O +P 在交易数据库*中的支持度
是交易集中包含O 和P 的交易数与所有交易数之比,记为7?DQ
即D2:,&O +P ) ,
7?DD2:,&O +P ) H R I NS O . P *N ,N /*M R T R *R
(82/F.65/85)规则O +P 在交易集中的可信度是指包含O 和P 的
交易数与包含O 的交易数之比,记为82/F.65/85&O +P ) ,即
82/F.65/85&O +P ) H R I NS O . P *N ,N /*M R T R I NS O *N ,N /*M R
通过定义可以发现,支持度反映了在所有的商品交易中,同时购买了几种产品的交易数量。而可信度反映了该规则的可靠程度。例如:在!$$$次产品交易记录中,有’$$个记录显示用户购买过=产品,其中有!%$个记录显示用户同时购买了产品=
(=U V *)和*,则关联规则的支持度为!%$T !$$$H !%A,即所
(=U V 有交易中同时购买=和*的交易所占的比例;关联规则
的可信度为!%$T ’$$H %$A,即同时购买了产品=和*的交*)
易数在所有购买了产品=的交易中的比例。
给定一个交易集*,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度&L./7?DD) 和最小可信度&L./82/F) 的关联规则。在该例中,如果用户设定支持度为
(=U V *)是成立的。可性度为"$A,则关联规则!$A,
移动通信中的业务关联分析’、
移动通信业务中,积累了十分庞大的用户通话话单数据,这些数据十分详细的记录了用户使用习惯和特点,如果进行详细的分析,就可以得出用户消费的一些特点,不仅可以为用户提供“个性化”更的服务,而且也可以为企业的经营决策提供科学依据。
目前,移动通信业务中提供了短消息,秘书服务,信息点播、移动梦网等数据业务。用户在使用这些业务的过程中,可WX>C、
能存在着一种隐含的内部联系,这种联系用传统的手工分析很难发现,因此运用需要数据挖掘中的关联分析。
“组合销售”如果找到了业务间的关联性,就为,例如套餐提
供了基础。例如,通过分析发现,使用=业务的用户有Y$A使用了E 业务。这样,营销策划部门就可以制定一些组合方案推广套
这将大大餐业务,或者对申请了=业务的用户群体推销业务E ,
提高业务推广的成功率,增加企业收益,为移动通信企业提供了科学决策的基础。关联分析的过程" 、
"K ! 数据准备
在进行关联分析之前,一个重要的工作就是数据准备工作,从各种业务数据中,根据设计需要,形成关联分析数据库,然后选择分析算法,进行关联分析,国外的资料显示,数据准备结算十分重要,甚至占总工作量的Y$A,如果没有准确的数据,是不能得出准确的结论的。
数据源来自于移动通信中的话费计费数据库,提取的内容主要有如下几步:
(! )选取一个月内的童话记录作为数据源;(#)选定一个主叫号码,检索话单记录中的呼叫类型、对方号码等特征变量,选出使用业务的类型,填入下表;
(’)如果业务类型出现重复,则不填表,直接跳到下一条记录,继续遍历源数据库;
(" )(#)遍历完一遍后,选择新的主叫号码,重复步骤,直到结束。
数据的准备工作完成后,就形成了关联分析中的交易集N ,
其中每个, 代表了一个用户所使用的几种N H I , ! J , #J , ’K K K K K K , /M ,
业务类型。"K #算法分析
这里我们采用经典的=D:.2:.算法,在交易数据集N 上进行分析,具体的过程分为两个部分:
(G,5L75, ),这些! ) 找到所有支持度大于最小支持度的项集
(Z:5[?5/,G,5L75, ) 。项集称为频集
#) 使用第! 步找到的频集产生期望的规则。
这里的第#步相对简单一点。如给定了一个频集P H
产生只包含集合I G ! ,G ! G #K K K G \,\##,G ]/G ,G #,K K K ,G \M 中的项的所
有规则&最多\条) ,其中每一条规则的右部只有一项,&即形如^P U G . _+G . ,这里采用的是^" _中规则的定义。一旦这0! 1. 1\) ,
些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。对于规则右部含两个以上项的规则,在其以后的工作中进行了研究,本文后面考虑的是这种情况。为了生成所有
频集,使用了递推的方法。其核心思想如下:
D %E F %G H 5,32. %I 9;.8/.;/J K
D ! E LM3D -G !K F -I %3! K -N N E 7M O.296D *E C -G ,P39M39I 2.6D F -I %E K Q Q 新的候选集D #E LM3,55;3,6/,B;9M6/; /R 7M O.296D $E Q Q 事务; 中包含的候选C ; G />O/.;D C -) ; E K 集
D S E LM3,55B,6797,;./B /C ; 7M D T E B(BM>6;N N K D U E .67D V E F -G H B /C -W B(BM>6;#896/>PJ D %"E .67
D %%E 16/4.3G . -F -K
然后是频繁! I 项集F ! ,直到有首先产生频繁%I 项集F %,
某个3值使得F 3为空,这时算法停止。这里在第-次循环中,过程先产生候选-I 项集的集合C -,C -中的每一个项集是对两个只有一个项不同的属于F -I %的频集做一个D -I ! E I 连接来产生的。C -中的项集是用来产生频集的候选集,最后的频集F -必须是C -的一个子集。C -中的每个元素需在交易数据库中进行验证来决定其是否加入F -。
根据该算法,我们利用C N N 语言实现了其功能。举例分析$、
下面通过一个例子,介绍进行关联分析挖掘的具体过程。(%)数据整理过程
我们建立了一组模拟数据集来示范这个过程,数据集有两列,第一列是唯一的用户主叫号码,第二列是该用户使用过的所有业务类型,服务类型号的意义如下:短消息,秘书服务," :%:! :信息点播((((($:彩信((((((V :移动梦网,我们的目X?+:(((S :
标是利用关联规则来找出各种不同业务之间的联系。表%是我们的样本数据片段。
(! )算法应用
“使用的业务类型”将表%中所有的字段内容,形成交易集
“使用的业务类型”其中的每个记录组成了交易集Y 中的一个Y ,
记录,然后将交易集Y 作为数据源,输入到1P39M39算法中深沉有关部门的频繁集,其中支持度定义为%"Z,可信度定义为!$Z。
系统先根据支持度%"Z形成频集,然后根据可信度!$Z产生规则集,形成[I \]的规则输出。
(*)结果分析
利用关联规则挖掘,我们得到了如表*所示的最终结果,表! 显示的是测试数据的情况。
从表! 、表*可以看出在%"""条模拟交易数据中,有两条规
(支持度4%"Z,则满足条件可信度4!$Z),规则%表明,如果
“业务,则有#$(!VZ 的用户可能会使用“彩用户使用了“X?+:
信”,同样,规则! 表明,如果用户使用了“彩信”业务,则有
“信息点播”业务。SS(U!Z 可能会使用
如果有了这条结论,移动公司的营业推广将更有科学分析
“组合销售”基础,大大增加了的成功率,为企业带来更多的经济
效益。
参考文献
&%’&! ’&*’&#’
王军(数据挖掘技术(中国科学院计算技术研究所陈宁) 周龙骧(数据采掘技术(中国科学院数学研究所蔡伟杰(关联规则挖掘综述(复旦大学
+,-./0123,4,5,67+,8,-39/06,6:39-,6;.6;9,5?,;;.36/@A
[***********][***********][1**********]22
此若出现硬故障一般人员是很难修复
()盘介质、机械及电路部分包括电机的损的。不过目前硬盘价格越来越低,更换一
坏引起的故障。硬故障维修难度较大,一台新硬盘愈来愈被人们所接受,从这个角般需有专业的维修人员才能修复。这不仅度讲,“修复”或正确地说排除计算机系统是因为同一故障现象会由各种不同的元中硬盘的硬故障似乎变得容易了,但频繁器件损坏引起,而且硬盘本身涉及机、电、地替换新硬盘也不是好事,将一台并无故磁甚至光等多学科领域的知识,一般人员障(人为判断失误)的硬盘换下来,装上新很难具备。非专业维修人员或未经专门培的硬盘似乎万事大吉,而由此带来的损失训的人员对新型硬盘的认识非常有限,因可能会很大,除了经济上的损失,更为重
D 上接第#"页E
要的是硬盘上的数据将会随之丢失。因此
更换新硬盘之前一定要慎重,也就是说一定要全面检查故障的原因所在:是磁介质损坏还是机械故障所致;是电路器件损坏引起还是计算机本身有问题或是连接线有问题;是否有可能修复。一定要仔细检查,切勿轻率了事,以免造成不必要的经
济损失和重要数据损失。