基于中国联通大数据的个人征信评估方法
系统与方案Systems & Solutions
基于中国联通大数据的个人征信评估方法
陈一昕1 谷静宜1 王 蕾1 朱志勇1 刘韵洁2
1 中国联通研究院 北京 100032
2 中国联合网络通信有限公司 北京 100033
摘 要 中国联通利用当前市场化征信业务起航下运营商所具有的得天独厚的优势,结合互联网+的思维模式,提出一种新的个人征信评估方法。文章结合我国金融征信体系的现状,介绍中国联通在当前大数据背景下,利用自身数据特点,对用户基本信息、通信行为特点、关系圈亲密联系人及时空数据等进行分析,从贷前、贷中和贷后三个维度建立个人征信评估模型。
关键词 中国联通;个人征信;征信评估模型;大数据;风险控制
电信业的数据优势主要表现在全面、及时、形式多
引言
随着大数据时代的到来和快速发展,各种各样的用户数据都可以用于转化、评估、体现个人信用。除现有银行系统拥有的传统基础信息和金融数据外,互联网公司拥有的个人上网行为数据(如社交行为、电商消费行为等) 、电信运营商拥有的通信行为数据、位置及全网移动互联网数据,以及公共事业单位拥有的日常支付消费数据等都具有很大的参考价值。
运营商的网络每天都会产生巨大的信息量。2001年,全球IP 流量达到1EB 所需时间为一年,而发展到2013年,时间大幅缩短仅仅需要一天,预计2016年将再次缩短至半天[1]。伴随着这些流量的产生,运营商的网络同时积累了大量的用户身份、套餐消费、语音通信、短信通信、位置信令、手机上网等数据,而且运营商数据的一大特点是其数据真实性高、质量高、含金量大。这些快速增长的不同类型数据为运营商进行征信服务提供了得天独厚的条件。金融机构可以利用先进的大数据分析技术通过对运营商数据的分析,实现对自身的信用体系“增信”,当然运营商自身也可以利用这些数据进行“征信”,进而对内部的传统业务提供信用 服务[2]。
样、可信度高等方面,但如何在保证用户数据及企业数据安全性的基础上实现数据开放,将运营商征信相关数据提供给征信数据使用方,充分有效地使用这部分数据对贷款个体进行信用评估,这是增信数据开放管理研究和关注的热点问题之一。通过调查研究市场中的常见方法,并对比各种方法之间的优缺点,我们提出了自己的解决方案:从贷前、贷中和贷后三个维度建立模型,通过数据指标的系数化,实现隐私数据脱敏,防止贷款个体明细数据泄露,同时,保证数据可开放性和灵活性前提下构建个人征信评估方法。
1 贷前评估
我国现有个人征信体系围绕银行构建而成,央行征信基础数据库以信贷信息为核心(信用卡、银行贷款和其他信用贷款记录) ,同时,也包含公共记录和查询记录。个人和相关机构可以随时查询自己的信用记录,了解自己的信用状况。据央行数据统计显示,截至2012 年12月底,央行征信中心的金融信用信息基础数据库已为8.2亿社会个体和1859.6万户企业建立了信用档 案[3-4]。该数据库记录覆盖了我国约一半的人口, 然而在这8.2亿的社会个体中,仅有不到40%与银行真正存
36
Systems & Solutions系统与方案
在信贷关系,而其余的社会个体仅有经济活动记录在档。之所以出现这样的情况是因为我国居民与欧美发达国家居民的消费习惯不同。我国居民更多习惯先储蓄后消费,并且信用卡的普及率和使用率都远低于欧美发达国家。这样,仅仅依靠金融系统内的信用记录来评估贷款个体的信用情况在很多情况下会有失偏颇[5]。
运营商自身可以比较详实地勾勒出一个用户的信用画像。依托于庞大的用户群体以及全面、及时、形式多样的用户数据,运营商可以建立基于用户通信行为数据的征信记录,并将其提供给个人和机构查询、使用。
事实上,中国联通已经在这方面做出了研究和探索。依托通信行为数据、位置及全网移动互联网数据,我们已经开发完成了一套个人征信评估模型,用于评估联通用户的信用状况。为了保护用户隐私,同时保证信用记录在不同机构和个人之见的高可用性和拓展性,我们团队和中国人民银行合作,创新性地提出多指标聚类系数化的方法,将所用基本指标分类(如财务类、通信类、漫游类等) ,将多个同类指标数据通过建模的方式进行数据处理,各类别以系数化的结果输出,最终汇总成为用户信用评分。图1为中国联通个人征信评估模型中不同数据来源在最终用户评分中所占的比重。
1.1 用户基本信息
用户基本数据包括用户的姓名、年龄、性别、终端型号等基本信息。确认用户的真实身份信息对于开展征信业务具有最根本最重要的意义。如果无法确认用户的真实身份信息,仅仅依靠用户的互联网行为对贷款个体信用情况进行评估,甚至有可能发生把信用评分打给一个15岁的初中生这样的事。得益于实名制政策,运营商的绝大多数用户数据能够直接匹配到用户的真实身份信息。这使得我们的征信模型不仅仅应用于互联网电商等对用户身份要求不严格的新行业,同时,能够支持对用户身份要求非常严格的银行、小贷公司为主体的传统金融行业。
1.2 用户账单
用户账单数据反应了用户每月的消费情况。用户每月在语音、流量以及增值业务上的账单金额能够反映用户的生活和消费习惯;而用户每月的总账单额、缴费情况等信息能够反映用户的消费能力。利用先进的建模方法将这些信息汇总形成消费系数模型,可以综合反映用户在消费能力和消费习惯方面的价值。
1.3 漫游状态
得益于中国联通遍布全国的几十万台基站,我们可以随时掌握用户的位置信息。用户的漫游状态数据不仅
䗮 䆄
⫼
包含用户在不同省市之间的出行情况,还同时记录了用
⫼ ⫼ 䋺 ⓿␌⢊
⓿␌⢊
户在同一城市中的不同位置,甚至可以详细到不同建筑的不同楼层。根据漫游状态数据,我们可以提取出用户的家庭住址、工作位置等信息,同样也可以提取出用户的出差、旅行等信息,将这些信息汇总建模,形成用户的漫游系数模型,反映用户在地理位置方面的价值。
⫼ 䋺
䗮 䆄
图1 贷前评估贷款个体信用评分参考要素
1.4 通信记录
用户的通话、短信以及上网记录是用户通信行为的重要组成。用户的通话、短信和上网记录反映了用户的通信习惯、内容偏好等特征,我们将这些特征提取建模形成用户通信系数模型。利用先进的图分析算法,我们还从用户的通话和短信记录中分析出用户的朋友、家
在我们的征信模型中,不同来源的数据可以从不同方面反映用户价值。长期跟踪记录用户的这些数据,可以反映用户价值的稳定性。运用该模型衡量用户价值和用户稳定性,最终得出贷款个体的信用评分。
37
系统与方案Systems & Solutions
人、同事等相关用户,形成该用户的关系圈系数模型。通过用户的通信系数模型和关系圈模型,可以反映出用户在通信、内容以及社交方面的价值。
的贷中审核手段进行了有效探索。主要方式为:1)分析贷款个体的通话行为特点;2)识别贷款个体关系圈标记亲密联系人,达到对其进行身份审核及近期行为状态变化监控的目的。
1.5 多指标聚合
基于以上多个指标,我们最终采用多指标聚类系数化的方法把上述不同数据的系数模型进行整合,最终形成贷款个体的信用评分。
运营商的数据不依赖于用户上传,而是IT 系统实时采集记录到数据仓库中,因此具有很高的可信度。很多集中建设的IT 系统,基本上可以做到数个小时内的延迟,因此运营商的信用评分拥有很强的时效性。随着用户数据的不断更新,用户的信用评分也会进行更新。用户自己可以随时查询,也可以授权相应的机构查询信用评分,并依据此信用评分来评估自己的信用水平。来自运营商的信用评分也可以为传统的贷款机构提供“增信”服务,通过查询用户在运营商的信用评分来简化流程,控制风险。
征信市场目前还处于相对初级的阶段,未来还有一个不断发展的过程。当前传统征信主要针对授信机构,如银行、小贷、担保、P2P 、租赁等,但未来征信服务的边界将不断扩张,应用场景也会更为丰富。利用运营商的用户信用评分来进行贷前评估,将会成为运营商大数据征信的一个重要应用。
2.1 通话行为特点分析
通过贷款个体的通话行为特点可以对其进行身份审核,有效避免资料蓄意隐瞒或者作假行为,另一方面还可以对其近期行为变化进行监控。如从事中介、销售等职业的贷款个体,其拨出电话数远高于接听电话数,且通话时长较短,时间及地点都呈现规律性。另一方面将贷款个体的拨出电话方及接听电话方与机构电话数据库进行对比,可发掘贷款个体是否接到过法院电话或者拨打过赌场电话等有可能危及还款的行为变化。
2.2 关系圈识别
现代社会中移动通信成为人们日常生活、工作进行有效沟通和交流的重要方式。除了对通话时长、通话频次等指标的常规统计分析外,对应网络空间中的用户群体关系与行为在很大程度上能够反映出用户的真实社会群体关系与行为。我们将贷款个体的关系圈分为家人圈、朋友圈、同事圈(见图2) 。运用数学建模、图分析等方式识别这三类关系圈,并标记亲密联系人。通过对贷款个体关系圈的了解及监控,可以有效预警贷款个体的行为动态变化,如家人圈通话频次突然降低或者高频,以及同事圈及朋友圈的大面积变动都预示着 风险。
2 贷中审核
贷中审核是贷前评估之后又一个重要的风险控制环节。传统的风控方法中,贷中审核人员会对贷款中贷款个体的还款状态、近期行为状态进行监控,并进行相应的信息更新。通常采取与贷款个体定期人工沟通的方式保持畅通联系,避免与贷款个体失去联系及贷款个体状态发生变化而导致的风险。该类传统方式缺乏实时性,同时也难以规避贷款个体蓄意作假的风险。中国联通作为移动运营商积累了丰富的数据宝藏,基于这座数据宝藏,中国联通结合自身数据特点,为构建程序化、实时
Ӂ
Ӱ
图2 贷中审核关系圈识别
38
Systems & Solutions系统与方案
关系圈识别以通话详单、短信详单及位置数据为主要数据源。对原始数据进行清洗,如剔除广告电话(如400、800等) 及固定电话,保留移动电话号码及银行相关服务号码,由此构成复杂的通信社交网络。在该网络中,贷款个体的现实社会关系便可以实现一定程度的真实体现。在此基础上,根据贷款个体通话行为的时空特点判断其关系圈组成。如与同事的通话行为呈现通话多在工作时间,常驻位置区域重合,通话时长较短等。程序化地对原始数据进行特征抽取,生成多维指标,并通过数学建模及图分析,得到标记过的贷款个体关系圈及亲密关系人。
关系圈的识别及亲密联系人的标记有效地反映了贷款个体在现实中的真实社会关系,为行为状态变化的监控提供了有力便捷的程序化工具。在此基础上,更进一步的亲密联系人身份审核及信用评估,可以更全面地为贷款个体信用评估提供参考。
的持续性,不会因为贷款行为的发生而出现明显变化,因此,通过对比分析贷款个体放贷前后的通信行为数据,可以在一定程度上洞察到贷款个体将资金用于非正常消费途径的行为。用于分析的数据主要包括通话和短信的关系圈、时长、频次等指标,具体分析思路参见表1。
表1 通信行为指标及分析思路
3.2 位置行为
与通信行为相似,社会个体的位置行为也会相对稳定,常驻地、迁移地的驻地周期和频率等位置数据可侧面反映社会个体的行为意图,如贷款个体获得资金之后,停驻于澳门、拉斯维加斯等赌博行为高发地段的行
3 贷后风控
放款之后的风险控制,一直以来都是放贷机构在整个贷款流程中的薄弱环节。传统的监管方法很难有效地反映出资金的真实流向,同时贷款个体的刻意“伪装”行为也增加了贷后风险控制的难度。伴随着社会群体在移动互联网行为上的普及,作为移动互联网的管道服务提供商,中国联通结合互联网+的思维方式,利用收集的用户行为数据,为金融征信的贷后风控提供了创新驱动力,开拓了新的思路。
中国联通这次的实践创新主要通过分析贷款个体在放贷之后的通信行为、位置行为、网络行为的异常变化,来发现贷款个体的资金风险状况,为放贷机构提供预警,结合金融机构原有的甄别机制,规避资金的潜在风险。
为,反映了贷款个体可能存在赌博行为的发生,从而导致所贷资金回款风险增加;或者是常驻地在贷后发生明显的变化(见图3) ,这些位置轨迹上的信息,可能表明贷款个体有恶意骗贷或者逃避还款的企图。通过贷后对位置轨迹数据进行分析,一方面可以实时向放贷机构提供资金风险预警,另一方面可以为放贷机构对于风险资金的追回行为提供数据支撑。
3.1 通信行为
经过长期数据分析和观察,我们发现多数稳定性较好、信用值较高的社会个体的通信行为,通常会保持相对
图3 贷后风控位置行为监控
3.3 网络行为
移动互联网的诞生,为我们提供了最为丰富的用户
39
系统与方案Systems & Solutions
行为数据,社会个体基于手机应用而产生的APP 使用数据和网页浏览数据,都可以收集之后用于分析挖掘贷后资金的流向情况及贷款个体的异常状况。例如:贷款个体对于涉赌APP 应用的使用情况,非法关键字(赌博、骗贷方法、跑路等) 的搜索情况,非法网页的浏览情况等等。
化评估,信用评分都具有重要意义。监控预警模型主要应用在贷中审核及贷后风控,通过基础监控模型,对贷款人的行为异常做出及时预警。通过应用模型层,最终得到6个业务输出项,以便直观地反映对贷款人各维度的特征及综合征信评估结果。
5 总结及展望
4 征信评估方法架构介绍
评估方法的整体架构(见图4) 共分为数据层、基础模型层、应用模型层和业务输出层四层。征信方法所需的数据可分为六大维度,多达百种数据项。通过对原始数据的维度归类和数据项变量的相关性分析等数据预处理及特征提取,将数据项整理为有用的格式,并保证数据项之间的相对独立性以及包含的信息熵最大,这对整套方法的计算效率及模型精度有很大意义。这些经过处理的数据项被作为基础模型层的输入,用以描绘评估对象的某一特定方面的特征。
传统征信服务与互联网企业、电信运营商等基于大数据提供的征信服务将是一种互补关系。一方面,大数据对于传统征信尚未覆盖的领域将极大程度地提升征信服务的可得性;另一方面,通讯数据对用户的行为分析,将在一定程度上弥补传统征信精确性不足的问题。
单纯通过某个指标去推测贷款个体对资金的违规行为显然是值得商榷的,但如果能够结合多方面的指标数据,全面分析贷款个体的行为特征,多角度考虑贷前、贷中、贷后的风险程度,对于贷款机构而言大有裨益。所以中国联通更多的是在社会信用体系中配合传统金融机构,扮演“增信”的角色,而非独立承担征信的工作。同样,通过对运营商原始数据的分析挖掘,在为贷款风险控制提供支持的基础上,社会个体的隐私及数据安全这些问题是整个流程中不可或缺的,隐私保护机制是在数据安全基础上的又一挑战,也是我们后续工作创新实践中需要思考解决的问题。
参考文献
[1] 运营商离大数据有多远:深度挖掘三类价值信息[EB/
OL].[2015-10-20].http://tech.sina.com.cn/t/2013-06-03/[1**********].shtml
[2] 刘雪峰. 康健征信行业深度报告[R].2015
[3] 雷群涛. 央行:中央征信体系已收录自然人8.5亿[EB/
OL].[2015-10-20].http://www.01caijing.com/html/ejr/1435_6168.html
[4] 李沪宁, 尤晓明. 加快个人征信系统建设防范个人信贷业务
风险[J].中国金融电脑,2007(2):13-16
[5] 聂美英. 个人信用信息基础数据库运行中存在的问题及其
解决对策研究[D].青岛:中国海洋大学,2011
图4 评估方法整体架构
基础模型层共有11个模型,包含9个系数模型,2个监控模型。9大系数模型分别描绘着贷款人的9大维度信息及行为特征,为整个贷款过程中贷款人信息的变化提供有效评估方法。两大监控模型,为贷中及贷后模型,可以实时监控贷款人在借贷后的行为变化。通过基础模型的支撑,应用模型层对贷款人的多维度信息进行综合评估和计算信用评分。贷前的初始授信及贷后的优
40
Systems & Solutions系统与方案
作者简历
陈一昕
教授,博士生导师,中国联通研究院大数据首席专家。研究领域为数据挖掘、机器学习、优化算法、规划调度、人工智能、博弈论、云计算等。在AIJ 、JAIR 、TKDE 、TKDD 、TIST 、TPDS 等国际一流期刊和VLDB 、AAAI 、KDD 、IJCAI 、ICML 、RTSS 等国际顶级会议和上发表论文100余篇。任数据挖掘和人工智能领域的顶级期刊JAIR 、TKDE 、TIST 的编委和 KDD、AAAI 、IJCAI 、ICDM 、SDM 等一流国际会议的程序委员会委员。其开创性的研究工作获得了美国微软青年教授奖(2007),美国能源科学计算中心启动项目分配奖(2007)和美国能源部杰出青年教授奖(2006)。
谷静宜
数据挖掘工程师,研究方向为大数据、用户流失、互联网金融。
王 蕾
数据挖掘工程师,研究方向为大数据、社交网络分析、互联网金融。
朱志勇
数据挖掘工程师,研究方向为大数据、智能医疗、竞价系统。
刘韵洁
中国工程院院士,中国联通科技委主任,博士生导师,研究方向为移动互联网、物联网、三网融合等。曾主持我国公用数据网、计算机互联网、高速宽带网的设计、建设与经营工作,为我国信息化发展打下重要基础;主持设计、建设与运营中国联通“多业务统一网络平台”,为三网融合提供了一种可行的解决方案。曾获得国家科技进步一等奖1项,部级科技进步一等奖2项,国家发明专利2项,先后发表学术论文59篇,专著7部。
Personal Credit Rating Based on Big Data of China Unicom
Chen Yixin1Gu Jingyi1Wang Lei1
Zhu Zhiyong1Liu Yunjie2
1 China Unicom Research Institute, Beijing 100032, China
2 China United Network Communications Co.,Ltd., Beijing 100033, China
Abstract With the marketization of current credit rating in China, we (China Unicom) use our unique advantage, combining with the “Internet + ” model, to present a new personal credit rating system. With the current situation of fiancial credit rating system and big data background, this article introduces how China Unicom uses their own data, from perspectives of user communication behavior, user social network, and time/location dimension, to establish a personal credit rating model supporting before-, in-, and after-loan periods.
Keywords China Unicom; Personal Credit; Credit Rating Model; Big Data; Risk Control41