9-用户行为分析
网
络
流
量
监
测
户用为分行析
宽
网 络带 监 教控研 中 心
目 录
. 12. 3. .
42
用户
行分析为内容 的因网特络用户网述 概 用 户网行为分析过程 络 用 户网络为行的测和观集 采 用 行为分户方析与算法法
5.
用行户分为析的念概 l
网络户行用为就是网络户用的点、构特成及其网在 应用络过中行程为动活所表现出来的上规律 。 依据 同不的研目的究和象数目对网络用户,行为可 为分络个体网户行用为和络网体群用行为户。 网用络户行分析为是了研究为络网用行为户的律性 规 这种 律可规用以些特某征的量统特计征,特征量或 的联关系关,量定或定性地表。示 网络跟业分析务是交错关系,用的户业务和是不密可分的
l
l
3
l
l
用户
行为析的内容
分.1 2. 3 . 4 .
解了用个户体群及的上网行体及对网络的为响;影 了 用户对解网业络务的用情使况; 了解 户用种行为特各之征的间关;系 了解 用对于户网或络其用他的伤户性害行及影为; 响 了 解户的用构成以及不、用户的网同络消费点特和消 倾费。 向
4
5
.
用户为分行析意的义
l
对网络
划规网络优、具有重化意义要对合理,制因 订网特网运络政营具有重要策义,如意费政策。 资 解因了网特用户对络业网的务使用况情:助有于理 发合网络业务,为展网用户提络供更的服务。好 了因特网用解户于对络或其它网用户的的害性伤行 为影及响:设法少伤减害。 了 因解特网户的用网消络费特和消点费倾:有向针对 性地面向定特户用体群进市行营场活动。 销
l
l
5l
户行用为分的一析例子 个
l
l
考参《国中联网互发展络状统计报告况 》 来 :中源互国联络信网中息,心国是比内较权威 一的个联互机网 构 网址 h:tpt://ww.wnnci.nce.tn/ c
6
l
目用户前网上入接方 式
l l l
家 宽庭:带ADSLC、albMeode等m 线专网:L上A接入N专,例如企线业机、场 动移上:手网、平板机电、3G数脑卡等据
7
因特
用网分户类 l
用户分从的角析度因特,用户主要分为网两: 种
– –
静IP地态因址特用户:网专线用户 动IP地址因特态用户:网xDS、L手等 机
l
其它从角,可以度多种有分方划法 :
–
个用人户企业用和 户 不接同入点和区地域围范 不同资费类 型 不同上用途 网 同年龄、不育教程、收入度范围……
8
– – – –
特因用网行户分析为的难 点 l
因
特网络的消网费环境发展
过程不长,于对络、网 流量业、务、用户为等行方还没面完善有理的论述描和模 型定义分析,求、目的需手段等、都处于究研步 阶段 起 网络规不模扩大,链断路带宽实和际流量不断增,长 求要据采数和处集理有高具和速完的能备力 用 数户大量用,户别识复杂要求。对用进户行确识准 别并,能够采且集泛广用户的数据
l
9
l
特网用因行为户析分的点 难
l
网业务络杂复高,变度快:针对用化的户务业识别 数、据集采、析分杂复更度 高 消 费品产多样:以化因特网络网境环依为托消的费 产品量数和类都种发展当相快而且,各自特的点一 不
l
0
1
因
网用特行户分为的析程过
l
因网特络中的网用户为分行是一个析杂复综合和的 程,是过业领域务和术领域紧技结合的产密物 过 程要主节:环 –
–
l
确定分析目标 建立分析模型 采 集本基数或者利用历据数据 数据的史提、过滤、处理、分取和析掘挖得,到论结 过 的不程迭代断和改
进1
1
–– –
基
数据础确定 的
l l l
基
数础据指是不会据分根需要析经常而化变数的据 对于 基数础进行据续持采和集长期储 存 基数础围绕据述下方确面: 定 –
–
用户上网和量特流征 户业用和喜好特征务 络网常相异统计 关 其它
1 2
– –
用户行为 基数础的内据容
l
户用上和流网量征特
– –
主要
上网指次、数网上时、长量流大小、流向 流大小量以进可步一分细为多项指。例如标 : 字节数、报文数会话、、报数文长度分
布
–
流
向地理:置、位运营商
31
l
用户业务和好特征喜
– –
户使用的用要主务种业 类 业使务用情:使况时用长、使用数、次用途
用
户为行础基数据内的容
l
网络异相关常计 统
–
户用是否一类”某坏用户”1带多、:垃邮件圾制者、造网 入侵者络版权文、上件者传 … … 用是户某一类坏否行为的害者受被入侵者、:圾邮垃件受害 、…者 …
–
1
4
l
其他
––
上与网量主质观感相受关的观客数 参 户用否业务是提供者(务器)服
用户网行为络的测和采集观 l
观测位置
– –
在网–的不络位同都能够进行用户上置数据网采集的 为 进行深入了全面的分,析尽量近靠用侧 B户AS(因特网R入服接器务)联链上路
l
观
测手段
– – –
15
统传过x通lowF方法不的能足满析需分 要 使用专用系统 用户产对的网生络流进行量采集 要在
需
若干网位置络行部署,进到一达的用定户盖 覆
采集
备设能要力求 l
l
能够处
所有理的网流量,高速络速线处理 能够 准确进行户用的识别
– –
静I态P地用户 址 动态IP址地户 用
l
能够准确
进网络业行务的识别
–
16
l
业 复杂务要度求采集统必须系具多有复合的种务业识能力
别
能够进行种各复杂户用为行数据采集 的
–
采集各种角
度用的户为数据,并行有扩具展力能
l
准确
地进行数采据和集统计
用上户网为行分的析据数准备
l l l
本基数据的集采 据的数预处:过滤、汇聚理关、 联 数据的间汇聚:时5分钟、1小按时、日周、、月年、等时 间度进行粒存储 数据的时长间存和储积累
17
l
用行户数为据的析方法 分
l ll l
照时按变化的间史趋历势分析 定条件特的T下op分N析、热点分 析 户特征用分 析关 联分 析 类分 对分比析 异常 析分
1
8
l
l l
方法按照:间时变的历化史势趋析 分 l
要包主括网流络、量网用络使用业户量务、特网络定用 的流户以量特及定网络业的流务量各种等量的流时 序分。 析 析这些分时内序容有,于正助把握确种趋势各未来 发展的向方 。 进一更步可以还对这流些量的分进布行分析预测与 ,对流这的量测预重有要意。 义
l
1
l
方9:TopN法析分
l l
ToN分p析是户行为分析用的一很种用的方法。常 TopN分析包 括用户量的流ToN分析p、户访用服务器的问Top 分析N 。 如对例某用户分析类时T,op用户N大程最影度了该响类用户 特的,性而对且ToNp用采取相应的户略策措施是也最有的效式。 因方此在用户,为行分析,中般一要需对oTpN用作户深更入分的
l
2
l
0。 析 用户对问服访器务T的op分N析可了解,户用需要的最务服内 容是哪、些服务器提供的
TOPNl分对析用户喜、好户流用量布分业、使用情务况用等户行 分析目的为有重意要。 义
To
N举p例
个南某方份省的主运营商要联互互通出,口5内天网,内户访问用外服网器务 地的To址p 1 0 后续 可助其借他具工去,析分01热门地个的归址属、提供的务类型、业等
⺴⽹网等外IP 11727.148..11 811.277.14.8191 1 172..748.14 6 流 录数 记 1059,1,615 0 1 6,072,654 0 2,947,2593 11 0,31,8940 116757,,53 2 1,3 0,8848 1339,6,6 1 12,10,329 ,119,274 5 行字上节数 下行字 数节 上行 文数 报 下行报数 文
2
891,89,000,00 0 3,86584,,0000,000 297 ,9
590,0,000 0 3,85,300,0300000 , 72, 83,3927,230 ,198,41000,0,0000 232,01,000800, 0 ,144,270,0030000, 6,4447,4,6267 1 ,85,140,400,000 0 3 0368,,188,535 ,1011,3700,0,0000 929,5,014,9665 10,2,980,000000, 0 2 ,1178256,9,3 16,2497,65,652 1 982,210,00,000 0 91884,3,00,000 0
,924,069,306 6 ,8232,55,0695 2 9,9,3856,186 3, 81,004,827 4 19,449,367 2 1 ,356,94,957 7 1 ,62,876,5853 1, 445,83,0165 6 13,4,015 0 1252,1,9,064 2 4 3,263,5293 249,992,39 4 389,252,82 6 38 ,925,747 8 75,667292, 4 73,5252,78 6 638,7657,9 4 62,805,6591
1
283.610.4.728 211 .3071.240.24 1 21.204.221.471 2 2212.40.41.1257 22.104.2412.174 2 21.20.441.123 7
方法
用户:特征析 分 l
户用征分特是析找指出类各用户的为行点特用。户特征 析分是实针施对营销的前性条提件。 如例,通过各资对档费用户次用使征的特比,获得 高较费用户资上网特的征找到,目标用,通户业务过 导引资、费略策方式等用户使高资费向用群转户移
l。
2
l2
再例如通,过政企对用户使业用务类种特征分的析 向大用户,营商销领航务系产品列 。户用特征分对析费消合性和把理主要用握户等户用行 分析目的为重有要意义。
l
方
:关法分联 析
l l
关联分析发关现规则。联 在户行为分用中析可,把以用户一种的用使惯习另和外的 使习惯用进行关分析,也可以把联户的用消习费惯 和使网用习络惯行关联进分析或,把者户的自然用属性 年龄、性如、别业职与用网使络习惯行关进联
分23
l
析。 关 分联对析掌握用的业户务喜好网和络侵入检测用 户行等为析分目有重要意义。 的
方法:
分 类 l
l
利用分
技类术,可以用将归户属一个为特的定。 类如,例通过对大离网(注量业销)用户务析分,得 到网离户用销前注上的行为特征,网成形离用网户型模 ,再通过该模型与比对,具有类似对为行征的特用户发 出网离警,预营销为部门取用户挽采留措提供依施。据
24
方法:对比分
析
l
包括各种不类同型户的用流对量、比业使务用况情对比、上 情况线对等比。等 分 这些析比内容对,以可区分不同户用之间不、同 务业间的之异。 差
l
25
方法
:常分异 析 l
对络用网户一的异种常分是析黑客攻击、网络对毒、病垃圾 邮等件不正的网常流量的络分。 析 一另种异常析是对分为行特异征常的个体行分析。 进 如当一比专个用线户,流其量示出具显公有众用户特 ,征
且流远远量超出线用专户可的能量,则流个专 这线用可能在经户营公众用。 户
l
l
2
6
用
户行分析用为到算法的
l
户用为行析分和挖掘程中过面,对大量的数据着,对 些这据的正数分析确才能得到,有义的意论,结分析 户用据常用数法算是两类的
: – –
统
计方 法数挖据掘法方
27
基本计统征特
l
数
的最据值(M大aixmu)和m最值(小iMnmui)以及m它2个们的差 值R(nga)。 e 据数的值(M均an)、e本标样准差(Satdand r Deviatoin和样本)方差 Va(ianre,)。c 度偏,称亦偏、偏态系数态等(Sewkesn)s,是统计数分据布斜方 向和偏度的程量度,统是数据分计布非称对度的数程特征字。度是利用 3阶偏矩义的,定偏的计算公度式为 :
l
l
82
–
其
中(Ex)示表望期D(x),表示差方。
相
关分性 析 l
两变个是量否有系关,简单方法最是检查的们的相关它性相关 性一。般用关相数系表示,的它数学定是: 义
l
关相系数有下如性质的:
–
92
相系关数取的值围在范1+-1和间, 之 >0表两明变个量在正的相 关存系关; 0表明.8表明个两变之间量较强的有相性关而|,相 关系|
–
数
据挖掘
l
数据掘(挖M:DDat aM inni.g)也称为据数中的知识发库 现KDD (Kn olwdge eD icsvoey rn i Dtaabsea)是近,年随几数着据库和人工 智能展发来起一的门新的数据兴库技。术它聚了数汇 据库、工智能人、器学机、统计习学、视可化技、术并计行算等 不学同和领科域知识。 的
l
具体地
说是数在据中,对数库据行进定一处的,理从量的大、不完全的 有、噪的声模、的、随机的糊数据提中取隐含的、先事未知 、但的又潜在有是的信息和用识知过程的 。
3
l0
据数挖掘传统分析方与法区别的
– –
数 挖掘据在没是有明确假设的提下去挖前掘信、发息知识 现 据数挖所掘得到的息信具有先前应知未有,和实用三个效征特
数 据掘挖段手
l
聚类 –
聚类
把一组是体按照个相性似归若干成别类即,物以“ 类”。聚它目的的是使属得同一于别类的个体间的距离之尽 能可小,的而不同类别上个的体间距的尽离可的能。大类与 分类聚的区在于别:聚类没预先定有类义而由数别决定据。
31
l
估
与计测预
–计是估据根已的有资料对,某一参或数值数来获数取据其 未知他属之性。值预测根据是象对属、过性去观察的和值有 关料
资
对该属的性未来进值预行测,估预计测使用的巧技要主是回归 分、时析间列分析数及人智能工、神经络方法网。
据挖掘手段 数
l
序
发列 现
–
序列现发用数据于之与间时间关的相列序式。模如购例买了 同商品的一人否是一在周再次购买;内户访用问一网某后, 页访问后面网的页哪些是?
2
3
据挖数掘决的解型用典行为问户
题 ll l l
用户体划群 分景分析背 交销售叉 用户流失性分析 户用信记分 用 诈发现 欺
33
l l
用户
为行析常分用具-SP工S S
l
tSatistcali Pckagea ofr hte S oical Sciences,“即社会学统科计软件 包。随着SPSS”品产服务域领的大扩服务和深度的增, SPS加公S已司20于0年正式将0英全称更文为Statistic改a l Prdoctu and Srveiec Slotuonsi意,为“统计产与服品解决 务案方” S SP是S世界上最早的计统分析件,经软多过的发展已经成年 为在走最了流新的“数据行库”和“数仓据掘”挖领前沿的域一 家合统计软综件司。 公 SP SS统分析计过包程括述性描计统、值均比、较般一性线型模 、关相析分回归分析、对数、性模线型聚类、析分数、简据化生 、分存析、时间序分列、多重响应析等
l
3
4l
用户为分行析常工具-用osPtrgSQLe数库据
l
PsotgreSL Q是是种一非常复的杂对象关系-数据库型管理系 统OR(DMBS)也是目,前功最强能大,特最丰性和富最杂复 的由软自件数库据系。统有特些性至连甚商数业库据不都备。 具 P otsgerQL在用户行S为析分起中到重要很的用作由,用于行 户为数据的量往比较大往需要一,有力个的数据工库支具撑而 ,PotgseSQrL借其强凭大的功能有用户成为行析分的力有工的。具
l
35
户行为用析常分工用-M具TLAAB
l
AMLTAB矩是实验室阵(atMri x aLobratory的简)称 于由atlaMb数在计算和学图方面和画其软他相比有件很 大优的势用户,为行分析涉中及到复杂数的运学 可算用Mat以ab,对于处理l果结二的、维三绘图
l 维
3
6
aMtab也l很明显的优有,可以势将结直果的显示观 图在表中便,于察用观行为户特征 。l
Mtalba是用也行为户分析的的要软重之件一 。
户行用为析分用工具-常EWK A
l
We
ak的名全怀卡是托智分能析境环(Wikaaot Environm etn f o r nowleKge d naAlsis),已有十y多年的展发史历。 它 一种是基Jav于a的源开据数掘软挖件 于再编程易实现,自的算己 法 W ka集合e了大量承能数担挖据掘任的务机学习算器法包括, 对数据进预处理行、分类回归、、聚类、联规则关析分以,在交
及互式面界上视化可数据
l ll
37