商务智能复习
商 务 智 能
第1章 商务智能概述
1.1 商业决策需要商务智能
一、数据、信息和知识
1、数据:符号、事实和数字 信息:有用的数据
关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。数据是信息的载体, 信息是对数据的解释。
知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。
2、决策离不开信息、知识
①决策需要信息,更离不开知识;知识更多地表现为经验--学习的结晶;学习的过程是不断地对信息加工处理;信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。
②信息已成为企业经营中重要性仅次于人才的第二大要素。
③决策=信息+经验+冒险
④商务智能是对企业信息的科学管理。
3、商务智能支持商业决策
商务智能如何创造知识和价值
1.2 商务智能简介
商务智能这一术语1996年由 Gartner 公司的分析师Howard Dresner首次提出,他提出商务智能描述了一系
列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
一、商务智能概念 商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力,涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的绩效。
①先进信息技术:商务智能是多项技术的综合应用;
②集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次;
③企业战略:商务智能服务于企业战略;
④管理层、业务层:商务智能用户多样性;
⑤更好的绩效:商务智能提升企业绩效。
二、商务智能的价值
1、在商务智能背后有一些商业驱动力,如:
①增加收入,减少费用和更有效地竞争的需求。②管理和模拟当前商业环境复杂性的需求。③减少IT费用和
利用已有公司业务信息的需求。
2、商务智能的价值
①制定合适的市场营销策略;②改善顾客智能;③经营成本与收入分析;④提高风险管理能力;⑤改善业务洞察力;⑥提高市场响应能力。
1.3商务智能系统的功能
①数据集成:数据是决策分析的基础;
②信息呈现:商务智能的初步功能;
③经营分析:运营指标、运营业绩和财务分析;
④战略决策支持:合理的投资组合。
1.4 商务智能应用领域
①银行:美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。
分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等
②电子商务:网上商品推荐;个性化网页;自适应网站„
③生物制药、基因研究:DNA序列查询和匹配;识别基因序列的共发生性 „
④电信:欺诈甄别;客户流失„
⑤保险、零售„„
⑥政府部门、教育机构、医疗机构和公用事业等。利用商务智能的企业现在已越来越多,遍及各行各业。
第13章 商务智能发展
一、商务智能的发展
事务处理系统TPS→管理信息系统MIS→主管信息系统EIS→决策支持系统DSS→智能决策支持系统IDSS
二、商务智能应用趋势
①更成熟的数据分析和展现技术;②从战略型的BI到操作型或者实时型的BI;③关注绩效、关注价值、关注数据质量。
三、商务智能在中国的发展
商务智能在中国的发展尚处于起步阶段,大部分企业对商务智能仍然缺乏必要的了解。
国、内外商务智能软件企业的实施和应用水平有很大的差距,目前国外有一些企业已进入多维分析和数
据挖掘阶段,而国内商务智能的发展只是近几年的事情,商务智能应用的范围和程度都与国外企业有很大差距。绝大多数实施商务智能的企业的应用水平停留在基本的数据整合阶段和简单的统计分析阶段,真正实现深度数据分析的项目很少。
四、中国商务智能应用存在的问题
①起步较晚:国内管理者想要利用商务智能解决缺乏有效信息支持决策的管理模式和操作准则越来越体现出缺乏理性的缺点。因此国内企业管理者试图通过商务智能解决上述问题,但这种需求比国外发达国家滞后了。 ②差距拉大:目前国内各行业商务智能的发展水平仍是参差不齐,商务智能在行业内也存在差距,不同规模的企业应用商务智能的差距也在拉大。
③普及有待时日:技术、观念和管理水平的相对落后,商务智能的普及还需要较长时间
④供应商有待成长
五、商务智能动态
1、商务智能发展的特点
①实时;②标准化;③嵌入式商务智能;④移动商务智能;⑤大众化趋势;⑥供应商的动向;⑦易用性。
2、2012年商业智能的6大预测
①内存中的分析;②可视化发掘;③大数据;④移动商业智能;⑤云商业智能;⑥社交,协作的商业智能。
第2章 商务智能系统架构
2.1 商务智能系统组成
1、体系结构(Architecture):体系结构是指一整套的规则和结构,为一个系统或产品的整体设计提供主框架。
2、商务智能的体系结构
一个商务智能的体系结构是通过识别和理解数据在系统中的流动过程和数据在企业中的应用过程来提供
商业智能系统应用的主框架。
商务智能系统构架(见书P27)
3、商务智能系统的组成
①数据源与数据提取;②数据仓库;③访问工具;④决策支持工具;⑤商务智能应用;⑥系统管理;⑦元数据管理。
2.2 数据集成
数据集成是在逻辑上或物理上把不相同来源、格式、特点的数据有机地整合,从而为企业提供全面的数
据共享。
目的:运用一定的技术手段把分布在异构系统中的数据按一定的规则组织成一个整体,使用户能有效地对其进行共享、分析,因此数据集成是构建数据仓库的基础。
1、数据集成的常用方法
①数据联邦;②基于中间件模型;③数据仓库;④主数据管理
2、主数据管理与数据仓库的关系
①联系:二者相辅相成,都是减少数据冗余和不一致性的跨部门集中式系统,都依赖ETL、元数据管理等技术保证数据质量。数据仓库系统的分析结果可以输入到主数据管理系统中。
②区别:主数据管理是为呼叫中心、电子商务和CRM等业务系统提供联机服务,数据仓库面向分析型的应用;主数据管理涉及的数据量相对较小,在运行中对主数据的集成实时性要求比数据仓库高。
3、主数据管理与ODS的关系
实时性要求具有共性,但主数据管理系统不储存ODS系统的交易数据。
第3章 数据仓库
3.1 从数据库到数据仓库
1、企业数据处理分为:事务型处理和分析型处理
2、事务型处理
①即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。 ②它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。 ③在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。
3、分析型处理
①分析型处理:用于管理人员的决策分析,例如DSS、 EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。
②分析型处理经常要访问大量的历史数据,支持复杂的查询。
③分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。
4、事务型处理数据和分析型处理数据的区别(见书P36)
5、数据库系统的局限性 ①数据库适于存储高度结构化的日常事务细节数据。决策分析型数据是多维性,分析内容复杂。 ②在决策分析环境中,如果事务处理的细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。 ③当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。 ④决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。
6、多库系统的限制
①可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。
②响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。
③系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥;
④系统开销:每次查询要启动多个局部系统, 通信和运行开销大。
3.2 数据仓库
1、数据仓库的发展
①1981年 NCR公司为Wal Mart建立了第一个数据仓库。
②1988年 IBM公司的研究员Barry Devlin和Paul Murphy创造性的提出了一个新术语¡ª¡ª数据仓库
③1991年 Bill Inmon正式出版《Building the Data 、Warehouse》,第一次给出了数据仓库的清晰定义和操
作性极强的指导意见
④1993年 拉尔夫.金博尔出版了《The Data Warehouse Toolkit》,在具体构建方法上提出不同意见
⑤1996年 加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供
了巨大的收益。
2、数据仓库(Data Warehouse)
①含义:数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。
②Bill Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
3、数据仓库的技术要求
①复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。
②对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。
③对进行高层决策的最终用户的界面支持:提供各种分析应用工具。
4、数据仓库结构
3.7 数据仓库模型
1、概念模型设计
①概念模型用来表达信息世界中的信息结构,通常人们利用概念模型定义实际的数据需求。
②概念模型最常用的表示方法是实体-关系法(E-R法),E-R图将现实世界表示成信息世界,便于向计算机的表示形式进行转化。 ③目前的数据仓库实际上是通过主题分析表示概念模型,每个主题用若干维和度量表示。维度是人们观察世界的特定角度,度量是确定与维度分析有关的数值信息。
2、逻辑模型设计
①主要工作:a分析主题域进行概念模型到逻辑模型的转换;b确定粒度层次划分;c确定数据分割策略;d关系模式定义;e定义记录系统。
3、数据仓库常用的两种基本逻辑模型: ①星型模型:星型模型的核心是事实表,事实表把各种不同的维表连接起来。
②雪花模型:雪花模型是星型模型的扩展,某些维表中的数据可以进一步分解到附加的表中。
4、物理模型设计
①物理模型设计因素:a I/O存取时间;b空间利用率;c维护的代价。
②主要工作:a全面了解所选用的数据库管理系统,确定一个最适合应用要求的物理结构,特别是存储结构和存取方法。b了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。c了解外部存储设备的特征。
5、确定一个最适合应用要求的物理结构
①估计存储容量;②确定数据的存储计划;③确定索引策略;④确定数据存放位置;⑤确定存储分配。
3.4 元数据
数据仓库的所有数据都要通过元数据来管理和控制。
1、元数据
①元数据:是用来描述数据的数据。
②元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。
2、元数据的分类
①技术元数据:与数据仓库开发、管理和维护相关的数据。(如数据源的元数据、数据模型的源数据、数据仓库映射的源数据)
②业务元数据:从业务角度描述数据,为管理及业务分析人员服务。(如数据仓库使用的元数据)
3、元数据的存储方式
元数据有两种常见存储方式:①以数据集为基础,第个数据集对应元数据文件;
②以数据库为基础的,即元数据库(推荐)。
3.5 数据抽取、转换和加载
ETL是构建数据仓库的重要环节,也是企业数据管理的核心,对数据仓库的后续环节影响较大。
1、数据抽取(Extraction)
①确认数据源;②数据抽取技术
2、数据转换( Transform) ①数据转换的的主要任务是对数据粒度以及不一致的数据进行转换。
②数据转换的形式:格式修正;计算值和导出值;度量单位的转化化;日期/时间转化;特征集合转;信息的合并;汇总等
3、数据清洗(Cleaning)
①数据清洗也称数据净化,主要指对数据字段的有效值检验。
②有效值的检验通常包括:范围检验;枚举字段取值;相关检验要求。
4、数据装载( Load)
①数据装载方式:
a基本装载:按照装载的目标表,将转换过的数据输入到目标表中去。
b追加:如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。
c破坏性合并:用新输入数据更新目标记录数据。
d建设性合并:保留已有的记录,增加输入的记录,并标记为旧记录的替代。
②数据装载类型:
a初始装载:这是第一次对整个数据仓库进行装载。
b增量装载:由于源系统的变化,数据仓库需要装载变化的数据。
c完全刷新:这种类型的数据装载用于周期性重写数据仓库。
5、数据处理的有关讨论
①数据库中的空缺值;②不一致的数据;③样本空间的大小;④与分析无关的数据不要装入数据仓库;⑤数
据离散化;⑥数据规范化
3.6 操作数据存储
①很多情况下,DB-DW的两层体系结构并不能涵盖企业所有的数据处理要求。
②日常管理和控制决策的问题并不是联机事务处理,又算不上高层决策分析,需要企业全局一致的、细节的、当前或接近当前的数据,又需要面向主题、集成的数据环境。因此需要DB-DW之间存在着一个中间层次,即操作型数据存储 ODS(Operational Data Store )。
1、ODS和DW的比较(见书P44)
3.7数据集市(Data Mart)
1、数据集市:数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。
2、数据集市类型:
按照数据获取来源:①独立型:直接从操作型环境获取数据;②从属型:从企业级数据仓库获取数据。
3、数据仓库VS数据集市
①数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。
②数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。
注:数据集市不是数据仓库
数据集市并非小的数据仓库
多个数据集市集合并不构成数据仓库
第4章 在线分析处理
OLAP发展背景
①60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展 (数据以表格的形式而非文件方式存储)。
注:OLTP在线事务处理通常是一个或一组记录的查询和修改,用于处理短暂的交易事务。
②1993年,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。(认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求)
4.1 OLAP简介
联机分析处理(OnLine Analysis Processing,OLAP)在数据仓库系统中,联机分析处理是重要的数据分析
工具。
OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。
OLAP
当OLAP与数据仓库结合时,OLAP的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的。
1、OLAP的定义
①OLAP委员会的定义:OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
②OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
2、OLAP的基本概念
①维:是人们观察数据的特定角度,是考虑问题时的一类属性。
②维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面。
③维的成员:维的一个取值。是数据项在某维中位置的描述。
④多维数组:维和变量的组合表示。一个多维数组可以表示为: (维1,维2,¡,维n,变量)
⑤数据单元(单元格):多维数组的取值
3、超立方结构(Hypercube)多维数据集
①立方体或超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。
②数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性(收缩超立方结构,这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维)。
4、OLAP的特点
①快速性Fast:用户对OLAP的快速反应能力有很高的要求。
②可分析性Analysis:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
③多维性Multidimensional:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
④信息性Information:OLAP系统应能及时获得信息,并且管理大容量信息。
4.2 OLTP VS OLAP(见书P65)
4.3 OLAP操作
E.F.Codd从可视化角度提出,主要基于统计的方法:
①切片和切块(Slice and Dice):切片与切块的作用是对分析的数据进行过滤,使用户专注于局部数据。
②钻取(Drill):钻取能够帮助用户获得更多的细节性数据。
③旋转(Rotate):旋转(Pivot)通过旋转可以得到不同视角的数据。
④辅之于各种图形展示分析结果。
1、切片、切块 (Slice and Dice) ①多维数据是由多个维度组成的,如果在某个维度上选定一个取值,则多维数据从n维下降成n-1维。 ②切片与切块在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有两个以上,则是切块。
③切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。
2、钻取(Drill)
①钻取改变维的层次,变换分析的粒度。钻取有向下钻取(drill down)和向上钻取(drill up)操作。 ②向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,即从汇总数据深入到细节数据进行观察或增加新维。 ③向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。
3、旋转(Rotate)
①通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。
②例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)。
4.4 OLAP分类(见书P69)
1、ROLAP
①ROLAP是基于关系数据库的OLAP。
②它是一个平面结构,用关系数据库表示多维数据时,采用星型模型、雪花模型。
2、MOLAP
①MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,采用类似于多维数组的结构。
3、ROLAP与MOLAP的比较(见书P71)
数据存取速度 MOLAP在数据存储速度上性能好
数据存储的容量 ROLAP在存储容量上基本没有限制
多维计算的能力 MOLAP能够支持高性能的决策支持计算
维度变化的适应性 ROLAP对于维表的变更有很好的适应性
数据变化的适应性 ROLAP中灵活性较好,对于数据变化的适应性高
软硬件平台的适应性 ROLAP对软硬件平台的适应性很好
元数据管理 MOLAP和ROLAP都没有成形的标准
4、HOLAP
①HOLAP(Hybrid OLAP),即混和型OLAP,介于MOLAP和ROLAP之间。在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。
②HOLAP得宜于ROLAP的可伸缩性,和MOLAP的快速计算。(如MS SQL SERVER)
③在HOLAP的多维数据表中的数据维度少于MOLAP中的维度表,数据存储容量也少于MOLAP方式。
④HOLAP在数据存取速度上又低于MOLAP。
4.6 OLAP工具
目前许多公司已经推出了相应的OLAP支持工具:ORACLE;IBM;Business Object;SAS;NCR。
第5章 数据挖掘
5.1 数据挖掘概述
1、数据挖掘的由来:①数据爆炸但知识贫乏;②网络之后的下一个技术热点;③支持数据挖掘技术的基础;④从商业数据到商业信息的进化。
注:如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用效率:要学会抛弃信息!
2、从商业数据到商业信息的进化(见书P84)
3、数据挖掘软件的发展
①第一代数据挖掘软件:独立的,可以支持少数几种数据挖掘算法。
②第二代数据挖掘软件:和数据库系统进行了集成,能够处理在规模的数据,但缺少对业务的预测能力。
③第三代数据挖掘软件:增加了预测功能,还可在分布式系统中运行,可挖掘网络环境下的数据。
④第四代数据挖掘软件:支持移动计算和各种嵌入式系统,扩展了应用领域。
4、数据挖掘的定义
①定义:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取正确的、有用的、未知的、综合的以及人们感兴趣的知识并用于决策支持的过程。 ②目的:不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。
5、数据挖掘受多学科影响:数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。
6、数据挖掘与传统数据分析方法的区别
①数据挖掘的数据源与以前相比有了显著的改变:数据是海量的;数据有噪声;数据可能是非结构化的; ②传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证。
③数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来 。
7、数据挖掘与数据仓库
8、数据挖掘与OLAP
①完全不同的工具,基于的技术也大相径庭
②OLAP基于用户假设:a what happened〔查询和报表工具是告诉你数据库中都有什么〕
b what next〔 OLAP更进一步告诉你下一步会怎么样〕
c what if〔如果我采取这样的措施又会怎么样〕
③数据挖掘本质上是一个归纳的过程,不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。
④数据挖掘和OLAP有一定的互补性。
9、数据挖掘模型及流程
①数据挖掘模型:
a为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM。 b CRISP-DM(Cross Industry Standard Process for Data Mining)模型,最先在1996年被提出,当前的白皮书版本是1.0。
c目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。
10、为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告:
①业务理解报告;②原始数据收集报告;③数据描述报告;④数据探索报告;⑤数据质量报告;⑥数据集描
11总结报告。 述报告;⑦模型训练报告;⑧模型评估报告;⑨部署计划;⑩监控和维护计划;○
通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。
11、数据挖掘的过程(见书P85图)
①数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类:
A业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。
B数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。
C数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。
②数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。
注:数据挖掘过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优化问题的解决方案。
5.2 数据挖掘的应用及其发展
1、数据挖掘的应用
①数据挖掘技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。
②具体涉及数据挖掘的商业问题:数据库营销(Database Marketing);客户群体划分(Customer Segmentation & Classification);背景分析(Profile Analysis);交叉销售(Cross-selling);客户流失分析(Churn Analysis);客户信用评分(Credit Scoring);欺诈甄别(Fraud Detection)
2、数据挖掘的未来发展趋势
①未来的热点应用领域:网站的数据挖掘(Web site data mining);生物信息或基因的数据挖掘;文本挖掘(Textual mining);多媒体挖掘。
5.3 数据预处理
1、数据清理
①数据清理的内容:修补空缺值,识别出数据中的孤立点、去除噪声,消除数据中的不一致。
②常用的数据清理方法:聚类;空值处理;冗余和重复。
2、空值处理
①有些记录的值可能空缺,或者某一个属性可能会有大量的空缺值。
a对第一种情况,可以不使用这些记录;b对第二种情况,可以丢弃这个属性。
② 另一种处理空缺值的方法是归咎(imputation)。可以使用一些相关技术(复杂度逐渐增加):
a从别的记录中随机抽取一个值添入。
商务智能复习PPT整理版
b取其他记录中对应属性的最频值,中间数或平均数。
c对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。 d试图用统计或挖掘技术从相似记录的值中预估空缺值。 3、数据挖掘算法
①聚类分析;②分类分析;③关联分析;④序列模式挖掘;⑤回归分析;⑥时间序列分析。 5.4 聚类分析
1、聚类分析的概念
①类是指相似对象的集合。
②聚类是把对象或样本的集合分组成为多个簇(类)的过程,使同一个组中的对象具有较高的相似度,而不同类型的对象差别较大。
③聚类是一种无监督分类法: 没有预先指定的类别; 2、聚类问题的数学描述
给定数据集合V,根据数据对象间的相似程度将数据集合分成组,并满足:
则该过程称为聚类。Ci称为簇。
3、聚类分析的统计量
通过引进一些表示样本间相似程度的度量标准把性质相似的对象归为一类,这些度量标准称为聚类统计量。距离和相似系数是经常采用的聚类统计量。
①距离:a连续值数据常用的距离度量方法:欧几里德距离;曼哈坦距离;明考斯基距离;切比雪夫距离。
b其他数据类型的距离度量方法:可分类变量、二元变量、标称变量、序数型变量和文本等。 a连续值数据常用的距离度量方法:
b其它类型变量常用距离度量方法:
二元变量:变量的取值只有两个状态,如性别,表示是否吸烟,医疗检查正常还是不正常等。 i和j是两个变量:q是两个变量中都为1的个数 t是两个变量中都为0的个数 s是i变量中为0,j中为1的个数 r是i变量中为1,j中为0的个数
(1)二元变量权重相同(对称的,如性别)
即:分子为两者相异的总数,分母为二元变量总数 (2)二元变量权重不同(非对称的)
例如,一个疾病化验结果正常和不正常,对一个群体,正常者总是大多数,我们用1表现几率小的
情况,0表示另一种情况。
评价系数,Jaccard系数
即:两个相异的数量作为分子,相异的数量加两个为1的数量作为分母。(同对称二元变量相比,两
个同为0的数量不出现在分母中)
②相似系数:对于连续型数据,常用的相似系数Cij 有夹角余弦和相关系数等。 4、常用聚类算法
①聚类目标: 将一个包含n个数据对象的数据库组织成k个划分(k
b基于层次的聚类分析算法 c其它聚类分析算法
1)基于划分的聚类分析算法
A、k-means算法:k-means 距离计算,与簇中心距离最近的对象可以划为一个簇。此算法目标是每个对象与簇中心距离的平方和最小。 (1)把n个对象分为k个簇,是簇内具有较高的相似度,而簇间的相似度较底。相似度的计算根据一个簇中对象的平均值(重心)来进行。
(2)流程:首先,随机的抽取k个对象,每个对象初始地代表一个簇的平均值。对剩余的每个对象,根据与各个簇中心的距离,将它赋给最近的簇。然后重新计算各个簇的平均值。过程不断反复,直到准则函数收敛。一般采用平方误差准则:
这里,p是空间的点,表示给定的对象,mi是簇Ci的平均值。 B、k-modes算法:k-modes算法把k-means算法扩展到可分类数据,用一个简单的相异度测量对数据进行聚类。假设X,Y是数据集中的两个对象,它们用m维属性描述,则这两个对象之间的相异度为:
(1)k-modes算法根据可分类属性值出现的频率更新聚类中心,聚类中出现频率最高的属性值被选为聚类中
心,即modes(类模式)。
(2)k-modes算法不断更新modes,使得所有对象与其最近modes的相异度总和最小:首先计算每一簇在某一属性值的对象所占百分数。然后,取每个簇中频率最大的一个属性值作为类模式Q。分别对每个属性进行上述计算,最后得到类模式Q,即初始聚类中心。k-modes算法与k-means的步骤类似: ①预先定义好k类,确定各个类的初始类模式Q。
②根据类模式Q把每个对象赋给最近邻的类,然后更新类模式Q。 ③不断重复②,直到不再发生变化为止。 C、k-prototypes算法 (1)在实际应用中,数据可能是数值型的,同时也有可分类型的。k-prototypes算法综合了k-means和k-modes算法,采用新的距离度量方法,能够快速处理混合类型数据集的聚类问题。
(2)k-prototypes算法的聚类中心由数值型数据的聚类中心和可分类数据的聚类中心两部分加权组成,其中数值型属性的聚类中心和k-means算法类似,通过计算数值型属性的平均值得到。而可分类型属性的中心采用类似k-modes算法聚类中心的更新方式,通过计算可分类属性值出现的频率确定。 2)基于层次的聚类分析算法
(1)凝聚的层次聚集:自底向上的策略首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在某个簇中,或者终结条件满足。
(2)分裂的层次聚类:自顶向下,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一个簇或者达到了某个终结条件。(达到希望的簇数或两个簇之间的距离超过了某个阀值)
3)其它聚类分析算法:基于密度的方法;基于网格的方法;基于模型的聚类。
注:每种方法都有各自的优缺点,适用范围也有限。选择哪种聚类方法,需要考虑实际的应用需求、簇的类型与特征、数据的特性、数据质量、数据集的规模(样本个数、样本属性个数)等因素。 5、 聚类分析的典型应用
①作为一个独立的分析工具,用于了解数据的分布; ②偏离(异常)检测;
③作为其它算法的一个数据预处理步骤。 5.5 分类分析与回归分析
①分类和回归都属于预测建模,是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。
②一般认为:a预测数值数据归属于哪个类称为分类;
b
1、分类分析
①分类要解决的问题是为一个事件或对象归类,即确定一个特定的对象属于哪一类。
②分类就是通过分析训练集(决策表)中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象进行分类。
注:训练集:用于建立模型的数据称为训练集,通常是已经掌握的历史数据。 2、数据分类的步骤
①数据准备:数据清理;相关性分析;数据变换。
②建立模型:建立模型,描述预定的数据类,通过分析由属性描述的数据库元组来构造模型。 ③模型评估:评估模型的预测正确率。 ④使用模型分类。 3、数据分类的方法
①贝叶斯分类器;②决策树;③支持向量机;④BP神经网络;⑤其它分类方法 4、决策树
①决策树是一个树形的结构,由决策结点、分枝和叶子结点组成。 a内部结点表示一个属性上的测试 b每个分枝都表示一个测试输出 c叶子节点表示一个类
②一个电器销售商根据数据库的数据分析概念 “买计算机”,构造的决策树。
③使用决策树进行分类的过程
④决策树算法:A、常用算法:
a ID3、C4.5 ; b SLIQ、SPRINT等 B、基本算法(贪心算法):
商务智能复习PPT
整理版
a自上而下分而治之的方法;
b开始时所有的实例都在根节点;
c属性都是分类型 (如果是连续的,将其离散化); d所有记录用所选属性递归的进行分割。
e属性的选择是基于一个启发式规则或者一个统计的度量 (
如信息增益) 决策树的属性选择
f属性选取是决策树算法中重要的步骤,一般需要最大程度地增加样本集的纯度,而且不要产生样本数量太少的分枝。
⑤决策树的属性选择
a属性选取是决策树算法中重要的步骤,一般需要最大程度地增加样本集的纯度,而且不要产生样本数量太少的分枝。
b
常见属性选择标准:信息增益;基尼指数;其它
A、信息增益(information gain)
(1)计算给定的样本分类的期望信息
设S是有s个数据样本的集合。假定类标号属性具有m个不同的值,定义m个不同类Ci(i=1,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需要的期望信息由下式给出:
注:其中pi是任意样本属于Ci的概率,一般用si/s估计代替pi (2)计算由A划分为子集的熵
设属性A有v个不同值{a1,a2,…,av}。可以根据属性值将S划分为v个子集{S1,S2,…,Sv};sij是子集Sj
中类Ci的样本数。由A划分成子集的熵(期望信息)为:
(3)计算A作为分枝属性的信息增益
注:决策树如何分枝?计算属性的信息增益,取最大的信息增益分枝。 B、基尼指数(Gini Index)
(1)集合T包含n个类别的记录,那么其Gini指数是pj 类别j出现的频率
(2)如果集合T分成两部分 N1 and N2 。那么这个分割的Gini就是
(3)提供最小Ginisplit 就被选择作为分割的标准。
⑥决策树的过拟合问题
商务智能复习PPT整理版
注:避免过拟合;决策树泛化。 ⑦决策树的剪枝
目的:消除决策树的过拟合问题。实质:消除训练集中的异常和噪声。 两种剪枝方法:先剪枝法;后剪枝法。 5、贝叶斯分类器
统计学的方法,可以预测类成员关系的可能性,即给定样本属于一个特定类的概率。 ①贝叶斯定理
假设X和Y在分类中可以分别表示样本的属性集和类别。X和Y的联合概率和条件概率满足下列关系:
注:P(X,Y)表示X,Y的联合概率
p(X|Y) 和p(Y|X)表示条件概率
p(Y|X)是Y后验概率,表示条件X下Y的概率 p(Y)称为Y的先验概率
变换后得到
6、朴素贝叶斯分类器
每个数据样本用一个n维特征向量X={x1,x2,…,xn}表示,分别描述对n个属性A1,A2,..,An样本的n个度量。 假定有m个类C1,…,Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当: P(Ci|X)> P(Cj|X),1
根据贝叶斯定理: P(Ci|X)=P(X|Ci)P(Ci)/P(X)
由于P(X)对于所有类都是常数,只需最大化P(X|Ci)P(Ci)
计算P(X|Ci),朴素贝叶斯分类假设类条件独立。即给定样本属性值相互条件独立。(在一般情况下此假定
都能成立)
在使用中,p常用频度代替。 7、其它分类方法:①支持向量机;
②神经网络方法;
③以及在商品化的数据挖掘中用的较少的:
k_最邻近分类;遗传算法;粗糙集合方法;模糊集方法。
8、回归分析
①回归分析(regression analysis)是一种基本的统计分析方法,它已被广泛地应用于数据挖掘领域。
②分析一个变量与其他一个(或几个)变量之间的相关关系的统计方法就称为回归分析。回归分析主要内容包括确定连续值变量之间的相关关系,建立回归模型,检验变量之间的相关程度,应用回归模型对变量进行预测等。
③回归分析的分类:a按涉及的自变量个数:一元回归分析;多元回归分析。
b按自变量和因变量间的关系:线性回归分析;非线性回归。
④回归分析的步骤:a确定因变量和影响因素(自变量)。
b绘制散点图,观察变量的大致关系。 c求回归系数,并建立回归模型。 d检验回归模型。 e进行预测。
9、回归预测
预测是回归模型最重要的应用,回归预测包括点预测和区间预测。回归点预测是指对于给定的变量值x0,用回归值作为变量y的预测值y0。然而现实中实际值与预测值总会产生偏移,因此还需要得到可能偏离的范围以提高预测的可靠程度,这称为区间预测,即以一定的概率预测y0附近的变动范围。
商务智能复习
PPT整理版
5.6 关联分析
1、关联规则
①相关术语:a项:集合I={i1,i2,„,im}为标识符的集合,其中m
为正整数,ik(k=1,2,„,m)称为项目。
b项集:在数据库中出现的属性值的集合。
K_项集:包含K个项的项集。
c频繁项集:满足最小支持度要求的项集。
d关联规则:关联规则是形如X->Y的规则,其中X,Y为项目集且XY=。
例:(超级市场)在购买商品A的客户中有部分人会同时购买商品B,则可用关联规则表示为: A=>B(support,confidence)
②关联规则度量标准:a支持度(Support):同时购买A和B的客户人数占总客户数的百分比称为规则的支持度。
b置信度(Confidence):同时购买A和B的客户人数占购买A的客户人数的百分比称为规则的置信度。
注:在实际应用中,概率P一般无法事先给出,所以常以频度代替
③有意义的关联规则:a 为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小置信度。
b关联规则挖掘的实质是在数据集合中寻找满足用户给定的最小支持度和最小置信度的规则。
④关联规则挖掘问题的分解
给定数据库D,关联规则的挖掘就是找出所有存在于数据库D中的强关联规则。因此整个关联规则挖掘过程可以分解为以下两个子问题:a找出所有的频繁项目集;b根据找到的频繁项目集导出所有的强关联规则。 ⑤关联规则分类:a 根据规则中所处理的值类型:布尔关联规则;
量化关联规则。
b 根据规则中所涉及的数据维:单维关联规则;
多维关联规则。
⑥根据规则中所涉及的抽象层
A 一般采用自顶向下策略,由概念的顶层开始向下,到较低的更特定的概念层,对每个概念层的频繁集累加计数,直到不能再找到频繁项集。 B 对于所有层使用一致的最小支持度
注:因为较低层次抽象的项不大可能像较高层次抽象的项出现得那么频繁。如果最小支持度阀值设置的太高,
可能丢掉出现在较低抽象层次中有意义的关联规则。如果阀值设置太低,可能会出现在较高抽象层的无兴趣的关联规则。
注:在较低层使用递减的最小支持度 2、Apriori算法
(见书P139)
① Lk:k项频繁集的集合; Ck:k项集的候补集合 步骤
1.连接: 用 Lk-1自连接得到Ck,(k>2)
设L1,L2是两个有k-1个有序项的项集,Lj[i]代表k-1个项的第i项(j=1,2; i=1,2,k-1)。L1和L2是可连
接的L1XL2,需满足:
L1[1]=L2[1] ,L1[2]=L2[2],„.,L1[k-2]=L2[k-2], L1[k-1] ≠L2[k-1],产生的项是: L1[1]L1[2]„.L1[k-2]L1[k-1]L2[k-1](Lj[i]是有序的)
例:L1={A,B,C} , L2={A,B,D},L3={A,C,F}
则:L1 X L2={A,B,C,D} L1 X L3,L2 X L3均为空
2.修剪: 一个k-项集,如果它的一个k-1项子集不是频繁的,那它本身也不可能是频繁的。 ② Apriori 的性能瓶颈
A、Apriori算法的核心:a用频繁的(k-1)_项集生成候选的频繁 k_项集
b用数据库扫描和模式匹配计算候选集的支持度
B、Apriori 的瓶颈:候选集生成
a巨大的候选集:①104 个频繁1_项集要生成 107 个候选 2_项集
②要找尺寸为100的频繁模式,如 {a1, a2, ¡, a100}, 你必须先产生2100 1030 个候选集(1_项集)
b多次扫描数据库:如最长的模式是n的话,则需要n次数据库扫描 注:为提高Apriori算法的性能,有许多改进的算法。 3、其他关联规则算法
①FP树;②约束性关联规则挖掘算法;③增量式关联规则挖掘算法;④多层关联规则挖掘。 5.6 序列模式分析
①序列模式的发现是由R.Agrawal于1995年首先提出的。序列模式寻找的是事件之间在顺序上的相关性。 ②例如,“凡是买了喷墨打印机的顾客中,80%的人在三个月之后又买了墨盒”,就是一个序列关联规则。 ③序列模式挖掘在交易数据库分析、Web访问日志分析以及通信网络分析等领域具有广泛的应用前景。 1、序列模式
①序列模式定义:给定一个由不同序列组成的集合,其中每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。 5.7 时间序列
①时间序列的数据库内某个字段的值是随着时间而不断变化的。
②时间序列数据是包含时间属性的序列数据的一种特殊形式,序列数据库中既可以包含时间属性,也可以不包含时间属性。
③有关时序和序列数据挖掘的研究内容包括趋势分析,在时序分析中的相似度搜索以及与时间相关数据中序列模式和周期模式的挖掘等。 1、时间序列几种基本运动
①趋势:趋势是时间序列在较长时间内呈现出的某种上升或下降的大体方向。确定趋势的典型方法包括加权移动平均法和最小二乘法等。
②周期运动:周期运动是时间序列呈现出的围绕长期趋势的一种“波浪形”周期性变动。
季节性变化。时间序列在一年内重复出现的周期运动称为季节性变化。这里的季节不限于一年中的四季,可以广义地表示周期性的变化。
③不规则运动:由各种偶然、突发或不可预见的因素引起的时间序列变动,称为不规则运动,例如自然灾害等。
2、主要的时间序列分析模型
自回归 ( auto-regressive,AR)、移动平均 (moving average,MA)以及自回归综合移动平均 (auto-regressive integrated moving average,ARIMA)等模型。
第6章 移动商务智能
6.1 移动商务
1、移动商务:①移动商务是通过移动网络进行的交易。
②移动商务是通过手机、PDA等移动终端与因特网有机结合,进行在线商品买卖和服务交易的过程,可以提供给消费者个性化的服务。
③从接受者的角度,认为移动商务是信息技术发展过程中的新阶段,它是现代信息技术对传统商务活动的一场革命。
2、移动商务的特点:方便;安全;个性化服务;定位。
3、移动商务模式:移动信息服务;移动广告;移动销售;移动办公。 6.2 商务智能在移动商务中的应用 1、移动商务智能
移动商务智能是商务智能在移动商务领域的应用,一般通过移动终端采集相 关数据,经企业商务智能系统查询分析、在线分析处理或数据挖掘后把结果在移动终端显示,为顾客提供个性化的信息,辅助移动员工做出决策的过程。
特点:智能型;移动性;个性化;主动性。
2、移动商务智能的应用:①商务智能与移动CRM;
②商务智能与移动支付;③商务智能与移动证券
第7章 商务智能与知识管理
1、知识已成为企业重要的生产要素
21世纪是知识经济的时代,今天,知识已成为企业重要的生产要素。企业需要把专门知识融入组织流程和日常工作中。
2、知识可带来难以模仿的竞争力
①1990年代中期,知识管理开始盛行。
②1999年,比尔¡¤盖茨在《数字神经系统》中指出:未来的企业是以知识与网络为基础的企业,未来的竞争则是植基于知识与网络的竞争。 一个组织获取知识以及将知识快速转化为行动的能力决定其竞争优势(原通用电气公司首席执行官Jack Welch)。
③未来企业的主要竞争优势来自:知识资源 ( Knowledge Resource);人力资本 ( Intellectual Capital )。 ④知识影响企业存活 3、组织面临的问题
资料凌乱存放,企业的大量知识,分散保存在各个地方,导致工作效率低下,撰写方案、编制标书时,相关资料找不到。
员工,尤其是新员工找不到所需要的文件、知识。 过多的垃圾信息和无价值文件。
公司各类历史资料没有存档,大量资料散失。 如何快速拟订策略。
寻找文件资料而浪费大量宝贵的时间。 员工期望学习,分享他人经验。 分布的资源整合。
知识因人员的离开而流失,例如某企业的营销负责人离开,客户跟着走掉一大批;软件企业的系统分析师跳槽,引起新接项目未能开展下去。 4、知识管理
①知识管理就是对一个企业集体的知识与技能的捕获,是为增强组织的绩效而创造、获取和使用知识的过程(知识的创造、储存、分享、应用和更新)。
②目标:就是将恰当的知识在恰当的时候传递给恰当的人,以便使他们能够作出最好的决策。
5
注:知识管理的重要任务:引导这种新的个人隐性知识显性化,使它从个人所有转变成组织所有。 6、商务智能与知识管理
7、商务智能与知识管理的区别:
①内涵不同;②知识的管理过程和技术不同;③关注的只是类型不同;④面向的用户不同。 8、商务智能与知识管理的联系 ①支持决策
②商务智能是知识获取的一种手段
第8章 Web挖掘
1、Web挖掘概念
①Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:C→P 。
②Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等 。 2、Web挖掘分类
3、Web内容挖掘
①基于网页内容或其描述中抽取知识的过程。
②Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。 4、Web文本挖掘
Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 5、Web多媒体挖掘
①Web多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。 注:包含有图像挖掘,视频挖掘,音频挖掘等。 ②多媒体挖掘的典型应用:
A、视频挖掘:从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化,
并在此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。 B、在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。 6、Web结构挖掘
有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构,而且也存在于URL中的目录路径结构(页面之间的目录结构关系)。
注:Web结构挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。
7、Web结构挖掘的应用:①信息检索;②社区识别;③网站优化 8、Web日志挖掘
①Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息,即通过分析Web日志数据,发现访问者存取Web页面的模式。
理解用户的行为 改进站点结构 发现潜在用户
为用户提供个性化的服务 增强网站的竞争力
9、Web日志挖掘的应用
①获取用户访问模式信息,理解用户的意图和行为 ②分析用户的存取模式,为用户提供个性化的服务 ③确定网站的潜在客户群,合理制订网络广告策略等
④改进Web站点的结构,使网站点随时间、用户需求的变化而不断调整
⑤对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等 ⑥利用关联规则确定相关Web查询(查询修正)