数据仓库的概念
一、数据仓库的概念及使用情况介绍
1996年, Inmon 在他的专著《Building the Data Warehouse》中, 对数据仓库做了如下定义, 即“面向主题的、完整的、非易失的、不同时间的、用于支持决策的数据集合”。这和传统的OLTP 系统有很大的区别, 它属在线分析(OLAP)系统的范畴。面向主题的, 指的是它将依据一定的主题, 比如经销商、产品、定单等汇总各个OLTP 系统的数据。完整的, 指的是要求对各个系统数据表示进行转换, 用统一编码表示, 比如,A 系统用001表示退货, 而B 系统用999表示退货, 在数据仓库中必须统一成一个编码。 非易失的, 指的是系统用户只读数据, 不得修改数据。 数据仓库完整地记录了各个历史时期的数据, 而OLTP 系统不会保留全部的历史记录。OLTP 系统也难以支持决策查询, 例如从几千万笔记录中获取不同区域的汇总报表。
完整的数据仓库应包括:
1. 数据源-> 2.ETL -> 3.数据仓库存储 -> 4.OLAP -> 5.BI工具
现实中可以实现的方案有:
1. 数据源-> BI工具
2. 数据源-> OLAP -> BI工具
3. 数据源-> 数据仓库存储 -> BI工具
4. 数据源-> 数据仓库存储 -> OLAP -> BI工具
5. 数据源-> ETL -> 数据仓库存储 -> OLAP -> BI工具
可见其中必需的是数据源和前端,其他的部分都可根据具体情况决定取舍。
建立数据仓库的步骤:
1) 收集和分析业务需求
2)
3)
4)
5) 建立数据模型和数据仓库的物理设计 定义数据源 选择数据仓库技术和平台 从操作型数据库中抽取、净化、和转换数据到数据仓库
6) 选择访问和报表工具
7) 选择数据库连接软件
8) 选择数据分析和数据展示软件
9) 更新数据仓库
数据仓库设计的主要步骤如下:
1. 系统主题的确定
这要求系统设计人员多与业务人员沟通, 详细了解业务需求、报表需求, 再归纳成数据仓库的主题。 例如, 经销商主题, 包含经销商各个历史时期的级别、 销售额、信贷、活动区域等。 产品主题, 包含每个产品在各个历史时期、各个区域的销售额、促销力度、销售件数、产品类别等。
2. 数据库的逻辑设计
在确定主题后, 需要对主题包含的信息进行详细定义, 并对事实表和维表的关系详细定义。比如, 经销商主题中的销售额, 定义为几个字段:NetSales (净销售额) ,表示扣除了一切优惠折扣,数据类型为Number(12,3); CusSales, 表示产品目录价的销售额, 数据类型为 Number(12,3);
TitleCode, 表示级别, 如101表示全国一级代理, 202表示省二级代理, 数据类型为 V arChar2(3)等。
3. 数据库的物理设计
物理设计主要考虑数据的存储方式, 使得系统有较好的性能。 对于记录庞大的事实表,
可以考虑分区存放。而记录很少的维表则可以集中存放于某一表空间, 甚至可以让其数据在首次读取时驻留在系统内存中, 以加快数据存取速度。索引的建立也在物理设计中完成, 索引是一把双刃剑,能提高读取速度, 也会使数据更新速度降低, 并占用大量磁盘空间。后面的案例分析中将谈到这点。独立磁盘阵列(RAID)方案的设计与数据更新网络的设计也需在此阶段完成。合适的RAID 方案对最终系统的性能有很大的影响。
4. 源数据获取、清洗、整理及装载设计
数据仓库的数据总是来自前台作业系统、业务部门的计划数据、各类广告促销活动及其影响数据, 以及购买回来的商业数据库。 这些数据并非照搬过来就行, 而是要按照前面提到的步骤, 以统一定义的格式从各个系统抽取出来, 经过清洗, 再经过数据装载和整理程序进入数据仓库。
5. 数据表达及访问设计
数据按统一格式、不同的主题存放到数据仓库后,下一步要着手数据表达及访问。这主要考虑用户对信息的具体需求, 对应采用不同的方式。 比如, 使用Oracle 数据库存放数据, 可以用PL/SQL编制报表, 也可以用Developer2000或V isual Basic编制报表, 当然也可以采用一些业界优秀的OLAP 产品, 例如Cognos 公司的Transformer 、PowerPlay Enterprise、Oracle 公司的Express 等。
6. 不间断的维护方案的设计
数据仓库的运作与传统的作业系统有很大区别, 它需要不间断地维护, 否则它的性能将越来越差。 例如, 数据访问采用基于代价的优化(CBO),
事实表记录实施时有300万笔记录, 一个月后记录数为3000万,当时的CBO 根本无法得到现在的最优化存取路径。必须设计一个不间断的维护方案, 让系统保持优良的性能。
7. 编码、测试及实施
下面的工作就是编码、测试及实施了。最终的数据仓库系统结构大致如图1所示,依据不同的情况, 系统结构图也会有些差别。
数据仓库常见名词浅释 Data Warehouse
本世纪80年代中期," 数据仓库之父"William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。
Data mart
数据集市,或者叫做" 小数据仓库" 。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只是面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
OLAP
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd 于1993年提出的。当时,Codd 认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd 提出了多维数据库和多维分析的概念,即OLAP 。Codd 提出OLAP 的12条准则来描述OLAP 系统:
准则1 OLAP模型必须提供多维概念视图
准则2 透明性准则
准则3 存取能力推测
准则4 稳定的报表能力
准则5 客户/服务器体系结构
准则6
准则7
准则8
准则9 维的等同性准则 动态的稀疏矩阵处理准则 多用户支持能力准则 非受限的跨维操作
准则10 直观的数据操纵
准则11 灵活的报表生成
准则12 不受限的维与聚集层次
ROLAP
基于Codd 的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(star schema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP 称为Relational OLAP,简称ROLAP 。代表产品有Informix Metacube、Microsoft SQL Server OLAP Services。
MOLAP
Arbor Software 严格遵照Codd 的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为Muiltdimension OLAP ,简称MOLAP ,代表产品有Hyperion(原Arbor Software) Essbase 、Showcase Strategy等。
Client OLAP
相对于Server OLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有Brio Designer,Business Object。
DSS
决策支持系统(Decision Support System),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。
ETL
数据抽取(Extract )、转换(Transform )、清洗(Cleansing )、装载(Load )的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
Ad hoc query
即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,可以让用户随时可以面对数据库,获取所希望的数据。
EIS
领导信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。
BPR
业务流程重整(Business Process Reengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作,数据仓库的重要作用之一。
BI
商业智能(Business Intelligence),指数据仓库相关技术与应用的通称。指利用各种智能技术,来提升企业的商业竞争力。
Data Mining
数据挖掘,Data Mining是一种决策支持过程,它主要基于AI 、机器学习、统计学等技
术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策
CRM
客户关系管理(Customer Relationship Management ),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM 就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM 其实应该算是一个古老的" 应用" 了。比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。这就是一种CRM 。
Meta Data
元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。
基本术语
维度是与业务相关的观察角度。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。对于产品维度来说,粒度就是1,就是产品类型本身。
粒度是用来描述维度的,比如,一个时间维的最细粒度是月,就说明这个时间的最低级的level 是月,可能是年-季度-月,或者年-月等。
什么是粒度,顾名思义,就是取不同大小的对象。也就是说,将原来“粗粒度”的大对象分割为若干“细粒度”的小对象,或者把若干小对象合并成一个大的粗粒度对象,进行研究。粒度(granulation)
粒度是数据仓库的重要概念
粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是DSS 分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。
什么是主题呢?首先,主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有
更高的数据抽象级别。
OLAP 的基本多维分析操作有钻取(roll up和drill down)、切片(slice )和切块(dice )、以及旋转(pivot) 等。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。
roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据;
而drill down则相反,它从汇总数据深入到细节数据进行观察.
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片,否则是切块.
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换).
常见的OLAP 使用情况
1) 上卷
又称上钻,通过一个维从低层次向较高的层次攀升,从而得到数据立方体的聚合数据。
如:在产品维度上,由产品向小类上卷,可得到小类的聚合数据;再由小类向大类上卷,可得到大类层次的聚合数据。
2) 下钻
下钻是上卷的逆操作,它是由不太详细的数据到更详细的数据。如:沿着时间维度,从年到季度,再到月下钻,可以得到更加详细的数据。
3) 切片和切块
切片操作在给定的数据多维模型的一个维度上进行选择,导致一个子方。比如:可以对时间维度按" 时间=2002年1月" 进行切片,得到一个含产品和门店两个纬度的片状图。
切块操作通过对两个维度或多个维度进行选择,定义子方。如:可按" 时间=2002年1月"AND" 城市=上海" 进行切块。
4) 旋转
旋转是一种目视操作,它转动数据的视角,提供数据的替代表示。
来文网址:http://www.kuqin.com/datawarehouse/20080505/7904.html
二、射频技术(RFID )
是Radio Frequency Identification的缩写,即射频识别。常称为感应式电子晶片或近接卡、感应卡、非接触卡、电子标签、电子条码等。其原理为由扫描器发射一特定频率之无线电波能量给接收器,用以驱动接收器电路将内部的代码送出,此时扫描器便接收此代码。接收器的特殊在于免用电池、免接触、免刷卡故不怕脏污,且晶片密码为世界唯一无法复制,安全性高、长寿命。RFID 的应用非常广泛,目前典型应用有动物晶片、汽车晶片防盗器、门禁管制、停车场管制、生产线自动化、物料管理。RFID 标签有两种:有源标签和无源标签。
http://baike.baidu.com/view/132280.htm
工作原理
RFID 技术的基本工作原理并不复杂:标签进入磁场后,接收解读器发出的射频信号,凭借感应电流所获得的能量发送出存储在芯片中的产品信息(Passive Tag,无源标签或被动标签),或者由标签主动发送某一频率的信号(Active Tag ,有源标签或主动标签),解读器读取信息并解码后,送至中央信息系统进行有关数据处理。
一套完整的RFID 系统, 是由阅读器(Reader )与电子标签(TAG )也就是所谓的应答器(Transponder )及应用软件系统三个部份所组成,其工作原理是Reader 发射一特定频率的无线电波能量给Transponder ,用以驱动Transponder 电路将内部的数据送出,此时 Reader 便依序接收解读数据, 送给应用程序做相应的处理。
以RFID 卡片阅读器及电子标签之间的通讯及能量感应方式来看大致上可以分成:感应耦合(Inductive Coupling) 及后向散射耦合(BackscatterCoupling )两种。一般低频的RFID 大都采用第一种式,而较高频大多采用第二种方式。
阅读器根据使用的结构和技术不同可以是读或读/写装置,是RFID 系统信息控制和处理中心。阅读器通常由耦合模块、收发模块、控制模块和接口单元组成。阅读器和应答器之间一般采用半双工通信方式进行信息交换,同时阅读器通过耦合给无源应答器提供能量和时序。在实际应用中,可进一步通过Ethernet 或WLAN 等实现对物体识别信息的采集、处理及远程传送等管理功能。应答器是RFID 系统的信息载体,应答器大多是由耦合原件(线圈、微带天线等)和微芯片组成无源单元。
应用客户背景
总部设于波士顿的吉列(Gillette )公司成立于1901年,有雇员3万人,主要生产剃须产品、电池和口腔清洁卫生产品。吉列在美国市场占有率高达90%,全球市场的份额达到70%以上。据估计,如今在北美每3个男性中就有1个使用吉列速锋Ⅲ剃须刀。
零售挑战
吉列公司和各零售公司都建有网络机制,可以实时了解自己产品的销售和库存情况。但吉列做了现场调查后发现,在更多时候,新品销售、促销结果的不好,是由于零售店没有将新品上架、没有及时补货等造成的,而这些情况,不是现有网络机制能解决的。
博物馆应用
(美国)加州技术创新博物馆正使用RFID 技术来拓展和增强参观者的参观体验。他们给前来参观的访问者每人一个RFID 标签,使其能够在今后其个人网页上浏览此项展会的相关信息;这种标签还可用来确定博物馆的参观者所访问的目录列表中的语言类别。
或许在未来的某天,美国的技术创新博物馆将会开发出一种展示品,用来探测RFID 技术对于整个世界的影响。但是,位
于加州的该博物馆正使用RFID 技
术来拓展和增强参观者的参观体
验。该博物馆成立于1990年。自
成立以来,就成为了硅谷有名又受
欢迎的参观地,并吸引了很多家庭
和科技爱好者前来参观访问。每年
大约能接待40万参观者。从参观
者所做出的积极良好的反应看来,
使用RFID 标签是成功的。
博物馆对于那些对人类科学、生命科学及交流等做出贡献的科学技术将会进行永久性的展列,并将对硅谷的革新者等所做出的业绩进行详细的展示。一个名为"Genetics: Technology With a Twist" 的生命科学展会于2004年3月举行,在此会上,该博物馆展示了使用RFID 标签的方案,即给前来参观的访问者每人一个RFID 标签,使其能够在今后其个人网页上浏览采集此项展会的相关信息。
由于其他参观者的影响以及时间限制等问题,参观者并不能够像其所期望的能够很好的了解和学习较多的与展示相关的知识。事实上,美国明尼苏达州的科技博物馆曾对此进行调查并指出平均每个参观者参观科技博物馆中的每个陈列展品所用的时间约为30秒钟。通过使用RFID 标签来自动的创造出个人化的信息网页,参观者便可以选择在其方便的时候在网页上查询某个展示议题的相关资料,或者找寻博物馆中的相关资料文献。
在参观结束之后,参观者还可以在学校或家中通过网络访问网站并键入其标签上一个16位长的ID 号码并登陆。这样他们就可以访问其独有的个人网页了。很多家美国及其它国家的博物馆都打算在卡片或徽章的同一端上使用RFID 技术。至少丹麦的一家自然历史博物馆以PDA 的形式将识读器交到前来参观者手中,并将标签与展示内容结合起来。但是据技术创新博物馆的副馆长Greg Brown所知,其博物馆是第一家使用RFID 技术腕圈的博物馆。
博物馆认为这是参观了解博物馆的一种最好的方法,因为这样参观者能够实现与展示会之间的互动。这种RFID 腕圈很像一个带有饰物的手链。它是由一个三英寸长一英寸宽的黑色橡皮圈将该博物馆的标签固定住的。每一个RFID 标签都有一个特有的16位长的数字密码粘贴在饰物上面。数字密码被刻在一个薄膜状的蓝绿色铝制金属薄片天线上,天线中央是一个十分显眼的数字配线架——日立公司推出的μ-Chip 。这种仅0.4平方毫米大的μ-chip 是最小的用于标识日期的RFID 芯片,工作频率为2.45GHz ,其最适合用于像技术创新博物馆的应用程序之类的闭环系统。
对于用户来说,他们根本不需要提供任何的邮箱地址或其它类似的信息,他们只需要提供一个16位长的数字密码就可以直接登陆到他们的个人网页。因此,据 Brown 说,使用这种标签并没有引发破坏隐私等问题。实际上,许多前来参观的高新技术的爱好者都对此做出的良好的反应。Brown 又接着说到:“这种技术与前来参观者的个人品格简直是完美结合。人们确实很想要更多的了解它到底是怎样工作的。”
博物馆当下已拥有约40个此种标签站点且数目一直在增加中。而在每一个站点都设有向参观者介绍怎样使用该种标签的招牌和标语。这样就可以使每一个标签都进入RFID 识读器天线的识读区域内。但有时候,这样的操作说明会显示在一台手动监测器上面。当参观者看到显示灯闪了一下或者听到一声操作音后,便知道他们的标签已经被识读过了。
例:
上海世博会门票
在上海举行的会展数量以每年20%的速度递增。上海市政府一直在积极探索如何应用新技术提升组会能力,更好地展示上海城市形象。RFID 在大型会展中应用已经得到验证,2005年爱知世博会的门票系统就采用了RFID 技术,做到了大批参观者的快速入场。2006 年世界杯主办方也采用了嵌入RFID 芯片的门票,起到了防伪的作用。这引起了大型会展的主办方的关注。在2008 年的北京奥运会上,RFID 技术已得到了广泛应用。
2010 年世博会在上海举办,对主办者、参展者、参观者、志愿者等各类人群有大量的信息服务需求,包括人流疏导、交通管理、信息查询等,RFID 系统正是满足这些需求的有效手段之一。世博会的主办者关心门票的防伪。参展者比较关心究竟有哪些参观者参观过自己的展台,关心内容和产品是什么以及参观者的个人信息。参观者想迅速获得自己所要的信息,找到所关心的展示内容。
而志愿者需要了解全局,去帮助需要帮助的人。这些需求通过RFID 技术能够轻而易举
的实现。参观者凭借嵌入RFID 标签的门票入场,并且随身携带。每个展台附近都部署有RFID 读取器,这样对参展者来说,参观者在展会中走过哪些地方,在哪里驻足时间较长,参观者的基本信息是什么等就了然于胸了,当参观者走近时,可以更精确地提供服务。同时,主办者可以在会展上部署带有RFID 读取器的多媒体查询终端,参观者可以通过终端知道自己当前的位置及所在展区的信息, 还能通过查询终端追踪到走失的同伴信息。
三、GPS
http://image.baidu.com/i?ct=503316480&
z=0&tn=baiduimagedetail&word=GPS&ie
=utf-8&in=16241&cl=2&lm=-1&st=-1&p
n=8&rn=1&di=[1**********]0&ln=1985&
fr=&fm=index&fmq=[1**********]32_R
&ic=&s=&se=&sme=0&tab=&width=&h
eight=&face=&is=&istype=2#pn8&-1&di
[1**********]0&objURLhttp%3A%2F%2
Fa4.att.hudong.com%2F63%2F47%2F013
[***********]72414272_s.jpg&fr
omURLippr_z2C%24qAzdH3FAzdH3Foo
o_z%26e3Bi715g2_z%26e3Bv54AzdH3Fej6ft5getjoAzdH3Fu66xu%25dCqjvjxa6weizkisxw%25dCqw&W300&H224&T6920&S8&TPjpg
GPS 导航原理测试
http://image.baidu.com/i?ct=503316480&z
=0&tn=baiduimagedetail&word=GPS&ie=
utf-8&in=7211&cl=2&lm=-1&st=-1&pn=
17&rn=1&di=[1**********]&ln=1985&fr
=&fm=index&fmq=[1**********]32_R&ic
=&s=&se=&sme=0&tab=&width=&height
=&face=&is=&istype=2#pn17&-1&di718
76064350&objURLhttp%3A%2F%2Fa4.at
t.hudong.com%2F42%2F80%2F01300000
[***********]544_s.jpg&fromUR
Lippr_z2C%24qAzdH3FAzdH3Fooo_z%2
6e3Bi715g2_z%26e3Bv54AzdH3FothtAz
dH3F%25Ec%25bC%25l0%25Em%25lm%25l0%25Ec%25bD%25AB%25Em%25lb%25lF%25Ec%25AE%25lA%25E9%25BD%25bD%25E0%25Bn%25BB%25E0%25BB%25lF%3Fr61%3Dvtptw5_6t2ip_xtwg227wgvtptw5&W300&H224&T6985&S14&TPjpg
四、物流系统
信息系统是由计算机硬件、网络和通讯设备、计算机软件、信息资源、
信息用户和规章
制度组成的以处理信息流为目的的人机一体化系统。
物流系统定义,所谓信息系统(Information System,简称IS) ,是一个由人、计算机及其他外围设备等组成的能进行信息的收集、传递、存贮、加工、维护和使用的系统。
五、物流管理信息系统
也称物流信息系统(LIS, logistics information system)。由人员、计算机硬件、软件、网络通信设备及其它办公设备组成的人机交互系统,其主要功能是进行物流信息的收集、存储、传输、加工整理、维护和输出,为物流管理者及其它组织管理人员提供战略、战术及运作决策的支持,以达到组织的战略竞优,提高物流运作的效率与效益。
六、重庆各物流公司及信息技术
1、重庆辉晨物流运输有限公司
网络技术、信息分类编码技术、条码技术、射频识别技术、电子数据交换技术
2、重庆民华物流有限公司
信息分类编码技术、条码技术
3、重庆二航物流
计算机技术、网络技术、信息分类编码技术、条码技术、射频识别技术、电子数据交换技术、POS 系统、电子商务、供应链管理的技术
4、重庆长途汽车运输有限责任公司 GPS 导航技术 RFID 技术