第十一章 数据库技术的发展
第十一章 数据库技术的发展
11.1 数据库技术发展阶段
11.1.1 第一代数据库系统
第一代数据库系统指层次模型数据库系统和网状模型数据库系统
早期的数据库系统的缺点:概念上的关系与记录在磁盘上的物理存储和位置混淆不清 仅提供编程语言界面
第一代数据库系统标志着数据库管理由文件系统阶段进入了数据库系统阶段
11.1.2 第二代数据库系统
第二代数据库系统是指支持关系模型的关系数据库系统
11.1.3 第三代数据库系统
把面向对象技术同数据库技术相结合的系统称作第三代数据库系统
第三代数据库系统的三条原则:支持更加丰富的对象结构和规则,包含第二代DBMS ,对其他子系统开放
11.2 数据库体系结构
11.2.1 集中式数据库体系结构
集中式系统试运行在一台计算机上,不与其他计算机系统交互的数据库系统,所有的DBMS 功能、应用程序的执行和用户界面处理都在一个机器上进行。
11.2.2 分布式数据库系统体系结构
1 分布式数据库系统的基本概念
一个分布式数据库系统包含一个结点的集合,这些结点通过某种类型的网络连接在一起 ,每一个结点是一个独立的数据库系统的结点,这些结点协调工作,使得任何一个结点上的用户都可以对网络上的任何数据进行访问。
注意:在分布式数据库系统中,每一个结点是一个独立的数据库系统。
2 分布式数据库系统的主要特点
(1)提供了不同透明度层次的分布式数据库管理
(2)增加了可靠性和可用性
(3)提高了性能
(4)更容易扩充
3 分布式数据库系统的一些实现技术问题
数据管理技术 查询处理 并发控制与恢复
11.2.3 客户机/服务器数据库系统的体系结构
客户机/服务器体系结构一般由大量的个人计算机和工作站以及少量的中心主机型机器组成,通过局域网和其他类型的计算机网络相连接
用户界面和应用程序在客户端运行。客户程序访问DBMS 的常用标准有两个:开放数据库互连ODBC 标准和面向Java 程序语言的相关标准,JDBC 。
11.2.4 面向Web 应用的数据库系统各体系结构
由客户机,应用服务器和Web 服务器,数据库服务器组成。
11.3 面向对象的数据库系统
基于关系数据库系统的、一数据处理为主的传统的数据库应用具有以下共同特征: 结构统一;面向记录;数据项小;原子字段
面向对象数据库一个关键特征是,它不但能让设计者定义复杂对象的结构,还能让设计者定义可以应用于这些对象的操作。另一个特点是:对象可以具有任意复杂度的对象结构。 11.3.1 面向对象的基本概念
面向对象数据库永远在二级存储器中存储持久对象,并允许多个程序和应用共享这些对象 设计对象的一些概念:
(1)对象标识:OO 数据库为每一个对象提供一个唯一的、由系统生成的对象标识符。 每个OID 只被使用一次
(2)对象结构:对象可以具有任意复杂度的结构。三种最基本的构造器是原子、元祖和集合,常用的构造器还包括列表、包和数组。
(3)封装:提供了一种保证数据和操作之间独立性的形式。主要思想是:基于操作定义对象类型的行为,这些操作可以从外部应用于这种类型的对象。
(4)类型层次和继承
(5)复杂对象:结构化复杂对象和非结构化复杂对象
结构化复杂对象由组件组成,通过以各种方式递归的使用类型构造器可以定义结构化复杂对象。非结构化复杂对象允许存储和检索数据库应用所需的大对象。
(6)操作符重载:一个操作符可以被应用于不同对象类型的能力,也称多态性。 11.3.2 面向对象数据库管理系统
1 对象数据库标准
(1)ODMG 对象模型
(2)对象定义语言ODL
(3)对象查询语言OQL
2 对象—关系系统
(1)SQL-99中对对象—关系的支持:增加了一些类型构造器来指定复杂对象;包括了一种利用引用类型来指定对象标识的的机制;用户自定义类型可将操作包括为声明的一部分,通过该机制提供了操作封装;提供了继承机制。
(2)SQL 中的一些新操作和特性:指定递归查询的线性递归
(3)Oracle 8的对象—关系特性:用多维数组表示多值属性;用嵌套表示复杂对象;对象视图;大对象及其存储特性。
11.3.3 面向对象数据库系统模型和其他模型的简单比较
与关系数据库系统的区别:如何处理联系;如何处理继承;在对象数据库设计中,有必要在设计时尽早指定操作。
11.4 移动数据库系统
是指支持移动计算环境的分布式数据库
11.4.1移动环境的特征
高通信等待时间、不连续的无线连接性、有限的电池寿命、客户机位置不断变化 11.4.2 移动数据库的数据管理
数据分布和复制;事务模型;查询处理;恢复和容错;基于位置的服务;安全
11.5 多媒体数据库系统
11.5.1 多媒体数据库系统的基本概念
多媒体数据库系统提供了允许用户存储和查询不同类型的多媒体信息的特性
11.5.2 多媒体数据库的数据管理
建模;设计;存储;查询和检索;性能
11.5.3 多媒体数据库系统中的重要问题
多媒体数据库查询中的信息检索;多媒体/超媒体数据建模和检索需求;图像索引;文本检索
11.6 数据仓库和联机分析处理
当前的数据处理可分为两大类; 操作型处理和分析型处理
11.6.1 数据仓库的基本概念
1 数据仓库的定义:面向主题的、集成的、非易变的、随时间变化的数据集合用以支持管理中的决策。
由数据库系统发展到数据仓库的原因:数据太多,信息贫乏;异构环境数据的转换和共享;利用数据进行事务处理转变为利用数据支持决策
2 数据仓库的特点:
数据仓库是面向主题的;数据仓库数据是集成的;数据仓库数据是相对稳定的;数据仓库的数据是反映历史变化的
数据集市:一种更小、更集中的数据仓库。
数据集市不等于数据仓库,多个数据集市简单合并起来也不等于数据仓库, 因为:
(1)个数据集市之间对详细数据和历史数据的存储存在大量冗余
(2)同一个问题在不同数据集市的查询结果可能不一致
(3)各数据集市之间以及与源数据库系统之间难以管理
11.6.2 数据仓库的数据模型
数据仓库和OLAP 操作都是基于多维数据模型的
度量属性、维属性、维的层次、多维数据 旋转:从一个维层次转向另一个维层次 多维存储模型涉及两个表:维表和事实表
常见的多维模式:雪花模式和星型模式
11.6.3 数据仓库的体系结构
数据仓库系统由数据仓库、仓库管理和分析工具组成
数据仓库的数据来源于多个数据源 元数据是数据仓库的核心
分析工具集分为查询工具和挖掘工具
11.6.3 联机分析处理的功能(OLAP )
1 OLAP的基本功能
(1)切片和切块:在维上作投影操作
(2)钻取:向上钻取和向下钻取
(3)旋转
2 广义OLAP 功能
(1)基本代理操作:示警报告;时间报告;异常报告
(2)计算能力
(3)模型计算
11.7 数据挖掘
目标:智能化、自动化的 把数据转换为有用的信息和知识
数据库中的知识发现是识别数据库中以前不知道的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术
11.7.1 知识发现和数据挖掘
知识发现(KDD )可以概括为三部分:数据准备;数据挖掘;结果评价
数据准备又分数据选取、数据预处理和数据变换
数据挖掘:确定挖掘的人物和目的,决定使用什么样的挖掘算法
结果的解释和评估:
数据挖掘质量的好坏的影响因素:采用的挖掘技术的有效性、用于挖掘的数据的质量和数量 整个挖掘过程是一个不断反馈的过程
11.7.2 数据挖掘的目标和任务
关联分析;分类层次及分类;序列模式和时间序列中的模式;聚类;预测;优化 11.7.3数据仓库与数据挖掘的结合
数据仓库对数据挖掘提出新的要求:
数据挖掘需要可扩展性;数据挖掘方法需要能挖掘多维知识
11.8 web挖掘
11.8.1 web信息的特点
Web 信息庞大、复杂、动态、使用者复杂、垃圾多
11.8.2 web挖掘的流程和分类
Web 挖掘:从WWW 的资源和行为中抽取感兴趣的、有用的模式和隐含信息 分为三类:web 内容挖掘、web 结构挖掘、web 使用记录挖掘
Web 内容挖掘:两种策略:直接挖掘文档内容;在工具搜索的基础上进行改进 Web 结构挖掘:从WWW 的组织结构和链接方式中挖掘知识
Web 使用记录挖掘:目标是从web 的访问记录中抽取感兴趣的模式。