数据库发展史.dec
一、摇篮和萌芽阶段:
首先使用"DataBase" 一词的是美国系统发展公司在为美国海军基地在60年代研制数据中引用。
1963年,C·W·Bachman设计开发的IDS(Integrate Data Store)系统开始投入运行,它可以为多个COBOL 程序共享数据库。
1968年,网状数据库系统TOTAL 等开始出现;
1969年,IBM 公司Mc Gee 等人开发的层次式数据库系统的IMS 系统发表,它可以让多个程序共享数据库。
1969年10月,CODASYL 数据库研制者提出了网络模型数据库系统规范报告DBTG ,使数据库系统开始走向规范化和标准化。正因为如此,许多专家认为数据库技术起源于20世纪60年代末。数据库技术的产生来源于社会的实际需要,而数据技术的实现必须有理论作为指导,系统的开发和应用又不断地促进数据库理论的发展和完善。
二、 发展阶段:
20世纪80年代大量商品化的关系数据库系统问世并被广泛的推广使用,既有适应大型计算机系统的,也有适用与中、小型和微型计算机系统的。这一时期分布式数据库系统也走向使用。
1970年,IBM 公司San Jose研究所的E ·F ·Code发表了题为" 大型共享数据库的数据关系模型" 论文,开创了数据库的关系方法和关系规范化的理论研究。关系方法由于其理论上的完美和结构上的简单,对数据库技术的发展起了至关重要的作用,成功地奠定了关系数据理论的基石。
1971年,美国数据系统语言协会在正式发表的DBTG 报告中,提出了三级抽象模式,即对应用程序所需的那部分数据结构描述的外模式,对整个客体系统数据结构描述的概念模式,对数据存储结构描述的内模式,解决了数据独立性的问题。
1974年,IBM 公司San Jose 研究所研制成功了关系数据库管理系统System R ,并且投放到软件市场。
1976年,美籍华人陈平山提出了数据库逻辑设计的实际(体) 联系方法。
1978年,新奥尔良发表了DBDWD 报告,他把数据库系统的设计过程划分为四个阶段:需求分析、信息分析与定义、逻辑设计和物理设计。
1980年,J·D·Ulman所著的《数据库系统原理》一书正式出版。
1981年 E· F· Code获得了计算机科学的最高奖ACM 图林奖。
1984年,David Marer所著的《关系数据库理论》一书,标志着数据库在理论上的成熟。
三、成熟阶段:数据库理论和应用进入成熟发展时期
易观国际发布《IT 产品和服务-2007年中国数据库软件市场数据监测》,考察了中国数据库管理软件市场。数据显示,中国商业数据库市场2007年度整体规模达到21.72亿人民币,比去年同期增长15%。
从厂商竞争格局来看,国际软件巨头占据市场的绝大多数份额。Oracle 、IBM 、Microsoft 和Sybase 牢牢占据国内数据库软件市场前四位,拥有93.8%的市场份额。国产数据库的市场份额在本季度继续提升,正在抓住国家提倡自主创新的机遇,以“有自主知识产权”的产品为契机,满足部委和地方政府的信息整合平台需求。
预计中国商业数据库市场在2009年达到31亿元的市场规模,同时,国产数据库在中国政府鼓励自主创新的基础下,会占据更大的市场份额。 另外,包括Mysql 等开源数据库也占据了大量的政府及中小企事业用户,同时,盗版数据库更是占据了中国数据库市场的较大份额,其数值不亚于整个商业数据库的市场份额。
数据库技术的发展,已经成为先进信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。
四、再发展阶段:后关系型数据库崭露头角
随着信息技术的发展, 在用关系数据库数据模型来处理复杂的数据类型、复杂的数据关系以及多种访问方法上,仍存在着诸多的能力限制。虽然传统的关系数据库能很好地适合于处理相对简单的事务交易,但是却不能胜任来自不同表格的数据的处理。更多的数据库应用开发者认识到了关系数据库的限制,并开始寻找适合的替代方案。
但变革并不是很容易就可以实现的。在原有的两维表数据模型架构上,增加其它的功能并不能解决问题,有的开始尝试网络化的解决方案。因此,国外的一些专家们也指出:靠增加一些模块到一个已经很复杂的关系数据库上去的途径,并不能从根本上解决问题。
一种更新的被誉为数据库新分水岭的后关系型数据库管理系统(Post-Relational
Database ,PRDBMS) 逐渐出现并兴起,成为取代传统关系数据库的途径之一。
在脱颖而出的后关系型数据库管理系统中,采用了更现代化的多维模型,作为数据库引擎。并且,这种以稀疏数组为基础的独特的多维数据库架构,是从已成为国际标准的数据库语言基础上继承和发展的,是已积累了实践经验的先进而可靠的技术。
如上所述,以事务型多维数据模型和集成的面向对象功能为特征的后关系型数据库能够提供事务处理应用开发所需的高性能和伸缩性,支持应用和数据的复杂性,正成为事务交易处理的优先选择之一。
五、总结
1、数据库的四个发展阶段
数据库技术最初产生于20世纪60年代中期,根据数据模型的发展,可以划分为四个阶段:第一代的网状、层次数据库系统; 第二代的关系数据库系统; 第三代的以面向对象模型为主要特征的数据库系统。
第一代数据库的代表是1969年IBM 公司研制的层次模型的数据库管理系统IMS 和70年代美国数据库系统语言协商CODASYL 下属数据库任务组DBTG 提议的网状模型。层次数据库的数据模型是有根的定向有序树,网状模型对应的是有向图。这两种数据库奠定了现代数据库发展的基础。这两种数据库具有如下共同点:1. 支持三级模式(外模式、模式、内模式) 。保证数据库系统具有数据与程序的物理独立性和一定的逻辑独立性;2. 用存取路径来表示数据之间的联系;3. 有独立的数据定义语言;4. 导航式的数据操纵语言。
第二代数据库的主要特征是支持关系数据模型(数据结构、关系操作、数据完整性) 。关系模型具有以下特点:1. 关系模型的概念单一,实体和实体之间的连系用关系来表示;2. 以关系数学为基础;3. 数据的物理存储和存取路径对用户不透明;4. 关系数据库语言是非过程化的。
第三代数据库产生于80年代,随着科学技术的不断进步,各个行业领域对数据库技术提出了更多的需求,关系型数据库已经不能完全满足需求,于是产生了第三代数据库。
主要有以下特征:1. 支持数据管理、对象管理和知识管理;2. 保持和继承了第二代数据库系统的技术;3. 对其它系统开放,支持数据库语言标准,支持标准网络协议,有良好的可移植性、可连接性、可扩展性和互操作性等。第三代数据库支持多种数据模型(比如关系模型和面向对象的模型) ,并和诸多新技术相结合(比如分布处理技术、并行计算技术、人工智能技术、多媒体技术、模糊技术) ,广泛应用于多个领域(商业管理、GIS 、计划统计等) ,由此也衍生出多种新的数据库技术。
分布式数据库允许用户开发的应用程序把多个物理分开的、通过网络互联的数据库当作一个完整的数据库看待。并行数据库通过cluster 技术把一个大的事务分散到cluster 中的多个节点去执行,提高了数据库的吞吐和容错性。
多媒体数据库提供了一系列用来存储图像、音频和视频对象类型,更好地对多媒体数据进行存储、管理、查询。模糊数据库是存储、组织、管理和操纵模糊数据库的数据库,可以用于模糊知识处理。
第四代数据库早在70年代后期,人们就已经开始涉足了,但真正形成共识是进入2000年以来,该阶段的数据库主要以后关系型数据库为代表,并有一些结合了近期比较火热的大数据、云计算技术的大数据数据库。
后关系型数据库的特点和优势:
后关系型数据库的主要特征是将多维处理和面向对象技术结合到关系数据库上。这种数据库使用强大而灵活的对象技术,将经过处理的多维数据模型的速度和可调整性结合起来。由于它独有的可兼容性,对于开发高性能的交换处理应用程序来说,后关系型数据库非常理想。
多维数据模型能使数据建模更加简单,因为开发人员能够方便地用它来描述出复杂的现实世界结构,而不必忽略现实世界的问题,或把问题强行表现成技术上能够处理的形态,而且多维数据模型使执行复杂处理的时间大大缩短。
而在多维数据模型中,可以将这些数据看做是存在于一个“立方体”中,这个“立方体”有足够多的“面”,以便对数据进行完全分类,如款式、颜色、价格、库存等等都能够
立刻互相映射,获取数据极其迅速,而且由于清除了冗余的数据,多维数据库非常简单,不仅好用,而且更经济。
面向对象技术使用丰富的数据类型来反映现实世界的数据关系,由于它本身具有的模块化和强有力的内部操作能力,能够有效地提高开发者的生产率。面向对象技术的产生是由于人们认识到,人类考虑问题时,想到的不是整数、字符串或其他计算机数据类型,而是一个个的对象。比如说汽车,人们每天驾驶、购买和谈论它时,并不需要深入了解内燃机的物理过程。使用对象技术,计算机也可以只“谈论”“汽车”,而不必理会潜在的各种细节。这样,一种强大的新编程方法就产生了。
对象是模块化的,任何对象都可以内部发生变化,而不影响外部的其他编码。对象的这种模块化能力大大简化了应用程序的升级和维护处理。此外,对象还是内部可操作的。一个对象建立后,它就可以被其他的应用程序理解、使用甚至更改,而不管这些应用程序使用的是哪种程序设计语言。
2、数据库未来的发展趋势
数据、计算机硬件和数据库应用,这三者推动着数据库技术与系统的发展。数据库要管理的数据的复杂度和数据量都在迅速增长; 计算机硬件平台的发展仍然实践着摩尔定律; 数据库应用迅速向深度、广度扩展。尤其是互联网的出现,极大地改变了数据库的应用环境,向数据库领域提出了前所未有的技术挑战。
这些因素的变化推动着数据库技术的进步, 出现了一批新的数据库技术,如Web 数据库技术、并行数据库技术、数据仓库与联机分析技术、数据挖掘与商务智能技术、内容管理技术、海量数据管理技术等。
“四高” 即DBMS 具有高可靠性、高性能、高可伸缩性和高安全性。数据库是企业信息系统的核心和基础,其可靠性和性能是企业领导人非常关心的问题。因为,一旦宕机会给企业造成巨大的经济损失,甚至会引起法律的纠纷。最典型的例子就是证券交易系统,如果在一个行情来临的时候,由于交易量的猛增,造成数据库系统的处理能力不足,导致数据库系统崩溃,将会给证券公司和股民造成巨大的损失。
在我国计算机应用的早期,由于计算机系统还不是企业运营必要的成分,人们对数据库的重要性认识不足,而且为了经费上的节约常常采用一些低层次的数据管理软件,如dBASE 等,或者盗版的软件。
但是,随着信息化进程的深化,计算机系统越来越成为企业运营不可缺少的部分,这时,数据库系统的稳定和高效是必要的条件。在互联网环境下还要考虑支持几千或上万个用户同时存取和7x24小时不间断运行的要求,提供联机数据备份、容错、容灾以及信息安全措施等。
事实上,数据库系统的稳定和高效也是技术上长久不衰的追求。此外,从企业信息系统发展的角度上看,一个系统的可扩展能力也是非常重要的。由于业务的扩大,原来的系统规模和能力已经不再适应新的要求的时候,不是重新更换更高档次的机器,而是在原有的基础上增加新的设备,如处理器、存储器等,从而达到分散负载的目的。
数据的安全性是另一个重要的课题,普通的基于授权的机制已经不能满足许多应用的要求,新的基于角色的授权机制以及一些安全功能要素,如存储隐通道分析、标记、加密、推理控制等,在一些应用中成为切切实实的需要。
“互联” 指数据库系统要支持互联网环境下的应用, 要支持信息系统间“互联互
访”,要实现不同数据库间的数据交换和共享,要处理以XML 类型的数据为代表的网上数据,甚至要考虑无线通讯发展带来的革命性的变化。与传统的数据库相比,互联网环境下的数据库系统要具备处理更大量的数据以及为更多的用户提供服务的能力,要提供对长事务的有效支持,要提供对XML 类型数据的快速存取的有效支持。
“协同” 面向行业应用领域要求,在DBMS 核心基础上,开发丰富的数据库套件及应用构件,通过与制造业信息化、电子政务等领域应用套件捆绑,形成以DBMS 为核心的面向行业的应用软件产品家族。满足应用需求,协同发展数据库套件与应用构件,已成为当今数据库技术与产品发展的新趋势。规划中的Oracle 11i的主要扩展方面据称主要也是各种面向应用套件的支持。
3、CACHE ——后关系型数据库的代表
后关系型数据库代表cache 数据库是符合“四高”要求的优质数据库。cache 面向对象多维数据结构能更好地描述数据之间的关系。也具有能节省硬盘存储空间和能提供高速响应的性能。采用Cache 后的存储空间可能节省2/3,而基于Cache 的应用程序,比原来基于关系型数据库的应用程序运行有可能快20倍。
开放性是Cache 具有快速开发能力的关键。开发员能够在熟悉的环境中工作,使用他们所熟悉的工具。习惯于关系型系统的开发员可以把数据模型设计为表,然后使用嵌入的SQL 访问它。
cache 包括了一个先进而成熟的完全对象模型,包括封装、多态、多重继承、结果集和blob ,并且能够与对象建模工具如和rose 软件等接口。更重要的是,cache 的三种数据访问方式可直接与cache 中的数据进行交互。这样就没有额外层次的处理,提高了数据库的性能。
cache 还独一无二地提供了事务处理型的位图索引,通过提升数据仓库中实时数据的查询效率来大幅度提高进行复杂查询的能力。它可以利用多维数据机构执行位图索引,提高其查询速度,同时显著降低了占有的存储空间。
cache 运行的高性能和快速开发的高效率,可以为计算机用户带来巨大的受益。而且cache 能在各种操作系统支持下轻松完成数据库系统管理,包括在线实时重新分配和部署数据库服务器及应用服务器。后关系型数据库能够将多维处理和面向对象技术结合到关系数据库上,能够将经过处理的多维数据模型的速度和可调整性结合起来。由于它独有的可兼容性,对于开发高性能的交换处理应用程序来说,后关系型数据库非常理想。