内容管理系统实现的关键技术
・44・(总838) 内容管理系统实现的关键技术2007年
文章编号:1003-5850(2007) 08-0044-03
内容管理系统实现的关键技术
The Pivotal Technology about Implementation of Content Management System
张 猛
(上海海事大学信息工程学院 上海 200137)
【摘 要】随着信息量的增加, 内容管理在实际生活中的重要作用越来越明显。与此对应的内容管理系统的实现也变得更加重要。探讨了在内容管理系统实现中具有重要作用的两个关键点:权限管理和内容分类, 并提出了解决实现的基本思想和方法:基于角色的权限管理机制和聚类分类方法。通过以上两种方法的实现, 内容管理系统的安全性和组织性将会得到保证, 从而解决了内容管理实现的技术难点。【关键词】内容管理, 权限管理, 内容分类
中图分类号:T P 393
文献标识码:A
ABSTRACT A s the incr ease of co nt ent , the significance o f Content M anagement is mo re obvious . M eanw hile , Content M anag ement Sy stem is mor e impor tant , to o . T w o keys about the implement atio n o f Sy stem are pro posed in this paper . T hey are :Per missio n M anagement and Co ntent classificat ion. And we pr oposed the idea a nd solutio n o f implem enting them. KEYWORDS co nt ent management, per missio n ma nag ement, co nt ent classification.
过去几十年里, 从数据库、数据仓库到数据挖掘技术, 处理结构化信息的工具和技术不断得到发展, 但在实际生活中还存在着很多信息是非结构化的。有文献指出, 在企业的海量数据中, 其中大约只有10%-20%的数据是结构化的, 而另外80%-90%的数据是非结构化的。如何更好地利用这些日积月累的数据是许多组织信息化建设中面临的挑战之一。
一, 它在功能上反映在两个方面:前台的管理和后台管理人员的管理。在整个所发布的内容中, 有的信息是公共的, 允许所有的访问者访问, 但有的信息, 比如内部的一些重要的资料, 是不希望所有人都看到的, 需要有一定的权限才能够访问。在后台维护, 也有权限的不同, 不同的人员维护的等级和栏目是不同的, 即便维护同一个模块, 不同等级的人员所维护的内容也是不同的。针对这种情况, 分析其权限的设置特点, 采用基于角色权限机制的安全访问技术比较容易满足系统的这种需要。
2. 1 基于角色权限机制的用户管理
基于角色的权限控制特点是权限分配到角色, 然后用户被指派为不同的角色。整个访问控制过程就分成两个部分, 即权限与角色相关联, 角色再与用户关联, 从而实现了用户与访问权限的分离, 如图2所示。
1 内容管理系统的组成
按照现在的内容管理系统的构成框架, 一个比较完整的内容管理系统应该由五个子系统构成, 这五个子系统分别是元数据管理子系统、内容获取子系统、内容存储子系统、内容发布子系统、工作流子系统。
内容管理系统的实现基于不同的用途和开发环境有不同的实现方式, 而在各种实现方式之间有一些共同的关键点, 是实现内容管理系统中重要的方面。
基于角色的访问控制方法把对用户的授权分成两部份, 用角色来充当用户行驶权限的中介。这样, 用户与角色之间以及角色与权限之间就形成了两个多对
2 权限管理
权限管理是整个内容管理系统中最重要的部分之
* 2007-01-14收到, 2007-06-16改回
*
*,
第20卷 第8期电脑开发与应用(总839)
・45・
多的关系。系统提供角色定义工具, 允许用户自己定义相应的角色。另外, 还提供角色间的继承。角色继承关系提供了对已有角色的扩充, 使定义新的角色可以继承已有角色的权限。另外还允许多继承, 即一个角色继承多个父角色, 拥有多个父角色的权限。角色定义示流程图如图3
所示。
3 内容分类
现在内容分类的方法大体上分为人工分类、自动化分类以及人机结合的混和方法三种。显而易见, 人工
分类过多的依赖于个人, 当内容量过大的时候, 单单依靠手工方法进行分类不现实, 而且很容易成为系统的瓶颈。因此, 人们更加关注于自动化分类方法。现在主要应用的自动化分类方法主要有以下几种方法。3. 1 自动化分类方法
基于规则的分类方法:这种方法需要由对相关内容极为了解的专家创建与维护一套规则用于将某篇文档划分到某个类中。专家使用If -Then 的规则形式组织归类的相关概念。规则能够支持复杂的操作, 而且
而具体到一个具体的内容管理系统, 其具有的用户、角色、权限之间的关系图如图4
所示。
建立在规则之上的决策树也相当准确。规则衡量了一个给定的文档是否符合某个主题的判断标准。显然, 建立这样一种规则并不容易, 并且专家对相关内容知识的了解程度也相当重要。
基于自然语言的学习算法:该方法利用神经网络的方法, 通过分析文档的内容区分文档并将文档进行分类。这种方法通过选择文档的表示方式或可能的格式, 利用神经网络实现对内容的分类, 可以被应用到文本文档或文本片断的分类中去。
语义分析:这是以从文档中提取关键的概念作为分类与检索的基础。语义分析过程共分为两个阶段, 第一个阶段的工作主要集中于一系列的语言算法以及语言独立的统计技术的实现。当用户对系统中收集的
2. 2 权限管理的设计方案
如果用户登录, 系统会根据用户名和口令识别访问者的身份和他所具有的权限。用户信息提交给服务器后, 服务器的身份认证确认其所属的角色, 并分配该角色所拥有的权限。具体过程是, 通过用户角色对应表找到对应的角色, 再通过角色权限对应表获取角色的权限, 从而获得该用户的权限。完成这些过程, 用户就获得了自己应有的权限, 如图5
所示。
信息进行查询时则触发该过程的第二阶段, 系统可以根据用户的查询需求以及可视化的分类结构呈现给用户个性化的、相关的查询结果。
! 模式匹配:这种方法是指寻找经常聚在一起的一组词或词组的过程。一个主题可能通过语义分析进行处理。其他的识别模式还包括词在文档当中的出现频率、词的位置、词与词之间的亲近程度以及相关词的聚类。
∀聚类分析:这是通过识别内容中的共性元素将内容划分为相似内容子集。每篇文档可以看作一些内容的合集, 聚类本质上就是将每一袋中的相似内容聚为一组。
以上每一种分类方法都有其自身的优点与不足, 没有哪一种单一的分类方法是十全十的。每种方法都有其适用的方面。所以, 现在人们往往采用混合的分类方法。下面着重分析一种基于神经网络的分类方法。3. 2 基于聚类分析的分类方法
聚类分析是一种解决分类问题的探测性的数据分每
由此, 便实现了一整套的权限控制分配体系来保
・46・(总840) 内容管理系统实现的关键技术2007年
一类描述它的对象所属的类。该方法是通过建立一个对象间的相似性度量, 使得类间的相似性尽量小, 而类内的相似性尽量大, 从而得到在某种判别准则之下的最佳分类, 这种分类的结果未必使用简单的概念就可以描述的。换言之, 其分类的标准并不是显而易见的。
假设特征向量由n 个特征参数x 1, x 2, …, x n 组成聚类分析按照一定的准则, 将这些特征向量点划分为若干个群。聚类也用于将一个内容的集合划分为子集, 也就是类。每一类内的对象之间都比该类对象与属于其他类的对象之间具有更大的相似性。
芬兰学者T ・Kohonen 提出一种可以使得输入信号映射到低维空间, 且保持相同特征的输入信号在空间上对应邻近区域的学习方式, 称为Ko ho nen 自组织特征映射(self-o rganizing feature m aps, SOFM ) 也称Kohonen 自组织神经网络。
在Kohonen 自组织神经网络是一种前馈型网络。这种类型的神经网络中各神经元接受前一层的输入, 并输出给下一层, 没有反馈。节点分为两类, 即输入单
元和计算单元, 每一计算单元可有任意多个输入, 但只有一个输出。前馈网络可分为不同的层, 第I 层的输入只与第I-1层的输出相连, 输入和输出节点与外界相连,
而其它中间层则称为隐层。
3. 3 实现的步骤及方法
在此研究一种利用智能技术得到内容的分类结构的方法。该方法通过人或统计工具对文本内容进行预处理, 将文本内容以标准化的特征向量表示, 然后利用
Kohonen 自组织特征映射网络实现内容的自动聚类。现将对文本内容进行聚类的方法与步骤描述如下:
用标准的矢量形式表示文本内容
要实现内容的自动聚类, 首先要把待聚类的内容集用标准的矢量形式表示出来。由于给不同的文本内容建立关键字是可行的, 而且关键字又是最易于代表文本内容语义的, 因此可以通过文本内容的关键字作为中间桥梁将内容表示成标准的矢量形式。用标准的矢量形式表示文本内容, 这是利用神经网络实现内容的自动聚类的基础。
选择样本文档
Kohonen 网络采用的是无监督学习算法, 因此在通过该网络对内容进行聚类前需要选择样本内容作为训练集, 使自组织网络学习如何对内容进行聚类。样本的选择应当具有代表性与广泛性。
初始化网络的输入节点、输出节点以及连接权值
将以n 个关键字或文本特征表示文本内容的n 维矢量作为输入向量, 同时生成含有m 个输出节点的二维映射。
! 将代表文本内容的特征向量输入到网络中。∀在输出节点中选择最佳匹配节点。
计算输入节点与所有的输出节点权值的接近程
由于Ko ho nen 自组织特征映射网络除了具备以下主要性能, 因此采用Kohonen 自组织神经网络来实现内容的聚类。
对输入数据有聚类作用, 并可用聚类中心代表原输入, 起到数据压缩作用。
保持拓扑有序性, 输入中特性相似的点映射后在空间上是邻近的。
分布密度匹配, 原数据中分布密的区域在映射图上对应较大的区域, 分布稀的则对应的区域也较小。
自组织网络采用没有指导的学习过程, 不必给定应有的输出, 训练数据只有输入而没有输出, 网络只靠输入模式本身的特征, 根据一定的判断标准自行修改单元连接的强度, 使权矢量在输入向量空间中的分布近似于样本的分布。这也就是为什么采用自组织神经网络来解决内容的分类问题的原因和依据, 因为在对内容进行聚类前, 可以分成什么样的类以及不同的内容归属的类别本来就是未知的。
度, 选择距离最小, 即输出节点权值与输入值最接近的节点作为获胜节点。
#调整权值
调整获胜节点及其邻域的节点的权值, 从而使这些输出节点的权值与输入值更接近。
∃标注代表不同类的输出节点
不断重复以上过程, 学习算法结束后, 各输出节点的权值显示了聚类中心, 将不同的类加以标注, 以示区分。经过训练的网络可以用上述同样的方法对新的文本内容进行聚类。
(8) 对分类结果中包含大量输入样本的类别, 递归应用以上步骤, 继续在大类下划分更小的类。经过以上过程便可以得到文本内容的分类结构, 该分类结构可能是类与类之间相互独立的结构, 也可能是层次结构。基于这种由智能聚类得到的分类结构, 我们便可以利用经过训练的网络用同样的方法实现对不同文本内容的分类。
页)
第20卷 第8期电脑开发与应用(总843)
・49・
对测试频段范围进行一次完全扫描需要phase , m ag ) 。
较长的时间, 可以手动设置扫描方式, 采用分段测试的方法, 将整个测试分成若干段分别进行测试, 这样可以有效的缩短测试所需的时间。
图5 仿真生成带有白噪声的正
弦波
图6 对图5进行滤波
3 系统运行结果
本系统已经应用在实际工程中, 进行了大量的实验, 证明系统达到了上述功能, 由于篇幅有限, 给出部分实验结果。
采集某信息设备工作时频率范围为30M Hz ~300MHz 的数据波形、衰减为40dB 、测量带宽为10M , 参考电平-20dBm , 扫描时间为
20s
4 结束语
使用LabWindow s/CVI 实现的基于GPIB 接口的处理系统, 可以实现数据采集、仿真数据产生和数据处理等功能。由于系统的主要功能是通过软件来实现的, 所以具有很大的扩展性, 在以后的使用中可以根据不同需要不断的完善。
参考文献
[1]
孙晓云, 郭立炜, 孙会琴. 基于L abW indow s. CV I 的虚拟仪器设计与应用[M ]. 北京:电子工业出版社, 2005.
[2][3]
宋宇峰. LabW indo w s/CVI 逐步深入与开发实例[M ]. 北京:机械工业出版社, 2003.
张凤均. L abW indo ws /CV I 开发入门和进阶[M ]. 北京:航空航天大学出版社, 2001.
[4]
王朝英, 冯新喜. 信号处理原理[M ].北京:清华大学出版社; 北京交通大学出版社, 2005.
图2 某设备工作时波形图
采集到此信息设备共4次谐波的频率和幅值, 如表1所示。
表1 设备的频谱图说明
名称频率(
M Hz ) 幅值(dBm/V)
基波68. 9368. 29
二次谐波137. 6069. 43
三次谐波206. 2567. 59
四次谐波280. 3564. 67
根据信号理论可知, 谐波与基波之间应该是倍频关系, 这是在理想状态下, 在实际中由于环境以及设备自身等因素所以存在误差, 为了减小误差测试选在屏蔽室内进行, 从表中可以看到误差很小。
(上接第46页)
4 结束语
内容管理系统的实现是实现内容管理的载体, 是内容管理优越性的具体表现。本文探讨了在内容管理系统实现过程中两个比较重要的设计方面, 权限管理
和内容分类, 提出了设计思想并给出了实现的方法。
参考文献
图3 仿真生成正弦波图4 图3正弦波的时域波形
[1][2][3][4][5][6]
陈友梅. 内容体现价值[N ].中国计算机报, 2002-07-10.
龚 立. 基于设计模式的内容管理系统发布程序的设计研究[J ]. 计算机与数字工程, 2005, 16(8) :17-19. 石雪松. 内容管理的真正内涵[N ].中国计算机报, 2003-01-27.
郑 莉. 学习内容管理系统的体系结构和关键技术[J ]. 华中科技大学学报, 2003, 19(3) :17-19.
张卫云. 基于Web 的内容管理系统的研究与开发[M ].2005.
K ung S. Y Digital Neur al Net wo rks. PT R P rentice-Hall [M ], N ew Y or k :Sprimger -V er lag 1997.
图3是仿真生成数组长度为32, 幅值为1. 0, 初始相位为0. 0, 周期数为1的正弦波, 图4是图3中的正弦信号做快速傅立叶变换。
仿真生成数组长度为500, 周期为100, 幅值为10, 初相为0. 0并且加入了幅值为1dB
白噪声的正弦信号。进行滤波时, 采用的是巴特沃斯低通滤波器, 采样频率为10KHz 、截止频率为200Hz 、衰减系数为10. 00、波纹系数为5. 00、滤波器的阶数为5。由于采用的是巴特沃斯滤波器, 它的频率特性曲线无论在通带和阻带内都是频率的单调下降函数, 从图像上可以看出经过滤波后信号的初始相位发生变化。
[4]