基于内容的图像检索系统比较和分析_冯运生
2014年4月APR. 2014
情报探索
Information Research
第4期(总198期)No. 4(Serial No. 198)
基于内容的图像检索系统比较和分析*
冯运生
(洛阳师范学院文学与传媒学院
摘
河南洛阳471022)
要:指出基于内容图像检索的优势;比较分析了多代理平台、CIRES 、Chabot 和SIMPLIcity 4个典型的基于内容图像检索
系统,总结了它们的结构、功能、主要贡献及应用领域等,并针对语义鸿沟、检索特征单一、相互之间难以互访3个方面的问题,提出了应对措施。
关键词:图像检索;形状;纹理;比较;算法中图分类号:G254.923
文献标识码:A
doi :10.3969/j.issn.1005-8095.2014. 04.022
Comparison and Analysis of Content-based Image Retrieval Systems
Feng Yunsheng
(School of Literature and Media, Luoyang Normal University, Luoyang Henan 471022)
Abstract:The paper points out the advantages of content-based image retrieval, compares and analyzes four typical content-based image retrieval systems including multi-agent platform, CIRES, Chabot and SIMPLIcity. It summarizes their structures, functions, con -tributions as well as application fields, and puts forward corresponding countermeasures against three problems of semantic gap, single retrieval feature and difficulty in mutual access.
Keywords:image retrieval; shape; texture; comparison; algorithm
引言
随着信息技术的发展,特别是海量存储技术和流媒体技术成熟和完善,越来越多的人正在通过计算机、手机、iPad 等终端设备浏览网络数字图片,多媒体信息已成为信息的主要内容和表示方式。信息访问和查询方式也正向着以多媒体信息检索为主的方向发展。因此,人们迫切需要一种灵活、有效的方式来检索数字图像。传统的图像检索是基于关键词描述(Keyword-based Image Retrieval ,KBIR )的检索,关键词的描述能力有限,通常很难描述抽象概念,并且人们对图像的理解往往与环境及需求有关,图像的相似性具有强烈的主观性。基于内容的图像检索既能提供基于颜色、纹理、形状等视觉信息的检索,又能和传统的关键词检索相结合,提供基于语义信息的检索。
另一方面,基于内容的图像检索仍处于实验研究阶段,完善的商用检索系统较少。本文通过对基于内容图像检索的多代理平台、数字图像库中的基于内容检索系统(CIRES )、Chabot 检索系统、SIMDLI city 检索系统等四个典型检索系统的比较,分析了主要存在的问题并提出应对措施。1检索系统实例分析
收稿日期:2013-11-14
01.1
基于内容图像检索的多代理平台
基于内容图像检索的多代理平台系统包含4个主要部分:1套软件代理、1个图像数据库、1个图形用户界面以及1个能够支持不同投票方案的投票系统[1]。系统结构如图1所示。
在图像输入过程中,每一个代理提取必要的图像特征以满足相似匹配和检索的需求。这需要一个复杂、耗时的计算成本。然而,由于它并不是一个实时的
图1基于内容图像检索的多代理平台系统结构
功能,在检
索进行之前就已经完成,因此不会影响系统的检索效率。
*本文系2013年河南省科技发展计划项目“网络环境下中原文化的影像传播策略研究”(项目编号:[1**********]9)的成果之一。作者简介:冯运生(1977-),男,硕士,讲师,研究方向为多媒体信息检索与影像传播。
80
2014年4月冯运生:基于内容的图像检索系统比较和分析第4期(总198期)
检索过程中,用户能够单独或者以图表的形式浏览数据库中的图像,实例图像及候选图像都可以由用户自由选择。在进行检索时,与实例图像相似的图像被检索出来,检索范围可以是一系列候选图像,也可以是整个图像数据库。
图像检索是一个实时的功能,在此期间每一个代理需要预处理信息并独立工作,不同代理之间协同工作,依据特定的相似标准和匹配算法计算出实例图像与每一幅备选图像的相似性,然后通过投票系统整合不同代理的运算结果,并依据与实例图像相似的等级进行排序输出。用户可以通过对一个特定的查询进行说明或者完善相关的参数来改善查询结果,还可以通过增加新的代理或者改变投票计划来扩展系统功能。
1.2数字图像库中的基于内容检索系统(CIRES )
CIRES 系统首先利用相似、连续、平行以及交叉等编组规则分层次提取以下特征:线性片段、长斜线、L 型连接、U 型连接、平行线、平行组、多边形等。利用这些特征,系统可以对包含楼房、桥梁等人造对象的图像进行检索。[2]
系统在进行颜色分析过程中,首先把图像中所有像素点的颜色映射到一个包含15种颜色的调色板中,从而获得一个15维的特征向量,构建一个具有15个集合的直方图;利用文字标签来描述图像的颜色,即用一个名字来定义一种颜色,比如粉色、棕色等;并且开发了一种颜色匹配技术,以更好地利用亮度信息和色度信息。
系统在LAB 颜色空间中提供了一个非常出色的分割方法,即把图像分割成2520个区域,区域的颜色由该区域中心的颜色来标识,然后在调色板中选定一种颜色来代表整个区域。
系统利用多分辨率通道能量模型来进行纹理分析。在图像检索中利用Gabor 滤镜来测量基于纹理的相似性。在LAB 空间中利用由48个均衡Gabor 滤镜组成的一系列滤镜组,即从每一幅图像中抽取一个48维的特征向量来表征利用滤镜以后的规范化的能量。CIRES 系统既可以仅在L 通道中进行纹理分析,也可以在3个通道中同时进行分析。
系统利用欧几里得范数来计算结构以及纹理特征空间中的距离;利用直方图交叉的方法来计算颜色;在结构、颜色及纹理的乘积空间,利用一个距离的加权线性组合进行检索。通过对图像结构、纹理、颜色的综合利用,使得CIRES 系统具有较高的查准率和查全率。1.3Chabot 检索系统
Chabot 检索系统是美国加州大学及伯克利市
数字图书馆工程的一部分[3]。系统提供一个功能完善的用户接口,既能够处理查询又能够更新数据库,同时利用关系数据库管理系统POSTGRES 来存储图像和文本数据,实现了一种概念查询功能,即结合文本和颜色进行查询。与传统关系型数据库相比,POSTGRES 主要具备以下功能:
(1)面向对象的功能:可以为对象定义类,类的属性可以被其子类继承。
(2)复杂数据类型:能提供灵活的数据类型和操作分类,比如时间、可变长度数组以及图像等。此外,用户可以定义新的数据类型以及特有的运算符。
(3)用户自定义索引:二级索引可以利用用户指定的存储方法来定义。索引可以作为B 树也可以作为R 树实现。
(4)用户自定义函数:用C 语言写的函数可以注册到POSTGRES 数据库中,POSTGRES 利用地址空间动态的加载函数,利用自定义函数来分析颜色直方图。系统利用颜色来执行查询的机制叫做MeetsCrieria 。主要有两种方式,即颜色直方图和颜色准则。利用弗洛伊德-斯坦伯格量子化来计算颜色直方图;用户可以从菜单中选择一个颜色准则,这个准则作为查询的一部分,可以使查询更加精确。1.4SIMPLIcity 检索系统
SIMPLIcity 系统结构如图2所示[4]。在索引期间,系统利用K-means 聚合算法把每一幅图像分割成4×4像素的区域,针对图像中每个区域提取颜色、纹理、形状以及位置特征,生成特征向量。分割结果被输入一个分类器来确定图像的语义类型,如有纹理-无纹理、室内-室外、反面的-良性的、图表-图像等。尽管分类是针对整幅图像而不是特定区域,但由于分类可能需要分割信息来辅助完成,因此其过程是在区域分割以后执行。图像的签名由从各个区域中抽取出来的特征集来表示,具有不同语义类型的图像签名被存储在独立的数据库中。
图2SIMPLIcity 系统结构
81
2014年4月情报探索第4期(总198期)
在查询过程中,首先选择查询图像的语义类型,然后从相应的数据库中提取它的签名。一旦获得了要查询图像的签名,数据库中具有相同语义类型的图像与查询图像的相似分数就被计算、存储,并显示具有相近语义的图像列表。
SIMPLIcity 系统提供了3个查询接口:基于CGI 网络访问接口、基于JAVA 的绘制接口、基于CGI 的网页接口。用户可以通过输入一幅图像的URL 地址
表1
比较内容研究机构索引方式主要功能主要贡献
基于内容图像检索的多代理平台希腊研究与技术基金会基于特征的索引
利用人类视觉原理,实现基于多代理的综合检索
提出了一个处理和整合多种视觉形式的新观点,并实现了一个基于生物视觉的多代理架构的检索平台
来利用因特网提交任何一幅图像作为查询图像,然后系统利用HTTP 协议通过服务器来处理查询图像。这些功能的实现依赖于系统高效的图像分割和匹配算法。
2比较和分析
主要从索引方式、主要功能及主要贡献等方面对以上4个检索系统进行比较分析,比较结果如表1所示。
4种检索系统的比较
Chabot
加州大学伯克利分校
基于特征的索引基于注释的索引
基于特征的检索基于注释的检索
利用POSTGRES 数据库管理系统,支持复杂数据类型,具有丰富的检索语言以及可扩展的类型和函数;综合使用文本及特征数据来对图像进行基于内容的分析,进而提出并实现了“概念查询”的功能
环境保护、水资源监测和分析等进一步扩充图像库中图像的数量和种类;完善颜色分析技术,并开发和使用纹理、形状等其它的内容分析技术;引入信息检索技术,如利用知识库以及限制反馈集的大小等
CIRES
德克萨斯大学奥斯汀分校计算机与视觉研究中心
基于特征的索引基于结构的索引
基于结构的检索基于特征的检索基于结构+特征的综合检索提出了利用图像结构、颜色和纹理相结合进行检索的方法。利用感知编组来提取图像结构,利用图像结构作为检索的高层语义提示。感知编组引用低层图像特征,把低层特征编组成高层语义说明
SIMPLIcity
斯坦福大学计算机科学系基于特征的索引基于注释的索引
基于特征的检索基于语义的检索
提出了语义分类的概念,并利用基于图像分割的语义分类以及综合区域匹配进行图像检索,使检索结果更符合人类的视觉习惯;用户可以通过网络提交主流格式的图片网络图片
利用更多的语义分类算法以及更加完善的区域匹配方案来提高检索精度;进一步利用特征聚合方案及平行查询处理方案提高检索速度
应用领域改进工作
图书馆、医疗机构等
进一步利用认知科学中结合行为和心理活动来研究脑功能的跨学科领域成果,扩展各个代理功能;进一步解决由真正用户的缺失而导致的主观性缺失的问题
数字图书馆、建筑等
在综合检索过程中,进一步完善结构、颜色和纹理的加权算法;扩展文字标签的功能
通过比较分析可知,现有的图像检索系统,在进行存储和检索时,一般是先对图像进行颜色、纹理、结构等分析,提取相应的低层视觉特征,然后利用相似性测量方法进行匹配来完成检索,而对高级语义检索的支持较少。
3存在的主要问题及应对措施3.1针对语义鸿沟问题
当前基于内容的图像检索系统大都能够提供较完善的基于视觉特征的检索,首先需要对图像进行区域分割,然后依据区域特征提取颜色、纹理、边界和形状等视觉信息。然而一个或者多个分割区域不足以描述语义对象,区域表征往往达不到用户对图像的语义理解层次。并且对于用户来说,为一幅图像选择一个代表区域通常是很困难的,加上自动分割的不精确,检索结果往往不能满足用户基于语义层次的检索需求。
为了填补低层视觉特征与高层语义之间的鸿沟,实现基于语义的图像检索,文献[5]提出了从图像中提取有意义区域的观点。有意义区域是位于原
始图像和语义对象之间的中间层次,从图像中抽取有意义区域有助于完成对图像的语义分割。
系统利用HIS 颜色特征及纹理特征等多维的低层特征分析,确定不同特征的可靠等级,进而得到每一种特征对于分割过程的合适的权重,获得高层特征空间———加权的密度空间。然后在加权密度空间中利用无参数聚合把图像分割成有意义的区域,再把有意义区域合并成对象,进而利用对象识别技术获得更精确的语义信息。
文献[4]实现的SIMPLIcity 系统利用一系列关键区域来代表图像,由颜色、纹理、形状以及位置信息来标识,并且把图像分成不同的语义类别,以更好地支持基于语义的检索。
3.2针对检索特征单一化问题
传统的基于内容的图像检索系统通常利用颜色、纹理及形状等特征,对图像特征的利用较为单一,往往得不到令人满意的检索结果,尤其是在要检索的图像中包含人造对象时,比如楼房、塔、桥梁以及其他的建筑对象等。
82
2014年4月冯运生:基于内容的图像检索系统比较和分析第4期(总198期)
为此,CIRES [2]提出了利用图像结构信息结合颜色和纹理特征进行检索的方法,即在进行颜色和纹理分析的基础上进行结构分析,利用图像结构作为检索的高层语义提示。首先利用感知编组来提取图像结构,感知编组引用分级的低层图像特征,比如边缘、形状等,然后把这些低层图像特征编组成具有一定含义的高层语义解释说明。感知编组在检索框架中扮演着重要的角色,通过感知编组的组织和安排,使系统不仅适合对包含人造对象图像的检索,也适合对仅包含纯粹自然对象图像的检索。对结构及视觉特征的综合利用使CIRES 系统比其他仅仅依靠颜色和纹理来检索的检索系统更加具有优势。3.3针对检索系统之间难以互访问题
首先,图像数据作为一种非结构化的数据,具有多义性,对其进行准确描述较难。为此[5],MPEG (运动图像专家组)制定了MPEG-7(多媒体信息描述借口)标准,旨在提供一套用于描述多媒体内容的方法和工具,为图像、图形、视频、音频等各类多媒体信息提供一种标准化的描述[6]。
随着MPEG-7标准的出现,相继出现了一些基于MPEG-7的图像检索研究成果,如:文献[7]在MPEG-7标准的基础上研究数字图像的检索技术,实现了关键算法,开发了一个基于MPEG-7的数字图像检索实验系统;文献[8]结合MPEG-7的颜色与形状两种描述符设计出了一个新的图像检索系统;文献[6]给出了一种实现基于MPEG-7标准的图像检索系统的抽象模型等。MPEG-7标准的使用提高了系统的通用性及扩展性。
其次,检索语言标准缺失,系统之间不兼容。一些系统是在现有SQL 语言的基础上扩展开发出的检索语言,常因关键字冲突等而导致系统之间难以共享资源。为此,SQL 标准化委员会制定了一个新的国际标准“SQL 多媒体及应用包—SQL/MM”,定义了很多结构化的用户定义类(即UDTs ),极大提高了此方面软件的开发效率,并使软件更加规范,进而更有利于资源共享[9]。
再次,一些数据库厂商也相继提供了对多媒体数据的支持。尤其是Oracle 公司推出的InterMedia 工具[10],该工具是对Oracle8i 多媒体功能的扩充,专门用于对多媒体数据的存储及检索。
最后,文献[11]提出了应用神经网络来对多媒体信息进行处理。神经网络能够依据相关的数据精确的估测未知系统,为识别对象提供了一个无监管的聚类方法及有监管的学习机制,经过训练可以获得听、说、看及识别对象的能力。
神经网络提供了一个通用的功能,为广泛的多媒体处理应用提供了一个统一的解决方案,包括图像/视频的分割、纹理的分类、运动对象的跟踪、图像视觉、人脸对象的检测和识别、音频分类、多模式转换/同步等。4结束语
由于数据量庞大,无论是人还是计算机对图像的理解较难,精确表示一个检索以及评价检索结果较难,因此基于内容的图像检索面临着很大挑战,对大规模图像数据库有效的索引和搜索一直是一个开放问题。
未来的多媒体信息检索需要更智能化的信息处理技术。包括自动提取、识别、翻译以及多模式信号的相互作用等。从长期的研究视角来看,需要针对多媒体技术建立一套基本的、明确的理论,以进一步研究在表征和索引之间的协调平衡和相互作用。
参考文献
Socrates Dimitriadis ,Kostas Marias ,Stelios C ,et al. A
multi-agent platform for content-based image retrieval [J ]. Mul -timed Tools Appl ,2007(33):57-72.
[2]Qasim Iqbal and Aggarwal J K. CIRES :A System for content -based retrieval in digital image libraries [C ]//SeventhInternational Conference on Control ,Automation ,Robotics And Vision (ICARCV'02). Press ,2002:205-210.
[3]Virginia E Ogle ,Michael Stonebraker. Chabot :re -trieval from a relational database of images [J ]. IEEE Computer ,1995(28):40-48.
[4]Wang J ,Li J ,Wiederhold G. Simplicity :Semantics -sensitive integrated matching for picture libraries [C ]//ACMMultimedia Conference ,2000.
[5]Luo Y ,Zhang YJ ,Gao Y Y ,et al. Extracting mean -ingful regions for content-based retrieval of image and video [C ]//PhotonicsWest 2001-Electronic Imaging. International Society for Optics and Photonics ,2000:455-464.
[6]张运涛,梁曦,吴建玉. 一种实现MPEG-7标准的基于内容的图像检索系统[J ]. 软件导刊,2010(1):166-168.
[7]胡振宁,别红霞. 基于MPEG-7的数字图像检索系统[DB/OL]. [2013-08-07]. http ://www.paper.edu.cn/releasepa-per/content/200803-161/.
[8]梁琳,胡强,等. 一个基于MPEG-7颜色与形状的图像检索系统[J ]. 电讯技术,2007(5):51-54.
[9]Jim Melton ,Andrew Eisenberg. SQL 多媒体及应用包(SQL/MM)[J ]. 王鹤龙,译. 计算机时代,2004(1).
[10]文燕平. Oracle 数据库管理视频信息[J ]. 现代图书情报,2004(1):50-52,47.
[11]Bojkovic Z ,Milovanovic D ,Mastorakis N. Neural networks applications for multimedia processing [C ]//NeuralNetwork Applications in Electrical Engineering ,2000. NEUREL 2000. Proceedings of the 5th Seminar on. IEEE ,2000:87-91.
[1]
83