基于运动目标多模态信息融合的视频检索方法
基于运动目标多模态信息融合的视频检索方法
摘要:在视频监控技术不断发展的现今阶段,视频信息量呈现出高速增长的态势。本文提出一种基于运动目标多模态信息融合的视频检索方法对监控视频中的运动目标提取特征,生成相应的视频描述文件,通过匹配查询图片与描述文件中的运动目标特征最终找到相似对象出现的视频片断,极大的提高了搜索效率。
关键词:多媒体数据 运动目标 多模态 信息融合 视频检索
[基金资助]:2013年全国大学生创新创业训练计划立项项目(2013XKCX209)。广西高校科学技术研究项目:(2013YB092)
引言
随着网络和多媒体技术的飞速发展,视频数据呈爆炸式增长。如何在海量视频数据中快速、准确地找到所需信息,变的极其重要。通过对监控视频中的运动目标特征提取(如颜色、纹理、目标类别等特征),建立目标索引模型,生成相应的视频描述文件。这种将运动目标多模态信息融合的检索方法使系统的整体搜索精度大大提高。
1、相关研究现状
当今,基于内容的多模态信息融合的视频检索技术正在经历由理论到实际应用的特殊阶段,市场上很难见到非常成熟的产品,随着中国社会的进步,多媒体技术和网络技术逐渐渗透到各个领域。在科技大发展的今天,对各种资源进行智能化的管理尤为重要。各个相关机构都展开了相应的研究,国内基于内容的多模态信息融合的视频检索技术的研究方面具有代表性的是浙江大学研究开发的基于内容的多媒体检索系统,即webscopeCBR 。该系统最大的优势在于,这是一个开放的系统,只要是用于检索用途的图像资源都可以放入庞大的数据库中。
2、检索模块及融合模块
视频是一种没有结构的流数据,是集图像、声音和文本为一体的综合性媒体信息。本文提出一种基于关系代数的多模态信息融合的视频检索模型。该检索模型把视频检索分成文本、图像、高层语义等若干方面,分别针对视频的不同特征进行检索,然后利用关系代数表达式完成多模态信息融合。整个检索模型的流程如图1所示。
图1 检索模型流程
2.1、文本检索模块
文本检索模块主要针对视频中的文本信息进行查询,它将语音识别得到的脚