动作识别与行为理解综述_徐光祐
第14卷 第2期2009年2月
中国图象图形学报J o u r n a l o f I m a g e a n d G r a p h i c s
V o l . 14, N o . 2
F e b . , 2009
动作识别与行为理解综述
徐光祐
曹媛媛
(清华大学计算机科学与技术系普适计算教育部重点实验室, 北京 100084)
摘 要 随着“以人为中心计算”的兴起和生活中不断涌现的新应用, 动作识别和行为理解逐渐成为计算机视觉领域的研究热点。主要从视觉处理的角度分析了动作识别和行为理解的研究现状, 从行为的定义、运动特征提取和动作表示以及行为理解的推理方法3个方面对目前的工作做了分析和比较, 并且指出了目前这些工作面临的难题和今后的研究方向。
关键词 以人为中心计算 动作识别 行为理解
中图法分类号:TP 391 文献标识码:A 文章编号:1006-8961(2009) 02-0189-07
A c t i o nR e c o g n i t i o n a n d A c t i v i t y U n d e r s t a n d i n g :AR e v i e w
X UG u a n g -y o u , C A OY u a n -y u a n
(K e y L a b o r a t o r y o f P e r v a s i v e C o m p u t i n g , M i n i s t r y o f E d u c a t i o n , D e p a r t m e n t o f C o m p u t e r S c i e n c e a n dT e c h n o l o g y ,
T s i n g h u aU n i v e r s i t y , B e i j i n g 100084)
A b s t r a c t A st h e“H u m a n -c e n t e r e dc o m p u t i n g ”i sg e t t i n gm o r ep o p u l a ra n dn o v e la p p l i c a t i o n sa r ee v o l v i n g , a c t i o n r e c o g n i t i o na n da c t i v i t y u n d e r s t a n d i n g a r e a t t r a c t i n g r e s e a r c h e r s i n t h e f i e l d o f c o m p u t e r v i s i o n . I n t h i s p a p e r , w e r e v i e wt h e s t a t e -o f -t h e -a r t w o r ko na c t i o na n da c t i v i t ya n a l y s i sw i t hf o c u so nt h r e ep a r t s :De f i n i t i o no fa c t i v i t y , l o w -l e v e l m o t i o n f e a t u r e s e x t r a c t i o n a n d a c t i o nr e p r e s e n t a t i o n , a n dr e a s o n i n g m e t h o df o r a c t i v i t y u n d e r s t a n d i n g . F u r t h e r m o r e , o p e np r o b l e m s f o r f u t u r e r e s e a r c ha n d p o t e n t i a l d i r e c t i o n s a r e d i s c u s s e d .
K e y w o r d s hu m a n -c e n t e r e dc o m p u t i n g , a c t i o n r e c o g n i t i o n , a c t i v i t y u n d e r s t a n d i n g
1 引 言
计算正渗透和影响到人们生活的各个方面, 根据传感器数据来识别和理解人的动作和行为就成为
[1]
未来“以人为中心的计算”中的关键。其中基于视觉的动作识别和行为理解尤为重要。因为在人之间的人际交互过程中, 视觉是最重要的信息。可以帮助人们迅速获得一些关键特征和事实, 如对方的表情、手势、体态和关注点等, 这些视觉线索综合起来反映了对方的态度, 潜在意图和情绪等信息。未来人机交互和监控中, 机器要感知人的意图很大程
基金项目:国家自然科学基金项目(60673189) 收稿日期:2008-11-28; 改回日期:2008-12-03
度上就需要依靠视觉系统。此外, 视觉传感器体积
小、被动性和非接触式的特点, 使得视觉传感器和视觉信息系统具备了无所不在的前提。近年来, 在对计算机视觉提出的层出不穷的新要求中, 行为理解是一个具有挑战性的新课题, 在诸如智能家居, 老年人看护, 智能会议室等应用中都起着至关重要的作用。它要解决的问题是根据来自传感器(摄像机) 的原始图像(包括图像序列) 数据, 通过视觉信息的处理和分析, 识别人体的动作, 并在上下境信息的指导下, 理解人体动作的目的、所传递的语义信息。行为理解作为近几年开始兴起的研究, 正在逐渐获得越来越多的关注。
第一作者简介:徐光祐(1940~ ), 男。教授, 博士生导师。I E E E 高级会员, C C F 会员。主要研究领域为计算机视觉, 人机交互, 普适计算-s u
190
中国图象图形学报 第14卷
人体检测、定位以及人体的重要部分(头部, 手等) 的检测, 识别和跟踪是人体行为理解的基础, 在解决这些基本问题的基础上, 更重要也更困难的问题就是动作识别和行为理解。对动作识别的研究可以追溯到20世纪九十年代。2002年, 相关研究的论文数量经历了一个飞跃式的增长, 这些研究大多假设是在结构化环境和孤立动作条件下。所谓的结构化环境就是预先设定和可人为控制的环境, 例如, 用于计算机输入的手势识别, 这时视觉数据采集的光照、视角、距离等因素都是固定或已知的。这就为改善视觉处理的脆弱性提供了有利条件。但与此同时, 也带来了很大的局限性。例如, 基于生理特征的生物特征识别, 目前的方法只适合于愿意在规定环境下给予系统配合的合作对象。与此相对, 能在自然环境下, 基于行为特征的生物特征识别就更为困难, 但它具有容易被对象接受, 或不易被察觉的优点。对于各种目的的视觉监控来说, 能工作在自然环境下, 至关重要。例如, 为帮助老人延长独立生活或改善生活质量的视觉监控和提示, 都需要能在老人生活的日常环境提供相应的服务。近年来, 对日常生活和工作中动作和行为的理解正成为热点。这是所谓的“日常活动”(A D L ) 的分析和理解。由于人们在日常生活环境中的动作是自然和连续的, 而且与环境有密切的联系, 因此, 给识别和理解带来一系列具有挑战性的难题:(1) 分布式视觉信息处理方法和系统。通过多摄像机信息的融合来克服由于视角、距离、遮挡、光照等多种环境因素带来的干扰和不确定性是有效但也是富有挑战性的课题; (2) 自然连续动作和行为的分割及多层次模型。人类的日常活动和行为是人体自然和连续的动作, 其中包含了多种类型的运动和动作:无意识的人体移动, 为了操作物体的动作, 以及为了进行相互交流, 例如打招呼的动作和姿态。此外复杂的人类活动和行为是由一系列动作或操作组成的。系统必在一个多层次的模型指导下对人体动作进行分割和分类。而分割和分类又需要有来自对动作和行为理解的高层模型指导; (3) 基于上下境的行为理解。对动作和行为的理解需要了解当时视觉环境以及应用的情境。这也就是所谓的要具有“觉察上下境”或基于上下境的视觉处理和分析方法。因为相同的动作在不同的情境下传递不同语义。上下境的指导作用体现在以下2方面:①在现实的视场中可能需要处理此外还有实时处理的要求。这时必须根据上下境来
确定视觉处理的关注点; ②在上下境的指导下对动作传递的语义进行推理。
行为理解的研究包含着从底层到高层的多层处理。底层处理中的人体检测和跟踪、动作识别、手势识别和轨迹分析等已经有了较多的研究和综述。而高层的处理方法, 如对行为的建模、上下境在行为推理中的指导等研究还在起步阶段。
2 行为理解的研究现状
如引言中所述, 行为理解包含了从底层处理到高层推理的全过程, 涉及底层运动特征的提取和表示、行为的表示方法, 以及高层行为语义的推理模型。下面的综述首先从行为的定义开始, 然后讨论特征提取和动作表示, 最后分析常见的几种行为推理模型。
2. 1 行为表示的模型
目前对于行为的表示还没有一个通用的模型, 大部分的研究都是针对特定的应用采用某种行为表示模型, 最常见的是分层结构模型, 而各个层次表示的内容取决于应用的需要。人体的行为就其目的而言可大致分为:(1) 与环境交互。例如对物体的操作; M o e s l u n d 等人提出了a c t i o n /mo t o rp r i m i t i v e s , a c t i o n s , a n d a c t i v i t i e s 的分层模型
[2]
。在P a r k 等人
提出的驾驶员动作的表示模型中, 底层为身体某个部位的运动, 如头转动, 躯干前移, 伸胳膊等。中间层是由底层各部位的运动组合而成的一个复杂动作。最高层为人与周围设备的交互动作, 即驾驶员对汽车部件的操作动作, 如向左转动方向盘。(2) 人际交互。A g g a r w a l 等人在2人交互的分析中
[4]
[3]
, 把交互行为分为3个层次。最高层是交互行
为; 中间层为单个人体的动作; 最底层是对身体某个部分运动的检测和识别。群体交互, 例如会议室场景更是需要多层次的表示示方法还可参考
[2-4, 6-10]
[5]
。关于行为的分层表
。其中特别需要注意的是
G o n z àle z 等人在动作-行为的层次表示中增加了情[7]
境。情境可认为是最高层的上下境, 它用于解决行为理解的歧义问题。比如挥手这个动作在“足球赛”和“地铁站”这两种情境中显然是有不同的含义。
综上所述, 分层模型已经成为研究者们公认的,
第2期徐光祐等:动作识别与行为理解综述
191
务下, 层次的数量和每个层次的定义各不相同。得
到较多认可的表示模型大致包括如下几个层次:运动, 动作, 活动或操作, 行为。这些层次大致是按照时间的尺度来进行分割的。但这样的分层方法在复杂的情况下, 有时显得无能为力。。例如, 老人在厨房中的做饭活动, 它可分为取食品、处理食材、烹饪、上菜等过程。其中每个步骤, 又可进一步分解, 例如, 烹饪又可按菜谱分为若干步骤。这样的分解是应用导向的。作为一个表示模型除了定义各层表示的含义以外还需要定义它们之间的关系和运行机制。C r o w l e y 等人提出了情境网络的运行框架。D a i 等人提出了一个基于多层次“上下境-事件”的模型
[5]
[11]
距离投影
M
M
i
2
i
2
c
i =1
c
D P =
i
i
H -H ) , ∑(V -V ) ∑(
i =1
(1)
式中, H 和V 表示前景像素在水平和竖直方向上的坐标, H 是前景像素c 和V c 表示前景中点的坐标, M 点的个数。每一个动作都用距离投影的高斯分布来表示。这种特征抽取方法是视角相关的, 文中使用了与人体朝向成90°的固定视角。这个视角上最容易抽取出区分度大的人体形状特征。
N i e b l e s 等人把每个动作的一系列视频帧都看作是一组特征描述词的集合
2
[20]
, 特征描述词通过提
2
取时空兴趣点得到。定义响应函数如下:
R =(I *g*h(I *g*he v ) +o d )
(2)
, 认为行为的层次结构中, 上层的行为就是下
层动作定义的环境, 所以就称为上下境。它定义了
什么是下层中发生的有意义的动作, 即事件。相邻层次之间的“上下境-事件”关系可递归地延伸到所有的层次。所以, 这个模型具有通用性。
2. 2 运动特征的提取和动作表示
视觉或者其他底层运动特征的提取和表示是进行高层行为理解的推理所必需的基础工作。较早开始的对动作行为分析的工作很多是采用主动传感器
[12-16]
来获得人体某个部位的运动信息。这类工作主要是通过人体的四肢或躯干佩戴的各种传感器来获取该部位的运动特征, 然后分析动作行为, 由于当前以人为中心的计算强调用户感觉自然, 嵌入式的传感器破坏了用户的感受, 给用户的行动造成不便, 因此, 目前越来越多的研究开始转向用摄像机这种非嵌入式被动的传感器获取人体的动作特征。
基于视觉的动作表示按特征的性质大致可以分为两类, 一类是3维特征, 另一类是2维图像特征。3维特征本身具有视角不变性, 适用于分布式视觉系统下的动作体态表示。C a m p b e l l 等人提出了基于立体视觉数据的3维手势识别系统
[17]
式中, g (x , y , σ) 是2维高斯平滑核函数, 应用在空间维度上, h 和h 都是1维G a b o r 滤波器, 分别定e v o d 义为h (t ; τ, ω) =-c o s (2πtω) e e v
-t 2/τ2
2/τ2-t
和h t ; τ, ω) =o d (
-s i n (2πtω) e 并运用在时间维度上。一般情况
下, 复杂动作发生的区域会产生较大的响应, 局部响应最大的点作为兴趣点。并用梯度或者光流来描述。
P a r k 等人用多高斯混合模型表示人体5个主要部分(头、脸、胳膊、躯干和下身) 的颜色分布
[3]
, 并
用椭圆拟合, K a l m a n 滤波器随时对参数进行更新。动态贝叶斯网络被用来检测动作和姿态, 驾驶员行为被用一个表达式表示, 表达式组成如下:{a g e n t -m o t i o n -t a r g e t }, 其中a g e n t 表示动作实施者, 如头、手等; m o t i o n 表示动作; t a r g e t 表示驾驶室的操作仪器。
C h u n g 等人用水平和竖直方向上的一对投影来表示当前的体态
[21]
; R o b e r t s o n 等人采用了基于光
[22]
流的动作描述子来描述动作, 继而与样本集中样
[23]
本逐个匹配来识别动作类型; T u r a g a 等人也是提取光流作为每一帧中动作的特征
; R y o o 等人用人
[24]
。J i n 等人建。3维模型
体外框的长、宽和中心点的坐标被作为特征W a n g 等人在办公室异常行为识别的研究中取出的人体区域采用R 变换
[26]
[25]
。
立了基于3维模型的动作识别系统
[18]
对提
通常参数多, 训练复杂, 计算量大。如果是基于立体
视觉的原理还可能要遇到匹配中的对应性困难。相比之下, 基于2维图像特征的表示计算相对简单, 适用于视角相对固定的情况。下面具体介绍一些基于2维特征的动作表示。
L i u 等人只对坐、站、躺几个日常生活中最基本[19]
, 提取动作形状, R
变换具有尺寸和旋转不变性, 可以应对人离摄像机
距离不同造成的尺寸变化。
以上这些工作都是在固定视角下用2维运动特征表示动作。这时可在有利的视角下观测动作, 但也限制了对象的活动范围, 使它难以适应实际应用,
192
中国图象图形学报
[29-31]
第14卷
变化大, 导致视角多变; 同时由于生活环境中的家具等也会对人体造成遮挡。因此, 需要分布式视觉系统的支持, 通过多摄像机信息的融合来克服由于视角多变, 活动范围广以及遮挡带来的各种问题。这是富有挑战性的难题。
基于人体特征例如人头或四肢的运动特征将可简化信息融合和动作分析。K i m 等人是在分布式环境下检测人体的躺、站、坐等简单动作, 通过自适应的背景相减得到前景区域, 然后用椭圆拟合和o m e g a 曲线头肩部检测算法检测头部, 在任何时刻, 所有的摄像机都会进行全部的底层处理, 得到人体的高度, 人体位置, 头部位置, 人体长宽比和手部的位置, 一个专门的模块将负责从每个摄像机处理的结果进行人的匹配, 并选出没有遮挡的处理结果作为行为理解的观测向量。再如P a r k 等人在分布式
[13]
视觉系统下研究两人交互的行为, 文中考虑到了视角对动作特征抽取带来的影响, 因此, 首先讨论了摄像机选择的问题。他根据不同摄像机得到的前景区域的离散度选择最佳视角, 可以理解为选择像平面中两人距离最大的视角, 因此, 避免了遮挡问题。将分割出的人体区域在水平方向投影, 计算得到人体的中轴, 然后人体被按照一个指定参数分割为头, 上身和下身3个部分。用H S V 颜色空间表示每个像素点, 用混合高斯模型表示身体的3个部分。可以同时分析上身和腿部的动作。而在不同视角下检测人体特征本身也是一个困难的问题, 这是这种方法需要付出的代价。
除了上述由于成像环境限制造成的困难以外, 现实生活中的很多动作, 例如厨房中的烹饪操作, 很细微, 难以单独依靠视觉来检测和识别。而动作所使用的工具或接触的物体将可提供关于动作明确的线索。因此, 有学者提出了根据使用的物品来协助识别对象动作。如果知道装面包的容器被使用了, 这往往比识别到人伸手拿东西这个动作蕴含更多的语义。W u 等人将水壶、电话、果汁等33个物品贴上电子标签(R F I D )
[27]
[26]
另外有一些工作认为人的轨迹甚至人在
某个功能物体(如冰箱、沙发等) 附近停留的时间可以用来解释人的行为, 这样的假设就完全避开了复杂困难的动作分析以及传感器对人体造成的不便, 在这类工作中, 环境上下境信息和场景知识受到极大重视, 成为进行行为理解推理所依赖的重要线索。2. 3 行为理解的推理方法
行为理解的推理中广泛采用了基于图模型的推理方法, 如隐马尔科夫模型(H M M ) , 动态贝叶斯网络(D B N ) , 条件随机场(C R F ) 等; 也有的研究采用其他的推理方法, 如文献[14]使用基于规则的决策树来对一系列表示动作及对象的三元表达式进行分类。文献[32]、[33]采用模板匹配的方法, 将检测到的运动特征与训练好的样本逐个匹配, 匹配的结果即为对行为识别的结果。文献[31]使用了有限状态自动机, 每个状态表示当前人体的位置, 来对人的轨迹进行分类, 识别异常事件。
在目前的行为分析领域中, H M M 是较常使用的一种推理模型。H M M 是一种有效的时变信号处理方法, 它隐含了对时间的校正, 并提供了学习机制和识别能力。根据不同应用环境下行为的特性, 很多研究对H M M 进行了适应性扩展, 比如
[36]
H i e r a r c h i c a l H M M , C o u p l e d H M M s , P a r a m e t e r i z e d -H M M s 等。大部分的模型采用了分层的结构来对应行为的分层特性。文献[38]在群体交互动作识别中采用两层H M M 模型, 下层模型对群体中的个体进行动作识别, 识别结果作为上层群体行为识别模型的观测。文献[39]也采用了分层的模型分析行为, 由3层在不同时间粒度上依次增加的H M M 组成。H M M 虽然是对时间序列建模的一种简单而有效的模型, 但是当行为变得复杂或者在长时间尺度上存在相关性, 就不满足马尔可夫假设
[27]
[37]
[34-35]
, 同时
考虑了行为的分层结构和状态的持续时间, 提出了S -H S M M(s w i t c h i n gh i d d e ns e m i -m a r k o vm o d e l ) , 是H S M M 模型的两层扩展, 底层表示了自动作及其持续时间, 高层表示了一系列由底层自动作组成的行为。文中给出的实验结果证明了比H S M M 和H M M 对行为具有更强的模型表示能力。
也有研究将D B N 引入到行为理解中
[40-42]
, 并在用户的手腕上带上接
收器。当用户使用某个物品时, 接收器就会接收到
该物品上电子标签发出的I D 信号。通过对使用物品的分析能够识别出烧水, 打电话, 喝果汁等16种行为。W a n g 等人也类似地充分利用了关于“所使
[28]
用物品”的“常识”对行为理解的指导意义, 通过在物品上贴R F I D , 手腕上带接收器来获得物品使用。由
于H M M 在一个时间片段上只有一个隐藏节点和一
个观测节点, 在一个时刻需要将所有的特征压缩到一个节点中, 那么所需要的训练样本将是巨大的)
第2期徐光祐等:动作识别与行为理解综述
193
段上是任意结构的贝叶斯网络, 可以包含有多个因
果关系的节点, 即用条件概率来形成联合概率, 训练相对要简单, 也给模型的设计提供了更大的灵活性, 能够更准确地表达状态之间以及状态和观测之间真实的关系, 但是设计起来要比H M M 复杂。文献[43]对D B N 和分层的H M M 做了详细的比较并且给出了模型选择和表示时需要考虑的几个因素:(1) 可用于训练和测试的数据; (2) 变量被观测到的可能性; (3) 数据之间的内在关系; (4) 应用的复杂度。
也有些研究放弃了产生式模型而采用区分式模型来分析行为。文献[44]首先采用了C R F 模型用于行为识别, 考虑到H M M 最大的缺点就是输出独立性假设, 导致不能考虑上下境的特征, 限制了特征的选择。但是实际情况是, 行为的当前状态往往与一个长的时间尺度上的观测存在相互的依赖, 并且观测之间很可能不是相互独立的。C R F 不需要对观测进行建模, 因此, 避免了独立性假设, 并且可以满足状态与观测之间在长时间尺度上的交互。结合产生式模型和区分式模型的优势对行为理解进行推理将成为未来的研究方向。
景中其他人和物体的当前和历史的状态, 也就是取决于上下境。相同的动作在不同的上下境中代表着不同的语义, 在会议这样的群体交互场景下尤为突出
[5]
。例如, “举手”的动作, 在“大会报告”的场景
下, 表示“希望提问”;在“会议表决”时表示决定的取向等。以上两个关键问题都涉及如何在视觉计算感知和利用中上下境信息。这也就是当前所谓的基于上下境的视觉和觉察上下境的视觉方法。从视觉处理的策略来说, 目前大多数都是采用自底向上的, 从局部到整体的方式, 而基于上下境的视觉处理是采用自顶向下, 从整体到局部的方式。这在一定程度上反映了人类视觉系统的处理方式。因此, 这是重要的值得注意的研究方向。
参考文献(R e f e r e n c e s )
1 Al e j a n d r o J , D a n i e l GP , N i c u S , e t a l . H u m a n -c e n t e r e dc o m p u t i n g :
t o w a r da h u m a nr e v o l u t i o n[J ]. C o m p u t e r , 2007, 40(5) :30-34. 2 Mo e s l u n dTB , H i l t o nA , K r ǜge r V . A s u r v e y o f a d v a n c e s i nv i s i o n -b a s e d h u m a nm o t i o nc a p t u r ea n da n a l y s i s [J ]. C o m p u t e r V i s i o na n d I m a g e U n d e r s t a n d i n g , 2006, 104(3) :90-126.
3 P a r kS , T r i v e d i M . D r i v e r a c t i v i t ya n a l y s i sf o r i n t e l l i g e n t v e h i c l e s :
i s s u e sa n dd e v e l o p m e n t f r a m e w o r k[A ].I n :Pr o c e e d i n g s o f I E E E I n t e l l i g e n t V e h i c l e sS y m p o s i u m[C ], L a sV e g a s , N e v a d a , U S A , 2005:644-649.
4 Ag g a r w a l J K , P a r kS .H u m a nm o t i o n :mo d e l i n g a n dr e c o g n i t i o no f
a c t i o n s a n di n t e r a c t i o n s [A ].I n :Pr o c e e d i n g s o f S e c o n d I n t e r n a t i o n a l S y m p o s i u m o n 3D D a t aP r o c e s s i n g , V i s u a l i z a t i o na n dT r a n s m i s s i o n [C ], T h e s s a l o n i k i , G r e e c e , 2004:640-647.
5 D a iP e n g , T a oL i n -m i , X uG u a n g -y o u . A u d i o -v i s u a lf u s e do n l i n e
c o n t e x t a n a l y s i s t o w a r ds m a r t m e e t i n gr o o m[A ]. I n :Pr o c e e d i n g so f I n t e r n a t i o n a l C o n f e r e n c eo nU b i q u i t o u sI n t e l l i g e n c ea n dC o m p u t i n g [C ], H o n g K o n g , C h i n a , 2007:11-13.
6 Bo b i c kA , M o v e m e n t , a c t i v i t y , a n da c t i o n :th e r o l e o f k n o w l e d g e i n
t h e p e r c e p t i o no f m o t i o n [A ].P h i l o s o p h i c a l T r a n s a c t i o n s o f t h e R o y a l S o c i e t yo f L o n d o n , 1997, 352(1358) :1257-1265.
7 Go n z àle z J , V a r o n a J , R o c a FX , e t a l . AS p a c e s :a c t i o ns p a c e s f o r
r e c o g n i t i o na n ds y n t h e s i so f h u m a na c t i o n s [A ].I n :Pr o c e e d i n g so f I n t e r n a t i o n a l Wo r k s h o po n A r t i c u l a t e d M o t i o n a n d D e f o r m a b l e O b j e c t s [C ], P a l m ad e M a l l o r c a , S p a i n , 2002:21-23.
8 Je n k i n s OC , M a t a r i c M . D e r i v i n g a c t i o na n d b e h a v i o r p r i m i t i v e s f r o m
h u m a nm o t i o nc a p t u r ed a t a[A ]. I n :Pr o c e e d i n g so f I n t e r n a t i o n a l C o n f e r e n c e o nR o b o t i c s a n d A u t o m a t i o n [C ], Wa s h i n g t o nD C , U S A , 2002:2551-2556.
9 Na g e l H H .F r o m i m a g es e q u e n c e st o w a r d s c o n c e p t u a l d e s c r i p t i o n s
[J ].I m a g ea n dV i s i o nC o m p u t i n g , 1988, 6(2) :59-74.
10 M o r i T , K a m i s u w a Y , M i z o g u c h i H , e t a l . A c t i o nr e c o g n i t i o ns y s t e m
b a s e d o nh u m a nf i n d e r a n dh u m a nt r a c k e r [A ]. I n :Pr o c e e d i n g so f e 1997I E S n t e r n a t i o n a C o n f e c nI n t e l l i g e n R o t s
3 结 语
以上对动作识别和行为理解的现状做了简要的综述, 但就建立能在复杂的现实世界中提供有效服
务的计算机视觉系统而言, 还缺少了两个关键的部分, 这就是:(1) 如何从复杂的现场背景下快速, 可靠地检测和识别人体(物体) 。物体在现实世界中的位置和光照情况多种多样甚至还有遮挡, 但人类还是能在混乱的场景中快速地检测和识别各种物体。这是目前的机器视觉远未达到的能力。视觉认知, 计算机视觉和认知神经科学的文献中有很多证据说明上下境信息极大地影响搜索和识别物体的效率
[45-46]
。上下境的影响是多层次的, 其中包括:语
义层(例如, 桌子与椅子经常出现在同一图像中) ; 空间构造层(例如, 键盘一般是在显示器的下方) ;
姿态层(例如, 椅子通常是朝向桌子; 汽车一般是沿着道路方向停靠) 等。研究还证明空间上下境可为场景预测中可能发生的动作提供有用的线索。总之, 基于上下境的视觉关注机制是解决上述困难的关键; (2) 上下境指导下的行为理解。生活中人[47]
194
a n dS y s t e m s [C ], B e i j i n g , C h i n a , 1997:1334-1341.
中国图象图形学报
2006, 102(1-2) :42-51.
第14卷
11 C r o w l e yJ L , C o u t a z J . C o n t e x t a w a r e o b s e r v a t i o no f h u m a na c t i v i t y ,
m u l t i m e d i aa n de x p o[A ]. I n :Pr o c e e d i n g so fI E E E I n t e r n a t i o n a l C o n f e r e n c eo n I C M E' 02[C], L a u s a n n e , S w i t z e r l a n d , 2002:909-912.
12 P a r k S , K a u t z H . H i e r a r c h i c a l r e c o g n i t i o no f a c t i v i t i e s i nd a i l yl i v i n g
u s i n gm u l t i -s c a l e , m u l t i -p e r s p e c t i v e v i s i o n a n d R F I D[A]. I n :P r o c e e d i n g s o f 4t h I n t e r n a t i o n a l C o n f e r e n c e o n I n t e l l i g e n t E n v i r o n m e n t s [C ], S e a t t l e , WA , U S A , 2008:1-4.
13 W a r d J A , L u k o w i c z P , T r o s t e r G , e t a l . A c t i v i t y r e c o g n i t i o no f a s s e m b l y
t a s k s u s i n gb o d y -w o r nm i c r o p h o n e sa n da c c e l e r o m e t e r s [J ]. I E E E T r a n s a c t i o n s o nP a t t e r nA n a l y s i sa n dM a c h i n eI n t e l l i g e n c e , 2006, 28(10) :1553-1567.
14 Y i nJ , Y a n gQ , P a nJ J . S e n s o r -b a s e da b n o r m a l h u m a n -a c t i v i t y
d e t e c t i o n[J ]. I E E E T r a n s a c t i o n s o n K n o w l e d g e a n d D a t a E n g i n e e r i n g , 2008, 20(8) :1082-1090.
15 Y a n g SI , C h o SB . R e c o g n i z i n g h u m a na c t i v i t i e s f r o m a c c e l e r o m e t e r
a n dp h y s i o l o g i c a l s e n s o r s [A ]. I n :P r o c e e d i n g s o f I E E EI n t e r n a t i o n a l C o n f e r e n c eo n M u l t i -s e n s o rF u s i o n a n d I n t e g r a t i o n f o rI n t e l l i g e n t S y s t e m s [C ], S e o u l , K o r e a , 2008:100-105.
16 P u r w a r A , J e o n g DU , C h u n g W Y . A c t i v i t y m o n i t o r i n g f r o mr e a l -t i m e
t r i -a x i a l a c c e l e r o m e t e r d a t a u s i n g S e n s o r n e t w o r k [A ].I n :P r o c e e d i n g s o f I n t e r n a t i o n a l C o n f e r e n c eo nC o n t r o l , A u t o m a t i o na n d S y s t e m s [C ], S e o u l , K o r e a , 2007:2402-2406.
17 C a m p b e l l L W, B e c k e rD A , A z a r b a y e j a n iA , e ta l .I n v a r i a n t
f e a t u r e s f o r 3D g e s t u r e r e c o g n i t i o n [A ].I n :P r o c e e d i n g s o f I n t e r n a t i o n a l C o n f e r e n c e o n A u t o m a t i cF a c e a n dG e s t u r e R e c o g n i t i o n [C ], K i l l i n g t o n , V e r m o n t , U S A , 1996:157-162.
18 J i nN , M o k h t a r i a nF .I m a g e -b a s e ds h a p em o d e l f o r v i e w -i n v a r i a n t
h u m a nm o t i o n r e c o g n i t i o n [A ].I n :Pr o c e e d i n g s o f I E E EC o n f e r e n c e o nA d v a n c e dV i d e oa n dS i g n a l B a s e dS u r v e i l l a n c e [C ], L o n d o n , U K , 2007:336-341.
19 L i u CD , C h u u g PC , C h u n g YN . H u m a n h o m e b e h a v i o r i n t e r p r e t a t i o n
f r o m v i d e o s t r e a m s [A]. I n :P r o c e e d i n g s o ft h e 2004I E E E I n t e r n a t i o n a l C o n f e r e n c eo nN e t w o r k i n g , S e n s i n g &C o n t r o l [C ], T a i p e i , T a i w a n , C h i n a , 2004:192-197.
20 N i e b l e s JC , Wa n gH C , L i FF . U n s u p e r v i s e dl e a r n i n go f h u m a n
a c t i o n c a t e g o r i e s u s i n g s p a t i a l -t e m p o r a lw o r d s [J ]. I n t e r n a t i o n a l J o u r n a l o f C o m p u t e r V i s i o n , 2008, 79(3) :299-318.
21 C h u n g PC , L i u CD . Ad a i l y b e h a v i o r e n a b l e d h i d d e n M a r k o v m o d e l
f o r h u m a nb e h a v i o r u n d e r s t a n d i n g[J ]. P a t t e r nR e c o g n i t i o n , 2008, 41(5) :1572-1580.
22 R o b e r t s o nN , R e i dI . B e h a v i o r u n d e r s t a n d i n gi nv i d e o :aco m b i n e d
m e t h o d[A ]. I n :Pr o c e e d i n g so f I E E E I n t e r n a t i o n a l C o n f e r e n c eo n C o m p u t e r V i s i o n [C ], B e i j i n g , C h i n a , 2005:808-815.
23 T u r a g a PK , V e e r a r a g h a v a nA , C h e l l a p p aR . F r o mv i d e o s t ov e r b s :
m i n i n gv i d e o sf o ra c t i v i t i e su s i n gac a s c a d eo fd y n a m i c a l s y s t e m s [A ].I n :P r o c e e d i n g s o f C o n f e r e n c e o nC o m p u t e r V i s i o na n dP a t t e r n R e c o g n i t i o n [C ], M i n n e a p o l i s , M i n n e s o t a , U S A , 2007:1-8. 24 T a b b o n e S , W e n d l i n g L , S a l m o nJ P . An e ws h a p e d e s c r i p t o r d e f i n e do n
s m [J ]o m p u t e r i s i o na n d e r s t a n d i n ,
25 Wa n g Y , H u a n g K , T a n TN . A b n o r m a l a c t i v i t yr e c o g n i t i o ni no f f i c e
b a s e d o n Rt r a n s f o r m [A ].In :Pr o c e e d i n g s o f I E E EC o n f e r e n c eo n I m a g e P r o c e s s i n g [C ], S a nA n t o n i o , T X , U S A , 2007:I-341-344. 26 K i mK , M e d i o n i GG .D i s t r i b u t e dv i s u a l p r o c e s s i n gf o r ah o m ev i s u a l
s e n s o r n e t w o r k [A ].I n :P r o c e e d i n g s o f I E E EW o r k s h o po nA p p l i c a t i o n s o f C o m p u t e r V i s i o n [C ], C o p p e r M o u n t a i n , C o l o r a d o , U S A , 2008:1-6.
27 WuJ X , O s u n t o g u nA , C h o u d h u r yT , e t a l . A s c a l a b l ea p p r o a c ht o
a c t i v i t y r e c o g n i t i o nb a s e d o n o b j e c t u s e [A ]. I n :P r o c e e d i n g s o f I E E E I n t e r n a t i o n a l C o n f e r e n c eo nC o m p u t e r V i s i o n [C ], B e i j i n g , C h i n a , 2007:1-8.
28 Wa n gS , P e n t n e yW, C h o u d h u r yT . C o m m o nS e n s eb a s e dj o i n t
t r a i n i n go f h u m a na c t i v i t yr e c o g n i z e r s[A ]. I n :Pr o c e e d i n g so f t h e 20t hI n t e r n a t i o n a l J o i n tC o n f e r e n c eo nA r t i f i c i a lI n t e l l i g e n c e [C ], H y d e r a b a d , I n d i a , 2007:2237-2242.
29 D u o n g TV , B u i H H , P h u n gDQ , e t a l . A c t i v i t yr e c o g n i t i o na n d
a b n o r m a l i t y d e t e c t i o nw i t ht h es w i t c h i n g h i d d e ns e m i -M a r k o vm o d e l [A ]. I n :Pr o c e e d i n g so fI E E E C o m p u t e rS o c i e t y C o n f e r e n c eo n C o m p u t e r V i s i o na n d P a t t e r nR e c o g n i t i o n [C ], S a nD i e g o , C A , U S A , 2005:838-845.
30 N g u y e nN T , P h u n gD Q , V e n k a t e s hS . L e a r n i n ga n dd e t e c t i n g
a c t i v i t i e sf r o m m o v e m e n tt r a j e c t o r i e su s i n gt h eh i e r a r c h i c a l h i d d e n m a r k o vm o d e l[A]. I n :P r o c e e d i n g so fI E E E C o m p u t e rS o c i e t y C o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n [C ], S a n D i e g o , C A , U S A , 2005:955-960.
31 Ma h a j a nD , K w a t r aN , J a i nS , e t a l . Af r a m e w o r kf o r a c t i v i t y
r e c o g n i t i o na n dd e t e c t i o n o f u n u s u a l a c t i v i t i e s [A ].I n :Pr o c e e d i n g s o f I n d i a nC o n f e r e n c eo nC o m p u t e r V i s i o n , G r a p h i c s , I m a g eP r o c e s s i n g [C ], K o l k a t a , I n d i a , 2004:37-42.
32 D o l l a rP , R a b a u dV , C o t t r e l l G , e ta l . B e h a v i o rr e c o g n i t i o nv i a
s p a r s e s p a t i o -t e m p o r a l f e a t u r e s[A ]. I n :Pr o c e e d i n g so f 2n dJ o i n t I E E EI n t e r n a t i o n a l Wo r k s h o p o n V i s u a l S u r v e i l l a n c e a n d P e r f o r m a n c e E v a l u a t i o n o f T r a c k i n g a n d S u r v e i l l a n c e [C ], B e i j i n g , C h i n a , 2005:65-72.
33 L i uCD , C h u u g P C , C h u n g YN . H u m a n h o m e b e h a v i o r i n t e r p r e t a t i o n
f r o m v i d e o s t r e a m s[A ]. I n :P r o c e e d i n g so fI E E E I n t e r n a t i o n a l C o n f e r e n c e o nN e t w o r k i n g , S e n s i n g &C o n t r o l [C ], T a i p e i , C h i n a , 2004:192-197.
34 X uG , M aY F , Z h a n gH J , e t a l . M o t i o nb a s e de v e n t r e c o g n i t i o n
u s i n g H M M[A ]. I n :Pr o c e e d i n g so f I E E EI n t e r n a t i o n a l C o n f e r e n c e o nP a t t e r nR e c o g n i t i o n [C ], Q u e b e c , C a n a d a , 2002:831-834. 35 S u nXD , C h e nCW, M a n j u n a t hBS . P r o b a b i l i s t i c m o t i o np a r a m e t e r
m o d e l sf o rh u m a n a c t i v i t yr e c o g n i t i o n [A]. I n :P r o c e e d i n g s o f I n t e r n a t i o n a lC o n f e r e n c e o n P a t t e r n R e c o g n i t i o n[C], C a n a d a , 2002:443-446.
36 B r a n d M, O l i v e r N , P e n t l a n dA . C o u p l e dh i d d e nM a r k o vm o d e l s f o r
c o m p l e xa c t i o n r e c o g n i t i o n[A ]. I n :P r o c e e d i n g so fI n t e r n a t i o n a l C o n f e r e n c e o nC o m p u t e r V i s i o na n dP a t t e r n R e c o g n i t i o n [C ], P u e r t o R i c o , 1997:994-999.
, i n a i c
Q u e b e c ,
第2期徐光祐等:动作识别与行为理解综述
195
g e s t u r e [A]. I n :P r o c e e d i n g s o fI n t e r n a t i o n a l C o n f e r e n c e o n C o m p u t e r V i s i o n [C ], B o m b a y , I n d i a , 1998:329-336.
38 Z h a n g D , G a t i c a -P e r e z D , B e n g i o S , e t a l . M o d e l i n g i n d i v i d u a l g r o u p
a c t i o n s i n m e e t i n g s :a t w o -l a y e r H M Mf r a m e w o r k [A ].I n :P r o c e e d i n g s o f I E E EC V P R W o r k s h o po nD e t e c t i o na n dR e c o g n i t i o n o fE v e n t si n V i d e o [C ], Wa s h i n g t o n , D C , U S A , 2004:117-125.
39 O l i v i e r N , H o r o v i t z E , G a r g A . L a y e r e d r e p r e s e n t a t i o n s f o r h u m a n
a c t i v i t y r e c o g n i t i o n [A]. I n :P r o c e e d i n g so fI E E E I n t e r n a t i o n a l C o n f e r e n c eo n M u l t i m o d a lI n t e r f a c e s [C ], P i t t s b u r g h , P A , U S A , 2002:3-8.
40 L u o Y , Wu TD , H w a n g J N . O b j e c t -b a s e d a n a l y s i s a n d i n t e r p r e t a t i o n
o f h u m a n m o t i o n i ns p o r t sv i d e os e q u e n c e sb yd y n a m i cB a y e s i a n n e t w o r k s[J ]. C o m p u t e rV i s i o n a n d I m a g eU n d e r s t a n d i n g , 2003, 92(2-3) :196-216.
41 D u YT , C h e nF , X uW L , e t a l .R e c o g n i z i n gi n t e r a c t i o n a c t i v i t i e s
u s i n g d y n a m i c B a y e s i a n n e t w o r k [A]. I n :P r o c e e d i n g s o f I n t e r n a t i o n a lC o n f e r e n c eo n P a t t e r nR e c o g n i t i o n [C ], N e w Y o r k , U S A , 2006:618-621.
42 B u x t o nH , G o n gSG . A d v a n c e dv i s u a l s u r v e i l l a n c eu s i n gB a y e s i a n
n e t w o r k s[A]. I n :P r o c e e d i n g s o fI n t e r n a t i o n a lC o n f e r e n c e o n C o m p u t e r V i s i o n [C ], B o s t o n , M A , U S A , 1995:111-123.
43 O l i v e r N , H o r v i t z E . Ac o m p a r i s o no f H M M s a n dd y n a m i cB a y e s i a n
n e t w o r k s f o r r e c o g n i z i n g o f f i c e a c t i v i t i e s [A ].I n :P r o c e e d i n g s o f 10t h I n t e r n a t i o n a l C o n f e r e n c eo nU s e rM o d e l i n g [C ], E d i n b u r g h , U K , 2005:199-209.
44 S m i n c h i s e s c uC , K a n a u j i aA , M e t a x a sD . C o n d i t i o n a l m o d e l sf o r
c o n t e x t u a l h u m a n m o t i o n r e c o g n i t i o n [J ]. C o m p u t e rV i s i o n a n d I m a g e U n d e r s t a n d i n g , 2006, 104(2-3) :210-220.
45 O l i v a 1A , T o r r a l b a A .T h e r o l eo f c o n t e x t i no b j e c t r e c o g n i t i o n [J ].
T r e n d s i nC o g n i t i v e S c i e n c e s , 2007, 11(12) :520-527.
46 T o r r a l bA . C o n t e x t u a l p r i m i n gf o r o b j e c t d e t e c t i o n[J ]. I n t e r n a t i o n a l
J o u r n a l o f C o m p u t e r V i s i o n , 2003, 53(2) :169-191.
47 Z i b e t t i E , T i j u s C . P e r c e i v i n g a c t i o nf r o m s t a t i ci m a g e s :Th er o l eo f
s p a t i a l c o n t e x t [J ].L e c t u r e N o t e s i n C o m p u t e r S c i e n c e , 2003, 2680:397-410.