关于人机交互技术的综合研究报告
关于人机交互的综合研究报告
张玉 刘珊珊 武明 吴丽艳 梁媛媛 张文静
(济南大学 信息科学与工程学院计0903班)
摘要 人机交互是研究人与计算机之间通过相互理解的交流与通信,在最大程度上为人们完成信息管理,服务和处理等功能的一门技术科学。本文对人机交互中有关情感、手势和人脸识别的技术进行了概要介绍与叙述并且阐述可一些对人机交互的认知与理解。在更深入了解人机交互知识的过程中我们也可以看到人机交互技术的广阔发展前景。
关键词: 人机交互的认知 人机交互 情感 手势 人脸识别 引言
机交互(Human-Computer Interaction, 简写HCI ):是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。人机交互技术的发展与国民经济发展有着直接的联系,中手机的发展和多媒体电脑给社会带来的效益就可以看到.未来新一代具有自然人机交互功能的随身电脑,将成为所有 专业和普通人群生活,学习,工作的必备助手和工具,并对改变社会生活与工作的模式起到深远的影响。正是这个原因,世界各国信息领域的学者和企业巨头都部署了发展新一代人机交互领域的中长期发展计划。着人机交互技术的发展,人们越来越关注这一门科学,通过本文的综述,读者可以对人机交互技术的几个方面进行概括性了解。
1. 关于人机交互的认知
ACM 图灵奖1992年获得者、微软研究院软件总工程师Butler Lampson 在题为“二十一世纪的计算研究”报告中[1]指出“计算机有三个作用:第一是模拟;第二是计算机可以帮助人们进行通信;第三个是互动,也就是与实际世界的交流”;“人们希望计算机能够看、听、讲,甚至比人做得更好,并能够进行实时处理”。关于对人机交互的认知,要从认知心理学开始说起,认知心理学研究的是人们如何获得外部世界信息,信息在人脑内如何表示并转化为知识,而知识是怎样存储的又如何用来指导人们的注意和行。认知心理学涉及心理活动的全部过程——从感觉到知觉、识别、注意、学习、记忆、概念的形成、思维、表象、回忆、语言、情绪和发展过程。认知有很多个过程,包括感知、关注、记忆、学习、识别、 阅读、说话和聆听、规划、推理和决策等。
感知和认知:人的感知是通过人体器官和组织进行人与外部世界的信息的交流和传递;而认知是人们在进行日常活动时发生于头脑中的事情,它涉及思维、记忆、学习、幻想、决策、看、读、写和交谈等。感知和认知又是密切关系不可分开独立存在的,人的感知是认知的基础,认知是将感知获取的信息综合运用。
认知过程与交互原则:许多认知过程是相互依赖的,一个活动可同时涉及多个不同的过程,只涉及一个过程的情况非常罕见,例如人们在选购商品时就涉及关注、感知、识别、说话、思考、决策等过程。 由人的关注特点,在设计人机交互界面时应做到。信息的显示应醒目,以便执行任务时使用,可使用动画图形、彩色、下划线,对条目及不
同的信息进行排序,在条目之间使用间隔符等。避免在界面上安排过多的信息。尤其要谨慎使用色彩、声音和图像,人们倾向于使用过多的这类表示,而导致界面混杂,分散用户的注意力,让用户反感。朴实的界面更容易使用。 在人机交互的发展中,一大批专家为此做出了卓越的贡献.:(1)1945年,美国罗斯福总统的科学顾问Bush (1894~1974) 在《大西洋月刊》上发表的“a5 we maythink ”的著名论文[2],提出了虚采用设备或技术米帮助科学家检索、记录、分析及传输各种信息的新思路和名为“Memex ”的一种工作站构想,影响着一大批最著名计算机科学家.
2. 关于情感
情感在人类的认识和人机交互中起着关键性的作用.具有情感能力的计算机就是让计算机能够在和人类相处时更有智能、更为敏感和更为和谐和亲切。随着计算和通信技术的广泛应用, 人机和谐技术将会以多种方式出现。举例来说, 它就可以通过理解你所说的话语、你的面部表情、你的手势甚至你走路的姿态, 知道你想要做的事情。如果技术再先进一点, 计算机还能够意识到你所处的情境, 譬如你在打电话, 它就会自动调低电视机音量。此外, 它还能够对你进行识别, 记住你所喜欢的频道和你想录制的节目。
[3] 情感是一种内部的主观体验,但总是伴随着某种外部表情。面部表情不仅是人们常用的较自然的表现情感的方式,也是人们鉴别情感的主要外部标志。例如,愉快时额眉平展、面颊上提、嘴角上翘,而悲伤时额眉紧锁、嘴角下拉。使用特定的仪器可以对面部的
微小表情变化进行研究,甚至可以区分真笑和假笑。
情感计算机是能够听、看和随时感知使用者需要的计算系统。 情感计算(Affective Computting )就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。
基本情感,比如喜悦、愤怒、忧伤、惊奇、厌恶、不紧张、紧张 语音情感识别:语音情感分析是情感识别的一种方式。
其它情感识别手段:
. 面部情感识别
. 肢体情感识别
. 生理情感识别
语音情感识别系统结构
语音情感识别过程:对语音信号根据需要进行预处理,
1. 提取跟情感相关特征信息,
2. 根据这些特征进行分类,
3. 最后得出识别结果
语音情感特征:国际上对情感语音的研究主要侧重于情感的声学特征的分析这一方面。
一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。例如,当一个人发怒的时候,讲话的速率会变快,音量会变大,音调会变高等,同时一些音素特征(共振峰、声道截面函数等)也能反映情感的变化。中国在人机交互语音方面的研究也已经有一些很好的研究成果并已经应用于实际市场之中[4]。1999年,在国家智能计算机研究开发中心、中国科技大学人机语音通信实验室的基础上组建了科大讯飞公司,技术上更着眼于合成语音的自然度、可懂度和音质,设计了基于L /VIA 声道模型的语音合成器、基于数字串的韵律规则分层构造、基于听感量化的语音库,以及基于汉字音、形、义相结合的音韵码等,先后研制成功音色和自然度更高的KD863及KD2000中文语音合成系统.其语音产品在主流市场有较高占有率,并牵头制定中文语音标准,是具有国际先进水平的汉语语音合成技术"J .语音情感特征参数。
研究发现,基音是语音情感识别中最重要的特征,其次是语音的能量,然后才是发音持续时间、发音速率等其它声学参数。 汉语情感语音中特征参数变化情况
识别方法:识别方法种类繁多,如K 最近邻方法、支持向量机、人工神经网络、高斯混合模型、隐马尔可夫模型等。许多学者针对这些情感语音的特征,比较了不同的分类方法能够达到的不同效果,人工神经网络、主元分析法,GMM 方法等效果较好
总结:情感计算是一个多学科交叉的崭新的研究领域。这包括传感器技术、计算机科学、认知科学、心理学、行为学、生理学、医学、哲学、社会学等。情感计算的最终目标是赋予计算机类似于人一样,并能够被人所控制的情感能力。要达到这个目标,有许多基本科学问题有待解决,并具有很大的难度。另一方面,新世纪之中人类对自身的研究将成为科学探索的重点。情感作为人们心理活动的主要内容之一,存在许多待解之迷。可以认为,围绕情感计算产生的科学突破将对我们人类生活质量产生重大影响。
3 手势识别
3.1手势识别的概念模型(Concep t model forgesture recognition)
手势是指在人的意识支配下, 人手作出的各类动作, 如手指弯曲、伸展和手在空间的运动等, 可以是执行某项任务, 也可以是与人的交流, 总之都表达某种含义或意图。基于手势识别的三维交互输入技术。目前常用的有基于数据手套的手势识别和基于视觉(如摄像机) 的手势识别。
手势不但由骨胳肌肉驱动, 而且还受人的信念、意识的驱使, 它涉及到人的思维活动的高级行为. 从用户产生手势到系统“感知”手势的过程如图1 所示
.
手的运动是手势的表现形式. 用户的操作意图是用户要完成任务的内容, 即用户心理活动(概念手势)G , 经过运动控制(变换) , 用手势运动H 表达. 经由感受设备(变换T hi) 将手的运动H 变换为系统的输入信息I , 所以从G 到I 的映射过程为:T g h: G → H , 即H C T g h (G)
T hi: H → I , 即I C T hi (H ) T g i: G → I , 即I C T hi (T g h (G) ) C T g i (G)其中: T g h为人体运动控制传送函数; T hi为输入设备传送函数. 手势识别的任务就是从系统输入I 推断、确定
用户意图G , 显然是以上映射的逆过程, 即
3.2 手势识别方法的发展
最初的手势识别研究主要集中在做一种专用硬件设备来进行输入。例如数据手套, 即人可以戴上一个类似于手套的传感器, 计算机通过它可以获取手的位置、手指的伸展状况等丰富信息。例如CMU 的
Christopher Lee 和Xu 1995 年完成了一个操纵机器人的手势控制系统。之后人们又致力于标记手势的研究, 即通过在手上作标记。例如J . Davis 和M. Shah 将戴上指具有高亮标记的视觉手套的手势作为系统的输入, 可识别7 种手势。这虽然给识别带来了方便, 但也给操作者带来了麻烦。最后人们把注意力集中到自然手上, 一些研究者成功地研制了手势系统, 但其识别的手势仅限几种。近几年又提出了动态复杂背景中手势目标的捕获与识别方法。如清华大学的祝远新、徐光 等给出了一种基于视觉的动态孤立手势识别技术, 后他们又提出动态时空规整算法用于手势识别, 对12 种手势, 平均识别率高达97 %。
3.3 手势的建模与输入(Gesture modelling and input)
手势的语法信息是通过手的构形、手的运动变化来传递. 人手是一个多肢节系统, 随着关节的运动, 手的形状在不断变化, 这种变化可以通过指段和关节的状态空间位置的变化来描述, 即建立手的几何模型和运动学模型. 从目前的有关资料来看, 几乎所有的手势建模方法都可归纳为基于表观的手势建模和基于3D 模型的手势建模. 而手势的输入方式有基于数据手套的手势输入和基于视觉(摄象机) 的手势输入。
3.3. 1 基于数据手套的手势输入
基于数据手套的手势识别是采用3D 手势模型的建模方法. 从手结构及其运动分析可知, 除大拇指具有五个自由度外, 其它手指都只具有四个自由度, 手掌的前后左右运动有二个自由度, 所以手运动总共具有23 个自由度. 整个手可以以手掌为基础链接五个手指, 各
手指的指段依次链接, 每条链可以获取四个参数. 从而五个手指以手掌为根节点构成一个树型结构, 树中的每一个节点代表一个关节, 关节通过指段具有相互关联的运动特性. 所以在手势合成系统中, 手运动的一个手势需要确定23 个参数. 我们开发的系统是使用5DT 公司生产的不带位置跟踪器的5th Glove 右手数据手套, 每个手指的中间关节处有一个传感器用于测量手指的平均屈伸度, 以获得手指弯曲和手的位置. 在手腕部位还有一个2 轴倾斜传感器测量手的转动(Z 轴) 和倾斜(X轴) 角度, 以探测手的上下摆动和旋转. 所以5thGlove 仅带有七个传感器, 同一时刻只能读出七个角度值.
3.3. 2 基于视觉的手势输入
我们正在开发的基于视觉的手势识别系统, 采用基于表观的手势建模方法, 然后对输入的手势进行特征检测等手势分析. 即通过摄象机捕获手势图象, 再利用计算机视觉技术对捕获的图象进行分析, 提取手势图象特征, 重建三维模型来构建手势图象, 调节模型参数如手指弯曲角度的夹角等, 以合成手的三维图形, 从而实现手势的输入, 根据手生成的图形和已获得的手图象匹配, 得到的模型参数就构成了手势.
虽然, 基于单摄象机在复杂背景下实时识别多种手势是手势识别的发展方向[ 11 ] , 我们的研究还是根据Kroeger 采用两个摄象机实现获取手势的方法. 它通过用户的手在3D 空间中完成交互. 两个镜子放在与前平面成450°角的位置上, 代替单个镜子产生一个虚拟视点, 加上两垂直平面上的两个摄象机共三个视点相交成直角, 以
提供给用户一个确定的工作空间, 在这个空间内用户可与计算机交互.
3.4 手势识别的技术难点
尽管已经实现了大词汇量的手势识别系统, 但手势识别仍然面临许多挑战性课题, 如手势不变特征的提取、手势之间的过渡模型、手语识别的最小识别基元、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。其技术难点有以下两点 :
1) 手势目标检测的困难。
目标的检测是指在复杂的背景条件下从图像流中截取出目标来, 也就是把人们感兴趣的目标提取出来。在基于单目视觉的手势识别方法中, 把图像中的人手区域与其它背景区域划分开来始终是一个难点, 这主要是由于背景各种各样、环境因素也不可预见, 所以实现起来困难重重, 非常复杂。
2) 手势目标识别的困难。
手势识别是根据人手的姿态以及变化过程来解释其高层次的含义, 提取出具有几何不变性的特征是其关键技术。手势具有以下特点:
(1) 手是弹性物体, 故同一种手势之间差别很大, 而且有很多不同手势它们之间很相似。人手有二十多个自由度, 因而运动起来十分灵活、复杂。因此, 同样的手势不同的人做出手势的运动也会存在差别, 同一个人在不同的时间、地点做出的手势也不一样, 如图1
图3 两组不同手势的比较
(2) 手有大量冗余信息, 由于人识别手势关键是识别手指特征, 故手掌特征是冗余信息。
(3) 手的位置是在三维空间向二维的投影, 因此投影方向非常关键。
(4) 由于手的表面是非光滑的, 因此易产生阴影。由于手势的这些特点, 上面两个问题目前还没有很好解决, 具体实现时必须加一定的限制条件。
3.5 结论(Conclusion)
手势识别是VR 中三维人机交互输入的技术, 它具有广阔的运用
前景, 国内外都有学者在进行研究. 自95 年以来, 我们对手运动模型进行了分析和研究, 采用VC+ + 、VR 函数工具库W TK编程, 设计了一个根据5th Glove 数据手套输入手势, 实现的一个虚拟手在虚拟环境中飞行、抓取、释放等的三维交互操作系统, 取得了较好的效果. 并分别采用BP 神经网络[ 7 ]和模糊神经网络方法识别手势. 从实验结果来看, 后者比前者收敛速度更快, 识别能力更强.
目前我们正在尝试从摄象机获得手势并进行识别的研究.
1. 人脸识别
进入21世纪,随着计算机技术和人工智能技术及其相关学科的迅猛发展,整个社会的自动化程度不断提高,人们对类似于人和人交流方式的人机交互的需求日益强烈。在人们面与面的交流过程中,面部表情和其他的手势能够传达非语言的交流信息,这些信息能够作为语音的辅助帮助听者推断出说话人的意图。因此,面部表情作为一种刻画情绪、认知、主体状态的方法,其携带的信息含有丰富的个体行为信息,是与人类情感、精神状态、健康状态等诸多因素相关的一种复杂的表达方式,实现计算机对人脸表情的理解与识别将从根本上改变人与计算机的关系,对于自然和谐的人机接口目标的实现,具有相当重要的意义。
[5]:In this paper, a novel video-based multimodal biometric verification scheme using the subspace-based
low-level feature fusion of face and speech is developed for specific speaker recognition for perceptual human–computer
interaction (HCI). In the proposed scheme, human face is tracked and face pose is estimated to weight the detected facelike regions in successive frames, where ill-posed faces and false-positive detections are assigned with lower credit to enhance the accuracy. In the audio modality, mel-frequency cepstral coefficients are extracted for voice-based biometric verification. In the fusion step, features from both modalities are projected into nonlinear Laplacian Eigenmap subspace for multimodal speaker recognition and combined at low level. The proposed approach is tested on the video database of ten human subjects, and the results show that the proposed scheme can attain better accuracy in comparison with the conventional multimodal fusion using latent semantic analysis as well as the single-modality verifications. The experiment on MATLAB shows the potential of the proposed scheme to attain the real-time performance for perceptual HCI applications.
摘要2:人脸表情识别有着广泛的应用前景,逐渐成为当前人机交互领域的研究热点之一表情识别是智能化和自然的人机交互的本质实现自然和谐的人机交互,必须使计算机能够有效地理解人的情感和意图目前与表情分析识别相关的研究主要集中在生理学、心理学和认知科学等领域迫切需要开展对人脸表情的自动分类方法的研究,这项
研究不仅对人机交互有十分重要的意义,而且在计算机辅助的训练及远程教育等众多领域都具有潜在的应用价值 本文的研究工作是基于人脸的几何特征进行眼睛、眉毛定位以及表情分析与识别的,主要进行了以下四个方面的研究,取得了一定的研究成果 1在人脸表情原图像的预处理过程中,为防止出现一些小的断点产生不利的影响进行了一定断点连接,提出了基于连通区域的探针法进行上边缘的提取,在对上边缘进行编号记录时对邻接点的范围进行了扩展,提出了扩展六邻域的方法来寻找同一边缘上的点,实验表明本文所提出的方法有效地对断点进行了连接 2本文结合眼睛、眉毛之间的几何特征约束,提出了基于上边缘相邻四端点的方法进行眉毛和眼睛上边缘的精确定位 3本文利用以下几个特征对人脸表情的变化进行刻画,眉毛、眼睛的两端点间的斜率、中点到两端点所在直线的距离、嘴巴的上下嘴唇与嘴角间的张角以及上下嘴唇的距离与左右嘴角的距离之间的比值,本文对以上特征数据进行了提取 4本文提出了一种新的多维特征数据权重函数用于构造各维表情数据的权值,该函数对人脸表情的各维特征数据进行了离散化,增加它们的区分度,此结果已用于人脸表情识别系统中。 表情识别结果表明, 对多类表情进行识别是可行的. 多类表情识别对于人机交互中的多种情感识别是有利的. 本文的表情分类器还未达到很高的识别率, 可以通过对姿势进行归一化, 选择更 好的分类器以及结合面部运动编码、模糊理论、信息融合等, 以达到更好的识别效果.
论文名字:几何特征模式识别人脸表情识别人机交互
单位:云南师范大学
总结:面部表情识别是人机交互与信息处理领域中的一个重要课题,因其具有较强的应用潜力和学术价值,近年来越来越受到研究者的关注,成为研究的热点。研究是建立在静态面部表情图像的基础上,以表情识别的难点和关键技术—特征提取为研究的出发点,讨论了两种不同的特征提取方法对表情识别率的影响。目前的人脸面部表情识别大多采用人脸识别的方法,然而表情识别有其特殊性,并不是所有人脸识别的方法都能在表情识别中取得很好的效果。因此,针对表情识别对纹路细节敏感的特点研究和探索更好地方法是非常有必要地。人脸表情识别是情感计算和人机交互的重要研究领域. 而高质量的表情数据库对该领域的发展有着至关重要的作用。
2. 总结
本论文通过对人机交互的基本认识的了解,关于人机交互的较为深入浅出的分析和论述,让我们对人机交互这门学科有一个更深入的学习。
(1)情感在人类的认识和人机交互中起着关键性的作用,具有感情能力的计算机就是让计算机能够在和人类相处时更有智能、更为敏感和更为和谐、亲切。请过你计算是一个多学科交叉的崭新的研究领域。着包括传感器技术、计算机科学、认知科学、心理学、行为学、生理学、医学、哲学、社会学等。感情计算的最终目标是富裕计算机类似于人一样,并能够被人所控制的情感能力。要达到这个目标,有许多基于科学问题有待解决,并具有很大的难度。另一方面,新世纪
之中的人类对自身的研究将成为科学探索的重点。情感作为人们心理活动的主要内容之一,存在许多待解之谜。可以认为,围绕情感计算的科学突破将对我们人类生活质量产生重大影响。
(2)手型有两种建模方式:基于三维的建模和基于图像的建模,前者有强大的表达能力,几乎能够表达所有的手型,但是缺乏效率。后者简单高效,但是缺乏通用性。手势与人脸在虚拟环境中可以起到互补的作用,他们的综合利用在人机交互系统中产生深远的影响。
(3)人脸表情识别领域中,在某些方面已经取得可喜的成绩,但是人类的表情识别及感情能力相比,仍有很大的差距主要表现在对精细表情的识别及感情理解能力不足、表情识别的鲁棒性差等。在未来的人机交互中,感情将是不可忽视的因素,而表情又是感情交流的门户,表情识别必将在感情化人机交互中占有重要的地位。 参考文献( References)
1 Institute of Computing Technology, Chinese Academy of Sciences. Multi-functional Perception .http://www.ict.ac. cn/kexue/xm1. htm,2003(in Chinese)(中国科学院计算技术研究所. 多功能感知技术 .http://www. ict. ac. cn/kexue/xm1. htm, 2003
2 Iflytek Company . http://www.iflytek.com, 2003 (in Chinese)(安徽中科大讯飞信息科技有限公司.http:∥www.iflytek.com/,2003
3 傅小兰 . 情感计算与人机交互的情感特征 . [期刊论文] 中国社会科学院报
4 Stary C Contextual prototyping of user interfaces[外文会议] 2000
5 Jiang, R. M. IEEE transactions on systems, man and cybernetics. Part C, Applications and reviews EI SCI 2010, 40(6)