模式识别认知理论导引
十种模式识别认知理论简介导引
人们在认知景物时,常常寻找它与其它事物的相同与不同之处,根据使用目的进行分类,人脑的这种思维能力就构成了模式和识别的能力。
所谓模式,是指若干元素或成分按一定关系形成某种刺激结构,也可以说模式是刺激的组合。当人们能够确认他所知觉的某个模式是什么时,将它与其他模式区分开来,这就是模式识别。
例如,有人想把一大批图片分成人物、动物、风景、建筑物、其他等五种类型分别保管,上述五种类型就是五个类别,也就是五个不同的模式,分类的过程叫做模式识别。
模式有简有繁,繁杂的模式往往是由多个子模式组成。认知心理学家西蒙认为:“人们在解决数学问题时,大多数是通过模式识别来解决的,首先要识别眼前的问题属于哪一类,然后以此为索引在记忆储存中提取相应的知识,这就是模式识别。
我们之所以关心模式识别认知理论,是因为它是建立图像(景物)理解数学模型的思想源泉。
例如 :
传统的模式识别理论有人把它分为五类:模板匹配模式;原型匹配模式;特征分析模式;结构描述模式;傅里叶模式。现在图像理解中主要的数学处理方法,几乎都是源于五种传统模式识别理论而建立的,或是基于它们的变形。
近二十多年来新提出的模式识别理论有人把它分为五种:视觉计算理论;注意的特征整合理论;成分识别理论;相互作用激活理论;视觉拓扑理论。其中,马尔(Marr )的视觉计算理论是当前计算机(机器人)视觉的主流理论。其它的理论,也被众多探索者们作为创新的源泉。
然而,无论上述那一种模式识别理论,都存在着或多或少的片面性,迄今为止尚未形成一个较具有说服力的、普遍认可的模式识别理论。这正是制约图像识别(计算机视觉)数学模型发展的根本所在。
下面我们将各种模式识别理论分别介绍之。
模板匹配模式(传统模式识别之一)
这个模型最早是针对机器的模式识别而提出来的,后来被用来解释人的模式识别。
它的核心思想是认为在人的长时记忆中,贮存着许多各式各样的过去在生活中形成的外部模式的袖珍复本。这些袖珍复本即称作模板(Template ),它们与外部的模式有一对一的对应关系;当一个刺激作用于人的感官时,刺激信息得到编码并与已贮存的各种模板进行比较,然后作出决定,看哪一个模板与刺激有最佳的匹配,就把这个刺激确认为与那个模板相同。这样,模式就得到识别了。由于每个模板都与一定的意义及其他的信息相联系,受到识别的模式便得到解释或其他的加工。例如,当我们看一个字母A ,视网膜接收的信息便传到大脑,刺激信息在脑中得到相应的编码,并与记忆中贮存的各式各样的模板进行比较;通过决策过程判定它与模板A 有最佳的匹配,于是字母A 就得到识别;而且我们还可以知道,它是英文字母表中的第一个字母,或是考试得到的最好的分数等等。由此可见,模式识别是一个一系列连续阶段的信息加工过程。
然而现实世界输入视觉系统的景物是复杂的。就拿字符“F”来说,输入“F”字符可能是拉伸的、压缩的、旋转的、歪扭的、断裂的,等等,这使得模板匹配工作变得困难和复杂起来。
主要困难有两个:一是三维景物的匹配;而是集成物体的匹配。
一个圆环可以在三维空间内可以旋转形成上图中图形。不难看出,当物体旋转后会失去一部分信息。此时模板模式对旋转后的图形是判断为椭圆呢?还是圆?
当把一大堆物体,比如几十本书,无规则的放在一起时,面对重叠的物体图像如何进行模板匹配呢? 原型匹配模型(传统模式识别之二)
这个假说可看作是针对模板说的不足而提出来的。原型说的突出特点是,它认为在记忆中贮存的不是与外部模式有一对一关系的模板,而是原型(Prototype )。原型不是某一个特定模式的内部复本。它被看作一类客体的内部表征,即一个类型或范畴的所有个体的概括表征。这种原型反映一类客体具有的基本特征。 例如,人们看到各种不同外形的飞机,而带有两个翅膀的长筒可作为飞机的原型。因此,照原型说看来,在模式识别过程中,外部刺激只需与原型进行比较,而且由于原型是一种概括表征,这种比较不要求严格的准确匹配,而只需近似的匹配即可。当刺激与某一原型有最近似的匹配,即可将该刺激纳入此原型所代表的范畴,从而得到识别。
所以,即使某一范畴的个体之间存在着外形、大小等方面的差异,所有这些个体都可与原型相匹配而得到识别。这就意味着,只要存在相应的原型,新的、不熟悉的模式也是可以识别的。这样,原型匹配模式不仅可以减轻记忆的负担,而且也使人的模式识别更加灵活,更能适应环境的变化。
该模型认为:模式识别的基本过程就是通过将当前刺激与记忆中的有关原型进行匹配,从而获得当前刺激意义的过程。原型不是事物的复本,而是事物概括性特征及其关系。
对于原型匹配模型来说,关键之处在于是否存在这种原型。目前这仍是一个有争议的课题。
另外,原型匹配模型只含有自下而上加工,而没有自上而下加工,这显然是一个缺陷。与模板匹配模型相比,自上而下加工对原型匹配似乎更加重要。
特征分析模式(传统模式识别之三)
前面已经说过,模式是由若干元素或成分按一定关系构成的。这些元素或成分可称为特征,而其关系有时也称为特征。特征说认为,模式可分解为诸特征。
例如,一个大写的英文字母A 可以分解为下列特征(见下图) :两条斜线、一条水平线和3个锐角。这3个锐角实际上表明这些线段的关系,即两条斜线相交和水平线与两条斜线相接。
Lindsay 和Norman (1977)指出,构成所有26个英文字母的特征共有7种,即垂直线、水平线、斜线、直角、锐角、连续曲线和不连续曲线,如F 有一条垂直线、两条水平线和3个直角;P 有与F 一样的特征,外加一条不连续曲线;R 有与P 一样的特征,另有一条斜线,等等。
Gibson (1969)也曾就英文字母的特征提出过类似的看法,但区分出12种特征。
照特征说看来,特征和特征分析在模式识别中起着关键的作用。其认为外部刺激在人的长时记忆中,是以其各种特征来表征的,在模式识别过程中,首先要对刺激的特征进行分析,也即抽取刺激的有关特征,然后将这些抽取的特征加以合并,再与长时记忆中的各种刺激的特征进行比较,一旦获得最佳的匹配,外部刺激就被识别了。这就是一般的特征分析模型。
特征说所强调的特征,不管它在长时记忆中的编码形式是怎样的,其地位和作用看起来类似模板说中的模板。
Anderson (1980)指出,这种特征似可看作微型模板。这个看法是有一定道理的。也许可以说,特征是一种局部的部件模板。但是特征说毕竟不同于模板说,并且具有一定的优点。
首先,依据刺激的特征和关系进行识别,就可以不管刺激的大小、方位等其他细节,避开预加工的困难和负担,使识别有更强的适应性。
其次,同样的特征可以出现在许多不同的模式中,必然要极大地减轻记忆的负担。
第三,由于需要获得刺激的组成成分信息,即抽取必要的特征和关系,再加以综合,才能进行识别,这使模式识别过程可带有更多的学习色彩。这一点看来是极重要的。应当说,特征分析模型是含有较多的学习可能性的。
还可以预料,当不同的模式具有一些共同的特征时,就会使识别发生困难,甚至出现错误,将这些模式混淆起来。在人的实际知觉中,确实常常出现这些情况。这方面的事实也是支持特征说的有力的证据。对此曾进行过有关的实验研究。
特征分析模式是根据图像特征实现视觉再现。该模式首先是从图像中提取特征,而特征是依各种图像而千差万别的。因此特征的提取涉及面很广,与识别对象的各种物理、形态的性能都有关系。垂直线、水平线、曲线、角、交点、孔等都可以作为特征,因此产生了各种各样的特殊方法来抽取特征。均值、方差、信息量、相关系数、绝对值等也可以作为特征,这样就涉及到大量的特征计算。
特征分析模式还有两个难以克服的困难问题:一个是如何选取合理的特征去表示自然界的图像;另一个是如何确定所选特征之间的相互关系。
设想识别一只鸟,这时可以定义鸟的特征是:羽毛、翅膀、尾巴、鸟头和鸟脚。问题是识别羽毛、翅膀、尾巴、鸟头和鸟脚之类并不比识别一只完整的鸟容易。当然也可以将垂直线、水平线、曲线、角和圆作为鸟的特征。问题是这时要选取许许多多这类特征,而这类特征也可以用来描述小狗小猫,更何况至今无人用这类特征去描述自然界的复杂景物。
事实上所选取特征之间的相互关系也是个非常复杂的问题. 特征所处的位置, 特征之间相互形成的走向, 特征与特征的相互干扰等等, 以及阴影、叠合、掩盖等,都会影响视觉识别的最后结果。
特征分析模式在识别字符和简单几何图形中精度高。尤其是识别人脸;生物学的实验说明,人的头脑中存在选择物体的某些特性的专门机构。
傅里叶模式(传统模式识别之四)
傅立叶模式认为,人脑长时记忆存储的是图像形状的傅立叶转换模式, 而不是图像形状的原形。傅立叶变换的实质是将视网膜得到的图像的密度矩阵分解成一定频率上的信号。也就是说,把在真实世界看到的图像通过一个变换而转变到频率空间去,从而可以在频率空间看到原来在真实世界看不到的许多特征,并根据这些特征进行分析与识别。
傅立叶模式的优点是:
当图像在一定范围内变化时,其傅立叶变换后的某些量仍然没有变。图像平移不影响其傅立叶变换的幅度。换句话说,只要知道一个图像的傅立叶变换的幅度,则无论这个图像如何平移,都能根据原来的傅
立叶变换幅度进行这一图像的识别。
当一个图像旋转后,其傅立叶谱的形状没有变,而且傅立叶谱的方向跟着旋转一个相同角度。这样,只要知道一个图像的傅立叶谱,则这一图像无论怎样旋转,都能被同一傅立叶谱识别。
傅立叶模式的另一个优点是实现方便。尤其是快速傅立叶变化,使得计算速度很快。
傅立叶模式存在三个难以克服的困难:
首先是傅立叶变化对整个图像的变换,若图像由若干个部分组成,则经傅立叶变换后的谱不能指出那些谱是对应图像的那一部分。
傅立叶变换的另一个致命问题是:图像的任何一小部分有一个无规则的变动,都会引起傅立叶谱的激烈变化。
第三个问题是找不到一种将傅立叶谱与图像位置相对应的规律。
结构描述模式(传统模式识别之五)
结构描述模式一般用图来表示,图的节点表示图像某一部分或某一特性,图的节点之间用有向线段相联,说明图像各部分或各特性之间的关系。
图像特征可以是亮度、颜色、纹理、大小、取向、形状等等,特征的描述可以是文字的、数字的、也可以是确定的、模糊的。
图像各部分或特性之间的关系可以是包含、邻接、方向、距离等等
结构描述模式有四个优点:
首先是这种描述的图像,一般不容易丢失必要的信息。这些必要的信息包括图像各部分及各部分的特征,还包括这些特征之间的相互关系的信息。
第二个优点是整体的图像可以方便地分成几个部分来描述,分成几个部分来描述后,仍然不丢失整体与部分的信息。
第三个优点是一种结构描述方法可以用于表示一类物体。
第四个优点是结构描述用到的信息可以供进一步推理用。
总之,结构描述模式是个灵活、实用的模式。
结构描述模式的问题:
迄今没有形成完整的理论。对于比较复杂的图像,其特征与关系描述的常常不能确定性,造成了实际应用上的困难。视觉识别的整个心理过程是如何按照结构描述模式进行的,这还是一个需要探讨的问题。 小结:
1. 传统的五种模式都没有认真区分视觉识别的初始阶段与视觉认知整个阶段之间的不同,从而难以考虑如何从视知觉得到的信息进行重构的问题。
2. 五种模式都不太注意所提出的模式所要解决的具体问题,从而对于视觉如何从二维信息得到三维信息的问题没有提出解决方案。
从七十年代以来,随着认知心理学自身的发展,认知心理学关于模式识别的研究在取向上出现了某些
重要的变化。一些认知心理学家继续在物理符号系统假设的基础上进行研究,探讨计算机和人的识别模式的特点;而另一些认知心理学家则转向用神经网络的思想来研究识别模式的问题。下面介绍的一些模型是近十多年来有重要影响的理论模型。
视觉计算理论(computational theory of vision)是在20世纪70年代由马尔(David Marr)提出的。1982发表代表作《视觉计算理论》。
马尔认为,视觉就是要对外部世界的图像(iamge )构成有效的符号描述,它的核心问题是要从图像的结构推导出外部世界的结构。视觉从图像开始,经过一系列的处理和转换,最后达到对外部现实世界的认识。
三个重要概念:
表征(representation ):指能把某些客体或几类信息表达清楚的一种形式化系统,以及说明该系统如何行使其职能的若干规则。使用某一表征描述某一实体所得的结果,就是该实体在这种表征下的一个描述。 处理(process ):是指某种操作,它促使事物的转换。视觉从接收图像到认识一个在空间内排列的、完整的物体,需要经过一系列的表征阶段。从一种表征转换为另一种表征,必须借助于某些处理过程。
零交叉(zero crossing)代表明暗度的不连续变化或突然变化,是形成物体轮廓的基础。对零交叉的检测就是视觉系统对二维表面轮廓或边界的检测。
人和机器的最终目的:了解一个场景或一个图像的意义。马尔把视觉图像的形成划分为三个阶段。阶段如下:
⑴二维基素图(2-D sketch):视觉过程的第一阶段,由输入图像而获得基素图。视觉的这一阶段也称为早期视觉。所谓基素图主要指图像中强度变化剧烈处的位置及其几何分布和组织结构,其中用到的基元包括斑点、端点、边缘片断、有效线段、线段组、曲线组织、边界等。这些基元都是在检测零交叉的基础上产生的。
这一阶段的目的在于把原始二维图像中的重要信息更清楚地表示出来。
⑵ 2.5维要素图:视觉过程的第二阶段,通过符号处理,将线条、点和斑点以不同的方式组织起来而获得2.5维图。视觉过程的这一阶段也称为中期视觉。所谓2.5维图指的是在以观察者为中心的坐标系中,可见表面的法线方向、大致的深度以及它们的不连续轮廓等,其中用到的基元包括可见表面上各点的法线方向、和各点离观察者的距离(深度)、深度上的不连续点、表面法线方向上的不连续点等等。由于2.5维图中包含了深度的信息,因而比二维要多,但还不是真正的三维表示,所以得名2.5维图。
视觉的这一阶段,按马尔的理论,是由一系列相对独立的处理模块组成的。这些处理模块包括:体现、运动、由表面明暗恢复形状、由表面轮廓线恢复形状、由表面纹理恢复形状等。它的作用是揭示一个图像的表面特征。马尔声称,早期视觉加工的目标就是要建立一个2.5维的要素图,这是把一个表面解释为一个特定的物体或一组物体之前的最后一步。
⑶三维模型表征(3-D model representation):视觉过程的第三阶段,由输入图像、基素图、2.5维图而
获得物体的三维表示。视觉过程的这一阶段,也称为后期视觉。所谓物体的三维表示指的是在以物体为中心的坐标系中,用含有体积基元(即表示形状所占体积的基元)和面积基元的模块化分层次表象,描述形状和形状的空间组织形式,其表征包括容积、大小和形状。
当三维模型表征建立起来时,其最终结果是对我们能够区别的物体的一种独特的描述。
评论:
⑴马尔的视觉理论把视觉研究从描述水平提高到数理科学的严密水平,因而它一出现就深受神经科学家、人工智能专家和认知心理学家的推崇。
⑵批评:马尔对视觉的解释主要集中在视觉加工的早期阶段;除要素图以外,他设想的各种表征还没有得到神经生理学的证明。他把知识的作用限制在视觉加工的晚期阶段,也引起一些人的怀疑。还有人认为,知觉开始于大范围拓扑性质的提取,而不是对个别特征的分析。人的视觉系统的功能具有拓扑性,它注重整体性质而忽略局部性质,因而对视觉的计算性质提出了尖锐的挑战。
注意的特征整合理论(最新模式识别之二)
注意的特征整合理论(feature-integration theory of attention)主要探讨视觉早期加工的问题,因此可看其为一种知觉理论或模式识别的理论。由特雷斯曼、赛克斯和盖拉德(Treisman ,Sykes & Gelade )1980年提出。
Treisman 认为,视觉加工过程分为两个阶段(见下图) 。
⑴ 特征登记阶段,相当于前注意阶段: 此时人几乎不需要努力,甚至意识不到它的发生。前注意加工可以帮助人们对周围环境进行指向性的搜索。视觉系统从光刺激模式中抽取特征,是一种平行的、自动化的加工过程。Treiasman 假定,视觉早期阶段只能检测独立的特征,包括颜色、尺寸、方向、反差、倾斜性、曲率和线段端点等,还可能包括运动和距离的远近差别。这些特征处于自由漂浮状态(free-floating state )(不受所属客体的约束,其位置在主观上是不确定的)。知觉系统对各个维量的特征进行独立的编码,这些个别特征的心理表征叫特征地图(feature map)。
注:前注意阶段不能检测特征之间的关系。
⑵ 特征整合阶段(物体知觉阶段)。知觉系统把彼此分开的特征(特征表征)正确联系起来,形成能够对某一物体的表征。此阶段,要求对特征进行定位,即确定特征的边界位置在哪里。这是叫位置地图(map of locations)。处理特征的位置信息需要集中性注意。集中性注意就像胶水一样,把原始的、彼此分开的特征整合为一个单一的物体。这一系列加工过程较前者要慢一些。由于需要努力,当注意超负荷或人们分心时,特别是对注意的要求很高时,就会将刺激的特征不恰当地结合,造成错觉现象。
特征整合发生在视觉处理的后期阶段,是一种非自动化的、序列的处理。
该模型假定:
⑴ 早期视觉把景物中的一些简单和有用的信息,编码成一些特征模块,这些模块可能保持着可见世界
的空间关系,但它们本身并不能向处理过程的以后各阶段直接提供空间信息。
⑵ 随后,集中注意开始发生作用,它选取和整合位于一个特定位置上的特征。这种选取和整合的作用是通过一张主要的位置地图而起作用的。通过注意的作用,当前在某个被选定的位置上出现的所有特征,就都进入一个临时的物体表征或文件中。
⑶ 最后,在每个物体文件中关于性质和结构关系的整合信息将与在识别网络(recognition network)中已储存的对物体的描述进行比较。
总之,对物体的识别依赖于感觉特征的分析和识别网络,即依赖于有关特定物体的信息的集合;当信息更新时,原来的物体文件可能被取消,并被新的文件所取代,因而开始一段新的知觉过程。
评论:
Treisman 既重视自下而上的加工在知觉中的作用,也承认物体文件和识别网络的相互作用。在这个意义上,注意的特征整合模型,是一个以自上而下的加工为主要特征的、具有局部交互作用的模型。
成分识别理论(最新模式识别之三)
Biederman(1987)在Marr 和Nishihara(1978)的理论的基础上提出了成分识别理论(recognition-by component theory )。该模型基于这样一种观点,通过把复杂对象的结构拆分为称做简单的部件形状,就可以进行模式识别。
这一理论的中心假设是,物体是由一些基本形状(shapes )或成分(components ),也就是几何离子(geon )组成。几何离子包括方块(block )、圆柱(cylinder )、球面(sphere )、圆弧(arc )、楔子(wedge )。他认为几何离子大约有36种。
几何离子与特征说中的特征非常相似。“几何离子”:容积本质、形状本质(三维)而非线或角的本质(二维)。
几何离子能够对物体进行充分描述,部分原因是几何离子间的各种空间关系可形成很多种组合,足以让我们识别所有物体。如杯子和水桶:圆弧和圆柱。(英文单词:我们在只有44个因素的情况下仍然可识别数量巨大的英文单词,原因是这些因素具有几乎无限的组合形式。几何子也类似)。
按照的Biederman 模型,我们是通过感知或恢复基本的几何离子来识别物体的。如果出现了足够的信息,我们能够觉察出几何离子,那么就能识别物体。但是,如果给我们呈现信息的方式不能让我们觉察出个别的原始离子,就不能识别物体。
几何离子一旦得到分析,它们就和长时记忆中的表征进行匹配,这种匹配是自动化的,具有很快的速度,同时又是很强的,即使在不利的条件下进行观察,也能产生正确的识别。
包含的程序:
第一步是边缘抽取(edge extraction )。是对亮度、纹理和颜色这些表面特征的差异作出发应,并对物体作线条描述(line drawing description)。
第二步是确定一个视觉物体怎样被分解成一些片断,去建立它所构成的成分或几何子。他同意Marr&Nishihara的观点,物体轮廓的凹面部分把表象分解成一些片断很有价值。
另一个关键过程是确定哪些来自物体边缘信息有独立于观察角的关键特征。他认为有关于边缘的不变性特征(invariant properties):曲率(curvature )、平行(parallel )、共端性(co termination)、共线性(co-linearity )。 根据这一理论,可视物体的成分或几何子是基于以上不变性特征而建构起来的。
与不变性相关的重要部分是他所提出的非偶然原则(non-accidental principle)。根据这一原则,蕴含于视觉图像中的哪些规律反应了客观世界实际的(或非偶然的)规律性,而不是依赖于一个给定观察点的次要特征。 非偶然性原则有助于物体识别,但偶尔也会导致错误。
任何正确的物体识别理论都必须考虑捆绑问题(binding problem)。所谓捆绑问题是指,当几个物体同时呈现时,我们必须确定哪些特征或几何子分别属于哪些物体。
Hummel&Beiderman(1992)建构了联结主义网络模型,这一模型是由7个层次组成,其输入是一个物体的素描图,而输出则是代表这个物体的单元。那些对某一物体来说具有代表性特征的单元会通过一些快速连线而连接起来,这种策略可保证所有相关单元在同一时间激活。
总的来说,对Biederman (1987)提出的这类理论还是有些实验支持的。然而,该理论的中心假设并没有得到直接证明。例如,并无信服的证据支持Biederman 提出的36个成分或几何离子确实构成了物体识别的主体框架。
评论:
物体识别的许多理论(近期理论)提出物体识别依赖于以下一系列加工过程:边缘编码、对更高层次特征的组合或编码、对贮存的结构性知识进行匹配、提取语义知识。
在关于三维物体识别的复杂性方面,这些理论相对于那些更强调实际情况的早期理论具有较大优势。RBC 模型能解释模式识别的某些实验结果,而且用成分及关系来描述模式识别,也有利于在计算机上模拟人的模式识别。近年来,有人将这一模型应用到汉字识别中(黄荣村,1992),认为汉字也是通过成分及其关系的确认来识别的。但什么是汉字的基本成分——几何离子,汉字包含着哪些关系,是一些尚待进一步研究的问题。
同时,理论还存在以下局限性:
1) 对那些具有清晰识别成分的物体来说理论很有效,但当物体不具备这些特征时理论就不怎么适用。
2)Biederman 提出基于边缘的抽取加工可提供物体识别所需的足够信息,且对这一假说提出了实验证据,然而Sanocki 获得了非常有力的证据支持边缘信息常常不足以满足物体识别的加工条件这一观点。
3)理论强调的观点:物体识别涉及一个把以目标为中心的、独立于观察位置的表征与贮存于长时记忆中的目标信息进行匹配的过程。Biederman 等人自己的发现支持了这一假设,但其他相关研究没有支持它。
4)Biederman 以及其他研究者所提出的理论只对相当粗糙的知觉辨认问题(如判断呈现于面前的动物是一只狗还是一头牛)进行了解释,很少涉及同类目标的精细知觉辨认问题。(例如,同样的那些几何离子被用来描述几乎任何一个杯子,但事实是我们可很容易地识别我们日常所用的那个杯子。)
5)这些理论也不重视情景在物体识别中所扮演的重要角色。实验:Palmer (1975)先向被试呈现一情景画面(如厨房),然后快速呈现一目标图片;或不呈现任何情景画面。目标图片与情景画面有时相称(如面包),有时不相称(如信箱或圆鼓)。结果,情景对物体识别的正确率具有系统性影响,即当相称时,识别成绩最好;无情景次之;不相称时,成绩最低
相互作用激活理论(最新模式识别之四)
相互作用激活理论(interactive activation model)是麦克利兰和鲁姆尔哈特(McClelland & Rumelhart )于1981 提出。主要处理在语境(context )作用下的字词知觉。
一般假设:
(一)、知觉加工发生在一个分层次的加工系统中,每个层次都形成具有不同抽象水平的输入表征。对于词的视知觉来说,加工系统包含着视觉特征水平、字母水平、词水平以及若干更高的水平。其中,某些更高水平的信息,如一般的知识向单词水平提供了“自上而下”的输入。
(二)、视知觉是平行加工的。两种含义:
①视知觉在空间上总是平行加工的,它能同时处理一定空间范围内的信息,至少是一个四字母的单词。 ②在同一时间内,视觉加工发生在若干水平上。例如,词由一系列字母组成,字母又有一系列特征组成,特征的激活与词的激活可能是同时发生的。
(三)、知觉本质上是一个相互作用的过程,即自上而下的加工与自下而上的加工同时起作用,通过复杂的限制作用共同决定我们的知觉。例如,对某种语言中单词的知识与输入的特征信息,共同决定着我们对单词中字母知觉的性质与时间长短。
(四)、不同知识来源的相互作用,可以用类似于神经元的兴奋激活与抑制激活来实现
McClelland & Rumelhart 主张,知觉系统是由许多加工单元组成的。每个相关的单元都有一个实体叫结点(node ),即最小的加工单元。结点被组织在层次中,每个结点与大量其他结点联结在一起。联结的方式有两种,即兴奋和抑制。如果某个结点支持另一个结点的存在,那么它们之间的联结为兴奋性联结;如果两者相互矛盾,那么它们的关系是抑制的。每个结点在某一时间都有一个激活值(activation value),它既受到直接输入的影响,也受到相邻各结点(邻点)的兴奋或抑制的影响。当一种刺激呈现时,输入的特征集将对系统发生作用,其中每个特征是按不同的概率被觉察的。以后,这些被觉察的特征将激活作用送到包含这些特征的字母结点,并进而影响到单词结点。由于同层次和不同层次的结点之间兴奋和抑制的各种关系,因而构成了异常复杂的网络。(特征——字母——单词)
由图,知觉加工发生在一系列相互作用的层次上。每个层次都和其他一些层次联系在一起。这种联系是通过一种激活扩散机制(spreading activation mechanism)来进行的。这种机制使一个层次的激活作用扩散到邻近的层次。联系有两种,即兴奋和抑制。兴奋能提高接受器的激活作用,用箭头表示;抑制会降低接受器的激活水平,用圆点表示。层次间的抑制环(inhibitory loop)代表了同一层次内不相容的各个单元间的侧向抑制。
模型不仅肯定了自下而上的加工,而且也重视自上而下的加工。因此,单元间的联系不仅存在来自低层次的兴奋与抑制,也存在来自高层次对低层次的兴奋与抑制。
评论:
相互作用激活模型既重视自下而上的感觉信息在知觉和模式识别中的作用,也重视自上而下的人的知识表征的作用,因此从理论上解决了模式识别中两种处理的相互作用问题。该模型主要针对字词识别,但其基
本原理与假设同样适用于各种非词的刺激模式的识别。所以,该模型出现以后受到学术界的高度重视,在字词识别和阅读理解的研究中,被许多心理学家广泛采用。
视觉拓扑理论(最新模式识别之五)
早期的理论(特征分析理论、视觉计算理论和相互作用激活理论)的共同基本点:模式识别开始于对组成模式的简单部分或其局部性质的识别,然后才识别由这些简单部分构成的模式的结构关系。 20世纪70年代初 Weistein & Harris 发现客体优势效应(object superiority effect)。
实验:
① 目标线段单独出现在注视点附近的不同方向上;
② 将目标线段镶嵌在另一有结构的图形中,目标线段与注视点的相对位置与前一条件相同。
结果:被试对镶嵌在有结构的图形中的目标线段,比对单独呈现的目标线段,正确报告率明显要高些。 特征分析理论很难解释客体优势效应。线段作为一个基本特征,不论是单独存在还是镶嵌在某一图形中,都将激活同一特征检测器,因此视觉系统对它们的检测不应该存在差别。另外,特征分析还假定,对个别特征的分析发生在前,而对由这些特征构成的结构关系的检测发生在后,因此对后者的识别需要更多的加工过程,也就要比识别个别线段更困难些。这显然和客体优势效应相矛盾。
由于客体优势效应,知觉系统的功能对客体的某些整体特性的依赖性。
80年代初(1982,1984,1985),陈霖提出视觉拓扑理论(visual topological theory)。该理论认为,在视觉处理的早期阶段,人的视觉系统首先检测图形的拓扑性质;它对图形的大范围拓扑性质敏感,而对图形的局部几何性质不敏感。
图形的拓扑性质(topological properties ):指在拓扑变换下图形保持不变的性质和关系,如连通性(connectedness )、封闭性(closedness )、洞(hole ),都是典型的拓扑性质,而大小、角度、平行性等几何性质则不是拓扑性质。
按照人们的直觉经验,圆盘、三角形和正方形是明显不同的图形;但按拓扑学的观点,由于它们都是实心图形,因而在拓扑性质上是等价的。相反,圆盘和圆环按直觉经验是相似的,而按其拓扑性质讲,则是不等价的。
陈霖认为,图形的封闭性、连通性、洞都是图形的拓扑学性质。图形的具体形状可能千差万别,但只要它们的拓扑性质相同,就可以说它们是拓扑性质等价的图形。在视觉早期信息加工中,视觉系统对这些大范围的拓扑学性质更加敏感。视觉系统先加工图形的拓扑性质,然后才加工它的局部性质。近年来,陈霖用神经心理学和电生理学的实验技术,进一步证明了视觉系统的这一特点。
评论:
视觉拓扑理论是和特征分析理论针锋相对的。特征分析理论强调模式识别以特征分析作基础。先有特征分析,然后才出现对模式的识别(其实质是由局部性质到大范围性质) 。相反,视觉拓扑理论则强调模式识别开始于对模式的大范围拓扑性质的提取,然后再进行特征分析(其实质是由大范围性质到局部性质) 。这两种理论目前存在着激烈的争论,问题需要进一步研究解决。
各种模式识别理论相互矛盾的困惑
各种模式识别理论混杂在一起,如同盲人摸象,都有 “理”,又都不能“概括全面”。显现出认知心理学是一门非常不成熟的学科。乃至都找不到一个正确的研究支点。
例如:
特征分析理论认为认知由局部性质到大范围性质。有实验支持。
相反,视觉拓扑理论则强调认知由大范围性质到局部性质。也有实验支持。