认知负荷.11
5.7 认知负荷
工作负荷与绩效之间关系较为微妙(Casner & Gore, 2010)。人们试图定义工作负荷,并提出了工作负荷是操作员在执行任务时投入的精力,它源自于特定任务与操作者对任务负荷所做的主观努力之间的相互作用(如,“任务负荷”用单位时间内的任务来测量)。(它源自于特定任务(如,“任务负荷”用单位时间内的任务来测量) 与操作者对完成任务负荷所需精力的主观认识之间的相互作用)。工作负荷也可能与生理或心理负荷有关。这部分将集中于工作负荷的精神层面(认知)(生理方面的已在5.2章节“生理工作负荷”中详述)。负荷过重或过轻均能够影响绩效。由于低工作负荷及其相关对抗措施方面的数据有限(由于低工作负荷方面的数据及对策有限),本章节将着重讨论认知工作超负荷。
简单的让所有的负荷都处于(把整体工作强度维持在)中间水平,无法(不太可能)达到最优的工作绩效需要达到的结果(Gore et al., in press)。成功管理或评价工作负载应(综合)考虑操作者必须单独完成的任务(完成的单个任务)、在工作期间所要合作完成任务(完成的组合任务)、任务的优先次序、操作者的个体差异及操作者完成任务所需时间的长短。因此,现阶段用工作量评价某个个体工作负荷是不合时宜的(用当前衡量工作量的方法去评价个体工作负荷是不符合实际的)(Boff, Kaufman, & Thomas, 1986; Casner, 2005: Gawron, 2008)。研究指出,单一的方法不能确定工作负荷在各种操作环境下的适用性。操作周期(开发周期的)不同阶段需要用不同的评估及测量技术(Wierwille & Eggemeier, 1993)。如果从单个任务测量扩大到系统操作测量,会进一步增加其挑战。
5.7.1 系统开发周期中(的)工作负荷评估和缩减
各种工具,方法和技术已经被用来测量工作负荷。这些技术主要为航空环境设计,并已应用(在)其他高度程序化的领域,(用来)在短时间内对任务进行检查(Gore et al., in press)。持续30天以上的空间任务特点是高度程序化但高度重复,在每天的同一时间完成,多个乘员(成员)共同决定任务绩效,同时常常使用复杂的系统。结果是,开发新的空间操作系统既要考虑短期任务工作负荷的测量需求,也要考虑长期任务工作负荷的测量需求。(需要
统筹考虑短期工作负荷与长期工作负荷两者的测量需求)。
系统由可互相操作部分组成,职能明确的各组成部分协同工作以执行增值的过程,在规定的操作环境中,以具体的结果和成功概率,及时满足任务导向的操作需求。这个系统由相互操作的组件构成。每个组件都有指定的和固定的功能,这些组件可以通过在特定操作环境中以特定产出和成功几率的方式来确保任务导向操作需求得到及时地满足。(Newell, 1990)。一个级别的组件能够在另(下)一个级别的组件下实现,在一个系统里多个组件在多层面上交互作用。(在一个系统不同层面相互作用的多种元素亦是如此。)Newell认为,人的体系结构由多个系统多个层次组成,并且它()不能以其他方式被()构造。Simon 认为,只有子系统稳定时,系统才有可能稳定(Simon, 1962)。显然,不同层次及子系统之间的相互作用是形成稳定的系统架构所必须的。
如下所述(正如下面要讨论的一样),过量工作负荷将是一种在处理非预想的额外工作时易造成错误和潜在危险。(可能引发失误和诱发完成非预想额外工作的潜在失败)。设计师将通过几种行为方式避免造成这种状态(应该努力通过几种方式来避免这种严重的状态)。在最高水平,可以采取两种互补行为。在系统启动之前,正如它存在于―制图板上‖,(也就是说还在筹划的时候,)它的工作负荷可以通过任务分析预测(我们可以通过任务分析来评价它的负荷)(在这里(假设)高任务负荷=高工作负荷)。一旦航天员使用一个完全的系统或系统组分(组件),工作负荷可以通过比较工作负荷的估计值与实际值来评估、预测、验证。(我们可以通过比较工作负荷的估计值与实际值,从而对工作负荷进行重新评估,对先前的预测进行验证和改进。)
无论是估计还是实际情况下,如果发现或预测工作负荷过重,就要采取措施改造设备(界面),改变任务需求,自动操作一些功能,或者加大训练力度。后者通常是最不可取的方法,但常常被采用。
虽然工作负荷的两种测量方法——评估和预测——互为补充,但是每种方法都有其优缺点。评估是在设计完成后进行的,而预测是在设计发展阶段的早期进行的。评估的优点在于非常精确,某种程度上测量方法选择更恰当,并且使用多种测量手段。但缺点是全系统工作负荷的精确评估(通常)要到整个系统完成才能开展。从设计流程来说,如果发现工作负荷
过高,要采取大的补救措施重先(重新)设计已为时过晚。加大训练力度也就成为仅有的可选择的解决办法。
工作负荷预测可以在设计流程早期完成。这是一种较为理想的负荷测量方法。在巨大投资开始前,可以通过较少代价修改设计。但是,预测的缺点也反映出评估的长处。目前还未发现完全有效的工作负荷预测模型。根据具体情况,在预测高负荷设计和程序中,预测模型的精确率在70%到80%。但是,问题是这样的精确度是否好的满足设计师,使其放弃某一预测产生高工作负荷的观念。(这样的精确度是否好的足以让设计师放弃某一预测产生高工作负荷的观念的疑问仍然存在。)
评估和预测在使用时可以互为补充方式()。当二者同时用于一次完整任务的某一作业任务(如飞行控制,通信协议,推进剂管理)时,评估获得适时性,而预测获得精确性,即使这些作业任务(组件)需要在以后的飞行任务中时间共享也不影响。
下面将上述内容分三个主题进行阐述:首先,工作负荷定义为乘员与任务的相互作用,包括什么是工作负荷过多,红线的概念是什么等重大问题。其次,阐述测量工作负荷所使用的方法,预测的方法,以及怎样利用两种测量方法和评估工具来定义工作负荷过多。与应激和工作负荷转换一同讨论自动操作和训练这两种工作负荷解决办法的效果。最后,阐述充分预测认知工作负荷的主要研究需求。
5.7.2 工作负荷概述
5.7.2.1 工作负荷和工效(性能)
几十年来工作负荷评估和预测增强了系统、设备和程序的设计和操作使用(Gawron, 2000; Moray, 1979, 1988)。由于许多原因,复杂系统的娴熟操作者的绩效未能达到需求水平或者完全毁掉。例如,不适当或不兼容的控制-显示关系会引发错误,睡眠减少会降低警觉性,或者发生很难解释的突发事件。操作失败最频发和重要的缘由之一是操作者工作负荷处于非最佳水平。这种关联已经在人类在真实或模拟环境中执行各种任务(驾驶、飞行、监视、装配、通信、监督、维修、输入数据)得到很好证明。另外,在这些任务中,如控制机械手或航天器对接时监控摄影位置,乘员工作负荷面临巨大挑战。认知工作负荷未达最佳标准可
能由于低觉醒导致的工作负荷过低,或者由于任务需求过量、设备设计较差、或环境条件恶劣导致的工作负荷过高。科技发展( 如自动化控制)使得系统性能改善(降低工作负荷),有时可以造成低负荷,即操作者仅需监控自动操作(Parasuraman, 1987),或者操作者的工作负荷从一处转到另一处,并没有获得预期的负荷下降。
虽然工作负荷和绩效是紧密相连的,但这种关联的本质并非直接关系;操作者与系统绩效以及工作负荷的测量可能受相似或者不同因素的影响 (但又完全不同的因素的影响)。事实上,操作者可能在工作负荷和绩效之间交替换位。(权衡工作负荷与绩效)
5.7.2.2 工作负荷需求和资源
图5.7-1很好的描述了认知工作负荷的概念。两副图的x-轴显示了某一任务逐渐增加的需求量。图中显示需求增加影响两个变量:操作者的任务绩效(上图)和智力资源(精神资源)(下图)。上图显示了着眼于―流水线末端‖所观察到的现象,或者完成的实际工作。下图显示如果对操作者使用工作负荷计量表来测量的结果。最初,由于低任务需求,操作者使用很少的资源(下图)。因而,操作者就会感到无聊,变得低警觉(放松警惕),想要做其他工作(或者倾向于做其他的工作),任务绩效就会低于正常(水平)。随着任务需求的增加,更多的操作资源将会投入使用(需要操作者的注意力),绩效(上图)会稳定在最佳水平。进一步增加任务需求就会导致操作者负荷过载。由于错误和延迟反应,操作资源就会导致低产出。结果任务绩效就会下降。绩效下降在x-轴上标识为―红线‖。红线左侧,操作者能够跟上任务需求节奏并可以储备能力。绩效保持―完美‖(或者诸如1秒反应,1米飞行路径跟踪在标准水平之上)。在―红线‖的右侧,资源需求超过资源供给,绩效就会消减。因此,在图5.7-1(中)下面的图分成两个区域:
储备能力区:操作者对完成工作具有资源储备能力
负荷过载区:操作者超负荷或者已经超过他或她的能力
工作负荷必须不能超越―红线‖。工作负荷必须在―红线‖的左侧,那样乘员可利用资源处理一个不可预计的紧急情况(才有精力资源有效处理不可预见的紧急情况)。沿着x轴,为了测量资源需求的变化,尽管未完成的能力详细说明了数值范围的准确属性和“红线”,多少重要指导方针可能被提议,在下面将被讨论。(尽管不能完全精确地确定参数属性和红线
位置等内容将在下一章节讨论,但测量资源需求沿着x轴而变化这一规律无疑具有重要的指导意义。)
感到无聊
(操作者容易注意力分散) 压力增加 (错误增加或工作延迟)
满意绩效
负荷过载区
任务需求
任务绩效 操作者的 资源产出 红线 任务需求
图5.7-1 从左到右增加任务难点(或资源需求)对任务绩效的影响
下图给出了两个工作负荷区域和划分区域的―红线‖,在这里主要工作绩效开始下降,而任务资源需求不能满足逐渐增加的供给。(不再随供给的增加而增加。)
5.7.2.3单任务对多任务需求
有很多关于注意力和操作的模型可以用来解释任务需求、工作负荷和绩效之间的关系。(例如, Gopher & Donchin, 1986; Hart & Wickens,1990; Tsang & Vidulich, 2006; Wickens, 2002; Wickens & Yeh, 1988)。这些模型将影响因子分为两类,这些影响因子驱动图5.7-1中X轴的需求增长。
1. 单任务的需求是像车辆的前进速度、在确定之前的记忆参数设置的内存要求或者时间压力等因素。如果这些增加,绩效最终会受到影响。
2. 双任务要求是指由于同时执行两个或两个以上工作的需求,从而增加了工作负荷。如稳定化处理飞船的运动轨迹,寻找月球表面的水平着陆点。
注意力的多资源模型是为了预测和诊断由于双重任务要求引起的过度的工作负荷和绩效衰减,然后提供缓解这种消减的方法。以下部分涉及通用的单位,可用来量化单任务和双任务需求的心理负荷(或者图5.7-1沿x轴的需求)。
位置等内容将在下一章节讨论,但测量资源需求沿着x轴而变化这一规律无疑具有重要的指导意义。)
感到无聊
(操作者容易注意力分散) 压力增加 (错误增加或工作延迟)
满意绩效
负荷过载区
任务需求
任务绩效 操作者的 资源产出 红线 任务需求
图5.7-1 从左到右增加任务难点(或资源需求)对任务绩效的影响
下图给出了两个工作负荷区域和划分区域的―红线‖,在这里主要工作绩效开始下降,而任务资源需求不能满足逐渐增加的供给。(不再随供给的增加而增加。)
5.7.2.3单任务对多任务需求
有很多关于注意力和操作的模型可以用来解释任务需求、工作负荷和绩效之间的关系。(例如, Gopher & Donchin, 1986; Hart & Wickens,1990; Tsang & Vidulich, 2006; Wickens, 2002; Wickens & Yeh, 1988)。这些模型将影响因子分为两类,这些影响因子驱动图5.7-1中X轴的需求增长。
1. 单任务的需求是像车辆的前进速度、在确定之前的记忆参数设置的内存要求或者时间压力等因素。如果这些增加,绩效最终会受到影响。
2. 双任务要求是指由于同时执行两个或两个以上工作的需求,从而增加了工作负荷。如稳定化处理飞船的运动轨迹,寻找月球表面的水平着陆点。
注意力的多资源模型是为了预测和诊断由于双重任务要求引起的过度的工作负荷和绩效衰减,然后提供缓解这种消减的方法。以下部分涉及通用的单位,可用来量化单任务和双任务需求的心理负荷(或者图5.7-1沿x轴的需求)。
5.7.3工作负荷的测量
目前已经制定出一些有效的切实可行的测量方法,这些测量方法可以用来量化操作者在不同环境中进行各种活动带来的大量工作负荷。这些测量可以通过几个标准和每个工作可以解决的问题来加以区分(和每个可以回答的关于工作负荷的问题来区分)。由于它们根据各自提供的信息的类型和质量等方面会变化,所以利用多种测量去开发一套完整的工作负荷轮廓(工作负载概要),从而获得不同来源的约束证据(聚合证据)。
(对于可获取的测量,是否证明有用,以及如何实现的描述,见David, 2000; Gawron, 2000; Gopher & Donchin, 1986; Hancock & Meshkati, 1988; Hansman, 2004; Hart, 1986; Hart & Wickens, 1990; Hill 等人, 1992; Lysaght等人., 1989; Moray, 1979; Moray, 1988; O’Donnell & Eggemeier, 1986; Roscoe, 1987; Tsang & Vidulich, 2006.。此外,一些网站提供的测量的说明和关于何时和如何使用它们的信息,例如,联邦航空管理局(FAA),2007年,www.faa.gov]。
操作者的工作负荷一般通过四个方面(四种技巧)进行评估:
1. 主任务测量法(主要任务绩效衡量法)
2. 辅助任务(绩效)测量法 – 额外的绩效测量,次要任务是为测量剩余注意力或能力而提出的。
3. 生理测量 – 内隐反应测量(例如,心率的变化,眨眼,眼球运动,或大脑的电活动(脑电活动))通常被称为―生理‖的测量。
4. 主观评价法 - 由操作员或观察员提供的评级
这些具体的例子将在下面描述:
以上的每种测量都各有利弊。最好是用至少含有两个不同指标的组合,以便获得工作负荷的可靠评估。在选择一个工作负荷的测量工具时,应考虑到下列因素:
干扰——干扰是在选择测量时的一个明确和关键的标准。它在许多方面可能(可能以多种方式)影响主要任务绩效。这种干扰主要集中在工作负荷的测量工具和失去任务需求的角度,使主观数据不准确(和通过使主观数据不准确来使任务需求的角度丧失)。测量工具还可能增加误差和未知量到工作负荷中。最后,操作者可能在测量过程中不细心,然后忽略它
(可能因为测量过程所感受到的心烦而无视测验)(如,在一些综合性的二级(辅助)测量中)。在这方面,最好是将次级任务(辅助任务测量)和依赖于已存在的电极上的生理测量嵌合起来。
环境——工作负荷评估的前后关系是很重要的。例如,心电图(ECG)电极已经能够用于其它目的(如健康监控),使得更容易评估心率变化。相反,非常嘈杂的环境中不适合做与听觉事件相关的次级任务(辅助任务测量)。动态环境(如EVA)阻碍了手动反应任务的使用,无论是次要任务或给予(使用主观评价辅助任务绩效测量法还是使用主观评价法。当操作者在从事安全关键任务(时),次要任务的干扰是一个重大问题。
灵敏度——测量的灵敏度描述了当工作负荷改变到何种程度时,测量值会发生改变。 可信度——测量的可信度描述了当且仅当工作负荷发生改变时,测量值会随着改变。如(对于工作负荷),心率的测量,并不是完全可靠的。因为许多其它的非工作负荷因素如体力消耗或压力,都会影响心率。
可诊断性——可诊断性的测量是用来识别高工作负荷的来源(例如,感性负载与反应负载,见下文)。
范围——任务要求的资源的范围(见图5.7-1)定义了可靠的可测量工作负荷水平。 首(主)要任务绩效测量应被用于高资源需求(―超载‖)区域,而且(在)在低任务需求水平并不可靠。
次级任务绩效辅助任务(绩效)测量和生理测量是最适合低任务需求(―备用容量储备能力‖)区域。
主观评价可能是适用于整个范围。
目的——最后工作负荷评估的目的在测量方式的选择中起到关键作用。如果是要建立一个可视化的任务的工作负荷(使用,例如,格式化视觉显示),监督操作者的审视模式(扫描模式)是一个很好的方法。如果需要评估一个模拟全任务的工作负荷的绝对水平,那很可能一个全面测量如国家航空和航天局的任务负荷指数(NASA-TLX)的主观评价会很理想。如果,需要对产生不可接受绩效(如问:―怎样才能减少工作负荷?‖)的多任务环境的工作负荷进行评估,那么主要任务绩效的测量是至关重要的,尤其是如果这些与高工作负荷来源
的模型相结合(见4.10.5.3.1,―工作负荷的预测‖)。尤其是如果这些与高工作负荷来源的模型相结合(见4.10.5.3.1,―工作负荷的预测‖),那么运用主要任务绩效的测量是至关重要的,
5.7.3.1主要任务性能的测量
对绩效的测量可用于对工作负荷的评估。然而警告也将被使用(但应谨慎使用),因为工作负荷和绩效在很多方面可以互为转换。这对理解评估任务以及效能和工作负荷之间的关系非常重要。试图最大限度地提高绩效,并且有着明确目标的操作者进行高强度工作有时可以获得高绩效。但有时,良好的界面设计或有效的自动化可以在工作负荷非常低的情况下获得较高的绩效。因此,这对(通过系统对比)了解系统的绩效与工作负荷之间的关系是至关重要的。举例来讲,我们可以比较两个不同的飞船着陆的程序。其中之一涉及直接的内环控制,它可以提供非常精准的操作,但是人员必须在程序的各个阶段进行高增益,精确的手动控制,这导致了过多的工作负荷。由于工作负荷非常大,因此其他必须执行的监测任务便无法进行。另一个方案是设计一种在导航屏幕上显示的通道图像,不同于精准度高的程序,在这个程序中,飞行中的一些偏差是可以接受的。这可能会导致一个稍高的跟踪误差;然而,由于其工作负荷将会变低,飞行员可以分出更多的精力完成监测或通信任务。
主任务的完成情况往往能反应操作员适应高负荷或调整的策略。尤其是一个涉及很广泛的任务,比如空间试验,什么时候以及如何完成任务是复杂的(都是可以灵活选择的)。任务专家可能试图在可接受的范围内同时完成两个任务(同时进行或者根据时段快速在两者间切换),在降低一个的同时强调另外一个,或按顺序执行任务。事实上,在搁置次要任务的同时优先完成重要任务可能是最佳的策略。
5.7.3.1.1主任务测量的类型
绩效测量可以为工作负荷问题提供客观的答案。一些测量总结了操作者行为的有效性,而其它也提供关于操作者控制策略中一些精细问题的信息。前者反映了操作者的行为和系统输出之间的相互结合,而后者则更为直接的衡量操作者付出的努力(工作负荷)。
绩效测量表方法有三类:
1. 速度-开始或完成任务所需要的时间
2. 精度和错误率–不连续的反应或连续控制与目标值或可接受范围的匹配程度