奖励决策中冲动和自我控制的神经基础
奖励决策中冲动和自我控制的神经机制
摘要:在奖励决策中,自我控制是为更有价值或更长远的利益而抵制即时诱惑的选择偏好;而冲动性表现为相反的选择模式。自我控制决策的脑区定位主要涉及额顶叶区域和背外侧区域,冲动性决策主要涉及边缘皮质或旁边缘皮质区域。奖励决策认知加工包含两个阶段:评价主观价值和进行选择阶段。在未来研究中,应该结合更精确的实验设计和脑区定位结果,考察和分析各个子区域的单独作用以及它们之间的交互作用。
关键词:奖励决策;自我控制;神经系统假设;认知加工
在日常生活中,人类和其他动物为了更好的生存,经常需要在两个奖励之间做出选择,即奖励导向的行为(reward-directed behavior),比如搜索食物或者寻找配偶(Sescousse, Redoute, & Dreher, 2010)。其中一个奖励可能从短期看比较有诱惑力而从长期来看是不利的,另一个奖励可能需要等待一段时间才能得到但从长期来看具有更大的整体利益(Hare, Camerer, & Rangel, 2009) 。奖励可以被描述为个体能从主观上或客观上受益的积极的结果或事件(Mohr, Li, & Heekeren, 2010)。经过长期的观察和实验,人们发现在有关奖励的决策中,有两种选择倾向,分别是冲动和自我控制:自我控制的决策可以描述为在两个奖励之间,倾向于选择大的、延迟性的奖励而不是小的(通常更有诱惑力) 、即时性的奖励,而冲动性决策的决策则表现为相反的选择偏好(Logue, 1988)。但是长期观察研究发现,个体经常难以抵制即时奖励的诱惑,从而在奖励决策中做出不太理性或者非优化的选择。对于很多人来说,一个能够产生直接的即时奖励的行动比那些在不久才会产生奖励的行动更具有优先选择性(虽然不久后产生的奖励可能更有价值) ,也就是说,奖励的延迟增加,那么它对于选择者的主观价值(subjective value)经常会下降(Bickel & Marsch, 2001; Frederick, Loewenstein, & O'Donoghue, 2002) 。有大量的行为研究已经证实,影响奖励的主观价值的因素大致包括:(1)预期奖励的数量;(2)获得奖励与反应之间的延迟时间(Grossbard & Mazur, 1986; Logue, 1988; Mazur, 1988; Rachlin, Raineri, & Cross, 1991)。其研究范式主要来源于Mazur 和他的同事们开发的一个调整的延迟程序(Grossbard & Mazur, 1986; Mazur, 1988)。在这个程序中,鸽子在一个标准的选项和一个调整的选项之间做选择:标准的选项中奖励数量和延迟时间都是恒定的,而调整的选项中奖励数量和延迟时间都是系统变化的。大多数在冲动方面的研究都会引用这两篇文章使用过的调整延迟程序的变式。
纵观有记载的历史,决策中自我控制的能力吸引了众多的哲学家和科学家,它对于动物种系的进化和人类个体及社会性的发展都是十分重要的,是个体心理成熟的表现。它是建构人类许多复杂认知行为的基础,是个体自我发展、自我实现的基本前提和根本保障,如完成
日常工作、协调人际关系、成功适应社会等;自我控制还能够提升市民的健康和财富状况以及减少犯罪(Moffitt, et al., 2011),是社会文明和发展不可缺少的公众美德。在横向对比中,Tangney 等人的行为研究证明,在自控上的高分数能够预测个体各个方面的积极表现:如更高的学业平均成绩、较高的自尊,较少报道有精神方面的疾病,较少有暴饮暴食或酒精药物滥用,较好的社会关系和人际交往技能,较高的安全性依附以及更优的情感性响应等(Tangney, Baumeister, & Boone, 2004);而具有低自控的兄弟姊妹有更差的行为表现,即使他们与其他人具有相同的家庭成长背景(Moffitt, et al., 2011)。而在纵向发展上,儿童期观察到的自我控制能力可以有效地预测其将来的智力、身体健康、自我韧性、个人资产和社会地位等(Moffitt, et al., 2011)。此外,Sheldon 等人研究发现,自我控制能够促进个体采取合作的方式追求更大的长期利益,而不是通过竞争追求即时的个体利益(Sheldon & Fishbach, 2011)。与之相反,大多数的个人和社会问题或许都会涉及到过度冲动或缺乏自控这个因素,它和一些精神病性症状和人格紊乱相关,一些临床医生甚至认为很多临床问题都是自我控制的问题(Logue, 1988),例如躁狂、肥胖和成瘾、注意缺失症、药物滥用、反社会性人格障碍等(Hare, et al., 2009; Kalenscher, Ohmann, & Gunturkun, 2006),因此,低自控对于一系列广泛的个体和人际问题是一个很显著的危险性因素。
鉴于此,我们聚焦于最近在研究奖励决策中冲动和自我控制方面的进展,尤其强调其大脑定位、单神经细胞水平和电生理学研究。这方面的研究可以为很多领域的临床实践提供依据,还为理解某种病理学展现了新的观点,如病态赌博,而且为涉及到动机和学习的神经网络研究打开了新的视角。
1冲动和自我控制决策的大脑成像研究
1.1分离神经系统(separate neural system)模型假设
在奖励决策中,或许最著名的模型是Laibson 提出的β-δ类似双曲线模型,这个模型有一个假设,冲动和自我控制的决策行为来自于两个相互竞争系统的交互作用:(1)没有耐心或者冲动性的情感系统,主要评价即时性的奖励;(2)有耐心的自我控制的理性系统,既评价即时性奖励也评价延迟性奖励(Laibson, 1997) 。近年来McClure 等人使用功能性核磁共振成像(fMRI)技术进行的研究为这个假设提供了客观的神经机制的证据,他们发现两个系统都和特定的大脑区域有关联,冲动和自控偏向之间的矛盾可能反映了不同神经系统的不同活跃程度(McClure, Ericson, Laibson, Loewenstein, & Cohen, 2007; McClure, Laibson, Loewenstein, & Cohen, 2004) 。和β系统相联系的是边缘系统(limbic system) 的一部分和旁边缘皮质(paralimbic cortical),包括腹侧纹状体(ventral striatum, VST)、内眶额皮质(medial orbitofrontal
cortex, MOFC)和内前额皮质(medial prefrontal cortex, MPFC),当被试做出冲动的决策(选择时性奖励时) ,这些区域显示了更大程度的激活;而和δ系统相联系的是侧前额皮质(lateral prefrontal cortex)和后顶叶皮质(posterior parietal cortex),这些区域对所有的选项都显示了增强性的活动,尤其是当一个延迟性奖励被选择时激活程度更大。Tanaka 等人也发现当被试选择即时奖励的选项即冲动的行为时,侧眶额皮质(lateral orbitofrontal cortex) 和纹状体(striatum)被激活,然而当被试为了获得更大的未来奖励做出自我控制的行为时,背外侧前额皮质(dorsolateral prefrontal cortex)、下层顶皮质(inferior parietal cortex)、背中缝核(dorsal raphe nucleus) 与小脑(cerebellum)被激活(Tanaka, et al., 2004)。这些研究表明了冲动和自我控制的决策可能来自两个系统的联合影响:一个涉及到边缘和旁边缘皮质区域或者腹侧靠前区域评价即时奖励或冲动的行为,另一个涉及到前顶叶区域或者背向后区域用来评价自我控制的行为。
腹侧纹状体、内眶额皮质和内前额皮质,这些都是典型的边缘结构,并且和旁边缘皮质投射紧密相连,这些区域受到中脑多巴胺系统的神经支配,有很多多巴胺能神经分布(McClure, et al., 2004) ,这些结构被一致认为涉及到冲动性行为,药物成瘾也被普遍认为涉及到这些系统中多巴胺神经递质的混乱(Koob, Sanna, & Bloom, 1998)。而大量的神经生理学和神经成像研究表明,前额(侧前额) 和顶叶皮质(后顶叶区域) 经常涉及到更高水平的认知加工和对未来的计划,比如抽象的问题解决和长期目标控制的运用(Miller & Cohen, 2001; Tanji & Hoshi, 2001) 。由手术、事故或者冲击导致的大脑损伤的研究指出,前额叶的损伤经常导致行为极大地受到即时性奖励影响,进而导致冲动的行为或者计划能力的丧失(Bechara, Damasio, Damasio, & Anderson, 1994),所以额顶叶网络(fronto-parietal network)对于自我控制特别重要。总之,这个假设认为,在较小的即时性奖励和较大的延迟性奖励之间选择时,旁边缘区域和额顶叶区域之间发生交互作用,额顶叶系统阻碍了选择更即时性的奖励的冲动,与边缘性系统调节的反应进行有效的竞争,计划将来的利益,为那些更大的长期性奖励提供从上到下的支持(McClure, et al., 2004) 。这也支持了决策的双系统模型,情感和认知两者都指导决策(De Martino, Kumaran, Seymour, & Dolan, 2006; McClure, et al., 2007)。
1.2共同神经系统(common neural system)模型假设
一个最近由Kable 和Glimcher 所做的研究提供了与分离神经系统假设不一致的证据(Kable & Glimcher, 2007),他们的研究也使用了fMRI 技术,结果显示腹侧纹状体、内侧前额皮质和后扣带皮质(posterior cingulate cortex, PCC)这三个区域的血氧依赖水平活动没有像单独神经系统假设的单独表征即时性奖励或冲动的决策,而是在不同激活程度上表征冲动决
策和自我控制决策两者的主观价值,虽然即时得到的奖励比稍后得到的激活程度更大。而且这三个区域都属于β系统,在他们的实验数据中也没有强烈的证据显示一个δ系统的存在,或者说没有证据表明哪些区域单独携带冲动信号(Kable & Glimcher, 2010)。除了他们的研究,一些最近的研究也发现,这些大脑区域对于延迟奖励价值的改变很敏感,而且奖励数量和奖励延迟的时间也有不同的大脑表征区域(Ballard & Knutson, 2009; Tanaka, et al., 2004)。
此外,他们发现这些区域是在绝对标度上(absolute scale) 而不是相对标度上编码主观价值(relative subjective value)的,即不是只编码一个更迟的奖励与另一个更快的奖励相比较的相对价值,而是编码绝对时间轴上的主观价值。由此,他们提出了一个新的选择性行为-神经模式,称为“尽快”模式(“as soon as possible”model) ,这个模式假设一个单独的系统追踪奖励的主观价值信号,而不管延迟的时间是多少(Kable & Glimcher, 2007)。总之,他们的行为结果显示,冲动性根据最近可能的奖励下降,并且没有发生冲动偏好翻转的现象;神经结果发现,腹侧纹状体、内侧前额皮质和后扣带皮质三个区域的激活精确地追踪了所有奖励的延迟。
以上这些研究和分离神经系统假设得到了不太一致的结论:属于β系统的几个区域编码即时和延迟奖励二者的主观价值信号,而分离神经系统认为这些大脑区域只携带冲动信号。一个可能的解释是这些研究之间不同的设计导致了不同的结论,另一个原因可能在于显著性方面,在共同神经系统假设中,得出的结果是三个区域对即时性奖励比延迟性奖励显示了更大的程度的激活,并不是平等的编码,因此也可以说有冲动性信号的存在。
1.3中和假设
冲动和自我控制研究中一个非常突出的例子就是食物,比如说是否到一个很远但是有很多食物资源的地方去搜寻食物,这是一个事关生存的问题(Logue, 1988)。Hare 等人最近使用fMRI 考察了节食者做出有关食物选择时的大脑活动,这个研究可能为之前的两个假设模型提供一些新的数据(Hare, et al., 2009)。实验中的食物包含两个维度:味道和健康,有些食物可能很美味,但从长期来看对健康不利,如巧克力、奶油,而有些食物可能不是很美味,但对健康有利,如各种蔬菜。研究显示:(1)不论被试自我控制的程度如何,练习或不练习自我控制,腹内侧前额皮质(ventromedial prefrontal cortex ,vmPFC) 都会有激活;(2)在被试成功进行自我控制的时候比没有自我控制的时候,背外侧前额皮质(DLPFC)有更大程度的激活。这个结果为两个假设的争论的解决带来了大量的数据。
在腹内侧前额皮质发现了一个普遍评价信号存在的证据,与Kable 和Glimcher 所阐述的相似,不管被试运用自我控制的程度如何,这个评价信号都会驱动选择;像McClure 等人
所说的那样,他们的结果表明,背外侧前额皮质在自我控制的运用中发挥着决定性作用。总之,他们认为自我控制问题是在包含各种各样因素(例如,健康和味道) 的情境下出现的,这些因素必须在腹内侧前额叶皮质整合来估算出目标价值,进而背外侧前额皮质的活动在考虑更高等级的因素(比如健康) 时是必需的,需要将它整合到腹内侧前额叶的评价信号中来(Hare, et al., 2009)。因此腹内侧前额叶可能是比较早进化的,用来预测刺激的短期(short-term)价值,之后人类发展出将长期考虑整合到评价中的能力,这种整合是通过背外侧前额皮质这样的结构来完成的。
1.4初级奖励和二级奖励神经机制的异同
一般将奖励分为初级奖励和二级奖励:初级奖励包括那些对于物种生存所必须的东西并且具有固定的价值,例如食物、水和性;二级奖励源于初级奖励中有利的价值,例如金钱性获得、漂亮的外观以及好听的音乐等(Schultz, 2006) 。二级奖励可以说是人类独有的,它们对人类的生存不是必须的而且价值是有与初级满足的联系来评估的。我们经常需要在不同奖励之间做出选择,或者拿其中一个与另一个进行交换。为了做到这些,我们必须能够在一个单一的一致性标度上来比较它们的相对价值,这暗示了所有类型的奖励可能是在同样的大脑区域进行评估的;同时,由于二者属于不同子类型的奖励,可能会激活不同的大脑区域。那么人们对这两种奖励的主观认知评价是否相同,大脑对这两种奖励在冲动和自我控制的决策中所进行的编码区域是否一致?
在行为方面,Reuben 等人的行为研究报道指出,人们在二级奖励(金钱) 和初级奖励(巧克力) 的选择偏向之间有统计显著的正性关系,这种关系在那些喜欢巧克力并且饥饿的人中最明显(Reuben, Sapienza, & Zingales, 2010)。McClure 等人将最初实验使用的金钱奖励(二级奖励) 的研究范式推广到初级奖励上(果汁或者水) ,并且奖励延迟时间由几分钟代替了几周(McClure, et al., 2007)。在这个实验中,饥渴的被试在一定时间内选择小容量的饮料(例如,现在2ml 或者5分钟后3ml) 。和之前的研究(McClure, et al., 2004; Tanaka, et al., 2004)一致,在即时奖励和延迟奖励中选择比在两个都是延迟奖励(两个奖励都被推迟了10分钟) 中选择时,边缘系统的激活程度更大。然而,侧前叶和后顶叶皮质(一般涉及精细的认知加工,包括将来的计划) 在两种选择中响应相似,无论是在即时奖励和延迟奖励中选择还是在两个延迟奖励中选择。这暗示了边缘区域(β系统) 可能对奖励的绝对价值(absolute value)而不是相对价值(relative value)进行表征,至少对于果汁和水的奖励是这样的。也就是说,边缘区域的活动对于初级奖励可能遵循比较严格的延迟限制,这种功能是在满足生理(生存) 需要和环境的特定要求的进化压力下而适应和改造来的,例如缺水很短时间就可能威胁到人的生命;而二
级奖励可能更多的是背景依赖的,例如20元钱是多还是少更多取决于它与其他金钱数的对比。
最近,Sescousse 等人使用fMRI 技术来识别大脑加工色情图片刺激(初级) 价值和金钱(二级) 价值之间共同的和独立的大脑区域(Sescousse, et al., 2010)。结果表明,与一般的快乐表征(hedonic representation)相一致,两种奖励共享一部分大脑区域,即腹侧纹状体、前脑岛(anterior insula)、前扣带回(anterior cingulate cortex, ACC)和中脑(midbrain/ mesencephalon),这套神经结构编码各种类型奖励的主观价值。另一个重要发现是证实了在眶额皮质(orbitofrontal cortex, OFC)中存在初级奖励和二级奖励的分离表征:眶额皮质的后部区域(posterior lateral OFC)更原始、更简单,它加工更基础的色情图片的刺激;而眶额皮质前部区域(anterior lateral OFC),一个从种系发展进化来的新近结构加工金钱性获得。他们的研究提供了第一个有关眶额皮质包含不同的区域来表征二级奖励(例如金钱) 和更初级的满足(例如色情图) 的证据。它可能暗示着随着抽象程度的增加,沿着后-前轴有一个复杂性程度增加的趋势,即奖励越抽象、越复杂,它的表征会越刺激眶额皮质的前部区域。
总之,这些研究结果可能表明了,为了加工不同类型的奖励,许多物种可能共享一套核心的脑区域;相对地,随着进化的过程,许多新的脑区域出现,表明特殊大脑区域在加工更新近的奖励(比如金钱) 中潜在的专门化作用。
2冲动和自我控制机制单个神经元细胞水平上的研究
有关冲动和自我控制的神经机制,深入到单个神经元细胞水平上,也取得了一些发现。首先,在动物方面,很多研究已经发现预期奖励的数额是由分布在大脑中各个部分的单个细胞所编码的,如鸽子的前脑(相当于哺乳动物前额皮质) (Kalenscher, et al., 2006)、猴子的前额皮质、背外侧前额皮质以及后顶叶皮质等单独的单元(Brody, Hernandez, Zainos, & Romo, 2003; Leon & Shadlen, 1999, 2003)。这些细胞的激活幅度和奖励的延迟时间是成反比的,所以它们可能编码延迟长度。进一步的分析显示,当同时做出冲动决策时,同样的神经细胞在预期到大的奖励比小的奖励时更活跃,表明这些细胞的神经激活也编码奖励大小。哺乳动物和鸟类前脑结构在自我控制的决策中发挥重要作用,即在什么时候或多长时间一个响应需要被抑制。所以,PFC 可能是相互连接神经网络中的一个必须部分,这个网络广泛分布在整个大脑中,并且一起连接在感觉-认知-运动循环中不同的加工水平。
其次,在人类神经细胞水平上进行的研究也取得了一些重要发现。Jenison 等人记录了当病人对食物项目做出简单的购买决策时杏仁核单个神经元的活动(Jenison, Rangel, Oya, Kawasaki, & Howard, 2011)。他们发现主要分布在基侧核(basolateral nuclesus)的16个杏仁核
神经元对冲动或自我控制决策做出线性的响应。另一项研究使用多元模式分类和fMRI 技术的结合显示,在人类眶额皮质OFC 中单个细胞水平上进行的奖励编码是分布式表征
(distributed representation)的,并且比已经表明的编码方案更异质(不均匀,heterogeneous) (Kahnt, Heinzle, Park, & Haynes, 2010)。这种分布式的表征是和之前来自于动物电生理的报道相一致的,例如,在老鼠和猴子的OFC 单个神经单元记录中发现,神经细胞不同局部子群体的激活率和期望奖励之间可能呈正相关也可能呈负相关,OFC 中可能包括了不同的神经细胞子群体对奖励价值有相反的编码方案(Kennerley & Wallis, 2009; Morrison & Salzman, 2009)。这些发现使得在人类和动物之间奖励编码的鸿沟变窄了。
总之,两个重要的参数‘奖励数量’和‘奖励时间’在冲动决策中决定了主观奖励价值,两者是在单一的前脑神经元进行整合的。一个不良的整合,比如高估时间因素可能会导致夸张和不利的冲动选择行为,比如药物滥用、赌博、注意失调和犯罪等。
3奖励决策时间进程(EEG或ERP) 研究
在奖励决策中冲动和自我控制的时间进程方面,也有一些研究得出了一些发现。例如,越来越多的一致性共识表明,灵长类动物奖励决策的神经生理学机制包括两个大的阶段:一是多成分评价阶段,大脑从各个维度来评估各个可得奖励刺激的主观价值,在腹内侧前额叶及相关联的纹状体部分进行;二是执行选择阶段,大脑比较这些选项之间的价值最终选择具有最高价值的选项,在侧前额和顶叶区域进行(Kable & Glimcher, 2009; Rangel, Camerer, & Montague, 2008; Rangel & Hare, 2010)。
最近Harris 等人使用EEG 技术对刺激价值在腹内侧前额皮质(vmPFC)的动态构造进行了分析,在这个实验中被试对食物项目的美味程度(引起食欲appetitive) 和反感程度(aversive)进行评估(Harris, Adolphs, Camerer, & Rangel, 2011)。结果发现刺激价值的相关脑活动是一个从后部转移到前部,从顶叶到中央再到前额叶感受器的过程,并且横跨刺激呈现后的三个主要时间窗口:150-250ms 、400-550ms 和700-800ms ,而vmPFC 中的刺激价值在400ms 之后才开始出现。和这些结果一致的是,功能性连接分析也显示出了从颞叶皮质到vmPFC 的因果性信息流,刺激价值的激活首先出现在顶叶和颞叶区域,然后在相对晚些时候出现在vmPFC 中。总之,虽然看起来价值信号在刺激呈现后150ms 就出现了,但是它在vmPFC 中出现的相对较晚,有一个动态建构的过程,并且反映了从感觉和记忆相关区域传来的整合,即vmPFC 接收到来自于后部感觉和相关皮层区域多种信息,然后在做出选择之前将这些信息整合为一个整体的刺激价值。之前的研究也表明vmPFC 中的价值信号以及vmPFC 和感觉皮层及边缘皮层之间的联系,可以表征各种各样的价值特征或者一系列广泛的刺激价值信号,从初级的到复
杂的再到抽象的(Hare, Camerer, Knoepfle, & Rangel, 2010; Hare, et al., 2009; Kable & Glimcher, 2007)。
个体差异的研究也得到了一些发现,一个对高低冲动性个体进行风险决策的研究表明(Martin & Potts, 2009),当个体做出低风险的选择时,高冲动组比低冲动组产生一个更大的P3波,这表明高风险选项是高冲动的默认选择,而低风险选项是低冲动的默认选项。此外,在高风险选项之后,低冲动组有一个更大的错误相关负波(error-related negativity,ERN) ,表明了低冲动个体将风险选项作为一个劣等的决定来对待;而高冲动组(反应更快但错误更多) 有更小的ERN ,可以解释为较低的行为监控效率和认知控制。当一个奖励违反了冲动个体的期望时,他们有一个更大的ERN ,暗示了更大的奖励敏感性;冲动的个体在惩罚上比在奖励试次中有更小的ERN ,表明了降低的惩罚敏感性。另外,前额损伤的病人、物质滥用者和自我陈述冒险者在爱荷华赌博任务(Iowa Gambling Task,IGT) 中更多冲动的选择高风险的选项,更多也是被卡片的高回报吸引的,而自我控制的个体倾向于低风险的选项(Bechara, et al., 1994; Bechara, Dolan, & Hindes, 2002)。因此,冲动的个体做出冒险的选择,更多的是由即时的奖励而不是由潜在的长期负性结果驱动的。另外有研究还指出,高冲动的个体在早期的感觉和注意相关性成分中也是不同的,有更小的P1和更大的N1,表明较低的控制和较高的指向(Houston & Stanford, 2001)。
4问题和展望
4.1设计更严密的实验范式
可以很容易看出,在很多奖励决策实验中所使用的奖励或者是在不同时刻给予不同数量的金钱(Kable & Glimcher, 2007, 2010; McClure, et al., 2004; Sescousse, et al., 2010),或者是使用初级物品(比如食物或色情图) (Hare, et al., 2009; Harris, et al., 2011; Jenison, et al., 2011; McClure, et al., 2007; Sescousse, et al., 2010),但是二者都有一些缺点:金钱具有可以替代性(fungible),食物很容易吃饱且容易引入额外的不确定性(我不确定我下周一下午是不是还想吃巧克力) ,不同个体对食物偏好不一样,色情图的诱惑力对不同男性也是不同的等等
(Reuben, et al., 2010)。因此,如何克服这些奖励材料缺点,设计更为精确巧妙的实验进行测量是未来研究的一个方向。
4.2大脑皮层各个子区域的作用
未来研究的一个重要趋势还应该是重要考察和分析大脑皮层各个子区域的单独作用以及它们之间的交互作用。而且,这个方面也取得了一些进展。例如,共同神经系统模型中发现的三个大脑区域除了共同评估奖励价值外,还具有各自精确的作用:一个最近的研究表明
腹侧纹状体信号表征与每个决定价值相关的预测误差(prediction errors) (Hare, O'Doherty, Camerer, Schultz, & Rangel, 2008),另一个研究表明纹状体包含与效用、折扣和主观价值(效用和折扣结合) 相关的独立信号(Pine, et al., 2009);内侧前额叶信号表征驱动选择(drive choice)时的主观价值(Hare, et al., 2008) ,而前扣带皮质(ACC)经常发现与冲突响应有关(Barch, et al., 2001; Botvinick, Braver, Barch, Carter, & Cohen, 2001; Botvinick, Cohen, & Carter, 2004),可能暗示着冲动行为也伴随有较大冲突,ACC 可以监控促进认知控制机制的前额叶或其相关结构的活动情况。在高级认知加工方面,后扣带皮质(PCC)、前脑岛(anterior insula ,AI) 双侧(bilateral)区域,后顶叶区域(posterior parietal cortex, PPar)双侧区域和背外侧前额皮质的几个区域(Brodmann区域9, 44, 46, 和10) 经常被观察到在涉及诸如工作记忆、抽象问题解决和支持长期目标运用的认知加工中有激活(Miller & Cohen, 2001)。
有关几个区域交互作用方面,有研究表明在做出有关食物消费的决策时,杏仁核(amygdala)可能通过影响刺激价值信号在眶额皮质中的计算来影响决策,其他的交互区域也可能影响价值计算,比如眶额皮质和腹侧纹状体的相互作用(Jenison, et al., 2011);在自愿捐款的主观价值研究中,腹内侧前额皮质和后上颞叶(posterior superior temporal cortex, pSTC)之间可能是间接发生交互作用的,或是通过其他脑区,如次级额回(inferior frontal gyrus, IFG) (Hare, et al., 2010);在练习自我控制的研究中,数据也显示背外侧前额皮质通过调整在腹内侧前额皮质的编码评价信号来影响自我控制(Hare, et al., 2009)。
总之,我们相信,对与奖励决策中与冲动和自我控制相关的各个子区域进行更精确的定位分析和功能交互作用分析将是未来研究的一个主要趋势。
参考文献:
Ballard, K., & Knutson, B. (2009). Dissociable neural representations of future reward magnitude and delay during temporal discounting. Neuroimage, 45(1), 143-150.
Barch, D. M., Braver, T. S., Akbudak, E., Conturo, T., Ollinger, J., & Snyder, A. (2001). Anterior cingulate cortex and response conflict: effects of response modality and processing domain. Cereb Cortex, 11(9), 837-848.
Bechara, A., Damasio, A. R., Damasio, H., & Anderson, S. W. (1994). Insensitivity to future consequences following damage to human prefrontal cortex. Cognition, 50(1-3), 7-15.
Bechara, A., Dolan, S., & Hindes, A. (2002). Decision-making and addiction (part II): myopia for the future or hypersensitivity to reward? Neuropsychologia, 40(10), 1690-1705.
Bickel, W. K., & Marsch, L. A. (2001). Toward a behavioral economic understanding of drug dependence: delay discounting processes. Addiction, 96(1), 73-86.
Botvinick, M. M., Braver, T. S., Barch, D. M., Carter, C. S., & Cohen, J. D. (2001). Conflict monitoring and cognitive control. Psychological Review, 108(3), 624-652.
Botvinick, M. M., Cohen, J. D., & Carter, C. S. (2004). Conflict monitoring and anterior cingulate cortex: an update. Trends in Cognitive Sciences, 8(12), 539-546.
Brody, C. D., Hernandez, A., Zainos, A., & Romo, R. (2003). Timing and neural encoding of somatosensory parametric working memory in macaque prefrontal cortex. Cereb Cortex, 13(11), 1196-1207.
De Martino, B., Kumaran, D., Seymour, B., & Dolan, R. J. (2006). Frames, biases, and rational decision-making in the human brain. Science, 313(5787), 684-687.
Frederick, S., Loewenstein, G., & O'Donoghue, T. (2002). Time discounting and time preference: A critical review. Journal of Economic Literature, 40(2), 351-401.
Grossbard, C. L., & Mazur, J. E. (1986). A comparison of delays and ratio requirements in self-control choice. Journal of The Experimental Analysis of Behavior, 45(3), 305-315.
Hare, T. A., Camerer, C. F., Knoepfle, D. T., & Rangel, A. (2010). Value Computations in Ventral Medial Prefrontal Cortex during Charitable Decision Making Incorporate Input from Regions Involved in Social Cognition. Journal of Neuroscience, 30(2), 583-590.
Hare, T. A., Camerer, C. F., & Rangel, A. (2009). Self-Control in Decision-Making Involves Modulation of the vmPFC Valuation System. Science, 324(5927), 646-648.
Hare, T. A., O'Doherty, J., Camerer, C. F., Schultz, W., & Rangel, A. (2008). Dissociating the role of the orbitofrontal cortex and the striatum in the computation of goal values and prediction errors. Journal of Neuroscience, 28(22), 5623-5630.
Harris, A., Adolphs, R., Camerer, C., & Rangel, A. (2011). Dynamic Construction of Stimulus Values in the Ventromedial Prefrontal Cortex. Plos One, 6(6), e21074.
Houston, R. J., & Stanford, M. S. (2001). Mid-latency evoked potentials in self-reported impulsive aggression. International Journal of Psychophysiology, 40(1), 1-15.
Jenison, R. L., Rangel, A., Oya, H., Kawasaki, H., & Howard, M. A. (2011). Value Encoding in Single Neurons in the Human Amygdala during Decision Making. Journal of Neuroscience, 31(1), 331-338. Kable, J. W., & Glimcher, P. W. (2007). The neural correlates of subjective value during intertemporal
choice. Nature Neuroscience, 10(12), 1625-1633.
Kable, J. W., & Glimcher, P. W. (2009). The Neurobiology of Decision: Consensus and Controversy. Neuron, 63(6), 733-745.
Kable, J. W., & Glimcher, P. W. (2010). An "As Soon As Possible" Effect in Human Intertemporal Decision Making: Behavioral Evidence and Neural Mechanisms. Journal of Neurophysiology, 103(5), 2513-2531.
Kahnt, T., Heinzle, J., Park, S. Q., & Haynes, J. D. (2010). The neural code of reward anticipation in human orbitofrontal cortex. Proceedings of the National Academy of Sciences of the United States of America, 107(13), 6010-6015.
Kalenscher, T., Ohmann, T., & Gunturkun, O. (2006). The neuroscience of impulsive and self-controlled decisions. International Journal of Psychophysiology, 62(2), 203-211.
Kennerley, S. W., & Wallis, J. D. (2009). Evaluating choices by single neurons in the frontal lobe: outcome value encoded across multiple decision variables. European Journal of Neuroscience, 29(10), 2061-2073.
Koob, G. F., Sanna, P. P., & Bloom, F. E. (1998). Neuroscience of addiction. Neuron, 21(3), 467-476. Laibson, D. (1997). Golden eggs and hyperbolic discounting. The Quarterly Journal of Economics, 112, 443-477.
Leon, M. I., & Shadlen, M. N. (1999). Effect of expected reward magnitude on the response of neurons in the dorsolateral prefrontal cortex of the macaque. Neuron, 24(2), 415-425.
Leon, M. I., & Shadlen, M. N. (2003). Representation of time by neurons in the posterior parietal cortex of the macaque. Neuron, 38(2), 317-327.
Logue, A. W. (1988). Research on self-control: an integrating framework. Behavioral and Brain Science, 11, 665-709.
Martin, L. E., & Potts, G. F. (2009). Impulsivity in decision-making: An event-related potential investigation. Personality and Individual Differences, 46(3), 303-308.
Mazur, J. E. (1988). Estimation of indifference points with an adjusting-delay procedure. Journal of The Experimental Analysis of Behavior, 49(1), 37-47.
McClure, S. M., Ericson, K. M., Laibson, D. I., Loewenstein, G., & Cohen, J. D. (2007). Time discounting for primary rewards. Journal of Neuroscience, 27(21), 5796-5804.
McClure, S. M., Laibson, D. I., Loewenstein, G., & Cohen, J. D. (2004). Separate neural systems value
immediate and delayed monetary rewards. Science, 306(5695), 503-507.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience, 24, 167-202.
Moffitt, T. E., Arseneault, L., Belsky, D., Dickson, N., Hancox, R. J., Harrington, H., et al. (2011). A gradient of childhood self-control predicts health, wealth, and public safety. Proceedings of the National Academy of Sciences of the United States of America, 108(7), 2693-2698.
Mohr, P. N. C., Li, S. C., & Heekeren, H. R. (2010). Neuroeconomics and aging: Neuromodulation of economic decision making in old age. Neuroscience and Biobehavioral Reviews, 34(5), 678-688. Morrison, S. E., & Salzman, C. D. (2009). The Convergence of Information about Rewarding and Aversive Stimuli in Single Neurons. Journal of Neuroscience, 29(37), 11471-11483.
Pine, A., Seymour, B., Roiser, J. P., Bossaerts, P., Friston, K. J., Curran, H. V., et al. (2009). Encoding of marginal utility across time in the human brain. Journal of Neuroscience, 29(30), 9575-9581.
Rachlin, H., Raineri, A., & Cross, D. (1991). Subjective probability and delay. Journal of the Experimental Analysis of Behavior, 55(2), 233-244.
Rangel, A., Camerer, C., & Montague, P. R. (2008). A framework for studying the neurobiology of value-based decision making. Nature Reviews Neuroscience, 9(7), 545-556.
Rangel, A., & Hare, T. (2010). Neural computations associated with goal-directed choice. Current Opinion in Neurobiology, 20(2), 262-270.
Reuben, E., Sapienza, P., & Zingales, L. (2010). Time discounting for primary and monetary rewards. Economics Letters, 106(2), 125-127.
Schultz, W. (2006). Behavioral theories and the neurophysiology of reward. Annual Review of Psychology, 57, 87-115.
Sescousse, G., Redoute, J., & Dreher, J. C. (2010). The Architecture of Reward Value Coding in the Human Orbitofrontal Cortex. Journal of Neuroscience, 30(39), 13095-13104.
Sheldon, O. J., & Fishbach, A. (2011). Resisting the temptation to compete: Self-control promotes cooperation in mixed-motive interactions. Journal of Experimental Social Psychology, 47(2), 403-410.
Tanaka, S. C., Doya, K., Okada, G., Ueda, K., Okamoto, Y ., & Yamawaki, S. (2004). Prediction of immediate and future rewards differentially recruits cortico-basal ganglia loops. Nature Neuroscience, 7(8), 887-893.
Tangney, J. P., Baumeister, R. F., & Boone, A. L. (2004). High self-control predicts good adjustment, less pathology, better grades, and interpersonal success. Journal of Personality, 72(2), 271-324.
Tanji, J., & Hoshi, E. (2001). Behavioral planning in the prefrontal cortex. Current Opinions in Neurobiology, 11(2), 164-170.
Neural Mechanisims of Impulsivity and Self-Control in Reward Decision-Making
Abstract: In reward decision-making, self-control is the preference of resisting instant
temptations in order to gain more valuable or long-run benefits, while impulsivity is the reverse choice pattern. The brain location of self-controlled decisions mainly involves in fronto-parietal and dorsolateral area, and impulsive decisions generally relate to limbic cortex or paralimbic cortex. There are two stages involving in the cognitive processing of reward decision-making: evaluate subjective values and making decisions. The future research should investigate the independent effect of each subregion and their interactive effects, incorporating more precise design with the results of brain location.
Key words: reward decision-making; self-control; neural system hypothesis; cognitive processing