设为首页|收藏本站|
开启左侧

[分享] [译]工作记忆的计算神经科学模型

[复制链接]
9391 0
石头剪刀布布布 发表于 2022-12-28 21:19:06 | 只看该作者 打印 上一主题 下一主题
 
1 简介

最初由 Newell 和 Simon (1956) 在计算机科学的背景下创造,术语工作记忆(WM) 被 G. A. Miller、Galanter 和 Pribram (1960) 引入认知心理学,他们将其用于这样的想法:在规划和执行复杂行为时保持目标和子目标(Cowan,2017)。从那时起,该术语的使用以复杂而微妙的方式演变,以至于 Cowan(2017)可以区分不同研究人员目前使用的九种不同的定义。对于本章描述的工作,归功于 G. A. Miller 等人(1960) 的定义将被采用(表 1:词汇表)。
表 1:词汇表
首字母缩略词/术语定义
WM工作记忆(Working Memory):如此处所用,用于在计划和执行复杂行为的过程中牢记目标和子目标的认知过程集合(根据 G. A. Miller 等人,1960 年归因于 Cowan,2017 年)。
1-2-AXAX-CPT 的分层形式,其中目标序列(AX 与 BY)由外环线索(1 或 2)提示(signaled by outer-loop cues)。
ACT-R

AX-CPT
Adaptive Control of Thought – Rational:一种极具影响力的基于生产力系统的认知模型,由 John Anderson 及其同事开发。

A-then-X 连续执行任务:受试者观察字母序列并且必须正确响应“A”后跟“X”的目标序列。
BPTT时间反间传播(Back Propagation Through Time):反向传播算法对 RNN 的扩展。
反向传播(Backpropagation)连接主义和深度学习中使用的主导学习算法(Rumelhart、Hinton 和 Williams,1986)
BG基底神经节:一组皮质下核,参与调节额叶皮质功能,包括运动活动和执行功能。
连接主义(Connectionism)一种非常成功且极具影响力的行为方法,尤其是 1980 年代出现的心理学认知建模方法,强调神经网络中的学习。
深度学习(Deep Learning)越来越多的基于神经网络的机器学习模型的通用术语,这些模型具有许多不同层按层次堆叠的特征。
ID/EDIntradimensial/Extradimensional:动态分类任务切换任务,其中块的操作规则在维度内(例如,红色与绿色)或维度外(颜色与形状)切换。
LSTMLong Short-Term Memory:Juergen Schmidhuber 及其同事开发的一种极具影响力的递归神经网络模型,该模型引入了门控维护的理念,以长期保护它。
ML机器学习:计算机科学的一个分支,处理各种形式的统计学习。大致相当于人工智能AI
N-back一项连续执行的任务,其中受试者必须指出当前显示的刺激何时与呈现的 n 步后退的刺激相匹配。通常 1 < n < 5。
PBWM

生产力系统(Production System)

PVLV
Prefrontal Cortex and Basal Ganglia Working Memory:一种基于神经网络的 WM 维护和更新模型,强调基底神经节在将项目纳入主动维护和适当更新方面的作用(Hazy、Frank 和 O'Reilly,2007 年;O'Reilly & Frank,2006 年)。

通常用于提供某种形式的人工智能的计算机程序。它的特点是一组产生式或规则,将状态(规则的 IF 部分)与要执行的动作(规则的 THEN 部分)配对。

Primary Value, Learned Value:一种神经生物学信息和约束的替代时间差分 (TD) 算法,用于生成用于训练给定网络模型的其余部分的奖励预测误差 (RPE) 信号。
RL

RNN

RPE
强化学习:机器学习的一个分支,其中仅根据标量值反馈(即好或坏)通过反复试验来学习动作。

循环神经网络:一类神经网络,其中一些单元子群反馈以在连续时间步长上激发自己。

奖励预测误差:作为实际收到的奖励与预期的奖励之间的差异而生成的错误信号。
SRN简单循环网络:RNN 的一种简单形式,涉及直接复制先前时间步的信息以将当前时间步上下文化。
TD时间差异:用于生成用于训练模型的奖励预测误差 (RPE) 信号的主要 RL 算法。
向量旋转(Vector Rotation)一个术语,用于描述神经群体活动变化的量化,将每个单元视为对应于所有记录单元的高维空间中的单一维度。因此,随着群体活动随着时间的推移而变化,它可以被描述为在这个高维空间中旋转。
WCST威斯康星卡片分类任务:受试者根据隐式规则定义的颜色或形状匹配卡片,这些规则在没有指令的情况下定期更改。
从广义上讲,计算工作记忆模型有两个层次:抽象认知层次模型和基于神经生物学的模型,后者是本章的主要重点。这些模型基于在各种延迟反应任务中非人灵长类动物的前额叶皮层中持续的延迟期神经元活动的发现(例如,Funahashi、Bruce 和 Goldman-Rakic,1989 ;Fuster 和 Alexander,1971;Kubota & Niki,,1971)。大多数这些模型背后的一个中心思想是,神经活动可以通过相互激发来维持,其中相互连接的神经元群以自我延续的方式相互发送兴奋活动(也称为混响reververnant)或循环活动recurrent activity))。在计算上,这对应于动力系统中的稳定吸引子:一旦系统进入该状态附近(称为吸引盆),该状态随时间保持不变(参见综述:Barak & Tsodyks,2014;X.-J. Wang, 2001)。这种工作记忆机制可以更具体地描述为稳健的主动维持robust active maintenance),它不同于后皮质中持续神经活动的更短暂形式,后者可以持续数百毫秒,但很快就会被新刺激覆盖(例如,干扰项)。
在功能上,时间上稳健地维持活动的能力,还必须辅之以快速更新以将新信息编码到工作记忆中的能力,当此类信息瞬时出现在感官输入中时。这两个需求是相互矛盾的,并且引入了门控(gating)的概念作为在稳健维持与快速更新之间动态切换的一种方式。长短期记忆 (LSTM) 模型 (Hochreiter & Schmidhuber, 1997) 引入了一种用于多种门控形式的抽象算法(新信息进入工作记忆的维持门控,以及从工作记忆中获取保持的信息的输出门控),以及已提出各种神经生物学机制来支持门控,包括神经调节剂多巴胺 (Braver & Cohen, 2000; Durstewitz, Seamans, & Sejnowski, 2000; Seamans & Yang, 2004) 和基底神经节 (Dayan, 2007, 2008; Frank, Loughry , & O'Reilly, 2001; Frank & O'Reilly, 2006; Todd, Niv, & Cohen, 2008)。
基于神经生物学的方法采用了来自多个物种和分析水平的经验数据来为模型提供信息和约束。在系统和认知分析层面,这项工作强调工作记忆作为高级认知功能核心组成部分的重要性,包括注意力、认知控制、决策制定、目标导向行为和执行功能(Baddeley,1986;Baddeley & Hitch,1974;Engle、Tuholski、Laughlin 和 Conway,1999;Friedman 等人,2006;Miyake 等人,2000)。机器学习算法(例如 LSTM)也是理解此类模型的功能特性的重要灵感来源,更普遍的学习在其中的一些工作中发挥着重要作用,以了解复杂的认知功能如何从更简单的神经机制中产生。
持续的神经活动对于更高水平的认知功能至关重要,可以使一致的计划或目标在实现预期结果所需的持续时间内驱动处理。从机制上讲,前额叶皮层中主动放电的神经元可以驱动特定领域后皮层区域中神经元的自上而下偏置,以将它们的处理集中在与任务相关的信息上(E. K. Miller & Cohen,2001;O'Reilly,Braver,& Cohen,1999)。这也称为基于任务的注意力。面对潜在的分散注意力的刺激或想法时保持稳定活动的特定能力一直是认知文献中工作记忆的一个重要特征 (Baddeley & Hitch, 1974; Miyake & Shah, 1999),例如在复杂工作记忆跨度任务的情况下,需要在面对正在进行的复杂认知处理时保持选定的信息。
计划或评估不同可能的未来行动方案的能力,关键取决于这种在没有外部刺激支持的情况下维持这些计划的内部表征的能力。事实上,基于跨物种额叶区域的比较发展,核心工作记忆能力可能进化为维持情感目标状态以引导行为朝向这些目标,在对应于灵长类大脑腹侧和内侧区域的额叶区域(V. J. Brown & Bowman,2002 ;Ongu¨r & Price,2000 ;O'Reilly、Russin 和 Herd,2019;Uylings、Groenewegen 和 Kolb,2003)。
表 2 包括使用此方法建模的任务和现象的具体示例。例如,PBWM 模型结合了基于生物学的额叶稳定的主动维护机制、基底神经节门控机制和基于相位多巴胺的学习机制,并且可以模拟广泛的常用的研究过的工作记忆任务,包括 1-2- AX 和语音循环 (O'Reilly & Frank, 2006)、ID/ED 动态分类 (O'Reilly、Noelle、Braver 和 Cohen, 2002)、WCST (Rougier & O'Reilly, 2002)、N-back (例如,Chatham 等人,2011)、任务切换、Stroop 任务(Herd 等人,2014)、层次规则学习(Badre & Frank,2012)和 reference-back-2 任务(Rac-Lubashevsky & Frank,2020)。
表 2:所涉及的工作记忆模型
模型显著特征关键结果
主动维持—持续的皮层活动
基于吸引子皮层间的混响活动

皮层-丘脑的混响活动
NMDAR的长时间常数支持持续活动(X.-J. Wang, 2001)
特异化的NR2B NMDAR子单元对于稳定的维持很关键(M. Wang等人,2013)(Nassar, Helmers,  &  Frank, 2018)

小鼠 ALM(Guo等人,2017)
门控相关(机器学习)
AlphaStar (Deep Mind)

Botvinick-Plaut

Deep Q-网络

LSTM

Open AI Five
Deep RL, DCNN

SRN+BPTT

Deep RL

多种形式的细粒度门控

Deep RL(包含LSTM)

结合深度RL和有感觉反馈信号的监督学习
在星际争霸II中击败人类(Vinyals等人,2019)

即时序贯回忆(Botvinick & Plaut,2006)

学会玩一大套的Atari游戏(Mnih等人,2015)

(Hochreiter & Schmidhuber, 1997)
(Gers, Schmidhuber, & Cummins, 2000)
(Schmidhuber, Gers, & Eck, 2002)

在Dota2中,5个合作的人工智能体打败了XX水平的人类团队 (https://openai.com/five)

学会使用类人的机器手进行流畅的操作(Dactyl)
(https://openai.com/blog/learning-dexterity/)
基于基底核的门控
Beiser-Houk

Dominey-Arbib

FROST

Gruber et al.

PBWM

Schroll等人

TELOS
i- 维持门控:混响的皮层-丘脑活动
ii-丘脑重放单元的瞬时的去抑制使之切换到持续的活跃态

i-维持门控:对BG输出的持续抑制,允许持续的皮层-丘脑-皮层 间的反响法                                                                                                                                                                                         

ii-输入门控:BG在两个可能目标间进行选择

i-直接排除BG在启动维持门控方面的作用
ii-注意的、皮层启动的维持反馈到BG,然后有助于支持(维持)

相位的多巴胺触发机制影响BG和皮层细胞的双稳态

i - 细胞的内在维持机制由BG门控信号触发
ii - 相位多巴胺信号在正确或错误的输出下训练BG门控信号

增加的STN活动,对显著刺激瞬间抑制丘脑并中止反响的皮层-丘脑活动

i - 分工:浅皮层用于维持、深层用于输出

ii - BG 将表皮层中的维持信号门控到深层以进行输出
序列学习(Beiser & Houk, 1998)

i - 记忆导向的眼动。(Dominey & , 1992)

ii - 选择性扫视的视觉运动辨别(Arbib & Dominey, 1995; Dominey, Arbib, & Joseph, 1995)

记忆引导的动作选择。(Ashby, Ell,
Valentin, & Casale, 2005)

注意力对工作记忆容量的影响

启动 WM 维护; 防止连续空间中 WM 表示的漂移。(Gruber et al., 2006)

1-2-AX, 语音回路 (Hazy et al., 2007; O'Reilly & Frank, 2006), WCST (Rougier & O'Reilly, 2002), N-back Chatham et al. (2011)

任务切换,Stroop任务 (Herd et al., 2014), reference-back-2任务 (Rac-Lubashevsky & Frank, 2020), 及更多……

WM 备忘录更新 (Schroll, Vitay, &
Hamker, 2012)

RL 训练的记忆引导扫视的 BG 输出门控(J. W. Brown 等人,2004 年)
这篇对基于神经生物学的工作记忆模型领域的回顾重点关注以下核心的开放性问题,这些问题表征了现有模型之间的许多重要差异:
• 从门控的角度来看,受门控调制影响的神经基质的性质和规模是什么? 这里的潜在范围可能从规模最细粒度端的单个神经元的门控扩展到通过全局门控机制(例如,神经调节剂多巴胺)对整个 PFC 的整体门控。
• 大脑中存在哪些性质不同的门控动力学,它们各自的神经基质是什么? 可能性包括:输入门控(允许感觉/自下而上激活到前额叶皮层)、维持门控(将新信息更新为主动维持)、遗忘门控(移除、重置主动维持)和输出门控(从主动维持的信息的输出) 。
• 门控事件与维持期之间的时间关系是什么? 例如,将某项门控进入稳健维持可能是一个点状事件,门仅在开始时短暂打开,然后再次关闭。或者,门可以在整个维持期间保持打开状态,在维持主动维护方面发挥关键作用。
• 在维护期间,工作记忆的静态和动态表现如何? 已经报道了相对静态的、类似棚车(boxcar-like)的持续活动的证据,以及延迟期活动的各种消长模式。
• 工作记忆容量限制的性质和来源是什么? 容量是否受到诸如少量离散插槽之类的限制(Cowan,2001;G. A. Miller,1956),或者它更像是一个共享资源(例如,Ma、Husain 和 Bays,2014)?
• 工作记忆的表征,能否为变量绑定和传输(variable binding and transfer)服务的内容可寻址的记忆提供基础?
这些问题也有许多相互依存关系,因此一个综合理论需要交互地考虑所有问题。上述每个问题都将在模型描述后的一般讨论部分重新讨论。
虽然这里的重点是神经生物学导向的模型,但有大量关于更抽象的模型的文献,这些模型专门针对人类水平的认知功能,并解释了一系列关于工作记忆容量和模式的性质和限制的行为数据 涉及(例如,Logie,2018;Oberauer 等人,2018a,2018b;Vandierendonck,2018)。有关其他背景和评论,感兴趣的读者可以参考其他来源以了解它们(例如,Adams、Nguyen 和 Cowan,2018;Burgess 和 Hitch,2005)。此外,鼓励读者查看 Oberauer 等人(2018a) 的从广泛的工作记忆任务中提取的基准人类行为现象的汇编,一组研究人员认为这些任务对于提议的模型很重要(for proposed models to address)。这些基准构成了一种工作记忆的“心理物理学”:许多不同的方法可以在相对较短的时间间隔内探索编码和检索信息的基本过程,包括:序贯回忆(serial recall)、自由回忆、复杂跨度任务、视觉变化检测、再认(recognition)、 记忆更新和 n-back。
本章剩余部分的总体组织结构如下。首先,下一节将提供此处介绍的许多问题的理论背景。然后,回顾上述范围内不同点的模型,考虑它们如何帮助理解门控的作用,以及是否存在不同形式的工作记忆系统。最后,将提供基本思想的综合总结,包括回到前面列出的激励问题(the motivating questions)。
2 背景

所有工作记忆神经生物学模型的最核心现象是前额叶皮层 (PFC) 中神经元的持续延迟期放电(例如,Fuster & Alexander, 1971; Goldman-Rakic, 1995; Kubota & Niki, 1971; E. K. Miller & Desimone,1994;Sommer & Wurtz,2000)。这种现象一直是广泛的计算建模研究的主题,在多个分析层次上。神经回路通过神经元持久放电维持信号的核心能力已通过吸引子网络的许多变体得到广泛研究(参见 Barak & Tsodyks,2014;X.-J. Wang,2001的评论)。具体来说,神经元可以通过相互激励模式持续的主动放电来随着时间的推移保持信息(你拍我的背、我也会拍你的,本质上)。尽管在大部分新皮质中都可以看到短暂的自我维持活动,但 PFC 似乎在这方面显然是专门的(例如,Funahashi 等人,1989;Fuster 和 Alexander,1971;Goldman-Rakic,1995;Kubota & Niki,1971;E. K. Miller、Erickson 和 Desimone,1996;M. Wang 等人,2013)。因此,一个关键问题是:PFC 中是否有专门的神经机制来解释这种能力?
图 1 来自 Arnsten、Wang 和 Paspalas(2012),展示了一个广泛接受的框架,说明这些混响吸引子动力学如何在标准动眼神经延迟响应任务中运作,以在延迟期间保持提示位置,从而实现对提示位置的延迟扫视 (J. W. Brown、Bullock 和 Grossberg,2004,开发了一个具有这种结构的早期系统级模型,如后所述)。具体来说,已经确定了前额叶皮层中深层第 3 层锥体神经元的专门群体,它们具有广泛的横向、相互兴奋(经常性)连接(Kritzer & Goldman-Rakic,1995;Y. Wang 等,2006)。这种连接模式在灵长类动物中经历了显著的进化扩展(Elston,2003;M. Wang 等人,2013),并且具有高浓度的 N-甲基-D-天冬氨酸 (NMDA) 受体,这对于稳定这种连接很重要,反响活动并有助于其持续的信息特异性。这些受体具有类似开关的双稳态,因此当它们被激活时,它们会驱动持续的兴奋电流,从而加强已经激活的神经元的活动。还有重要的互补双稳态抑制性 GABA-B 通道可防止先前不活跃的神经元被激活,从而大大增强吸引子状态的稳健性和稳定性(Sanders、Berends、Major、Goldman 和 Lisman,2013)。

[译]工作记忆的计算神经科学模型 第1张图片

图 1:将标准动眼神经延迟反应任务详细映射到背外侧前额叶皮层 (dlPFC) 内不同层的神经活动模式。表层 (II) 神经元接收自下而上的感觉输入,编码延迟视觉扫视的提示位置,在这种情况下,红光位于中央黄色注视点左侧 90 度。专门的深层 III 神经元具有广泛的横向循环连接,同时表达 NMDA 和 GABA-B 通道,提供混响吸引子动力学以在延迟期间维持提示位置,在此期间动物必须保持中央凝视。当凝视交叉消失时,动物可以做出反应,深层 V 输出神经元驱动运动反应,扫视到先前提示的目标位置。这项任务的所有方面通常都通过基于强化的学习以一种有形的方式进行训练,这样动物就会知道奖励只有在所有步骤都正确执行时才会发生。图改编自 Arnsten 等人,(2012)
多项研究表明,NMDA 受体阻断会损害多个物种的工作记忆表现(Krystal 等人,2005 ;Moghaddam & Adams,1998 ;Roberts 等人,2010)。M. Wang 等人(2013) 的一项特别优雅的研究表明,在深层 3 锥体细胞中靶向施用 NMDA 拮抗剂而非 AMPA 会阻断猴子 PFC 的持续活动,并损害空间工作记忆任务的表现。这些作者还展示,所涉及的 NMDA 受体在表型上专门用于表达高水平的 NR2B 亚基。
根据皮层连接的标准模式,图 1 所示的层状专门化是有意义的。感觉输入直接并通过第 4 层激活表层,然后投射到表层,PFC 的皮层下输出来自深层,大层 5b 输出神经元提供直接的运动级输出(即,它们的轴突构成向脊髓投射的锥体束)。这些 5b 层神经元也投射到基底神经节和其他皮层下目标。还有一群第 6 层皮质丘脑 (CT) 神经元投射到丘脑,这将在下面讨论。除了驱动输出响应外,第 5b 层输出神经元还传输感觉输入和持续的主动维持信号,正如在已识别的第 5b 层神经元中所有这些放电模式的明确记录所揭示的那样 (Sommer & Wurtz, 2000)。这可能源于从第 2 层和第 3 层神经元到第 5b 层的不同投射模式,并且在计算上有助于使 PFC 活动的所有方面都可用于皮层下系统。
门控问题可以直接在图 1 所示的激活模式中看到。具体来说,是什么导致第 5b 层输出神经元仅在应该启动响应的时刻激活,而不是在延迟期间更早激活? 此外,如果表层神经元始终能够更新第 3 层延迟细胞的状态,那么无关的干扰因素就会中断工作记忆系统,但工作记忆的一个决定性特征是它在面对这种干扰时的稳健性。这些问题由 LSTM 模型(Hochreiter & Schmidhuber,1997)以抽象的算法术语来解决,它有一个维持门来学习何时允许新信息进入工作记忆,以及一个输出门来学习何时允许信息输出的工作记忆系统。这两个门都作为一个简单的可乘因子在一个精确平衡的线性的工作记忆单元上运行,该记忆单元可以在时间上无限期地完美地保存信息,直到进一步门控。
因此,从神经生物学的角度来看,一个核心问题是关于支持这些门控形式的可能神经机制的性质。一组早期的提案侧重于神经调节剂多巴胺,它几乎影响 PFC 环路的所有方面,包括 NMDA 和 GABA-B 受体(Braver & Cohen,2000;Durstewitz 等,2000;Seamans & Yang,2004)。具体来说,多巴胺放电的瞬时变化,受其在强化学习中的协同作用的驱动,可以调节 PFC 中活动动力学的稳定性,在稳健的维持和可能快速更新的更不稳定状态之间切换。然而,由于多巴胺神经支配的广泛性和多巴胺细胞放电的相对同质性,这种机制可能会同时影响所有 PFC,这使得很难在稳健地维持其他状态的同时选择性地更新某些信息。对于分层运动控制和各种标准工作记忆任务,这种选择性更新的能力至关重要。
受基底神经节 (BG) 对额叶功能的广泛互连性和功能相关性数据的启发(G. Alexander, DeLong, & Strick, 1986; R. G. Brown & Marsden, 1990; Graybiel, 1995; Middleton & Strick, 2000; Mink , 1996),许多模型提出了 BG 正好提供了这种更具选择性的门控功能的想法 (Beiser & Houk, 1998; J. W. Brown et al., 2004; Dayan, 2007, 2008; Dominey & Arbib ,1992;Frank,2005 年;Frank 等人,2001;Gruber, Dayan, Gutkin, & Solla,2006;Houk,2005;O'Reilly & Frank,2006;Todd等人,2008)。其他工作从理论和实证的角度直接解决了 BG 门控问题(Chatham、Frank 和 Badre,2014;Dahlin、Neely、Larsson、Backman 和 Nyberg,2008;Voytek 和 Knight,2010)。具体来说,在额叶皮层和 BG 之间有许多平行的电路环路(parallel loops of circuitry),可以提供更具选择性、更聚焦的门控信号,并且 BG 的基本功能被广泛认为是去抑制额叶皮层中的兴奋性皮质丘脑的环路。在运动领域,这种去抑制作用被认为驱动了明显运动行为(overt motor actions)的启动 (Mink, 1996)。因此,通过类比,更高级别 PFC 区域中的 BG 门控可以驱动认知级别动作的启动,包括工作记忆表征的更新。
上述内容提供了一个相对完善的基础,下一节将激发不同的基于神经生物学的计算模型探索的一些尚未解决的问题,然后将在本章的其余部分进行更详细的回顾。
2.1 (基底核)门控的本质和前额叶表征

在许多不同的分析层次上,工作记忆门控的性质代表了一个未解决问题的巨大空间,包括门控是否真的存在这一最基本的问题。其中一些问题在介绍中得到了强调,包括:门控操作的粒度; 哪些不同类型的门控(维持、输出和其他)可能是活跃的,以及通过哪些神经机制; 以及门控动力学如何与维持激活相关?
在分析的抽象计算层面,有一组有影响力的论文展示了,一些类似工作记忆的能力如何在没有任何形式的门控机制的情况下,出现在基本类型的递归神经网络 (RNN) 中(Botvinick & Plaut,2004,2006)。有趣的是,这些模型侧重于习得良好的行为类型,包括高度练习的任务表现和即时序贯回忆(例如,重复电话号码或你刚刚被告知的其他信息),并且它们进行了成百上千次的试次来学习。这些模型也缺乏任何强形式的专门的主动维持机制,而是学会在时间上塑造动态展开的神经活动模式,以系统地编码相关的时间结构。
为了帮助将这些模型整合到更大的功能分类(taxonomy)中,人类行为中受控的(controlled)自动的(automatic)(习惯性的,habitual)处理之间公认的二分法(Cohen、Dunbar 和 McClelland,1990;O'Reilly、Nair、Russin 和 Herd,2020;Shiffrin & Schneider,1977)尤其相关。在需要持续关注并且通常需要多个认知步骤的新颖或困难的认知任务的情况下,特别需要受控处理。范例示例包括心算、国际象棋中的计划动作、以及评估困难决策问题的多个潜在方面。相比之下,自动处理发生在学得很好的、通常是单步认知操作,例如阅读印刷文字。广泛研究的 Stroop 任务非常清楚地证明了这种区别,其中自动单词阅读不受不相关墨水颜色的影响,但不太熟练的颜色命名会受到冲突颜色单词的强烈影响(Dunbar & MacLeod,1984;Stroop,1935)。
因此,有人可能会争辩说,循环神经网络的高度训练的、细粒度的、非门控动力学捕捉了更快的时间尺度、自动化形式的行为和与学习好的任务相关的认知,这些任务被认为得到了支持顶叶和低阶额叶运动区的皮质网络。相比之下,受控处理可能需要基于 BG/PFC 的模型支持的强门控、更离散、更长时间尺度的动态。后一种情况下的工作记忆内容反映了计划、目标和其他更持久的信息形式,与背外侧 PFC (dlPFC) 和腹内侧 PFC (vmPFC) 区域相关。人们可以将 BG / PFC 电路的这些受控处理角色视为涉及维护和选择任务计划和目标的认知功能的较长时间尺度“外环”时间。在这些外部循环中,发生了更自动的、熟知的认知步骤和行动的“内部循环”。
因此,基本的 RNN 模型并没有代表对门控和专门的主动维持机制的重要性的挑战,而是有助于在更高级别的认知控制/执行功能域内描述这些机制的特定相关域,这也是至少这些模型中的一些所专门针对的。
在具有门控机制的模型空间中,表征颗粒度的问题至关重要。一方面是 LSTM 模型,它通常作为具有自己的专用门控单元集的单个工作记忆的单元来使用。这会产生一组在时间上非常细粒度、多样化和动态的记忆信号,以许多不同的方式分别更新。相比之下,基于 BG/PFC 系统规定的约束的更多生物模型需要更粗粒度的门控形式。具体而言,如下文所述,生物学数据表明,相对于额叶皮层的神经元,BG 的输出核中的门控神经元数量级较少,这意味着相对较大的额叶神经元聚集体应该共享门控信号。
在最粗粒度的一端,根据高级认知功能的经典产生式系统(production system)模型,广泛使用的 ACT-R 计算建模框架(Anderson & Lebiere, 1998; Stocco, Lebiere, & Anderson, 2010)将 BG 作为驱动序列产生步骤(the sequence of production firing steps)的中心瓶颈。此框架中的产生式表示单个自动内循环处理步骤,例如将两个一位和数字加在一起、从陈述性记忆中检索事实、或将注意力集中在视觉输入显示中的特定元素上。关键的是,与许多不同的门控信号可以并行触发的模型相比,ACT-R 要求在任何给定时间只能触发一个这样的产品(production),从而产生非常粗粒度的门控形式(至少在时间域中)。
有趣的是,抽象的、认知层面的 ACT-R 框架与更基于生物学的 BG 门控模型(Jilk、Lebiere、O'Reilly 和 Anderson,2008)之间存在很好的融合,尽管它们源自非常不同的起点。PFC主动维持的BG门控原理是最直接连接这些框架的枢纽。值得注意的是,基于纯粹的行为考虑,ACT-R 框架收敛于不快于 50 毫秒的生产触发约束,这直接匹配 BG 电路的固有振荡模式(Bogacz,2013;Courtemanche,Fujii,& Graybiel,2003;Schmidt等人,2019)。
表征问题的另一个重要角度是,动态和高维的工作记忆表征如何随时间和表征空间变化?多项电生理学研究支持混合选择性(mixed selectivity)编码的概念,其中单个神经元具有相对于相关任务变量的复杂、高维响应曲线(Fusi、Miller 和 Rigotti,2016;Mante、Sussillo、Shenoy 和 Newsome, 2013)。混合选择性的高维方面被认为对于解决任意任务的灵活性很有用,但它们是以泛化到一个维度内的新刺激为代价的。另一方面,长期的研究也支持更离散、更低维度的组织,具有更离散的“方波”式时间动力学(Funahashi 等人,1989;Fuster 和 Alexander,1971;Goldman-Rakic, 1995;Kubota 和 Niki,1971;Sommer 和 Wurtz,2000)。这些不同的时间动力学也可能与信息的表征组织相互作用,更流畅的(fluid)、高维的、混合选择性的编码与更自动的处理、频谱的内环端相关联,而更离散的、方波的动力学与更受控制的频谱外环端相关。
归根结底,计算模型只能起到提出和聚焦问题的作用,需要进一步的实证研究才能更明确地回答这些问题。例如,所提出的更连续、更细粒度、动态的模型与更离散、更大尺度的门控模型之间的区别,是否适合不同级别的 PFC 和后皮质之间的直接对比? 或者,是否有可能只有这两种机制中的一种在大脑中运作,支持相关时间尺度和模式的认知功能的整个范围? 更具体地说,对于通过 BG 操作的门控,在 BG 中的门控神经元相对于 PFC 神经元少得多的强生物学约束下,这种门控相对于表征内容和神经结构是如何组织的。是否有证据表明 PFC 的不同块有单独的门控信号,如果是这样,这些块的组织是什么?
在更详细的生物学层面上,存在许多关于可以支持不同形式门控(维持、输出等)的神经机制的问题。基于 PFC 的层状组织(图 1),维持门控应优先影响专门的深层 3 层神经元(M. Wang 等人,2013),而输出门控最终需要影响皮层下投射层 5b 输出神经元( 例如,J. W. Brown 等人,2004;Harris 和 Shepherd,2015;Larkum、Petro、Sachdev 和 Muckli,2018;Ramaswamy 和 Markram,2015;Sommer 和 Wurtz,2000)。有趣的是,有两种不同类型的丘脑到皮质的传入,核心型(core)矩阵型(matrix)【译注】,它们可能对这些皮质层产生不同的影响(Clasca´, Rubio-Garrido, & Jabaudon, 2012; Jones, 1998a, 1998b, 2007; Phillips 等 al., 2019),因此可以参与两种形式的门控。具体来说,核心型丘脑投射针对中央层,包括第 3 和第 4 层;而矩阵型投射优先针对第 1 层,这里驻留第 2、3 和 5b 层锥体细胞的顶端簇,特别是位于皮质下投射层的厚簇 5b 很突出 (Harris & Shepherd, 2015; Larkum et al., 2018; Ramaswamy & Markram, 2015)。
【译注】译者理解:core型指集中性的,matrix指分散性的。
此外,额叶皮层的大部分区域接收来自至少两个不同丘脑核团以及核心型和矩阵型丘脑中继细胞的输入,内侧背 (MD) 核显著发送核心型投射(Giguere & Goldman- Rakic, 1988),但也有矩阵型细胞 (Mu¨nkle, Waldvogel, & Faull, 2000; Phillips等人, 2019)。另一方面,某些腹侧丘脑区域 (VM、VA) 主要发送矩阵型 (Kuramoto 等人, 2009, 2015),而 VL 主要发送核心型 (Kuramoto等人, 2009)。此外,与覆盖更均匀的 MD 相比,基底神经节输出核更密集、更均匀地靶向矩阵型腹侧丘脑区域(Ilinsky、Jouandet 和 Goldman-Rakic,1985;Kuramoto 等人,2009、2015;Tanibuchi , Kitano, & Jinnai, 2009a).
将这些生物学数据点放在一起,得到的假设是, BG 介导的对额叶皮层的影响可能主要在输出门控侧(矩阵类型,针对 5b 输出神经元),而皮质丘脑通路独立于 BG,主要通过 MD,可能会驱动 PFC 维护门控(核心类型,针对第 3 层)。这与越来越多的经验证据支持 MD 核团在维持(Tanibuchi、Kitano 和 Jinnai,2009b;Watanabe 和 Funahashi,2012;Watanabe、Takeda 和 Funahashi,2009;Wyder、Massoglia, & Stanford, 2004) 和更新持续的 PFC 活动两方面的作用一致(Rikhye, Gilra, & Halassa, 2018)。虽然这个想法在计算上仍然相对未被探索,但它展示了基于神经生物学的模型如何有效地结合解剖学数据以告知对计算性质的理解。同样重要的是要强调一个 PFC 区域的输出门控可能会直接影响其他区域的维持,并且 BG 驱动的门控仍然会导致目标 PFC 区域的持续神经放电,因此可能需要更详细实现的计算模型来真正梳理这些不同类型门控的全部含义和独特特征。理想地,可以对此类模型的预测进行实证检验,届时可以建立更明确的理解层次(more definitive level of understanding)。
2.2 学习机制

工作记忆系统的另一个核心问题是,它如何最终变得足够“智能”以作为广义流体智能的核心系统之一发挥作用,正如认知水平理论和心理测量数据所表明的那样(Engle 等人,1999 ; Friedman 等人,2006;Miyake 等人,2000)。如果这个问题没有明确的答案,PFC / BG 工作记忆系统最终会成为一种无法解释的矮人——大脑中的一个“小人”,它使人类变得聪明(Hazy, Frank, & O'Reilly, 2006; Hazy et 等人,2007)。这个问题的一个明确答案是,系统学习如何在 PFC 功能发展的长期时间过程中战略性地控制工作记忆的维护和更新。
因此,基于多巴胺的门控假说 (Braver & Cohen, 2000) 的一个有趣特征是,它直接在强化学习 (RL) 中对相位多巴胺信号传导的新兴理解之上建立了门控动力学 (Montague , Dayan, & Sejnowski, 1996; Schultz, Dayan, & Montague, 1997),从而提供与学习的直接联系。基于 BG 门控的后续模型也保留了与基于多巴胺的 RL 的这种联系(Hazy 等人,2006、2007;O'Reilly & Frank,2006),直接在多巴胺受体最密集的 BG 内运行,并且有广泛的证据支持多巴胺以与这些模型直接兼容的方式塑造学习的关键作用(Collins & Frank, 2014; Frank, 2005; Frank & O'Reilly, 2006; Gerfen & Surmeier, 2011; Moustafa, Sherman, & Frank, 2008 )。
这些基于多巴胺的 RL 的生物学动机的用途,与当前将 RL 与深度学习网络(即深度 RL)相结合的机器学习方法广泛一致,这些方法已被证明可以成功地学习,在包括 Atari 电子游戏、国际象棋和围棋在内的各种不同的竞争性游戏中取得成功(例如,Mnih 等人,2015)。然而,深度RL 所基于的 LSTM 门控模型仍然依赖于一种错误反向传播形式,这种形式很难与已知生物学相协调(不像更简单的反向传播形式,后者确实具有合理的生物映射;O'Reilly,1996;Whittington & Bogacz,2019)。总的来说,多巴胺与有动机的、目标驱动的学习之间的直接联系,可能更普遍地与 PFC 的任务驱动功能协同作用,再加上其已知的生物学基础,表明它可能是这些系统中更有可能的学习形式 。
此外,RL 与可选择性更新、主动维持的工作记忆表示的结合,可以被利用来产生一种归纳偏差,以在新任务条件下可以采用的方式使用这些表示,从而产生一种形式的分布外泛化或学习迁移(Bhandari & Badre, 2018; Collins & Frank, 2013, 2016; Frank & Badre, 2012; Kriete, Noelle, Cohen, & O'Reilly, 2013; Rougier, Noelle, Braver, Cohen 和 O'Reilly,2005;A. Williams 和 Phillips,2020)。因此,可能与人类水平的类符号处理能力和这些潜在的神经系统存在某种联系(O'Reilly 等人,2014)。
2.3 活动静默的工作记忆

最后,虽然这里的重点主要放在持续神经放电的神经机制上,但大量工作表明,归因于工作记忆的广泛功能也可以得到其他神经机制的支持。例如,Braver 及其同事支持主动(proactive)被动(reactive)认知控制之间的区别,其中前者对应于持续的神经放电以跨越时间延迟,而后者涉及临时离线存储,例如在海马体中,以及稍后在实际需要信息的时候的检索(例如,Braver、Paxton、Locke 和 Barch,2009)。
最近,基于观察到在延迟间隔期间神经活动通常变化很大,有时甚至似乎不存在(Stokes,2015),活动静默工作记忆的潜在相关概念获得了相当大的关注。因此,与长效内在细胞机制的作用一致,WM 中涉及的周期性突触的暂时加强可能有所贡献(例如,O'Reilly & Frank,2006;X.-J. Wang,2001),特别是 NMDA 受体的募集被证明对于稳定反射活动至关重要。还有人提出,活动静默工作记忆反映了 PFC 可以使用的优化,如果它可以摆脱它,但如果需要操纵更长时间的维护则不是(Masse、Yang、Song、Wang 和 Freedman,2019),这与更广泛的观点一致,即支持执行功能的工作记忆要求更高的形式,可能需要持续的主动维护,但更自动化的形式可能不需要。
接下来,下一节将深入探讨这里和引言中提出的想法和问题,从更详细地讨论抽象机器学习级别的计算模型开始,然后深入到更多基于生物学的模型。
3 循环神经网络、LSTM、及深度学习革命

工作记忆的经典吸引子模型的机器学习/AI 版本涉及循环神经网络 (RNN) 模型,它具有某种形式的循环(互惠)连接,与更主要、更简单的纯粹前馈神经网络形式形成对比 . 简单循环网络 (SRN)(Cleeremans、Servan-Schreiber 和 McClelland,1989 年;Elman,1990 年;Jordan,1986 年)是一个特别简单的版本,它基于前馈反向传播网络,其中层的激活向量的副本 在每个时间步之后,在下一个时间步作为附加输入反馈到网络中,最典型的情况是隐藏层反馈到自身(图 2)。这个 t − 1 激活向量由一个权重矩阵输入,该矩阵将每个 t− 1 单元与时间步 t 的所有隐藏单元连接起来; 也就是说,有一个从隐藏层到自身的 all-to-all 投影,偏移一个时间步长。

[译]工作记忆的计算神经科学模型 第2张图片
​图 2:简单循环网络 (SRN)。上下文层保存先前 (t-1) 隐藏层激活状态的副本,当前隐藏层具有可学习的突触权重,可以根据需要适应合并此时间上下文,以帮助学习当前的输入/输出映射。然而,当前或几个后续时间步不需要的任何东西都会很快被遗忘:系统的有效记忆跨度非常有限。
因此,隐藏层的先前活动状态在每个时间步为自身提供持续更新和集成的时间上下文输入。然后,根据标准反向传播算法(Rumelhart 等人,1986),在每个时间步之后更新传达 t-1 信息的循环权重以及所有其他网络权重。最近,有迹象表明后皮质中的丘脑皮质回路可能支持与 SRN 非常相似的东西,这与更短期的作用一致(O'Reilly、Russin、Zolfaghar 和 Rohrlich,2020)。

[译]工作记忆的计算神经科学模型 第3张图片
​图 3:“展开”SRN 以进行时间反向传播 (BPTT)。与简单 SRN 一样,隐藏层激活状态的副本在每个时间步结束时保存,将学习权重发送到当前隐藏层,该隐藏层可以根据需要适应合并此时间上下文,以帮助学习当前输入/输出映射。然后通过通常的梯度下降反向传播算法在每个时间步之后调整所有这些权重。由于每个时间步上下文的真实表示,系统的有效内存跨度得到了扩展。
尽管 SRN 中的学习仅限于回顾单个时间步长,但还开发了一种更通用、更强大的学习算法,称为时间反向传播 (BPTT) (R. J. Williams & Zipser, 1992),可以将其理解为“展开 ” 网络处理的多次迭代时间步长将特定序列构成一个等效的“空间化”网络,标准反向传播可以应用于该网络(图 3),关键因素是计算基于梯度的对输出的贡献 错误循环连接的隐藏层现在有两个后代层参与计算:当前时间步长的输出层以及后续时间步长的隐藏层。虽然只是 Goodfellow、Bengio 和 Courville (2016) 文本中描述的完整 BPTT 算法的一小部分,但公式 1 显示了循环连接的隐藏层梯度的 BPTT 计算如何取决于两个后代层:
(公式1)
其中 Qh(t) L 和 Qo(t) L 分别是每个时间步梯度对隐藏层 h 和输出层 o 的损失(误差)函数 L 的贡献; 和 。∂h(t+1) ΣT 和 . ∂o(t) ΣT 是后代层 h(t+1) 和 o(t) 的活动逐单元变化的偏导数矩阵,分别相对于参考时间步长 h 上的隐藏层活动 (吨)。有关 BPTT 以及标准反向传播算法本身的更多详细信息,感兴趣的读者可以参考 Goodfellow 等人的优秀文章 (2016),和/或 Werbos (1990) 的非常有用的教程级处理,Werbos 是反向传播算法的最初发明者之一(Werbos,1974)。
BPTT 过程可以与 SRN 上下文复制方法相结合,并且组合起来非常强大。这种组合模型的两个重要应用 (Botvinick & Plaut, 2004, 2006) 很好地说明了工作记忆的更动态形式的潜在能力,如下所述。
3.1 Botvinick-Plaut循环神经网络模型

Botvinick 和 Plaut (2004) RNN 模型的关键贡献是表明广泛的反向传播训练使该模型能够开发一个结构化的、层次化的编码任务(准备一杯速溶咖啡或茶)。对事件顺序的中断具有很强的鲁棒性,并且总体上表现与人类相似。因此,该模型克服了序列学习的纯顺序链接方法的主要局限性,即链接对于序列处理中的任何类型的中断都是灾难性的脆弱,因为每个时间步长都完全依赖于由 前一个。具体来说,广泛的训练使得能够学习分层组织的跨步突发事件,克服了 SRN 机制的短时间尺度工作记忆特性。
随后,Botvinick 和 Plaut (2006) 通过调整他们的模型来更直接地解决工作记忆领域,以重现正常和受损参与者在连续回忆任务中所犯的许多错误模式,其中四个要记住的项目被呈现在 序列(编码阶段),网络需要在解码阶段以相同的顺序再现项目。就像煮咖啡的结果一样,核心发现是网络再次对中断具有鲁棒性,因为它学习了能够自行捕捉任务的层次性质方面的表征。图 4 显示了该模型中的隐藏层激活向量如何在四个编码时间步长和四个解码时间步长的过程中演变。在每个时间点,隐藏层群体向量都会发生变化,以便将其传出权重与输出层进行最佳匹配,从而使输出单元按顺序解码正确的项目。
是什么导致了这种行为? 答案是学习和分布式表示的力量(Hinton、McClelland 和 Rumelhart,1986)。考虑训练过程中的第一个召回时间步长(图 4 中从左侧开始的第二个带圆圈的 1)。从前一个时间步复制过来的上下文层的群体向量将与刚刚编码的刺激 4 最对应。如果网络在这个时间步的输出是错误的,那么从上下文到当前隐藏层的递归权重将被削弱,以便下一次 可能会产生不同的输出。如果正确,循环权重将得到加强,特别是那些来自上下文层单元的权重与与刺激 1 最对应的激活向量重叠。
逐渐地,基于来自上下文层(隐藏在 t-1 处)的递归权重的变化,当前隐藏激活向量将逐渐接近对应于输出刺激 1 的向量。这样,隐藏层的种群向量变为 以允许正确顺序输出的方式在后续时间步长上系统地更改。人口媒介活动的这种系统性变化有时称为“媒介轮换”(见表 1:术语表)。因此,群体向量沿着仅在适当时间公开表示的轨迹的这种演变让人想起活动静默和/或动态演变的工作记忆表示中描述的动态群体向量轨迹(例如,Stokes,2015;Stokes 等人 ., 2013).
这些模型可能最好地描述了一种隐式记忆形式,其中相关信息深深嵌入复杂的神经动力学中,其他系统可能难以以更通用、更灵活的方式访问。此外,这种动态的时间演化表示似乎不适合在相对较长的时间内广播持续的行动计划或期望的目标状态,以指导广泛不同大脑区域的协调行为以执行计划 和实现目标。事实上,大多数意识意识理论都强调在相对较长的时间段(10 到 100 毫秒)内持续稳定的活动是一个必要的属性(Lamme,2006 年;Seth、Dienes、Cleeremans、Overgaard 和 Pessoa,2008 年),与此一致 总体观点是,与这些快速旋转的高维活动状态相关的记忆类型可能无法有意识地访问。这与支持受控处理的工作记忆形式与支持高度自动化顺序行为的工作记忆形式不同的总体建议是一致的。
3.2 长短时记忆和门控

尽管捕获了人类行为的许多方面,但 SRN / BPTT 模型在跨越更长时间延迟的能力上仍然受到很大限制,因为每增加一步时间倒退,就相当于在 BPTT 框架中添加一个额外的隐藏层(图 3) ,导致激活和反向传播学习信号的另一个指数衰减步骤(即“梯度消失”问题;Goodfellow 等人,2016 年)。他们也难以过滤掉干扰因素的影响,并有选择地更新以对顺序流中不常见的相关项目进行编码。此外,无论他们能够表现出什么样的灵活性和健壮性,都需要大量的培训,即使那样也是相对有限的。为了直接解决这些问题,Schmidhuber 及其同事在长短期记忆 (LSTM) 模型中引入了动态学习门控机制(Gers 等人,2000 年;Hochreiter 和 Schmidhuber,1997 年;Schmidhuber 等人,2002 年)。
LSTM 中的基本功能元素是记忆单元(图 5 中的矩形框)。记忆单元的核心是恒定误差旋转木马(CEC),它实际上是一个具有线性激活函数和权重为 1.0 的固定自循环连接的单元(矩形中间底部带有对角弦的圆 ),这使它能够在可能不确定的时间步长上以真实形式存储活动状态。然而,就其本身而言,CEC 会在每个输入信号的影响下不断地反弹,因此 LSTM 模型添加了可学习的门控单元,以在门关闭时保留 CEC 的当前状态,并允许它在门关闭时快速更新 大门是开着的。因此,CEC 状态 scj 根据以下等式在每个时间步更新:
(公式2)
其中 scj (t) 是 CEC 在时间步长 t 的活动状态; g(netcj (t)) 是一个非线性的压缩激活函数,其辅域为 0 到 1; yinj (t) 是输入门函数 inj 的激活值(内部 S 形矩形下方的左圆)。
此外,输出门单元(带 S 形的右圆)确定何时将 CEC 激活传递给其他神经元。因此,记忆单元的输出 ycj 在每个时间步计算如下:
(公式3)
其中 ycj (t) 是记忆单元在每个时间步的输出; youtj(t)为输出门单元outj的活动; h(scj (t)) 是 CEC 当前状态值的非线性函数,scj ..
有了这些门,LSTM 可以无限期地锁定和保存信息,并学会在未来的精确点驱动输出。Hochreiter 和 Schmidhuber (1997) 采用了 Robinson 和 Fallside (1987) 描述的 BPTT 逻辑的实时变体,用于学习何时打开和关闭这些门,作为整体任务错误的函数。至关重要的是,输入和输出门不仅控制进出 CEC 状态的访问,它们还通过将反向传播误差信号的访问控制到整体的输入 (wcji) 和输出 (wicj) 权重来过滤学习 存储单元(图 5),从而防止它们在门关闭时发生变化。
每个 LSTM 记忆单元通常用作标准网络中的单个单元,从较低层接收全加权突触输入,并将输出发送到较高层。尽管最初的 LSTM 论文设想了每组门有多个 CEC 存储单元(和 CEC)的可能性,但实际上很少使用。因此,典型的 LSTM 模型表现出与 Botvinick 和 Plaut (2004, 2006) 研究的 RNN 类似的复杂、高维、类旋转动力学,但具有自然偏向于随时间保持信息的显着优势(而不是 必须经过明确培训才能这样做),并且能够通过门控在很长一段时间内以相对受保护的方式维护信息。
Schmidhuber 及其同事后来添加了一个遗忘门(未包含在图 5 中)来处理在事件(时间步长)未分组为离散试验的连续性能条件下出现的重要问题。他们发现的问题是,他们的存储单元/传送带在没有间歇性清除(重置为 0)的情况下变得饱和,而间歇性清除通常以编程方式在离散试验之间发生。添加遗忘门单元允许网络学习自适应地清除存储单元(Gers 等人,2000)。这些遗忘门是大多数当前 LSTM 实现的标准,并强调了遗忘与记忆一样重要的关键点,从信噪比的角度来看:重要的是删除旧的、不相关的信息,以便新的、相关的信息可以 自然驱动处理。
3.3 深度强化学习

随着过去十年深度学习的爆炸式增长,事实证明,LSTM 已成为具有预测性、时间偶然性组件的网络的主力军。这些通常仍然通过传统的监督反向传播进行训练,但最近许多深度学习研究人员已经开始使用 RL 版本训练这些基于 LSTM 的深度网络,以便仅反向传播奖励信号以训练门控单元 控制 LSTM 单元。深度卷积神经网络、LSTM 和强化学习的这种三重合并被称为深度强化学习,并且仅在过去几年就产生了许多令人印象深刻的成功。
例如,深度 RL 模型 Deep Q-Network 学会了以端到端的方式玩一大套 Atari 游戏,只使用屏幕上的像素作为输入,游戏中的点作为奖励函数( Mnih 等人,2015 年)。然而,该模型相当脆弱——例如 如果你在 breakout 中只移动桨两个像素,它就无法适应 (Kansky et al., 2017)。此外,在 2017 年,由深度 RL 训练的五名合作人工智能代理人组成的团队(Open AI Five)在 Dota 2 虚拟游戏的修改版中击败了锦标赛级别的人类团队(https://openai.com/five/)。并且,使用与 Open AI Five 相同的算法,另一个团队将深度强化学习与感官方面的监督学习(深度卷积神经网络)相结合,以训练机器手(Dactyl)以令人印象深刻的类似人类的方式操纵积木 (https://openai.com/blog/learning-dexterity/)。最后,在 2019 年,DeepMind 的 AlphaStar 在深度卷积神经网络中结合了深度强化学习和监督学习,赢得了星际争霸 II。
总之,LSTM 模型强烈表明工作记忆的动态门控具有关键的计算优势,但当前的 LSTM 模型保留了非门控 RNN 的动态、高维时间动态的更隐式形式,并且两者都可能是更好的模型 隐含的、高度自动化的任务性能。这些自动化任务级别模型的一个关键限制是它们相对不灵活,这与认知控制和执行功能的定义特征形成强烈对比,后者与认知神经科学文献中的工作记忆更密切相关。接下来将检查后一个域的模型。
4 门控:选择性更新的模型

关于 LSTM 算法中动态、可学习门控优势的计算级见解与大量生物学数据相结合,支持基底神经节 (BG) 为 PFC 工作记忆活动提供动态、可学习门控的观点。人们早就认识到,额叶皮层与更多后部区域的最大区别是 BG 在调节皮层活动中的额外参与。对于运动皮层,这反映在 BG 在运动动作的选择性门控中普遍接受的作用(例如,Mink,1996),现在有一个现代共识,即 BG 与认知功能密切相关且类似(R. G. Brown & Marsden ,1990 年;Dahlin 等人,2008 年;Frank,2005 年;Frank & O'Reilly,2006 年;Graybiel,1995 年;Gruber 等人,2006 年;Houk,2005 年;Middleton & Strick,2000 年;Rac-Lubashevsky & Frank,2020 年 ;Voytek 和 Knight,2010 年)。
具体来说,长期以来一直有人认为,在运动控制中运行的相同基本门控机制可能在进化过程中进行了调整以支持认知功能(例如,Beiser & Houk, 1998; Middleton & Strick, 2000; Wickens, Alexander, & Miller, 1991),现在有相当多的经验证据表明 BG 通过丘脑做出的特定门控决定可以执行维持门控功能 (Basso & Wurtz, 2002; Cole, Bagic, Kass, & Schneider, 2010; Hikosaka & Wurtz ,1983 年;McNab 和 Klingberg,2008 年;Monchi、Petrides、Strafella、Worsley 和 Doyon,2006 年;Nyberg 等人,2009 年;Rikhye 等人,2018 年;Stelzel、Basten、Montag、Reuter 和 Fiebach,2010 年;Yehene , Meiran, & Soroker, 2008). 这导致了一系列基于 PFC 和 BG 相互作用的计算模型,本文将回顾其中的一些模型,重点关注每个模型提出的与工作记忆门控相关的机制。
正如引言中所指出的,这些基于 BG 的模型倾向于关注较长时间尺度的动作选择和认知控制,一般认为 BG 在较长的外环时间尺度上起作用以帮助选择下一个动作过程, 并支持在这些较长时间范围内组织行为所需的认知控制和执行功能。这些想法与来自帕金森症和其他 BG 疾病严重病例的惊人数据一致,这些病例导致紧张症状态,几乎没有或根本没有自愿、自发的行动,如电影《觉醒》(罗伯特·德尼罗和罗宾·威廉姆斯主演)中所描绘的那样 . 因此,与以上述 RNN 模型为特征的自动、习惯性内循环级行为相比,这些模型很可能描述了完全不同的现象。
4.1 PBWM框架

PBWM(前额皮质,基底神经节工作记忆)模型直接受到 LSTM 门控的启发,并结合现存的 BG 生物学数据(Frank 等人,2001 年;Hazy 等人,2007 年;O'Reilly,2006 年) ; O'Reilly & Frank, 2006)(图 6)。PBWM 假定如上所述 PFC 神经元的基本持续放电(由循环兴奋环和包括 NMDA 通道在内的内在机制支持),并显示 PFC 的 BG 去抑制如何驱动这些持续工作记忆表征的快速更新。具体如图7所示:
• 在 BG 的直接或 Go 通路中发射将解除抑制 PFC 相应区域(称为条纹)中一个或几个兴奋性丘脑皮层环路的选定子集,并且这种解除抑制应提供足够的额外兴奋以打开 NMDA 受体,并触发强大的主动维护。这种用于工作记忆更新的 Go-gating 概念与大部分 BG 信号的稀疏性和偶发性特征一致 (G. E. Alexander, 1987; Kimura, Kato, & Shimazaki, 1990; Plenz & Wickens, 2010),并且与 BG 在行动开始时特别参与的想法。
• NoGo 通路在决定是否更新单个条纹的过程中与 Go 通路相反(Collins & Frank, 2014; Frank et al., 2001; O'Reilly, 2006; O'Reilly & Frank, 2006)。在 PBWM 模型中,如果 NoGo 通路在这两条通路的竞争中胜出,则相关 PFC 区域将继续进行持续的主动维护。这与 NoGo 被视为更直接抑制皮层活动的其他可能模型形成对比(例如,Arbib 和 Dominey,1995;Ashby 等,2005;Dominey 等,1995;Dominey 和 Arbib,1992; Mink,1996 年;Schroll 等人,2012 年)。在计算模拟中,NoGo 点火保护正在进行的主动维护的能力已被证明是有价值的。然而,这不是一个完全解决的问题,并且仍然是正在进行的研究的一个重要问题。例如,BG 中的 D2 活动已被证明可以抑制特定动作,诱导 NoGo 学习,并影响更新和注意力分散(Collins & Frank, 2014; Frank & O'Reilly, 2006; Hikida, Kimura, Wada, Funabiki, & Nakanishi ,2010 年;Kravitz、Tye 和 Kreitzer,2012 年;Yttri 和 Dudman,2016 年;Zalocusky 等人,2016 年)。
• 奖赏预测错误产生的阶段性多巴胺信号有助于根据奖赏结果的相对价值加强Go/NoGo 决策。
• 通过启用选择性更新不同的条带,其中信息可以被编码,一种强大的角色填充变量绑定形式(O'Reilly,2006)和更高级别的间接 Kriete,Mingus,Wyatte,Herd 和 O'Reilly( 2011)可以实现,支持系统的结构敏感认知处理(O'Reilly et al., 2014; Rougier et al., 2005)。
开发 PBWM 模型的一个主要工作重点是研究更符合生物学现实的收入机制如何能够训练 BG 学会在适当的时间点进门,以支持有效的认知功能。因此,PBWM 不是依赖于如上所述的生物学上不可信的 BPTT 算法,而是使用基于阶段性多巴胺神经调节的成熟的生物学学习机制。具体而言,奖励相关的相位多巴胺信号通过多巴胺 D1 与 D2 受体在两条通路中的差异表达分别为 BG 的 Go 和 NoGo 通路提供适当的训练信号(Frank,2005;O'Reilly & Frank, 2006)(图 7)。这直接实现了 Thorndike 的效果逻辑定律:如果门控导致好于预期的结果,则加强该门控,相反,如果门控导致差于预期的结果,则惩罚该门控。
这种学习形式的一个关键持续问题是需要跨越门控和后续结果之间可能存在的长期时间间隔(即时间信用分配问题)。尽管早期版本的 PBWM 使用基于工作记忆活动模式本身的类似 CS 的学习机制,但最近的版本探索了使用更持久的突触标签 (Redondo & Morris, 2011),最初可以通过门控激活 活动,但随后受到随后的相位多巴胺信号的调制和影响。这会产生类似于强化学习的 ACT-R 版本的整体学习动态,它在结果出现时将其强化信号统一应用于导致该结果的所有生产触发(自上次结果以来)(Stocco 等人, 2010)。
通过结合基于生物学的相位多巴胺信号传导模型(PVLV 模型;Primary Value and Learned Value;Mollick 等人,2020 年;O'Reilly、Frank、Hazy 和 Watz,2007 年),PBWM 表明许多复杂的工作记忆任务 (包括那些具有任意数量的干预干扰因素的)可以从使用这种门控机制的试错经验中学习。这些包括 1-2-AX 和音韵循环(O'Reilly & Frank,2006)、ID/ED 动态分类(O'Reilly 等人,2002)、WCST(Rougier & O'Reilly,2002)、N- back(例如,Chatham et al., 2011)、任务切换、Stroop 任务(Herd et al., 2014)、层次规则学习(Badre & Frank, 2012)和 reference-back-2 任务(Rac-Lubashevsky & 弗兰克,2020)。
在最初的 PBWM 模型中,假设被称为条纹的解剖结构 (Levitt, Lewis, Yoshioka, & Lund, 1993) 可以是单独的、选择性的可门控区域,由皮质迷你柱的聚集体组成,大致对应于超柱 通常在各种不同的皮层区域进行描述(Mountcastle,1997)。然而,尚不清楚这种对应关系是否得到现存数据的强烈支持,因为相关实验尚未完成。然而,有一些暗示性证据表明至少在某种程度上以 Rao、Williams 和 Goldman-Rakic (1999) 描述的系统排序的 iso-coding 微柱的形式存在邻域一致性,即相当于迷你柱 上面提到的。
另一种潜在的组织形式涉及区分在随后的运动动作之前就发射的神经元(即预备发射)与在动作时发射的神经元(即输出或动作发射)。根据这两个不同的时间域,不同的 PFC 神经元似乎是专门化的,至少在额叶眼区具有解剖学组织(Sommer & Wurtz,2000)。较新版本的 PBWM 模型合并了准备(维护)门控和输出门控之间的区别,这也很好地映射到 LSTM 框架中这些不同类型的门控(图 8)(O'Reilly、Hazy 和 Herd, 2016 年;O'Reilly、Munakata、Frank、Hazy 和贡献者,2012 年)。BG 中这些不同形式的门控有不同的学习和激活动力学需求,这进一步支持了它们由整个系统中不同的子电路支持的想法。最后,越来越多的实证数据和理论分析支持人类维护与输出组织的基本思想(例如,Badre & Frank, 2012; Chatham & Badre, 2015; Chatham 等人, 2014; Collins 和 Frank,2013 年;Frank 和 Badre,2012 年;Gayet、Paffen 和 Van der Stigchel,2013 年;Haith、Pakpoor 和 Krakauer,2016 年;Huang、Hazy、Herd 和 O'Reilly,2013 年;Kriete 等人, 2013 年;van Moorselaar、Theeuwes 和 Olivers,2014 年)。
总之,PBWM 在基于生物学的框架中捕获了以下核心假设,虽然计算能力明显低于 LSTM 的完整 BPTT,但仍能够学习依赖于持续工作记忆的执行功能任务:
• 基底神经节控制 PFC 中的主动维护,阶段性 Go 通路激活驱动快速更新以编码新信息,并反对 NoGo 通路激活阻止此更新并支持持续维护(而不是抑制它)。
• 这种门控可以通过多巴胺D1 和D2 受体的相反作用,通过阶段性多巴胺神经调节来学习。
• BG 门控同时影响许多 PFC 神经元(那些位于相同“条纹”内的神经元),相反,有许多可分离的此类条纹由不同的 BG 门控信号控制(即,它们是独立门控的),提出了一个重要问题,即这些 PFC 如何 神经元可能是根据它们共享的和不同的门控信号来组织的。
• 有证据表明可分离维护与输出门控在 PBWM 模型中具有不同的学习和动态要求——可以做更多的工作来根据经验调查这些问题。
在本节的其余部分,将在整体工作记忆和运动/认知控制任务的背景下审查各种其他模型,这些模型提出了关于门控动力学如何运作的不同假设。例如,在 PBWM 框架中,BG 门控在某种意义上用作一种弹簧加载门,它仅用于通过短暂的打开时间来启动维护过程。显而易见的替代方案是 BG 通过成为可以保持打开状态的门来参与正在进行的维护过程,在这种情况下,整个延迟期间都是如此。几个模型已经采用了这种想法的版本来进行维护门控。
4.2 自主眼动的Dominey-Arbib模型

在一系列论文中,Dominey 和 Arbib 描述了一种眼跳系统的计算模型,该模型主要包括用于记忆引导眼跳的工作记忆组件(Arbib & Dominey,1995;Dominey 等,1995;Dominey & Arbib,1992)。基于来自灵长类动物额叶眼场的当时范围的电生理数据,如图 12 所示,Dominey-Arbib 模型包括目标记忆和眼跳生成单元的单独集合(总共四个单元 类型)。Dominey 和 Arbib 提出了一种由持续抑制 BG 输出控制的门控机制,该机制允许在丘脑中起作用,以在延迟期间维持其记忆编码细胞中混响活动的皮质丘脑皮层环路,这是一种维持门控形式。在延迟期间通过持续注视阻止了眼跳,然后在延迟结束时通过移除注视刺激而允许触发; 因此,没有明显的输出门控意义。
对于视觉运动歧视的单独范式,其中受试者必须在两个同时呈现的目标之间进行选择,Dominey 和 Arbib 描述了 BG 执行的一种输入门控形式,有助于在两个目标之间进行选择(Arbib & Dominey,1995;Dominey 等 等人,1995 年)。因此,可以说 Dominey-Arbib 模型包括此处定义的输入和维护门控版本,但不包括输出门控。该模型没有提及可能构成这两种处理之间分工的皮层组织。
4.3. Ashby等人的FROST模型

Ashby 等人采用了类似于 Dominey 和 Arbib 的方法。(2005) 在他们的 FROST 模型(FROntal 皮层、纹状体和丘脑)中。关于维护门控,FROST 模型的一个有趣且看似独特的方面是它明确排除了 BG 在维护门控启动中的作用,仅排除其持久性。引用 Hikosaka、Sakamoto 和 Usui (1989) 的数据显示纹状体细胞的持续放电仅在待记忆刺激抵消后才开始,作者提出 BG 的作用是允许维持活动已经开始 皮层通过激活纹状体细胞来募集皮质丘脑皮质混响活动环路,从而解除对丘脑的抑制。没有提到其他类型的门控,包括输出门控。
FROST 模型的另一个显着特征是 Ashby 等人。(2005) 明确地归因于选择性注意在主动维护的皮质启动中的作用,并且能够解释注意力效应以及 Cowan、Nugent、Elliott、Ponomarev 和 Saults 报告的测量工作记忆容量模式的个体差异 (1999)。图 9 显示顶部 (A) 的实证结果和下方 (B) 的 FROST 模型结果,每张图中较高的曲线组反映了注意力的影响,每条曲线都是具有不同测量工作记忆跨度的受试者。
4.4. Schroll等人的BG的模型

受有关 BG 的相当多的神经生物学细节的启发,Schroll 等人。(2012) 开发了 BG 功能的综合模型(图 10)。与本节前面的模型一样,他们的模型将维护门控实现为纹状体中的持续活动,允许皮质丘脑皮质环路的持续混响。在他们的模型中,底丘脑核 (STN) 对 BG 的输出核(GPi 和 SNr)施加强烈的兴奋性基调,并且它本身也接收来自大部分额叶皮层的广泛兴奋性输入。新的相关刺激的开始以相对全局的方式瞬时增加 STN,从而增加 GPi 和 SNr 的活动,从而瞬时抑制丘脑并打破反射性皮质丘脑皮质活动的正反馈回路,有效地清除工作记忆的当前内容。这允许存储更新的备忘录。由于已知从 STN 到 GPi 和 SNr 的输入是相对全局的,因此尚不清楚这种机制如何能够区分要存储的项目和干扰项。同样,尚不清楚这种机制如何能够有选择地仅更新当前维护的三到四个项目中的一个。
4.5. 顺序学习的Beiser-Houk模型

两个有影响力的模型已经包含了维护门控的点状和持续版本的混合体,并且可能会提出一些可以综合这两种方法的方法。Beiser 和 Houk (1998) 的序列产生模型利用了丘脑中继细胞独特的生物物理特性,这些细胞表现出对 BG 介导的去抑制反应的爆发性放电,这反过来又激活了皮质丘脑皮质反射活动。尽管纹状体活动只是短暂的,以便在他们的模拟中启动维护门控,但他们还描述了在整个延迟期间持续发射的实例,这些情况也发生在最初的维护触发活动之后。虽然与他们的模型没有直接关系,但这可以为上述持续活动模型架起一座桥梁。此外,该模型能够重现大量序列,完全基于随机初始连接而无需任何学习,这表明这些突发发射动力学可能提供有用的通用排序机制。
4.6. 多巴胺调制的Grubber等人的模型

Gruber 等人的模型。(2006) 也主要依赖于 BG 的类似触发器形式的维护门控,但在整个维护期间也有后续的许可作用。在这个模型中,相位多巴胺影响皮层和纹状体中细胞的双稳态特征,触发 MSN 的上行状态,进而触发皮层中可变稳定的吸引子状态。即使在连续空间中,少量持续的纹状体活动也可以通过在丘脑处为初始化空间位置打开门来稳定皮层表征,从而防止噪声引起的漂移,否则这对于连续线吸引模型是有问题的。
4.7. Brown, Bullock和Grossberg的TELOS模型

根据指导 Dominey 和 Arbib 工作的同类猴子电生理数据(例如,参见图 12),J. W. Brown 等人。(2004) 开发了一个详细模型 (TELOS) 来解释许多不同眼跳范式的结果,特别是解决自愿(自上而下生成)和非自愿(自下而上)眼跳之间的紧张关系。与工作记忆和维护门控问题最相关的是作者处理记忆引导扫视案例的两个方面:
• J. W. Brown 等人。(2004) 明确映射了 FEF 细胞的类别,这些细胞表现出对 FEF 皮质层的不同反应模式:对中间皮质层(大约第 4 层)的输入反应; 表层层的记忆编码 (2, 3, 5a); 并且专门针对第 5b 层产生扫视。因此,他们关于延迟反应的故事是,表层在延迟期间保持了对目标位置的记忆,而第 5b 层的大型皮质下投射锥体细胞在适当的时间被激活以产生眼跳(见图 1 的 图表)。
• 在 BG 介导的门控方面,TELOS 似乎是第一个描述输出门控形式的神经生物学模型,其中 BG 用于打开一个门,允许第 5b 层细胞在适当的时间激活以产生 扫视。输入处理和延迟期间持续射击的启动和维持都被视为或多或少的自动过程,无需 BG 的参与。
因此,虽然本节前面讨论的模型以某种形式包含了 BG 的角色用于维护门控(Dominey-Arbib 还包括输入门控),但 TELOS 仅包含 BG 在输出门控中的角色。
关于作者将维护映射到浅表皮层层和输出到深层 5b 细胞,这个帐户的一个明显问题是来自 Sommer 和 Wurtz (2000) 的数据(图 12)明确地证明了所有种类的活动 信号,包括记忆细胞信号,在延迟期间被传输到上丘,这些信号只能来自皮质下投射层 5b 锥体细胞。鉴于类似 TELOS 的层流专业化与背景中讨论的大量其他数据一致,调和这两个看似矛盾的数据集很重要,因为层间和柱间划分的某种组合很可能 -劳动力都参与了。
现在已经确定,第 5b 层锥体不是同质的,可以根据两种形态(Fries,1984;Leichnetz、Spencer、Hardy 和 Astruc,1981)和关键的不同皮质下目标(Economo 等)细分为多个亚型 等人,2018 年;Harris 和 Shepherd,2015 年;Hattox 和 Nelson,2007 年;Ramaswamy 和 Markram,2015 年;Winnubst 等人,2019 年)。因此,输出门控的功能效应取决于 5b 亚型中的哪些被门控及其相应的皮层下目标。尽管 J. W. Brown 等人(2004)在这种情况下没有直接提到这一点。他们的模型确实采用了 5a 和 5b 亚型(在形态上也是不同的)之间的功能区别,这两种亚型都可能投射到上丘,但假设只有 5b 被 BG 输出门控。因此,一个直接的协调是建议 5a 神经元以非门控方式传递来自其他层的输入和维护信号,而 5b 由 BG 输出门控,以驱动明显的反应,例如眼跳。
这个解释与 Sommer 和 Wurtz (2000) 以及早期解剖学数据(Fries,1984;Leichnetz 等人,1981)的几个细节一致,表明投射到丘的第 5 层细胞内的形态多样性,并且运动 Sommer 和 Wurtz (2000) 特别鉴定的细胞确实是最大和最快传导的细胞,与 5b 剖面一致。此外,尽管 Sommer 和 Wurtz (2000) 发现在 FEF 最极端的横向边缘,电机输出位置与其他细胞类型的位置存在地形偏差,但这些细胞类型在 FEF 的大部分范围内大量混合。FEF,与层流专业化模型一致,而不是跨 FEF 不同区域的细胞的更强地形隔离。
4.8. 拥抱多样性

总而言之,在几个不同的研究小组开发的许多不同的神经生物学导向模型中探索了各种不同的想法,但至少人们普遍认为额叶皮层对于积极维持工作记忆状态至关重要 时间,并且基底神经节可能在驱动这些额叶活动状态的类似门控的调制中发挥某种作用。如前所述,有证据表明,除了与 BG 的不同连接模式外,多个不同的丘脑回路可能调制 PFC,具有潜在不同的连接和目标特征模式。越来越多的实证研究使用先进的神经科学技术来确定这些电路的特性和功能,其结果应直接为计算模型的进一步发展提供信息。因此,该领域可能会迎来新一波包含这些新数据的“第二代”模型,并可能最终采用上述现有模型集的总体机制的不同子集。
5 普遍性讨论

本章回顾了在更高认知功能的背景下工作记忆的一些开创性计算模型。特别是,LSTM 的开发被用来激发维护和输出门控的计算需求。还强调了作者自己的以门控为中心的 PBWM 框架,并通过基底神经节介导的门控与其他几个模型进行了比较。下面总结了一些可能针对引言中提出的激发性问题得出的初步结论。
5.1. 独立可门控单元的表征尺度

本章回顾的所有神经生物学动机模型至少隐含地为单独的项目使用了某些版本的单独通道,尽管 PBWM 框架可能是最明确的,因为它通过将这些通道映射到“条纹”的生物学特征上。有趣的是,AI 社区对 LSTM 框架的采用已经演变为在单个单元级别运行门控功能,这是粒度范围的最细粒度端。尽管如此,在这些模型中更系统地探索这个门控粒度维度会很有趣,因为它可能尚未被探索,并且生物学限制强烈表明,至少对于 BG 介导的门控,每个门控信号有许多 PFC 神经元 .
相关生物学数据如下。最初,G. Alexander 等人。(1986) 描述了五个基本独立的闭环,将额叶皮层的特定区域与其自身连接起来并贯穿 BG。从那时起,大量研究表明,皮质和 BG 之间的连接具有闭环和开环特性(例如,Haber,2003 年;Haber & Knutson,2010 年;Joel & Weiner,2000), 并且闭环方面可以在比原来的五个循环更细粒度的水平上观察到 (Ferry, O¨ ngu¨r, An, & Price, 2000; Flaherty & Graybiel, 1993a, 1993b; Graybiel , Flaherty, & Gimenez- Amaya, 1991; Haber, 2003),包括人类(Choi, Yeo, & Buckner, 2012; Jung et al., 2014; Pauli, O’Reilly、Yarkoni 和 Wager,2016 年)。这就提出了一个关键问题,即这种闭环连接可能有多细粒度,因为就工作记忆更新而言,这可以作为单个 BG-gateable 单元的神经解剖学和表征范围的一种下限。
最强的约束来自这样一个事实,即 BG 的输出通路 GPi / SNr 中的神经元比受 BG 门控信号影响的额叶皮层相应区域中的神经元少得多。一个合理的、也许是保守的估计是,人脑中 140 亿个锥体细胞中大约有 50 亿 (35%) 位于额叶皮层 (Pakkenberg & Gundersen, 1997)。同时,对 BG 的输出核(GPi 和 SNr)中的细胞总数的合理估计在人类中约为 740,000(GPi:352,000;SNr(非多巴胺):288,000)(Hardman 等人 ., 2002). 因此,每个 BG 输出细胞下游大约有 6,750 个额锥体细胞。此外,因为每个等编码微柱有 70 个左右的锥体细胞,这意味着每个 BG 输出细胞下游有大约 100 个皮质微柱,这个比率可能是下限。基于这种粗略计算,以及已知的丘脑皮层连接模式,似乎很明显,单个锥体细胞甚至单个微型柱的门控实际上是不可能的。
5.2. 工作记忆的容量限制

另一个可能限制工作记忆门控和整体表征组织范围的来源是试图确定工作记忆容量限制的起源和性质的研究。乔治·米勒 (George Miller) (1956) 著名地表明,工作记忆似乎一次只能容纳 7 个正负 2 个项目。这个神奇的数字是否以某种方式揭示了有多少个可独立门控的工作记忆状态? 如果是这样,根据 GPi / SNr 瓶颈,这将表明比可能的最细粒度的频谱末端更粗粒度的门控形式,这当然是可能的:许多单独的 GPi / SNr 神经元可以一起工作以驱动 门控更大范围的 PFC。然而,进一步的研究表明,这种能力限制可以分别应用于许多不同的表征领域(语言、视觉、数字、空间等),实际上更像是 4 个项目而不是 7 个(Cowan,2001 年,2011 年;Luck & Vogel, 1997,2013;Zhang & Luck,2008),例如,当使用不可预测的报告点测试数字跨度时,排练和组块策略对性能的贡献较小(Cowan,2001)。最近,人们认识到,测量的记忆跨度的差异也可能因快速学习效果的可变贡献而变得复杂(Cowan,2019)。
很难知道有多少这样的代表性域,但例如,如果每个门控单元有 70 个 GPi / SNr 神经元,每个域有 4 个门控单元,则总共大约有 2,640 个不同的此类域, 考虑到额叶皮层编码的整个信息范围,这可能是一个合理的数字。同样,这些只是粗略的数量级计算,大脑不太可能以这种方式清晰地组织起来(即,可能存在部分重叠,不同的子集在不同的情况下被激活,等等)。
与这种更“基于时隙”的分析相反,大量研究发现,记忆的精确度随着记忆负荷和视觉刺激之间的相似性而变化(Bays、Catalao 和 Husain,2009 年;Bays 和 Husain, 2008 年;Ma 等人,2014 年;Wilken & Ma,2004 年),并且一个项目的精度提高是以牺牲其他共同维护的表示为代价的(Gorgoraptis、Catalao、Bays 和 Husain,2011 年;Pertzov、Bays、Joseph , & 侯赛因, 2013). 因此,这种观点认为,工作记忆容量最好被视为可以在多个项目之间灵活分配的单一共享资源,而不是固定数量的槽(例如,Ma 等人,2014)。
吸引子模型增加了横向抑制连接,可能会调和这种槽与资源的争论(例如,Fukuda、Vogel、Mayr 和 Awh,2010 年;Nassar 等人,2018 年;Wei、Wang 和 Wang,2012 年)。魏等。(2012) 展示了共享神经群体中多个项目的表示如何表现出连续资源共享和离散项目的特征,因为只有有限数量的“碰撞吸引子”可以在单个群体中共存而不会发生碰撞(合并), 并且保留的项目越多,每个凹凸表示的强度和保真度就会降低。纳萨尔等。(2018) 表明,通过向 Wei 等人添加横向激发抑制的中心环绕模式。(2012) 网络他们可以通过建立一个类似分块的机制来进一步解释精度与召回权衡的其他方面,该机制用于组合跨项目的相似值的特征(例如,将各种红色阴影视为单个特征值)和 这种表示策略的好处似乎在划分大约四个类别的特征空间时渐近。
至少在理论上,离散的门控槽可能会根据这些吸引子模型做出不同的预测,并且这两个模型的某些特定组合可能会提供更全面的解释——这将是未来研究的一个很好的目标。
5.3. 变量绑定和转化

强化学习与可选择性更新、主动维护的工作记忆表示相结合,可以实现一种支持灵活工作记忆功能的角色填充式变量绑定形式。信息可以被编码到工作记忆的不同功能定义的“插槽”中,然后根据相关的功能类别进行检索,独立于(至少在某种程度上)详细内容(O'Reilly,2006)。此外,可以利用这种组合来产生一种归纳偏差,以在新任务条件下可以采用的方式使用这些表示,这是一种分布外泛化或学习迁移的形式。这种学习迁移的例子是 Bhandari 和 Badre (2018); 柯林斯和弗兰克 (2013); 弗兰克和巴德雷 (2012); 克里特等人。(2013); Rougier 等人。(2005); A. 威廉姆斯和菲利普斯 (2020)。
Stocco 等人 (2010) 的BG 模型,基于 ACT-R 架构,提供了一种特别强大的灵活 BG 门控形式,支持从大脑的一个部分到另一个部分的信息的任意路由,就像标准计算机体系结构中的系统总线 . 然而,这种模型的一个重要限制是 GPi/SNr 瓶颈非常小,所有 BG 输出都流经该瓶颈——目前尚不清楚那里是否有足够的容量直接通过 BG 本身路由许多详细内容。相反,将 BG 视为通过门控对额叶皮层的间接影响选择相关大脑区域可能更有意义,这反过来可以对相关大脑区域提供自上而下的注意力增益调制,然后信息是 通过这些区域之间容量更高的皮质皮质通路进行路由。然而,与 BG 是习惯性反应的轨迹的旧观念相比,BG 可能对灵活、受控的处理很重要这一原则与广泛的数据更加一致(O'Reilly,Nair 等人 , 2020).
5.4. 门控的种类和本质

在几个不同的研究小组开发的许多神经生物学导向的模型中,已经出现了一个显着的共识,即 BG 在 PFC 的门控活动中发挥某种作用,即使对于这个作用到底是什么的想法存在相当大的差异,在 由抽象 LSTM 模型支持的一组功能定义的门控类型(Gers et al., 2000; Hochreiter & Schmidhuber, 1997)。一些人认为将新信息门控进入 PFC 很重要,而另一些人则主张在工作记忆之外的信息输出门控中发挥更具体的作用,而另一些人则主张这两种作用。如上所述,广泛的神经科学数据可以用来解决这个问题,虽然还没有明确的答案,但有迹象表明 BG 可能更具体地参与输出门控,通过矩阵 型丘脑投射,与维护门控相比,后者由核心型丘脑通路支持。希望这一领域正在进行的大量实证研究将很快为这些重要问题提供更明确的答案。
另一个正在进行的问题是 BG 门控信号在多大程度上以更精确的方式发挥作用以在 PFC 中启动相应的效果,而不是在整个延迟期间参与更持续的皮层活动调节。纹状体和 BG 输出核中的点状和持续维持信号似乎都有强有力的经验证据。在这一点上,最可能的情况似乎是存在多个 BG 介导的贡献,包括点状启动事件、支持正在进行的皮质丘脑皮质反射活动的持续许可成分,在某些情况下甚至可能是点状终止或清除事件。
5.5. 静态和动态的工作记忆表征

似乎有令人信服的证据表明,在工作记忆延迟期间,类似棚车的持续活动以及各种活动的消长模式。因此,很难避免得出这样的结论,即两种活动模式都必须有助于类似工作记忆的处理。假设是这种情况,未来工作的一个重要挑战将是更好地描述不同活动模式往往占主导地位的情况,以便更好地理解每种活动的贡献。对明显相互矛盾的故事的一个明显贡献是,持续活动的故事通常比较古老,来自单细胞记录数据,而动态的、可变的活动故事通常基于更新的数据,来自基于人口的记录数据。因此,至少这两个故事中的某些差异可能是方法论和研究人员侧重点的问题。
一个有趣的可能性是,在学习任何特定任务的早期阶段,当控制处理被认为是最必要的时候,持续的活动可能更为普遍,而随着学习的进行和表现的转变,新陈代谢成本较低的动态轨迹模式可能会变得越来越普遍 到更自动的处理模式,可能接近 Botvinick 和 Plaut(2006 年)描述的 RNN 模型所捕获的模式。
6 结论

在过去的几十年里,在理解工作记忆背后的神经生物学机制方面取得了很大进展,现在有大量证据支持这一基本观点,即 PFC 和 BG 作为一个集成系统发挥作用,BG 正在执行类似门控的操作、控制认知和运动动作的功能,包括确定 PFC 中的工作记忆何时更新。特别是,BG 似乎参与启动和/或维持 PFC 中持久活动的稳健形式,以及通过类似的输出门控过程控制下游对工作记忆内容的访问。尽管如此,许多故事仍有待解决,包括涉及的许多具体细节以及从受控处理到自动处理的过渡如何通过不断学习在重复经验中演变。
参考文献

略,见原文。
翻译进度

2022-12-24 初步机翻,还有图、表和公式未放完,初校到简介第3段。
2022-12-25 初步修改完第2节。
Hazy, T. E., Frank, M. J., & O’Reilly, R. C. (2021). Computational neuroscientific models of working memory.Cambridge handbook of computational cognitive sciences.
本文基于https://ccnlab.org/papers/HazyFrankOReilly21.pdf的版本,如有侵权,请联系删除。


上一篇:浑身发热但体温正常是植物神经紊乱吗?
下一篇:梦太多,警惕神经衰弱!
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-7-4 13:04