罕见激活多巴胺反应。 A图:均匀分布的奖励(左边)与正态分布奖励(右边)。 B图:多巴胺神经元对平均分布的奖励(绿色)和正态分布奖励(洋红色)产生的反应。图片来源:Rothenhoefer等
以往的研究不断强调多巴胺神经元在奖励学习中的关键作用。奖励学习指的是,人类和其他动物完成特定动作或提供某个问题正确、预期的答案后得到奖励,从而获得不同信息、技能或习惯的过程。
如果个体获得的奖励比预期更好,多巴胺神经元就会被激活。与此相反,如果获得的奖励比预期的差,多巴胺神经元就会被抑制。这种特别的活动模式类似于已知的“奖励预测误差”,它本质上是实际获得的奖励与预测之间的差异。
匹兹堡大学(University of Pittsburgh)的研究人员最近完成了一项关于奖励频率与奖励预测误差如何影响多巴胺信号的研究。他们发表在《自然·神经科学》(Nature Neuroscience)的论文为与多巴胺相关的奖励学习的神经基础提供了全新的、有价值的视角。
参与研究的研究人员之一William R. Stauffe博士说:“奖励预测误差对动物学习和机器学习来说很重要。然而,在经典的动物学习和机器学习理论中,方程式中‘预测奖励’部分仅仅就是以往结果的平均值。尽管这些预测都很有用,但预测平均值和可以反应不确定性的更加复杂的统计值才更有用处。”
2005年剑桥大学神经科学教授、Wellcome主要研究员、Stauffer的博士后导师Wolfram Schultz的研究启发了该研究的研究人员。2005年的研究指出,基于Schultz和同事设定的最大与最小结果的标准差范围,多巴胺反应的奖励预测误差能够正态化。
Stauffer说:“研究是突破性的,因为它表明神经预测的过程实际上反映了不确定性。然而,有几种不同的方式能够调节不确定性,而我猜测它们在心理学意义上不是等同的。”
Schultz与同事在研究中应用的范围调节(为了改变标准差)使得每个可能的奖励具有相同的预测可能。
Stauffer说:“我们好奇的是,如果设定固定的极值,但改变范围内的概率分布,那么多巴胺神经元会怎么反应。相应的,我们研究的主题是,弄清楚多巴胺神经元是否对概率分布的形状具有敏感性。”
中脑冠状面标记染色的多巴胺神经元。这是研究人员记录信号的大脑区域。 (图片来源:Rothenhoefer等)
实验中,Stauffer与同事使用了两种不同的视觉提示,预测来自两种不同“奖励概率分布”的奖励情况。两种奖励的实际分布包含三种类型的奖励,名为小滴、中滴、大滴的果汁。
其中一种奖励的概率分布类似正态分布,多数情况均出现中间值(比如,中滴果汁),而极少数情况下出现小滴和大滴的果汁。另一方面,第二种奖励的概率分布,遵循“均匀分布”,小滴、中滴和大滴的果汁出现概率相等(比如,出现次数相同)。
Stauffer和同事让猴子观察到不同概率分布相关的视觉提示,并使用电极记录了猴子的多巴胺神经元反应。他们还记录到猴子实际接受概率分布奖励时的多巴胺神经元反应。
值得注意的是,研究人员观察到,给予低频率奖励(即罕见奖励)能增强猴子大脑的多巴胺反应。相比之下,相同分量但出现频率更高的奖励激起的多巴胺反应更弱。
Stauffer说:“我们观察到的现象提示,预测性的神经元信号反应了预测值附近的不确定性程度,而不仅限于预测值本身。这还意味着大脑主要奖励学习系统中的一种功能是预测不确定性,并且有可能教会大脑下部结构预测不确定性。很少有其他的神经系统拥有这样直接的证据来证实天然的神经元反应算法的存在,这些迷人的结果提示一种新的神经算法。”
研究团队做出的研究强调了奖励频率对奖励学习时多巴胺神经元反应的影响。这些成果将会启迪进一步的研究,或许能显著提升当前对奖励学习的神经机制的理解。
最终,研究人员想要探索对概率的看法如何帮助在模棱两可(当结果概率未知)的情况下做出选择。在这些特定的抉择情形下,人类总的来说是基于自身对奖励概率分布的认识,被迫做出决策。
Stauffer说:“这项研究只是理解大脑如何编码来理解主观概率分布,以及这些认识以何种形式出现的第一步。通过手头已有的结果,我们能回过头去研究大脑的选择。不过,我估计,这些结果将会有更加广泛的应用,对生物学的和人工的智能学习系统具有重要意义。”
图片来源:Pixabay
作者:Ingrid Fadelli
翻译:陈振翀
审校:张哲
引进来源:Medical Xpress