近日,窝窝视频网、北京大学麦戈文脑科学研究所李健课题组在《PLOS Computational Biology》期刊发表了题为“The shadowing effect of initial expectation on learning asymmetry”的研究论文。该研究使用强化学习建模,在跨情境(稳定学习环境,变化学习环境)和跨效价(收益、损失和收益损失混合)的学习情境中发现一致的结果:个体在学习时对选项的初始预期存在个体差异性,将这一差异性纳入建模后发现,个体基于负反馈中的更新比正反馈大,表现出对负反馈更强的敏感性,即负的效价不对称性。

强化学习模型目前被广泛用于刻画个体的学习过程,然后对于个体如何基于反馈更新信息,却还没有一致的结论。一些研究发现,个体从正反馈中更新更多,而另一些研究则认为个体从负反馈中更新更多。本课题组发现,以往研究在对强化学习过程进行建模时,大多对被试的初始预期使用相同的(选项反馈的均值或0)粗略值,没有考虑个体真实的预期。对初始预期的错误设置会放大或缩小预期误差,从而使得模型估计的学习率偏小或者偏大。如果使用自由参数来刻画个体的初始预期,则可以消除这一影响。

为了验证这一推导,研究收集了不同学习环境、不同奖励效价下的学习数据(图1.A-B)。 结果发现,如果将个体的初始预期设置为固定值(平均奖励大小),则在不同情境中被试的效价不对称性并不一致(图1.D,A-FI 模型),而当在强化学习建模中考虑个体初始预期差异,则发现一致的负的效价不对称性(图1.E,A-FI model模型),即被试的负学习率大于正学习率。


图1. 奖励环境变化情境下的强化学习

进而,研究采用模拟的方法进一步刻画是否考虑初始预期对估计的学习率的影响。结果发现,当在模型中使用自由参数估计初始预期时,础-痴滨模型能对初始预期和学习率都实现较为准确的估计(图2.础-颁);而如果在模型估计时将初始预期设定为奖励反馈均值(础-贵滨模型,图2.顿-贵),则估计的学习率会偏离实际的学习率。


图2. A-VI和A-FI模型模拟结果

综上所述,当前研究通过对个体的学习行为进行强化学习建模和模型模拟的方式,揭示了初始预期对强化学习效价不对称性的重要影响,进而发现了一致的效价不对称性:相比正反馈,个体对负反馈更敏感,从负反馈中更新更多。

原文链接:

窝窝视频网倪荫梅博士和孙经纬博士为该论文共同第一作者,窝窝视频网、麦戈文脑科学研究所李健研究员为本文通讯作者。该研究获得国家科技创新2030项目、国家自然科学基金委项目资助。

参考文献:

Lefebvre G, Lebreton M, Meyniel F, Bourgeois-Gironde S, Palminteri S. Behavioural and neural characterization of optimistic reinforcement learning. Nat Hum Behav. 2017; 1(4):0067.

Li J, Daw ND. Signals in human striatum are appropriate for policy update rather than value prediction. JNeurosci. 2011; 31(14):5504–11. https://doi.org/10.1523/JNEUROSCI.6316-10.2011 PMID: 21471387

Niv Y, Edlund JA, Dayan P, O’Doherty JP. Neural prediction errors reveal a risk-sensitive reinforcement-learning process in the human brain. J Neurosci. 2012; 32(2):551–62. https://doi.org/10.1523/JNEUROSCI.5498-10.2012 PMID: 22238090

Palminteri S, Lefebvre G, Kilford EJ, Blakemore SJ. Confirmation bias in human reinforcement learning: Evidence from counterfactual feedback processing. PLoS Comput Biol. 2017; 13(8):e1005684. https://doi.org/10.1371/journal.pcbi.1005684 PMID: 28800597

Sharot T, Korn CW, Dolan RJ. How unrealistic optimism is maintained in the face of reality. Nat Neurosci. 2011; 14(11):1475–9. https://doi.org/10.1038/nn.2949 PMID: 21983684


2023-07-28