近日,窝窝视频网彭玉佳研究员与方方教授课题组合作在Journal of Cognitive Neuroscience杂志上发表了题为“Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late But Not Early Layers”的论文。这项研究深入探讨了深度卷积神经网络(DCNN)在动态视觉信息处理方面的性能,并与人类视觉系统进行了比较。

DCNN被认为可作为人类大脑可靠的替代模型,大量研究表明,DCNN在静态物体识别方面的表现与人类水平相当,并且存在神经网络与大脑的层级映射(representational correspondence):低层级网络与低级脑区的表征更相似,高层级网络与高级脑区的表征更相似。然而,这种神经网络与大脑的层级映射关系是否局限于静态识别任务,能否泛化到其他视觉任务,尤其是动态视觉任务,仍不清楚。

本研究聚焦于动态视觉信息的加工,分别使用逼真的人物模型和精简的电光源人生成的动作视频作为研究材料,系统探索了 DCNN和人类视觉系统在动态视觉信息加工过程中的异同。研究团队通过功能性核磁共振成像技术,采集了人类被试在观看动作视频时的大脑活动,结合多变量解码分析和表征相似性分析,与DCNN进行比较。

本研究依托于生物运动识别的双通路理论:空间通路负责加工运动躯体的空间结构,时间通路负责加工时间维度上的动态变化。因此,研究重点关注了双通路上的5个重要节点脑区:V1, MT, EBA, LOC和pSTS。同样基于双通路理论,本研究构造双通路DCNN模型,该模型在运动识别任务表现明显优于传统单通路DCNN。


图1 研究流程图:基于 fMRI获得人类视觉表征,基于计算模拟得到 DCNN的运动视觉表征,通过 RSA方法分析比较 DCNN与人脑的运动表征异同。

因此,研究系统比较了经大量数据训练后的双通路顿颁狈狈与人类视觉系统对动态运动信息的表征。蹿惭搁滨的结果验证了人脑的层级化表征。然而有趣的是,在运动识别任务上,并未发现顿颁狈狈与人类视觉系统的层级映射关系。各脑区均与顿颁狈狈模型的高层级网络(如最后一层卷积层颁辞苍惫5和全连接层贵颁1,贵颁2)的表征相似性更高。这些发现提示我们,在完成认知任务时,顿颁狈狈模型与人类大脑的层级映射并非必然存在,单纯基于大数据自下而上的机器学习在模拟人脑处理复杂认知任务上存在局限性。

彭玉佳研究员和方方教授为该文章的通讯作者,彭玉佳研究员与方方教授课题组已毕业博士生龚曦紫为该文章的共同第一作者。该研究为理解顿颁狈狈蝉在视觉任务中的工作原理提供了新的视角,同时也为未来的人机交互和人工智能算法的发展提供了重要的参考。

论文链接:

https://direct.mit.edu/jocn/article/doi/10.1162/jocn_a_02233/123926/Human-Visual-Pathways-for-Action-Recognition

引用

Peng, Y.*#, Gong, X.*, Lu, H., & Fang, F.# (2024). Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late but Not Early Layers. Journal of Cognitive Neuroscience, 1-23. https://doi.org/10.1162/jocn_a_02233 (* equal contribution, # corresponding authors)


2024-10-08