machine

南京大学科学家在新型类脑视觉系统方面取得重要进展

2020 / 09 / 24新浪

视觉系统是人类用来观察并认知外部世界的最重要的感觉系统。视觉认知的形成,需要眼睛将物体携带的光信息转化为视觉神经冲动,并传递给大脑视觉皮层进行视觉信息处理。得益于这种视网膜和大脑视觉皮层垂直分层的结构和信息加工能力,人类视觉系统能以极低的功耗和极高的信息处理效率完成复杂的视觉认知。将这种强大的视觉信息处理能力赋予机器,使其能够像人一样具有独立思考和行动的能力,是人们一直以来的梦想。传统机器视觉采用摄像头和计算机的组合架构,虽然一定程度上实现了对人类视觉系统部分功能的模拟,但是要想达到能与人类视觉系统相比拟的高效信息处理能力,仍面临很大的挑战。

近日,南京大学物理学院缪峰教授团队将视网膜形态传感阵列和忆阻交叉阵列结合为一体,提出和实现了“垂直结构”的类脑视觉系统,为未来实现类脑机器视觉提供了一个可行的思路。

多功能光电传感和类脑计算器件对于研发能够工作在全模拟域的类脑视觉系统至关重要。近年来,缪峰团队(https://nano.nju.edu.cn)利用“原子乐高”的技术途径,分别在室温高灵敏红外探测器(Science Advances 2017)、耐高温忆阻器(Nature Electronics 2018)、弹道雪崩探测器件(Nature Nano。 2019)、可重构类脑视觉传感器(Science Advances 2020)、可重构类脑电路(Nature Electronics 2020)等方向陆续取得突破。与此同时,缪峰团队也一直探索忆阻交叉阵列的应用领域,首次利用忆阻交叉阵列构建了一个神经网络系统,用于核心信息处理单元,实现了具有一定自适应能力的智能小车(Advanced intelligent systems 2020)。

基于这系列工作打下的基础,该团队近日提出,通过将视网膜形态传感器阵列与忆阻交叉阵列结合在一起,可以模拟人类视觉系统的“垂直分层”架构,从而同步实现对视觉信息的感知和预处理,并高效执行较复杂的包括图像识别、物体追踪、运动轨迹预测等在内的任务。该工作为未来开发三维垂直集成的新型类脑视觉系统奠定了科学与技术基础。

相关研究成果以“Networking retinomorphic sensor with memristive crossbar for brain-inspired visual perception”(基于视网膜形态传感器和忆阻交叉阵列的类脑视觉系统)为题于近日在线发表在National Science Review上。南京大学物理学院博士生王爽、王晨宇和王鹏飞为论文的共同第一作者,梁世军副研究员和缪峰教授为该工作的共同通讯作者。该工作得到了王振林教授课题组、陈坤基教授课题组的实验协助,和国家杰出青年科学基金、国家自然科学基金、江苏省青年基金等项目的资助,以及微结构科学与技术协同创新中心的支持。

被誉为“忆阻器之父”、美国加州大学伯克利分校的蔡少棠(Leon Chua)教授在同期National Science Review上为本文撰写了专题评论文章“A promising route to neuromorphic vision“ 《一条通往类脑视觉的光明之路》,指出“Liang和Miao关于在完全模拟域内执行感算识任务的类脑视觉系统原型展示的工作是一个重大的突破”。蔡少棠教授进一步指出,该工作“为将来探索类脑视觉系统在自动驾驶、智能安防和智能医疗领域的应用开辟了一条可遵循的潜在技术路线”。(https://doi.org/10.1093/nsr/nwaa182)

研究成果

人类视觉系统强大的信息处理能力很大程度上依赖于视网膜和大脑视觉皮层所形成的分层结构(图1a所示)。人类对外界信息形成视觉认知的过程需要经历以下基本过程:携带外部世界信息的光首先投射在眼球底部的视网膜上,视网膜上的光感受器会将光信号转化为电信号,传递给视网膜中的其它细胞实现对信息的初步整合加工,整合后的信号将由视网膜神经节细胞通过视神经传递给大脑;进入大脑的视觉信息会被大脑中不同的视觉皮层进行深层次加工处理,最终传递给高级脑区形成视觉认知。为了实现对人类视觉系统结构和功能的逼真模拟,缪峰团队提出,通过将采用“原子乐高”的方式搭建的可重构视网膜传感器和忆阻交叉阵列进行集成,可以实现全模拟域的视觉信息传递和处理,如图1b所示。

图1:人类视觉系统和类脑视觉系统。人类视觉系统主要由视网膜和大脑皮层视觉中枢组成;对应地,类脑视觉系统主要由可重构视网膜传感器和忆阻器交叉阵列所构成。
图1:人类视觉系统和类脑视觉系统。人类视觉系统主要由视网膜和大脑皮层视觉中枢组成;对应地,类脑视觉系统主要由可重构视网膜传感器和忆阻器交叉阵列所构成。

在实验中,研究团队首先展示了视网膜形态的传感器阵列及其在图像预处理方面的应用。为了制备传感器阵列,该团队利用机械剥离方法获得了二维材料硒化钨和氮化硼,并将它们依次转移至氧化铝上制备成范德华异质结器件。在背栅调控下,所制备的器件展现出极性相反的,且依赖于栅极电压、光强、波长等物理参数变化的光电流响应。这种光响应特征与视网膜中双极性细胞的特征类似。为了证实范德华异质结器件具有图像信息加工的能力,研究团队将异质结器件组装至3×3的PCB阵列上。通过控制施加到每个器件上的独立栅极电压源,阵列的图像预处理功能能够被配置为不同卷积核的形式。根据基尔霍夫定律,把每次光信号输入之后的所有器件源漏电流变化量ΔIds进行求和,作为对图像信息处理后的结果。如图2所示,器件阵列实现了对Lenna图的同步感知和预处理(边缘增强、风格化)。通过对Lenna图的预处理结果进行评估,研究团队指出所制备的异质结阵列传感器能够模拟人类视网膜的垂直结构和信息预处理功能。

图2,视网膜形态的传感器阵列及图像预处理功能。(a)按照3×3阵列排布的视网膜形态传感器阵列,单个器件结构如光学图片所示。(b)在背栅调控下,器件展示出正负光电流响应。(c)用于图像预处理的Lenna原图。(d)经过边缘增强处理过的Lenna图片。(e)对Lenna图的边缘增强结果进行评估,处理后的图片的灰度值(绿)呈现出高斯分布。(f)经过风格化处理的图片。(g)对Lenna图的风格化结果进行评估,处理后的图片与模拟值呈现相似的灰度值排布。
图2,视网膜形态的传感器阵列及图像预处理功能。(a)按照3×3阵列排布的视网膜形态传感器阵列,单个器件结构如光学图片所示。(b)在背栅调控下,器件展示出正负光电流响应。(c)用于图像预处理的Lenna原图。(d)经过边缘增强处理过的Lenna图片。(e)对Lenna图的边缘增强结果进行评估,处理后的图片的灰度值(绿)呈现出高斯分布。(f)经过风格化处理的图片。(g)对Lenna图的风格化结果进行评估,处理后的图片与模拟值呈现相似的灰度值排布。

进一步地,研究团队将2100张含有噪点的“N”,“J”,“U”字母集输入视网膜形态阵列传感器,并将阵列中的背栅电压配置为可具有执行边缘增强功能的卷积核。视网膜形态阵列输出的电信号经过电流-电压转换器,输入至忆阻交叉阵列。忆阻交叉阵列中每一个交叉点具有可调的电导值,且呈现出线性的电压-电流特征,这允许其被用于执行类似大脑视觉皮层功能的人工神经网络。研究发现,类脑视觉系统对2100张“N”,“J”,“U”字母集图片的识别率达到100%。相比于基于传统传感器的视觉系统,集成有视网膜形态传感器的类脑视觉系统能够加速图像识别的收敛过程,如图3所示。

图3,用于图像识别的类脑视觉系统。(a)类脑视觉系统用于图像识别的流程图。用于图像识别的8×8“N”,“J”,”U“噪点字母集(c左图)被输入视网膜形态传感器中,进行同步图像感知和预处理;处理后的结果输入忆阻交叉阵列进行图像识别。(b)忆阻器具有线性的电压-电流特征。类脑视觉系统对该字母集的识别率达到100%(c右图)。(d)视网膜形态传感器的存在能够加速图像的识别率和收敛速度。
图3,用于图像识别的类脑视觉系统。(a)类脑视觉系统用于图像识别的流程图。用于图像识别的8×8“N”,“J”,”U“噪点字母集(c左图)被输入视网膜形态传感器中,进行同步图像感知和预处理;处理后的结果输入忆阻交叉阵列进行图像识别。(b)忆阻器具有线性的电压-电流特征。类脑视觉系统对该字母集的识别率达到100%(c右图)。(d)视网膜形态传感器的存在能够加速图像的识别率和收敛速度。

得益于忆阻交叉阵列可重新配置的灵活性,研究团队将其配置成能够处理与时序信息相关的循环神经网络,可以进一步完成对动态物体的追踪任务。在实验中,研究团队利用视网膜形态传感器,对视野中的目标“十”字进行边缘特征提取,并将移动“十”字目标的坐标按照时序信息的形式输入由忆阻交叉阵列执行的循环神经网络中。循环神经网络能够根据“十”字目标在n时刻以及之前的坐标信息,获得n+1时刻的坐标值,从而实现对n+1时刻物体的运动轨迹进行预判。研究团队指出,该类脑视觉系统可以对动态视觉信息进行逐级简化处理,提升对移动物体追踪的效率。这一项工作从原理上证明,利用视网膜形态的传感器和忆阻交叉阵列进行垂直集成的类脑视觉系统,有望在将来应用于众多新兴智能科技领域。

图4,用于动态视觉任务的类脑视觉系统。(a)类脑视觉系统用于运动追踪的流程图。利用视网膜形态传感器,对视野中的 “十”字目标进行边缘特征提取,并将“十”字目标的坐标以时序信息形式输入循环神经网络,对下一时刻该目标的轨迹进行预测。(b)类脑视觉系统经过运动追踪获得的“十”字目标物运动轨迹(绿色线)与经过轨迹预测获得的“十”字目标物运动轨迹(橘黄色线)基本一致。
图4,用于动态视觉任务的类脑视觉系统。(a)类脑视觉系统用于运动追踪的流程图。利用视网膜形态传感器,对视野中的 “十”字目标进行边缘特征提取,并将“十”字目标的坐标以时序信息形式输入循环神经网络,对下一时刻该目标的轨迹进行预测。(b)类脑视觉系统经过运动追踪获得的“十”字目标物运动轨迹(绿色线)与经过轨迹预测获得的“十”字目标物运动轨迹(橘黄色线)基本一致。