-
摘要: 高分辨率雷达成像技术和人工智能、大数据技术的快速发展,有力促进了雷达图像智能解译技术的进步。由于雷达传感器本身的特殊性和电磁散射成像物理的复杂性,雷达图像的解译缺乏光学图像的直观性,准确迅速识别分类的需求对雷达图像解译提出了迫切的挑战。在借鉴人脑光视觉感知机理和计算机视觉图像处理相关技术基础上,进一步融合电磁散射物理规律及其雷达成像机理,我们提出发展微波域雷达图像解译的“微波视觉”的新交叉领域研究。该文介绍微波视觉的概念与内涵,提出微波视觉认知模型,阐述其基础理论问题与技术路线,最后介绍了作者团队在相关问题上的初步研究进展。Abstract: With the rapid development of high-resolution radar imaging technology, artificial intelligence, and big data technology, remarkable advancements have been made in the intelligent interpretation of radar imagery. Despite growing demands, radar image intrpretation is now facing various technical challenges mainly because of the particularity of the radar sensor itself and the complexity of electromagnetic scattering physical phenomena. To address the problem of microwave radar imagery perception, this article proposes the development of the cross-disciplinary microwave vision research, which further integrates electromagnetic physics and radar imaging mechanism with human brain visual perception principles and computer vision technologies. This article discusses the concept and implication of microwave vision, proposes a microwave vision perception model, and explains its basic scientific problems and technical roadmaps. Finally, it introduces the preliminary research progress on related issues achieved by the authors’ group.
-
1. 引言
星载合成孔径雷达(Synthetic Aperture Radar, SAR)可以全天时、全天候对全球进行高分辨率微波成像,在资源勘探、地形测绘、灾害评估、环境监测与国家安全等方面具有重大应用,是我国战略高技术之一[1]。经过四十年自主研究和技术攻关,我国星载SAR技术达到国际先进水平,已经运行或规划中的有多个系列SAR卫星,在社会发展和经济建设中发挥重要作用。由于复杂的电磁散射与成像机理,SAR图像不同于光学图像,无法直观解读,即使是专业判读人员也无法精确高效地识别目标信息。现在每天可接收海量的SAR数据,其解译困难已成为实际应用效能提升的瓶颈。因此迫切需要开展SAR图像解译与信息提取相关的智能化基础前沿研究。
以深度学习为代表的人工智能技术在大数据驱动下引领了新一代科技变革,特别是在计算机(光学)视觉领域已取得了巨大成功。这些深度学习的方法也已被推广至SAR图像目标的智能解译中[2−10]。
但是,由于深度神经网络的高维函数拟合的本质,严重依赖于海量标记的训练样本,在较为理想操作条件下可获得十分良好的性能,而雷达图像受复杂散射机制调制、目标特性对角度与频率等观测参数极度敏感使得神经网络泛化性能弱、可解释性差。在雷达图像解译的实际业务中表现出诸多问题,如:(1)训练数据积累周期长,对于一个新的平台或雷达传感器,需要有一段较长时间的数据积累期,积累足够的训练样本,覆盖多种目标和场景,才能使得训练模型进入正常工作状态;(2)少样本目标识别困难,特别是对于非合作高价值目标,往往要求在少量观测样本的前提下能进行高精度识别,目前算法对于样本极端不平衡的情况往往性能下降严重;(3)无法满足高可信要求,对于某些高可靠应用,一般要求识别算法具备极高可信力,对识别错误的情况能给出明确的机理原因,以此保证稳健性。
这些问题可归结于SAR本身特殊性和电磁散射成像物理的复杂性。SAR数据有非常强的多样性,对繁多的雷达系统参数选项、不同观测模式以及不同平台轨迹等都会有巨大影响,导致不同雷达数据之间差异很大,甚至两颗类似雷达卫星的图像都有系统性偏差,大量历史数据无法直接利用。其次,雷达观测所依赖的电磁散射现象往往采用相参处理方法,具有严重的闪烁现象,即雷达观测到的目标特性随着观测参数剧烈变化。而这两点是雷达图像所特有的难点。解决该问题需要抓住电磁散射物理规律和雷达信号形成机理,通过电磁散射机理的研究及其表征建模与反演,发展物理与数据双驱动、深度融合的针对电磁信息感知的人工智能技术,为当前SAR图像解译和各种平台雷达智能感知提供支撑。
此外,在装备智能化的重大需求背景下,发展新型雷达智能感知技术及相关基础理论也具有重要意义。随着人工智能技术和无人装备的发展,未来雷达智能感知技术需具备自主规划和探测能力,还需具备应对复杂的任务环境和电磁环境的能力。雷达正朝着更灵活的广义感知技术方向发展。而传统雷达感知体制和方法是以雷达为主进行设计的,平台为雷达探测服务,未来须发展为探测任务服务的雷达,即雷达为平台任务服务,这对雷达体制和处理的灵活性、适应性和自主性提出新的要求。针对探测任务环境复杂性、电磁环境恶劣性,要发展雷达自主探测与对抗技术,具备认知环境和自适应调整的能力,将平台、传感器和处理环节统一考虑,面向任务的高可靠、高动态、强约束的特点,研究全链路全要素的优化设计和理论,探索交互式的自主智能感知范式,发展探测、成像、识别一体化技术[11]。
面对上述挑战,需发展“微波视觉”这一新的交叉学科研究方向[12−16],借鉴人脑光学视觉感知机理和计算机视觉图像的相关技术,融合电磁物理规律与雷达成像机理,构建一种以合成孔径雷达为传感手段的物理智能,探索合成孔径雷达信号处理、图像分析、信息提取等方面的新概念、新理论和新应用。本文尝试探讨微波视觉的概念与内涵,阐述其科学问题与技术路线,以及介绍作者所在团队在SAR图像智能解译方面的初步研究进展。
2. 微波视觉概念与内涵
2.1 概念的提出
智能科学是智能时代的基础科学,其核心是研究人脑与外部世界的相互作用。与通常以数字为表征的数学智能不同,我们讨论的物理智能是指研究智能体与特定现象的物理世界的相互作用,比如电磁散射辐射,来发展能适应和应对具体物理世界的人工智能,它必须依赖于人类发展的物理学理论体系,如麦克斯韦电磁学。“微波视觉”是对微波物理世界进行智能认知的类似人类光视觉的能力,它应是基于计算电磁学引擎的物理智能,能像人类处理光信息一样处理微波信息[13]。
人的视觉能看见光,但看不见微波。假若有外星人的眼睛能看见微波,那他就有“微波眼睛”,他的视觉神经中枢必与人类视觉不同,可称之为“微波视觉”。第二次世界大战发明的雷达等技术可以认为是具备感受到微波信息的人造“眼睛”,是否也能发展基于人工智能的微波信息感知与理解的“微波视觉”?
在阳光下历经亿年进化,人类形成与生俱来的适应光学信息的大脑,初生婴儿的大脑通过与光学世界交互进行学习,最终形成能感知世界、认识自我的人类视觉。显然,物理智能的其中一种途径(或者说当前可行的途径),就是将人类集体智慧发展起来的精确理论科学与人工智能科学相结合,解决人类自然智能无法感知的信息的处理。微波视觉融合电磁学与人工智能,是实现微波物理世界的电磁信息感知与理解的专用人工智能。
2.2 内涵
当今的人工智能技术在数据、算力、算法3个条件下有了爆发式发展,其中最成功的应用领域当属计算机视觉,这得益于相机等感知技术的快速发展和普及。从计算机视觉发展历史上看,人眼光学感知能力首先催生了计算机视觉这一新学科方向。它主要针对的是光学传感器(相机)和人类视觉(光学视觉),因此依赖于人类视觉启发发展起来的计算机视觉也是以光学视觉为主。
同样的,随着微波雷达及其电磁感知技术的发展,产生了海量的雷达数据与图像。雷达图像与光学图像在波段、成像机理、散射特性等诸多方面有很大区别,因此须发展微波物理驱动的人工智能技术,来进行微波数据图像解译和应用,即将“微波视觉”作为雷达智能感知技术的核心算法。微波视觉将对雷达图像解译和雷达智能感知技术发展提供理论与方法支撑。微波视觉的研究前沿必然是基于物理机理的可解释、强泛化的人工智能,同时也会拓展到电磁散射机理的建模、反演、重构、分类与识别,微波成像系统体制设计,微波成像算法研发,以及雷达图像信息提取与语义理解等方面。比如,微波视觉三维成像则将微波散射机理和图像视觉语义融合,以实现SAR的三维成像新体制和方法[15],本文主要聚焦于微波视觉在雷达图像解译方面的问题,图1简要给出微波视觉的概念。
2.3 独特性
计算机视觉首先研究人类光视觉的传输与认知机理,包括感知心理学、神经生物学等手段,真正理解人类是如何用眼睛与大脑感知和理解光学世界的,计算机视觉在此基础上进一步建立人类光视觉产生过程的计算模型,通过对计算机编程实现人工视觉感知能力,使得机器能感知光学世界。因此计算机视觉是“仿生物”的。
与光学视觉对比,微波视觉问题的独特性在于:由于SAR独特的成像机制和复杂的电磁波散射机理,表现出与光学图像有大量不同的成像特征。表1总结了SAR图像和自然光学图像之间的一些基本差异。人类的眼睛大脑视觉系统适应去解读光学图像,而SAR成像所使用的微波频率、相位相干、多次散射、极化等电磁物理性质导致它只能依靠训练有素的专家来经验性地解读,这已成为利用现有SAR图像解译和进一步推广SAR应用的长期以来的主要的技术瓶颈与障碍。
表 1 光学图像和SAR图像对比Table 1. Comparison between optical and SAR images图像特性 光学图像 SAR图像 物理特性 波段 可见光波段 微波波段 探测方式 外界光源、被动接收 主动辐射、后向散射 反射/散射形态 连续、面状 离散、点状 成像机制 聚焦机制 真实孔径 相干合成孔径 随机噪声 加性噪声 乘性相干斑 投影方式 透视投影 斜距投影 投影方向 俯仰角-方位角 距离向-方位向 图像形态 图像畸变效应 透视效应,分辨率与距离成正比 收缩、叠掩、倒置,分辨率与距离无关 目标与场景呈现方式 自然图像:人眼视角、大目标小背景 遥感图像:鹰眼视角、大背景小目标 数据形式 颜色、强度 相位、幅度、极化 本文从物理特性、成像机制和图像形态等方面对比常见光学图像和SAR图像的区别,图2以飞机目标为例简要给出了同一目标在光学图像和SAR图像上的特点对比。由于微波波长远大于可见光波长,常见物体散射特性在微波波段有显著不同,在光学波段物体表面的纹理密集而连续,是以面的形式呈现,而在微波波段则多以离散的点状散射为主,失去了空间连续性。这是由于波长变化引起的尺度效应,由于微波的波长较长,物体表面都变得非常光滑,就类似于光学暗室中看镜面体时看不到其表面而只能看到边缘等不连续处以及多次反射造成的亮点。
此外,相干合成孔径成像的机制,使得成像结果有严重的乘性相干斑效应。这些因素都使得两种图像在小尺度特征上有很大差异。SAR采用第一维测距、第二维合成孔径的成像方式,其成像投影几何与相机有很大区别,雷达成像域由方位向与距离向构成,且分辨率与距离无关。光学图像拍摄时往往采用外部光源,光源与相机不在一个角度,而SAR图像目前以主动探测、后向散射为主要技术形态。这些因素会导致目标及其阴影的投影方式有较大差别,造成SAR图像中尺度特征上所特有的透视收缩、叠掩效应、顶底倒置等现象。相对于与人眼视觉接近的自然图像而言,雷达遥感图像在视野、目标、视角、帧率频次等方面都有很大区别,因此人眼视觉的很多基本假设也不适用(如动态性、视角等)。SAR图像还具有一些特殊的观测维度,如多极化、多波段、多基线干涉等,显然无法通过人眼视觉机理直接理解这些特殊的观测维度信息。
综上所述,雷达图像与光学图像有本质区别,由可见光激励而进化得到的人类视觉神经信息处理机制不完全适用于雷达图像的认知。即从感知原理而言,由于自然世界充满可见光的刺激,经过进化后人类获得了视觉神经中枢的天然感知处理能力,因此计算机视觉的一个主要方法论是仿生物,即从大脑神经科学获得启发,或者通过神经生物学的手段来研究天然光学视觉的原理。
微波视觉的研究方法不能完全沿用计算机视觉方法,要着眼于两者的本质区别,部分借鉴人类视觉和计算机视觉方法。比如由于散射特性的区别,雷达图像具有离散、不连续特性,即从空域维度上看散射信息呈现点状离散特性,从观测维度依赖关系上看也具有闪烁等不连续性,这与光学视觉有非常大的区别,而从视觉感知的认知科学相关研究上看,人类视觉严重依赖于这些光学图像所特有的规律,如图3所示这些规律对于雷达图像不再适用,显然微波视觉是需要发展的新交叉研究方向。
2.4 必要性
作为人工智能的一个重要分支,计算机视觉的根本任务是用计算机实现对图像和视频的高层语义理解,搞清楚人类视觉神经系统的工作原理,并对其实现自动化。其主要灵感和核心研究对象是人类的光学视觉,它的这种仿生性是它与传统的图像处理、模式识别等研究的重要区别。
微波视觉的研究与计算机视觉既有共同点又有核心的区别,图4简要展示了二者的关系。它们在核心任务与问题假设上均是为了自动理解与感知图像信息,但是由于图像本身的区别,特别是微波雷达图像是人为产生的物理现象,不存在天然的智能形态用眼睛大脑来感受与理解,因此微波视觉失去了仿生性的依据,不以人类视觉作为主要研究参考。
当然,从两者的共同点出发,微波视觉可以从计算机视觉得到启发,很多共性的理论方法也可以迁移到微波视觉领域,特别是与图像属性无关的方面,如学习机理等。微波视觉也可以仿照计算机视觉的研究历程,比如:视觉感知认知科学中对于人类光学视觉的先验的研究,可以对照地研究这样的先验线索在微波雷达图像领域该是怎样。
雷达图像所呈现的与光学图像完全不同的特性,使得天然的人类视觉机理完全无法适应,比如:雷达图像的离散特性与人类视觉先验的连续性完全不一致,曾有视觉心理学研究指出,人观看一个旋转的刚体骨架(没有表面和体,只有线段)时无法快速理解该物体的真实情况,而如果是一个完全相同几何的多面体,则人眼很容易理解其三维形状与运动方式。这说明失去了表面带来的空间连续性,通过进化/学习而来的人类视觉神经信息处理原则很难适用[17]。
微波视觉属于“仿物理”的物理智能的范畴,即根据物理机理来构建理解物理现象和数据的人工智能,与生物启发的人工智能在方法论上有区别。当然,在计算机视觉研究中也存在物理启发的研究,比如:三维视觉中的对极线就是一个由几何学推导的概念,是从物理原理直接反推的视觉理解算法。人们研究人类视觉神经中枢时发现,人类三维视觉也有类似(尽管不完全一致)的方法,即在一个类似于对极线的模糊区域(水平的长椭圆区)中寻找匹配点[18],这显然不是由理论推导设计得到的,而是通过长期进化和大量数据训练产生的。可见,虽然与几何理论推导出的机制类似,但从来源和方法论上并不相同。而我们论及的微波视觉研究以物理启发为主,微波视觉的第一个核心任务就是如何根据物理规律(正问题)来求解从微波雷达观测图像中反推语义信息的问题(逆问题)。
视觉感知心理学研究的一个重要命题就是先验线索的发现,这也是计算机视觉研究的核心任务之一[18,19]。比如在用离散点去检测人眼视觉是否能发现一个物体轮廓的实验中发现:点之间的距离短、间距有规律、点更多地连成光滑曲线(局部直线),即局部性(Proximity)、连续性(Continuity)、规则性(Regularity)是必要条件,这些都属于格式塔(Gestalt)视觉认知规律[20]。这些先验线索与生俱来且对于所有人都适用,显然这些线索是通过进化和经验学习得到的。这些在雷达图像的理解中将不完全适用。
类似的,微波视觉的另一个核心任务就是去发现适用于微波雷达图像的先验线索,这些线索有全局约束方式、也有局部约束方式,既有显式约束(体现为目标函数约束)也有隐式约束(体现为网络结构设计)。既然不存在进化产生的天然微波视觉,也没有像人类视觉那样海量的经验数据,我们就需要借助物理规律或基于经验的推理来获取微波视觉的先验线索。这里基于经验的推理可以是从人类光学视觉获得启发,因为光学视觉先验线索也是根源于世界上常见物体和场景的真实性,两者的区别仅在于散射属性、成像几何和观测模式等,所以我们可以将已知的光学视觉先验线索迁移到微波视觉域。
综上所述,计算机视觉可以从进化带来的人脑视觉机理获得启发,同时研究如何从海量训练数据中进行学习,但这种基于眼睛人脑视觉传输的思路对于微波视觉的物理图像不再适用。微波视觉的目标是实现一种人工智能技术能够更好地理解基于电磁散射的微波数据图像,它受视觉感知的认知心理学启发,结合人类认知需求研究基于电磁散射物理和雷达成像机理的微波图像理解和语义提取方法。
2.5 相关的学科
为进一步阐述微波视觉作为一个独立研究课题,来归纳它与相近的研究方向的区别与联系。
光学视觉:是以仿生物性为主,视觉感知研究是以视觉神经信息通路为对象,而微波视觉则不存在一个天然的微波视觉可以作为参照对象,不同于由光学信号刺激而进化产生的生物视觉,微波视觉应从电磁物理规律和雷达成像机理出发,同时根据微波图像与光学图像的异同可以从光学视觉得到借鉴。
微波雷达成像:传统成像是以空间分辨为目标的反演问题,即通过空间聚焦把不同信息分离,是一个定义好的数学问题,不以语义理解和认知为目的;但成像方法直接决定了图像的形式和质量,为微波视觉提供输入,因此成像可以纳入微波视觉框架下的第一个步骤。需要指出的是微波视觉三维成像则是指基于二维图像的视觉语义理解来辅助完成第三维成像[15]。
逆散射:是由散射回波信号直接反演目标信息的逆问题,广义的说微波视觉是一个感知逆问题,可以借鉴逆散射求解方法,它与逆散射的区别主要在于作为输入观测量和作为输出端未知量,逆散射输入的是原始回波、反演的是物理几何属性,而微波视觉输入的往往是成像后的数据图像、反推的是人类感兴趣的语义信息,如:什么目标型号、什么姿态状态等等。两者一个重要区别在于所感兴趣的信息不同,微波视觉与人的认知密切相关。
散射中心理论:是介于成像和逆散射之间的一种基于高频散射机制的字典集方法,以常见散射中心的解析模型为研究对象,将常见散射类型归类分析,有语义化的倾向,因此可以作为微波视觉基层语义要素,或者作为一种散射语义的标注表征方式。
机器学习与神经网络:机器学习是研究如何从海量训练数据中学习共性规律的一门学科,神经网络是机器学习的一种有效方法,必然也是微波视觉的一种重要技术手段。
3. 微波视觉理论基础
3.1 微波视觉认知模型
从视觉认知角度,微波视觉的根本任务是从二维多通道雷达图像中感知(Percept)关于目标和场景的语义信息。视觉认知理论[18]将人类视觉建模为推理的逆问题,并采用贝叶斯估计理论框架来解释视觉推理如何解决逆问题的不适定性。
因此我们可以同样构建微波视觉逆问题,首先研究其正问题模型,我们假设最终感兴趣的信息为视觉认知想从图像中提取的语义知识,注意到语义知识与一般感知逆问题所反演的物理几何信息不同,语义知识是相对于人的认知来定义的,比如对一个目标进行观测,感知逆问题求解的是目标的三维几何,而人对于该目标的认知语义知识应该是目标类型、目标特性等人类感兴趣的语义信息。可见语义知识是被认知目标的几何物理模型的一个抽象,从信息论上看语义知识是目标几何物理信息的一个子集。我们不妨将语义知识(Knowledge)空间定义为维度相互独立的
Nk 维编码空间,即k∈CNk 。目标的几何物理信息定义为Nx 维实变量,即x∈RNx 。满足真实性、合理性条件的样本在该空间的分布必然是稀疏的,即分布在一个低维流形上,也即机器学习理论的流形假设。由语义知识k无法完全确定x,即如给定一个目标类型,有多种可能的形态,我们将其称为多样性(Diversity),不妨定义多样性控制变量为
d∈CNd 。可见由k和d可完全确定x,即存在一个从编码空间到变量空间的双射函数
x=g(k,d) (1) 该双射函数g决定了目标信息的数据流形结构及样本在流形上的分布,可见g本质上体现了样本的合理性(Plausibility)、真实性(Veridicality)的先验规律。我们将这一映射过程称为目标的例化(Instancing)。例化函数g的确定是非常困难的,它是世界各种规律和现象的综合效应。对于某一类目标,也许可以通过其生成规律来构建g,比如树的样本可以由分形生成树结构的算法构建。或者可以通过海量数据来训练大型生成模型来表征。
对于一个目标样本x,采用感知手段对其进行观测得到观测数据y,我们可以将它们的关系建立为一个通用的感知模型,即:
y=f(x,θ,δ) (2) 其中,观测数据
y∈RNy ,感知系统的观测条件或配置由系统参数θ∈RNθ 表示。δ 为表示观测系统或观测过程的不确定因素,比如最简单的模型可以假设高斯加性噪声,即:y=f(x,θ,0)+δ,δ∈RNy~N(0,Σ) (3) 显然,感知函数f是由感知系统的物理模型决定的,对于常见的感知模态往往存在一个相对完善的模型,比如相机或雷达。值得注意的是感知函数f必然是单射的、信息有损的,也即其逆问题
f−1 是不适定的。感知函数f将目标信息空间映射到观测数据空间,该映射受到感知系统参数的调控,由于源空间x分布在低维流形上,目的空间y也分布在低维流形上,且该流形受系统参数的调控。
综合目标生成与观测两个过程的正问题模型为
y=f[g(k,d),θ,δ]=h(k,d,θ,δ) (4) 则视觉认知逆问题为
k=h−1(y) (5) 虽然
h−1 本身是不适定的,但对于绝大多数情形,我们可以做认知不模糊假设,即存在一个定义在y空间的测度D及其阈值υ>0 ,对于任意两组参数[d1,θ1,δ1] ,[d2,θ2,δ2] ,总有D[h(k1,d1,θ1,δ1),h(k2,d2,θ2,δ2)]>υ,(k1≠k2) (6) 也就是说,对于任意两个语义不同的目标样本在任意观测条件下所获得的观测数据总有足够的差异可用于区分两者。该条件可以通俗地解释为任意两个不同的目标在任何条件下的观测数据都会有差异,当然该条件在统计意义上以足够大的概率成立即可。最简单的测度D可以是y空间的欧氏距离。
因此,给定一组样本
[d,θ,δ]∈Θ ,我们总能找到一个映射m使得k=m(y),y=h(k,d,θ,δ),[d,θ,δ]∈Θ (7) 深度学习就是很强大的拟合映射m的方法。我们引入待学习参数
β∈RNβ 来定义拟合得到的某个映射,即k=m(y|β),y=h(k,d,θ,δ),[d,θ,δ]∈Θ (8) 因此,学习的过程为
β∗=argminβL[k,m(y|β)],y=h(k,d,θ,δ),[d,θ,δ]∈Θ (9) 其中,L为学习的损失函数。
然而,
Θ 覆盖所有情况是不可能的,因此我们要求m具有泛化能力,即由Θ 的样本学习到的映射对于另一个集合Θ′ 同样有效。L′[k,m(y|β∗)]≈L′[k,m(y′|β∗)],y′=h(k,d′,θ′,δ′),[d′,θ′,δ′]∈Θ′ (10) 这里
L′ 为学习映射的评价指标,不一定与损失函数L完全一样,比如对于分类问题,目标函数是交叉熵,而评价指标可以是分类精度。机器学习理论就是研究映射m本身的特性,如m的复杂度,而集合Θ 即为训练集,Θ′ 为测试集。这是数据驱动的深度学习方法,也即不关心观测数据y背后的生成过程与规律,这一类方法存在的局限性就是泛化能力弱、可解释性差、可信度低等。这也是仿生物为主的计算机视觉技术路线,即人脑光视觉就是先通过外部光学信号激励进化产生了超强拟合能力的神经网络,然后通过后天与世界交互得到海量密集采样的样本对,从而学习得到由观测数据的高维空间到低维语义空间的逆映射函数。我们探讨的是从例化感知过程工作机理出发,将基于几何物理原理的理论模型与数据结合,研究物理启发的学习理论,具备强泛化、可解释和高可信的优点。同时可以针对专用感知模态发展针对性的方法,融合电磁散射与雷达成像机理可发展微波视觉理论方法。
表2给出了上述微波视觉认知模型中基本概念的定义。图5给出了上述正问题模型和传统逆问题模型的关系。
表 2 微波视觉认知模型中的基本概念Table 2. Notations of the perception model of microwave vision概念 定义 举例 目标语义知识 k~Pk(k)∈CNk 目标型号:T72, BTR60 ··· 目标多样性 d~Pd(d)∈CNd 细节变化、个体差异、背景环境··· 目标物理信息 x~Px(x)∈RNx 目标几何模型、表面材质··· 观测数据 y~Py(y)∈RNy SAR图像 观测配置 θ 波段、入射角、分辨率··· 观测噪声 δ 传感器噪声、测量误差、模型误差··· 参照视觉认知贝叶斯推理理论,微波视觉逆问题可以描述为最大后验估计:
k∗=argminkP(k|y)=argminkP(y|k)P(k)P(y)=argminkP(y|k)P(k) (11) 将式(11)等号右侧展开为
P(y|k)=P(y|x)P(x|k)P(x|k)=Ed[Pg(x|k,d)P(d)]P(y|x)=Eθ,δ[Pf(y|x,θ,δ)P(θ)P(δ)] (12) 由此得到
k∗=argmink{Eθ,δ[Pf(y|x,θ,δ)P(θ)P(δ)]⋅Ed[Pg(x|k,d)P(d)]⋅P(k)} (13) 其中,
Pf 表征了观测机理,Pg 表征了目标例化规律,P(θ),P(δ),P(d),P(k) 表征了样本集的先验分布特性。P(y|x) 是微波视觉特有的电磁成像特性先验线索,P(x|k) 则是与光学视觉共享的目标真实性、合理性的先验约束。物理启发的学习方法需构建有效的正问题模型。观测函数f可以由正问题模型计算物理等构建,但其主要问题在于效率不高,因此构建高效的f是必须要解决的问题。而对于例化函数g,前述给出了基于先验规律的手工设计方法和基于数据的生成学习方法两种思路。对于后者,比如可构建一个生成模型,其中前半段可学习的用来拟合g,后半段固定的表征f,则给定样本,可以学到g,用来表征样本的先验分布。
其次,求解微波视觉认知模型的核心要义在于发现微波视觉逆问题与正问题的映射,即如何将从物理科学构建的严谨的正问题模型嵌入或融入到逆问题中,正问题表征的是电磁物理机理,逆问题则探寻高维数据空间中的低维流形几何,因此物理智能的核心要义是构建物理与几何的映射、实现模型与数据的融合。
现假设我们得到了高效的f和有效的g,于是对上述估计问题的求解,根据正向或逆向求解的思路,可以采用不同的方法:
(1) 通过高效仿真模拟对正问题采样,对样本进行增强,从而训练得到更具有泛化性的逆向映射m,我们称之为模拟或仿真增强法;
(2) 根据对正问题物理机理的理解,利用知识指导网络结构设计或者目标函数设计,将物理规律知识嵌入到网络中从而加强网络的泛化能力和可解释性;
(3) 正逆交互迭代式求解,先训练一个由y直接估计k的方法,然后再由当前估计的k生成y,并通过对比y来反过来调整k,也与人类视觉感知的迭代过程相似;为了实现交互,往往需要物理模型具备可学习的能力,即具有可微属性,反过来也希望神经网络是物理启发的,与物理模型具有映射关系。
图6显示了上述3类主要实现方法。其他方法比如传统逆问题求解,用g生成例化分布作为先验约束,对f求逆进行正则化,可以实现稳健的目标场景重构;或将传统的迭代式f逆问题求解过程空间展开为分层计算图,并转化为深度神经网络以学习逆问题映射,如深度展开网络(Deep unrolling/unfolding)等[21,22]。
由上可见,上述方法中涉及微波视觉3个核心科学问题:
(1) 高效的正问题建模仿真引擎—即如何实现高逼真准实时的效果,同时要实现面向语义的效果,也即在表征、建模和计算层面都保持语义信息和语法结构的完好性,我们提出发展可学习的语义电磁散射模型;
(2) 物理启发的神经网络—如何在网络架构、网络层和目标函数等各个层面将物理模型、机理和规律融合在神经网络中,使得神经网络具有强泛化、可解释的优点,我们称为明盒方法;
(3) 智能体与其他对象的交互学习机理—比如仿真引擎和神经网络如何交互,求解微波视觉认知逆问题,这与强化学习、具身智能等类似,涉及如自由能原理等智能科学基础问题。
下面依次阐述上述3方面的科学问题。
3.2 语义电磁散射建模
传统的电磁散射模型往往以雷达散射截面(Radar Cross Section, RCS)精确预测等量化指标为导向,采用数值方法将模型进行离散后计算,这与最终智能感知所关心的目标语义信息不完全一致。语义信息是雷达智能感知的关键,这与计算电磁学所面临的其他问题如天线设计、微波电路等EDA工程设计所追求的精度不同,雷达智能感知对于目标特性建模更关注的是高效率的近似,因此单纯的RCS量化精度的评价准则不再适用。试想在实际应用场景中同一个目标的前后两次雷达观测结果也可能差异很大,更何况同一个型号的不同目标个体之间也必然存在差异。这些由于个体差异或观测过程导致的随机性或多样性是无法精确模拟的,对应的瓶颈并非仿真算法的精度而是模型输入的精度,并且这些因素也不是雷达智能感知中我们所关心的语义信息。此外,传统计算电磁学建模方法往往对目标和环境进行网格剖分,目标环境在经过网格离散化后失去了原来的语义信息,因此也不利于将该正问题模型与神经网络在机理上融合。
我们提出以语义为中心的散射建模思路,发展面向雷达智能感知的语义电磁散射建模[23],它在几何/物理建模和散射计算中采用以语义为中心的方法,在模型离散化和表征中维持目标语义要素,采用计算方法与语义兼容。即围绕复杂电磁散射特性和雷达成像机理深入探究散射建模与目标语义信息的关联,由传统的面向离散网格的计算方法转变为“面向语义”的电磁建模方法,发展语义散射模型。进一步将语义散射模型的表征方式以及信号形成机理融入到深度神经网络中,由特征融合向“机理融合”发展,借助物理规律的普适性和可解释性,实现可解释、强泛化的物理智能方法。
图7给出了语义电磁散射建模的3个属性:语义保持性、语义兼容性与语义逼真性。
可见,语义电磁散射建模采用面向终端应用的逆向思维,它的一个基本观点:建模需要满足,但不超过最终的应用系统极限(如SAR成像仿真不需要超越成像分辨率极限,SAR目标识别数据仿真不需要超越目标识别能力极限)。因此,我们采用多尺度建模。在电磁计算层面,以分辨率和波长作为基本的两个分界线,可将电磁散射问题分割为电大、电中、电小的3个尺度;而在语义表征层面,即几何物理输入参数数据的表征,则可以根据最终语义颗粒度来建模,分为散射子、部件、目标、环境等,只要体现了识别所需要的特征和多样性即可。
为了实现由“面向网格”到“面向语义”的转变,需解决如何定义和表征散射语义信息的问题,这包括散射机制语义空间和要素的定义、典型目标与环境的散射语义关联语法与表征树构建,以及发展高逼真、准实时的散射计算模型与成像仿真算法。此外,为了使得正问题模型能在学习过程中与神经网络智能体交互,往往需要正问题可微,比如可微分SAR渲染器[24],这样的可微性的好处是物理模型具备可学习能力,不仅可以从实测数据中学习经验信息,还能直接作为目标函数在交互中参与后向传播以训练智能体。
3.3 物理智能——明盒方法
为了实现可解释、强泛化的智能识别方法,需考虑如何将物理机理融入神经网络的科学问题,发展物理驱动的智能目标识别方法。由于物理规律本身具备普适性、科学性,因此融合物理机理后的智能方法将在泛化能力和可解释性得到较大提升。其关键在于探究电磁物理问题与机器学习问题的映射关系,在基于语义的散射机理建模正问题基础上,发展信息提取逆问题,将电磁散射规律和雷达信号形成机理融入神经网络的架构设计、网络层模型及目标函数先验约束等要素中,使得现有纯数据驱动的“黑盒方法”变成机理支撑的可解释的“明盒方法”。这本质上是介于基于数学物理模型的传统方法和基于大数据训练的机器学习方法之间,综合利用了先验知识和经验学习的优势。
物理启发的机器学习(Physics-Informed Machine Learning, PIML)领域的最新进展由文献[25]给出了回顾。并将该类方法归纳为数据层面、网络结构和目标函数3类。第1类数据层面方法包括直接依据观测机理对数据进行增广,如旋转或反射对称扩充,这样的做法较为直观,但并不改变网络或者学习过程。第2类是将物理知识嵌入网络结构,比如将物理方程映射到神经网络层计算公式中,或者将迭代形式的计算过程在空间展开为重复的网络层,这应该为最底层的嵌入方法,当然其付出的代价是失去了一定的可塑性;此外,也可以在大尺度网络架构上引入知识,比如,根据对应物理过程直接做计算图等效[24],或根据提取的因果关系图来设计网络架构[26],或部分网络是根据物理过程来设计的[27]。第3类是在学习过程中考虑物理规律,即在目标函数中加入物理约束,比如根据输出量的物理定义添加对应的守恒律惩罚项,或者将可微的物理方程嵌入到目标函数中。在智能电磁计算领域,类似方法得到了很好的应用,刘彻等人[28]给出了最新的回顾,这里不再赘述。
除了从数学物理模型出发,有意将其嵌入神经网络中,还有很多有效的神经网络模型本身就是受到物理启发或者引入了物理机理,比如,扩散模型是受热力学启发[29],而神经辐射场(Neural Radiance Fields, NeRF)模型则是将光学成像投影过程嵌入到神经网络中[30],甚至卷积神经网络的卷积层也是来源于固态物体的时空局域性原理。可见纯数据驱动的黑盒方法有效性甚微,均需引入先验知识,不同之处在于所引入先验知识的多少及其形式。图8给出了不同层次的物理先验知识与神经网络融合的情况。
尽管物理启发的机器学习方法目前已有较多成功应用的例子,但仍然需要研究可扩展的、更鲁棒的、更严谨的PIML新框架,并给出严谨的机器学习理论和衡量标准。从学习理论上看,明盒方法本质上是约束解空间在低维流形上,使其具备机器学习的内插能力,同时还有基于物理模型的外推能力,从而具有强泛化和可解释性。比如物理嵌入对应在数据空间的几何理论,以及流形几何与物理模型的映射关系;物理方程的嵌入与机器学习模型外推能力的关系;使用仿真进行样本增强时是否有采样策略等。
3.4 智能交互机理
根据微波视觉认知模型,微波视觉根本任务是求解逆问题。逆问题往往是非适定的,根据数学定义,适定性由3个性质决定,即解的存在性、解的唯一性、解对输入条件依赖的连续性或解对噪声的稳健性。其中解的唯一性问题,从信息论上看,其问题在于观测量中包含有关于未知解的信息量较少,因此往往需要引入基于先验知识的正则化技术,这里的关键问题是如何表征先验知识和如何引入先验约束。而解对噪声的稳健性显然跟解法也有关系,按不同求解架构我们将其分为直接逆映射和迭代式求解。传统的方法直接求逆往往比较困难,一般采用基于正问题迭代优化的方法。在深度学习框架下,一般的做法就是利用输入和输出的样本对训练逆映射网络,样本对可以来自实验数据也可以由给定的正问题采样获得,这对应于直接构建逆映射;对应于迭代式求解方法,采用物理启发或知识驱动的思路,可将正问题嵌入到求逆网络中,即按正问题迭代优化的传统方法架构将其展开为深层网络结构[21]。
若参考通用智能的模式来求解逆问题,应进一步发展智能交互式求解方法,交互的本质是将复杂的过程在时间上展开、将复杂的系统在空间上分解,通过分步骤、分工协作完成原本复杂度很高的任务。交互是指不同实体之间的信息交互,如图9所示在微波视觉逆问题的解法中,我们考虑以下几种形态的交互机理:离线交互、在线交互、人机交互。
离线交互模式是指仅在训练学习阶段通过智能体或智能算法与电磁模拟器进行交互,模拟器是正向模型,智能体往往是逆向映射,因此这两者分别是生成模型和判别模型,可以参考生成对抗网络(Generative Adversarial Network, GAN)[31],进行离线交互式学习,即红蓝对抗。模拟器学习如何模拟出更逼真的样本,智能体扮演鉴别器学习如何判别样本的逼真度,在此基础上同时可学习分类识别等能力。
在线交互模式是指智能体与模拟器通过交互完成推理反演,参考人脑对于推理反演类逆问题的思考过程,通过自底向上的直觉反应和自顶向下逻辑演绎两个过程进行配合完成推理反演[32]。对应在强化学习架构下,即智能体与模拟器(世界模型[33])进行交互,其中智能体进行自底向上的直接逆向推理,而模拟器则在智能体指挥下进行自顶向下的正向验证。智能体如何统筹推理过程,如何调用模拟器需要系统的理论指导,自由能理论[34,35]和贝叶斯推理[18]正是针对这一问题发展的理论方法,这对微波视觉逆问题的求解具有重要意义。
智能体在交互过程中学习某类逆问题的解的高效搜索策略以及潜在的先验约束。此外先验约束还可以通过在模拟器的输入端加入先验分布来实现,或显式地附加在智能体的反演方法中。微波视觉先验线索不完全等同于光学视觉,比如经典的光学视觉先验规律包括感知不变律和格式塔感知组合律,认知科学研究认为正是这些规律所附加的先验约束使得光学视觉逆问题由非适定变得适定可解,这些规律不能直接应用于微波域[36],因此微波视觉先验规律该如何发现和构建是另一个值得研究的问题。通过对比光学图像和SAR图像的成像机理来研究光学视觉先验在微波域的对应表现方式,比如对极线几何在SAR成像模型下的建模[37]、格式塔规律在SAR图像上的有效性[36]等。
人机交互则进一步突破了机器内部交互的范畴,考虑人与机器如何协同完成任务,首先在训练阶段人作为专家角色通过与智能体交互监督其学习,目的是提高监督学习的效率;其次在决策阶段智能体反过来作为人的参谋角色,人与智能体交互实现最优决策,不但可以通过智能化提高判读效率,更要发展人机混合模式的更高智能水平。人机交互模式需重点研究交互接口和流程,比如针对更加高效的训练,需研究人在环路持续学习模式[38]。若智能体内部包含模拟器,即智能体与模拟器在线交互的同时还支持人机交互,则形成人机物三元交互的更复杂的模式。
4. 初步研究进展
针对微波视觉相关的研究,作者团队开展了若干初步研究。
4.1 语义电磁散射建模
针对语义电磁散射建模需求,我们将电磁散射建模与雷达图像表征相结合,发展一种更底层的、更完备、更鲁棒的语义电磁散射模型,称为相干散射子基元字典(Primitive Scatterer Dictionary, PSD)[39],由点、线、面散射子构成。图10给出了不同散射子基元的表征模式,其中面散射子包括粗糙面、平面和二次曲面,线散射子包括直边和曲边,点散射子包括直边尖顶和曲边尖顶。我们推导了PSD模型统一的全极化解析双向散射分布函数(Bidirectional Scattering Distribution Function, BSDF),其参数包括属性参数、照射参数和位置参数,通过改变参数取值,该表达式可退化为不同类型典型电磁散射机制。此外,我们还给出一般情况下的平面反射+任意散射子的二次散射和三面角的三次散射这两类重要的多次散射机制的解析表达式。通过与数值方法对比,验证了PSD模型的准确性、完备性和广泛适用性。PSD模型建立了雷达数据与几何模型之间的语义联系,不仅可用于表征雷达图像,促进电磁散射正问题的发展,还可用于雷达图像的参数反演逆问题的研究,降低电磁散射逆问题求解的复杂度,对目前智能图像信息解译具有潜在应用价值。
在推导PSD的过程中,我们推广了一般性二次曲面的统一BSDF模型[40]。广义的二次曲面可分为在两个维度和一个维度上有弯曲的表面,如椭球面、球面、各向异性抛物面、各向同性抛物面、椭圆柱、圆柱和抛物柱等。我们推导的二次曲面全极化的统一BSDF模型可在不同参数取值情况下退化为任意典型曲面的BSDF。文中通过数值方法验证了所提方法的正确性。
针对小尺度起伏表面的散射纹理,我们提出了相干空变双向散射分布函数(Coherent Spatially Varying Bidirectional Scattering Distribution Function of Rough Surface, CSVBSDF)[41],用于表征粗糙表面的电磁散射和SAR成像特性。基于积分方程法(Integral Equation Method, IEM)推导了在平面波和锥形波照射下的有限大随机粗糙面的散射表达式,建立了从观测参数和表面局部属性参数到多维观测散射特性的映射函数,其包含相干分量和非相干分量,服从莱斯分布。通过数值方法和实测系统测量验证了所提模型的有效性。
针对SAR图像中各种复杂自然背景的杂波纹理,本团队[42]还给出一种基于物理机理的高斯相干散射子统计模型,用于描述具有空间相关性的SAR图像相干斑纹理。该方法将现有的单像素SAR相干斑统计模型推广到空间相关的随机参数场,通过调制散射子数目或其分布参数的空间变化产生空间相关的SAR相干斑散射纹理。该模型也通过仿真和实测数据进行了验证。
4.2 仿真辅助数据增广
基于模拟器的离线仿真数据增广是解决微波视觉逆问题的第1个层次方法。比如,对于未见过的目标的认知(零样本学习),如具备目标几何物理模型,则可以通过仿真获得该未见目标的仿真样本,从而实现基于电磁仿真的零样本目标识别。而仿真样本往往与真实样本存在系统性的风格特征偏差,使得学习器被该系统性偏差带偏,而学不到目标本征特征,导致学习器无法从仿真样本泛化到真实样本。
我们首先设计了用于主动抑制次要因子(如风格特征)的预处理步骤,使得仿真带来的系统性偏差得到对齐;然后输入到预训练的卷积神经网络中进行特征提取;最后,将特征向量送到全连接网络中进行分类。为了避免陷入针对系统性偏差的过拟合陷阱,我们提出了零样本学习的最大容忍度原则和平均裕度指数,用于通过早停选择最佳分类器。该方法在MSTAR数据集上验证了10类目标识别任务,在9类已知目标上实现了91.93%的准确率的前提下,对于零样本未见目标可达到79.08%的准确率[43]。
对于一般性的仿真辅助数据增广,需要系统性地解决“仿真”与“实测”之间的数据域差异。我们提出一种集成双分支图像重建和子域对齐(Dual-Branch image Reconstruction and Subdomain Alignment, DBRSA)的新型网络[44],通过域共享编码器和域依赖解码器实现对仿真图像和实测图像的重构,从而帮助编码器学习独立于标签的特征提取方法。此外,该网络主动根据样本的真伪标签来对齐来自不同域的相似目标的特征向量,从而进一步提高分类精度。实验结果和模型决策分析表明,该网络通过减少对背景噪声的关注度和增加对目标阴影和轮廓的关注度,能够可靠地提高仿真数据增广性能,有效降低实际应用场景中对实测样本数量的依赖。
SAR图像特征随着视角改变而快速变化的闪烁效应是SAR目标识别所面临的少样本挑战之一。我们也试图提出一种生成式网络的方法来实现SAR图像在视角维度的插值即数据增广[45],即对抗自编码网络(Adversarial Autoencoder, AAE)用于学习多视角SAR图像的表征,它由一个生成网络和一个判别网络进行对抗学习,生成网络将目标语义解码为SAR图像,判别网络不仅可以学习区分“假”的生成图像和“真”的实测图像,还可以进一步将输入的SAR图像编码回目标语义。判别网络采用逐步扩展的卷积层和对应的逐层训练策略,使用两个循环损失函数来强制输入和输出之间的一致性,此外还引入了人工设计的旋转对齐来实现目标取向表征能力。在MSTAR的7类目标分类任务上,仅需每类约12个样本,且样本相邻取向间隔至少为 25°,经过训练的AAE能生成剩余的1748个其他取向样本,且展现出前所未有的逼真度。而且训练后的AAE可直接进行少样本目标识别,在同等条件下AAE比其他SOTA网络提高5.77%的测试精度。图11(a)显示经过AAE样本增强后MSTAR目标分类性能得到了显著提升。
不管是哪种方法对数据进行增广,我们希望能有一种客观的绝对的评价标准来定量地衡量样本增广的效用。我们提出一种基于识别率与替代率曲线(Recognition rate versus Substitution rate Curve, RSC)的评估标准[46],其中替代率(Substitution Rate, SR)是指训练样本中被增广数据替代的比例,RSC曲线是操控SR由0到1的过程中对应两种情况(无增广 vs. 有增广)的识别率变化曲线,两条曲线的线下面积(Area Under Curve, AUC)是一个[0,1]之间的值,两个值之差即可作为一个评估数据增广效用的绝对量化指标。在MSTAR数据集上,针对采用主流电磁模拟器仿真辅助的数据增广方法,RSC评估标准得出该指标约为5%,即通过增广平均可提升识别率5%。图11(b)给出了RSC曲线的定义,两条曲线中间的面积差是RSC评估指标。
4.3 物理启发神经网络
将物理规律的先验知识以某种形式融合到神经网络中是提高深度学习泛化能力的重要手段。我们最初尝试将SAR图像呈现的散射信息作为先验信息输入到网络中,设计一种散射信息增强的注意力金字塔网络(Scattering Enhanced Attention Pyramid Network, SEAPN)[47]。首先用人工设计方法从SAR图像中提取飞机等目标的强散射点,接着通过密度聚类将这些强散射点聚集为候选散射区域,并用高斯混合模型进行表征建模,使得目标散射簇在预处理阶段得到增强。经过散射增强预处理后的图像被输入到金字塔网络中进行训练和测试。网络结构由多尺度特征金字塔结构和改进的卷积块注意模块组成,以应对SAR目标的离散性和多变性。该方法在高分三号和TerraSAR-X数据集上进行的实验,飞机目标识别的平均精度(Average Precision, AP)达83.25%。另一项工作中则尝试了采用胶囊网络来编码空间信息[48],试图在有限数据下实现可比的性能。
如何根据SAR图像内涵的物理过程来启发目标识别的神经网络架构设计是一个值得研究的问题。我们从语义要素的视角提出表示SAR图像的因果模型如图12(a)所示,由其本征特性、样本多样性和测量随机性3个语义因子控制。由该因果模型启发,设计了一种用于SAR-ATR的因果对抗自动编码器(Causal adversarial Autoencoder, CAE)从源头上将不同要素进行解缠表征[26]。图12(b)给出了该网络模型的架构,其中包含许多内置网络特征,比如循环高频嵌入(Cyclic High-frequency information-based Embedding, CHE)方法对方位角特征进行编码,能保证角度的均匀性、连续性、周期性;构建对称条件编码(Symmetrically Conditional Encoding, SCE)模块来约束低维特征的语义一致性;还设计了一种混合损失函数,包括潜在对抗损失、重建损失和面向任务的损失。因果启发的CAE网络在MSTAR和高分三号等数据集上进行定性的可视化实验和定量的比较实验,对网络的表征和泛化能力进行了全面评估。结果表明,通过角度插值和目标变换对SAR图像的不同特性具有较好的解耦表征能力,在每类仅12个样本的极端条件下,10类目标SAR-ATR分类任务的准确率仍可达93.1%。
我们考虑如何将SAR成像过程中的三维(3D)到二维投影机理纳入到网络结构中。我们提出一种投影网络的模块[49],它将SAR图像的投影过程设计为可训练的网络层结构,它假设SAR图像是一张由3D空间分布的雷达散射体素到2D成像平面的投影,将该投影机制建模为可微的网络层,由此可与其他常见神经网络层集成。这是我们最初的尝试。进一步,受到光学图像领域神经辐射场(NeRF)的启发,我们研究了SAR-NeRF模型[50],将SAR成像机制与神经网络相结合,按SAR映射投影原理(Mapping and Projection Algorithm, MPA),构建可微渲染方程将不同视角的SAR图像隐式建模为3D成像空间中所有体素的衰减系数和散射强度的函数。SAR-NeRF可从多视角SAR图像中学习三维体素的衰减系数和散射强度的分布。我们解析推导了三维体素SAR渲染方程的矢量化形式以及三维空间体素与二维射线网格之间的采样关系。通过对仿真和实测数据集的定量实验,验证了SAR-NeRF的多视图表征和泛化生成能力。用SAR-NeRF进行视角维度样本增广可实现少样本目标识别能力,在每类仅12个样本的条件下,10类目标SAR-ATR分类任务准确率可达91.6%。图13展示了SAR-NeRF三维体素渲染几何示意图和对应的计算图等价网络模型。
若同时考虑电磁散射和雷达成像机制,我们可以发展用于正向建模的SAR图像渲染器,将目标和场景用三角网格及网格表面的散射纹理来建模,用射线来采样和投影得到二维SAR图像。这整个过程如果等效为一个计算图,那就是一个一般性的有向无环图的网络,进一步将每一步计算过程可微化即可得到我们最近开发的可微SAR渲染器(Differentiable SAR Renderer, DSR)[23]。DSR以概率图的可微形式重写了SAR映射投影算法,并推导了其一阶梯度,从而使得渲染的图像/轮廓误差反向传播到前端以修正目标几何模型和散射属性。这本质上是参考了光学领域的逆图形学(Inverse graphics)技术路线,实现了从多视角SAR图像反演或重构目标三维几何及表面散射属性的方法。图14(a)展示了DSR的计算图等价网络模型;图14(b)展示了基于DSR对MSTAR目标进行重构的结果。
将正向问题转换为可微的计算图可使其成为可学习的正问题模型。比如,我们将偶极子近似方法转化为计算图并将其部分变量用网络替代,使其具备一定的可塑性,可从实测数据中学习有泛化能力的从编码到方向图的正向映射关系[27]。针对SAR图像仿真生成,我们还尝试开发了全链路可微分的基于射线追踪的SAR图像仿真引擎,并测试了在给定几何模型的前提下,从多角度实测SAR图像中通过可微分反向射线追踪,来快速估计物体表面的散射参数,该方法为可学习的正向建模打开了新的发展空间[51]。
4.4 交互模式探索
复杂问题的求解过程可通过任务分解简化,并通过不同分工子系统之间的交互将求解过程在时间上展开按步骤协作完成,使得复杂问题求解的难度大大降低。这里我们重点关注正向仿真的模拟器和逆向求解的智能体(算法)的交互合作。
针对多视角SAR图像对目标进行三维重构的任务,我们提出基于可微分SAR渲染器(DSR)所集成的正逆架构的联合利用目标像和阴影实现三维重构的方法[52]。首先将DSR的功能扩展到能生成目标像和阴影,即照明图和阴影图,然后推导后向传播梯度,最终实现从若干视角的SAR图像来反推地面目标的三维几何。进一步将该DSR作为目标函数设计一种融合DSR的少视角SAR三维重建网络,首先用CNN将输入的少量视角SAR图像直接反演出目标三维网格,然后将三维网格输入DSR产生模拟SAR图像与对应的实测SAR图像求一个距离作为训练的损失函数,通过采用先验分布中各种目标和常见视角来训练CNN,即可实现少视角SAR图像直接重构三维几何。
若考虑智能体与模拟器交互式工作模式,则需要考虑针对一类问题或目标的强化学习方法。我们初步探索了针对一个简单逆问题的深度强化学习方法,即从单幅SAR图像中推算给定目标的取向角[53]。采用DSR作为模拟器即环境,强化学习智能体与之交互学习,智能体的动作设计为对当前估计视角的不同程度和方向的调整,环境即模拟器的反馈则是当前估计视角的模拟SAR图像及其与观测图像的差异,这些反馈序列构成了智能体的状态空间。此外,强化学习的奖励函数由奖励记忆差分机制、奖励平滑机制、边界惩罚和初始化噪声抑制机制构成,可显著增强学习过程的稳定性和收敛性。智能体的交互反演过程与人类迭代式思考过程一致,由此实现了对SAR图像的交互式感知和理解能力。图15给出了智能体与模拟器交互式反演的网络架构。
为了进一步深入研究智能体与模拟器交互机理,我们需考虑自由能原理(Free Energy Principle, FEP)[35]。FEP及由其衍生的主动推理架构是用于解释智能行为背后的驱动力的基础理论。FEP主张智能体内部应具备一个针对环境的生成式模拟器用于解释观测量、规划动作、预测结果,反过来通过与环境交互反馈比对来学习改进内部的生成式模拟器。FEP认为智能体的决策应为最小化自由能为目的,其中自由能由变分自由能和预期自由能两大部分组成,最小化变分自由能对应于感知和学习过程,而最小化预期自由能则对应于动作选择、规划和决策过程。可见FEP有可能是指导智能体与模拟器交互机理的重要理论基础,值得开展进一步研究。
人机协同是一种利用人机交互来提高新数据学习效率的方法,它主要涉及人类专家的知识、经验、判断和反馈,以及机器的计算、存储、分析和推理能力。人机协同的目的是同时利用专家和机器的优势,实现更高效、更准确、更可靠的数据处理和决策。针对遥感图像解译中新的观测数据、新的场景和新的目标型号不断产生所带来的挑战,需要研究有效的人机交互机理,实现人机协同标注和训练学习。我们初步尝试了人在环路的SAR目标检测识别框架人机协同机制[38],人在环路是指在模型训练过程中有专家参与,通过主动学习、交互式反馈、迭代式优化等方式来提高模型性能。一方面,设计的环路通过主动学习的方式选择有价值样本给专家进行标注,减少新数据的标注工作量,提高标注质量;另一方面,专家通过环路系统设计的交互操作纠正识别结果,指导模型的迭代优化,为算法模型创建更好的训练和评估数据。图16展示了智能体与专家交互的人在环路持续学习协同模式。
5. 结语
相对于计算机光视觉处理和理解光学图像,微波视觉是理解微波雷达图像的智能理论体系。与光学视觉不同,微波视觉没有对应的人眼与大脑作为信息获取感知的自然对象可供参考,需发展仿物理的新技术路线。我们发现光学视觉的底层认知规律依赖于光学图像成像机理特性,光学视觉认知线索在微波图像上将失去许多功能,发展微波视觉是微波雷达图像信息智能解译的重要研究。
我们提出由例化、观测、认知3阶段组成的微波视觉认知模型,理清从低维语义空间与高维数据空间之间的正向映射函数,以及作为其影响因子的多样性和观测配置与随机噪声,并给出从贝叶斯推理出发的微波视觉逆问题及其最大后验估计解。解决微波视觉认知问题需要高逼真准实时可学习的正向建模、物理启发的神经网络以及智能交互机理。作者团队在这些方面的初步研究在一些SAR数据集上得到验证,说明微波视觉技术从数据图像到智能解译信息感知链的有效性。在此基础上,未来可进一步开展研究。比如,在语义电磁散射建模方面,可结合生成式人工智能(AI-Generated Content, AIGC)技术发展适用于微波数据的生成模型,从海量的人造目标和自然地物数据中学习参数化生成模型,可作为微波视觉逆问题的先验分布,通过生成模型的训练有望构建高效的表征结构。在物理启发神经网络方面,应发展系统化的知识与数据融合基础理论,探讨先验知识与数据学习的效用如何统一量化、不同尺度和颗粒度上如何融合等问题。在智能交互模式方面,可将具身智能最新研究进展应用到智能雷达自主探测等任务上,特别是内嵌模拟器的智能体与任务环境进行三元交互等新模式的探索。
微波视觉发展仍然存在诸多基础性问题和技术性难题,需要更多的深入研究,本文是作者团队在这一交叉研究方向上的努力和尝试,必然存在诸多不足之处,希望能抛砖引玉,通过更多同行的努力,将研究推向深入,并结合实际需求的发展,得到进一步的提高。
-
表 1 光学图像和SAR图像对比
Table 1. Comparison between optical and SAR images
图像特性 光学图像 SAR图像 物理特性 波段 可见光波段 微波波段 探测方式 外界光源、被动接收 主动辐射、后向散射 反射/散射形态 连续、面状 离散、点状 成像机制 聚焦机制 真实孔径 相干合成孔径 随机噪声 加性噪声 乘性相干斑 投影方式 透视投影 斜距投影 投影方向 俯仰角-方位角 距离向-方位向 图像形态 图像畸变效应 透视效应,分辨率与距离成正比 收缩、叠掩、倒置,分辨率与距离无关 目标与场景呈现方式 自然图像:人眼视角、大目标小背景 遥感图像:鹰眼视角、大背景小目标 数据形式 颜色、强度 相位、幅度、极化 表 2 微波视觉认知模型中的基本概念
Table 2. Notations of the perception model of microwave vision
概念 定义 举例 目标语义知识 k~Pk(k)∈CNk 目标型号:T72, BTR60 ··· 目标多样性 d~Pd(d)∈CNd 细节变化、个体差异、背景环境··· 目标物理信息 x~Px(x)∈RNx 目标几何模型、表面材质··· 观测数据 y~Py(y)∈RNy SAR图像 观测配置 θ 波段、入射角、分辨率··· 观测噪声 δ 传感器噪声、测量误差、模型误差··· -
[1] 吴一戎. 多维度合成孔径雷达成像概念[J]. 雷达学报, 2013, 2(2): 135–142. doi: 10.3724/SP.J.1300.2013.13047.WU Yirong. Concept on multidimensional space joint-observation SAR[J]. Journal of Radars, 2013, 2(2): 135–142. doi: 10.3724/SP.J.1300.2013.13047. [2] 徐丰, 王海鹏, 金亚秋. 深度学习在SAR目标识别与地物分类中的应用[J]. 雷达学报, 2017, 6(2): 136–148. doi: 10.12000/JR16130.XU Feng, WANG Haipeng, and JIN Yaqiu. Deep learning as applied in SAR target recognition and terrain classification[J]. Journal of Radars, 2017, 6(2): 136–148. doi: 10.12000/JR16130. [3] 徐丰, 王海鹏, 金亚秋. 合成孔径雷达图像智能解译[M]. 北京: 科学出版社, 2020: 1–463.XU Feng, WANG Haipeng, and JIN Yaqiu. Intelligent Interpretation of Synthetic Aperture Radar Imagery[M]. Beijing: Science Press, 2020: 1–463. [4] 杜兰, 王兆成, 王燕, 等. 复杂场景下单通道SAR目标检测及鉴别研究进展综述[J]. 雷达学报, 2020, 9(1): 34–54. doi: 10.12000/JR19104.DU Lan, WANG Zhaocheng, WANG Yan, et al. Survey of research progress on target detection and discrimination of single-channel SAR images for complex scenes[J]. Journal of Radars, 2020, 9(1): 34–54. doi: 10.12000/JR19104. [5] 郭炜炜, 张增辉, 郁文贤, 等. SAR图像目标识别的可解释性问题探讨[J]. 雷达学报, 2020, 9(3): 462–476. doi: 10.12000/JR20059.GUO Weiwei, ZHANG Zenghui, YU Wenxian, et al. Perspective on explainable SAR target recognition[J]. Journal of Radars, 2020, 9(3): 462–476. doi: 10.12000/JR20059. [6] 黄钟泠, 姚西文, 韩军伟. 面向SAR图像解译的物理可解释深度学习技术进展与探讨[J]. 雷达学报, 2022, 11(1): 107–125. doi: 10.12000/JR21165.HUANG Zhongling, YAO Xiwen, and HAN Junwei. Progress and perspective on physically explainable deep learning for synthetic aperture radar image interpretation[J]. Journal of Radars, 2022, 11(1): 107–125. doi: 10.12000/JR21165. [7] 邢孟道, 谢意远, 高悦欣, 等. 电磁散射特征提取与成像识别算法综述[J]. 雷达学报, 2022, 11(6): 921–942. doi: 10.12000/JR22232.XING Mengdao, XIE Yiyuan, GAO Yuexin, et al. Electromagnetic scattering characteristic extraction and imaging recognition algorithm: A review[J]. Journal of Radars, 2022, 11(6): 921–942. doi: 10.12000/JR22232. [8] 李军, 孙显, 于瀚雯, 等. 遥感与人工智能的交叉创新专题简介[J]. 中国科学: 信息科学, 2023, 53(5): 1026. doi: 10.1360/SSI-2023-0103.LI Jun, SUN Xian, YU Hanwen, et al. Special topic: Artificial intelligence innovation in remote sensing[J]. Scientia Sinica Informationis, 2023, 53(5): 1026. doi: 10.1360/SSI-2023-0103. [9] 高勋章, 张志伟, 刘梅, 等. 雷达像智能识别对抗研究进展[J]. 雷达学报, 2023, 12(4): 696–712. doi: 10.12000/JR23098.GAO Xunzhang, ZHANG Zhiwei, LIU Mei, et al. Intelligent radar image recognition countermeasures: A review[J]. Journal of Radars, 2023, 12(4): 696–712. doi: 10.12000/JR23098. [10] 罗汝, 赵凌君, 何奇山, 等. SAR图像飞机目标智能检测识别技术研究进展与展望[J]. 雷达学报, 2024, 13(2): 307–330. doi: 10.12000/JR23056.LUO Ru, ZHAO Lingjun, HE Qishan, et al. Intelligent technology for aircraft detection and recognition through SAR imagery: Advancements and prospects[J]. Journal of Radars, 2024, 13(2): 307–330. doi: 10.12000/JR23056. [11] 刘宏伟, 位寅生, 关键, 等. “雷达智能探测新技术专题”编者按[J]. 雷达学报, 2020, 9(4): 封二.LIU Hongwei, WEI Yinsheng, GUAN Jian, et al. Editorial comments of special issue on novel the intelligent radar detecting technology[J]. Journal of Radars, 2020, 9(4): Inside front cover. [12] 金亚秋, 徐丰. 加强智能科学交叉领域研究[J]. 科技导报, 2018, 36(17): 1.JIN Yaqiu and XU Feng. Enhance the research in interdisciplinary fields of intelligent science[J]. Science & Technology Review, 2018, 36(17): 1. [13] 徐丰, 金亚秋. 从物理智能到微波视觉[J]. 科技导报, 2018, 36(10): 30–44. doi: 10.3981/j.issn.1000-7857.2018.10.004.XU Feng and JIN Yaqiu. From the emergence of intelligent science to the research of microwave vision[J]. Science & Technology Review, 2018, 36(10): 30–44. doi: 10.3981/j.issn.1000-7857.2018.10.004. [14] 金亚秋. 多模式遥感智能信息与目标识别: 微波视觉的物理智能[J]. 雷达学报, 2019, 8(6): 710–716. doi: 10.12000/JR19083.JIN Yaqiu. Multimode remote sensing intelligent information and target recognition: Physical intelligence of microwave vision[J]. Journal of Radars, 2019, 8(6): 710–716. doi: 10.12000/JR19083. [15] 丁赤飚, 仇晓兰, 徐丰, 等. 合成孔径雷达三维成像—从层析、阵列到微波视觉[J]. 雷达学报, 2019, 8(6): 693–709. doi: 10.12000/JR19090.DING Chibiao, QIU Xiaolan, XU Feng, et al. Synthetic aperture radar three-dimensional imaging—from TomoSAR and array InSAR to microwave vision[J]. Journal of Radars, 2019, 8(6): 693–709. doi: 10.12000/JR19090. [16] 丁赤飚, 徐丰, 董秋雷, 等. “合成孔径雷达微波视觉理论与技术专刊”编者按[J]. 雷达学报, 2022, 11(1): 封二.DING Chibiao, XU Feng, DONG Qiulei, et al. Editorial comments of theory and system of synthetic aperture radar microwave vision[J]. Journal of Radars, 2022, 11(1): Inside front cover. [17] ROCK I and DIVITA J. A case of viewer-centered object perception[J]. Cognitive Psychology, 1987, 19(2): 280–293. doi: 10.1016/0010-0285(87)90013-2. [18] PIZLO Z. Perception viewed as an inverse problem[J]. Vision Research, 2001, 41(24): 3145–3161. doi: 10.1016/S0042-6989(01)00173-0. [19] MARR D. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information[M]. Cambridge: MIT Press, 2010: 31–38. [20] WAGEMANS J, ELDER J H, KUBOVY M, et al. A century of Gestalt psychology in visual perception: I. Perceptual grouping and figure-ground organization[J]. Psychological Bulletin, 2012, 138(6): 1172–1217. doi: 10.1037/a0029333. [21] MONGA V, LI Yuelong, and ELDAR Y C. Algorithm unrolling: Interpretable, efficient deep learning for signal and image processing[J]. IEEE Signal Processing Magazine, 2021, 38(2): 18–44. doi: 10.1109/MSP.2020.3016905. [22] LIU Zhuoyang and XU Feng. Interpretable neural networks: Principles and applications[J]. Frontiers in Artificial Intelligence, 2023, 6: 974295. doi: 10.3389/frai.2023.974295. [23] XU Feng and ZHANG Xu. On the concept of semantic electromagnetics[C]. 2022 International Applied Computational Electromagnetics Society Symposium (ACES-China), Xuzhou, China, 2022: 1–3. doi: 10.1109/ACES-China56081.2022.10065038. [24] FU Shilei and XU Feng. Differentiable SAR renderer and image-based target reconstruction[J]. IEEE Transactions on Image Processing, 2022, 31: 6679–6693. doi: 10.1109/TIP.2022.3215069. [25] KARNIADAKIS G E, KEVREKIDIS I G, LU Lu, et al. Physics-informed machine learning[J]. Nature Reviews Physics, 2021, 3(6): 422–440. doi: 10.1038/s42254-021-00314-5. [26] GUO Qian, XU Huilin, and XU Feng. Causal adversarial autoencoder for disentangled SAR image representation and few-shot target recognition[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5221114. doi: 10.1109/TGRS.2023.3330478. [27] LI Shangyang, LIU Zhuoyang, FU Shilei, et al. Intelligent beamforming via physics-inspired neural networks on programmable metasurface[J]. IEEE Transactions on Antennas and Propagation, 2022, 70(6): 4589–4599. doi: 10.1109/TAP.2022.3140891. [28] 刘彻, 杨恺乔, 鲍江涵, 等. 智能电磁计算的若干进展[J]. 雷达学报, 2023, 12(4): 657–683. doi: 10.12000/JR23133.LIU Che, YANG Kaiqiao, BAO Jianghan, et al. Recent progress in intelligent electromagnetic computing[J]. Journal of Radars, 2023, 12(4): 657–683. doi: 10.12000/JR23133. [29] SOHL-DICKSTEIN J, WEISS E A, MAHESWARANATHAN N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]. The 32nd International Conference on International Conference on Machine Learning, Lille, France, 2015: 2256–2265. [30] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2022, 65(1): 99–106. doi: 10.1145/3503250. [31] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. The 27th International Conference on Neural Information Processing Systems, Montreal, Canada, 2014: 2672–2680. [32] EDELMAN S. On What it Means To See, and What We Can Do About It[M]. DICKINSON S, LEONARDIS A, SCHIELE B, et al. Object Categorization: Computer and Human Vision Perspectives. Cambridge: Cambridge University Press, 2009: 69–86. [33] LECUN Y. A path towards autonomous machine intelligence version 0.9.2, 2022-06-27[EB/OL]. https://openreview.net/pdf?id=BZ5a1r-kVsf, 2022. [34] FRISTON K. Is the free-energy principle neurocentric?[J]. Nature Reviews Neuroscience, 2010, 11(8): 605. doi: 10.1038/nrn2787-c2. [35] ZHANG Zhengquan and XU Feng. An overview of the free energy principle and related research[J]. Neural Computation, 2024. doi: 10.1162/neco_a_01642. [36] 尤瑞希, 钱昱彤, 徐丰. 格式塔感知规律在SAR图像中的有效性初探[J]. 雷达学报, 2024, 13(2): 345–359. doi: 10.12000/JR23187.YOU Ruixi, QIAN Yutong, and XU Feng. Preliminary research on the effectiveness of Gestalt perceptual principles in SAR images[J]. Journal of Radars, 13(2): 345–359. doi: 10.12000/JR23187. [37] LI Dong and ZHANG Yunhua. Epipolar geometry comparison of SAR and optical camera[C]. SPIE 9901, 2nd ISPRS International Conference on Computer Vision in Remote Sensing (CVRS 2015), Xiamen, China, 2015: 99010V. doi: 10.1117/12.2234943. [38] JIA Hecheng and XU Feng. Ship Detection in SAR Images with Human-in-the-Loop[EB/OL]. https://arxiv.org/abs/2401.08213, 2024. [39] ZHANG Xu, XU Feng, YANG Ying, et al. A primitive scatterer dictionary for semantic representation of radar target images[J]. IEEE Transactions on Antennas and Propagation, 2023. doi: 10.1109/TAP.2023.3321386. [40] ZHANG Xu, XU Feng, and JIN Yaqiu. A unified bidirectional scattering distribution function for convex quadric surface[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 2003015. doi: 10.1109/TGRS.2023.3294017. [41] ZHANG Xu and XU Feng. Coherent spatially varying bidirectional scattering distribution function of rough surface[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 2004017. doi: 10.1109/TGRS.2021.3136572. [42] YUE Dongxiao, XU Feng, FRERY A C, et al. A generalized gaussian coherent scatterer model for correlated SAR texture[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(4): 2947–2964. doi: 10.1109/TGRS.2019.2958125. [43] SONG Qian, CHEN Hui, XU Feng, et al. EM simulation-aided zero-shot learning for SAR automatic target recognition[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(6): 1092–1096. doi: 10.1109/LGRS.2019.2936897. [44] LV Xiaoling, QIU Xiaolan, YU Wenming, et al. Simulation-aided SAR target classification via dual-branch reconstruction and subdomain alignment[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5214414. doi: 10.1109/TGRS.2023.3305094. [45] SONG Qian, XU Feng, ZHU Xiaoxiang, et al. Learning to generate SAR images with adversarial autoencoder[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5210015. doi: 10.1109/TGRS.2021.3086817. [46] GUO Qian, QIAN Yutong, WANG Haipeng, et al. Recognition rate versus substitution rate curve: An objective utility assessment criterion of simulated training data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5224415. doi: 10.1109/TGRS.2022.3154932. [47] GUO Qian, WANG Haipeng, and XU Feng. Scattering enhanced attention pyramid network for aircraft detection in SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(9): 7570–7587. doi: 10.1109/TGRS.2020.3027762. [48] XU Huilin and XU Feng. Multi-scale capsule network with coordinate attention for sar automatic target recognition[C]. 2021 7th Asia-Pacific Conference on Synthetic Aperture Radar (APSAR), Bali, Indonesia, 2021: 1–5. doi: 10.1109/APSAR52370.2021.9688428. [49] SONG Qian, XU Feng, and ZHU Xiaoxiang. Physical-aware radar image synthesis with projective network[C]. 2021 XXXIVth General Assembly and Scientific Symposium of the International Union of Radio Science (URSI GASS), Rome, Italy, 2021: 1–4. doi: 10.23919/URSIGASS51995.2021.9560559. [50] LEI Zhengxin, XU Feng, WEI Jiangtao, et al. SAR-NeRF: Neural radiance fields for synthetic aperture radar multi-view representation[EB/OL]. https://arxiv.org/abs/2307.05087, 2023. [51] WEI Jiangtao, LUOMEI Yixiang, ZHANG Xu, et al. Learning surface scattering parameters from SAR images using differentiable ray tracing[EB/OL]. https://arxiv.org/abs/2401.01175, 2024. [52] FU Shilei, JIA Hecheng, PU Xinyang, et al. Extension of differentiable SAR renderer for ground target reconstruction from multi-view images and shadows[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5217013. doi: 10.1109/TGRS.2023.3320515. [53] WANG Yanni, JIA Hecheng, FU Shilei, et al. Reinforcement learning for SAR view angle inversion with differentiable SAR renderer[EB/OL]. https://arxiv.org/abs/2401.01165, 2024. 期刊类型引用(3)
1. 金亚秋,迟楠,徐丰,柳钮滔,张俊文,王海鹏,付海洋,刘鹏,王峰,胡凤鸣,施剑阳. 空天电磁信息技术研究进展:获取、传输与智能处理. 中国科学:信息科学. 2025(04): 683-710 . 百度学术
2. 李毅,杜兰,周可儿,杜宇昂. 基于属性散射中心卷积核调制的SAR目标识别深层网络. 雷达学报. 2024(02): 443-456 . 本站查看
3. 何奇山,赵凌君,计科峰,匡纲要. 面向SAR目标识别成像参数敏感性的深度学习技术研究进展. 电子与信息学报. 2024(10): 3827-3848 . 百度学术
其他类型引用(0)
-