Processing math: 100%

融合可微分渲染的SAR多视角样本增广

贾赫成 蒲欣洋 王燕妮 符士磊 徐丰

贾赫成, 蒲欣洋, 王燕妮, 等. 融合可微分渲染的SAR多视角样本增广[J]. 雷达学报(中英文), 2024, 13(2): 457–470. doi: 10.12000/JR24011
引用本文: 贾赫成, 蒲欣洋, 王燕妮, 等. 融合可微分渲染的SAR多视角样本增广[J]. 雷达学报(中英文), 2024, 13(2): 457–470. doi: 10.12000/JR24011
JIA Hecheng, PU Xinyang, WANG Yanni, et al. Multi-view sample augumentation for SAR based on differentiable SAR renderer[J]. Journal of Radars, 2024, 13(2): 457–470. doi: 10.12000/JR24011
Citation: JIA Hecheng, PU Xinyang, WANG Yanni, et al. Multi-view sample augumentation for SAR based on differentiable SAR renderer[J]. Journal of Radars, 2024, 13(2): 457–470. doi: 10.12000/JR24011

融合可微分渲染的SAR多视角样本增广

DOI: 10.12000/JR24011 CSTR: 32380.14.JR24011
基金项目: 国家自然科学基金(61991422)
详细信息
    作者简介:

    贾赫成,博士生,主要研究方向为SAR图像解译

    蒲欣洋,博士生,主要研究方向为遥感图像解译、视觉基础模型

    王燕妮,博士生,主要研究方向为深度强化学习在电磁领域中的应用

    符士磊,博士生,主要研究方向为SAR图像解译、SAR三维重建

    徐 丰,博士,教授,主要研究方向为SAR图像解译、电磁散射建模、智能信息技术

    通讯作者:

    徐丰 fengxu@fudan.edu.cn

  • 责任主编:仇晓兰 Corresponding Editor: QIU Xiaolan
  • 中图分类号: TN95

Multi-view Sample Augumentation for SAR Based onDifferentiable SAR Renderer

Funds: The National Natural Science Foundation of China (61991422)
More Information
  • 摘要: 合成孔径雷达(SAR)因其全天候、全天时的监测能力在民用和军事领域得到广泛应用。近年来,深度学习已被广泛应用于SAR图像自动解译。然而,由于卫星轨道和观测角度的限制,SAR目标样本面临视角覆盖率不全的问题,这为学习型SAR目标检测识别算法带来了挑战。该文提出一种融合可微分渲染的SAR多视角样本生成方法,结合逆向三维重建和正向渲染技术,通过卷积神经网络(CNN)从少量SAR视角图像中反演目标三维表征,然后利用可微分SAR渲染器(DSR)渲染出更多视角样本,实现样本在角度维的插值。另外,方法的训练过程使用DSR构建目标函数,无需三维真值监督。根据仿真数据的实验结果,该方法能够有效地增加多视角SAR目标图像,并提高小样本条件下典型SAR目标识别率。

     

  • 由于具有全天候、全天时、远距离观测的能力,合成孔径雷达(Synthetic Aperture Radar, SAR)在民用和军事领域得到了广泛应用。近年来,随着深度学习技术在计算机视觉领域快速发展,其已被广泛应用于自动解读SAR图像[13]。学习型算法需要大量样本数据进行训练,而样本多样性对所训练模型的鲁棒性至关重要。这使得基于深度学习的SAR目标检测识别方法面临一些新挑战,例如样本数量及视角较少导致的小样本问题[4]

    小样本问题在遥感领域尤为突出,特别是对于SAR目标而言,存在视角覆盖不足的问题[5]。如图1所示,分析产生该问题的原因,主要有以下3个方面:

    图  1  SAR目标视角覆盖不足的原因分析
    Figure  1.  Analysis of insufficient view coverage for SAR targets

    (1) 卫星轨道和入射角的限制。由于卫星轨道固定,成像时能够观测到的目标视角有限,往往不能覆盖目标在所有入射角和方位角上的变化。同时,SAR成像质量也受到地形和入射角等因素的影响。

    (2) 典型场景目标朝向多样性不足。在一些常见的遥感场景中,如机场、停车场等,很多飞机和车辆都按照一定规则排列和停放,它们的朝向往往是相同或者相近的,缺乏多样性。如图1中间展示的机场停机位、停车场停车位中,目标呈单一朝向排列。

    (3) SAR图像中目标在不同视角下差异较大。由于SAR图像是基于雷达散射机理生成的,不同入射角和方位角下成像时,所采用的参数会影响目标的形状、大小、亮度、阴影等特征,导致同一目标在不同视角下呈现出不同甚至相反的特性,如图1右侧所示。

    小样本问题的一种常见解决方法是进行训练样本扩充。对于光学图像而言,一些数据增强[68]方法能够生成新样本,扩充已有数据集,降低模型过拟合概率。这些方法通常基于翻转、平移、剪切、旋转、加噪等操作生成新图像。还有一些方法引入神经网络用于数据增强,通过学习已有样本特征,生成新图像数据。例如,Schwartz等人[9]使用改进的自编码器提取不同类别样本之间的差异信息并迁移到新类,Antoniou等人[10]将生成对抗网络用于数据增强。然而,SAR图像具有其独特的成像机制,这些针对光学图像的方法无法模拟SAR图像中由于入射角和方位角变化而产生的目标特征变化。因此,就SAR图像而言,需要一种能够融合SAR成像机理来实现样本在角度维上插值的方法。

    目前,已有一些方法用于生成多视角SAR图像。一类是非学习型的仿真方法,其针对SAR的特性,通过电磁建模来生成更多样本图像。然而,这需要精确的目标模型和复杂的电磁计算,使得过程可能变得复杂且耗时[11]。另外一些方法基于生成对抗网络进行设计,例如,Guo等人[12]在生成对抗网络基础上加入杂波归一化方法,提高网络训练过程收敛速度和图像生成的质量。实验表明即使只有25%的视角作为训练集,模型依然可以生成正确的样本,但是样本质量将有所下降。Song等人[13]改进对抗性自编码器用于SAR图像的表征和生成,经过有限样本训练可以生成其他观测条件下的新样本数据。Guo等人[14]在此基础上提出基于解纠缠特征的自编码模型,进一步提高小样本识别精度。这些方法的优点是可以在没有精确物理模型的情况下生成样本,但依然需要一定量的数据作为训练支撑。

    上述方法[1214]主要通过二维图像空间中的处理来获取新角度样本,但在实际场景中,目标二维图像都来自三维空间的映射。在光学图像领域,有些方法通过渲染三维模型来生成多视角样本,例如,Liu等人[15]通过可微渲染器从三维网格渲染出多视角光学图像,可通过反向传播算法进行逆向建模。另外,一些基于卷积神经网络(Convolutional Neural Network, CNN)的方法能够从少量不同视角图像中生成目标三维模型。Wang等人[16]从输入图像中提取特征,将初始三维椭球模型逐步变形成目标正确的几何形状。Wen等人[17]利用图卷积网络与交叉视图信息来进一步提高三维模型的质量。然而,这些重建方法需要三维真值监督进行训练,而在实际场景中,通常很难获得大量目标三维模型。结合目标重建网络和渲染器的方法可以摆脱三维真值的约束,已经有一些方法在光学目标上进行了尝试[15]。这些将目标二维图像和三维模型建立对应关系的方法,也为样本扩充带来了新的思路。

    Fu等人[18]于2022年提出了可微分SAR渲染器(Differentiable SAR Renderer, DSR),可以根据雷达参数、纹理信息,从目标三维模型渲染出任意视角SAR图像。DSR通过重构SAR成像机制的映射和投影算法,将其转化为概率图的可微分形式,具有天然集成的前向-反向架构。一方面,DSR可以基于成像物理机理生成逼真的SAR目标图像;另一方面,其可微分特性允许梯度从输出(例如渲染的SAR图像)反向传播到输入(例如三维模型参数或神经网络权重),这是训练深度学习模型的基础。但在实际应用过程中,对于每个新任务,DSR都需要进行多次迭代来重建三维模型,不具备直接反演并生成样本的能力。目前已有一些单视图或者少量视图直接推理三维模型的研究,但其训练过程需要三维真值监督。结合目标重建网络和DSR的方法,训练过程可以摆脱三维真值约束,并基于单视图进行推理,提高方法在实际应用过程中的实用性。

    针对上述方法[1518]的优缺点,本文基于DSR技术提出一个新型的SAR样本多视角生成方法,来应对SAR样本视角覆盖不足的问题。该方法采用了逆向建模和正向渲染相结合的思路,整合DSR到基于CNN的三维重建方法中。首先通过CNN从二维SAR目标图像中重建三维模型,然后利用DSR渲染出任意视角的SAR目标图像。DSR同时被用于构建目标函数,使得本文方法不需要三维真值进行监督训练,形成一个端到端的SAR样本生成框架。训练时,本文方法仅需要少量视角样本,推理时,模型可以通过单视角图像生成目标三维模型,并渲染出多视角图像。另外,相较于直接使用DSR进行反演,本文方法的CNN模块自动提取像素级别特征,在预测网格形变的顶点偏移量方面具有天然优势,反演精度更高;在算法效率方面,本文方法可以同时训练多个目标,并进行单视图推理,实用性更强。

    以下部分将分别介绍方法的思路和设计实现、仿真和实测样本的生成实验,以及基于仿真数据的样本扩充和小样本识别实验。

    算法整体框架如图2所示,包含卷积神经网络(CNN)模块和可微分SAR渲染器(DSR)模块。本文采用三角面元网格来表征目标三维结构,并预定义了一个初始球体网格,用于变形为目标三维模型。为了更好地与DSR协同工作,CNN模块采用了一个编码器-解码器的网络结构。

    图  2  SAR多视角样本增广算法框架
    Figure  2.  Overall framework of multi-view sample augumentation for SAR

    所提框架的输入包括CNN模块的SAR样本图像以及DSR模块的雷达入射角、方位角及分辨率,后者用于和网格模型一起构建DSR渲染图像的场景参数。在算法训练阶段,二维SAR图像被送入框架中,CNN模块通过卷积操作提取图像特征,预测网格顶点的偏移,并修改几何模型。DSR使用当前迭代生成的三维网格和雷达参数,渲染出与训练图像视角一致的SAR样本图像。随后,算法在渲染图像和真值之间计算损失,并通过反向传播更新CNN模型中的参数,如图2中的黄色箭头所示。在推理阶段,单个视角的SAR图像及其雷达参数信息被送入所提框架,CNN模块基于单视角重建目标的三维模型,而DSR根据雷达参数和重构的网格渲染出任意视角的SAR目标图像。

    另外,由于SAR成像是斜距投影,具有独特的目标区域和阴影区域,对于DSR,输入三维场景要素,融合成像机制,可以同时得到目标和阴影。所提方法利用DSR构建目标函数,同时利用了目标和阴影约束,因此在训练和推理阶段输入网络的SAR图像需要预先区分目标和阴影区域。对于真实SAR图像,所提方法当前采用阈值粗分割和人工微调的方式。图3展示了对仿真车辆数据的预处理,其中红色代表目标区域,蓝色代表阴影区域。预分割处理的准确度对算法性能的影响,将在3.2节进行实验验证和讨论。

    图  3  目标和阴影区域预处理
    Figure  3.  Preprocessing of target and shadow regions

    目标重建模块将二维SAR图像重建为三维网格模型,受Liu等人[15]和Kato等人[19]工作的启发,该模块基于CNN实现,网络结构包括编码器和解码器两个部分,如图4所示。网络的输入为3通道组成的二维图像:目标SAR图像、目标区域图和目标阴影图。编码器部分首先通过3个卷积层提取图像特征,每个卷积层后分别用一个批归一化层进行归一化,然后通过ReLU激活函数进行非线性变换。接下来,二维特征图变换成一维,并通过3个全连接层进行进一步的特征提取。

    图  4  目标重建网络结构
    Figure  4.  Structure of the target reconstruction network

    解码器用于将编码器提取的特征重构为三维模型。首先,使用两个全连接层对编码器的输出特征进行维度变换,然后对变换的特征分别应用两个单独的全连接层获取网格中心和顶点的偏移:顶点局部偏差向量bi和中心点全局偏差向量c。最后,对初始网格进行逐顶点变换操作,将网格的每个顶点vi移动到vi+bi+c的位置,而保持网格的面不变,生成预测的目标三维模型。

    总的来说,目标重建网络通过编码器从输入的二维图像中提取特征,然后解码器将这些特征转化为网格的顶点偏移量,通过顶点的偏移表征目标的三维模型。网络的训练过程需要真值监督,考虑到目标精确的三维真值获取难度较大,本文方法采用DSR来构建目标函数,这部分在2.3节展开详细描述。

    DSR将可微分性特性引入到SAR映射和投影算法[20]中,提供了生成SAR图像的可微分正演模型,DSR已经被证明可以用于渲染逼真的SAR图像。所提方法引入DSR,一是用于生成多视角样本,二是用于构建所设计网络的目标函数。在已知三维网格真值的情况下,DSR可以渲染出任意视角的SAR目标图像,可微分特性使得该模块可以反向传播梯度和CNN相结合进行网络训练。

    SAR的成像机制使得图像形成特有的目标和阴影区域。参考Fu等人[21]的做法,本研究的目标函数将综合利用DSR生成的目标和阴影区域,后续分别称之为照射图Iill和阴影图Isha。DSR融合了SAR成像机制来渲染目标图像,图5展示了SAR照射目标产生IillIsha的过程。其中,OZ为距离向,蓝色为投影平面,红色为映射平面。当雷达信号遇到地面目标时,未被雷达信号照射到的区域形成阴影Isha,而其上部相邻区域为包含叠掩的Iill,因此Iill可以用来确定Isha上界。此外,雷达波束照射目标区域在地面形成的投影,此投影在斜距上的映射形成图中的目标地距轮廓图Igsil,它可以用来确定Isha的下界。

    图  5  目标照射图和阴影图生成示意
    Figure  5.  Illustration of illumination map and shadow map generation

    DSR对三维网格进行渲染的过程分成投影和映射两个部分,首先,投影单元发出射线与网格中的多个面相交,然后,映射将每个面的散射纹理(散射强度)积累到映射单元上,形成目标SAR图像Isar。对于每个映射单元m(p,q),需考虑所有面片对其贡献,定义为

    I(p,q)sar=Nfn=1δ(p,q)nω(p,q)nSn (1)

    其中,I(p,q)sarm(p,q)上的SAR图像强度,Nf是网格面片的总数,δ(p,q)n是面片fnm(p,q)上的覆盖概率,ω(p,q)nfnm(p,q)上的雷达照射强度,Snfn的散射值。雷达可视区域与δ(p,q)nω(p,q)n相关,当δ(p,q)nω(p,q)n>0时,即目标照亮区域。因此,对于照射图Iill,每个面片对映射单元的贡献概率φ(p,q)n定义为

    ϕ(p,q)n=P(δ(p,q)n>0)P(ω(p,q)n>0) (2)

    而映射区域是否被照亮,即至少一个面片贡献不为0的概率,定义为

    I(p,q)ill=1Nfn=1(1ϕ(p,q)n) (3)

    同样,对于Igsil,每个映射单元至少一个面片贡献不为0的概率分别为I(p,q)gsil。然后,如图5所示,根据IillIgsil,可以计算Isha

    Isha=IgsilIgsilIill (4)

    和CNN模块的输入一样,DSR渲染的二维SAR目标图像包含SAR图像通道Isar、照射图通道Iill、阴影图通道Isha。构建的目标函数计算渲染图像和真值之间的损失,包括照射图损失Lill、阴影图损失Lsha、几何损失。联合损失函数定义如下:

    {Ltotal=Lill+Lsha+λ1Llap+λ2LflatLill=1IillIillIill+IillIillIillLsha=1IshaIshaIsha+IshaIshaIshaLlap=Nvi=1|Δxi|2Lflat=i,j(1+cos(θij))2 (5)

    其中,LillLsha采用交并比损失,为点乘运算,IillIsha分别为预测的照射图和阴影图。几何损失由两部分组成:LlapLflat, λ1λ2为权重系数,实验过程中参考文献[18]对λ1λ2进行设置和调整,初始值为0.03和0.0003;Llap为拉普拉斯损失,用于保持网格的平滑性,Nv是顶点的数量,Δxi是第i个顶点的拉普拉斯变形,即xi与其邻接顶点差的加权和;Lflat为平滑度损失,用于减少网格表面的扭曲,i,j表示一对邻接三角形,θij是两个共享边三角形法线之间的夹角。计算完二维图像间的损失后,算法通过反向传播和梯度下降策略优化CNN参数。

    所提方法的实验评估针对3类SAR仿真目标展开:车辆、飞机和风车。针对所提的框架,分别评估了作为中间结果的三维模型的精度,以及生成的多视角SAR目标图像结果。本节实验数据集由DSR渲染三维模型真值得到,DSR仿真数据质量主要受三维模型精度、分辨率等因素影响,实验中成像分辨率为0.3 m,三维真值模型如图6第1行所示。训练和测试图像分别包含4个入射角α和8个方位角β,每个目标总计32张SAR图像,详细信息请见表1。另外,经过DSR的渲染,图像已自动区分出目标和阴影区域。

    图  6  目标重建结果可视化
    Figure  6.  Visualization of target reconstruction results
    表  1  仿真数据集信息
    Table  1.  Information of the simulated dataset
    实验数据集 入射角α 方位角β
    训练集 {30°, 40°, 50°, 60°} {0°, 45°, 90°, ···, 315°}
    测试集1 {30°, 40°, 50°, 60°} {30°, 75°, 120°, ···, 345°}
    测试集2 {35°, 45°, 55°, 65°} {30°, 75°, 120°, ···, 345°}
    下载: 导出CSV 
    | 显示表格

    对于CNN模块的网格重建能力,这里采用平均交并比(mean Intersection over Union, mIoU)进行评估,计算公式如下:

    IoU(P,T)=Vol(Inter(P,T))Vol(Union(P,T)) (6)
    mIoU=1CCc=1IoU(Pc,Tc) (7)

    其中,PT分别表示预测网格和真值,Vol()表示体素化,C代表样本数量,即目标所有单视角测试图片推理出来的网格总数。实验采用的初始网格为一个包含1280个面的球体,所有实验训练轮次固定为200,并行样本数(Batch Size, BS)设置成8。

    表2展示了重建模型的量化评估结果,其中测试集的mIoU为每张图像由所提方法得到三维结果IoU的平均值。目标三维模型作为所提方法的中间结果,其重建精度直接影响渲染的目标图像质量。从mIoU结果看,对于不同入射角和方位角的单视角图像,所提方法重建的网格模型精度接近,训练的模型具有较好的鲁棒性。同时,图6展示了车辆、飞机、风车的可视化重建结果,第1行为真值,第2行为重建结果。可以看出,基于32个视角进行训练可以达到较优的目标重建效果。

    表  2  各目标重建结果的mIoU
    Table  2.  mIoU of reconstruction results for each target
    目标类型训练集测试集1测试集2
    车辆0.84100.83750.8401
    飞机0.86290.85210.8554
    风车0.78600.78580.7880
    下载: 导出CSV 
    | 显示表格

    从单视角图像重建目标网格后,所提方法可以通过DSR模块渲染任何视角SAR目标图像。图7是生成的SAR车辆图像与真值的可视化对比,其中入射角α=50°,方位角β={30°, 75°, 120°, 165°},第1行为真值,第2行为生成结果,展示的图像做了对比度增强处理。为了获得真实的模型散射纹理,本文实验生成的SAR目标和地面散射纹理通过拟合实测样本得到。具体来说,首先获得真实的SAR车辆图像(本文实验中采用MSTAR[22]数据集中的车辆目标图像),分割出目标区域和地面区域,并使用Gamma分布来拟合目标区域和地面区域的像素,如图8所示,红色和蓝色分别代表背景和目标区域的能量拟合曲线。最后,在拟合的Gamma分布中随机生成样本的散射纹理,并分别分配给目标三维网格的面元和生成图像的背景区域。

    图  7  SAR车辆目标生成结果可视化
    Figure  7.  Visualization of SAR vehicle target generation results
    图  8  目标区域和背景区域像素的Gamma分布拟合
    Figure  8.  Gamma distribution fitting of pixel values in target and background regions

    由于实际环境中可获取的SAR视角样本很少,这里对训练样本视角数量对所提方法的影响进行了实验研究,以确定方法在少视角样本下的性能。这里采用SAR车辆目标作为实验样本,依旧使用DSR渲染出仿真图像,并用mIoU评估样本重建和生成能力。第1组实验固定入射角α=45°,方位角β均匀分布在[0°, 360°)范围内,数量逐渐增加,结果如图9(a)所示。第2组实验固定方位角β={22.5°, 45.0°, 67.5°},入射角均匀分布在[0°, 90°)范围内,数量逐渐增加,结果如图9(b)所示。

    图  9  不同视角数量下的目标重建结果评估
    Figure  9.  Evaluation of target reconstruction results with different numbers of views

    从结果可以看出,随着视角的增加,目标重建的精度逐渐提高。为了达到较好的效果,固定单个入射角时,算法需要至少18个方位角样本;固定3个方位角时,算法需要至少4个入射角样本。总的来说,至少需要12个视角,算法可以重建和生成较优的结果。

    本文所提方法也在实测数据上进行了初步验证,实验对象为MSTAR数据集中的T72车辆目标。训练样本选取数据集中的8个视角样本,入射角α=75°,方位角β={0°, 42°, 88°, 135°, 179°, 225°, 269°, 317°}。由于本文方法需要利用SAR目标的照射区域和阴影区域,先对图像进行预处理,分割出目标和阴影。图10展示其中两张目标图像的分割结果,第1行β=225°,第2行β=42°,第1—3列分别为原图、目标区域、阴影区域。可以看出,相对于仿真图像,真实场景的复杂性导致实测图像更难区分出目标和阴影区域,这也为本文方法带来了一定挑战。

    图  10  T72实测样本的目标和阴影区域分割示意
    Figure  10.  Illustration of target and shadow area segmentation for T72 measured samples

    模型共训练200轮次,BS设为8。这里使用3.1节的车辆仿真模型进行评估,方法重建模型的mIoU为0.6113,可视化效果如图11所示,左侧为等轴视角,右侧为顶部视角。重建的模型可以大致反映出目标的三维结构,但和真值有一定的差距,一方面是由于用于训练的视角较少,另一方面由于实测场景更加复杂,目标受散射噪声影响,细节较仿真更不明显。同时,此实验只采用了8个视角,mIoU和3.1节仿真条件下8个视角结果基本一致,验证了方法在实测数据上的有效性。另外,单独使用DSR对此车辆目标进行三维反演,mIoU为0.55[21],比本文所提方法略低,这主要是由于本文方法CNN模块在预测差值方面具有优势,比直接基于网格模型进行三维拟合精度更高。

    图  11  基于实测数据重建的目标三维模型可视化
    Figure  11.  Visualization of target 3D models reconstructed based on measured data

    图12展示了方法基于重建模型生成的样本,其中,第1行为MSTAR实测数据,第2行为生成结果,红色为目标区域,蓝色为阴影区域,α=75°β={7°, 38°, 83°, 122°}。可以看出,和真值图像相比,生成图像能较好地反映出SAR目标的照射区域和阴影区域。但由于重建模型在细节上较为粗糙,目标表面的散射纹理(散射强度)和实测真值仍然具有一定差距。

    图  12  生成图像中的目标和阴影区域
    Figure  12.  Target and shadow areas in generated images

    此外,SAR目标阴影约束是本文所提方法目标函数中重要部分,而实测样本较难准确地分割出目标的阴影区域。因此,阴影分割准确度对方法的影响也进行了实验评估。这里同样采用8个视角,将初始分割作为基准,对阴影区域分别采用形态学腐蚀和膨胀操作,模拟分割不准确的情况,图13展示了模拟操作的结果,红色为目标区域,蓝色为阴影区域,从左到右依次为:原图、基准阴影、膨胀4次、腐蚀4次。

    图  13  阴影区域形态学处理示意
    Figure  13.  Illustration of morphological processing in shadow areas

    重建的三维模型mIoU结果如图14所示,其中,s_IoU为形态学处理后阴影和基准的交并比,越低说明阴影分割越不准确。腐蚀操作共执行4次,随着阴影分割准确性降低,mIoU逐渐降低。膨胀操作初始对性能影响不大,大于6次之后,mIoU开始明显下降,这是由于膨胀操作使得部分阴影区域被目标覆盖,影响没有腐蚀明显。综上可以看出,阴影分割准确度越高,所提方法目标重建和生成质量越高,也证明了本文方法加入阴影约束的有效性。

    图  14  不同阴影分割准确性下的实验结果
    Figure  14.  Experimental results under different shadow segmentation accuracies

    本节使用所提方法对典型的SAR车辆目标进行样本扩充,并应用于小样本识别任务,验证方法在小样本任务上的效果。分成实验设置、样本生成、识别效果3个部分。

    (1) 实验设置

    实验基于仿真数据开展,类别采用MSTAR数据集中的10类典型车辆。数据方面,通过收集目标的三维模型,用DSR渲染出仿真样本,10类典型车辆及其三维模型如图15第1行和第3行所示。本实验渲染的样本图像尺寸为128像素×128像素大小,成像分辨率0.3 m,和MSTAR保持一致。在渲染仿真数据前,首先对三维网格进行预处理,缩放到此分辨率,并将网格顶点归一化到[–1, 1]区间,同时简化部分复杂模型,使其可以在本实验资源内渲染。实验数据共分为5组,配置如表3所示,展示了每批数据样本的入射角、方位角和整体数量。每类样本训练集32个,测试集144个,为典型的小样本条件,其余3批为本文所提方法生成的扩充样本,用于扩充训练数据。

    图  15  各类别中间结果的三维模型可视化
    Figure  15.  Visualization of intermediate 3D models for each category
    表  3  小样本识别实验数据配置
    Table  3.  Configuration of experimental data for few-shot recognition
    训练数据 入射角α 方位角β 样本数量
    训练集 {30°, 40°, 50°, 60°} {0°, 45°, 90°, ···, 315°} 320
    测试集 {5°, 15°, 25°, ···, 355°} 1440
    扩充1 {0°, 30°, 60°, ···, 330°} 480
    扩充2 {0°, 20°, 40°, ···, 340°} 720
    扩充3 {0°, 10°, 20°, ···, 350°} 1440
    下载: 导出CSV 
    | 显示表格

    另外,样本生成实验训练轮次固定为200,BS为8,初始学习率为0.0001,采用2700个面的球体网格作为初始化模型,中间三维模型结果的评估采用3.1节的mIoU,以及平滑度指标LflatLflat为网格各面元之间夹角余弦值的平方和,值越小说明模型越平滑,定义同式(5)。

    识别实验算法训练轮次固定为100,BS为128,统一不采用数据增强,使用两张NIVIDIA RTX3090显卡进行训练和评估,评估指标为分类准确率和混淆矩阵。准确率Acc定义如下:

    Acc=TP+TNTP+FN+FP+TN (8)

    其中,TP, TN, FP, FN分别代表真正例、真负例、假正例、假负例。

    (2) 样本生成

    所提方法采用样本扩充策略辅助小样本识别任务,首先进行样本生成实验。每个样本采用训练集中的32个不同视角的图像进行训练。表4展示了方法中间生成的目标三维模型的量化评估结果,和真值的可视化结果对比如图15所示,第1行和第3行为真值,第2行和第4行为重建结果。从结果中可以看出,本文方法能够重建细粒度车辆目标大致的三维轮廓,平滑度较高。但由于采用的初始三维网格面元较少,模型的细节不如真值丰富。

    表  4  各类别重建三维模型结果评估
    Table  4.  Quantitative evaluation of intermediate 3D models for each category
    目标 mIoU Lflat 目标 mIoU Lflat
    BRDM2 0.7919 0.0036 ZIL131 0.7995 0.0050
    BTR60 0.7812 0.0029 ZSU234 0.6000 0.0029
    D7 0.6653 0.0039 T72 0.6406 0.0032
    2S1 0.8052 0.0030 BMP2 0.7982 0.0022
    T62 0.7321 0.0040 BTR70 0.7781 0.0030
    下载: 导出CSV 
    | 显示表格

    目标的散射纹理采用和3.1节一样的策略,对MSTAR实测数据集中对应类别的目标和背景区域进行提取,采用Gamma函数拟合,然后随机生成纹理信息赋予目标和背景,各类别Gamma拟合的形状参数a和尺度参数b表5所示。

    表  5  各类别散射纹理Gamma拟合参数估计
    Table  5.  Estimation of Gamma fitting parameters for scattering texture of each category
    目标 背景区域 目标区域
    参数a 参数b 参数a 参数b
    BRDM2 2.583 0.014 1.104 0.147
    BTR60 2.125 0.022 1.094 0.185
    D7 3.898 0.009 0.909 0.245
    2S1 3.597 0.012 1.145 0.169
    T62 3.331 0.010 1.070 0.191
    ZIL131 4.076 0.008 1.080 0.157
    ZSU234 3.144 0.009 0.955 0.216
    T72 2.550 0.018 1.066 0.202
    BMP2 2.561 0.018 1.027 0.191
    BTR70 2.610 0.018 1.179 0.141
    下载: 导出CSV 
    | 显示表格

    图16展示了方法生成的样本图像和真值的对比,第1行和第3行为真值,第2行和第4行为生成结果,入射角为60°,方位角为135°,展示结果已做量化处理。可以看出,生成的样本和真值的轮廓及阴影具有一定的相似度。但由于生成目标的细节不如真值,导致部分目标区域的散射强度和真值比存在差异。

    图  16  各类别生成样本与真值可视化对比
    Figure  16.  Visualization comparison of generated samples and ground truth for each category

    (3) 识别效果

    样本生成之后,作为训练集的补充,研究其对小样本识别任务的影响。这里采用4种主流CNN分类网络进行测试和对比:VGG16[23], ResNet50[24], HRNet[25], Swin-tiny[26],所有网络训练配置保持一致。另外,为了对比主流的旋转样本增广方法,实验同时加入旋转数据增强的消融对比。基准训练数据包含320个目标,扩充数据分成3组,每组扩充的视角如表3所示,扩充1—扩充3数量分别为480, 720, 1440。

    实验结果如表6所示,在统一不进行数据增强的条件下,可以看出,使用所提方法生成的样本用于扩充,显著提高了各个网络的识别准确度。随着扩充样本数量的增加,识别度逐渐提高,样本总数超过720个后,提升不明显,这可能是由于视角多样性趋于饱和,也证明方法在扩充720个样本之后,可以使分类网络达到较优的结果。

    表  6  样本扩充与小样本识别结果
    Table  6.  Results of few-shot recognition with sample augmentation
    训练数据 样本总数 旋转增强 准确率(%)
    VGG16 ResNet50 HRNet Swin-tiny
    原训练集 320 89.65 92.50 85.35 89.79
    95.69 96.87 94.86 95.83
    扩充1 800 94.24 96.94 95.76 94.24
    扩充2 1040 96.32 97.50 95.83 94.65
    扩充3 1760 95.90 97.29 95.69 96.39
    97.78 99.03 97.85 98.96
    下载: 导出CSV 
    | 显示表格

    原训练集在加入旋转数据增强后,也有较明显的性能提升,但和本文所提方法对比,除VGG16网络性能较为接近外,准确率均低于所提方法扩充3的结果。另外,所提方法可以和旋转数据增强方法相结合,如表6所示,扩充3在加入旋转数据增强后,网络的准确率进一步提高,最高的ResNet50可以达到99.03%。这主要是由于所提样本增广方法融合了SAR成像机理,生成样本的特征与传统旋转增强的样本具有一定的差异,同时也验证了所提方法在SAR样本角度维差值的有效性。

    此外,每个类别的识别准确率也进行了评估。表7展示的是ResNet50作为基准时,各个类别的识别准确率,表7中ZIL代表ZIL131,ZSU代表ZSU234。图17展示了原始训练集和加入扩充2(即720个样本)后结果对应的混淆矩阵。可以看出,当训练数据较少时,模型容易过拟合,对于一些易混淆的类别分类准确率较低,例如BMP2和BTR70。样本扩充之后,这些类别的准确率得到了明显的提升。

    表  7  ResNet50的各类别识别结果准确率(%)
    Table  7.  Per-category recognition accuracy using ResNet50 (%)
    训练数据 BRDM2 BTR60 D7 2S1 T62 ZIL ZSU T72 BMP2 BTR70
    原始数据集 85.16 98.62 97.95 97.93 96.50 100 99.31 88.82 86.96 75.60
    扩充1 99.26 100 100 99.31 100 100 100 100 90.62 82.25
    扩充2 98.57 100 100 100 100 100 100 100 92.31 85.37
    扩充3 99.29 100 100 100 100 100 98.63 99.31 86.90 89.04
    下载: 导出CSV 
    | 显示表格
    图  17  扩充前后识别结果混淆矩阵
    Figure  17.  Confusion matrices of recognition results before and after augmentation

    本节的仿真实验结果证明了所提方法生成样本的有效性,并且作为数据扩充,可以提高典型SAR目标小样本识别任务的性能,这为后续实测目标实验构建了基础。

    此外,本文所提方法依然存在一些局限性,例如无法推理未学习过的目标、尚不具备散射纹理(散射强度)的自动学习能力。团队将针对这些问题,进一步深入研究,提高方法的实用性。

    深度学习算法需要大量的数据支撑模型训练,卫星遥感图像受轨道、获取影像视角等限制,往往具有小样本的特点,尤其是SAR图像。本文针对SAR训练样本视角覆盖不足的问题开展研究,提出了一种融合可微分渲染的SAR多视角样本生成方法。该方法包括目标三维重建和可微分渲染两部分,通过正演和反演相结合的方式进行多视角样本扩充。本文方法设计了基于CNN的目标三维重建网络,可以基于少量视角反演出目标的几何模型;渲染模块引入DSR构建训练过程的目标函数,同时生成任意视角SAR目标图像。CNN和DSR两者结合形成端到端的多视角样本生成框架,训练过程无需三维真值监督。

    本文基于仿真数据展开目标重建和样本生成实验,实验结果证明了方法的有效性。同时,本文方法也在MSTAR实测样本上进行了初步验证,典型车辆目标的实验结果证明了方法在实测数据上的潜力。最后,扩充的样本对于小样本识别任务的作用也进行了实验研究,对于10类车辆目标的仿真数据,所提方法有效提升了小样本条件下的识别率。

  • 图  1  SAR目标视角覆盖不足的原因分析

    Figure  1.  Analysis of insufficient view coverage for SAR targets

    图  2  SAR多视角样本增广算法框架

    Figure  2.  Overall framework of multi-view sample augumentation for SAR

    图  3  目标和阴影区域预处理

    Figure  3.  Preprocessing of target and shadow regions

    图  4  目标重建网络结构

    Figure  4.  Structure of the target reconstruction network

    图  5  目标照射图和阴影图生成示意

    Figure  5.  Illustration of illumination map and shadow map generation

    图  6  目标重建结果可视化

    Figure  6.  Visualization of target reconstruction results

    图  7  SAR车辆目标生成结果可视化

    Figure  7.  Visualization of SAR vehicle target generation results

    图  8  目标区域和背景区域像素的Gamma分布拟合

    Figure  8.  Gamma distribution fitting of pixel values in target and background regions

    图  9  不同视角数量下的目标重建结果评估

    Figure  9.  Evaluation of target reconstruction results with different numbers of views

    图  10  T72实测样本的目标和阴影区域分割示意

    Figure  10.  Illustration of target and shadow area segmentation for T72 measured samples

    图  11  基于实测数据重建的目标三维模型可视化

    Figure  11.  Visualization of target 3D models reconstructed based on measured data

    图  12  生成图像中的目标和阴影区域

    Figure  12.  Target and shadow areas in generated images

    图  13  阴影区域形态学处理示意

    Figure  13.  Illustration of morphological processing in shadow areas

    图  14  不同阴影分割准确性下的实验结果

    Figure  14.  Experimental results under different shadow segmentation accuracies

    图  15  各类别中间结果的三维模型可视化

    Figure  15.  Visualization of intermediate 3D models for each category

    图  16  各类别生成样本与真值可视化对比

    Figure  16.  Visualization comparison of generated samples and ground truth for each category

    图  17  扩充前后识别结果混淆矩阵

    Figure  17.  Confusion matrices of recognition results before and after augmentation

    表  1  仿真数据集信息

    Table  1.   Information of the simulated dataset

    实验数据集 入射角α 方位角β
    训练集 {30°, 40°, 50°, 60°} {0°, 45°, 90°, ···, 315°}
    测试集1 {30°, 40°, 50°, 60°} {30°, 75°, 120°, ···, 345°}
    测试集2 {35°, 45°, 55°, 65°} {30°, 75°, 120°, ···, 345°}
    下载: 导出CSV

    表  2  各目标重建结果的mIoU

    Table  2.   mIoU of reconstruction results for each target

    目标类型训练集测试集1测试集2
    车辆0.84100.83750.8401
    飞机0.86290.85210.8554
    风车0.78600.78580.7880
    下载: 导出CSV

    表  3  小样本识别实验数据配置

    Table  3.   Configuration of experimental data for few-shot recognition

    训练数据 入射角α 方位角β 样本数量
    训练集 {30°, 40°, 50°, 60°} {0°, 45°, 90°, ···, 315°} 320
    测试集 {5°, 15°, 25°, ···, 355°} 1440
    扩充1 {0°, 30°, 60°, ···, 330°} 480
    扩充2 {0°, 20°, 40°, ···, 340°} 720
    扩充3 {0°, 10°, 20°, ···, 350°} 1440
    下载: 导出CSV

    表  4  各类别重建三维模型结果评估

    Table  4.   Quantitative evaluation of intermediate 3D models for each category

    目标 mIoU Lflat 目标 mIoU Lflat
    BRDM2 0.7919 0.0036 ZIL131 0.7995 0.0050
    BTR60 0.7812 0.0029 ZSU234 0.6000 0.0029
    D7 0.6653 0.0039 T72 0.6406 0.0032
    2S1 0.8052 0.0030 BMP2 0.7982 0.0022
    T62 0.7321 0.0040 BTR70 0.7781 0.0030
    下载: 导出CSV

    表  5  各类别散射纹理Gamma拟合参数估计

    Table  5.   Estimation of Gamma fitting parameters for scattering texture of each category

    目标 背景区域 目标区域
    参数a 参数b 参数a 参数b
    BRDM2 2.583 0.014 1.104 0.147
    BTR60 2.125 0.022 1.094 0.185
    D7 3.898 0.009 0.909 0.245
    2S1 3.597 0.012 1.145 0.169
    T62 3.331 0.010 1.070 0.191
    ZIL131 4.076 0.008 1.080 0.157
    ZSU234 3.144 0.009 0.955 0.216
    T72 2.550 0.018 1.066 0.202
    BMP2 2.561 0.018 1.027 0.191
    BTR70 2.610 0.018 1.179 0.141
    下载: 导出CSV

    表  6  样本扩充与小样本识别结果

    Table  6.   Results of few-shot recognition with sample augmentation

    训练数据 样本总数 旋转增强 准确率(%)
    VGG16 ResNet50 HRNet Swin-tiny
    原训练集 320 89.65 92.50 85.35 89.79
    95.69 96.87 94.86 95.83
    扩充1 800 94.24 96.94 95.76 94.24
    扩充2 1040 96.32 97.50 95.83 94.65
    扩充3 1760 95.90 97.29 95.69 96.39
    97.78 99.03 97.85 98.96
    下载: 导出CSV

    表  7  ResNet50的各类别识别结果准确率(%)

    Table  7.   Per-category recognition accuracy using ResNet50 (%)

    训练数据 BRDM2 BTR60 D7 2S1 T62 ZIL ZSU T72 BMP2 BTR70
    原始数据集 85.16 98.62 97.95 97.93 96.50 100 99.31 88.82 86.96 75.60
    扩充1 99.26 100 100 99.31 100 100 100 100 90.62 82.25
    扩充2 98.57 100 100 100 100 100 100 100 92.31 85.37
    扩充3 99.29 100 100 100 100 100 98.63 99.31 86.90 89.04
    下载: 导出CSV
  • [1] ZHANG Liangpei, ZHANG Lefei, and DU Bo. Deep learning for remote sensing data: A technical tutorial on the state of the art[J]. IEEE Geoscience and Remote Sensing Magazine, 2016, 4(2): 22–40. doi: 10.1109/MGRS.2016.2540798.
    [2] MA Lei, LIU Yu, ZHANG Xueliang, et al. Deep learning in remote sensing applications: A meta-analysis and review[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 152: 166–177. doi: 10.1016/j.isprsjprs.2019.04.015.
    [3] ZHU Xiaoxiang, TUIA D, MOU Lichao, et al. Deep learning in remote sensing: A comprehensive review and list of resources[J]. IEEE Geoscience and Remote Sensing Magazine, 2017, 5(4): 8–36. doi: 10.1109/MGRS.2017.2762307.
    [4] SUN Xian, WANG Bing, WANG Zhirui, et al. Research progress on few-shot learning for remote sensing image interpretation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 2387–2402. doi: 10.1109/JSTARS.2021.3052869.
    [5] HUANG Zhongling, PAN Zongxu, and LEI Bin. What, where, and how to transfer in SAR target recognition based on deep CNNs[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(4): 2324–2336. doi: 10.1109/TGRS.2019.2947634.
    [6] SHORTEN C and KHOSHGOFTAAR T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 60. doi: 10.1186/s40537-019-0197-0.
    [7] HENDRYCKS D, MU N, CUBUK E D, et al. AugMix: A simple data processing method to improve robustness and uncertainty[C]. 8th International Conference on Learning Representations, Addis Ababa, Ethiopia, 2010.
    [8] ALFASSY A, KARLINSKY L, AIDES A, et al. LaSO: Label-set operations networks for multi-label few-shot learning[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 6541–6550. doi: 10.1109/CVPR.2019.00671.
    [9] SCHWARTZ E, KARLINSKY L, SHTOK J, et al. Δ-encoder: An effective sample synthesis method for few-shot object recognition[C]. 32nd International Conference on Neural Information Processing Systems, Montréal, Canada, 2018: 2850–2860.
    [10] ANTONIOU A, STORKEY A, and EDWARDS H. Data augmentation generative adversarial networks[EB/OL]. https://arxiv.org/abs/1711.04340v3, 2018.
    [11] MALMGREN-HANSEN D, KUSK A, DALL J, et al. Improving SAR automatic target recognition models with transfer learning from simulated data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(9): 1484–1488. doi: 10.1109/LGRS.2017.2717486.
    [12] GUO Jiayi, LEI Bin, DING Chibiao, et al. Synthetic aperture radar image synthesis by using generative adversarial nets[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(7): 1111–1115. doi: 10.1109/LGRS.2017.2699196.
    [13] SONG Qian, XU Feng, ZHU Xiaoxiang, et al. Learning to generate SAR images with adversarial autoencoder[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5210015. doi: 10.1109/TGRS.2021.3086817.
    [14] GUO Qian and XU Feng. Learning low-dimensional SAR target representations from few samples[C]. 2022 International Applied Computational Electromagnetics Society Symposium, Xuzhou, China, 2022: 1–2. doi: 10.1109/ACES-China56081.2022.10065101.
    [15] LIU Shichen, CHEN Weikai, LI Tianye, et al. Soft rasterizer: A differentiable renderer for image-based 3D reasoning[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 7708–7717. doi: 10.1109/ICCV.2019.00780.
    [16] WANG Nanyang, ZHANG Yinda, LI Zhuwen, et al. Pixel2Mesh: Generating 3D mesh models from single RGB images[C]. 15th European Conference on Computer Vision, Munich, Germany, 2018: 52–67. doi: 10.1007/978-3-030-01252-6_4.
    [17] WEN Chao, ZHANG Yinda, LI Zhuwen, et al. Pixel2Mesh++: Multi-view 3D mesh generation via deformation[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 1042–1051. doi: 10.1109/ICCV.2019.00113.
    [18] FU Shilei and XU Feng. Differentiable SAR renderer and image-based target reconstruction[J]. IEEE Transactions on Image Processing, 2022, 31: 6679–6693. doi: 10.1109/TIP.2022.3215069.
    [19] KATO H, USHIKU Y, and HARADA T. Neural 3D mesh renderer[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 3907–3916. doi: 10.1109/CVPR.2018.00411.
    [20] XU Feng and JIN Yaqiu. Imaging simulation of polarimetric SAR for a comprehensive terrain scene using the mapping and projection algorithm[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(11): 3219–3234. doi: 10.1109/TGRS.2006.879544.
    [21] FU Shilei, JIA Hecheng, PU Xinyang, et al. Extension of differentiable SAR renderer for ground target reconstruction from multiview images and shadows[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5217013. doi: 10.1109/TGRS.2023.3320515.
    [22] Moving and stationary target acquisition and recognition (MSTAR) public release data[EB/OL]. https://www.sdms.afrl.af.mil/index.php?collection=mstar.
    [23] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. 3rd International Conference on Learning Representations, San Diego, USA, 2015.
    [24] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. doi: 10.1109/CVPR.2016.90.
    [25] SUN Ke, XIAO Bin, LIU Dong, et al. Deep high-resolution representation learning for human pose estimation[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 5693–5703. doi: 10.1109/CVPR.2019.00584.
    [26] LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 10012–10022. DOi: 10.1109/ICCV48922.2021.00986.
  • 期刊类型引用(0)

    其他类型引用(1)

  • 加载中
图(17) / 表(7)
计量
  • 文章访问数: 737
  • HTML全文浏览量: 161
  • PDF下载量: 322
  • 被引次数: 1
出版历程
  • 收稿日期:  2024-01-16
  • 修回日期:  2024-03-21
  • 网络出版日期:  2024-03-28
  • 刊出日期:  2024-04-28

目录

/

返回文章
返回