Processing math: 100%

基于毫米波雷达三维点云的人体动作识别数据集与方法

靳标 孙康圣 吴昊 李子璇 张贞凯 蔡焱 李荣民 张向群 杜根远

靳标, 孙康圣, 吴昊, 等. 基于毫米波雷达三维点云的人体动作识别数据集与方法[J]. 雷达学报(中英文), 2025, 14(1): 73–90. doi: 10.12000/JR24195
引用本文: 靳标, 孙康圣, 吴昊, 等. 基于毫米波雷达三维点云的人体动作识别数据集与方法[J]. 雷达学报(中英文), 2025, 14(1): 73–90. doi: 10.12000/JR24195
JIN Biao, SUN Kangsheng, WU Hao, et al. 3D point cloud from millimeter-wave radar for human action recognition: Dataset and method[J]. Journal of Radars, 2025, 14(1): 73–90. doi: 10.12000/JR24195
Citation: JIN Biao, SUN Kangsheng, WU Hao, et al. 3D point cloud from millimeter-wave radar for human action recognition: Dataset and method[J]. Journal of Radars, 2025, 14(1): 73–90. doi: 10.12000/JR24195

基于毫米波雷达三维点云的人体动作识别数据集与方法

DOI: 10.12000/JR24195 CSTR: 32380.14.JR24195
基金项目: 国家自然科学基金(61701416),江苏省自然科学基础研究计划面上项目(BK20211341),河南省重点研发专项(241111212500),江苏省研究生科研与实践创新计划项目(SJCX24_2605)
详细信息
    作者简介:

    靳 标,博士,副教授,主要研究方向为认知雷达目标跟踪和毫米波雷达信息感知等

    孙康圣,硕士生,主要研究方向为毫米波雷达信息感知

    吴 昊,硕士生,主要研究方向为毫米波雷达信息感知

    李子璇,硕士生,主要研究方向为水声目标探测

    张贞凯,博士,教授,主要研究方向为雷达目标跟踪和雷达资源管理

    蔡 焱,硕士,工程师,主要研究方向为毫米波雷达信息感知及产业化

    李荣民,硕士,工程师,主要研究方向为毫米波雷达信息感知及产业化

    张向群,博士,教授,主要研究方向为毫米波雷达信息感知

    杜根远,博士,教授,主要研究方向为遥感图像处理和毫米波雷达信息感知等

    通讯作者:

    靳标 biaojin@just.edu.cn

  • 责任主编:金添 Corresponding Editor: JIN Tian
  • 中图分类号: TN958.94

3D Point Cloud from Millimeter-wave Radar for Human Action Recognition: Dataset and Method

Funds: The National Natural Science Foundation of China (61701416), Natural Science Foundation of Jiangsu Province of China (BK20211341), Key Research and Development Project of Henan Province (241111212500), Postgraduate Research & Practice Innovation Program of Jiangsu Province (SJCX24_2605)
More Information
  • 摘要: 毫米波雷达凭借其出色的环境适应性、高分辨率和隐私保护等优势,在智能家居、智慧养老和安防监控等领域具有广泛的应用前景。毫米波雷达三维点云是一种重要的空间数据表达形式,对于人体行为姿态识别具有极大的价值。然而,由于毫米波雷达点云具有强稀疏性,给精准快速识别人体动作带来了巨大的挑战。针对这一问题,该文公开了一个毫米波雷达人体动作三维点云数据集mmWave-3DPCHM-1.0,并提出了相应的数据处理方法和人体动作识别模型。该数据集由TI公司的IWR1443-ISK和Vayyar公司的vBlu射频成像模组分别采集,包括常见的12种人体动作,如走路、挥手、站立和跌倒等。在网络模型方面,该文将边缘卷积(EdgeConv)与Transformer相结合,提出了一种处理长时序三维点云的网络模型,即Point EdgeConv and Transformer (PETer)网络。该网络通过边缘卷积对三维点云逐帧创建局部有向邻域图,以提取单帧点云的空间几何特征,并通过堆叠多个编码器的Transformer模块,提取多帧点云之间的时序关系。实验结果表明,所提出的PETer网络在所构建的TI数据集和Vayyar数据集上的平均识别准确率分别达到98.77%和99.51%,比传统最优的基线网络模型提高了大约5%,且网络规模仅为1.09 M,适于在存储受限的边缘设备上部署。

     

  • 人体动作识别(Human Action Recognition, HAR)是一项通过传感器感知和处理人体动作信息,从而自动检测、分析和理解人类行为的技术。通过准确识别和理解人体动作,HAR可以为各种智能系统提供更加自然和高效的交互方式。该技术在安防监控、医疗健康、智能家居和人机交互等领域具有广阔的应用前景[1,2]。目前,学术界普遍使用的数据集大多通过光学传感器获得,如HAR[3], UCF101[4], DMLSmartActions[5], G3D[6]和NTU RGB+D[7]等。这些数据集为人体动作识别技术的研究和发展奠定了一定的基础。

    然而,视觉传感器的使用可能泄露用户的个人隐私,并在光线不足的情况下表现出显著的局限性[8]。因此,研究人员开始探索利用毫米波雷达进行人体动作识别[911]。毫米波雷达利用电磁波信号主动探测人体行为,利用反射的回波提取动作信息,不直接获取或记录图像,可以有效地保护个人隐私,避免了视觉传感器可能带来的隐私泄露问题[12]。由于毫米波雷达的发射频率较高,结合多输入多输出(Multiple Input Multiple Output, MIMO)天线技术,可以提供较高的角度分辨率,能够更精确地捕捉人体动作的细微变化,提高了人体动作识别的准确性。此外,毫米波雷达能够在光线不足甚至完全黑暗的环境中工作,在复杂环境下依然保持较高的识别性能。因此,毫米波雷达在人体动作识别领域具有良好的应用潜力。

    目前,基于毫米波雷达的人体动作识别方法大多基于人为构建的雷达特征图谱,如多普勒-时间谱、距离-多普勒谱和角度-多普勒谱等[1315],然后将这些特征图谱输入深度神经网络进行动作分类。然而,这种特征图谱的可解释性是有限的,难以区分不同身体部位的运动。并且,这种输入数据形式还存在两个主要问题:(1)特征图谱中包含大量冗余信息,神经网络可能从这些图谱中学习到与人体动作无关的信息,这在一定程度上影响了识别的准确率。(2)由于特征图谱一般是二维或三维数据形式,后续的分类器多采用卷积神经网络。这些网络的参数量往往较大,参数量过大的网络无法在存储空间有限的边缘设备上部署。

    为了解决上述问题,我们将毫米波雷达的原始回波转换成三维点云数据,作为模型的输入。毫米波雷达三维点云是一种重要的空间数据表达形式,可以刻画目标的空间几何结构,从而捕捉细微的人体动作变化。与传统的图谱特征相比,毫米波雷达点云大幅度降低了数据的冗余信息,提高了输入网络的数据质量。而且,点云数据的规模更小,可以降低神经网络的复杂度,从而减少部署在边缘设备上所需的数据传输、预处理,以及训练和推理时间。然而,目前基于毫米波雷达传感器的人体动作点云数据集比较稀缺。尽管部分学者已经公布了一些毫米波雷达点云的数据集[16,17],但这些数据集的采集设备单一,动作种类较少,限制了模型的泛化能力。

    在网络模型方面,现有的点云数据处理网络大多是针对激光雷达或深度传感器生成的稠密点云而设计的,如Charles等人提出的PointNet[18]和PointNet++[19],其利用逐点的多层感知器(Multilayer Perceptron, MLP)提取点云特征,再利用具有置换不变性的池化层聚合特征。Fan等人[20]针对点云的不规则性和空间维度的无序性,基于点跟踪技术构造了P4Transformer网络。该网络利用4D卷积进行时空局部特征提取,并通过Transformer模块计算局部特征的自注意得分,以捕获整个点云的外观和运动特征。尽管以上这些网络模型在处理稠密点云的任务上都取得了不错的效果,但是毫米波雷达所生成的点云是十分稀疏的。若将这些点云处理方法直接应用于毫米波雷达点云,可能会导致模型过拟合,并造成不必要的计算负担。因此,需要充分挖掘毫米波雷达点云的特征,为稀疏的三维点云数据设计专门的神经网络模型,以提高人体动作的识别精度。

    基于以上研究动机,本文构建了基于毫米波雷达三维点云的人体动作数据集,并提出了相应的动作识别方法。本文的贡献主要包括以下两个方面。

    (1) 数据集方面:本文选取市面上两款不同硬件配置的毫米波雷达(美国TI公司的IWR1443-ISK和以色列Vayyar公司的vBlu射频成像模组),采集人体动作的三维点云数据,构造了一种不同于传统基于微多普勒和特征图谱的人体动作数据集。该数据集由毫米波雷达三维点云组成,包括12种常见的人体动作,如走路、挥手、站立和跌倒等常见动作,设计的动作种类丰富,贴近日常生活。该数据集可以通过《雷达学报》官网免费下载。利用不同的毫米波雷达采集点云数据,一方面有助于提高数据的多样性,从而更有效地验证模型的泛化性能。另一方面可以验证不同硬件配置导致的点云数据质量差异对识别性能的影响程度,从而为实际应用中的硬件选择和参数配置提供指导。

    (2) 网络模型方面:本文将边缘卷积(EdgeConv)与Transformer进行结合,提出了一种处理长时序三维点云的网络模型,即Point EdgeConv and Transformer (PETer)网络。该网络通过边缘卷积对三维点云逐帧创建局部有向邻域图,提取点云的空间几何特征,并通过堆叠多个编码器的Transformer模型,提取多帧点云之间的时序关系。实验结果表明,所提网络在TI和Vayyar数据集上的准确率分别达到98.77%和99.51%,优于传统的基线网络模型5%以上。而且PETer网络规模仅为1.09 M,适合在边缘设备上部署。

    本文选取目前市面上比较典型的两款不同硬件配置的毫米波雷达,即美国TI公司的IWR1443-ISK和以色列Vayyar公司的vBlu射频成像模组,分别采集人体动作的三维点云数据。

    2.1.1   TI毫米波雷达

    美国TI公司的IWR1443-ISK是一款集成的单芯片毫米波传感器(如图1所示),发射波形为调频连续波 (Frequency Modulated Continuous Wave, FMCW)。该传感器工作在76~81 GHz 频段,支持最高4 GHz的连续线性调频。IWR1443-ISK是一款低功耗、高精度的毫米波雷达传感器,适用于楼宇自动化、工厂自动化、无人机、物料搬运、交通监控和安防监控等场景。该毫米波雷达的具体参数配置详见表1(来源于TI官网)。我们使用ROS官方提供的Rviz可视化工具,采集三维点云数据[21]

    图  1  TI的IWR1443-ISK毫米波雷达
    Figure  1.  TI’s IWR1443-ISK millimeter-wave radar
    表  1  TI毫米波雷达的参数配置
    Table  1.  Parameter configuration of TI millimeter-wave radar
    参数 数值
    天线数 3发4收
    工作频段 77 GHz
    信号形式 FMCW
    信号带宽 3.4 GHz (最大带宽为4 GHz)
    帧频率 30 帧/s
    距离分辨率 4.4 cm
    方位维角度分辨率 15°
    下载: 导出CSV 
    | 显示表格
    2.1.2   Vayyar毫米波雷达

    Vayyar公司的vBlu射频成像模组是一款安全、轻巧的4D射频成像传感器(如图2所示),采用Vayyar公司自研的射频成像系统级芯片,在单颗芯片上最高可集成72根收发天线,可覆盖3~81 GHz的工作频段,提供的点云数据质量比TI毫米波雷达高数十倍,具体参数配置详见表2(参考Vayyar公司提供的资料Vayyar Home Module-vBlu Hardware spec-Rev 1.4)。本文进行数据采集使用的软件为Vayyar公司提供的Vayyar_HomeModule,版本为v1.5.9.1。

    图  2  Vayyar的vBlu射频成像模组
    Figure  2.  Vayyar’s vBlu RF imaging module
    表  2  Vayyar毫米波雷达的参数配置
    Table  2.  Parameter configuration of Vayyar millimeter-wave radar
    参数 数值
    天线数 24发22收
    工作频段 60 GHz
    信号形式 FMCW
    信号带宽 480 MHz (最大可达到2.5 GHz)
    帧频率 10 帧/s
    距离分辨率 31.25 cm
    方位维/俯仰维角度分辨率
    下载: 导出CSV 
    | 显示表格

    图3展示了毫米波雷达三维点云的生成过程。首先,在快时间维对ADC采样信号进行快速傅里叶变换(Fast Fourier Transform, FFT)处理(距离维FFT),得到人体点云的径向距离。然后,利用均值相消技术滤除静止杂波,并在慢时间维进行FFT(多普勒维FFT),得到人体点云的径向速度。接着,利用恒虚警(Constant False Alarm Rate, CFAR)算法进行阈值判决,将反射信号与背景噪声分离,提取预检测矩阵中的峰值信号,并对CFAR检测到的多个峰值点进行角度维FFT,计算出每个点的方位角和俯仰角。经过以上步骤之后,我们可以获取多个散射点的径向距离ri、多普勒Di、俯仰角θi和方位角ϕii =1, 2,···,NfNf为单帧点云中点的个数。最后,将点云的三维坐标由极坐标系转换到直角坐标系,即可获得每个点的三维坐标(xi,yi,zi),即

    图  3  毫米波雷达三维点云生成过程
    Figure  3.  3D point cloud generation process for millimeter-wave radar
    xi=risinθicosϕi (1)
    yi=risinθisinϕi (2)
    zi=ricosθi (3)

    生成的点云信息包含目标的三维坐标、多普勒和反射强度,其格式如下:

    pi=[xi,yi,zi,Di,Ii] (4)

    其中,Di表示多普勒信息,Ii表示信号强度。

    2.3.1   数据采集场景

    数据采集环境设定为一个典型的会议室场景,会议室内包含桌子、椅子等常见家具,此环境被命名为“S1场景”。数据采集过程使用到电脑、支架与毫米波雷达等,具体放置情况如图4所示。

    图  4  数据采集场景
    Figure  4.  Data acquisition scenario

    由于TI公司的IWR1443-ISK与Vayyar公司的vBlu射频成像模组在硬件规格上存在显著差异,包括产品尺寸、形状及安装需求等。这些差异会影响设备的视场(Field of View, FOV)和检测范围。因此,为了适应两个设备的技术规格并优化其性能表现,本文对两台雷达的安装位置进行了相应的调整,将TI毫米波雷达和Vayyar雷达分别安装在1.75 m的架子上和墙上。测试人员位于一个矩形区域内。该区域距离雷达的水平距离为1.2 m,且该区域的长和宽均为2.0 m,具体如图5所示。

    图  5  数据采集区域
    Figure  5.  Data collection area
    2.3.2   人体动作信息

    图6为该数据集中12种人体动作类别的示意图,其中包括9种动态动作(打拳、跳、左挥手、左前倾(由站立至左前倾)、开双臂、右挥手、右前倾(由站立至右前倾)、下蹲(由站立至蹲下)和步行)和3种静态动作(跌倒、静坐和站立)。我们共邀请了7名志愿者。每位志愿者对每种动作分别采集3次,每次采集3分钟。TI毫米波雷达的数据率为30 帧/s,每种动作每次采集5400 帧(30 帧×60 s×3 min=5400 帧)。Vayyar毫米波雷达的数据率为10 帧/s,每种动作每次采集1800 帧(10 帧×60 s×3 min=1800 帧)。

    图  6  人体动作类型
    Figure  6.  Types of human actions
    2.3.3   志愿者信息

    本文选取7个不同身高体重的志愿者,具体信息如表3所示。本文对志愿者依次编号,分别是People1—People7,身高范围为160~188 cm,体重范围为45~90 kg。7名志愿者分别完成12种预定动作,每人的动作采集时间总共为216 min (3 min×3 次×12 种×2=216 min)。

    表  3  志愿者信息
    Table  3.  Information of volunteers
    人员 身高(cm) 体重(kg) 年龄 性别 S1场景
    People1 183 90 23
    People2 160 45 23
    People3 178 80 24
    People4 173 65 25
    People5 188 80 25
    People6 176 65 25
    People7 172 75 24
    下载: 导出CSV 
    | 显示表格
    2.3.4   文件格式

    我们将TI和Vayyar雷达采集的数据分别存入“TI雷达数据集”和“Vayyar雷达数据集”两个文件夹中。每个数据集包括7名志愿者执行的12种不同动作的数据。每个文件夹内存储了21个Excel文件,每个文件对应一位志愿者执行的相应动作的数据,时长为3分钟。每个Excel文件的命名格式为“人员编号_动作名_次数.xlsx”。具体文件命名示例详见表4

    表  4  文件名称
    Table  4.  File names
    文件夹名(动作) 文件名示例
    Box people1_box_1.xlsx, people1_box_2.xlsx, ···, people7_box_3.xlsx
    Fall people1_fall_1.xlsx, people1_ fall_2.xlsx, ···, people7_ fall_3.xlsx
    Jump people1_jump_1.xlsx, people1_ jump_2.xlsx, ···, people7_ jump _3.xlsx
    Left hand wave people1_left hand wave_1.xlsx, people1_ left hand wave_2.xlsx, ···, people7_ left hand wave_3.xlsx
    Left forerake people1_left forerake_1.xlsx, people1_left forerake_2.xlsx, ···, people7_left forerake_3.xlsx
    Open arms people1_open arms_1.xlsx, people1_open arms_2.xlsx, ···, people7_open arms_3.xlsx
    Right hand wave people1_right hand wave_1.xlsx, people1_right hand wave_2.xlsx, ···, people7_right hand wave_3.xlsx
    Right forerake people1_right forerake_1.xlsx, people1_right forerake_2.xlsx, ···, people7_right forerake_3.xlsx
    Sit people1_sit_1.xlsx, people1_sit_2.xlsx, ···, people7_sit_3.xlsx
    Squat people1_squat_1.xlsx, people1_squat_2.xlsx, ···, people7_squat_3.xlsx
    Stand people1_stand_1.xlsx, people1_stand_2.xlsx, ···, people7_stand_3.xlsx
    Walk people1_walk_1.xlsx, people1_walk_2.xlsx, ···, people7_walk_3.xlsx
    下载: 导出CSV 
    | 显示表格
    2.3.5   数据格式

    由于Vayyar公司的vBlu射频成像模组所生成的点云数据仅包含三维坐标与强度信息,而TI公司的IWR1443-ISK毫米波雷达所提供的点云数据中,除了三维坐标与强度信息外,还包括多普勒信息。为了统一输出内容和保证后续实验对比的公平,我们删除了TI雷达的多普勒信息。每个Excel文件包含一个志愿者执行特定动作的点云数据。以TI数据为例,其数据格式详见表5。其中,第1列为帧的编号。第2列为每帧的点云数目编号,如第1帧点云包含3个点。第3~5列为每个点的三维空间坐标(x, y, z)。最后一列为每个点云的回波强度值。

    表  5  数据格式
    Table  5.  Data format
    Frame Point number x y z Intensity
    0 1 1.515625000 0.291015625 0.177734375 20.53078461
    1 1 1.605468750 1.562500000 0.298828125 27.83903503
    1 2 1.634765625 0.367187500 0.058593750 31.11934280
    1 3 1.507812500 0.339843700 0.164062500 22.17483902
    2 1 1.683593750 0.494140625 0.126953125 25.19828033
    2 2 1.677734375 0.576171875 0.490234375 27.63427925
    5399 4 1.765625 0.40234375 0.326171875 26.33468437
    下载: 导出CSV 
    | 显示表格
    2.3.6   毫米波雷达点云的特性

    图7为Vayyar数据和TI数据的单帧可视化结果。其中,参数t为雷达采集张开双臂动作数据的4个不同时刻,点云颜色表示强度信息。从图7中可以看出,Vayyar雷达采集到的单帧点云质量较高,而TI雷达采集到的单帧点云质量较差,这与两个采集设备的硬件配置是直接相关的。

    图  7  张开双臂动作的点云数据示例
    Figure  7.  Example of point cloud data for open arms action

    图7可知,毫米波雷达的点云数据在空间上具有强稀疏性,通过单帧数据难以提取出人体动作的轮廓信息。但是,我们通过连续的多帧数据可以观察到人体动作的变化情况。以Vayyar数据为例,图7(f)为双臂张开阶段,点云集中分布在手臂两侧;图7(g)为双手抬起阶段,点云主要集中在图中上方区域;图7(h)为双手放下阶段,点云则主要集中在图中下方区域。而TI雷达的点云数据较为稀疏,从单帧数据难以观察到人体动作的细节信息,如图7(i)图7(l)所示。但是,如果连续积累多帧的点云数据,则可以观察到与Vayyar雷达数据类似的特性。因此,连续多帧的点云数据可以反映出人体动作的整体变化趋势。基于这一现象,我们可以充分利用不同动作在连续多帧数据中的时空特征进行人体动作识别。

    图8为基于毫米波雷达点云数据的人体动作识别流程。在获得三维点云数据后,首先对其进行数据预处理,主要步骤包括滤除点云中的干扰点以及多帧融合与聚类等。最后,将处理后的点云数据输入所构建的神经网络模型进行人体动作识别。

    图  8  基于毫米波雷达点云数据的人体动作识别流程
    Figure  8.  Human action recognition process based on 3D point cloud data in millimeter-wave radar

    由于测试环境中除了墙体、桌椅和地板等静态杂波外,还包括其他无关人员、摆动的窗帘等动态干扰,我们需要对这些动态干扰进行滤除。另外,TI毫米波雷达的点云数据比Vayyar雷达的点云更为稀疏,其数据处理过程除动态干扰滤除以外,还进行了多帧融合与聚类等处理。

    3.1.1   动态干扰滤除

    我们通过预设人体动作的活动范围滤除点云中的动态干扰。在数据采集过程中,设置固定的人体活动范围。人体活动范围为与雷达的水平距离为1.2 m,长宽各为2.0 m,高度为3.0 m的区域。如图9(a)所示,TI雷达的位置坐标为(0, 0, 1.75 m),人体动作点云的有效范围为x(1.2 m, 3.2 m), y(–1.0 m, 1.0 m), z(–1.5 m, 1.5 m)。如图9(b)所示,Vayyar雷达的坐标为(0, 0, 1.75 m),人体动作点云的有效范围为x(–1.0 m, 1.0 m), y(1.2 m, 3.2 m), z(–0.5 m, 2.5 m) 。我们将不在此范围内的点云直接滤除。

    图  9  动态干扰滤除
    Figure  9.  Dynamic interference filtering
    3.1.2   多帧融合与聚类

    在数据采集过程中,每个动作的执行时间为2~3 s。Vayyar雷达的点云数据为每帧40~60个,TI雷达的点云数据为每帧4~20个。相比于Vayyar毫米波雷达,TI毫米波雷达的点云更为稀疏。为了获得更好的识别效果,我们将6帧(0.2 s)的TI雷达点云数据进行融合,从而增强点云数据的质量。多帧融合可以提高点云的数据质量,更好地获取人体动作的空间几何特征,为后续的人体动作识别提供更为丰富和直观的特征信息。

    为了进一步滤除干扰和噪声,我们对融合后的点云数据进行DBSCAN (Density-Based Spatial Clustering of Applications with Noise)聚类处理。DBSCAN算法是一种依据数据密度进行空间聚类的方法[22]。该算法涉及两个关键参数:MinPts和Eps。其中,参数MinPts定义了形成一个簇所需的最小点数,参数Eps定义了点的邻域范围,即当两点之间的距离小于Eps时,被视为属于同一簇。一个簇的密度高于其周围区域的密度,而噪声点的密度则低于任何簇的密度。为了最大限度地去除干扰点并保留有效的人体点云数据,我们通过多次实验,确定了DBSCAN算法的最终参数设置。其中,MinPts设置为2,即一个簇至少包含2个点。Eps设置为0.8,表示在该距离阈值内的所有点均被归入同一簇。图10展示了TI毫米波雷达的点云数据融合聚类前后的效果。图中红色点代表有效点云,黑色点表示未被聚类的噪点。从图中可以看出,通过多帧融合与聚类处理,单帧点云由原来几个点,变为几十个点,且干扰点被滤除,点云数据的质量得到了明显提高,利于后期利用连续多帧数据进行人体动作识别。

    图  10  TI雷达点云经过多帧融合与聚类的效果对比
    Figure  10.  Comparison of the effect of TI radar point cloud after multi-frame fusion and clustering

    针对毫米波雷达稀疏的三维点云数据,本文提出一种用于人体动作识别的神经网络模型,即PETer (Point EdgeConv and Transformer)网络。PETer网络融合了边缘卷积(EdgeConv)和Transformer网络中的编码器模块,具体网络结构如图11所示。将N帧(这里指融合后的帧)点云数据输入网络模型,首先边缘卷积模块逐帧对点云创建局部有向邻域图,提取点云数据的空间几何特征。然后,将N帧点云的空间特征进行帧间特征融合,输入堆叠M个编码器的Transformer模块,提取多帧点云的时序关系。最后通过一维线性层获得人体动作的分类结果。

    图  11  PETer网络结构图
    Figure  11.  Structure diagram of PETer network
    3.2.1   边缘卷积模块

    本文采用边缘卷积网络逐帧提取点云的空间几何特征[23],其操作过程如图11中的左侧部分所示。假设融合后一帧点云样本为X=[x1,x2,,xn]Rm,其中n为样本中的点云个数,m表示数据的特征数。本文中m=4,即每个点包含4种特征信息,包括点云的三维空间坐标和强度信息。我们首先采用KNN (k-Nearest Neighbor)算法计算出每个点最近的K个点的欧氏距离,并根据欧氏距离进行升序排列,得到xi1,xi2,,xiK。接着,将每个点的欧氏距离与中心点进行拼接,得到ei,j=(xijxi,xi), j=1,2,3,...,K。这样就可以构造出点xi的局部有向邻域图,如图12所示。局部有向邻域图为每个点构建了一个局部的、有向的图结构。这个图不仅包含点的空间邻域信息,还包含点与点之间的方向性信息,可以有效地描述点云的局部几何结构。

    图  12  利用边缘卷积构建局部有向邻域图
    Figure  12.  Construction of local directed neighborhood graph using edge convolution

    在获得局部有向邻域图后,对点xi的局部有向邻域图进行边缘卷积操作,计算第i个点处的边缘特征,即

    xi=Kj=1hΘ(xijxi,xi) (5)

    其中,h()表示自定义的边缘特征提取函数,本文采用二维卷积操作。Θ表示h()的超参数。我们使用两层二维卷积操作,提取毫米波雷达三维点云的空间几何特征。在每层卷积操作后,使用最大池化层提取每个点的最显著的特征。最后,通过多层感知器增强单帧点云空间特征的表现力。

    3.2.2   编码器模块

    在获得单帧点云的空间几何特征之后,再进行多帧融合。然后,采用Transformer模型中的编码器模块捕获多帧点云之间的时序关系,其操作过程如图11右侧部分所示。在输入编码器模块前,先对多帧数据进行位置编码[24],确保时序信息的有效性。编码器模块主要包括多头注意力层(Multi-Head Attention)和前馈层(Feed Forward)。在多头注意力层和前馈层后面均连接一个残差与规范化层(Add&Norm),用于缓解梯度消失和权重退化现象。

    首先,我们对多帧点云的空间几何特征F进行自注意编码,通过可学习的加权矩阵WQ, WKWV映射到Q, K, V矩阵上,即

    Q=WQ×F,K=WK×F,V=WV×F (6)

    然后,计算单头注意力得分,

    headi=Attention(QWQi,KWKi,VWVi) (7)

    其中,

    Attention(Q,K,V)=Softmax(QKTdk)V (8)

    其中,dk为归一化因子。接着,按照式(9)计算多头注意力得分:

    MultiHead(Q,K,V)=Concat(head1,,headp)WO (9)

    其中,Concat表示拼接操作,p为注意力头的个数,WO为输出特征的加权矩阵。多头注意力得分经过残差与规范化层后输入到前馈层。前馈层由两个全连接层组成,并采用GeLU激活函数[25]

    最后,多个编码器提取的时序特征经过最大池化层保留最显著的特征,并通过线性层输出人体动作的分类结果。

    本文的实验平台硬件配置如下:CPU为Intel(R) Core(TM) i5-12500H,GPU为NVIDIA GeForce RTX 3050,内存容量为4 GB,显存容量为10 GB。实验代码使用Python 3.9 编写,基于PyTorch 2.1.1机器学习框架,CUDA 版本为 11.8。

    表6列出了边缘卷积模块的初始化参数,其中批次大小(Batch)为32,邻近点数(K)为10。Num, kernel_size和Stride分别表示卷积核的数量、大小和步幅, Channel, Length和d分别为特征图的通道数、点的数量以及点的特征数。边缘卷积模块的输入尺寸为(32, 4, 100),即融合后一帧点云数据的维数。首先,通过KNN graph-1模块对数据进行处理,并增加一个维度存储邻近K个点的信息。然后,经过两层卷积和池化操作,最终输出的维数为(32, 128)。多层感知器模块的参数配置为(128, 256, 256)。我们堆叠了2个Transformer编码器,并将多头注意机制的头数设置为8。

    表  6  边缘卷积模块的参数配置
    Table  6.  Parameter configuration of edge convolution module
    类型 Num×kernel_size, Stride 输出大小 (Batch, Channel, Length, d)
    Input -- (32, 4, 100, -)
    KNN graph-1 K=10 (32, 8, 100, 10)
    Conv2d-2 64×(1, 1), 1 (32, 64, 100, 10)
    MaxPool1d-3 1×10 (32, 64, 100, -)
    Conv2d-4 128×(1, 1), 1 (32, 128, 100, -)
    MaxPool1d-5 1×100 (32, 128, -, -)
    下载: 导出CSV 
    | 显示表格

    我们将TI数据集和Vayyar数据集分别按照8:1:1的比例划分为训练集、验证集和测试集。为了防止过拟合,我们在训练过程中引入了Dropout机制,以20%的概率随机丢弃部分神经元的权重。此外,我们采用Adam优化器进行了50个轮次的训练。

    4.2.1   不同融合帧数对网络识别性能的影响

    为了评估不同融合帧数对识别性能的影响,本文对TI雷达的数据分别进行3, 6, 9和12帧的融合,对应的融合帧周期分别为0.1 s, 0.2 s, 0.3 s和0.4 s。为了与TI数据的融合帧周期保持一致,本文对Vayyar雷达的数据分别进行1, 2, 3, 4帧的融合。我们将融合后的一组数据称为融合后帧。所有实验均采用连续10个融合后帧作为一个样本。实验结果如图13所示。从图中可以观察到,TI雷达的数据在融合帧数为6时,识别准确率最高,达到了95.97%。而对于Vayyar雷达的数据,当融合帧数为2时,识别准确率达到最高。当融合帧数大于2帧时,识别准确率略有下降。由此可见,融合帧数的选择对于识别准确率具有显著影响,且不同数据集的最优融合帧数不同。因此,在后续的实验中,我们将TI雷达的融合帧数设定为6,Vayyar雷达的融合帧数设定为2,即二者的融合帧周期均为0.2 s。

    图  13  不同融合帧数时的识别准确率
    Figure  13.  Accuracy with different fused frames
    4.2.2   不同样本划分对网络识别性能的影响

    为了研究不同样本划分对网络识别性能的影响,本文对单个样本内不同的融合后帧数进行了实验,实验结果如图14所示。实验结果表明,对于TI数据集,随着样本中融合后帧数的递增,识别准确率逐渐提升,并在样本包含25帧时达到最高,随后略有下降。对于Vayyar数据集,识别准确率同样随着融合后帧数的增大而提高,并在25帧时达到峰值。需要注意的是,当样本包含10帧数据时,识别准确率大幅度提高。这是由于每个动作的平均持续时间约为2秒(约为10个融合帧周期)。若样本帧数小于10,可能无法全面捕捉动作的完整过程,进而影响识别准确率。然而,当样本帧数增加至25融合帧(约为5秒)时,识别准确率达到最高,此时大约包含2个完整的动作执行周期。实际中,单个样本内的融合帧数的选取需要平衡动作的完整性与计算效率。因此,在后续实验中,我们将单个样本的融合后帧数设定为25。

    图  14  不同样本划分时的识别准确率
    Figure  14.  Accuracy with different sample divisions
    4.2.3   不同点云密度对网络识别性能的影响

    我们评估了不同点云密度对识别精度的影响,实验结果如图15所示。从实验结果可以发现,对于TI数据集,增加点云数量对识别精度的提升效果有限,甚至在采样点数大于100的情况下会略微下降。这一现象与TI数据集中单帧点云数量普遍不足100有关。为了满足模型输入的需求,我们对每帧数据进行了重采样,但这一过程并未真正增加点云的有效信息,导致数据的重复利用。相比之下,Vayyar毫米波雷达具有高质量的点云信息,随着点云数量的增加,识别精度呈现出明显的上升趋势。这一结果表明,增加点云数量有助于保留更多的空间几何信息,从而提高网络的识别精度。由于当单帧点云的采样个数为100时,Vayyar雷达的识别精度已经达到99.36%。因此,为了平衡计算量与识别精度,我们在后续的实验中将单帧点云的采样个数设定为100。

    图  15  不同采样点数时的识别准确率
    Figure  15.  Recognition accuracy with different sampling points
    4.2.4   边缘卷积模块中参数K对网络识别性能的影响

    为了确定边缘卷积模块中参数K的最优值,我们对不同参数K情况下的识别准确率进行了对比,实验结果如图16所示。从实验结果中可以发现,当参数K=10时,TI数据和Vayyar数据的识别准确率均达到最高。但是随着K值的进一步增大,模型准确率呈现下降的趋势。这是由于在K值过大的情况下(即在一个点周围引入过多的邻近点信息),边缘卷积定义的局部有向邻域图将无法有效地刻画点云局部的空间几何特征,从而进一步影响了识别精度。因此,我们在后续的实验中将边缘卷积模块中的K值设定为10。

    图  16  不同K值的识别准确率
    Figure  16.  Recognition accuracy with different K values
    4.2.5   不同学习率对网络识别性能的影响

    为了防止模型在训练过程中陷入局部最优,本文测试了不同学习率对模型训练效果的影响。图17图18分别是PETer网络在TI数据集和Vayyar数据集上不同学习率下训练的准确率和损失曲线。实验结果显示,PETer网络在Vayyar数据集上的表现比在TI数据集上更为稳定,收敛曲线也更光滑。当学习率为1E–4时,PETer网络在TI数据集和Vayyar数据集上都可以快速收敛,并且表现出更好的稳定性。此时,PETer网络可以达到更高的识别准确率和更小的损失。因此,本文将后续实验的学习率均设置为1E–4。

    图  17  PETer网络在TI数据集上不同学习率时的准确率和损失曲线
    Figure  17.  Accuracy and loss curves of PETer network with different learning rates on TI dataset
    图  18  PETer网络在Vayyar数据集上不同学习率时的准确率和损失曲线
    Figure  18.  Accuracy and loss curves of PETer network for different learning rates on Vayyar dataset

    本文所提出的PETer网络主要由边缘卷积(EdgeConv)和Transformer两个部分组成。本文将几种典型的点云空间特征提取网络和时序特征提取网络进行组合,分别在Vayyar和TI数据集上进行了消融实验,以评估EdgeConv模块和Transformer模块的作用。实验结果如表7所示。

    表  7  不同网络模块组合的识别准确率(%)
    Table  7.  Recognition accuracy for different combinations of network modules (%)
    方法 TI数据识别率 Vayyar数据识别率
    PointNet + Transformer 94.12 95.23
    (PointNet++)+ Transformer 96.13 97.78
    EdgeConv + LSTM 94.26 99.51
    EdgeConv + GRU 92.42 94.45
    EdgeConv + RNN 94.26 96.23
    PETer (EdgeConv+Transformer) 98.73 99.51
    下载: 导出CSV 
    | 显示表格

    EdgeConv模块的性能评估:为了评估EdgeConv模块的作用,本文将PETer模型中的EdgeConv模块替换为PointNet和PointNet++等传统的点云处理网络,并对其性能进行分析。如表7所示,PointNet+Transformer网络在TI和Vayyar数据集上的识别准确率分别为94.12%和95.23%。PointNet++通过引入复杂的特征提取机制(如分层聚合),在两个数据集上的准确率比PointNet网络分别提升了2.01%和2.55%。所提出的PETer模型在两个数据集上的识别准确率分别达到98.73%和99.51%,这表明,相比于传统的PointNet和PointNet++网络,EdgeConv模块在提取稀疏点云的空间几何特征方面具有一定的优势。

    Transformer模块的性能评估:为了评估Transformer模块的作用,我们将PETer模型中的Transformer模块分别替换为传统的LSTM和GRU模块,并进行了性能测试。实验结果表明,与EdgeConv+GUR网络相比,EdgeConv+LSTM网络在TI数据集和Vayyar数据集上的识别率分别提高了1.84%和5.06%。而EdgeConv+Transformer网络在两个数据集上的识别准确率分别达到98.73%和99.51%。这一结果表明,LSTM网络比GRU网络在时序特征提取方面表现较好,而Transformer网络通过自注意力机制可以更为有效地捕捉多帧点云数据之间的时序依赖关系。值得注意的是,EdgeConv+Transformer网络与EdgeConv+LSTM网络在Vayyar数据集上达到了相同的识别精度99.51%,这说明训练数据的质量对识别性能具有重要作用。

    图19展示了PETer网络在Vayyar和TI数据集上的混淆矩阵。实验结果显示,PETer网络在Vayyar数据集上对10种动作的识别准确率均超过99%,平均准确率达到了99.51%。相比之下,在TI数据集上的表现略有下降,平均准确率降至98.77%。尤其在Vayyar数据集上,跌倒、跳跃、静坐和下蹲这4种动作的识别准确率达到了100%,显示出PETer网络在这些动作识别上的卓越性能。因此,Vayyar数据集展现出了更高的识别可靠性。然而,TI雷达的点云数据较为稀疏,导致其识别效果不如Vayyar数据集。例如,TI雷达的数据可能将打拳动作误识别为挥手或开双臂,将跌倒动作误识别为静坐,将跳跃动作误识别为步行。值得注意的是,虽然二者的点云质量相差较大,但通过多帧融合与聚类,TI雷达数据的整体识别效果与Vayyar差距只有0.74%。这一实验结果充分说明,通过数据处理方法和网络模型的优化设计,可以在一定程度上弥补传感器硬件配置上的不足。

    图  19  PETer网络的混淆矩阵
    Figure  19.  Confusion matrix of PETer’s network
    4.5.1   识别准确率对比

    我们在所构建的mmWave-3DPCHM-1.0数据集上,对提出的网络模型进行了性能验证,并与PointNet[18], PointNet++[19], P4Transformer[20]和SequentialPointNet[26]等4个基线模型进行了对比。实验结果如表8所示,具体分析如下:

    表  8  不同网络模型在TI数据集和Vayyar数据集上的动作识别准确率(%)
    Table  8.  Action recognition accuracy of different network models on TI and Vayyar dataset (%)
    数据集 模型 打拳 跌倒 左前倾 左挥手 开双臂 右前倾 右挥手 静坐 下蹲 站立 步行 平均
    TI PointNet 75.97 99.84 68.95 70.48 60.76 72.92 55.52 62.54 84.48 78.57 85.40 75.75 74.26
    PointNet++ 87.88 98.98 74.01 75.88 77.22 72.99 57.11 66.91 88.55 87.56 94.78 83.36 80.44
    P4Transformer 98.23 98.04 81.76 80.50 82.66 87.36 85.30 88.93 96.85 92.99 96.78 89.93 89.94
    SequentialPointNet 97.02 98.74 92.87 93.52 92.29 98.28 85.36 89.86 98.80 97.60 94.01 86.91 93.77
    PETer (ours) 99.40 99.06 97.25 99.90 97.85 99.20 99.36 96.41 99.53 99.80 98.96 98.49 98.77
    Vayyar PointNet 88.83 98.28 72.13 76.74 66.59 81.13 55.84 68.09 90.14 74.74 80.75 78.21 77.62
    PointNet++ 94.30 99.68 71.30 64.24 78.08 86.26 69.20 73.53 91.38 83.84 94.53 84.47 82.57
    P4Transformer 98.41 98.87 79.07 92.55 88.73 94.20 93.13 80.89 98.80 98.54 94.56 97.64 92.95
    SequentialPointNet 99.81 99.71 86.20 97.15 92.45 98.06 94.23 87.43 98.74 98.12 97.28 97.83 95.58
    PETer (ours) 99.97 100.00 100.00 99.63 97.25 99.66 99.60 99.43 100.00 100.00 98.76 99.83 99.51
    下载: 导出CSV 
    | 显示表格

    (1) PETer模型在人体动作识别任务上表现出较好的识别精度,特别是在Vayyar数据集上,10种动作的识别准确率都达到了99%以上。相对而言,PointNet和PointNet++的表现较差,平均准确率约为80%,尤其在左前倾、右前倾、左挥手和右挥手等动作上,识别准确率仅为60%左右。这是由于这几种动作的空间特征非常相似,而这类模型主要侧重于从点云数据中提取空间几何特征,而无法有效处理时序信息,在处理具有强时序相关性的动态人体动作数据时,具有一定的局限性。P4Transformer和SequentialPointNet通过结合时空信息,在动作识别方面的表现较好,在TI和Vayyar数据集上的平均准确率都达到90%左右。P4Transformer利用4D卷积和Transformer的自注意力机制来捕获动作的外观和运动信息。SequentialPointNet采用超点嵌入和超点混合模块来提取帧内的空间特征和帧间的时序特征。尽管如此,这两种方法在跳跃和右挥手等动作的识别准确率仍然表现不佳。这是由于P4Transformer和SequentialPointNet是专门处理激光雷达点云这类密集点云数据的,其在模型设计上未能充分考虑毫米波雷达点云的稀疏性,虽然其通过不同的机制整合时空信息,但是在特征提取效率方面表现不如PETer网络。与表现最好的SequentialPointNet相比,PETer网络在TI数据集上准确率提高了5%,在Vayyar数据集上提高了3.93%。PETer网络通过边缘卷积和多头自注意机制,提取三维点云的空间几何特征和时序特征,从而更有效地学习人体动作随时间的变化过程。

    (2) 从人体动作的角度分析,所有模型对跌倒动作的识别准确率都非常高,尤其在Vayyar数据集上,大多数网络模型的识别准确率都达到99%左右。相对而言,跳、左前倾、右前倾、左挥手和右挥手等几种动作的识别准确率在两个数据集上都相对较低。其主要原因在于这几种动作的空间特征相似度较大。此外,对于同一种动作和同一种网络模型而言,Vayyar数据集的整体表现优于TI数据集。

    4.5.2   计算量与复杂度对比分析

    表9展示了所提模型与几种基线模型的网络规模、计算量和参数量。根据表中结果,P4Transformer模型的参数量和计算复杂度最高,分别为42.34 M和443.65 GFLOPS。SequentialPointNet的模型规模为11.41 MB,其计算量也相对较高,达到219.23 GFLOPS。PointNet和PointNet++虽然参数量较小,但计算量却并不低,分别为28.83 GFLOPS和55.87 GFLOPS。所提出的PETer模型在网络规模、计算复杂度和参数量等方面都优于其他几种基线网络,具有最小的网络规模、最低的计算量和最少的参数量。其中,边缘卷积模块和Transformer编码器模块的参数量分别为0.11 M和0.24 M。因此,PETer模型在资源受限的边缘设备上非常适用。

    表  9  不同网络模型的计算量与复杂度对比
    Table  9.  Comparison of computational load and complexity of different network models
    模型 规模 (MB) GFLOPS 参数量 (M)
    PointNet 13.21 28.83 3.46
    PointNet++ 5.60 55.87 1.47
    P4Transformer 161.51 443.65 42.34
    SequentialPointNet 11.41 219.23 2.99
    PETer (ours) 1.09 4.62 0.35
    下载: 导出CSV 
    | 显示表格

    本文采用TI公司的IWR1443-ISK和Vayyar公司的vBlu射频成像模组分别采集人体动作回波,构建了一个毫米波雷达三维点云数据集用于人体动作识别。针对毫米波雷达的三维稀疏点云,本文设计了一种名为PETer的网络模型。PETer网络能够通过边缘卷积精确地提取空间几何特征,并利用自注意机制提取多帧数据的时序关系,实现对多种人体动作的高精度识别。而且,PETer网络具有较小的网络规模、计算复杂度和参数量,非常适用于在资源受限的边缘设备上部署。本文工作不仅为毫米波雷达在人体动作识别领域的应用提供了一定的数据支持,也为该领域研究提供了一个可靠的基线模型,有助于推动毫米波雷达三维点云数据在人体动作识别方面的应用。

    虽然所提模型在本文构建的数据集上取得了较高的识别精度,但是当人体姿态相对于雷达的角度发生变化时,识别准确率会严重下降。因此,如何提高网络模型对不同角度点云数据的泛化性能是未来需要重点考虑的问题。

    面向人体动作识别的毫米波雷达三维点云数据集(mmWave-3DPCHM-1.0)依托《雷达学报》官方网站发布,每次更新后数据将会上传至学报网站“mmWave-3DPCHM-1.0:面向人体动作识别的毫米波雷达三维点云数据集”页面(如附图1所示)。数据和代码的下载网址如下:https://radars.ac.cn/web/data/getData?newsColumnId=0b02f393-2c4f-475d-8edd-92da206c5f87

    1  面向人体动作识别的毫米波雷达三维点云数据集1.0发布网页
    1.  Release webpage of 3D point cloud dataset from millimeter-wave radar for human action recognition (mmWave-3DPCHM-1.0)
  • 图  1  TI的IWR1443-ISK毫米波雷达

    Figure  1.  TI’s IWR1443-ISK millimeter-wave radar

    图  2  Vayyar的vBlu射频成像模组

    Figure  2.  Vayyar’s vBlu RF imaging module

    图  3  毫米波雷达三维点云生成过程

    Figure  3.  3D point cloud generation process for millimeter-wave radar

    图  4  数据采集场景

    Figure  4.  Data acquisition scenario

    图  5  数据采集区域

    Figure  5.  Data collection area

    图  6  人体动作类型

    Figure  6.  Types of human actions

    图  7  张开双臂动作的点云数据示例

    Figure  7.  Example of point cloud data for open arms action

    图  8  基于毫米波雷达点云数据的人体动作识别流程

    Figure  8.  Human action recognition process based on 3D point cloud data in millimeter-wave radar

    图  9  动态干扰滤除

    Figure  9.  Dynamic interference filtering

    图  10  TI雷达点云经过多帧融合与聚类的效果对比

    Figure  10.  Comparison of the effect of TI radar point cloud after multi-frame fusion and clustering

    图  11  PETer网络结构图

    Figure  11.  Structure diagram of PETer network

    图  12  利用边缘卷积构建局部有向邻域图

    Figure  12.  Construction of local directed neighborhood graph using edge convolution

    图  13  不同融合帧数时的识别准确率

    Figure  13.  Accuracy with different fused frames

    图  14  不同样本划分时的识别准确率

    Figure  14.  Accuracy with different sample divisions

    图  15  不同采样点数时的识别准确率

    Figure  15.  Recognition accuracy with different sampling points

    图  16  不同K值的识别准确率

    Figure  16.  Recognition accuracy with different K values

    图  17  PETer网络在TI数据集上不同学习率时的准确率和损失曲线

    Figure  17.  Accuracy and loss curves of PETer network with different learning rates on TI dataset

    图  18  PETer网络在Vayyar数据集上不同学习率时的准确率和损失曲线

    Figure  18.  Accuracy and loss curves of PETer network for different learning rates on Vayyar dataset

    图  19  PETer网络的混淆矩阵

    Figure  19.  Confusion matrix of PETer’s network

    1  面向人体动作识别的毫米波雷达三维点云数据集1.0发布网页

    1.  Release webpage of 3D point cloud dataset from millimeter-wave radar for human action recognition (mmWave-3DPCHM-1.0)

    表  1  TI毫米波雷达的参数配置

    Table  1.   Parameter configuration of TI millimeter-wave radar

    参数 数值
    天线数 3发4收
    工作频段 77 GHz
    信号形式 FMCW
    信号带宽 3.4 GHz (最大带宽为4 GHz)
    帧频率 30 帧/s
    距离分辨率 4.4 cm
    方位维角度分辨率 15°
    下载: 导出CSV

    表  2  Vayyar毫米波雷达的参数配置

    Table  2.   Parameter configuration of Vayyar millimeter-wave radar

    参数 数值
    天线数 24发22收
    工作频段 60 GHz
    信号形式 FMCW
    信号带宽 480 MHz (最大可达到2.5 GHz)
    帧频率 10 帧/s
    距离分辨率 31.25 cm
    方位维/俯仰维角度分辨率
    下载: 导出CSV

    表  3  志愿者信息

    Table  3.   Information of volunteers

    人员 身高(cm) 体重(kg) 年龄 性别 S1场景
    People1 183 90 23
    People2 160 45 23
    People3 178 80 24
    People4 173 65 25
    People5 188 80 25
    People6 176 65 25
    People7 172 75 24
    下载: 导出CSV

    表  4  文件名称

    Table  4.   File names

    文件夹名(动作) 文件名示例
    Box people1_box_1.xlsx, people1_box_2.xlsx, ···, people7_box_3.xlsx
    Fall people1_fall_1.xlsx, people1_ fall_2.xlsx, ···, people7_ fall_3.xlsx
    Jump people1_jump_1.xlsx, people1_ jump_2.xlsx, ···, people7_ jump _3.xlsx
    Left hand wave people1_left hand wave_1.xlsx, people1_ left hand wave_2.xlsx, ···, people7_ left hand wave_3.xlsx
    Left forerake people1_left forerake_1.xlsx, people1_left forerake_2.xlsx, ···, people7_left forerake_3.xlsx
    Open arms people1_open arms_1.xlsx, people1_open arms_2.xlsx, ···, people7_open arms_3.xlsx
    Right hand wave people1_right hand wave_1.xlsx, people1_right hand wave_2.xlsx, ···, people7_right hand wave_3.xlsx
    Right forerake people1_right forerake_1.xlsx, people1_right forerake_2.xlsx, ···, people7_right forerake_3.xlsx
    Sit people1_sit_1.xlsx, people1_sit_2.xlsx, ···, people7_sit_3.xlsx
    Squat people1_squat_1.xlsx, people1_squat_2.xlsx, ···, people7_squat_3.xlsx
    Stand people1_stand_1.xlsx, people1_stand_2.xlsx, ···, people7_stand_3.xlsx
    Walk people1_walk_1.xlsx, people1_walk_2.xlsx, ···, people7_walk_3.xlsx
    下载: 导出CSV

    表  5  数据格式

    Table  5.   Data format

    Frame Point number x y z Intensity
    0 1 1.515625000 0.291015625 0.177734375 20.53078461
    1 1 1.605468750 1.562500000 0.298828125 27.83903503
    1 2 1.634765625 0.367187500 0.058593750 31.11934280
    1 3 1.507812500 0.339843700 0.164062500 22.17483902
    2 1 1.683593750 0.494140625 0.126953125 25.19828033
    2 2 1.677734375 0.576171875 0.490234375 27.63427925
    5399 4 1.765625 0.40234375 0.326171875 26.33468437
    下载: 导出CSV

    表  6  边缘卷积模块的参数配置

    Table  6.   Parameter configuration of edge convolution module

    类型 Num×kernel_size, Stride 输出大小 (Batch, Channel, Length, d)
    Input -- (32, 4, 100, -)
    KNN graph-1 K=10 (32, 8, 100, 10)
    Conv2d-2 64×(1, 1), 1 (32, 64, 100, 10)
    MaxPool1d-3 1×10 (32, 64, 100, -)
    Conv2d-4 128×(1, 1), 1 (32, 128, 100, -)
    MaxPool1d-5 1×100 (32, 128, -, -)
    下载: 导出CSV

    表  7  不同网络模块组合的识别准确率(%)

    Table  7.   Recognition accuracy for different combinations of network modules (%)

    方法 TI数据识别率 Vayyar数据识别率
    PointNet + Transformer 94.12 95.23
    (PointNet++)+ Transformer 96.13 97.78
    EdgeConv + LSTM 94.26 99.51
    EdgeConv + GRU 92.42 94.45
    EdgeConv + RNN 94.26 96.23
    PETer (EdgeConv+Transformer) 98.73 99.51
    下载: 导出CSV

    表  8  不同网络模型在TI数据集和Vayyar数据集上的动作识别准确率(%)

    Table  8.   Action recognition accuracy of different network models on TI and Vayyar dataset (%)

    数据集 模型 打拳 跌倒 左前倾 左挥手 开双臂 右前倾 右挥手 静坐 下蹲 站立 步行 平均
    TI PointNet 75.97 99.84 68.95 70.48 60.76 72.92 55.52 62.54 84.48 78.57 85.40 75.75 74.26
    PointNet++ 87.88 98.98 74.01 75.88 77.22 72.99 57.11 66.91 88.55 87.56 94.78 83.36 80.44
    P4Transformer 98.23 98.04 81.76 80.50 82.66 87.36 85.30 88.93 96.85 92.99 96.78 89.93 89.94
    SequentialPointNet 97.02 98.74 92.87 93.52 92.29 98.28 85.36 89.86 98.80 97.60 94.01 86.91 93.77
    PETer (ours) 99.40 99.06 97.25 99.90 97.85 99.20 99.36 96.41 99.53 99.80 98.96 98.49 98.77
    Vayyar PointNet 88.83 98.28 72.13 76.74 66.59 81.13 55.84 68.09 90.14 74.74 80.75 78.21 77.62
    PointNet++ 94.30 99.68 71.30 64.24 78.08 86.26 69.20 73.53 91.38 83.84 94.53 84.47 82.57
    P4Transformer 98.41 98.87 79.07 92.55 88.73 94.20 93.13 80.89 98.80 98.54 94.56 97.64 92.95
    SequentialPointNet 99.81 99.71 86.20 97.15 92.45 98.06 94.23 87.43 98.74 98.12 97.28 97.83 95.58
    PETer (ours) 99.97 100.00 100.00 99.63 97.25 99.66 99.60 99.43 100.00 100.00 98.76 99.83 99.51
    下载: 导出CSV

    表  9  不同网络模型的计算量与复杂度对比

    Table  9.   Comparison of computational load and complexity of different network models

    模型 规模 (MB) GFLOPS 参数量 (M)
    PointNet 13.21 28.83 3.46
    PointNet++ 5.60 55.87 1.47
    P4Transformer 161.51 443.65 42.34
    SequentialPointNet 11.41 219.23 2.99
    PETer (ours) 1.09 4.62 0.35
    下载: 导出CSV
  • [1] AHMAD T, JIN Lianwen, ZHANG Xin, et al. Graph convolutional neural network for human action recognition: A comprehensive survey[J]. IEEE Transactions on Artificial Intelligence, 2021, 2(2): 128–145. doi: 10.1109/TAI.2021.3076974.
    [2] 金添, 宋永坤, 戴永鹏, 等. UWB-HA4D-1.0: 超宽带雷达人体动作四维成像数据集[J]. 雷达学报, 2022, 11(1): 27–39. doi: 10.12000/JR22008.

    JIN Tian, SONG Yongkun, DAI Yongpeng, et al. UWB-HA4D-1.0: An ultra-wideband radar human activity 4D imaging dataset[J]. Journal of Radars, 2022, 11(1): 27–39. doi: 10.12000/JR22008.
    [3] ANGUITA D, GHIO A, ONETO L, et al. A public domain dataset for human activity recognition using smartphones[C]. European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, Bruges, Belgium, 2013: 437–442.
    [4] SOOMRO K, ZAMIR A R, and SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[R]. CRCV-TR-12-01, 2012.
    [5] AMIRI S M, POURAZAD M T, NASIOPOULOS P, et al. Non-intrusive human activity monitoring in a smart home environment[C]. 2013 IEEE 15th International Conference on e-Health Networking, Applications and Services (Healthcom 2013), Lisbon, Portugal, 2013: 606–610. doi: 10.1109/HealthCom.2013.6720748.
    [6] BLOOM V, MAKRIS D, and ARGYRIOU V. G3D: A gaming action dataset and real time action recognition evaluation framework[C]. 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, Providence, USA, 2012: 7–12. doi: 10.1109/CVPRW.2012.6239175.
    [7] LIU Jun, SHAHROUDY A, PEREZ M, et al. NTU RGB+D 120: A large-scale benchmark for 3D human activity understanding[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(10): 2684–2701. doi: 10.1109/TPAMI.2019.2916873.
    [8] RAEIS H, KAZEMI M, and SHIRMOHAMMADI S. Human activity recognition with device-free sensors for well-being assessment in smart homes[J]. IEEE Instrumentation & Measurement Magazine, 2021, 24(6): 46–57. doi: 10.1109/MIM.2021.9513637.
    [9] 丁传威, 刘芷麟, 张力, 等. 基于MIMO雷达成像图序列的切向人体姿态识别方法[J]. 雷达学报(中英文), 2025, 14(1): 151–167. doi: 10.12000/JR24116.

    DING Chuanwei, LIU Zhilin, ZHANG Li, et al. Tangential human posture recognition with sequential images based on MIMO radar[J]. Journal of Radar, 2025, 14(1): 151–167. doi: 10.12000/JR24116.
    [10] 金添, 何元, 李新羽, 等. 超宽带雷达人体行为感知研究进展[J]. 电子与信息学报, 2022, 44(4): 1147–1155. doi: 10.11999/JEIT211044.

    JIN Tian, HE Yuan, LI Xinyu, et al. Advances in human activity sensing using ultra-wide band radar[J]. Journal of Electronics & Information Technology, 2022, 44(4): 1147–1155. doi: 10.11999/JEIT211044.
    [11] JIN Biao, MA Xiao, HU Bojun, et al. Gesture-mmWAVE: Compact and accurate millimeter-wave radar-based dynamic gesture recognition for embedded devices[J]. IEEE Transactions on Human-Machine Systems, 2024, 54(3): 337–347. doi: 10.1109/THMS.2024.3385124.
    [12] ZHANG Yushu, JI Junhao, WEN Wenying, et al. Understanding visual privacy protection: A generalized framework with an instance on facial privacy[J]. IEEE Transactions on Information Forensics and Security, 2024, 19: 5046–5059. doi: 10.1109/TIFS.2024.3389572.
    [13] HASCH J, TOPAK E, SCHNABEL R, et al. Millimeter-wave technology for automotive radar sensors in the 77 GHz frequency band[J]. IEEE Transactions on Microwave Theory and Techniques, 2012, 60(3): 845–860. doi: 10.1109/TMTT.2011.2178427.
    [14] JIN Biao, MA Xiao, ZHANG Zhenkai, et al. Interference-robust millimeter-wave radar-based dynamic hand gesture recognition using 2-D CNN-transformer networks[J]. IEEE Internet of Things Journal, 2024, 11(2): 2741–2752. doi: 10.1109/JIOT.2023.3293092.
    [15] JIN Biao, PENG Yu, KUANG Xiaofei, et al. Robust dynamic hand gesture recognition based on millimeter wave radar using atten-TsNN[J]. IEEE Sensors Journal, 2022, 22(11): 10861–10869. doi: 10.1109/JSEN.2022.3170311.
    [16] SENGUPTA A, JIN Feng, ZHANG Renyuan, et al. mm-Pose: Real-time human skeletal posture estimation using mmWave radars and CNNs[J]. IEEE Sensors Journal, 2020, 20(17): 10032–10044. doi: 10.1109/JSEN.2020.2991741.
    [17] YU Zheqi, TAHA A, TAYLOR W, et al. A radar-based human activity recognition using a novel 3-D point cloud classifier[J]. IEEE Sensors Journal, 2022, 22(19): 18218–18227. doi: 10.1109/JSEN.2022.3198395.
    [18] QI C R, SU Hao, MO Kaichun, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017: 77–85. doi: 10.1109/CVPR.2017.16.
    [19] QI C R, YI L, SU Hao, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]. 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 5105–5114.
    [20] FAN Hehe, YANG Yi, and KANKANHALLI M. Point 4D transformer networks for Spatio-temporal modeling in point cloud videos[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 14199–14208. doi: 10.1109/CVPR46437.2021.01398.
    [21] PÜTZ S, WIEMANN T, and HERTZBERG J. Tools for visualizing, annotating and storing triangle meshes in ROS and RViz[C]. 2019 European Conference on Mobile Robots (ECMR), Prague, Czech Republic, 2019: 1–6. doi: 10.1109/ECMR.2019.8870953.
    [22] DENG Dingsheng. DBSCAN clustering algorithm based on density[C]. 2020 7th International Forum on Electrical Engineering and Automation (IFEEA), Hefei, China, 2020: 949–953. doi: 10.1109/IFEEA51475.2020.00199.
    [23] LIN Y P, YEH Y M, CHOU Yuchen, et al. Attention EdgeConv for 3D point cloud classification[C]. 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Tokyo, Japan, 2021: 2018–2022.
    [24] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[C]. 9th International Conference on Learning Representations, 2020: 1–11.
    [25] HENDRYCKS D and GIMPEL K. Gaussian error linear units (GELUs)[EB/OL]. https://doi.org/10.48550/arXiv.1606.08415, 2016.
    [26] LI Xing, HUANG Qian, WANG Zhijian, et al. Real-time 3-D human action recognition based on hyperpoint sequence[J]. IEEE Transactions on Industrial Informatics, 2023, 19(8): 8933–8942. doi: 10.1109/TII.2022.3223225.
  • 期刊类型引用(1)

    1. 陈浩然,高丽倩,郭雅丽,欧阳文峰,张采月. 基于SfM近景摄影测量技术的藓结皮坡面风蚀监测. 农业工程学报. 2025(07): 129-135 . 百度学术

    其他类型引用(0)

  • 加载中
图(20) / 表(9)
计量
  • 文章访问数: 2332
  • HTML全文浏览量: 783
  • PDF下载量: 562
  • 被引次数: 1
出版历程
  • 收稿日期:  2024-09-29
  • 修回日期:  2025-01-04
  • 网络出版日期:  2025-01-15
  • 刊出日期:  2025-02-28

目录

/

返回文章
返回