基于多模态时空上下文的人类动作识别方法-现代电商与智慧物流大数据研究中心

基于多模态时空上下文的人类动作识别方法

来源：日期：2026-01-23作者：甘宏浏览量：

摘要：动作识别作为计算机视觉领域的关键子领域，其研究进展在很大程度上依赖于对骨架数据和RGB数据的深入分析.尽管这两种数据类型各自提供了独特的视角，但单独使用时所蕴含的信息量往往有限.目前的研究多采取在后期简单叠加或融合这两种数据，这可能导致信息整合不足，影响对动作的准确理解.针对这一问题，提出了一种融合多模态时空上下文的动作识别新方法.通过引入RGB视频序列，旨在捕获与人体动作紧密相关的环境上下文信息，以深化对动作的洞察.在特征学习阶段，设计了一个创新的时空上下文引导模块，该模块通过增强特征的表达力和促进不同模态间的数据交互，显著提升了动作识别的精度.通过深入挖掘RGB数据中的丰富时空上下文信息，该方法有效地加强了不同数据模态之间的协同效应，显著提高了动作识别的准确性，并增强了其在多样化实际场景中的适用性和适应性.实验结果在NTU-RGBD数据集上展示了所提出的网络架构所取得的优越性能.

关键词：

动作识别;多模态数据融合;时空上下文;计算机视觉;网络架构;

基金资助：

2024年度广东省教育厅质量工程项目(GDJG2405)； 2023年度广东省教育科学规划课题(2023GXJK617)； 2021年度广东省教育厅质量工程项目(GDZL2101)； 2022年度校级科研项目(省级重点培育项目)(2022XK02)； 2021年度广东省民办教育学会科学规划课题(GMG2024070)；

专辑：
基础科学;信息科技
专题：
计算机软件及计算机应用
分类号：
TP391.41
在线公开时间：
2025-10-10 15:55

附件【基于多模态时空上下文的人类动作识别方法_甘宏.pdf】已下载次

上一条：一种融合多模态数据的情绪识别方法

下一条：民办高校双创型跨境电商人才培养模式的研究与实践

科研成果

科研成果

论文

基于多模态时空上下文的人类动作识别方法

联系我们