基于视频序列的多人3D姿态和形状估计

张凯富

广东工业大学

下载全文

在线阅读

引用

摘要：

视频的3D人体姿态估计是近年来的一个研究热点，研究成果可应用于人机交互、虚拟现实和运动分析等领域。姿态序列重建通过从视频中恢复出关节点坐标、旋转角度等信息来表示人体运动。为了更好地理解多人交互运动，具有挑战性的3D多运动重建成为了近年来的研究热点。现有的方法有的缺乏时序上人体模型一致性，有的缺少完整的人体运动学约束，有的只是估计根相对坐标，导致算法在真实场景下的表现并不理想。　　为了解决这些问题，本文提出一种自顶向下的基于单目视频的绝对3D多人姿态与形状估计模型框架，通过设计出相互独立双支路神经网络模型结构，同时预测出3D人体姿态与形状（相对于根部，即骨盆）以及根部绝对深度（相对于相机坐标系），然后通过姿态变换转换为相机坐标系下的3D人体姿态与形状，两支路模型独立设计，可灵活优化。本文的主要工作如下：　　提出了一个根相对3D人体姿态与形状估计模型，其分为人体跟踪器、生成器和监督器三个部分，其中人体跟踪器使用现有的方法并添加了轨迹插值补全算法，用于从多人视频中提取单人完整运动序列边界框；生成器和监督器的结构结合了时间模型、自我注意力机制，生成器加强了时间特征的处理能力，监督器加强了真实序列对估计序列的约束，提高了运动序列估计的准确性与平滑性。　　提出了一个根部绝对深度估计模型，能直接一次性输出多人的根部深度。模型的整体结构参考了Houglass框架，通过添加阶段性“跳跃连接”，能高效融合高级特征与低级特征；设计了一种轻量化残差模块代替普通的残差模块，在保证性能的同时降低了模型的复杂度；最后在训练时添加了多尺度中间监督法提高了模型的训练效率。　　在多个公开数据集的多个指标上对本文提出的模型的性能进行了大量的对比实验和评估，实验结果表明，根相对3D人体姿态与形状估计模型和根部绝对深度估计模型分别在相应的数据集和多个指标上都达到了现有最先进模型的性能。然后进行了消融实验，分析说明了模型中各个模块的必要性。整合模型在性能上也能达到两人及以下应用场景的需求，能重建出在相机坐标系下准确的人体姿态与形状序列。

关键词：多人姿态估计;三维人体形状;深度估计;注意力机制;视频序列

授予单位：广东工业大学

授予学位：硕士

学科专业：机械工程

导师姓名：管贻生

学位年度：2021

语种：中文

分类号：TP391.41

在线出版日期：2021-10-15（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于视频序列的多人3D姿态和形状估计