面向社会机器人的3D手势建模、识别与学习

况逸群

电子科技大学

下载全文

在线阅读

引用

摘要：

社会机器人（Social Robots）未来可能重塑整个社会，而自然人机交互技术是其核心技术之一。手势交互作为一种自然的人机交互方式，被广泛应用于社会机器人交互系统之中。然而，现有的手势识别算法需求大量的高质量训练数据、模型学习过程复杂、扩展性差，难以应用于社会机器人真实应用场景。本文紧密围绕社会机器人手势交互技术，重点研究如何利用少量的有标记数据，甚至单个样本数据进行手势学习，以及如何建模融合多模态信息以提升手势识别的性能。本论文的主要工作和成果归纳如下：　　针对因手部是一种高自由度的链式结构使得关节点数据标注非常困难，从而造成现有的基于有监督学习的方法学习成本极高的问题，本文提出了一种基于多视图投影的半监督学习方法。该方法将无标记三维手势点云图投影至三个坐标平面，利用自编码器学习投影视图之间的隐空间编码，作为手势姿态的隐式表征，进而利用有标签数据学习隐式表征到手部姿态的直接映射。实验表明，该方法不仅有效地减少了对标记数据的依赖，且在手姿态估计数据库上，将最好结果从19.60毫米提升到了17.04毫米。　　针对现有一次学习手势识别算法存在以下缺点：1）常用的运动特征只关注运动部分信息，造成手势描述的不连续，丢失了手势保持时期的信息；2）特征提取未关注于有效的手部区域，造成身体摆动等无效运动的干扰；3）识别算法丢失了特征的时空位置信息，本文提出了一种简单有效的基于上下文信息的显著性特征提取方法。该方法能够完整地保留手势的动静态信息，从而获得更丰富、更鲁棒的特征表达。其次，本文提出了一种基于特征匹配的动态规划算法，该算法利用特征匹配的稠密性及准确性度量两帧的相似性，而后采用动态规划算法求取两手势序列最优匹配距离。该算法保证了手势描述的连续性、准确性，并且充分利用了特征的时空位置信息。本文提出的算法在无需复杂的特征设计的情况下，得到了和当前基于复杂特征设计的算法相当的效果。　　针对基于深度学习的多模态手势识别算法需要谨慎的网络结构设计，繁琐的网络训练，且新的数据需要重新训练问题，本文提出了一种统一的多模态信息融合构架，称为VDTW（Votingbased Dynamic Time Warping）。该算法通过利用三维隐形状模型建模各模态特征的时空结构信息，而后通过一致性投票将特征映射至统一的概率空间，形成对各帧时空分布的概率估计，以此构建对齐代价矩阵。此外，本文还提出一种基于概率的快速上界求取方法，能够减少不必要的动态规划计算过程，从而加速计算。这些优点使得VDTW算法能够适用于大样本多模态手势分类任务，在Chalearn IsoGD多模态手势数据库上，获得了和基于深度学习的算法相当的结果。　　在上述算法研究的基础上，搭建了一套社会机器人系统JIAJIA，用于验证真实场景下的手势交互效果。多位志愿者受邀参与系统测试，使用体验方面得到较高评价，其次，量化的识别结果也验证了系统的实用性。

关键词：社会机器人;手势识别;3D建模;机器学习

授予单位：电子科技大学

授予学位：博士

学科专业：控制科学与工程

导师姓名：程洪

学位年度：2019

语种：中文

分类号：TP212

在线出版日期：2019-09-16（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

面向社会机器人的3D手势建模、识别与学习