10.3969/j.issn.2095-2783.2018.20.017
基于图像信息的话者识别
提出了一种使用图像信息进行话者识别的方案,建立了一个共计916个样本、每个样本包含连续20帧图片的实验数据集.将基于图像信息的话者识别分为借助人脸识别技术找出人脸的嘴唇部分并执行唇动检测和对被检测出唇动的人脸进行人脸识别2个阶段.唇动检测模型通过2种方法获得:计算样本中每帧图片的人脸上下嘴唇间距与鼻部宽度的比例,并将该比例作为该帧图像的特征,基于总体样本特征使用支持向量机进行模型训练;对人脸的嘴唇部分进行裁剪,使用卷积神经网络对裁剪后的嘴唇图片提取特征,并将特征作为长短时记忆网络的输入进行模型的训练.实验结果表明,基于图像信息的话者识别能够达到较高的准确率.
人脸识别、话者识别、唇动检测、支持向量机、卷积神经网络、长短时记忆网络
13
TP37(计算技术、计算机技术)
2019-06-04(万方平台首次上网日期,不代表论文的发表时间)
共6页
2388-2393