基于费希尔信息度量的随机近邻嵌入算法
为提高文本分类的准确率,提出了费希尔信息度量随机近邻嵌入算法( Fisher information metric based on stochastic neighbor embedding, FIMSNE)。首先,把文本的词频向量看作统计流形上的概率密度样本点,利用费希尔信息度量计算样本点之间的距离;然后,从信息几何的观点出发,对 t 分布随机近邻嵌入( t-stochastic neighbor embedding, t-SNE)进行改进,实现了新算法。真实文本数据集上的二维嵌入和分类实验的结果表明:FIMSNE的性能在总体上优于t-SNE、费希尔信息非参数嵌入( Fisher information nonparametric embedding,FINE)和主成分分析( principal components analysis,PCA)。
文本分类、统计流形、信息几何、费希尔信息度量、t分布随机近邻嵌入
42
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61175004;北京市自然科学基金资助项目4112009;高等学校博士学科点专项科研基金资助项目20121103110029
2016-07-04(万方平台首次上网日期,不代表论文的发表时间)
共8页
862-869