10.3969/j.issn.1000-386x.2013.07.023
一种基于密度的大边界最近邻文本分类方法
距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC).该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类.实验证明DLMNNC在很大程度上提高了文本分类精度.
大边界最近邻、K近邻、密度、距离度量学习、文本分类
30
TP301(计算技术、计算机技术)
国家重点基础研究发展计划项目2011AA040605
2013-08-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
83-85,159