DOI：10.3969/j.issn.1000-386x.2013.07.023

一种基于密度的大边界最近邻文本分类方法

引用

摘要：

距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC).该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类.实验证明DLMNNC在很大程度上提高了文本分类精度.

关键词：大边界最近邻、K近邻、密度、距离度量学习、文本分类

所属期刊栏目：30

分类号：TP301(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划项目2011AA040605

在线出版日期：2013-08-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：83-85,159

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

一种基于密度的大边界最近邻文本分类方法