10.3969/j.issn.1001-2400.2014.03.018
结合紧密度和分散度的近邻亲和相似度函数
针对传统距离或相似度度量未考虑个体样本对整体样本集影响的情况,对 K 近邻算法提出了一种相似度改进策略。首先提出了一种新的亲和距离函数,以样本对整体样本集的紧密度和分散度为关注点;其次在亲和距离函数的基础上,提出了一种新的基于紧密度和分散度的亲和相似度函数,并将其作为 K 近邻算法相似度度量函数;最后通过理论分析及18个数值类型 UCI 数据集,以5交叉验证模式对所提出亲和相似度函数与传统距离和相似度函数进行验证对比。实验表明,所提出方法是一种有效的相似度策略,且与高效索引算法相结合,可降低在大规模数据集的分类时间。
机器学习、近邻、亲和相似度、分散度、紧密度
TP301.6(计算技术、计算机技术)
国家自然科学基金资助项目61272119
2014-07-09(万方平台首次上网日期,不代表论文的发表时间)
共8页
123-130