10.3969/j.issn.1000-386x.2015.10.025
基于模糊路径匹配的 XML 文档分类研究
XML 是互联网上信息表示和数据交互的重要标准,文档分类是解决从海量信息中获取有效信息的重要方法,提出一种基于模糊路径匹配的 XML 文档分类方法。首先去除对分类没有影响的信息;然后采用一种混合的 XML 文档相似性计算方法,将XML 文档表示为路径的集合。为了提高效率,删除了文档中重复出现的路径后进行模糊匹配,用匈牙利算法计算出文档间的相似度;最后使用改进的 K 近邻算法进行文档的分类。使用自动生成及真实的文档集进行实验,结果表明:两组文档分类的正确率均可以达到100%。
XML、分类、相似性、路径、语义
TP311(计算技术、计算机技术)
云南省教育厅基金项目2011Y010。
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)
共4页
113-115,126