DOI：10.3969/j.issn.1000-386x.2016.11.008

Spark平台下的高效Web文本分类系统的研究

引用

摘要：

针对 KNN 分类算法在面对海量 Web 文本处理情况时在单机上训练和测试效率低下的问题，提出基于 Hadoop 分布式平台以及 Spark 并行计算模型的无中间结果输出的改进型 Web 文本分类系统。同时为了充分利用 Spark 的迭代计算能力，在文本向量化阶段，在传统 TFIDF 文本特征加权算法的基础上充分考虑特征项在类内和类间的信息分布，提出一种改进的特征加权算法。实验结果表明，该文本分类系统结合 Spark 计算模型在提高文本预处理、文本向量化以及 KNN 文本分类算法的性能上有着优异的表现。

关键词：KNN、TFIDF、文本分类、Hadoop、Spark

所属期刊栏目：33

分类号：TP391.1(计算技术、计算机技术)

在线出版日期：2016-12-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：33-36

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

Spark平台下的高效Web文本分类系统的研究