10.16451/j.cnki.issn1003-6059.201501001
面向微博热点话题发现的多标签传播聚类方法研究
微博热点话题发现是目前的研究热点。针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词以及时间效率不佳的问题,引入多标签传播思想,设计一种接近线性时间复杂度的多标签传播聚类算法( TCMLPA)用于词共现网络的热词聚类,获得热点话题集。实验结果表明,词生命值计算模型能够有效过滤噪声并提取热词,TCMLPA算法则能够在保证聚类结果稳定性的情况下,有效提高热点话题发现的精度和效率。
微博、热点话题发现、老化理论、热词抽取、多标签传播
TP391(计算技术、计算机技术)
国家自然科学基金项目61103175;福建省教育厅重点项目JK2012003;福建省科技创新平台项目2009J1007;福建省自然科学基金项目2013J01232
2015-03-06(万方平台首次上网日期,不代表论文的发表时间)
共10页
1-10