基于字符串相似性聚类的网络短文本舆情热点发现技术
将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.
舆情分析、短文本处理、层次聚类
36
TP393(计算技术、计算机技术)
国家"九七三"计划资助项目2007CB311100;北京市自然科学基金4102012;4102013;北京市教育委员会科技发展计划面上资助项目KM200810005030;北京工业大学青年科学基金
2011-05-23(万方平台首次上网日期,不代表论文的发表时间)
669-673