词性对新闻和微博网络话题检测的影响
针对新闻和微博2组有代表性的语料开展实验研究,旨在发现不同词性特征及其组合对2种通用网络平台话题检测的作用及其影响。研究表明:在选择单一词性特征时,名词特征可得到最好的检测结果,命名实体可在保证准确率的情况下大大降低聚类的特征维度。在选择词性组合作为特征时,名词或命名实体、数词、时间短语、形容词以及量词的组合特征可提升新闻网络话题检测的准确率,而名词或命名实体、形容词、量词、数词以及特殊符号与网址的组合特征可在微博语料上获得较好的检测结果。
话题检测、词性、文本特征、新闻、微博
TP391(计算技术、计算机技术)
国家自然科学基金重点资助项目613300194
2015-04-13(万方平台首次上网日期,不代表论文的发表时间)
共8页
526-533