基于容错粗糙集的话题检测与跟踪方法研究
随着互联网的迅猛发展,网络成为产生舆情的重要场所,而Web新闻作为互联网的一个十分重要的应用,已成为影响网络舆情的一个重要因素。对网站发布的Web新闻内容进行必要的、合理的监督管理,采用计算机技术自动地对其进行分析整理,从而进一步进行舆情分析,保障网络的内容安全,是网络监管部门的一项重要研究内容。
本文以网络中的Web新闻为舆情分析语料,主要研究了在互联网新闻话题的识别与跟踪的过程中,如何建立更为适用的文本表示模型的问题。在借鉴国内外相关先进技术的同时,本文对Web新闻语料自身的特点进行了分析,发现将现有的文本表示模型应用于Web新闻会导致文本表示的稀疏性问题和话题跟踪过程中的主题词漂移问题。
鉴于此,在理论分析和实验验证的基础上,本文结合向量空间模型(VSM),利用特征项在文档集中协同出现,构造了特征项的容错粗糙集。最后用特征项容错粗糙集生成文档的容错粗糙模型,来扩充原先的文档表示模型。实验证明,文档的容错粗糙模型能够改进话题检测的效果。在此基础上,本文构建了一个热点话题发现与话题跟踪及趋势分析原型系统,实现了预期的功能。
信息安全;容错粗糙集;话题检测;跟踪方法
西安电子科技大学
硕士
密码学
封化民
2009
中文
TN918
51
2009-09-21(万方平台首次上网日期,不代表论文的发表时间)