10.3969/j.issn.1000-386x.2014.08.048
扩展DPMM模型在短文本主题识别中的应用
近年来,话题检测与追踪(TDT)得到广泛研究.然而,研究主要基于常规的新闻,扩展到短篇报道依然有问题.提出基于耿氏混合模型(DPMM)的话题识别方法,以统一的模型处理话题切分和TDT.介绍DPMM在话题识别中的应用以及讨论两种专门用来解决短篇报道的稀疏问题的方案.一个是算法流程,将话题识别的处理单元由单个短文本转为会话.另一个是扩展DPMM模型,当估算与已知的话题的关联词时考虑字的依赖.随后,通过同时处理话题切分和TDT来识别自发文本流的话题.DPMM模型的优势在于混合组件的数量不必提前确定,并且不需要话题数量与内容的前期准备,因此它更加适合流文本话题识别.实验结果表明,DPMM模型对处理短文本数据的话题识别是有效的.
话题识别、混合模型、扩展耿氏过程、流数据、静态短文本
31
TP311.1(计算技术、计算机技术)
2014-10-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
191-195