10.3969/j.issn.1000-386X.2007.08.021
基于邮件过滤的中文邮件语料库构建
首先分析了现阶段邮件过滤的主要技术和邮件语料库建设的现状,并提出了建设中文邮件语料库的相关问题,建议在邮件建设过程中保留邮件信头信息、不排斥邮件副本.然后给出了邮件语料库系统的实现框架,分为邮件源代码的解析与预处理、邮件的初次标注、词分类和邮件的二次标注四个步骤,并通过提供一个管理工具来管理邮件语料.最后,介绍了目前已经建设的一个邮件语料库的情况.
邮件过滤、中文邮件语料库、标注、XML
24
TP3(计算技术、计算机技术)
江苏省高技术研究发展计划项目BG2005020;江苏省教育厅自然科学基金04KKB320134
2007-09-10(万方平台首次上网日期,不代表论文的发表时间)
共4页
56-58,121