10.3969/j.issn.1000-386X.2009.11.014
一种基于Token匹配的中文数据清洗方法
拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺.提出了一种基于Token匹配的中文数据清洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的"脏数据".实验表明,提出的方法能够有效地提高数据的准确度,大大减少了人工工作量.
中文数据清洗、Token、拼写错误、缩写
26
TP3;TP2
国家高技术研究发展计划863课题2007AA010305;陕西省科技计划项目2006k05-G10;西安市科技局应用发展研究项目YF07022
2010-01-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
43-45,53