10.3969/j.issn.1001-0645.2012.03.019
BFS-CTC汉语句义结构标注语料库构建方法
根据现代汉语语义学,构建了一种层次化的句义结构模型.基于该模型构建了汉语句义结构标注语料库(Bering forest studio-Chinese tagged corpus,BFS-CTC).利用自行开发的标注和管理工具,对模型中各个句义成分及其组合关系进行快速标注,降低培训工作量和标注成本.BFS-CTC涵盖了6种句式类型,约1万句,提供了符合现有规范的词法和句法标注信息与自定义规范的句义结构标注信息,便于词法、句法和句义的对照分析研究,以及语料的综合使用和横向分析.此外,BFS-CTC还具有较强的可扩展性,可在核心标注库基础上扩展生成其它扩展库和标注资源.
中文信息处理、句义分析、句义结构、语义标注、语料库
32
TP391(计算技术、计算机技术)
国家“二四二”计划项目2005C48;北京理工大学科技创新计划项目2011CX01015
2012-08-31(万方平台首次上网日期,不代表论文的发表时间)
共5页
311-315