用于双语术语抽取的专业领域中英文可比语料库构建
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。
可比语料库、语料库构建、双语术语抽取
TP391(计算技术、计算机技术)
国家自然科学基金项目“基于可比语料的多语言文本聚类研究”70903032;南京理工大学自主科研专项计划项目“多语言标签聚类研究”项目2011ZDJH15的研究成果之一
2012-07-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
28-33