10.3969/j.issn.1000-386x.2015.09.016
领域本体的藏文主题爬虫搜索策略研究
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。
本体、相似度计算、藏文网页、主题发现
TP391(计算技术、计算机技术)
国家自然科学基金重点项目61331013;国家自然科学基金项目61165013;西藏大学青年培育基金项目ZDPJZK201302。
2015-10-12(万方平台首次上网日期,不代表论文的发表时间)
共4页
68-71