10.3969/j.issn.1000-386x.2017.02.003
基于正则表达式构建学习的网页信息抽取方法
正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年.然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程.该算法需要给定输入初始正则以及正反例样本,初始正则表达式在经过析取分离与合并交叉两大类正则表达式状态转换之后,得到候选正则表达式集合,利用F值评估候选项的信息抽取效果,通过贪心的启发式策略选择一个最优正则表达式作为输出.在多种数据集上对算法进行测评.实验表明,该算法性能与准确度均优于常规的机器学习方法.尤其在较小规模训练集和跨数据集上依然有较好的效果.
正则表达式构建、状态转换、Web信息抽取
34
TP3(计算技术、计算机技术)
2017-05-26(万方平台首次上网日期,不代表论文的发表时间)
共7页
14-19,79