学位专题

目录>
<

基于专利文本特征的核心技术信息抽取方法研究

向姝璇
四川大学
引用
当今专利信息的海量性正导致科技工作者的信息超载和迷航,这就使凝练专利核心内容,抽取专利关键特征的自动化工作日显重要。本文基于专利分析,提出了三种专利信息抽取方法,分别是基于专利文本功效内容特征的核心技术信息抽取方法、基于专利文本权利要求层级特征的核心技术信息抽取方法和基于专利文本权利要求引证特征的核心技术信息抽取方法。  基于专利文本功效内容特征的核心技术信息抽取方法能更精准地定位专利的核心技术,更客观地描述专利的功能效用。将抽取内容分为核心技术、功效描述两部分;根据技术特征句在权利要求书和说明书中出现的形式相似度设置权重W1,根据技术特征句出现的文本结构位置设置权重W2,根据技术特征句与专利标题的相似度设置权重W3,对Textrank计算出的权重再根据句子相似度进行调整,得到低冗余的技术特征句集合,形成核心技术部分;对功效描述句进行情感分析,排除陈述已有技术在功能效用上的缺陷的负面句,提取陈述该专利在功能效用上的优势的正面句,形成功效描述部分;综合上述两部分,得到用本文方法自动抽取的专利技术功效特征。选取特定领域专利进行实验,对比结果显示,使用本文方法所获得的结果,在ROUGE值上较同类方法有显著提升。受样本局限,权重和参数的设置有待在更多领域内被验证或修正。  基于专利文本权利要求层级特征的核心技术信息抽取方法可以提炼出专利创新点。对于词组的重要度加权包括了TF-ICF(词频-逆权利要求频率,TermFrequency–InvertedClaimFrequency)权重和HC(层级数-引用数,Hierarchy-Cite)权重。首先对词组进行拆分,对拆分得到的词进行TF-ICF频率计算。每个词组的TF-ICF权重由组成该词组的词TF-ICF频率相乘得到。再进行权利要求层级和引用数的加权得到该词组重要度,权利要求层级加权即乘以该词组所在权利要求层级数,权利要求引用数加权即乘以该条权利要求引用数与同层级权利要求引用数平均值的比值,对于出现在不同权利要求中的词组重要度取平均值。该方法聚焦于专利创新点信息,能够有效抽取表现专利创造性和新颖性的词组。  基于专利文本权利要求引证特征的核心技术信息抽取方法主要考虑专利技术细节。首先将权利要求按照引用关系进行分组并根据权利要求被引数确定每条权利要求的关键度。定位每组关键技术短语后,结合相应权利要求语句的关键度与出现次数对每个关键技术短语进行评分。最后依据关键技术短语词组的组成情况计算专利文本句子的重要度,去除冗余句后得到最终结果。在本计算方法中,对于权利要求被引计数有三种思路。第一种思路是对权利要求被引累积计数,只考虑施引权利要求的直接被引次数;第二种思路是考虑施引权利要求的总被引次数。二者得到的结果,一种更倾向于覆盖全面,一种更倾向于突出重点。第三种思路是不考虑权利要求引用和被引关系,只计算关键词组短语的出现次数,该方法能够简单直接地抽取到最主要的技术,但可能在关键技术完整性上有欠缺。总的来说,突出关键技术专利技术信息抽取方法的可理解度高,能够得到关键技术内容,主要适合于聚焦于技术细节、技术概况、技术发展有关检索场景和研究场景。  本文提出的三个专利信息抽取方法具备各自的特点与适用场景。基于专利文本功效内容特征的核心技术信息抽取方法保证了专利技术信息与功效信息的完整性,且能够符合一般专利摘要的结构特征;基于专利文本权利要求层级特征的核心技术信息抽取方法能够有效提取突出专利创新技术的关键词,主要满足查新、分析等有关工作对专利信息提炼的需要;基于专利文本权利要求引证特征的核心技术信息抽取方法利用专利的关键技术词组短语定位关键技术语句,更适用于聚焦技术细节的查新或科研工作。

专利技术功效;关键技术;特征抽取

四川大学

硕士

图书馆学

李睿

2022

中文

TP391

2023-06-02(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅