我国专利数据中发明家姓名消歧算法研究

赵升

北京化工大学

下载全文

在线阅读

引用

摘要：

专利大数据已成为国内外科学研究、商业情报分析以及精准创新创业的重要基础性资源，实现专利数据高质量的数据清洗目标以提高对该资源的利用效率具有重要意义。然而，由于汉字及其输入法特性，我国专利数据中的著录项信息清洗存在其特有的难点，其中发明家姓名消歧是最急需解决的关键性问题。在使用汉字输入法向专利数据库中输入专利信息时，可能把专利数据中的发明家名字输入错误而产生姓名歧义（同音字和形近字歧义），从而导致专利数据质量的降低。在以专利创新为背景的前提下，一些高科技创新企业可能因为专利数据质量的降低而影响对优秀发明家的培养、辨别和他们之间的合作关系考察，从而会弱化资源的合理配置功能。　　应用专利数据中发明家信息做专利数据分析时，首先需要对发明家姓名的歧义进行检查和纠正。因为专利数据中发明家名字的含糊性为实现高质量的数据清洗目标产生障碍，从而会导致企业的准确性决策、低成本投入、研发方向选择产生一定的偏差。对于专利信息中发明家姓名歧义问题，国外研究已经比较成熟，形成了形形色色的发明家消歧算法，但是对于中文发明家姓名消歧的研究鲜有涉及，由于中英文语言文字在逻辑结构、词语分布特征以及使用习惯等方面有着较大差异，国外专利数据清洗算法已不能够适用于中文专利数据中发明家信息的清洗需求。　　本文通过对国内外姓名消歧以及英文发明家姓名消歧算法的回顾，主要从中国汉字的特殊性出发，设计了一套高效、科学的姓名消歧算法来解决中国专利数据中存在的发明家歧义。主要贡献是基于专利著录项组合相似度的发明家姓名消歧算法和基于综合集成研讨厅的发明家姓名消歧研究。　　本文选用2015年我国医药行业百强企业（100家）的专利数据作为样本，证实了所设计消歧算法的科学性和高效性，体现了该消歧算法对提高专利数据质量尤其是针对发明家名字消歧的优势。消歧算法为数据清洗在专利数据库作技术探究提供新思路，进而有助于利用专利数据进行组织网络创新、情报分析以及战略布局等相关研究工作。

关键词：专利数据;发明家姓名;消歧算法

授予单位：北京化工大学

授予学位：硕士

学科专业：管理科学与工程

导师姓名：刘斌

学位年度：2017

语种：中文

分类号：TP311.13

页数：83

在线出版日期：2017-08-15（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

我国专利数据中发明家姓名消歧算法研究