大数据处理技术在专利数据分析中的应用研究

徐晶

西安理工大学

下载全文

在线阅读

引用

摘要：

专利文献具有数据量大、类型复杂，蕴含信息丰富的特点。但是，目前常用的专利文献处理信息化平台对海量专利文献数据的处理能力不足，缺乏对专利文献进行系统分析与深度信息挖掘的能力。为了解决这些问题，本文课题围绕大数据技术在专利数据分析中的应用展开了研究开发。　　作者调查了专利审查工作，尤其是专利数据审查质量分析与低质量专利分析的应用需求;研究了大数据处理与分析的相关技术；设计了专利大数据处理平台的体系结构（主要包括应用系统、Spark大数据框架、数据源三大组成部分）。研究了K-近邻算法、关联规则算法，以及聚类算法在专利数据分析处理中的应用方法。　　在理论研究的基础上，基于Linux操作系统、Spark2.1.0、R3.3.2构建了专利大数据处理平台，基于Spark R与Mlib环境，应用基于R的W e b交互界面的应用框架软件包Shiny、可在Spark中进行数据分析的R语言包Sparklyr，以及R语言开发实现了低质量专利数据聚类分析软件。　　本软件以外观专利申请中的低质量案件为对象，获取其主分类号等数据集，存储在分布式文件系统h d fs中；应用R语言调用Sparklyr连接Spark计算框架；通过K均值聚类软件进行聚类输出，获得数据分析结果，再通过R程序进行可视化；使用shiny与用户进行Web交互。　　目前，低质量专利数据聚类分析软件已在某公司正常运行，可对低质量专利数据进行聚类分析；可根据颜色，位置，聚合程度来直观显示聚类效果。运行结果表明，本软件对于辅助专利机构提高审查效率与专利服务水平，推进专利处理信息化具有很好的实用价值。

关键词：近邻算法;关联规则算法;聚类算法;数据分析;专利审查

授予单位：西安理工大学

授予学位：硕士

学科专业：计算机系统结构

导师姓名：张璟

学位年度：2017

语种：中文

分类号：TP311.13

页数：55

在线出版日期：2018-05-14（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

大数据处理技术在专利数据分析中的应用研究