海量数据归档与恢复系统技术研究与实现

李育岭

南京航空航天大学

下载全文

在线阅读

引用

摘要：

企业信息化平台中存在的海量数据，大部分是访问频率较低的历史数据。这些数据占据着大量的系统资源，并影响着服务器的运行性能和服务质量。如何将海量数据从信息化运行平台迁移到低廉的存储设备中，并进行有效管理，成为企业信息化发展面临的一大难题。数据归档技术能够有效地解决这个问题，但是目前很多归档系统专业性很强，主要针对专一的数据库平台和专业的数据管理人员，而企业用户需要的却是一种操作简便、数据来源广泛、性能良好的通用型数据归档与恢复系统。　　数据归档与恢复系统能够有效管理数据的原因在于对数据进行分类整理，并建立完整的、能够全面描述数据特征的索引。围绕这一思路，论文首先研究和分析了文本分类技术的基本思想和方法，同时对传统分类方法提出了一些改进。设计了SVM文本分类器，利用语料库对文本分类器进行训练，建立了文本分类模型。对文本数据进行自动化分类，建立非结构化数据的类别索引。其次，将全文检索技术应用到归档系统中去，研究了Lucene全文检索引擎的原理，利用它建立了归档系统的数据索引和检索模型，并根据用户习惯，建立个性化数据检索方案。Lucene对索引采取集中式管理方式，当处理海量数据产生的大索引时，性能上难以满足应用需求。因此，又利用Solr部署了分布式检索系统，搭建了分布式索引服务器，提升了系统对海量数据的处理能力。对于关系型数据库产生的结构化数据，在研究异构数据库环境差异的基础上，设计了基于XML的结构化数据归档模型，实现对结构化数据的归档和重构。　　最后，将各个功能模块进行集成，实现一个通用的海量数据归档与恢复系统。通过实验分析参数设定和不同特征选择方法对文本分类效果的影响；并对结构化数据归档方案的有效性进行验证。

关键词：数据归档;恢复系统;文本分类模型;特征选择;企业信息化建设

授予单位：南京航空航天大学

授予学位：硕士

学科专业：测试计量技术及仪器

导师姓名：万晓冬

学位年度：2013

语种：中文

分类号：TP311.13

页数：74

在线出版日期：2013-07-31（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

海量数据归档与恢复系统技术研究与实现