语义电子病历数据SPARQL查询优化机制
随着Web2.0应用和Semantic Web研究的成熟,语义电子病历信息的查询在医学科学和信息科学领域里发展成为热点问题。在研究中,学者们抽象出各种病历信息并将其存储为语义网的RDF三元组形式,但随着语义电子病历的发展,数据量呈爆炸式增长,由此引发了大数据的查询效率问题。 本文针对语义电子病历大数据的查询效率问题,设计实现了一个部署在CUDA平台上对语义电子病历数据的SPARQL(Simple Protocol and RDF Query Language,SparQL协议和RDF查询语言)查询。其主要功能是通过并行化的SPARQL连续查询来提高语义电子病历数据的查询速度。 本文使用了SPARQL并行连续查询策略(Paralleling Continuous-SPARQL)。该策略包含三个核心部分:a.利用CUDA计算的高效特征,将SPARQL的并行计算部分在CUDA平台上实现;b.为了充分利用硬件,以提高查询的效率,本文优化了SPARQL查询方法使其实现了连续查询;c.通过Java自带的JNI接口实现用Java语言编写的SPARQL查询和用C语言编写的CUDA平台库的连接。这样,通过JNI在SPARQL查询和CUDA平台之间建立通道,可以快速地传送和接收数据。本文通过将SPARQL查询和基于CUDA平台的SPARQL连续查询进行对比后的结果是:当数据量在一定的范围内时,基于CUDA平台的SPARQL连续查询比SPARQL查询效率高,且加速比呈上升趋势。
语义电子病历数据;SPARQL查询;CUDA计算;数据传输;硬件系统
武汉科技大学
硕士
计算机应用技术
朱红兵
2013
中文
R197.323;TP391
51
2013-12-31(万方平台首次上网日期,不代表论文的发表时间)