10.3969/j.issn.1000-386x.2018.02.017
基于Spark的空间范围查询索引研究
由于传统的数据处理系统的数据存储与数据处理能力有限,不能满足处理大量数据的需求.为了发挥数据的价值,高效、高性能地处理大量数据集,提出基于Spark系统结合SIMBA的思路共同建立的大数据分析处理系统,基于Spark SQL的查询方式进行检索;在Spark中嵌入索引管理机制,将其封装在RDD内,用于提高查询效率;通过建立线段树存储数据的方式提高数据检索的效率.对于数据预处理时采用RangePartitioner 分区策略的方式对数据进行分区,基于全局过滤和局部索引进行查询.保证该系统在进行查询操作时能够保持高吞吐量和低延迟特性,提高查询效率.
Spark系统、大数据、范围查询、SparkSQL组件
35
TP391(计算技术、计算机技术)
安徽省高校自然科学研究重点项目KJ2015A130
2018-05-14(万方平台首次上网日期,不代表论文的发表时间)
共6页
96-101