学位专题

目录>
<

接收机工作特性曲线与变点检测问题研究

王彦光
广东工业大学
引用
变点检测即检测随机过程中数据分布或者趋势发生改变的时刻。它起源二战以后工业生产中的质量控制。经过70多年的发展,伴随着全面信息时代的来临,大数据越来越受到重视的今天,变点检测作为一种重要的数据分析方法和工具,在理论和应用实践方面都取得了长足进展。它被广泛应用在经济金融、医疗诊断、环境气候、信号检测、基因组数据分析和模式识别等领域。而源自信号检测的接收机工作特性曲线(ROC曲线),是用来刻画信号检测特异度和灵敏度变化的一项综合指标。由于ROC曲线良好的统计特性,数学意义清晰,ROC曲线被广泛应用到医学诊断、生物信息分析、模式识别等领域。本文正是基于ROC曲线良好的性能,通过研究ROC曲线下面积(AUC)的统计特性,提出一些解决变点检测问题方法。  截止目前,变点检测问题虽然得到了广泛的研究。但是,面对海量信息时代的应用场景,其依然要面临以下几个问题的挑战:1)面对纷繁的数据类型,各种各样分布形式的数据,过多的参数假设越来越不现实,如何能提出完全适应所有分布的自由分布算法;2)在真实应用场景中,变点的数目从来都是未知的,因此一个实用的算法必须能够较为准确的给出变点的数量。3)在保证1)和2)的前提下,如何提高变点的准确性。对于离线变点检测,就是检测到的变点位置尽可能的接近真实位置;对于在线变点检测来说,就是尽可能低的延迟。本质上这三个问题是从三个角度反映变点检测算法的鲁棒性问题。本文首先从二分类问题引出ROC曲线的定义,并总结ROC构建基本方法,再介绍ROC曲线分析方法,从中引出AUC概念,并对AUC的基本统计特性进行了详细介绍。之后,为提高变点检测算法的鲁棒性提出以下一些解决方法:  1)针对真实应用场景,提出均值变点检测问题的基本模型。即无论是离线变点检测还是在线变点检测,均不假设数据模型的具体分布。此外,在离线场景下,也不假设变点的具体数目。  2)利用AUC统计量的渐近分布,提出一种基于双滑窗的离线多变点检测算法。该方法通过两个相邻的滑动窗口对可能存在变点的信号进行逐点滑动搜索,在滑动过程中同时利用两个窗口内的数据计算AUC统计量,然后根据AUC渐近正态分布的特性设置阈值,对每个点进行检验判断,将超过阈值的数据点构成的局部区间的极值作为变点位置的初步估计,并统计每个区间的数据长度K。为了减少虚警错误,提出用零假设和备择假设情况下K值分布的差异,对K值设置一个阈值,如果初步估计的变点所在区间长度低于这个阈值,则将该变点判定为虚假变点,并将其删除,不再作为变点。实验结果表明,当噪声服从非正态分布时,所提算法与对比算法相比具有一定优势。最后,将算法应用于真实基因组数据,用以验证算法应用价值的有效性。  3)推导了双滑窗搜索方法下,AUC统计量的自相关函数并证明了零假设下AUC序列的平稳性。据此,给出了AUC序列的广义极值分布,并给出了利用极值分布设置阈值的变点检测方法。在减少虚警阶段,使用了自动去除虚警变点的策略。实验结果表明与仅使用AUC统计量或者滑动平均的AUC统计量,具有明显优势;同时也好于第三章采用K阈值滤除虚警变点的方法。最后,将算法应用于真实基因组数据,表明算法具有一定的应用价值。  4)提出了一种利用多个参考窗口和一个滑动窗口计算AUC统计量的在线变点检测方法。推导了该滑窗方法下AUC统计量的统计特性,其中包括统计量的渐近一致分布以及自相关函数的表达式。利用这些统计性质推导了AUC极值分布的具体表达式,并根据此表达式给出了在线变点检测判别阈值的理论表达式。与最新的核方法scan-B算法比较,方法在均值在线变点检测方面具有一定优势。

接收机;工作特性曲线;变点检测;鲁棒性

广东工业大学

博士

控制科学与工程

徐维超

2021

中文

TN85

2021-09-24(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅