10.3964/j.issn.1000-0593(2019)03-0717-06
特征分层结合改进粒子群算法的近红外光谱特征选择方法研究
在近红外光谱数据定量建模中, 数据的高冗余和高噪严重影响了建模的稳健性和精确性, 因此提出了一种特征分层结合改进粒子群算法 (PSO) 的特征光谱选择方法.首先通过互信息度量特征的重要性得分, 并按特征的重要性降序排序, 有效避免了因采用降维方法得到主成分而引起的丢失重要信息的问题.其次, 引入了跳跃度概念, 并构造了一种特征分层的方法, 重要性程度相似的特征并入同一个特征子集, 将降序排列的特征集分割为不同的特征子集, 避免了筛选特征过程中因人为设定特征重要性得分阈值而导致的不确定性.最后, 采用收敛速度快、控制参数少的粒子群算法作为最优特征子集的优化方法, 同时对粒子群算法做了两方面改进:引入混沌模型增加种群的多样性, 提高了PSO的全局搜索能力, 避免陷入局部最优;将特征数目引入到适应度函数中, 在迭代前期通过惩罚因子调节特征数目对适应度函数的影响, 提高了算法的适应能力.将分层后的数据以特征子集为单位, 依次累加并作为改进粒子群算法的输入, 从而选择出高辨别力的特征子集.以烟碱指标为例进行了特征选择过程的描述, 实验采用尼高力公司的AntarisⅡ近红外光谱仪进行近红外光谱数据的采集, 光谱扫描范围为4 000~10 000 cm-1.首先, 利用互信息理论计算全光谱1 557个特征对待测指标定量建模的重要性得分, 得分取30次实验的均值.其次, 将所有特征按照重要性得分降序排序, 计算所有特征的跳跃度, 依据跳跃度寻找特征分层的临界点, 将特征划分到不同的特征层中, 构建了包含8个特征子集的特征集合S={S′1, S′2, S′3, S′4, S′5, S′6, S′7, S′8}.然后, 依次将特征子集S′1, {S′1, S′2}, {S′1, S′2, S′3}, …, {S′1, S′2, S′3, S′4, S′5, S′6, S′7, S′8}作为初始粒子群的候选集, 以R/ (1+RMSEP) 作为特征子集优劣的评价标准, 各自重复实验50次, 比值最大的特征子集即为最优特征子集.为验证该算法的有效性, 选取了具有代表性烟叶近红外光谱数据作为训练集和测试集, 建立了烟碱、总糖两个指标的PLS定量模型, 并分别与全光谱、分层后的特征光谱、粒子群算法选出的特征光谱进行了比较.仿真结果表明, 本算法所选特征烟碱、总糖的建模相关系数r分别为0.988 5和0.982 2, 交互验证均方差RMSECV分别为0.098 4和0.889 3, 预测均方根误差RMSEP分别为0.100 7和0.901 6, 模型准确率均明显高于其他三种方法.从所选特征数来看, 该算法所选特征数最少, 有效剔除了原特征集中的弱相关和噪声、冗余信息, 所建模型的主因子数最少, 降低了模型的复杂性, 模型更加稳健, 适应性更广.
特征选择、特征分层、跳跃度、改进粒子群算法、近红外光谱
39
O657.3(分析化学)
国家重点研发计划项目2016YFB1001103;云南中烟工业有限责任公司项目2017XX02,2018JC01
2019-06-06(万方平台首次上网日期,不代表论文的发表时间)
共6页
717-722