新浪博客

子空间结构保持的多层极限学习机自编码器

2022-04-15 09:36阅读:
用本文



陈晓云, 陈媛. 子空间结构保持的多层极限学习机自编码器. 自动化学报, 2022, 48(4): 1091−1104 doi: 10.16383/j.aas.c200684
Chen Xiao-Yun, Chen Yuan. Multi-layer extreme learning machine autoencoder with subspace structure preserving. Acta Automatica Sinica, 2022, 48(4): 1091−1104 doi: 10.16383/j.aas.c200684
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200684?viewType=HTML


文章简介


关键词


多层极限学习机, 自编码器, 子空间学习, 降维





处理高维复杂数据的聚类问题, 通常需先降维后聚类, 但常用的降维方法未考虑数据的同类聚集性和样本间相关关系, 难以保证降维方法与聚类算法相匹配, 从而导致聚类信息损失. 非线性无监督降维方法极限学习机自编码器(Extreme learning machine, ELM-AE)因其学习速度快、泛化性能好, 近年来被广泛应用于降维及去噪. 为使高维数据投影至低维空间后仍能保持原有子空间结构, 提出基于子空间结构保持的多层极限学习机自编码器降维方法(Multilayer extreme learning machine autoencoder based on subspace structure preserving, ML-SELM-AE). 该方法在保持聚类样本多子空间结构的同时, 利用多层极限学习机自编码器捕获样本集的深层特征. 实验结果表明, 该方法在UCI数据、脑电数据和基因表达谱数据上可以有效提高聚类准确率且取得较高的学习效率.





自编码器(Autoencoder, AE)是一种非线性无监督神经网络, 也是一种无监督特征提取与降维方法, 通过非线性变换将输入数据投影到潜在特征空间中. AE由编码器和解码器组成, 可将输入数据编码为有意义的压缩表示, 然后对该表示进行解码使得解码输出与原始输入相同, 即解码器输出和输入数据间的重构误差最小. 当投影的潜在特征空间维数低于原始空间时, AE可视为非线性主成分分析的一种表示形式. 随着深度学习的成功, 其在多个领域取得了重要突破, 而深度自编码器作为一种无监督深度神经网络被用于数据降维、图像降噪和信号处理以提取数据的深层表示特征. 例如深度子空间聚类(Deep subspace clustering, DSL-l_1)通过深度自编码器对稀疏子空间聚类进行扩展, 在深度自编码器的编码器和解码器间引入自表达层, 用反向传播算法对编码器的输出进行自表示系数矩阵的学习, 以该自表示系数矩阵作为原始样本的相似度矩阵. DSL-l_1模型是全连接卷积神经网络并使用l_1范数, 求解模型的反向传播算法时间及空间复杂度较高. 为提高计算效率, 需先执行主成分分析法对数据降维.


无监督的极限学习机自编码器(Extreme learning machine autoencoder, ELM-AE)是一种单隐层前馈神经网络, 其输入层到隐层的权值和偏置值随机给定, 学习过程只需通过优化最小二乘误差损失函数即可确定隐层到输出层的权值. 最小二乘损失函数的优化问题有解析解, 可转化为Moore-Penrose广义逆问题求解. 因此本质上相当于直接计算网络权值而无需迭代求解, 相比反向传播和迭代求解的神经网络学习方法, 学习速度快、泛化性能好, 因此本文以ELM-AE作为基础自编码器.


极限学习机自编码器与极限学习机(Extreme learning machine, ELM)类似, 主要不同之处在于ELM-AE的网络输出为输入样本的近似估计, ELM的网络输出为输入样本的类标签. 极限学习机自编码器虽然学习速度快, 但仅考虑数据全局非线性特征而未考虑面向聚类任务时数据本身固有的多子空间结构.


除极限学习机自编码器以外, 无监督极限学习机(Unsupervised extreme learning machine, US-ELM)也是一种重要的无监督ELM模型, 它采用无类别信息的流形正则项替代ELM模型中含类标签的网络误差函数, 经US-ELM投影后保持样本间的近邻关系不变. US-ELM虽考虑了样本分布的流形结构, 但其流形正则项在高维空间中易出现测度“集中现象”且未考虑不同聚簇样本间的结构差异. 在US-ELM模型基础上, 稀疏和近邻保持的极限学习机降维方法(Extreme learning machine based on sparsity and neighborhood preserving, SNP-ELM)引入全局稀疏表示及局部近邻保持模型,可以自适应地学习样本集的相似矩阵及不同簇样本集的子空间结构, 其不足之处在于需迭代求解稀疏优化问题, 运行时间较长.


综合上述分析, 本文以ELM-AE为基础自编码器, 引入最小二乘回归子空间模型(Least square regression, LSR)对编码器的输出样本进行多子空间结构约束, 提出子空间结构保持的极限学习机自编码器(Extreme learning machine autoencoder based on subspace structure preserving, SELM-AE)及其多层版本(Multilayer SELM-AE, ML-SELM-AE), 使面向聚类任务的高维数据经过ML-SELM-AE降维后仍能保持原样本数据的多子空间结构, 并可获取数据的更深层特征.


子空间结构保持的多层极限学习机自编码器
3 ML-SELM-AE网络结构


子空间结构保持的多层极限学习机自编码器
6 IRIS数据集的二维可视化


子空间结构保持的多层极限学习机自编码器
子空间结构保持的多层极限学习机自编码器
8 不同c和λ取值下的聚类准确率

作者简介

陈晓云
福州大学数学与计算机科学学院教授. 主要研究方向为数据挖掘,机器学习和模式识别. 本文通信作者.
E-mail: c_xiaoyun@fzu.edu.cn


福州大学数学与计算机科学学院硕士研究生. 主要研究方向为数据挖掘和模式识别.
E-mail: cy_inohurry@163.com


相关文章


[1] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战. 自动化学报, 2018, 44(3): 401-424. doi: 10.16383/j.aas.2018.c170153
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170153?viewType=HTML


[2] 崔琳琳, 沈冰冰, 葛志强. 基于混合变分自编码器回归模型的软测量建模方法. 自动化学报, 2022, 48(2): 398-407. doi: 10.16383/j.aas.c210035
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210035?viewType=HTML


[3] 刘国梁, 余建波. 知识堆叠降噪自编码器. 自动化学报, 2022, 48(3): 774-786. doi: 10.16383/j.aas.c190375
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190375?viewType=HTML


[4] 刘国梁, 余建波. 基于堆叠降噪自编码器的神经-符号模型及在晶圆表面缺陷识别. 自动化学报. doi: 10.16383/j.aas.c190857
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190857?viewType=HTML


[5] 张万栋, 李庆忠, 黎明, 武庆明. 基于最优误差自校正极限学习机的高频地波雷达RD谱图海面目标检测算法. 自动化学报, 2021, 47(1): 108-120. doi: 10.16383/j.aas.c180210
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180210?viewType=HTML


[6] 陈晓云, 廖梦真. 基于稀疏和近邻保持的极限学习机降维. 自动化学报, 2019, 45(2): 325-333. doi: 10.16383/j.aas.2018.c170216
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170216?viewType=HTML


[7] 许夙晖, 慕晓冬, 柴栋, 罗畅. 基于极限学习机参数迁移的域适应算法. 自动化学报, 2018, 44(2): 311-317. doi: 10.16383/j.aas.2018.c160818
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160818?viewType=HTML


[8] 朱芳来, 蔡明, 郭胜辉. 离散切换系统观测器存在性讨论及降维观测器设计. 自动化学报, 2017, 43(12): 2091-2099. doi: 10.16383/j.aas.2017.c160471
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160471?viewType=HTML


[9] 李春娜, 陈伟杰, 邵元海. 鲁棒的稀疏Lp-模主成分分析. 自动化学报, 2017, 43(1): 142-151. doi: 10.16383/j.aas.2017.c150512
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150512?viewType=HTML


[10] 齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国. 基于多特征子空间与核学习的行人再识别. 自动化学报, 2016, 42(2): 299-308. doi: 10.16383/j.aas.2016.c150344
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150344?viewType=HTML


[11] 郑思龙, 李元祥, 魏宪, 彭希帅. 基于字典学习的非线性降维方法. 自动化学报, 2016, 42(7): 1065-1076. doi: 10.16383/j.aas.2016.c150557
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150557?viewType=HTML


[12] 唐朝辉, 朱清新, 洪朝群, 祝峰. 基于自编码器及超图学习的多标签特征提取. 自动化学报, 2016, 42(7): 1014-1021. doi: 10.16383/j.aas.2016.c150736
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150736?viewType=HTML


[13] 徐嘉明, 张卫强, 杨登舟, 刘加, 夏善红. 基于流形正则化极限学习机的语种识别系统. 自动化学报, 2015, 41(9): 1680-1685. doi: 10.16383/j.aas.2015.c140916
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140916?viewType=HTML


[14] 张景祥, 王士同, 邓赵红, 蒋亦樟, 李奕. 融合异构特征的子空间迁移学习算法. 自动化学报, 2014, 40(2): 236-246. doi: 10.3724/SP.J.1004.2014.00236
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00236?viewType=HTML


[15] 闫德勤, 刘胜蓝, 李燕燕. 一种基于稀疏嵌入分析的降维方法. 自动化学报, 2011, 37(11): 1306-1312. doi: 10.3724/SP.J.1004.2011.01306
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01306?viewType=HTML


[16] 吴秀永, 徐科, 徐金梧. 基于Gabor小波和核保局投影算法的表面缺陷自动识别方法. 自动化学报, 2010, 36(3): 438-4

我的更多文章

下载客户端阅读体验更佳

APP专享