您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 自组织映射 >

基于自组织映射与概率神经网络的增量式学习算法

发布时间:2019-06-15 22:39 来源:未知 编辑:admin

  基于自组织映射与概率神经网络的增量式学习算法_互联网_IT/计算机_专业资料。第37卷第l期 南京理工大学学报 V01.37 No.1 兰Q!三生呈旦 !!竺竺型堕翌兰尘!!墨兰垫!!!竺!!兰』.!!堡竺兰兰竺尘三墅皇竺尘兰垒::::::::::::』至坠兰!!:!三

  第37卷第l期 南京理工大学学报 V01.37 No.1 兰Q!三生呈旦 !!竺竺型堕翌兰尘!!墨兰垫!!!竺!!兰』.!!堡竺兰兰竺尘三墅皇竺尘兰垒::::::::::::』至坠兰!!:!三一 基于自组织映射与概率神经网络的增量式学习算法 戚 溺1’2,胡 俊1,於东军1,2 (1.南京理工大学计算机科学与工程学院,江苏南京210094;2.南京理工大学常熟研究院,江苏常熟215513) 摘 要:为解决传统学习算法不能有效利用新可用数据这一不足,提出一种基于自组织映射 (SOM)和概率神经网络(PNN)的增量式学习算法——增量式模块化自组织映射概率神经网络 (IMSOMPNN)。使用模决化SOM对每类训练数据进行学习,以训练后SOM的原型向量作为此 类别的模式神经元来构建PNN。IMSOMPNN可以方便地实现对不同类型的新数据进行增量式 学习,并且在进行增量学习时,不再需要利用到原始的训练数据,仅使用新的数据对已有模型进 行局部调整;最后,IMSOMPNN还具有较强的抗噪能力。在UCI 验验证了该文所述方法的有效性。 关键词:自组织映射;概率神经网络;增量式学习;机器学习 中图分类号:TP391.41 文章编号:1005—9830(2013)01—000l一06 Landsat Satellite数据集上的实 Incremental learIling algorithm based on self-orgaIlizing map 锄d Qi (1.School probabilistic neural network Yon91’-,Hu Junl,Yu Don西unl,2 2l0094,China; of Computer Science and Engineering,NUST,Nanjing 2.Changshu Institute,NUST,Changshu 215513,China) new Abstract:To solve the defbcts of the traditional leaming algorithms that the not available data can be e日bctively utilized,a new incremental leaming method called incremental modular seⅡ. o唱anizing map pmbabilistic neuml probabilistic neural network(IMSOMPNN),based on semo唱anizing map(SOM)and are network(PNN)is veetors proposed.Samples of each class are used to train a modular SOM and the codebook of the trained SOMs used as pattem neurons for constrtlcting easily 1eam the are PNN.The proposed IMSOMPNN possesses several advantages such knowledge buried in dif珀rent types of new as:(1)it new can available data;(2)only the available data used to 收稿日期:2012—09—18 修回日期:2012—11~ll 基金项目:国家自然科学基金(61272419);江苏省自然科学基金(BI(2011371);江苏省博士后科研资助计划 (1201027c);江苏省产学研联合创新资金前瞻性联合研究项目(BY2叭2022);中国航天cALT创新基 金项目(CAmoll02) 作者简介:戚滂(1970一),男,博士,教授,主要研究方向:机器学习,智能网络,E哪ail:qyong@njust.edu.cn。 引文格式:戚滂,胡俊,於东军.基于自组织映射与概率神经网络的增量式学习算法[J].南京理工大学学报,2013, 37(1):l一6. 投稿网址:http://njlgd)()【b.paperonce.org 万方数据 2 南京理工大学学报 update the tI.ained model,and tlle original data do 第37卷第l期 proposed IMSOMPNN has good UCI Landsat Satellite dataset not need;(3)the on pe而珊aJlce eVen on noisy data. Experimental results the demonstrate the e£E宅ctiveness of the proposed method. Key words:se擤。唱anizing m印;probabilistic neuml network;incrementalleaming;machine le踟ing 传统的机器学习算法通常基于静态的数据集来 构造决策模型,不能有效利用蕴含在新的可用数据 中的知识。当有新的可用数据时,传统的学习算法 不得不重新训练整个决策模型,导致计算复杂度高 并且效率低下。增量式学习技术是有效解决该问题 的途径,近年来日益得到学术界与工业界的重视【1]。 一般新的可用数据分为两大类悼J:一种是决策 模型已知类标的新数据;另一种是决策模型未知类 标的新类别数据,具有增量学习能力的决策模型应 该能够有效处理这两种类型的新数据。至于增量式 特性"蔼j。例如,使用聚类方法(尽means,fuzzy meaJls c. clustering)拉。对训练数据进行聚类,然后使 用聚类中心代替原始数据构建PNN。然而,此类方 法的缺陷是需要事先设定聚类中心的个数,受主观 性影响较大。最近,本文作者曾使用SOM对训练 数据进行学习,然后使用训练好的SOM的原型向 量构建PNN(sOMPNN),这样得到的PNN结构紧 致,显著降低了PNN计算的复杂度和存储空间需 求,并在蛋白质跨膜螺旋预测问题上得到了成功应 用旧1。虽然s0MPNN能够有效解决传统PNN的 一些问题,但是还不具备增量学习的能力。在本文 学习本身,又可以分为两个不同的层次:特征级增量 式学习和决策级增量学习。分类/预测问题中一个 关键的步骤是抽取有效的鉴别特征。很多传统的特 征抽取方法,例如主分量分析(蹦ncipal coⅡ印nent aJlalysis,PCA)、线性鉴别分析(unear discdIIlinaJlt 中,使用模块化技术,为自组织映射概率神经网络 (SOMPNN)配备增量式学习能力,将其推广为增量 式模块化自组织映射概率神经网络(Incremental modular SOMPNN.IMSOMPNN)。 analysis,Ⅱ)A)等均是由—个静态的数据集构建特征 抽取模型。当有新的可用数据时,必须重新从头开 始训练特征抽取模型。特征级增量式学习旨在利用 1 PNN 新的可用数据来更新原有的特征抽取模型,而无需 重新训练。例如经典的主分量分析和线性鉴别分析 已经分别被研究人员推广为具有增量学习能力的特 征抽取模型,即增量式主分量分析(Incremental PCA)旧1和增量式线性鉴别分析(Incremental PNN源自Specht提出的基于P淝en窗的概 率密度估计器K 3。设瓦={工叫,工础,…,工蚶。} 为类别m的训练数据集,其中Js。为x。中样本的 个数。那么,可用式(1)来对类别m的概率密度 函数进行估计 LDA)H]。在观A和IulA中新的数据可以增量的 形式更新已有的特征抽取模型。与特征级增量学习 .^(戈):——}. (2叮r)丁crdS。 使用新数据更新特征抽取模型不同,决策级增量学 习直接利用新数据来更新决策模型。 本文重点研究决策级增量式学习,提出一种基 于自组织映射(SeⅡ-o孵血zing map,SOM)”。和概率 神经网络(Pmbabilistic neural 式中:d为训练样本的维数,矿为平滑因子,可使 用式(2)进行估计 network,PNN)∞1的 增量式学习算法。作为一种非参数方法,PNN本 身非常简明并且在很多分类问题上表现出色。然 而,PNN存在的一个重要不足之处是在决策阶段 需要用到所有的训练样本,因而不可避免地会导致 存储空间大,计算效率低下。事实上,在很多实际 问题中,新的可用数据会不断产生,上述问题就会 进一步恶化。很多研究人员已经采取不同的方法 来降低传统PNN的计算复杂度,同时保持其优秀 盯:击耋萼善鼎㈤ m 4=arg ∑bp(-堕掣 ma)【{p。以(工)}::!:。 在预测/分类阶段,当式(3)成立时,新样本工 (3) 被分类到类别m’ 式中:p。为类别m的先验概率,肘为总的类别数。 PNN的优点是无需学习,直接利用所有的样 本进行分类预测。然而,正是由于该性质,当原始 训练样本多时会导致决策时间过长,耗费存储空 万方数据 总第188期 戚滂胡俊於东军基于自组织映射与概率神经网络的增量式学习算法 3 间太大,极大地限制了PNN在大规模实际问题中 的应用。 弓=吉∑:。‘ (4) 式中:z,∈巧,1≤p≤■。 2 SOM Kohonen等提出的SOM具有自适应学习数 据分布特性的能力怕J,能够在输出空间中保留输 人模式的拓扑结构关系。sOM通常由两层组成, 一是输入层,另一是输出层。输出层由若干输出 节点组成网格结构(一维或是二维)。输人层节 点与输出层节点全互联,通过竞争机制完成SOM 的学习。学习后的SOM能保证相似的输入得到 的输出亦相似。假设SOM的输入节点个数为d (对应于模式的输入维数),输出神经元的个数为 3 吣Ⅲ,=糌 (3)更新原型向量 ㈣ 重复上述3个步骤,直到满足训练结束条件‘5l。 n压SOM吧NN 图1给出了所提出的具有增量学习能力的 IMSOMPNN系统结构图。在IMSOMPNN中,使用 了多SOM策略,也就是说为每一类的数据训练一 个SOM;然后每一类SOM的原型向量作为该类的 模式神经元用于后续构建PNN。使用此种模块化 的多SOM策略,可方便地实现对两种不同类型新 数据的增量式学习,而无需对整个模型重新训练。 首先,对于模型已知类别的新数据,只需要将 对应类别的sOM进行局部的调整学习,其他的 SOM模块无需做调整。 其次,对于新类别的数据,则新独立训练一个 的SOM,然后将它的原型向量加入到PNN即可。 最后,IMSOMPNN具有较强的抗噪能力,该 能力受益于SOM的去噪能力以及系统模块化的 结构。 抽取的模式神经元 类别l的 原型向量 K,表示为{忌}£,。每个输出神经元有一个d维的 原型向量(w。∈尺4)和d个输入神经元连接。 SOM可以使用序列学习算法或是批量学习 算法来进行训练。当训练数据集规模较大时,优 先选用批量学习算法。简述如下[9】: (1)将训练数据集中的所有样本依据SOM 的原型向量集{w。}£,划分为相应的Vomnoi区域 {K}£。。也就是说,如果z∈{菇i}竺,的最佳匹配 单元是输出神经元||},那么,样本工被划分到 Vomnoi区域圪。 (2)设n,为被划分到Voronoi区域K中的样 本个数,计算这些样本的均值如式(4)所示 『 类别2的 原型向量 PNN 刊鲎丝 一:局部学习 囵蜀 ,’————————、,,—————————、 l新类另忧的l…一.I 训练数据 类别M的 原型向量 j初始学习阶段 ——一———————————— j增量学习阶段 圃…?圊一器~圈 、—————————/、———————————/L^√、~—— 训练数据 原型向量 图1 类别朋々 【一^——印一一-J Xi℃p 类别朋g } IMSOMPNN系统结构图 万方数据 4 南京理工大学学报 第37卷第1期 下面,用3个部分来描述IMSOMPNN的学习 过程。 (2)已知类别的新数据 记如6ez(x””)为集合x””中样本的类标,并 且Z06ef(x””)在已经训练好的PNN模型中已经 (1)初始模型的学习 设x=置u鼍u…矗…u%为初始训练集, 其中X。为类别m的训练数据集。首先,使用每 存在,不妨记为如捌(r“)=m。 下面,使用新数据x””来对第m个SOM进行 增量式学习: 个x。训练一个SOM,表示为S伽。。用心表示 S伽。中原型向量的个数,c。.。表示第后个输出节 点对应的原型向量,1≤忌≤K。,(c¨,X。)表示 训练样本集x。中被映射到输出节点c础的样本 个数 r“u{c础}罂,组合新的训练集来训练一个新 的SOM,并替换原有的第m个SOM。训练得到的 新soM的原型向量集记为{c二∥}缝,,其中群是原 型向量的个数。 ,(c。,^,x。)=l{工Iz∈x。,BMu(工)=c。.^}I(6) 式中:BMU表示Best Matching unit,含义是最佳 匹配单元。 需要注意的是,这磁个原型向量的重要性需 按照式(12)进行更新 p’(c:∥)=J『(c:.¨x””)+ 卢‘ Js伽。第后个原型向量的重要程度用式(7) 来度量 p(c¨)=,(c。"X。) (7) ∑ I≤☆≤xm?BMu(cm.t)2c孟.^’ p(c蚶) (12) 其中0邻<1为继承因子。 (3)新类别的数据 记f口6以(X””)=m””,若m“”在已经训练好的 PNN模型中没有出现过,则使用X””创建一个新 的SOM,并将此新sOM的原型向量作为类别m一 的模式神经元,加入到已有的模型,用于构 使用s伽。中的原型向量,而不是瓦中的训 练样本来估计类别m的概率密度函数 牟M(工)=——}_? (21T)丁盯“如 一步描述为 露M(咖赢‘ Km 再结合每个原型向量的重要程度,式(8)进 ∑知p(-坚掣) (8) 建PNN。 4实验结果与分析 本文使用UCI机器学习库中Stadog(Landsat Satellite)数据集。该数据集共有36个属性,6个 类别,6 435个样本,其中4 435个是训练样本, 2 ∑知蚶叫一坚掣)(9) (10) (11) 式中:叫叫=p(c。.^)/∑p(c叫)为s伽。中第后 个原型向量的权重。 最终的PNN可以统一表示为如下形式 000个为测试样本。 己知类别的新数据的增量学习性能 4.1 将训练样本随机分为10份,首先使用1份构 建初始的PNN,并使用测试样本测试模型的性 能。然后逐步将剩余的9份训练样本用于增量式 学习,并在每一步中使用测试样本进行测试,以验 证其增量学习能力。上述实验重复10次。图2 给出了PNN,SOMPNN和本文方法IMSOMPNN的 性能对比图。 从图2(a)可以发现,随着学习样本的不断增 尸.ⅣⅣ={(p。舞M(x))}::。 式中:肘为类别总数,p。为第m类的先验概率。 在决策阶段,新样本工按照式(11),被分类 到类别m+: m’=a唱max{p。弗M(工)}::。 设初始的PNN训练完毕后,又有新数据x”” 到达。不失一般性,假设x”。中的数据持有相同 的类标,即属于同一类别(当X””中包含不同类别 的数据时,总可以将其划分为若干不相交的子集, 使得每个子集中的数据属于同一类别)。 下面分2种情况来考察如何进行增量式 学习。 多,PNN的模式神经元快速增长,原因是PNN会 将每个训练样本当作模式神经元,而SOMPNN和 IMSOMPNN是从训练样本中使用SOM技术抽取 典型样本,因而增长的速度较慢。模式神经元个 数的多少,会直接影响预测时间,如图2(c)所示。 可以看出SOMPNN和IMSOMPNN的预测时间显 万方数据 总第188期 戚溺胡俊於东军基于自组织映射与概率神经网络的增量式学习算法 5 著地低于PNN。 到时,需要将新数据和原来的数据合并起来,重新 训练sOM;而IMSOMPNN在新数据到达时,只需 要使用其来更新相关的个别sOM,因而降低了训 练时间。 再从训练时间上来看,IMSOMPNN是优于 SOMPNN的,如图2(b)所示。其根本原因在于, SOMPNN不具备增量学习能力,每当有新数据达 籁 1鼍 骶 蹙 《 型 I』』.』.』l n且. I- |- lIjlI 茹㈣ 一?一SOMPNN ◆IMSOMPNN 羹◆ 菇㈨ 零0.85卜 蕃}h b h h h hh h hh 茹㈦ 讲 瑙 蜒o.80} m 4 6 O 燎㈣ 图2增量学习性能对比图 IM:so^删的预测精度都在不断增加。这表明当学 习样本增加时,可用知识增多,确实有助于提高模型 最后,从学习精度上来看,如图2(d)所示,可以 发现随着学习样本的不断增加,PNN、SOⅧ’NN以及 其他类别已经训练好的模块。当问题类别数增多 时,必然会增加分类的难度。表1中预测精度的 变化反映了这一现象。不可否认的是,随着类别 数的增多,IMsOMPNN依旧取得了令人满意的预 测精度。 表l n缁0】ⅦPNN在UCI L蛆dsat Satemte 的预测精度。此外,IMSoh删在开始时,精度低于 PNN,但是随着样本的增多,IMsOh删的精度一致 性地高于PNN,表明IMSo^删可以更有效地利用 新样本中蕴含的知识。 4.2新类别数据的增量学习性能 数据集中新类别数据的增量学习 本小节验证I胀的删对新类别数据的增量 首先,使用正u疋来训练一个初始的 学习能力。用I和巨分别表示第i类(1≤i≤6)的 UCI I and鞠t Satellite数据集中的训练和测试样本。 IMSOMPNN,然后使用E。u如来对模型行进行测 试;在第£步(2≤£≤5)时,将Z+。提交至 IMSOMPNN进行增量学习,然后使用E。u易u… uE川测试模型。表1给出了增量学习的每一步 中,模型分类性能的变化。 由于IMSOMPNN使用了模块化的技术,因此 可以方便地加入新类别的数据,而不需要影响到 4.3容噪性能 在数据集的样本中加入均值为零不同方差 (从0.01至0.05)的高斯白噪声来验证所提出的 IMSOMPNN的容噪能力。在给定噪声强度下,实 验重复十次,并计算均值。表2给出了在不同噪 声强度下不同模型预测精度的均值和方差。 万方数据 6 南京理工大学学报 表2模型在不同噪声强度下的预测精度 方法 噪声方差 0.0l 0.02 0.03 0.04 第37卷第1期 0.05 从表2可以看出,SOMPNN以及IMSOMPNN 的容噪能力明显优于PNN。并且IMSOMPNN优于 [3] 2012,16(4):回l瑚9. Huang D,Yi z,Pu x R.A to new incremental PcA leanling and SOMPNN。由于PNN将每个带噪样本作为模式 神经元,因而最终的模型受噪声影响较大;而 SOM具有自适应去噪能力,而SOMPNN和 8lg矗thm Wit}l application visual reco伊ition[J].Neural (3):171—185 Processing I烈ters,2009,30 IMSOMPNN使用训练后的SOM的原型向量作为 模式神经元,因而具有较强的容噪性能。 [4] zhao H,Yuen P for f{lce C.Incremental linear discriminant Syst M蚰 analysis reco伊ition[J].IEEE Tr龃s Cybem B Cybem,2008,38(1):210—221. [5] Kohonen of T.ne se璩oEganizing map[J].Pmceedings 5 结论 [6] IEEE,1990,78(1):1461—1480. D F.Pmbabilistic neural networks and t}le for Specht 本文提出了一种基于自组织映射的具有增量 学习能力的概率神经网络模型。该模型充分利用 了SOM的自适应学习能力,可以构建更为紧凑的 PNN,并具有较强的容噪性能。此外,采用模块化 结构,可以方便地实现对不同类型新数据的增量 式学习。在UCI Landsat polynomial Adaline髂complementary techniques IEEE classification[J]. T啪sactions on Neural Networks,1990,1(1):111—121. [7] Ma F,wang w P,TsaIlg w w,et a1.Probabilistic se分 nlentation 0f volume data for visualization using SOM— PNN classiner[A].Pr0Hceedings 0n of tlle 1998 IEEE Nonh Satellite数据集上的实验 Symposium Volume Visualization[c]. 结果验证了所述方法的有效性。 参考文献: [1] He H B,Chen S,b K,et a1.Ineremental kaming f南m Camlina,United S协tes:ACM,1998:12l~130. [8] Yu D J,shen H B,Yang J Y.s0MPNN:An emcient non-par锄etric stre锄 [2] data model for predicting tmIlsmembme helices[J].AlIlino Acids,2012,42(6):2195—2205. [9] 於东军,谌贻华,于海瑛.融合SOM与w锄g-Mendel 方法的模糊规则提取[J].南京理工大学学报, 2011,36(6):759—763. Yu [J]. IEEE T砌sactions on Neural Networks,2011,22(12):1901一1914. WaIlg Z L,Ji蚰g M,Hu Y H,et a1.An increfr砖ntal l洲ng a11d InetIlod based fIIzzy llsiIlg on pmbabilistic fbr ne蒯networks human activity Do鲥un,Chen of Yihua,Yu Haiying.Fuzz),mle adjllstabIe by cluster!ing extraction by fusing SOM锄d W明g?Mendel method rec倒tion we锄ble嘲lsors[J].IEEE [J].JoIlmal Nanjing university 0f science and naIlsactio璐on I血髓碹tion 7I&hnology in Bio艇疝cine, Technology,2011,36(6):759—763. 万方数据 基于自组织映射与概率神经网络的增量式学习算法 作者: 作者单位: 刊名: 英文刊名: 年,卷(期): 戚湧, 胡俊, 於东军, Qi Yong, Hu Jun, Yu Dongjun 戚湧,於东军,Qi Yong,Yu Dongjun(南京理工大学计算机科学与工程学院,江苏南京210094;南京理工大学常熟 研究院,江苏常熟215513), 胡俊,Hu Jun(南京理工大学计算机科学与工程学院,江苏南京,210094) 南京理工大学学报(自然科学版) Journal of Nanjing University of Science and Technology 2013,37(1) 本文链接:

http://donatewale.com/zizuzhiyingshe/26.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有