
rbf网络
-
2023年3月20日发(作者:拱墅区傅科)2006.31计算机工程与应用
1前言
随着数据融合技术在网络安全中的不断发展和应用,数据
融合中低层次上对于数据状态和数据属性的融合已经可以为
其更高层次的决策级融合提供良好的支持。目前,数据融合技
术的重点已经逐步向高层态势评估及威胁评估发展,例如Tim
bass已提出应用多传感器数据融合建立网络空间态势意识的
框架[1],上海交通大学的陈秀真博士提出的网络化系统安全态
势评估的分层分析等等[2]。
然而,作为数据融合中决策级的能够宏观反应网络运行状
况的安全态势评估,目前只是用到了贝叶斯技术和基于知识库
的方法[3]进行态势感知或是利用多重假设的方法进行态势理
解[4],但这些技术都只能提供给管理者过去和当前的网络态势
情况,无法预测下一个阶段可能的状态。而利用统计学原理使
用3DMA(threeDayMovingAverage)方法[5]进行的网络事件预
警只能够对事件进行预测,且预测信息模糊,无法减轻网络管
理者进行决策的数据压力。这就使得作为辅助管理者进行决策
的数据融合技术仍然处于被动防御的阶段。
为了使网络的安全管理从被动变为主动,通过对网络安全
态势预测,网络管理者可以判断网络安全所处状态的趋势,更
好地理解网络状态及其所受攻击的状态。使得在网络遭受攻击
和损失之前,网络管理者能及时采取防御措施,加强网络安全
设备的安全策略,更改网络安全监管的安全规则,真正达到敌
欲动、我先动的主动防卫目的。
本文利用网络安全态势值具有非线性时间序列的特点,借
助神经网络处理混沌、非线性数据的优势,提出一种基于RBF
神经网络进行态势预测的方法。该方法通过训练RBF神经网
络找出态势值的前N个数据和随后M个数据的非线性映射关
系,进而利用该关系进行态势值预测。本文最后将利用该方法
对从HoneyNet[5]上收集的由snort入侵检测系统扫描获得的
数据进行预测仿真,并对其预测的网络安全态势结果进行预测
误差分析和针对性的网络态势分析,从而说明该网络安全态势
预测方法的效果及意义。
2网络安全态势预测相关概念
“态势”的概念最早来源于军事,通常用于说明一个较大范
围的、内部结构比较复杂、受多因素影响的被研究对象的状态
综合表现,最典型的如战场态势。大型网络同样具有上述特点,
因此,在分析网络安全中引入“态势”的概念,目的是希望建立
一套可行的网络安全态势体系,对大型网络的整体状况有一个
全面、直观、快速的了解。
网络安全态势值的计算和网络安全态势评估组成了网络
安全态势技术的整体。它们协同工作,通过安全态势值给管理
作者简介:任伟(1982-),硕士研究生,主要研究方向为网络信息安全,网络安全态势评估,数据融合;蒋兴浩(1976-),男,博士,上海市信息安全综
合管理技术研究重点实验室副主任,上海交通大学信息安全与电子政务工程技术研究中心主任,主要研究方向为计算机通信网、无线
网络安全、网络安全管理与监控理论及应用、信任授权体系及访问控制技术等;孙锬锋(1975-),男,博士,讲师,主要研究方向为信息安
全新技术,信息隐藏与数字水印技术,电子政务安全技术,信号处理技术,以及图像处理技术。
基于RBF神经网络的网络安全态势预测方法
任伟,蒋兴浩,孙锬锋
(上海交通大学信息安全工程学院,上海
200030)
E-mail:renwei_nana@sohu.com
摘要:针对现有网络安全技术不能对网络未来安全态势进行预测的问题,利用网络安全态势值具有非线性时间序列的
特点,借助神经网络处理混沌、非线性数据的优势,提出了一种基于RBF神经网络进行态势预测的方法。该方法通过训
练RBF神经网络找出态势值的前N个数据和随后M个数据的非线性映射关系,进而利用该关系进行态势值预测。通过
实验测试表明,该方法能够准确获得态势值预测结果,辅助网络管理者做出安全防护的决策。
关键词:网络安全态势评估;态势值预测;RBF神经网络;数据融合
文章编号:1002-8331(2006)31-0136-03文献标识码:A中图分类号:TP18;TP393.08
RBFNN-basedPredictionofNetworksSecuritySituation
RENWei,JIANGXing-hao,SUNTan-feng
(SchoolofInformationSecurityEngineering,ShanghaiJiaotongUniversity,Shanghai200030,China)
Abstract:Aimingattheproblemthatthecurrentnetworksecuritytechniquescannotpredictthenetworkssecurity
situation,thispaperpresentsamethodbasedonRBFneuralnetworkstopredictthenetworkssecuritysituationviaa
quantifiedvalue,whichhasthefeatureoftimeserialandnonlinear.Usingthismethod,wecantraintheRBFneural
networksandfindoutthenonlinearrelationsamongsituationalvalues,topredictnetworkssecuritysituation.Experiment
resultsshowthatthismethodcanachieveperfectprediction,helpingadministratortomakeaproperdecisiontoprotect
thenetwork.
Keywords:networkssecuritysituationassessment;predictionofsituationalvalue;RBFneuralnetworks;datafusion
136
计算机工程与应用2006.31
N个输入
x
1
,…,x
N
x
2
,…,x
N+1
…
x
K
,…,x
N+K-1
M个输出
x
N+1
,…,x
N+M
x
N+2
,…,x
N+M+1
…
x
N+K
,…,x
N+M+K-1
表1数据的划分方法
员产生威胁信息,然后管理员参考相应的网络安全态势评估的
结果,了解到具体可能发生的威胁,找到对应的解决方法。上海
交通大学信息安全工程学院受国家863计划“网络安全态势综
合处理系统”资助的项目中对网络安全态势的定义如下:
(1)网络安全态势评估:安全态势是网络运行状况的宏观
反映,而评估是建立在其基础之上的一种定性的分析。态势评
估的目的是帮助决策者更快更好地形成态势感知,用以缓解他
们的认知压力。态势评估包括三个阶段:态势觉察、态势理解、
态势预测,如图1所示。
(2)网络安全态势值:通过一系列数学方法处理,将海量的
网络安全信息归并融合成一组或者几组有意义的数值。这些数
值具有表现网络运行状况的特性,随着网络安全事件发生的频
率、数量,以及网络受威胁程度的不同,该数值的大小会随之产
生特征性的变化。网络安全态势值计算方法如图2所示。
本文网络安全态势预测方法中用到的RBF神经网络定义
如下:
径向基函数(RadialBasisFunction,RBF)神经网络:是基
于人脑的神经元细胞对外界反应的局部性而提出的,是一种新
颖而有效的三层前馈式神经网络,其具有最佳逼近性能和全局
最优的特性,能够以任意精度逼近任意连续函数[6]。
3基于RBF神经网络的网络安全态势预测
3.1预测原理
根据网络攻击的过程化以及安全设备产生告警的非线性
时序化[7],由各类告警加权得到的具有表现网络运行状况特性
的网络安全态势值x可以抽象为时间序列t的函数,即:x=
f(t),此态势值具有非线性的特点。由此,网络安全态势值可以
看作一个时间序列进行处理,因此假定有网络安全态势值的时
间序列x={x
i
|x
i
∈R,i=1,2,…,L},现在希望通过序列的前N个
时刻的态势值,预测出以后的M个态势值。
由于RBF神经网络是通过非线性基函数的线性组合实现
从输入空间
RN到输出空间RM的非线性转换。而通过上面的分
析,网络安全态势值是一类非线性较强的时间序列,对它们进
行预测,即从前N个数据中预测将来的M个数据,实质上就是
找出
RN到RM的非线性映射关系。利用RBF神经网络对网络
安全态势进行预测框架如图1所示。
本文采用时间序列x的前N个时刻的数据为滑动窗口,
并将其映射为M个值。这M个值代表在该窗口之后的M个时
刻的预测值。如表1所示,列出了数据的划分方法。该表把数据
分为K个长度为N+M的、有一定重叠的数据段,每一个数据
段可以看作一个样本,这样就可得到K=L-(N+M)+1个样本。
这样一来,就可以将每个样本的前N个值作为RBF神经网络
的输入,后M个值为目标输出。通过神经网络学习、训练,实现
从输入空间R
N
到输出空间R
M
的映射,从而达到时间序列预测
的目的。
3.2预测框架中RBF神经网络结构及计算
在图1中态势预测的RBF神经网络是由输入层、径向基
层(隐含层)和输出层构成的三层前向网络,如图3所示。其中,
输入为n维向量X,它是包含n个态势值元素的态势输入向
量,输出为m维向量Y,它是包含m个态势值元素的态势输出
向量,输入/输出样本对数量为K。
RBF神经网络隐含层第个节点的输出为
q
i
=R(‖X-c
i
‖)(1)
其中,X为n维输入向量;c
i
为第i个隐节点的中心,i=1,2,…,h,
h的大小(隐节点的个数)由RBF神经网络学习训练得到。R(·)
为RBF函数,本文采用R(n)=exp(-n)
2
。
网络输出层第k个节点的输出为隐节点输出的线性组合:
y
k
=
i
#w
ki
q
i
-
!
k
(2)
其中,w
ki
为q
i
→y
k
的连接权,由RBF神经网络训练得到;
!
k
为
第k个输出节点的阈值。
RBF神经网络的训练学习算法如下:
设有p组输入/输出样本x
p
/d
p
,p=1,2,…,L,定义目标函数:
J=
1
2
#‖d
p
-y
p
‖2=
1
2
p
&
k
&(d
kp
-y
kp
)2(3)
学习的目的是使
J≤
"
;式(3)中,y
p
是在x
p
输入下网络的
输出向量。
RBF神经网络的训练学习算法包括以下两个不同的
阶段:
阶段1隐含层径向基函数的中心确定阶段。本文采用k-
均值聚类算法,算法步骤如下:
(1)初始化。给定各隐节点的初始中心c
i
(0)。
(2)相似匹配。计算距离(欧氏空间)并求出最小距离的节点:
d
i
(t)=‖x(t)-c
i
(t-1)‖1≤i≤h(4)
d
min
(t)=mind
i
(t)=d
r
(t)(5)
137
2006.31计算机工程与应用
实际值
预测值
绝对误差
0.2400
0.2066
0.0334
0.0800
0.0966
-0.0166
0.2000
0.2228
-0.0228
0.1300
0.0950
0.0350
0.0100
0.0204
-0.0104
0.1300
0.1493
-0.0193
0.1300
0.1150
0.0150
表2预测绝对误差数据
(3)调整中心。
c
i
(t)=c
i
(t-1)1≤i≤h,i≠r(6)
c
r
(t)=c
r
(t-1)+
!
(x(t)-c
r
(t-1))i=r(7)
其中,
!
是学习速率,0<
!
<1。
(4)继续。将t值加1,回到第2步,重复上述过程,直到中
心c
r
的改变量很小时为止。
阶段2径向基函数权值学习调整阶段。采用最小二乘递
推法RLS(不失一般性,讨论单输出的情况),算法结果如下:
W
P
(t)=W
P
(t-1)+K(t)[d
p
-q
p
T
(t)W
P
(t-1)](8)
K(t)=P(t-1)q
p
(t)[q
p
T
(t)P(t-1)q
p
(t)+
1
!
(p)
]-1
(9)
P(t)=[I-K(t)q
p
T
(t)]P(t-1)(10)
其中,q
p
(t)=[q
1p
(t),q
2p
(t),…,q
hp
(t)]
T
,h是隐节点数。
!
(p)是
加权因子。若第p个样本比第p-k(p>k,k>1)个可靠,则加权因
子要大,可取:
!
(p)=
"
L-P
,0<
"
<1,p=1,2,…,L,L是样本数量。
4实验仿真
4.1实验数据集与参数设置
仿真数据采用网络安全组织HoneyNet搜集的黑客攻击
数据[5](简称HoneyNet数据,具体实验环境可见文献[5])。由于
HoneyNet连到Internet上没有向外界宣布,没有诱骗黑客进
行攻击,采集的数据能反映出黑客的真正行为模式,因此采用
HoneyNet数据进行态势分析是合适的[2]。
仿真中态势值的计算直接采用对数据集中网络当天产生
告警数量的统计值为其当日态势值,这是因为网络安全态势值
是根据统计值乘以其响应权值层层计算得到,如图2,所以只
要权值设置统一,告警统计值可以表示网络安全态势值的真实
情况。
根据对该仿真数据集的网络攻击统计分析[5],对应于一次
完整的网络攻击所用的时间为t≤3(天),即:攻击周期大致为
3天。因此,RBF神经网络预测模型的参数选取如下:
(1)神经网络输入向量X维数n=3。即以3天为周期单位,
对网络进行预测;
(2)神经网络输出向量Y维数m=1。即根据神经网络输入
向量,预测未来一天态势值;
(3)神经网络训练样本数量k=90。由于过多的训练样本将
影响近期的网络态势值特点;同时,训练样本过少,得到的网络
预测误差过大。所以,取90为训练样本数量,同时选取一定数
量的样本作为测试样本。如图4所示为HoneyNet数据2000
年7月10日到2000年10月7日的网络安全态势值的归一化
值,归一化算式采用公式
x
!
=
x-x
min
x
max
-x
min
(11)
4.2预测结果分析
利用训练好的RBF神经网络对该HoneyNet数据中的
2000年10月9日到2000年10月15日进行为期一周的网络
安全态势值预测,预测结果如图5所示。分析得到如下结果:
(1)从RBF神经网络的设计角度分析预测结果
根据表2的预测绝对误差数据,该预测结果平均绝对误差
MAE=
1
n
n
i=1
#x
i
-y
i
的值为0.0217,正确趋势率PCD=i
#pcd
i
N
,
其中pcd
i
=
1,(x
i+1
-x
i
)(y
i+1
-y
i
)>0
0,(x
i+1
-x
i
)(y
i+1
-y
i
)≤
$
0
的值为0.857。
通过对图
5和表2的观察,可以清楚地看到利用RBF神
经网络对网络安全态势值的预测有很高的精确度,态势值的变
化趋势很好地反应在图5上,与实际数据的大小和变化趋势基
本吻合。
(2)从网络管理者的角度分析预测结果
可以分析得到虽然在第2天与第5天网络安全态势值比
较低,但是通过预测,其后的一天(即第3天以及第6天)网络
态势值将有变高的趋势,这将提醒网络管理者要堤防网络攻击
的发生。同时,根据第4天及第5天的态势预测变化趋势来看,
很有可能是一次网络攻击的收尾阶段,这将使网络管理者可以
特别留意随后这两天的网络行为日志,确保其不被网络攻击者
删除或破坏。另一点,对于第6及第7天的预测,说明网络攻击
仍有继续进行的趋势,说明网络系统可能存在某些漏洞,网络
管理者应该立即进行防护,避免网络攻击的持续进行。
5结语
本文针对现有网络安全技术只能提供网络过去和当前状
态,而不能对网络未来安全态势进行预测的问题,提出通过训
练RBF神经网络找出网络安全态势值的前N个数据和随后M
个数据的非线性映射关系,进而利用该关系进行态势值预测的
方法。实验仿真得到的预测结果说明RBF神经网络对于态势
值有很好的预测效果,预测绝对误差小,预测正确趋势率较高,
预测结果可以用来进行态势分析。同时,预测结果可以帮助网
络管理员对网络安全进行深入分析,辅助其做出更好的网络安
全防范决策。
对于网络安全态势预测的下一阶段工作将集中于以下几
个方面:
(1)网络安全态势值计算中权值设定的统一化、标准化;
(2)该网络安全态势预测方法中M、N值的设定;
(下转144页)
138
2006.31计算机工程与应用
(上接138页)
(
3)预测结果分析的方法研究。(收稿日期:2006年8月)
参考文献:
[1]BASST.Intrusiondetectionsystems&multisensordatafusion:creat-
ingcyberspacesituationalawareness[J].CommunicationsoftheACM,
2000,43:99-105.
[2]
陈秀真.网络化系统安全态势评估的研究[J].西安交通大学学报,
2004,38:404-408.
[3]HINMANML.Somecomputationalapproachesforsituationassess-
mentandimpactassessment[C]//Proceedingsofthe5thInternational
ConferenceonInformationFusion
,2002,1:687-693.
[4]LYTC.Multiplehypothesessituationassessment[C]//Proceedingsof
the6thInternationalConferenceonInformationFusion,2004:
972-978.
[5]Honeynetproject,knowyourenemy:statistics[EB/OL].2001-07-22.
http://www.HoneyNet.org/papers/stats/.
[6]HAYKINS.Neuralnetworks:acomprehensivefoundation[M].2nd
edition.NewYork:PrenticeHall,1998:183-221.
[7]诸葛建伟.基于面向对象方法的攻击知识模型[J].计算机研究与发展,
2004,41:1110-1116.
for(j=d
1i
,j≥2,j--)
N′
j
=M′
j
∩N
j
M′
j
=M′
j
-N′
j
输出N′
j
重构出路径长度为j的攻击路径
重构出攻击树
4.3性能分析
这个改进标记算法是基于前人研究成果的,是切实可行
的,写入标记和递增距离域值可以在路由器更新TTL值和IP
首部校验和时完成。因为更新TTL值和首部校验是协议必须
的操作,所以标记算法不会显著增加路由器上的开销,并且可
以很容易地在路由器上实现。
性能分析的关键在于攻击路径重构算法的可行性和开销
问题。重构算法的前提是可以获得以受害者为根的上游路由器
映射树,因为前面提到已有的工具可以完成这一目的,那么来
考虑路径重构的开销。
由于上游路由器映射树可以是预先获取或者事后获取,这
不会影响路径重构的性能。使用hash函数h和h′是所有类似
方案都必须的,如果采用与高级标记方案[7]中性能类似的hash
函数,在比较性能时也可以不考虑。这样,只需考虑受害者匹配
携带相同d
1i
标记的h′函数值与映射图第d
1i
层所有节点的开
销,为O
d
1i
∈D
$
2≤j≤d
1i
$M
j
·log
N
j&’。
收敛时间是包标记方案的一个重要指标,采取非固定标记
概率的初衷就是为了降低收敛时间,且算法的改进都是基于现
有最短收敛时间的标记方案所采取的标记概率,因此本文的收
敛时间具有与之相似的性能。
误报问题也是一个重要的性能指标,包标记方案中大多假
设路由器是可靠的,因为攻击者如果攻陷路由器,可以用于更
加隐蔽的攻击(如重定向、监听分析、篡改等)而不会用于易于
暴露的
DoS类攻击。因此,误报可能源于攻击者发送伪造标记
和距离域的攻击包。如果考虑在边界路由器强制对包标记并将
距离域置0,则对受害者而言,追踪到自治域的边界路由器就
已经可以通知路由器对攻击采取应急响应措施,在靠近攻击者
的边界路由器处过滤攻击流量,避免攻击流量占用自治域的
带宽。
5结语
本文分析评述了现有非固定概率包标记方案,并对其中部
分不合理之处提出了改进。还改进了基于攻击者到标记路由器
距离的非固定概率包标记方案,并进行了性能分析。通过非固
定标记概率的属性,确保了改进方案具有现有方案中最小的收
敛时间,并采取边界路由器强制标记的方法降低了误报的可
能,结合现有获取网络路由拓扑的工具,简化了标记过程。包标
记是今后
IP追踪的发展方向,非固定概率包标记极大地改进
了固定包标记中存在“最弱链”的问题,从而提高了
IP追踪的
性能,具有很大的发展前景。(收稿日期:2006年1月)
参考文献:
[1]SAVAGES,WETHERALLD,KARLINA,etal.Practicalnetwork
supportforIPtraceback[C]//ProcACMSIGCOMM,2000-08:295-306.
[2]FERGUSONP
,SENIED.Networkingressfiltering:defeatingdenial-
of-serviceattackswhichemployIPsourceaddressSpoofing
,RFC
2827[S].2000.
[3]TATSUYAB
,SHIGEYUKIM.Tracingnetworkattackstotheirsour-
ces[J].IEEEInternetComputing,2002,6(2):20-26.
[4]BURCHH
,CHESWICHB.Tracinganonymouspacketstotheirapp-
roximatesource[C]//UsenixLISA.NewOrleans:[s.n.],2000-12:313-321.
[5]HASSANA.IPtraceback:anewDenial-of-Servicedeterent?[J].IEEE
Security&Privacy,2003(3):24-31.
[6]BELLOVINS
,LEECHM,TAYLORT.ICMPtracebackmessages.
InternetDraft
,draft-ietf-itrace-02.txt,2001-10.
[7]SONGDX
,PERRINGA.Advancedandauthenticatedmarking
schemesforIPtraceback[C]//ProceedingsofTwentiethAnnualJoint
ConferenceonIEEEComputerandCommunicationsSocieties.Stock-
holm,Sweden:[s.n.],2001-04:878-886.
[8]THEILMANNW
,ROTHERMELK.DynamicDistanceMapsofthe
Internet[C]//Proceedingsofthe2000IEEEINFOCOMConference,
TelAviv,Israel,2000-03:275-284.
[9]PARKK,LEEH.Ontheeffectivenessofprobabilisticpacketmark-
ingforIPtracebackunderdenialofserviceattack[C]//Proceedings
ofIEEEINFOCOM’01,2001:338-347.
[10]PENGT
,LECKIEC,KOTAGIRIR.Adjustedprobabilisticpacket
markingforIPtraceback[C]//ProceedingsofthesecondIFIPNet-
workingConference(Networking2002).Pisa,Italy:[s.n.],2002-05:
697-708.
[11]FELLERW.Anintroductiontoprobabilitytheoryanditsapplica-
tions[M].2ndedition.[S.l.]:WileyandSons,1966.
[12]
李德全,徐一丁,苏璞睿,等.IP追踪中的自适应包标记[J].电子学
报,2004,32(8):1334-1337.
[13]TANENBAUMAS.Computernetworks[M].熊桂喜,王小虎,译.Third
Edition.
北京:清华大学出版社,1998:271-272.
144