人工智能在计算机网络安全中的应用——麻省理工学院与PatternEx公司AI2

发布时间：2024-01-17 作者：admin 来源：讲座

2024年1月17日发(作者：)

讲座：人工智能在计算机网络安全中的应用　人工智能在计算机网络安全中的应用　——麻省理工学院与ＰａｔｔｅｒｎＥｘ公司ＡＩ２系统研究　杨易熊钢王科入　摘要：近来，麻省理工学院计算机科学与人工智能实验室（ＣＳＡＩＬ）与从事机器　学习技术的新兴公司ＰａｔｔｅｒｎＥｘ联合推出“ＡＩ２（Ａｒｔｉｉｆｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ＆Ａｎａｌｙｓｔ　Ｉｎｔｕｉｔｉｏｎ）　系统。研究团队结合分析员经验、直觉与机器学习技术，构建出“人机持续交互、机器不　断学习演进”的网络攻击检测系统。系统在试验鉴定中对数以百万计的用户在３个月内生　成的３６亿条日志进行检查，成功检测到８５％的攻击事件，准确率为先前基准值的３．４１　倍，而误报率则降低８０％。文章结合系统研发背景，梳理系统组成与功能、关键技术、　试验鉴定以及领域相关研究，总结系统特点及其潜在应用。　关键词：人工智能：网络安全；攻击监测　１　引言　当前，信息安全问题的技术解决方案主要　已有研究表明，上述两种技术途径的发展　受到诸多因素限制，其中主要因素有三种：一　是许多企业和部门都缺少以往攻击事件的标记　有两类：一是分析人员驱动型（ａｎａｌｙｓｔ．ｄｒｉｖｅｎ）。　此类方案遵循计算机网络犯罪和安全专家制定　样本，降低了利用监督学习模型的能力；二是　攻击不断演进，攻击行为的不断变化致使己建　的规则，存在漏报率（ｆａｌｓｅｎｅｇａｔｉｖｅｓ）高、攻　击检测与实施预防性反制间隔长等问题。此外，　立的监督学习模型失效；三是有限的调查／审核　时间与带宽／计算资源，依靠分析人员进行攻击　调查费时费力。然而，人工智能技术地飞速发　恶意行为体可以时常摸清安全规则，设计规避　检测的新型攻击手段；二是无监督学习驱动型　（ｕｎｓｕｐｅｒｖｉｓｅｄ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ．ｄｒｉｖｅｎ）。利用　此类方案检测罕见或异常事件可提高新型攻击　检测能力，但也存在更高的误报率（ｆａｌｓｅ　９ｏｓｉｔｉｖｅｓ）和虚警率，需要大量人工审查　（ｉｎｖｅｓｔｉｇａｔｉｖｅ　ｅｆｆｏｒｔｓ）工作进行排除。大量的　盏警会引起报警疲劳（ａｌａｒｍ　ｆａｔｉｇｕｅ）与信任度　下降，并最终导致系统回归分析员驱动型方案　ｌ】　展，使得突破上述限制因素成为可能，并为信　息安全问题解决提供了新途径。　鉴于此，业界亟需将人工智能与信息安全　结合的解决方案，以达到有效利用分析人员时　间、攻击尽早发现、缩短攻击响应时间以及降　低误报率等目的。ＡＩ２系统…结合分析人员经　验、直觉与最先进的机器学习技术，提出一种　端对端的人工智能解决方案。系统学习并自动　生成模型，在有新数据输入时生成与分析人员　推论类似的预测　Ｊ。　哥任编辑：田筱　·５５·　

电信技术研究　ｒＥＬＥ（’Ｏ％１、ｌＩＪＮＩ（、Ａ＿ｌ’ＩＯ　图Ｉ　Ａ１２系统示意　２系统组成与功能　ＡＩ２系统包括：面向行为分析的大数据平　个用户进行捆绑。　此平台算法有三个阶段：训练、部署和反　馈收集／更新，并且每日进行各个阶段的周期循　台、异常值检测系统、分析人员反馈机制与监　督学习模块３部分（如图１所示）。其中，大数　环。算法的输入是实体一特征矩阵和标签化的数　据。在每天的工作流程中，该系统训练无监督　和有监督的模型，并将所训练模型应用于当天　的数据，识别出　个实体作为特别事件或者攻　击，进而将识别出的事件和对应数据提供给分　据平台量化各类实体行为／特征，从原始数据中　进行计‘算　面对大量、高速数据，该平台要求　极强的处理能力：异常值检测系统从非监督学　习获得的数据中提取特征，用于对神经网络进　析者。之后，分析者利用一个接口对识别出的　少量事件进行分类，并且挑选出可能的真正攻　ｉ亍训练，从而建立基于特征的异常检测描述模　型：分析人员反馈机制与监督学习模块通过用　户接口从分析人员处获得原始数据，显示排名　前列的异常事件或实体，要求分析人员研判其　属性是否为恶意。研判结果将反馈至监督学　］　模块。日常调查成本（七值）与反馈频率（日　或周）均由分析人员确定。系统得到分析人员　反馈后，学习新模型以预测来临事件是否为恶　意。模型随反馈数据不断更新。　击。最后，利用分析者的推理来建立新的预测　模型用于第二天的检测。　２．１．１行为特征　２．１面向行为分析的大数据平台　平台主要进行ＩＰ地址、用户或会话等实体　描述符（ｄｅｓｃｒｉｐｔｏｒｓ）的计算。实体既可独立也　可互联。例如：相同的ＩＰ地址可与两个或者多　·　６’　

讲座：人工智能在计算秽ＬＩ－］络安全中的应用　ＩｔＵｌ＇ｅ，＇，　图２基于大数据的行为特征提取描述器　每天对单用户计算提取总共２４个变量。例如：　图２显示了计算到的每个用户行为的特征。一　个平台能够实时地计算行为特征将是非常有价　值的，因为这将允许分析者可以更加动态地监　控网络应用。　算是非常困难，因为系统本身具有大容量、数　据分布式存储以及对跨历史数据的聚合等属性。　针对这些挑战，研究人员提出将特征提取操作　分为两步骤：行为跟踪和行为汇聚。　（１）行为跟踪。为了使系统能够理解平台　产生的目志流，该步骤主要是识别与每一行日　志记录关联的实体（如ＩＰ地址、用户等），并　２．１．２设计需求　对于一个可实时处理ｗｅｂ应用级行为特征　的大数据系统，其必须应该满足如下指标：（１）　每天能分析的实体行为数量大于１０８；（２）能　够按需并实时地对活动实体的行为标签进行更　新和检索，每一次对行为标签的检索能力大于　５　１０４个实体；　下一小节，本文将对所提大数据系统的关　且更新对应的行为记录。这些行为记录计算与　存储有两个基本原则：　原则一短时间窗口。在实验中，用于计算　和存储行为记录的实际窗口是１分钟。基于此，　研究人员就能计算不同时间间隔的行为特征，　例如：３０分钟、ｌ小时、ｌ　２小时、２４小时。这　键部分进行介绍，这些关键部分支撑了系统对　多数据源的预处理、实体提取、原始日志与特　征的转换以及特征的实时更新。该系统从设计　上支持水平扩展，以解决每天数十亿项的记录　日志。　为后续分析提供了灵活性。　原则二高效的设计流程。该流程用于检索　计算特征的用户数据。需要注意，基于对特征　的定义，为了对更大时间窗口的行为记录进行　汇聚，系统能够调用从简单的计数器到复杂的　数据结构的任意条件。　为了进一步详细阐述原则二，研究人员列　２．１．３从原日志到行为的实时计算　为了计算某一用户在特定时间段内的行为　特征，研究人员必须对全部相关的历史记录进　行隔离，并且收集特征定义的需求（如收集用　户在规定时间段的消费金额）。这些操作必须重　举了５类行为特征，并分析讨论了适合对每类　特征进行数据检索和聚类的结构：　·　计数、平均以及标准差这三个指标可　以从简单计数器进行推导。例如：过　去２４小时内成功登录的数量。　复地作用于全部的活动用户，图２右边分图显　示了实体与特征的关联矩阵。上述这些特征计　·　指示器（或者布尔变量）汇聚指示器　·　７·　

电信技术研究　总第４０２期　ＲＥＳＥＡＲＣＨ　ＯＮ　ＴＥＬＥＣｏＭＭｕＮＩｃＡＴＩｏＮ　ＴＥＣＨＮＯＬＯＧＹ　２０　１　８年第２期　也是明确的，并且不需要附加的数据　结构。例如：过去２４小时是否至少一　次地址认证失败。　由于研究人员设定的行为记录时间范围是　１分钟，因此研究人员能够为记录汇聚和特征　计算提供更灵活的时间间隔。但是，该策略可　·　关系特征这类特征的计算主要使用　两个实体的交叉数据。例如：用户接　入网络的ＩＰ地址的最大异常得分。为　能导致性能的下降。例如：在最坏的情况下，　为了计算２４小时窗口的特征，研究人员需要检　索并汇聚１４４０条记录（２４＊６０）。这项计算需要　了有效计算这类特征，研究人员建立　了图结构，其可以表示系统中实体之　间的关系。　·　时间行为这类特征可以捕获两个或　者多个事件占用的时间，因此其必须　按时问先后顺序进行分析。例如：从　登陆到退出的最短时间。这类特征的　计算需要所有相关事件的时间戳（如　登陆和退出），并且比较在连续事件间　的占用时间。　·　独特取值（Ｕｎｉｑｕｅ　ｖａｌｕｅｓ）由于必须　持续跟踪重复取值，这类特征不能通　过计数器计算得到。研究人员使用字　典方式来维持独特取值特征的集合。　例如：过去２４小时用户接入网站的不　同位置的数目。　（２　行为汇聚。对于一个时间段的行为特　征计算一般采取两个步骤：　步骤一对给定时间段内的行为记录进行　检索。需要注意到为了这项研究，研究人员考　虑行为描述器，其对２４小时内的行为进行聚集，　并以最后一个用户的活动时间结束。这些操作　都能够以图形化方式进行表示，作为一个２４　小时时间窗口的轮询提供特征计算。　步骤二对活动记录按分钟级进行汇聚，以　满足特征需求。聚合步骤取决于特征类型。在　计数器这样最简单的情况下，研究人员仅需要　对全部分钟级的特征取值进行相加处理。在独　立取值特征这样更复杂的情形下，需要检索超　集的独立取值，该超集由每分钟的数据集构成。　２．１．４性能考虑　对数百万的实例项进行重复操作。　为了提高检索和汇聚性能，研究人员对不　同的重叠化的时间范畴内的行为记录进行维护。　特别地，研究人员主要维护的记录有：　·　一个分钟级的数据集（以０点为开始）；　·　一个小时级的数据集（以０点为开始）；　·　一个按天计的数据集（以午夜为开始）；　●　一个按周计的数据集（以周曰午夜为开　始）。　基于这种方式，如果研究人员需要计算更　长时间间隔的特征，研究人员记录检索和汇聚　需求仍需要有约束，并且满足实时需求。例如：　采用该策略，对过去２４小时的特征计算需要检　索并汇聚大约２３（小时级记录）＋６０（分钟级　记录）＝８３个记录。　２．２综合型异常值检测方法　根据观测情况来看，网络攻击事件仅占很　小部分并且行为表现具有其独特性，而异常检　测的思路即来源于此。本节介绍三类无监督的　异常检测技术：　２．２．１基于矩阵分解的异常分析　基于矩阵分解的异常检测方法使用主成分　分析（ＰＣＡ），发现违背数据主要成分相关结构　的事件。为了检测这些稀有事件，基于ＰＣＡ的　方法分析原始变量到主成分空间的投影，然后　通过反投影（或称为重构）将主成分变换为原　始变量。如果仅仅以第一个主成分（即方差贡　献率最高的成分）来进行投影和重构，则对于　大多数样本而言重构误差会很小，然而对于异　常点而言会很大。这是因为第一个主成分解释　

讲座：人工智能　汁算机　络安全ｆ｝］的应用　■亏　Ｉ　●　Ｊ　投　一　一Ｐ　Ｙ　２　Ｘ　２　影　图３基于矩阵分解的异常检测方法　Ｒ　＝　一　投　影　Ｖ』　了正常数据的方差，而最后一个主成分解释了　『　异常点的方差。　…　（　）＝　（　１，一Ｒｉ，　∑　＾；ｆ　令　代表Ｐ维数据集，其方差矩阵∑可以　分解为∑＝Ｊｐ×ＤＸＰ　，其中Ｐ是以∑的特征向　（２）　量为列而组成的正交矩阵，Ｄ是包含对应特征　值五…　．．的对角矩阵。在图形上，一个特征向　∑　ｋ＝１　量可以被看作是２维空间上的一条线，或者更　高维空间上的　个平面，而相应的特征值代表　了数据在该方向上的延伸的程度。　其中，　（，）代表由前／个主成分的方差贡献率。　如上所述，特征值足以降序排列，ｒ大］此　，（『１是单调递增的。这意味着，　越大，第ｌ　到第　个成分的累积方差贡献率就越大。根据　异常得分的定义，靠前的主成分中的较大偏差　需要注意，通常需要对特征向量矩阵Ｊｐ的　列进行排序，并以特征值降序对特征值矩阵Ｄ　进行排序。也就是说，以重要程度的降序，埘　特征向量和相应特征值进行排序（排序后，第　一不会被赋以较大权值，而靠后的主成分中的偏　差则应赋以较大权值。　２．２．２基于多重神经网络的异常分析　该方法与基于ＰＣＡ的方法类似，是一种基　个特征向量的方差贡献率最多，第二个次之）。　数据集在主成分空间上的投影由Ｙ＝ＸＰ　给出，且该投影中主成分数目可以比原始维度　低。令ｙ　代表以前，个主成分进行投影后的数　据集：Ｙ，＿Ｘ　Ｘ　Ｐ，。类似地，反投影（从主成　于压缩一重构的分析方法。不同的是，这里先训　练一个多层冲经网络对数据进行压缩和重构，　使得除了异常点外的大部分数据能够被精确重　构，而重构　差则能够直接转换为异常得分。　多重神经　络（ＲＮＮ），或称为自编码器，　是一种多层前馈神经网络。输入和输出层有相　同数目的节点，而中间层的节点数则较少。如　图４所示，研究人员考虑由三层隐层组成的　·　分空问到原始空间）由Ｒ　＝ｆ　Ｐ，×（ｙｉ）　ｌ给出，　其中尺　是以前　个丰成分进行重构得到的数　据集。该处理过程可由图进行表示。　定义点Ｘ　＝ｌ　…　ｌ的异常得分为：　９·　

电信技术研究　第４０２期　ＲＥＳＥＡＲＣＨ　ＯＮ　ＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮ　ＴＥＣＨＮＯＬＯＧＹ　２０　１　８年第２期　ＲＮＮ。第一和第三隐层均由ｐ／２个神经元组成，　第二隐层作为中心层，由ｐ／４个神经元组成。　函数。　一个含有参数０的ｃｏｐｕｌａ函数ｃｍ　…　其中，Ｐ为数据维度。在网络中采用ｔａｎ—ｓｉｇｍｏｉｄ　转换函数作为激活函数。　）是ｍ维连续随机变量的联合概率分布，其中　每一个随机变量均为『０，１１上的均匀分布。根据　Ｓｋｌａｒ的理论，任意一个以概率分布　（Ｘｉ）为参　数的ｃｏｐｕｌａ函数定义了一个有效的联合分布，　其边缘分布都是　（　）。因此，研究人员可以　图４由三层中间层级成的ＲＮＮ　通过对网络进行训练，实现输入到输出的　恒等映射。从输入层至中间层的映射实现数据　的压缩功能；从中间层至输出层的映射实现数　据的重构。该重构过程是有损的，会引入误差，　而训练过程的目标就是最小化重构误差。第ｉ　个样本的重构误差如式（３）所示：　－－Ｚ（ｘ￣ｆ一　）‘　（３）　Ｊ＝ｌ　其中，输入向量　、输出向量ｒ的维度均为Ｐ。　给定一个训练好的ＲＮＮ，重构误差即异常得分，　换言之，重构误差大的测试样例被判为异常点。　２．２．３基于概率密度的异常分析　该方法的主要思路是基于密度的异常分析　方法利用多变量模型来对数据进行拟合。拟合　的结果是一个用于检测罕见事件的联合概率分　布，落入低密度区域的测试样例即异常点。异　常得分由多维空间中点的概率密度值给出。　为了从非高斯的边缘分布中得出多维变量　模型，研究人员采用了ｃｏｐｕｌａ函数。ｃｏｐｕｌａ框　架提供了一种在对输入数据训练得到多变量联　合概率分布后的推理方法。由于ｃｏｐｕｌａ框架比　其它估计框架少见，研究人员将简短回顾　ｃｏｐｕｌａ理论。接下来将介绍对如何重构个体的　非参数分布（这些非参数分布组成了ｃｏｐｕｌａ），　以及如何将它们耦合起来，形成一个多维密度　·６０·　为　，…，　构建一个联合分布函数，其边缘分布　为：　Ｆ（Ｘｌ…　）＝ｃ（　（　）…　（　）；　）　（４）　通过对式（４）求　阶导数，可得到联合概率　密度函数（ＰＤＦ）为：　／（Ｘｌ…　）　ｍ　＝　ｃ（　（　）…Ｆｍ（Ｘｍ）；　）（５）　＝兀　（誓）·ｃ（　（　）…　（ｘｍ）；Ｏ）　其中，ｃ（·）为ｃｏｐｕｌａ密度。　高斯ｃｏｐｕｌａ：多变量高斯ｃｏｐｕｌａ组成一个　由式（６）给出的统计模型：　Ｃ６（Ｉｌｌ＂＊＂［／ｍ；∑）：　（　一（　）…　一（　）；∑）（６）　其中，　是多变量正态分布的ＣＤＦ函数，正　态分布的均值为０向量，方差为∑，　是标　准正态的逆。　参数估计：令　＝｛∑，　…　代表以ｃｏｐｕｌａ　和ｍ个边缘分布组成的联合概率分布的参数，　令　表示第ｆ个边缘分布的参数。　给定变量　＝（　“，　）的Ⅳ个独立同分　布观测值，则似然函数为：　（　；、王，）　：：　∑ｌｌ。　ｏ　ｌｇｔ　ｆ　ｎ　ｎ／（　）］ｌｃ（　Ｘ）…Ｆ　　）Ｘｍ）；∑）　）（７）　参数　可通过最大似然估计得到。　（ｘｉ）估计：建模ｃｏｐｕｌａ密度的第一步是　

电信技术研究　总第４０２期　ＲＥＳＥＡＲＣＨ　ＯＮ　ＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮ　ＴＥＣＨＮＯＬＯＧＹ　２０１８年第２期　策略存在三个主要的问题：　（一）选择ｔｏｐ．ｋ样本可能带来虚警。因为　２．２．６异常检测方法组合　排序后样本不一定有高的异常分值。考虑到排　序的依据是异常打分的相对高低，而不是打分　绝对值，因而当数据中的异常点较少时，可能　会出现较高虚警。　一多算法组合是指将不同机器学习模型的预　测结果进行合并。这一策略通过补偿组合中单　模型的偏离，来提升整体的鲁棒性。研究人　员采用的组合方法是，对不同方法得到的异常　概率取平均值。只有被所有方法打分均较高的　（二）阈值化技术很难实现。因为分数很　难解释。例如：联合概率密度值之间的差异可　能超过５０个数量级（从１０—６０到１０—２）。　（三）由于不同方法打分结果无法直接进　行融合。多种异常检测方法组合起来的鲁棒性　也难以保证。一方面，不同方法打分值的范围　完全不同；另一方面，这些方法可能得出相反　的结果：基于矩阵分解的方法对异常点打以较　高的分值，而同时概率密度估计方法对正常打　以较高分值。　为了解决上述三个问题，同时充分利用多　个检测器，有学者将排序结果进行综合，而不　是依赖于打分结果。然而，不管样本的绝对异　常分值是否高，排序靠前的样本仍然会被认为　是异常点，结果仍然会导致较高的虚警。另一　解决办法是将所有分数投影到同一空间，将其　解释为概率。研究人员采用这一策略，同时在　后面小节中解决相应的问题。　２．２．５异常分值与概率的转换　考虑到韦伯分布较灵活，能够对很多类形　状进行建模，研究人员对基于矩阵分解的异常　分值建模为韦伯分布。对于一个给定分数　，　对应的累积密度函数为：Ｆ（Ｓ１＝Ｐ（Ｘ　Ｓ１。对　于多重神经网络也采用同样的方法。　由于不同方法得到的打分值具有不同的幅　度数量级，在计算异常概率时会存在信息丢失。　为了减轻这种丢失，联合概率密度计算还需要　一个额外的步骤：首先计算分数值的负对数，　然后搬移该分布，使其变为正值。一旦转换完　成，研究人员就可以将转换后的分数值建模为　韦伯分布，并且决定每个样本的异常概率。　·６２·　样本，才会被显示给终端用户。　２．３综合型监督学习模块　该系统目的在于通过分析者的辅助，持续　地识别新的和不断演进的网络攻击，并且通过　上述识别来进行综合推理产生新的模型，进而　利用行为描述器对攻击行为进行无人预测。为　此，研究人员设计了一个闭环系统，其能够通　过机器智能将分析者的直觉融合进入检测模型　中。　研究人员在图７中提出了行为模型综合推　理的框架图。该算法有３个阶段：训练、部署　和反馈收集／更新，并且每日进行各个阶段的周　期循环。算法的输入是实体一特征矩阵和标签化　的数据。在每天的工作流程中，该系统训练无　监督和有监督的模型，并将所训练模型应用于　当天的数据，识别出Ｋ个实体作为特别事件或　者攻击，进而将别识别出的事件和对应数据提　供给分析者。之后，分析者利用一个接口对识　别出的少量事件进行分类，并且挑选出可能的　真正攻击。最后，利用分析者的推理来建立新　的预测模型用于第二天的检测。　此做法的主要优点有：一是克服了分析者　自身能力的限制：通常情况下，一个分析者能　够有效检验的事件数目仅占整个事件总量的很　小一部分，约为１０－５％。为了检测这些小概率　事件，研究人员依靠第２．２．６节所提的具有高　精度、鲁棒性和多途径的异常检测系统。此外，　研究人员会每天更新该系统模型，并将其用于　第二天的工作（如图６所示）；二是克服了无监　督学习的缺陷。单个事件的偶然性（或者其状　

讲座：人工智能在计算机网络安全中的应用　ＡｐＰＬ＿Ｙ　ＭＯＤＥＬＳ：Ｇｉｖｅｎ　ｔｈｅ　ｅｎｔｉｔｙ·ｆｅａｍｒｅ　ｍａｔｒｉｘ　Ｍｔ　ａｔ　ｔｉｍｅ￡．ｄｅｐｌｏｙ　ａｎｄ　ｅｘｅｃｕｔｅ　ｔｈｅ　ｍｏｄｅｌｓ　Ｕｔ—ｌ　ａｎｄ　Ｓｔ—ｌ：　ＳＴＥＰ　ｌ　Ａ：Ａｐｐｌｙ　ｔｈｅ　ｕｎｓｕｐｅｒｖｉｅｄ　ｍｏｄｅｌｓ　Ｕｔ—ｉ　ｔｏ　Ｍｔ　ａｎｄ　ｇｅｎｅｒａｔｅ　ｓｃｏｒｅｓ　ｇｉｖｅｎ　ｂｙ　Ｐ．　ＳＴＥＰ　ｌＢ：Ａｐｐｌｙ　ｔｈｅ　ｓｕｐｅｒｖｉｓｅｄ　ｍｏｄｅｌ　Ｓｔ　ｔｏ　Ｍｔ　ａｎｄ　ｇｅｎｅｒａｔｅ　ｓｃｏｒｅｓ　ｇｉｖｅｎ　ｂｙ　Ｚ．　ＳＥＬＥＣＴ　ｋ　ＥＮＴＩＴＬＥＳ：Ｇｉｖｅｎ　ｔｌｎｃｄ￣，￥１　ｂａｎｄｗｉｄｔｈ　ｋ．ｓｃｏｒｅｓ　ｆｒｏｍ　ｕｎｓｕｐｅｒｖｉｅｄ　ｓｍｏｄｅ１．Ｐ．ａｎｄ　ｔｈｅ　ｓｕｐｅｒｖｉｅｄ　ｓｍｏｄｅｌ　Ｚ：　ＳＴＥＰ　２Ａ：Ｓｅｌｅｃｔ　ｔｏｐ　ｅｎｔｉｔｉｅｓ　ｂａｓｅｄ　ｏｎ　ｔｅ　ｓｈｃｏｒｅ　Ｐ．　ＳＴＥＰ　２Ｒ：Ｓｅｌｅｃｔｔｏｐ　ｅｎｔｉｔｉｅｓｂａｓｅｄｏＮｔｅ　ｈｓｃｏｒｅＺ．　ＣＯＬＬＥＣＴ　ＦＥＥＤＢＡＣＫ　ＡＮＤ　ＵＰＤＡＴＥ：Ｓｈｏｗ　ｔｈｅ　ｋ　ｅｎｔｉｔｉｅｓ　ｔｏ　ｔｈｅ　ａｎａｌｙｓｔ　ａｎｄ　ｃｏｌｌｅｃｔ　ｆｅｅｄｂａｃｋ：　ＳＴＥＰ　３：Ｆｏｒｅａｃｈｏｆｔｈｅ　ｅｎｔｉｔｉｅｓｃｏｌｌｅｃｔ　ａｎａｌｙｓｔｄｅｆｉｅｄｌｎａｂｅＩｓａｎｄ　ａｄｄＤｋｉＩｔｏｔｈｅｌａｂｅｌｅｄｔｒａｉｎｉｎｇ　ｄａｔａＤｔ＝ＤｋｕＤ６－ｌ　ＴＲＡＩＮＩＮＧ：Ｇｉｖｅｎ　ｔｅ　ｈｅｎｔｉｔｙ—ｆｅａｔｕｒｅ　ｍａｕｉｘ　Ｍｔ　ａｔ　ｔｉｍｅ￡．ａｎｄ　ｌａｂｅｌｅｄ　ｄａｔａ　Ｄ￡：　ＳＴＥＰ　４Ａ：１ｈｉｎ　ａｎ　ｕｎｓｕｐｅｒｖｉｅｄ　ｓｍｏｄｅｌ　Ｕｔ　ｕｓｉｎｇ　Ｍｔ．１１ｌｅ　ｕｎｓｕｐｅｒｖｉｓｅｄ　ｔｒａｉｎｉｎｇ　ｉｎｃｌｕｄｅｓ　ｍｕｌｔｉｐｌｅ　ｍｏｄｅｌｉｎｇ　ｔｅｃｈｎｉｑｕｅｓ　ａｎｄａｎｅｎｓｅｍｂｌｍｇｍｅｔｈｏｄｄｅｓｃｒｉｅｄｉｂｎ　Ｓｅｃｔｉｏｎ同　ＳＴＥＰ　４Ｂ：Ｉｆｌａｂｅｌｅｄ　ｄａｔａ．Ｄｔ．ｉｓ　ａｖａｉｌａｂｌｅ．ｔｒａｉｎ　ａ　ｓｕｐｅｒｖｉｓｅｄ　ｍｏｄｅｌ　Ｓｔ　ｕｓｉｎｇ　ａ　ｒａｎｄｏｍ　ｆｏｒｅｓｔ　ｃｌａｓｓｉｉｆｅｒ．　图７行为模型综合推理的框架图　态的异常）不会构成恶意，并且该事件的得分　也不能捕获其背后的意图。如果研究人员将全　部ｋ个事件作为恶意的，那么单个简单的基于　门限阈值的检测就能够对其进行诊断。一个非　线性模型能够支持该系统模拟分析者对事件的　进行主观判断；三是提出了行为自适应和推理　新模型。分析者的反馈为系统提供了按天计的　将提高未来预测的准确性。因此，随着时间的　推移，系统吸收分析者的反馈，系统检测率也　正如期望一样有明显提升。此外，研究人员允　许分析者将攻击分为多个类别，从而支撑系统　为不同的攻击建立定制化的模型。　３试验结果与分析　３．１试验数据特征　表１所示为Ａｔ２系统试验数据特性，数值　范围根据不同应用场景确定＿３］。　标记化数据。这样为系统增加了可用的训练数　据，使得研究人员能够对系统模型每天进行更　改。这样的设置获得了人与机器间交互的级联　效益：预测系统能够检测到的攻击越多，攻击　者能够提供的反馈就越多；反过来，这些反馈　表１试验数据特性　３．１．１数据源与应用　ＡＩ２系统数据来源包括网页目志和防火墙　日志。在典型的网页级平台中，该两项日志由　掘防火墙日志可防止数据外泄。　３．１．２数据维度与特有实体　与数据分析相关的计算工作可通过数据量　和独特实体数量进行合理预测。此处，数据量　指原始数据量，通常以ＧＢ、ＴＢ以及日志数（１　·６３·　广泛分布的数据源实时、流式传递至ＡＩ　系统。　网页日志分析旨在探测针对网页的攻击，而挖　

电信技术研究　总第４０２期　ＲＥＳＥＡＲＣＨ　ＯＮ　ＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮ　ＴＥＣＨＮＯＬＯＧＹ　２０　１　８年第２期　个中等规模的网页平台每天至少可生成数千万　条日常）表示。独特实体数量特指行为分析，　对应每天分析的独特实体数量（ＩＰ地址、用户、　会话等）。　事件）下达到８６．８％的检测率，是非监督系统　检测率（７．９％）１０倍以上。二是将误报率降低　５倍：在更高的日常调查成本背景下（如ｋ＝－１０００　事件），非监督系统也可达到７３．７％的检测率，　但误报率大于２２％。对比之下，ＡＩ２系统取得　３．１．３恶意行为　ＷｂｅＫ　图８周级恶意用户告警率　在常规情况下，恶意行为极少出现在企业　环境中。在所有事件中，攻击事件占比极小，　通常小于０．１％，如图８所示。此外，研宄团队　还发现：　·　恶意行为具有稀疏特性，使得有监督　学习模型面临极度的类别不平衡问题，　明显增加检测的难度；　●　难以保证对所有恶意行为进行系统性　报告。一方面因为它们具有非确定性　的事件响应机制，另一方面则因为系　统难以第一时间对这些行为进行检测　发现。这些未被报告的恶意行为将在　数据中引入一定的噪声。　●　攻击矢量可呈现各种形态。即便系统　发现了恶意行为，分析人员也不一定　能掌握其攻击方向和力度。因此，需　研发鲁棒的防御策略，尽可能检测更　多种类的攻击。　３．２试验结果　图９为ＡＩ２系统与无监督机器学习系统３　个月内试运行对比示意。结果表明ＡＩ２系统优　势明显。一是大幅降低日常调查成本（图中ｋ　值）。ＡＩ２系统在极低的日常调查成本（ｋ＝２００　大于８６％的检测率，误报率仅为４．４％【４Ｊ。　图９检测／召回率与日常调查预测及误报率对比图　４结论　综上所述，在计算机网络安全领域，建立　利用人工智能技术进行自动探测网络威胁并作　出反应和自动利用新漏洞形成攻击能力的网络　攻防系统，从业界看来是必然趋势。为确保我　军事领域中各类计算机网络系统安全，推进类　似ＡＩ２系统及其技术的跟踪研究应得到充分地　重视。　笔者认为，相关部门与研究机构可在六个　方面予以推进：长期投资人工智能研发领域；　开发有效的人．机协作方法；理解和应对人工智　能带来的技术与体制问题；为人工智能培训和　测试开发共享公共数据集与环境；建立评估人　工智能技术的标准和基准；深入了解国家人工　

Ⅲ　讲座：人工智能在计算机网络安全中的应用　智能研发人次需求。　参考文献　Ｋａｌｙａｎ　Ｖｅｅｒａｍａｃｈａｎｅｎｉ，Ｉｇｎａｃｉｏ　Ａｒｎａｌｄｏ，Ａｌｆｆｅｄｏ　Ｃｕｅｓｔａ—Ｉｎｆａｎｔｅ，ｅｔ　ａ１．ＡＩ２：Ｔｒａｉｎｉｎｇ　ａ　ｂｉｇ　ｄａｔａ　ｍａｃｈｉｎｅ　ｔｏ　ｄｅｆｅｎｄ［Ｃ］．ＣＳＡＩＬ，ＭＩＴ　Ｃａｍｂｒｉｄｇｅ，　ＭＡ．２０１６．　Ｔｉｎｇ’Ｆａｎｇ　Ｙｅｎ．Ｄｅｔｅｃｔｉｎｇ　ｓｔｅａｌｔｈｙ　ｍａｌｗａｒｅ　ｕｓｉｎｇ　ｂｅｈａｖｉｏｒａｌｆｅａｔｕｒｅｓ　ｉｎ　ｎｅｔｗｏｒｋ　ｔｒａ　ｃ．ＰｈＤ　ｔｈｅｓｉｓ．　Ｃａｍｅｇｉｅ　Ｍｅｌｌｏｎ　Ｕｎｉｖｅｒｓｉｔｙ，２０　１　１．　Ａｒｔｈｕｒ　Ｚｉｍｅｋ，Ｒｉｃａｒｄｏ　Ｊ．Ｇ．Ｂ．Ｃａｍｐｅｌｌｏ，ａｎｄ　Ｊ．．ｏｒｇ　Ｓａｎｄｅｒ．Ｅｎｓｅｍｂｌｅｓ　ｆｏｒ　ｕｎｓｕｐｅｒｖｉｓｅｄ　ｏｕｔｌｉｅｒ　ｄｅｔｅｃ．　ｔｉｏｎ：Ｃｈａｌｌｅｎｇｅｓ　ａｎｄ　ｒｅｓｅａｒｃｈ　ｑｕｅｓｔｉｏｎｓ　ａ　ｐｏｓｉｔｉｏｎ　ｐａｐｅｒ．ＳＩＧＫＤＤ　Ｅｘｐｌｏｒ．Ｎｅｗｓ１．，１５（１）：１１－２２，　Ｍａｒｃｈ　２０１４．　Ａｄａｍ　Ｃｏｎｎｅｒ—Ｓｉｍｏｎｓ．Ｓｙｓｔｅｍ　ｐｒｅｄｉｃｔｓ　８５　ｐｅｒｃｅｎｔ　ｏｆ　ｃｙｂｅｒ－ａｔｔａｃｋｓ　ｕｓｉｎｇ　ｉｎｐｕｔ　ｆｒｏｍ　ｈｕｍａｎ　ｅｘ－　ｐｅｎｓ［Ｃ］．ＣＳＡＩＬ，ＭＩＴ　Ｃａｍｂｒｉｄｇｅ，ＭＡ，２０１６．　·６５·　

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章