亚信网络安全明升技术研究院副院长童宁做《机器学习驱动网络安全发展》的分享
在人工智能时代,各行各业最怕听到的是“取代”:人工智能被认为将一步步取代法官、取代速记员,取代建筑工人和出租车司机……不过,目前在许多行业,人工智能仍然只能扮演配角,网络安全就是其中之一。
“就安全领域来讲,我们把人工智能当成一种帮助安全专家更有效地工作的一个工具。在可见的未来,还是需要领域专家和网络安全专家来主导。”7月6日~7日,在成都召开的C3安全峰会上,亚信安全通用安全产品中心总经理、亚信网络安全明升技术研究院副院长童宁在接受《明升中国app报》记者专访时表示,机器学习的确提供了强有力的帮助,但在当前网络攻防态势下,机器学习也难以“一肩挑”。
不过,随着对机器学习这件工具开发、利用得逐渐深入,网络安全正在进入网络攻防的新阶段。
充分条件和必要条件
机器学习技术应用于网络安全早已有之。童宁指出,早在1986年,美国斯坦福研究中心就提出用数据统计来检测网络非法入侵。“利用机器学习算法对垃圾邮件进行分类,也已是20年前的事情。”
童宁介绍说,随着移动互联网的发展,大量的设备产生了各式各样的日志文件。特别是在2000年以后,在日志管理和分析方面,机器学习算法有了长足的发展。比如IBM等大型互联网企业就在这些方面使用了大量的机器学习算法,包括关联分析等。
“2000年以来,机器学习所带来的变革——比如利用机器学习算法对用户的异常行为进行分析等开始普及起来。”童宁说。
趋势科技资深数据app家张佳彦从技术发展和经济原因两方面,向《明升中国app报》记者展示了机器学习介入网络安全的“充分条件”和“必要条件”。
“从2006年开始,网络病毒开始急剧增加,直到2012年达到第一个高峰期。而2012年开始进入第二个循环,更多的新病毒大量出现。” 张佳彦援引一组数据提出:“以2007年的数字为例,每年有约600万个新病毒出现,也就是每天出现1.6万个病毒。在这种情况下仅靠网络安全专家分析和阻挡是不够的,这就为机器学习的出现提供了充分条件。”
然而事实是,2006~2012年间,一些机器学习技术已经被用来尝试助阵网络安防,但直到2013年机器学习技术才逐渐被安全专家所讨论和强调。这背后的原因是什么?张佳彦认为其中牵涉不只是技术问题,还有经济原因。
原来,2006~2012年这期间,病毒的制造者已经从单一黑客演化到有组织的黑客犯罪系统,目标就是为了窃取受感染电脑的资讯进行贩卖。此时病毒的变种已经非常繁多,网络安全公司已开始使用机器学习对抗病毒。
然而,在这期间,用户还不能接受机器学习的手段——这一阶段的许多病毒都有潜伏期,由于没有立即性危害,许多用户虽已中毒但并不知情。而相比其他解决方案(如1:N病毒码),误判率更高的机器学习算法显然给用户带来了困扰。
“这个时候即使已经用了机器学习方案,但大家也不愿大张旗鼓地说。” 张佳彦告诉记者。
“剧情”在2012年后出现急转。到了勒索软件为代表的“网络威胁时代”,紧跟着此后不易追踪的比特币等的出现,勒索病毒所造成的立即性损失(的重要性)已经超过了机器误判带来的困扰,“这为机器学习参与网络攻防提供了必要条件。” 张佳彦表示。
有监督学习和无监督学习
对于机器学习来讲,最主要的两个概念分别是“有监督学习”和“无监督学习”。百度安全首席架构师武广柱解释说:“有监督学习就是人们‘告诉’机器‘哪些数据是属于哪一类的’,然后进行数据训练;反之,无监督学习就是不‘告诉’机器,直接由人们对最终输出的结果进行定义。”
“有监督的学习一开始就有人为的因素在里面,如果训练结果不尽人意,工程师可以进行算法调整,直至它的结果达到人们的要求以后,再投入生产使用。”童宁介绍说。
一个有监督学习常用的例子是,从房地产中介商处拿到一些房屋原始数据:年代、面积、位置、成交价等,交给机器去“学习”。产生的模型就可以对后来的购房者提供参考:比如输入其预算多少钱,得出该客户能够在什么区位买到什么样的房子。
童宁表示,有监督学习的这种能力可以用于网络攻防中对恶意程序、垃圾邮件的识别和对勒索病毒的防治,特别是在需要多维度识别的情况下,能够大幅提高识别速度和效率。
无监督学习所用的方法与有监督学习有些不同。“机器直接根据数据自身的特征进行自动分类,但机器并不知晓所分类、聚合的特征是什么。人们再行标注具体属性。”童宁说,无监督学习“聚类”的优势,可以轻易挑出“少数派”,帮人们监控到一些人所不易察觉的异常行为。
“通过这有监督和无监督学习的两个例子,可以发现机器学习关键是,首先必须要有持续性的、高质量的数据。因为整个的网络环境一直在变,机器需要学习的内容也要随之而变。”童宁半开玩笑说,“机器跟我们人类一样,需要‘活到老,学到老’,从而保证它的学习能力。”
更重要的一点是,无论有监督学习还是无监督学习,对特征的抽取和概括总结,都是由网络安全专家和领域专家所区别出来的,因此,“必须要有解决问题的领域专家”。
“我们的客户常常问:是不是有数据专家、网络安全专家就够了?答案是否定的。必须要有领域内的专家,否则抽取的特征很难去把握。”童宁指出,只有三种元素(持续高质量的安全数据、领域专家-网络安全专家、机器学习数据专家)协作,机器学习在网络安全方面的应用才能获得更好的效果。
张佳彦也提出,在传统机器学习所必不可缺的三大要素——数据、特征、算法之中,“最花时间的”就是网络安全专家如何产生有效的特征:“这需要非常有经验的专家,还要经过反复不断的测试,才能得到良好的结果。”
机器学习不是“万灵丹”
不过,在张佳彦看来,除了对安全专家的依赖,机器学习还存在一个软肋:误判率。
“对我来说机器学习就像‘原子弹’,它的威力无穷,但如果用得不好会伤敌一千,自损八百。”张佳彦指出:“训练出来的模型某种程度上有不可避免的误判率,所以我认为机器学习的重点,不仅在于可以把误判率降低多少,更在于承认它一定有误判率的存在。”
他认为,如何将误判率对用户造成的伤害和困扰降到最低,是当前机器学习更重要的议题。
“机器学习在垃圾邮件分类、恶意程序查杀方面,已经比较成熟了。有时分错一些邮件相对来讲还可以接受,但一旦查杀错‘恶意程序’,后果就严重了。”童宁作为一线安全专家深知,机器学习即便再强大也不能对其押上所有赌注。
“我们强调机器学习技术也是强调它多维识别很强,但我们并没有放弃第一代的黑白名单、第二代的行为监控等技术,机器学习技术再强大也只是辅助工具,这些手段综合起来利用效果才更好。”童宁告诉《明升中国app报》记者,“网络攻防是永恒的主题,我们唯一能做的就是拿出各种武器,跟黑客战斗到底。”