【主会】机器学习影响网络安全发展 童宁 0705

白帽子

2019/08/04 发布于 技术 分类

c3安全峰会2017 

文字内容
1. 童宁 亚信网络安全产业技术研究院
4. 被媒体广泛报道的勒索病毒 被媒体广泛报道的勒索病毒 威胁发展的多元化 勒索软件的发展 2016年重大勒索病毒家族 严重漏洞的揭露 2016年趋势科技和TippingPoint ZDI发现 漏洞最多的十大应用程式 Advantech WebAccess Adobe® Acrobat® Reader DC Applet OS X® Android Foxit® Reader Adobe Flash® Microsoft® Internet Explorer® Microsoft Windows® OS SolarWinds® Microsoft Edge 数据泄露不断发生 2016年下半年发生的数据泄露事件
5. 被媒体广泛报道的勒索病毒 威胁发展的多元化 勒索软件的发展 2016年重大勒索病毒家族 严重漏洞的揭露 2016年趋势科技和TippingPoint ZDI发现 漏洞最多的十大应用程式 Advantech WebAccess Adobe® Acrobat® Reader DC Applet OS X® Android Foxit® Reader Adobe Flash® Microsoft® Internet Explorer® Microsoft Windows® OS SolarWinds® Microsoft Edge 数据泄露不断发生 2016年下半年发生的数据泄露事件
7. 数据统计及机器学习技术应用于网络安全 1986 IDS of Stanford Research Institute(首次提出规则以 外的数据统计分析技术) 1993 Next-Generation Intrusion-Detect Expert System(SRI) 1998 (美国国防部高级规划署) DARPA Intrusion Detection Evaluation Dataset(包含正常流 量和各种攻击流量的数据测试集) 1999 SVM for Spam categorization IEEE (机器学习支持向量机 算法用于垃圾信息分类) 2000 Log management and SIEM (利用统计学建立行为基线) 2004 IBM ISS Network Anomaly Detection (网络异常行为分析系统) 2004 Arc Sight 开始使用数据挖掘 产生关联分析 2010+ Next Generation Anti-virus, User Behavior Analytics (机器学习防病毒, 以及用户行为分析)
8. 1986 1993 1998 1999 2000 2004 2004 2010+
10. I
12. 𝑛 ෍ 𝑃 ℎ 𝑓1 𝑚1 𝑎1 𝑘 𝑓
15. 基于特征的威胁识别技术发展 • 一维特征,黑白名单 (文件,IP,域名等) • 二维特征,字符串的匹配或者其他应用于匹配的正则表达式(IPS,DLP) • 多维特征,组合多种特征含行为特征判定疑似对象 (APT沙盒分析,网络行为监控)
16. 数据的准备 特征的抽取 算法的选择 学习地点的选择 • Known Good, Known Bad家族分类 • 安全专家:找出与威胁最相关的特征 • 安全领域主要的是分类算法 • 厂商的网络 • 数据专家:通过数学的方法学习出体 现家族性的特征组合,不同特征对家 族性体现的权重不一样。 不断的学习优化 算法产生的N维 特征组合模型 应用与客户实 际的防御系统
26. 选取2个同类训练样本 特征可视化处理 训练样本特征可视化后对比 特征集1 Opcode (CPU操作码 ) Ransom-Tescrypt Size: 326144 bytes 归一化处理 可视化特征 Opcode 特征集2 Import table (导入表) FindFirstFile 1 FindNextFile 2 …… …… WriteFileEx 443 …… …… Import Table 归一化处理 可视化特征 1024x1 Vector • 测试样本B 训练样本A Ransom-Tescrypt.H Ransom-Tescrypt • Size: 196380 326144 bytes Ransom-Tescrypt.H Size: 196380 bytes
27. 机器学习模型调试过程示例 机器学习训练过程介绍 ROC曲线 征吃 1.0 测试样本 集合 测试结果的目标: 高真阳率 测试 低假阳率 测试结果ROC曲线越趋 向左上角越好,意味高 检测率,低误报率 就是说样本集合中恶意 软件能被检测出,正常 文件没有误判。 0.5 精炼后的特征集合 学习到共同的DNA TP 正样本检测为正 FP 负样本检测为正 FN 正样本检测为负 TN 负样本检测为负 真阳率 (TP/(TP+FN)) 同类文件原始样本集合 机器学习引擎截获未知恶意程序日志-WannaCry 0. 0 假阳率(FP/(FP+TN)) 0.5 1.0 机器学习调试过程是训 练,测试,调参,再训练, 再测试,再调参,不断 迭代,直到ROC曲线达 到目标。 什么时间 When 相似程度 相似的恶意软件在2016年9月就已 什么文件 What 什么人 Who 什么位置 Where 经出现,使用学习过这些样本的机 器学习引擎可以有效拦截 恶意程序类别 相似已知恶意 程序列表 WannaCry存在可疑行为的系统接口调用列表