毛大鹏:机器学习和未知样本检测

原晓博

2017/11/14 发布于 技术 分类

反病毒引擎一直是安全厂商的专利,数据为王的时代,基于云端数据反病毒有了新玩法。讲述反病毒引擎发展史及其技术机制,机器学习技术在反病毒领域的应用。以及在云 平台下,如何结合机器学习技术构建新一代自我数据挖掘的反病毒检测引擎。

文字内容
1. 机器学习和SA未C—知C—2样0云1本中7的检反测病毒引擎 毛大鹏
2. 从反病毒引擎说起: 2017• 从技术上讲:“反病毒引擎”是一套判断特定 C程序是否为恶意程序或可疑程序的技术机制。 SAC• 反病毒引擎大致有三代:特征码引擎、云引擎 和人工智能引擎。
3. 特征码引擎(单机时代): • • 扫启描发特式征反码病毒式反引S擎病A毒C引C擎2017 • 主动防御式反病毒引擎 • 本地模拟器式反病毒引擎
4. 云引擎(互联网时代): 2017• 云查杀 C• 某个客户端发现可疑样本时,将样本发送到云端样本分 SAC析集群里进行分析跑测,然后将分析的结果形成特征库 再下放到全网客户端。形成一个互联网病毒样本自动处 理中心。
5. 人工智能引擎(大数据时代): 2017• QVM,它是在Vapnik著作的机器学习经典《Statistical Learning Theory》中的理论基础上进行了创新,首次将机器学习的理论 SACC用于未知病毒识别。 • 它的技术原理是先通过对病毒样本的分析和分类形成样本向量 和向量机,然后建立一个机器学习的决策机模型,利用决策树 和向量机,对大量样本进行学习,从而识别恶意程序。
6. SVM(支持向量机) SACC2017
7. SVM(支持向量机) SACC2017
8. SVM(支持向量机) SACC2017 第三个维度:z = x²+ y²
9. 人工智能引擎(大数据时代): • 支持向量机的核心思想是将特征向量映射到一个高纬空间 2017中,该空间中存在一个最大间隔超平面,空间中的样本点 C被两个互相平行的超平面隔开,分隔超平面使得两个平行 SAC超平面之间的距离最大。平行超平面之间的距离越大,分 类器的总误差越小,分类的准确性越高。 • 对于未知样本,以支持向量机为基础的二分类划分方法, 有极高的检出率。
10. 新时代(云+移动端): 2017• 云服务普及,服务概念得到认可,场景发生了变化: SACC云端:资源数据高度复合体,安全共担模型。 移动端:厂商控制紧密,程序上架审核。
11. 云端威胁: • • • 系虚内统部拟S漏化流A洞攻量C攻击攻C击击2017 • APT 。。。
12. 安全云: 2017• 提供网络安全保障、数据安全保障、恶意程序查杀、威胁 情报等安全功能的云。 SACC• 用户不应该是安全的买单者。云服务商应提供安全保障。 • 在恶意程序查杀上,基于云端大数据和机器深度学习技术 可以轻松构建一个云中的反病毒引擎。
13. 云中的反病毒引擎: 2017• 云是计算机资源的集中体,基于云的强大计算能力和信息 C收集能力,可以将自身数据转化成威胁情报信息,再对这 SAC些信息进行数据挖掘分析,然后利用特征引擎和深度机器 学习技术,可以将反病毒能力提升到一个前所未有的级别。 • 这种与云密切结合的引擎我们定义为安全云引擎。
14. 安全云引擎: SACC2017 取之于云,用之于云。
15. 宏观流程图: SACC2017
16. 大数据+深度学习=安全云引擎 SACC2017
17. 机器学习能做什么 • 图像识别 • 语音识别 • 机械控制 SACC2017 • 安全分析
18. 人工智能领域 SACC2017
19. 深度学习 VS 机器学习: SACC2017
20. 深度学习 VS 神经网络: SACC2017
21. 为什么深度学习这么火: • • • 解开仿决人源了了的大很很脑多多复能神杂“经S问上感A题天知C”外C的部2框世0架界1的7算法 • 云计算普及化为深度学习提供了土壤。
22. 举对个文件例是子W:INPES格A式C还C2是0E1LF7格式进行分类。
23. 网络结构图: SACC2017
24. 激 活 函 数 SACC2017
25. ReLU 激活函数: SACC2017
26. 代码: SACC2017
27. 运行: SACC2017
28. 训练结果 SACC2017
29. 稍微复杂点儿的例子: 图像->决策->控制 SACC2017
30. 文 件 可 视 化 SACC2017 处 理
31. 结构图: 网络结构: 将图像处理为4x80x80的图像矩阵输入。 第一层卷积层,有32卷积核,尺寸8x8,使用ReLU激活函数。 2017第二层卷积层,有64卷积核,尺寸4x4,使用ReLU激活函数。 C第三层卷积层,有64卷积核,尺寸3x3,使用ReLU激活函数。 SAC全连接为一维512个神经元的隐藏层,使用ReLU激活函数。 输出全连接线性层,输出对应动作: 0:什么也不做,1:跳一下。 决策结果: +0.1表示存活,+1表示通过管道,-1表示死亡
32. 心得: 1.PE ELF 都是可以处理的,做好训练集区分。 20172.两个学习侧重方向: CC• 识别程序的意图。(自然语言处理) SA• 二进制数据可视化。(图像处理) 3.训练集临界点:恶意样本:10w,白样本50w。 • 深度学习对样本数量要求还是蛮高的。 4.恶意样本质量估算:正态分布。
33. 目 前 成 果 SACC2017
34. 第九届中国系统架构师大会 SYSTEM ARCHITECT CONFERENCE CHINA 2017 SACC2017 谢谢大家!