唐4 邝展豪构建基于对抗性训练的广告流量反作弊系统2

文字内容
1. 从零到一 构建基于对抗性训练 的广告流量反作弊系统 邝展豪 腾讯安全天御 高级研究员
2. About The SPEAKER 邝展豪 高级研究员 • 硕士毕业于英国伯明翰大学,获得英国一等荣誉学位 • 就职腾讯,腾讯安全天御团队成员之一 • 广告流量反作弊项目算法负责人 腾讯安全天御团队 01.核心业务 02.团队构成 03.团队影响力 • 金融风控 • 7名博士 • 服务超15个行业,超2000个客户 • 流量风控 • 16名成员毕业于世界TOP 100大学 • 牵头1项IEEE标准,多项国家认证 • 内容风控
3. Table Of CONTENTS 大纲 • 互联网广告行业现状 • 黑产形态 • 流量反作弊的痛点 • 流量反作弊中的对抗性训练
4. 互联网广告行业现状——规模巨大但增长放缓 互联网广告费用规模达5百亿美元 广告费用逐年递增但增值放缓 增长的放缓导致流量争抢越来越激烈 细分头部媒体 存量时代的零和博弈 数百个应用争夺有限的网民流量 存量时代已经到来,流量红利消失殆尽 新的广告库存出现,旧的广告库存就会消减 * 部分数据图表来自公开的易观2018中国互联网广告市场年度综合分析,QuestMobile移动互联网2018半年报告
5. 互联网广告行业现状——黑产嗅利而来 互联网广告行业的发展催生了黑产的繁荣 2018年广告市场因假量造成的损失约为260亿人民币 2017年全年异常流量占比 广告黑产的定义: 2018年全年异常流量占比 通过制造大量虚假流量而谋取报酬的团伙 更多的下载 更多的转化 更多的点击 更多的曝光 分媒体类型异常流量占比 * 部分数据图表来自公开的秒针发布的中国互联网广告异常流量2018年度报告 2017 2018
6. 互联网广告行业现状——典型链路 卡源卡商 黑产上游环节 群控平台 代理IP 黑产中游环节 账号注册与分销 黑产下游环节 盈利变现 手机卡商 开发者 软件开发与技术支持 猫池 注册机 接码平台 猫池 接码平台 模拟器刷量 跳转号 引流 诈骗、吸粉、微商等 盗号扫号养号 刷量 播放量、点赞评论、收藏等 薅羊毛 平台补贴 刷量平台
7. 互联网广告行业现状——黑产的演进 技术简单 技术复杂 协议刷量 群控刷量 真人众包刷量 刷码、领优惠 小号 打码平台 IP池 手机号 软件开发、手机养号 成本廉价 刷点击 众包平台 任务结算 接码平台 账号注册分销 猫池 真人 改机工具 自动化工具 手机群控 黑产 成本昂贵
8. 黑产形态——新型作案方式 「红眼」作弊网络(ADBUG中国数据广告作弊报告) 手机墙——群控——伪造留存 千万元 • 通过iframe嵌套在不同的网络节点上,一旦网络中的某个节点被 展示就会同时加载背后无数的作弊页面及广告位。 • 就算「 红眼」 作弊网 络中 的某个 媒体页 被列 入投放 黑名 单, iframe节点遭到封锁,「红眼」的其他节点仍能继续运行。 * 部分数据图表来自公开的ADBUG中国数字广告作弊报告 新型群控
9. Table Of CONTENTS 大纲 • 互联网广告行业现状 • 黑产形态 • 流量反作弊的痛点 • 流量反作弊中的对抗性训练
10. 流量反作弊的痛点 风控还没反应,黑产已经开始刷量 刷量方式发生变化,风控还没发现 不够快
11. 流量反作弊的痛点 风控还没反应,黑产已经开始刷量 刷量方式发生变化,风控还没发现 黑产变换百种”姿势“绕开风控漏洞 不够快 不灵活
12. 流量反作弊的痛点 风控还没反应,黑产已经开始刷量 刷量方式发生变化,风控还没发现 黑产变换百种”姿势“绕开风控漏洞 不够快 不灵活 到底有没有误杀? 反馈难
13. 流量反作弊的痛点 客户要求提供关于某广告活动刷量的证据 风控还没反应,黑产已经开始刷量 刷量方式发生变化,风控还没发现 黑产变换百种”姿势“绕开风控漏洞 不够快 不灵活 到底有没有误杀? 情报挖掘的重要性 反馈难 难解释
14. Table Of CONTENTS 大纲 • 互联网广告行业现状 • 黑产形态 • 流量反作弊的痛点 • 流量反作弊中的对抗性训练 黑产衍生攻击的对抗 黑产演变攻击的对抗
15. 流量反作弊中的对抗性训练——黑产衍生攻击 刷量方案A 黑产软件 刷量方案B 刷量 刷量方案C …… 黑产利用不同的软件,设备,环境,甚至行为模式组合出不同的刷量方案
16. 流量反作弊中的对抗性训练——黑产衍生攻击的对抗思路 恶意流量终究难以完全伪造成正常流量; 他会在行为和数据分布中呈现出区别正常流量的特征 天御全链路智慧业务安全引擎 恶意流量伪装成正常流量 业务层 电商 产品层 AI层 系统引擎 游戏 直播 银行 支付 OTA O2O 恶意流量A 链路协同 数据 智慧零售 流量反欺诈 移动安全 威胁感知 云端风控 营销风控 身份认证 威胁感知 图像识别 消息过滤 洞察 正常流量 团伙挖掘 知识图谱 行为序列分析 威胁自动感知 A 1 A 4 A 2 A 3 账号类别识别 身份识别 策 略 小 盗用账号 号 养 黑产用户 号 恶意流量B 自动机识别 社工平台 人脸交叉验证 黑产挖掘 聚集
17. 流量反作弊中的对抗性训练——黑产衍生攻击的对抗方案 系统架构设计 流量反作弊对抗性学习框架 最新 样本 历史 样本 无监督学习 监督学习 聚类: 探测新的 作弊方式 分类: 准确判定 虚假流量 策略校验 Action
18. 流量反作弊中的对抗性训练——黑产衍生攻击的对抗方案 算法难题 问题一: 无论是正常设备还是刷量设备,都会在行为表现上有聚集的效应, 且这种聚集有可能是任意形状的。我们能通过什么算法来找出新 的作弊方式以及异常的聚集呢? 正常设备Cluster A 正常设备Cluster B 刷量设备Cluster C 问题二: 大量明显与其他数据点偏离的离群点会一定程度上降低分类器 的性能。我们能用什么算法能解决离群点的问题呢? DPC DPC OPTICS LOF SOM 规则校验 One class SVM 新型刷量设备Cluster D .... .... Density Peak Cluster 利用密度峰值聚类算法,我们既能发现不同的用户簇从而快速鉴别刷量用户群,又能识别影响分类性能的离群点。 分类: 准确判定 虚假流量
19. 流量反作弊中的对抗性训练——黑产衍生攻击的对抗方案 算法优化 Density Peak Cluster Local density — 𝜌$ = 最高密度点 ⁄*-)0 1 ((* +, ∑234 𝑒 低密度,高距离 离群点 Minimum distance — 𝛿$ = min (𝑑$2 ) 2::, ;:+ 时间复杂度高 如何解决时间复杂度问题? • 算法中三个计算步骤时间复杂度为O(𝑛" ). • 牺牲空间节省时间的方法,合并多个重复计算的步骤——治标不治本 • 当数据规模较大时,算法基本不能输出结果. • 关键问题是数据点是否需要与其余的所有的数据点进行距离计算? • 根据密度函数可以知道,距离越远的点对密度的计算影响越少 强高斯假设 如何理想地聚集任意形状的簇? • 密度的计算是基于球体半径作为阈值来计算的,所以依然以高斯假设为前提. • 如果密度的计算是基于k个最近邻居点,其分布可以是任意形状. • 无法理想地聚集任意形状的簇。密度的计算以高斯假设为前提,所以簇依然与高 斯分布相关 无法准确检测离群点 如何使离群点检测更具鲁棒性? • 根据密度与距离判断离群点缺乏鲁棒性. • 因为点的最小距离只是个体与个体之间的计算,而离群点检测需要计算个体与种群之间的关 • 离群点之间也会相互影响,无法根据离 群点的最小距离判断其离群的程度 难以发现离群点 系。 所以我们需要一个新的指标去衡量离群点的疏远程度
20. 流量反作弊中的对抗性训练——黑产衍生攻击的对抗方案 算法优化 DPC+Xgboost Local Outlier Factor Density Peak Cluster with KNN Local density — 𝜌$ = LOF+Xgboost ⁄*-)0 = ((* +, ∑234 𝑒 Minimum distance — 𝛿$ = min (𝑑$2 ) Where j为k个最近邻居点 2::, ;:+ Local outlier factor — 𝜒$ = ∑? ⁄ ,@A:, :+ = AUC 时间复杂度高 解决时间复杂度问题 • 算法中三个计算步骤时间复杂度为O(𝑛" ). • 多个计算步骤时间复杂度由O(𝑛" )下降至O(n). • 当数据规模较大时,算法基本不能输出结果. • 百万级数据集轻松计算,时间缩小100倍. 强高斯假设 • 密度的计算是基于球体半径作为阈值来计算的,所以依然以高斯假设为前提. • 无法理想地聚集任意形状的簇。密度的计算以高斯假设为前提,所以簇依然与高 斯分布相关 去掉高斯假设 • 密度的计算是基于k个最近邻居点,其分布 可以是任意形状. 无法准确检测离群点 准确检测离群点 • 根据密度与距离判断离群点缺乏鲁棒性. • 通过计算k近邻居数据点密度的差异情 • 离群点之间也会相互影响,无法根据离 群点的最小距离判断其离群的程度 难以发现离群点 况来量化数据点的异常程度更具鲁棒性. 通过LOF发现 的离群点 根据最小距离无法 准确检测离群点
21. 流量反作弊中的对抗性训练——黑产衍生攻击的对抗方案 解决不灵活痛点的方法 小样本 快速学 习 在每种恶意流量只存在少量样本的情况下, 怎样快速学习一个能识别不同恶意流量的机器学习模型?
22. 流量反作弊中的对抗性训练——黑产衍生攻击的对抗方案 Few shot learning Prototypical network with attention 小样本 快速学 习 小样 本快 速学 习 群控刷的流量 小样本 快速学 习 小样本快速学习 虚拟机刷的流量 正常流量 小样本快速学 待识别的流量 习 小样本 快速学 习
23. 流量反作弊中的对抗性训练——黑产演变攻击及各阶段对抗方案 Device Network 云端联防 设备关联 超维特征 构造 ACCOUNT 异常检测 ….… 网络检测 网络分析 流量分析 染色跟踪 应用解析 终端监控 系统分析 多层专家系统 假人假机 可信度 识别 C-R 真机假人 真人假动机 设备行为序列分析 真人真动机
24. 流量反作弊中的对抗性训练——黑产演变攻击的对抗方案 行为序列分类问题 多日的行为数据 构成相关的行为序列 设备每天会产生大量的 广告行为数据 • 打开广告的次数 • 观看广告的频率 • 观看广告的时段 • 观看广告的类型 • 观看广告的渠道 • 30天广告打开次数的行为序列 构造 • 30天渠道使用次数的行为序列 • 30天观看广告类型的行为序列 我们能否利用这些行为序列数据 去识别恶意流量呢?
25. 流量反作弊中的对抗性训练——黑产演变攻击的对抗方案 关于行为序列分类问题的解决思路 Transformer network 刷量设备的行为序列分布A 呈现 classifier 输入 输入 刷量设备的行为序列分布B 设备各渠道流量序列 正常设备的行为序列分布C 使用深度学习方法学习序列中趋势, 周期,相关性等特征。众多特征作为 决策因子去识别恶意行为
26. 流量反作弊中的对抗性训练——黑产演变攻击的对抗方案 Transformer在行为序列分类问题中的优势 RNN的劣势 • t 时刻的计算依赖t-1 时刻的计算结果,限制了并行能力 • 长序列的顺序计算会导致信息丢失 Transformer self attention Traditional attention Transformer的优势 1 计算任意位置之间的状态信息的时候,不取决于距离,而是取决于两者的 相关性; (α) 2 3 计算当前状态信息的时候,会结合上下文的信息进行计算,解决RNN长时 依赖问题; 计算时只需一步矩阵计算,解决RNN的顺序计算的不足,能轻易并行化; query Key and value RNN Transformer AUC
27. 流量反作弊中的对抗性训练——黑产演变攻击的对抗方案 RNN、Transformer在广告行为序列分类中的关键问题 关键问题 实际分布 不同渠道的多维行为序列简单 融合为一个多维单通道行为序 列 导致 每一个渠道都是多维 单通道的行为序列 • 渠道与渠道之间的相关性信息无法 显式表达,大大提高了神经网络提 取渠道间信息的难度 • 由于数据上报的问题,某些渠道的 行为序列数据呈现大量的噪音。而 RNN 、Transformer 网 络 不 能 有 效 地抑制相关的噪音
28. 流量反作弊中的对抗性训练——黑产演变攻击的对抗方案 3D Transformer在广告行为序列分类问题中的提升 Squeeze and Excitation Module 渠道A 合并 渠道B 渠道C 每一个渠道都是多维 单通道的行为序列 多维多通道的行为序列 解决方案 SE 核心思想 在通道之间增加一个attention。因为 实际情况下,每个通道的feature map 的作用权重不一样,所以模块给每个通 道学习一个权重。其目的是学习每个通 道的重要程度,增强有用的特征抑制无 用的特征。 RNN Transformer AUC 3D Transformer
29. 流量反作弊中的对抗性训练——黑产演变攻击的对抗方案 多模态结合提升模型效果 Prediction Ensemble DNN DNN Dimension reduction Concat Behavior Vector APP Vector average Hierarchical average Device Vector IP Vector Feature extraction IDC OS Proxy Brand RNN Embedded APP Transformer 3D Transformer AUC LOF+Xgboost 多模态模型
30. 反欺诈对抗的一些案例 某广告代理公司使用流量反作弊系统的效果 过滤23.14%的恶意流量后,整体活动TA浓度提升11.3% ¥ 投放TA浓度提升11.3% 过滤后CTR:10.9% 过滤前CTR:8.7% 获客成本大 大降低 成本节省 27%
31. 反欺诈对抗的一些案例 某广告主使用流量反作弊系统的效果 采用天御流量反欺诈线上测试结果如下: 黑样本比例(>=80分):23.7% 恶意类型主要命中:设备异常、环境异常、行为异常等, 如右图所示。 设备号 / IP 请求量 关联IP数 / 设备数 恶意标签 433C00A4CDA012B9B336899C97705507 1156874 3473 群控设备 38F0D3D9FF0EB073817D3CD9962E5F2C 9721238 1 模拟器 A23D5750C88B937C6656C2517D998FC7 1198998 725 虚假设备 42.101.64.202 1436790 76396 服务器 116.76.254.134 811310 173933 恶意IP 23.7% 2.8% 73.5% 恶意类型 百分比 作弊用户 设备异常 83.4% 查无所得 环境异常 14.4% 正常用户 行为异常 12.8% 模拟器刷 群控刷 真人刷
32. 反欺诈对抗的一些案例 某广告主挖掘黑产情报情况
34. 流量反作弊的痛点 客户要求提供关于某广告活动刷量的证据 风控还没反应,黑产已经开始刷量 刷量方式发生变化,风控还没发现 黑产变换百种”姿势“绕开风控漏洞 不够快 不灵活 到底有没有误杀? 情报挖掘的重要性 反馈难 难解释