腾讯音乐 罗静:全民K歌黑产对抗之路

崇宛白

2017/11/14 发布于 技术 分类

讲述了全民k歌从零到5000万DAU的发展过程中和黑色产业对抗的成长历程,过程中遇到的各种安全问题,以及对应的产品和技术策略。详细阐述了社交类产品中如何构建通用的安全能力,如何将在线实时打击与离线分析相结合的方式,有效提升恶意内容与恶意账号的识别率,如何通过各种技术手段,提升文本,图片,音视频内容的自动识别率。

文字内容
1. 全民--安k全歌S体A黑系C产C架2构对0与1抗7技之术 路 腾讯音乐 chrisluo(罗静)
2. 基础安全-业务安全 SACC2017
3. 全民k歌-唱 SACC2017
4. 全民k歌-听 SACC2017
5. 全民k歌-看 SACC2017
6. 安全形势 接入 DDoS攻击 Xss注入 Sql注入 Csrf攻击 DNS篡改 音频 涉政 涉恐 传销 涉黄 诈骗 账号 文字 SACC2017恶意注册 恶意刷粉 私信骚扰 刷等级 盗取账号 视频 涉政 灌水 人身攻击 广告 谩骂 直播 涉政 涉恐 涉恐 传销 传销 涉黄 涉黄 诈骗 人身攻击 图片 色情 广告 招嫖 涉政 涉恐 活动 恶意刷榜 薅羊毛 盗取作品 盗取资料
7. 安全架构 业务层 评论 私信 直播 相册 关注 上传 打打 击击 效 接入层 app接入 web接入 效 果果 评评 估 逻辑层 核心词库 行为打击 贝叶斯过滤 相似度计算 估 准 确 举报管理 图片分析 音频分析 视频分析 直播监控 健 康 率度 串联频控 防刷机制 离线分析 运营审核 用户画像
8. 接入安全-DDoS保护 应用策略: Ø DPI检测技术,快速准 确地发现针对业务的各 种DDoS攻击 Ø 采用运营商黑洞路由、 外网核心ACL、专业清 洗设备等多种手段,形 成多层级的防护架构 Ø 防护带宽2T,部署 CDN100+,全网调度 对抗攻击流量 检测攻击流量 检测中心 其他地区 不受影响 web internet 被攻击流量转 移到防护中心 防护中心 启动保护 流 量 清 洗 正常流 量注入 dns app
9. 接入安全-web防护 Cgi安全问题扫描: Ø 1、开发提交安全扫描 Ø 2、测试环境自动扫描 Ø 3、线上服务安全防护 Ø 4、发现漏洞提交安全工单 sql注入、xss、csrf检测: Ø 接受请求,转发到检测服务,阻塞当前请求 Ø 检测服务分析恶意程度,如果非法,拒绝当 前请求,合法则返回后端cgi机器IP和端口 Ø Cgi处理后返回正常数据 webserver Cgi服务 agent 识别 引擎
10. 文字策略-关键词 应用策略: Ø 组合关键词 Ø 关键词划分等级 Ø 过滤转义,把全角、 异体转为标准内容再 进行匹配 Ø 小语种识别,对含有 高危小语种的内容单 独处置 Ø 中文转拼音,对高危 内容进行同音识别
11. 文字策略-相似度 文本的基本元素是词汇 比较算法: p Jaccard相似度 p Simhash-汉明距离 p 余弦相似度 策略: p单个作品下的评论内容分析 p同一个用户发出的评论分析
12. 文字策略-贝叶斯 文本 分类 喜欢 唱歌 私信 正常 1.发送评论 10园20萬私信我 聊天 找我 私信 正常 元 萬 加 私信 恶意 10园20萬私信 ? 恶拼意音分概词率 0.x0i 0d1a0 d2a 应用场景: Ø 支持针对具体业务的训练库 Ø 算法不仅支持文本文类,还可以 用于其他分类场景 Ø 可以结合业务加入其他纬度数据 拼正常音概分率词 0.x0i 0d0a7 d6a 2.分词 园 萬 私信 3.计算分析 规则计算 贝叶斯数据
13. 文字策略-贝叶斯 数据层 大v评论 热门作品 采集层 数据采集 签约主播 打击数据 采集数据,补充到训练数据原则: p 正常内用和恶意内容 p 及时补充新样本内容 存储层 DB KV 实时打击系统 运营审核 贝叶斯训练
14. 图片策略 行为策略: 账号体系、行为分析 图像识别: 图像DNA、OCR、色情识别 人工审核: 图片审核、种子库运营 恶意图片比例 41% 55% 低俗色情 4% 政治敏感 恶意广告
15. 图片策略 热门黄图特点: p 有组织的人肉作案,量相对小 p 容易对抗和绕过,不汇聚 p 图片自动检测容易误打击 打击方案: p 人工确认加历史数据用作决策树 训练 p 行为特征分析加上帐号特征 p 图片出现频率和相似度计算 p 图片文字率以及图片ocr识别 p 昵称贝叶斯聚类分析 p 曝光率异常分析 p 自动打击加人工审核
16. 音频策略 恶意检测算法: • 重点监控人物提 取音频指纹,进 行指纹比对分析 • 声音场景识别, 分析在唱歌或说 话 • 声音内容识别, 是否小语种,特 征片段匹配等
17. 视频直播
18. 直播监控 1. 直播流旁路推流,可以 实时查看直播情况 2. 对直播流进行截图,按 图片的敏感度打分提交 人工审核 3. 对主播进行实名认证 4. 对问题主播进行警告, 随时切断直播信号,严 重者进行封号
19. 防刷-频控策略 实现方案: Ø 1、结合账号特征和 用户画像,精细化 管理 Ø 2、实时监控,报表 输出,动态调整 Ø 3、命中频控用户需 要进行短信或图片 码验证 Ø 4、流水查询,可回 溯分析
20. 防刷-设备IP分析 IP画像: Ø 基于海量用户分析用户行为,提供ip信用评级 Ø Ip信息分类:代理/vpn,idc服务器、网关、 腾讯用户IP、运营商、局域网 Ø 应用场景:恶意爬虫、恶意注册/登录、机器 人识别、恶意刷单、刷量 设备画像: Ø 后台计算确认移动终端唯一身份 Ø 基于海量用户从设备活跃度、模拟设备、新 增设备、常用设备、黑产设备对移动设备进 行安全画像 Ø 基于画像实时判断移动设备风险等级
21. 举报管理 管理员 开发 运营 外团 Ø 分等级授权、不同等级对应不同操作权限 Ø 综合用户等级、画像、举报次数等排序后审核
22. 离线分析 异常检测算法: • 基于已经标记的大数据特征样本 • 适合大数据,并行处理方便 • 可解释,方便问题回溯 实现方案: l 标记设备、用户画像等数据 l 行为数据上报到HDFS,通过 Hive/Sparksql跑出可疑用户 l 分析数据的聚集度,排序后抽样确认
23. 审核平台 直播监控平台 举报审核平台 Mv审核平台 Top行为审核 清唱作品审核 直播监控黑名单 安全健康度审核 打击准确率审核 黄图审核 小语种内容审核 实名审核 封号复核 运营审核: Ø 可疑数据top 排序,人工审 核确认 Ø 只要投入少数 人力,审核数 据进入恶意样 本进行训练
24. 用户行为画像 登录 访客 上传 私信 直播 点唱 听歌 关注 评论 转发 消费 分享 信用度评估: Ø 用户画像 Ø 历史行为累积 Ø 用户分类预测 实现方案: Ø 分维度计算,综合考量 Ø 实时累积、离线计算、 分析预测
25. 用户行为分析 logic_svr 行为数据上报 实时计算 规则引擎 分析打击 实时排行 行为计数 处罚系统 运营审核 数据训练 存储层 用户行为数据 用户标签数据 HDFS 批量读取 MR spark cluster Hive/Sparksql 离线分析
26. 安全策略和效果评估 Ø 效果评估: 1. 平台内容健康度 2. 打击内容准确率 Ø 安全策略评估: 1. 用户数据和打击效果的平衡 2. 打击效果和投入成本的平衡 3. 内容分析结合场景和账号行为 4. 新技术的引入-人工智能 5. 安全对抗长期存在,需review改进