爱奇艺信息流广告的排序算法演进 刘国辉

QCon大会

2019/06/25 发布于 技术 分类

QCon  QCon2019 

文字内容
1. 爱奇艺信息流广告的排序算法演进 刘国辉 广告算法总监
2. 自我介绍
3. 自我介绍 • 2015年加入爱奇艺,广告算法团队技术负责人,从零到一主导并搭建 了爱奇艺智能广告算法引擎 • 之前就职于腾讯,一直从事计算广告相关的技术研发工作 • 硕士毕业于复旦大学
4. 目录 1. 爱奇艺信息流广告业务简介 2. 信息流广告核心问题与挑战 3. 爱奇艺信息流广告排序算法演进过程 4. 总结与展望
5. 爱奇艺信息流广告业务简介 TrueView视频广告 日活用户1亿+ 日均曝光10亿+
6. 信息流广告核心问题与挑战 ranking_score = bid * PCTR * PCVR * Q_score ECPM竞价排序 效 果 创意质量分 曝 光 商业利益 用户体验
7. 爱奇艺信息流广告排序算法演进过程 排序漏斗 点击率预估 创意质量分 OCPX
8. 点击率预估 • ECPM = bid * PCTR • 计费方式:按点击(CPC)或TrueView(CPV)计费 • 预估单元:内容ID embedding 0100…01
9. 业务数据流 广告SDK 广告在线服务 日志服务 反作弊 ETL 现场特征 Ranking 广告特征 用户特征 预估模型 下单系统 DMP 模型训练 双流Join 实时数据流 监控报表 离线数据流
10. 模型选择 x 1 𝒏 0 𝒏 𝒏 𝒚 = 𝒘𝟎 + ; 𝒘𝒊 𝒙 𝒊 + ; ; 𝑽𝒊 , 𝑽𝒋 𝒙 𝒊 𝒙 𝒋 𝒊?𝟏 𝒏 𝒊?𝟏 𝒋?𝒊C𝟏 𝒚 = 𝒘𝟎 + ; 𝒘𝒊 𝒙 𝒊 𝒊?𝟏 𝒚= 𝟏 + 𝒆B 𝟏 𝒘 𝟎C∑ 𝒏 𝒊E𝟏 𝒘 𝒊𝒙 𝒊 LR GBDT 预估准确性 & 工程复杂度 FM
11. 在线学习-提高模型时效性 Batch 算法训练集 Real time OWLQN 离线模型 FM 自动 校验 FTRL 在线模型 在线AUC 离线AUC Ranking
12. 深度学习-提高模型泛化能力 输出层 隐藏层 Embeddings 连续特征 离散特征 人口属性 行业分类 素材质量 投放信息 内容信息 ... 观影兴趣 搜索兴趣 商业兴趣 APP安装 ... TrueView 跳过 曝光 点击 转化 ...
13. 特征工程 人口属性 观影行为 搜索行为 社交行为 用户 内容信息 兴趣标签 用户反馈 投放信息 行业分类 长期 短期 素材质量 广告 上下文 场景信息 位置信息 时间信息 设备信息
14. 特征自动评估工具 可用性分析 • • 方差 覆盖率 相关性分析 • • 信息增益 皮尔逊系数 AUC • • 单特征AUC 特征集合AUC 最优特征组合 • • 穷举求解 贪心算法 特征自动评估报告
15. 偏差校准 𝑝𝑐𝑡𝑟 − 𝑐𝑡𝑟 ctr = 降采样 𝑝𝑐𝑡𝑟 − 𝑙𝑛 + 系统误差 𝑦R 𝜏 + CTR波动 0.020 0.018 0.016 0.014 0.012 0.010 d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 d12 d13 d14 d15 d16 d17 d18 d19 偏差率 按日期加权 分段拟合
16. 排序算法1.0 A/B实验 召回 定向召回 去重&频控 关键词 排序 PCTR 创意优选 预算平滑 随机探索 广告主 站外合作 投放 模型 FM FTRL W&D 数据 DMP BI日志 业务数据
17. 排序漏斗-解决广告数量快速增长的问题 广 告 数 量 变 化 情 况 2W+ 索引召回 4K+ ECPM截断 1K+ 粗排 150 精排 展现
18. 粗排-双DNN模型 Sigmoid 用户Embedding 用户画像 广告Embedding ReLU ReLU ReLU ReLU ReLU ReLU 统计行为 用户 Embeddings 投放信息 内容信息 广告 素材质量
19. 排序算法2.0 A/B实验 投放 召回 定向召回 去重&频控 关键词 ECPM截断 粗排 轻量预估 创意优选 预算平滑 随机探索 精排 PCTR 模型 FM FTRL W&D DNN 数据 DMP BI日志 业务数据 广告主 站外合作
20. OCPX 广告转化路径 平台 曝光 点击 CPM CPC 下载 激活 注册 付费 OCPX 主要问题 广告主 广告投放的“自动驾驶” ✗ 转化不稳定 ✗ 转化成本偏高 ✗ 投放缺量 ✗ 人工优化成本高 广告主 目标转化成本 算法模型 智能投放
21. 智能出价 ranking_score = PCTR * PCVR * (bid * alpha) 广告xxx竞价过程 22 未超出成本:调高出价->增加消耗 18000 20 16000 18 14000 16 目标转化成本 超出成本:调低出价->控制成本 12000 14 12 10000 10 8000 8 6000 6 4000 4 2000 2 0 0 23 1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23 目标转化成本 实际转化成本 智能出价 曝光
22. 排序算法3.0 A/B实验 投放 召回 定向召回 去重&频控 关键词 ECPM截断 粗排 轻量预估 创意优选 预算平滑 随机探索 精排 PCTR PCVR 智能出价 模型 FM FTRL W&D DNN 数据 DMP BI日志 业务数据 广告主 站外合作
23. 创意质量分 ranking_score = bid * PCTR * PCVR * Q_score 优质广告 低质广告
24. 创意质量分 创意库 相似素材模型 内容ID 令人不适 文字密集 负反馈 诱导红包 软色情 CTR 投票器 创意质量分
25. 排序算法4.0 A/B实验 投放 召回 定向召回 去重&频控 关键词 ECPM截断 粗排 轻量预估 创意优选 预算平滑 随机探索 精排 PCTR PCVR 智能出价 创意质量分 模型 FM FTRL W&D DNN CNN 数据 DMP BI日志 业务数据 广告主 站外合作
26. 总结与展望 广告投放的趋势 • 平台智能化,投放自动化 • 广告主运营傻瓜化,可以专注在素材、落地页质量的提升 • 用户看到的广告原生化、个性化 效果提升的关键 • 对业务场景的深入理解 • 收集足够、有效的数据 • 稳定、可靠的工程架构支撑 • 算法模型的持续调优