蘑菇街技术总监 邓钦华(问天) - 蘑菇街广告的排序:从历史数据学习到个性化强化学习

贺晴波

2017/11/14 发布于 技术 分类

做机器学习的同学在工作中都会遇到预测结果的置信度问题,具体表现是模型刻画能力和推广能力的矛盾,部分需要推广能力结果的冷启动等问题。服饰电商广告排序会遇到的一个必须要解决的问题,商品换季和上新,换季和上新的时候对模型而言会出现没有历史的新样本,并且在未来一段时间这些新样本会成为排序要面对主要客体,所有之前模型积累的历史都变得不再“有意义”,这个时候如何去处理让模型更稳定让过去积累的历史更有意义,并且同时让新品能最快的积累足够的置信度,蘑菇街积累了一些经验。

文字内容
1. 蘑菇街广告的排序:从历史数据学习到个性化 强化学习 蘑菇街邓钦华(花名问天)
3. 个人介绍 • 邓钦华,花名问天,在蘑菇街负责搜索系统、广告系统、流量系统、 图像算法和机器学习团队 • 一直从事搜索推荐、机器学习和大数据系统的研发实践,参与开发过 百度统计、百度关键词推荐、百度搜索广告系统、360 搜索广告系统、 360 展示广告系统、360 推荐系统、迅雷大数据平台、迅雷数据统计 分析平台等产品,从零搭建了蘑菇街广告体系、流量体系和搜索体系, 并将图像技术用于搜索的排序。
4. 目录 • 蘑菇街和广告业务介绍 • 传统广告排序:从历史数据学习 • 传统广告排序在蘑菇街场景遇到的问题 • 我们的一些经验:个性化强化学习 • QA
5. 蘑菇街和广告业务介绍 蘑菇街pc和app的页面
6. 蘑菇街和广告业务介绍 • 蘑菇街业务介绍 1. 导购+电商 2. 买手优选+红人经济 3. 社会化电商
7. 蘑菇街和广告业务介绍 • 原生广告,广告结果和自然结果混合在一起 • cpc计费,广义二阶竞价 • 独立的广告位置+广告投放业务系统
8. 蘑菇街和广告业务介绍 • 蘑菇街业务特点 1. 用户逛街式浏览,图片的美观对用户体验影响很大 2. 移动端访问占比超过80%,用户浏览量大 3. 商品存在明显的时效性和季节周期性 4. 商家在库存压力下,对流量获取的稳定性和可控性存在天然的诉求
9. 蘑菇街和广告业务介绍 • 蘑菇街广告业务
10. 蘑菇街和广告业务介绍 • 蘑菇街广告业务
11. 传统广告排序:从历史数据学习 • 广告排序历史 1. 竞价排名,发明者overture 优点?问题? 2. 进化:质量度*出价排名+广义二阶竞价,发明者google 优点?问题?
12. 传统广告排序:从历史数据学习 • 如何预估质量度:点击率预估 1. 统计性模型 优点?问题? 2. 统计机器学习模型 LR:
13. 传统广告排序:从历史数据学习 • Why LR? 1. 概率模型,预测值有物理含义,而不是简单的排序值 2. 最简单的non-trivial 算法,预测值更平滑 3. 简单够快,容易处理稀疏问题+易于并行实现
14. 传统广告排序:从历史数据学习 数据日志 离线数据传输 离线数据处理和数 据挖掘 用户反馈 在线服务服务 在线基础服务 离线数据模型 实时数据 在线数据挖掘
15. 传统广告排序:从历史数据学习 • 进一步 1. GBRT+LR 变化? 2. Online learning:FTRL 变化?
16. 传统广告排序在蘑菇街场景遇到 的问题 商品的季节性 和时效性 用户逛街式浏 览的导购需求 个性化和时尚趋势的变化
17. 我们的一些经验:个性化强化学习 收益和代价 ee广告展现形式 商家是否要参加
18. 我们的一些经验:个性化强化学习 • 我们的一些思考:产品 1. 新广告的比例和长期收益,评估指标是什么? 2. 混排还是独立位置? 3. 商家参与好处和缺点?
19. 我们的一些经验:个性化强化学习 强化学习模型和传 统模型如何结合 如何挑选商品和用 户:刻画能力和泛 化能力 个性化和强化学习 的结合
20. 我们的一些经验:个性化强化学习 • 我们的思考:系统 1. 分阶段模型?Bayes模型? 2. explore不止一个商品,还要考虑商品的推广型 3. 新品的个性化初始概率
21. 我们的一些经验:个性化强化学习 • bayes模型 1. 商品冷启动相当于先验,先验分布为beta分布,商品的先验概率预估 2. 好处?缺点? 3. 置信度 and 样本抽样
22. 我们的一些经验:个性化强化学习 • 强化学习 1. epsilon-Greedy 2. Naïve UCB1 3. UCB Bernoulli fixed 95% confidence intervals 4. UCB1-Tuned 5. UCB-SEGMENT 6. Contextual Bandit(linucb)
23. 我们的一些经验:个性化强化学习 • 强化学习:UCB Bernoulli fixed 95% confidence intervals 我们假设商品是否点击符合二项分布,那么在我 们的bandit算法中,我们就使用Binomial confidence intervals来计算每个商品的置信上 界,每次进行离线算法分更新时,我们可以可以 知道: Totals -- 商品总计被选择的次数; 1. Estimate_Mean = Success / Totals = ?????? 2. Estimate_Variance = ?????? 1 − ?????? 3. standard deviation = ?????? ( 1 − ??????) • 将该符合二项式分布的随机变量归一化转化为 N(0,1)分布,通过95%的置信区间,可以得到 需要的上界: Success -- 商品展现并被点击的次数 • ?????????????????????????????????????????? = ?????? + 1.96 ?????? ( 1 − ??????)/????????????????????????????????????
24. 我们的一些经验:个性化强化学习 • 一些优化 1. ?????????????????????????????? = ???????????????????????????????????????????????? + ??????????????????????????????????????????−?????????????????????????????? 2. 每个样本的权重不一样,用户权威度 3. 用户分群和商品属性分类的更新 4. 概率的个性化预估、初始概率预估 5. 参数的自动化调整
25. 我们的一些经验:个性化强化学习
26. 我们的一些经验:个性化强化学习
27. 我们的一些经验:个性化强化学习
28. 我们的一些经验:个性化强化学习 • 没有讲到的 1. 样本抽样和特征 2. 反作弊的做法 3. 复杂模型融合