Tumblr 李北涛 - 相关性反馈在推荐系统中的应用

flagunlock

2017/12/18 发布于 技术 分类

ArchSummit全球架构师峰会是InfoQ中国团队推出的面向高端技术管理者、架构师的技术大会,参会者中超过50%拥有8年以上的工作经验。 ArchSummit秉承“实践第一、案例为主”的原则,展示新技术在行业应用中的最新实践,技术在企业转型中的加速作用,帮助企业技术管理者、CTO、架构师做好技术选型、技术团队组建与管理,并确立技术对于产品和业务的关键作用。

文字内容
1. 相关性反馈在 推荐系统中的应⽤用 李李北北涛 Tumblr 数据科学⼯工程总监
5. 李李北北涛 Tumblr 数据科学⼯工程总监 ⼤大学就读于中国科学技术⼤大学少年年班。后赴美国加州⼤大学圣芭芭拉分校留留学。获 计算机⼯工程博⼠士学位。主要研究领域在机器器学习,数据挖掘,和多媒体技术。毕 业后在多家Startup任职。涉⾜足搜索,电⼦子商务,社交⽹网络等领域。现任Tumblr数 据科学⼯工程总监。擅⻓长于创造性开发产品和算法。对⽤用户体验和产品⽅方向有较深 理理解。
6. • Tumblr 推荐系统介绍 • 设计⽬目标 • 相关性反馈和加强学习 • ⼏几个实际问题 • 效果和总结 • Q&A
7. • Tumblr 推荐系统介绍 • 设计⽬目标 • 相关性反馈和加强学习 • ⼏几个实际问题 • 效果和总结 • Q&A
8. Tumblr • 社交分享平台 • 3.75亿 博客 • 1500亿 帖⼦子 • 84%⽤用户通过移动访问
9. 主要推荐产品
10. • Tumblr 推荐系统介绍 • 设计⽬目标 • 相关性反馈和加强学习 • ⼏几个实际问题 • 效果和总结 • Q&A
11. 设计⽬目标 • 通⽤用性 • 即插即⽤用 • 快速迭代
12. 通⽤用性 • 推荐源的抽象定义 • ⼀一个包括N个从user到item(s)的映射的集合
13. 即插即⽤用 • ⽀支持推荐源的⽆无缝添加和删减
14. 快速迭代 • 实时⾃自动调整推荐源的⽐比重,实现⽤用户体验优化。 • ⽀支持不不同推荐源的组合。⾃自动分析⽤用户反馈,达到最佳组合。 • 加快推荐系统进化速度。
15. 推荐系统架构
16. • Tumblr 推荐系统介绍 • 设计⽬目标 • 相关性反馈和加强学习 • ⼏几个实际问题 • 效果和总结 • Q&A
17. 相关性反馈 • ⽤用户反馈 • Follow (强正反馈) • Reject (强负反馈) • Ignore (弱负反馈)
18. 反馈数据稀疏 • ⽤用户数据多层级聚合 • 博客级别正负反馈聚合 • 推荐源级别正负反馈聚合
19. 推荐特性 • 每个推荐有⼀一系列列不不同粒度的特性 • 基于内容 (标签: “梅梅⻄西”, “巴萨”, “⾜足球”, “体育”) • 基于相似性 (相似特性,共同朋友) • ⼀一个反馈信息和多个推荐特性相关 • 充分利利⽤用反馈信息
20. 反馈信息 • (⽤用户,推荐特性) 级别 • 推荐特性级别 • ⾃自动过渡
21. 曝光率(Exposure)权重 • 显示权重 • 排名位置 • 产品单元 • ⽤用户权重 • 新⽤用户/⽼老老⽤用户 • 不不同地区
22. 曝光率计算 • 曝光环境 • (UK-新⽤用户-Dashboard-Rank2) • (US-⽼老老⽤用户-Explore-Rank3) • 总曝光强度为其在各个环境⾥里里的曝光强度之和
23. 量量化反馈信息 • 对每个曝光环境计算全局平均值 • 根据推荐特性在不不同曝光环境的分布,计算期望值 • 根据实际推荐效率,计算推荐特性的反馈积分
24. • Tumblr 推荐系统介绍 • 设计⽬目标 • 相关性反馈和加强学习 • ⼏几个实际问题 • 效果和总结 • Q&A
25. 曝光环境要分多细 • 不不能太粗 • 曝光强度不不精确 • 不不能太细 • 没有⾜足够数据⽀支持计算期望值
26. 整合推荐源 • 怎么⽐比较不不同推荐源的分数? • 强耦合: 要求不不同推荐源分数可⽐比较。 • 怎么处理理推荐数量量⾮非常不不同的推荐源?
27. 推荐源取样算法 • 在每个推荐源内部排序 • For each i <- (1, K): • 加权随机选取⼀一个推荐源 • 从推荐源中加权随机选取⼀一个Item
28. 例例⼦子
29. 新推荐源 • 初始反馈值 • 全局平均值 • 经验估计值 • ⾃自动过渡到⽤用户实际反馈值
30. 加强学习 • Multi-armed bandit • 根据每个推荐源的效率,⾃自动提⾼高或降低推荐源的使⽤用次数。
31. • Tumblr 推荐系统介绍 • 设计⽬目标 • 相关性反馈和加强学习 • ⼏几个实际问题 • 效果和总结 • Q&A
32. 实际效果 • 快速迭代 • 发布 150 推荐版本 • 推荐效率增加20倍 • 推荐贡献:1% -> 50% 的移动Follows
33. 其他应⽤用领域 • 搜索 • 电商 • ⼴广告 • 相关内容
34. 总结 • 通⽤用性,即插即⽤用, 快速迭代 • 推荐源之间零耦合 • 利利⽤用⽤用户反馈加强学习
35. 联系⽅方式 • Email: beitao.li@gmail.com • 微信: beitaoli