TensorFlow在推荐系统中的应用和实现

ArchSummit 2017 全球架构师峰会 PPT下载

1. 深度学习在推荐系统中 的应用和实现 李嘉璇 《TensorFlow技术解析与实战》作者 者 TensorFlow技术社区创建
2. 李嘉璇 • TensorFlow DevLink Oreilly Strata TensorFlow tf.greatgeekgrace.com Hackathon
3. • 推荐引擎架构及策略演进 • 深度学习引入推荐系统的架构和实现 • 强化学习的分类 • 强化学习引入推荐系统的实现
4. 推荐引擎架构 • • 召回 • 场景区分 • 多策略融合 • 策略降级 过滤 • • Rank • • 低质量信息/黑名单/已查看信息 产品规则/个性化排序 展示控制 • 多样性控制/推荐理由
5. 推荐引擎打分服务
6. 推荐引擎策略演进
7. 推荐引擎算法模型
8. 智能化时代的搜索和推荐 LR\GBDT, FTRL, Online DNN LTR, MAB, CMAB, Online LTR, DRL
9. Deep Neural Networks for YouTube Recommendations • 推荐引擎架构
10. Deep Neural Networks for YouTube Recommendations • CANDIDATE GENERATION
11. Deep Neural Networks for YouTube Recommendations • RANKING
12. Wide & Deep Learning模型 • 将深度神经网络(DNN)和逻辑回归(Logistic Regression)模型并置在同一个网络中 • 将离散型特征(Categorical Feature)和连续型特 征(Continuous Feature)有机地结合在一起
13. Wide & Deep Learning模型
14. Wide & Deep 模型的 TensorFlow实现 • Wide Model: Linear Model with Crossed Feature Columns
15. Wide & Deep 模型的 TensorFlow实现 • Deep Model: Neural Network with Embeddings
16. Wide & Deep 模型的 TensorFlow实现 • Combining Wide and Deep Models into One
17. 排序方法 Learning to Rank(LTR) • • 在商品维度进行学习,根据商品的点击、成交 数据构造学习样本,回归出排序权重 • 有大量的样本是不可见的,所以LTR模型从某种 意义上说是解释了过去现象,并不一定真正全 局最优的
18. 两种解决方案 在离线训练中解决 online 和 offline 不一致的 问题 • • Counterfactual Machine Learning 在线 trial-and-error 进行学习 • • Bandit Learning 和 Reinforcement Learning
19. 强化学习简介 • 把推荐系统看作智能体(Agent)、把用户看做 环境(Environment),则商品的推荐问题可以 被视为典型的顺序决策问题。Agent每一次排序 策略的选择可以看成一次试错(Trial-andError),把用户的反馈,点击成交等作为从环 境获得的奖赏。
20. 强化学习分类 • Model-free 和 Model-based Q-learning, Sarsa, Policy Gradients • Policy-Based 和 Value-Based policy gradients Q-learning, sarsa
21. 强化学习分类 • 回合更新和单步更新 Monte-carlo learning policy gradients • Qlearning, Sarsa, policy gradients 在线学习 和 离线学习 sarsa, sarsa lambda Q learning, Deep-QNetwork
22. 问题建模 • MDP可以由一个四元组<S, A, R, T>表示: • (1)S为状态空间(State Space); • (2)A为动作空间(Action Space); • (3)R为奖赏函数; • (4)T为环境状态转移函数(State Transition Function)
23. 问题建模 状态定义 • • 在每一个PV请求发生时,把在最近一段时间内点 击的商品的特征作为当前Agent感知到的状态 奖赏函数定义 • • 用户根据排序的结果进行的浏览、商品点击或购买 等行为都可以看成对Agent的排序策略的直接反馈
24. 问题建模 算法设计 • • Q-learning(Tabular)
25. Q-learning的算法实现
26. 问题建模 奖赏塑形(Reward Shaping) • • 势函数(Potential Function):学习过程中的子目标 (Local Objective) • 把每个状态对应PV的商品信息纳入Reward的定义中, 将势函数定义为
27. 问题建模 • 在单商品的推荐场景,a对应的是单个商品。我们 的目标是学习在状态s下采取动作a所能获得的累积 奖励(的期望值) • 多商品推荐场景:假设用户是否会点击单商品的决 策是独立的
28. Actor-Critic • 结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法. Actor 基于概率选行为, Critic 基于 Actor 的行 为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率. • Actor-model 在某种意义上,我们看成是一个从 state生成 action的 Generative Model • Critic-model 看成是基于状态-策略输入下的 Q 值回归网络的 Discriminative Model • 整个数据理解和建模过程就通过这样的系统新运作方式来使得 生成式模型更好地去发现「未知」世界中的True Positive 样本
29. 更多强化学习方法 • Deep Deterministic Policy Gradient(DDPG) • Asynchronous Advantage Actor-Critic (A3C)
30. 签售
Artificial intelligence 256
美女啊
2017/07/28