转转推荐算法部负责人 张相於:C2C市场中推荐系统的挑战与机遇

龚平萱

2017/11/14 发布于 技术 分类

C2C市场是电子商务领域一个重要的细分市场,近年来以二手闲置交易为切入点的各种C2C平台正在赢得越来越多的用户,其拥有的巨大潜力和市场规模甚至要大于现有的B2C市场。相比B2C市场,C2C市场由于市场的两端都是个人用户,其数据和用户行为都有显著的特点,例如商品信息发布的随意性、商品库存的唯一性、时效敏感性等,这些特点都给IT系统提出了问题和挑战。推荐系统作为电商的重要组成部分,在这样的场景下会遇到哪些具体挑战?又该如何应对?本次分享以转转平台为例,为大家介绍推荐系统在面对C2C市场时遇到的种种挑战,以及我们的应对策略。

文字内容
1. C2C市机场S遇A中张C与相推C於2挑荐01战系7 统的
2. 自我介绍 张相於 毕业于中国人民大学 转联推系荐转系方推荐式统算、:机法zhaS器部nAg负学xyC责习@C系人liv2统e.0co1m7
3. 分享提纲 C2C市场及其特点介绍 挑S战A与CC应2对017 总结
4. 分享提纲 C2C市场及其特点介绍 挑S战A与CC应2对017 总结
5. C2C市场 真·个人对个人的 Cm2a技物Cr平k品能et台交交pl的易换ace意义SACC2017 发现世界
6. C2C市场的特点 信息发布随意性强 商时品效敏库感存唯性一性SACC2017
7. 分享提纲 C2C市场及其特点介绍 挑S战A与CC应2对017 总结
8. 挑战1:SA数C据C2异01质7 性高
9. 数据异质性的含义 信息发布的随意性 “iPhone7 128G 国 内结构容结结异异构构质质信信性性息息不少确S定ACC20““行齐1i卖全无7Ph…一拆o…n部无e”6i修P如ho发图ne票”6, 信息量不确定 用词多样化 歧义多 要买iPhone7” ……
10. 异质数据带来的问题 信结构息信不确息S少定A--C>> 策难C2以略0制覆1定盖7 策不略全 歧义多->策略准确率低
11. 异质数据的优点 SAC多C数2样0据1性量7丰大富 信息及时性
12. 异质数据应对方案 将非结构化数据转为 用NLP的方法提取非 结构化数据 结构化信息 优来按使照点适含用义用结:明范构围确化清广数晰据S方A法CC20用优1作点信成7息熟召:方含回法量/排较大序多 特征 缺点: 缺点: 提取难度高 信息噪音多 信息有损失 可解释性较弱
13. 数据结构化策略 知识库 • 获取 构建 • 修正 预S处A理C••C分归2词一017 结构解 析 • 映射 • 合并
14. 数据结构化-例子 知识库构建 • 手机:内存、品牌 • 电脑:内存、硬盘 SACC2017预处理 • 红米 note5A高配 版3G 结构映射 • 红米->手机.品牌 • 3G->手机/电脑.内 存 结构合并 • 合并:手机.小 米.3G
15. 非结构化数据处理 词袋模型 • 适用面广、召回率高、噪音多 17文本主题模型(LDA、pLSA) SACC20• 抽象度高、用法多样、实时性能 嵌入表示模型(xxx2vec) • 局部敏感、连续空间、时序敏感 《自然语言处理技术在推荐系统中的应用》 http://geek.csdn.net/news/detail/208281
16. 挑战2S:AC时C效20敏17感性
17. 时效敏感性的含义 通用时效性 • 对用户的行为作出实时反馈 2017卖家维度 SACC• 希望自己发布的商品尽快得到注意 买家维度 • 倾向于与新发布的商品进行交互
18. 时效敏感性的挑战 Vanilla CF算法无时效性概念 新格用发式户、布/商逻商品辑品画不行像统为S离A一数线C,据、C稀实分2疏时0散1化生7难成度大
19. 时效性应对方案:CF侧 CF召回策略实时化 CF使鼓基算用于励法实行时时为效时效性行时性为更间优S间强召A化回的隔C短数CFC相的据2关行0商为1品7 使用nearline方式计算近实时增量Cf数据
20. 时效性应对方案:画像侧 SACC2017
21. 时效性应对方案:综合 17数据层 C20• 数据生成实时化 SAC• 生成策略时效性优化 策略层 • 挖掘实时行为 • 商品时效性限定
22. 挑战3:复杂SA策C略C2下01的7 性能压力
23. 复杂策略 CF策略×6 特征查找×2 相关性召回 用户画像策略×6 S模A型模C型预C排测序2×0217 托底策略…… 日志记录…… 商品过滤 业务规则 业务降权 信息拼接……
24. 性能压力 • 外部存储、网络交互 召回 • 策略设计、多步交互 排序 • • 模特型征预运测算、、S日特A志征C记查C录找2017 • 属性过滤、规则降权 业务 • 信息拼接、其他需求
25. Pull-based架构特点 中心思想 所有操作均在用户请求发生时实时进行 缺优时点点效性、新鲜S度ACC2017 性能压力大 扩展难度高
26. Pull-based架构示意 SACC2017
27. 思考:实时计算的必要性 是否每个步骤都必须实时计算? 离线相关策略每天计算一次即可 实时相关策略可提前进行计算 017还有哪些可行的计算触发时机? CC2离线:凌晨计算、定期更新 SA在线:行为发生时计算 牺牲的时效性/新鲜度如何弥补? 缓存过期 定时更新
28. 新方案:推拉结合 最终目标 将逻辑计算与请求处理尽量分离 推拉赋多维予系度触统更发强时机的S计主A算动C推能C送力2数0据1变7更 请求到来时直接获取计算好的数据 细节 缓存过期、活跃度预测……
29. 推拉结合方案架构示意 SACC2017
30. 推拉结合优缺点分析 017优点 CC2• 计算分离,性能提升 SA• 近线计算,算能扩容 缺点 • 设计复杂,细节繁多 • 新鲜度缺乏足够保证
31. 分享提纲 C2C市场及其特点介绍 挑S战A与CC应2对017 总结
32. 总结 挑挑战战21::用买S户卖A发双C布方C的的2数时0据效17异敏质感性性 挑战3:复杂策略下的性能压力
33. SACC2017zhangxy@live.com