3 58本地服务场景下的流量分发算法实践 陈琳

deathconquer

2020/04/24 发布于 技术 分类

文字内容
1. 【第4期】58同城推荐系统直播
2. 【第3讲】本地服务场景下的流 量分发算法实践 分享嘉宾:陈琳-58算法架构师
3. 58技 术 公 众 号 DataFunTalk公 众 号
4. 自我介绍 陈琳 + 曾先后就读于浙江大学、北京邮电大学 + 曾先后工作于朗讯贝尔实验室、阿里巴巴集团、58集团 + 曾负责核心网应用、搜索、推荐等系统 + 58本地服务事业群算法策略部负责人 + 邮箱:chenlin05@58.com + 微信/QQ:99916225 58陈琳
5. 目录 + 58本地服务介绍 + 本地服务主站流量分发特点和问题 + 本地服务主站流量分发解法 + 总结和展望 58陈琳
6. 58本地服务生态 主站 服务控制 流量投放 8技 商家中台 到家 公 众 号 5 术 a D 到店&电商 合伙人网络 做难事必有得! F a t T n u k l a 58陈琳
7. 58本地服务流量形态 5 主站 链接数,CTR,CVR,Call/UV…. 8技 术 公 到家精选 众 GMV,订单转化率,复购率…. 号 a D 城市合伙人 效果转化率,ROI,DAU…. F a t T n u 到店 k l a GMV,订单转化率,复购率…. 58陈琳 电商 GMV,订单转化率,复购率….
8. 58本地服务流量分发 搜索? 推荐? 帖子 标签 服务 商品 任务 …… 5 8技 术 公 众 a D 算法 搜索推荐系统 场景化 信息资产 关注用户体验 号 + 提高连接效率 F a t T n u k l a 58陈琳 流量精准触达 + 提升收入变现能力
9. 58主站用户交互流程 列表页上点击 用户 曝光 帖子标题 价格 商家信息 图片,etc.. 搜索词 众 CTR 技 8 5 流 失 术 公 号 详情页上点击 如何增加CVR? k l a 沟通环节 帖子详情页信息 点击行为 内容(评论等) t a D aF T n u 电话/微聊 58陈琳 线下成交
10. 主站流量分发特点和问题 信息同质化 + 信息堆叠严重 + 可区分度差,部分帖子只有一句话 人群结构复杂 凡是让你痛苦的,都是来成全你的! + 存在未登录用户、新用户、低活用户等 制定差异化的推荐策略,并且针对性地优推荐模型 号多行业多场景多种类多目标lk 众 a + 200+个基本不相关的行业 T 决策周期问题 公 n + 十几个场景位,首页/大类/列表/详情/标签落地页 + 长周期与短周期共存 u 术 + 帖子,商家,店铺,类目,标签 + 轻决策与重决策共存 F a + CVR, CTR, CALL/UV等 技 t + 短期低频,相同需求非高频激活, 8 a 生命周期短 5 D 家装/保姆月嫂-》长周期、保洁/管道疏通/家电维修-》短周期 电话链接总量,PV-CTR,SHOW-CTR,UV-CTR,UV,PV,帖子展现量,帖子点击量,帖子点击人数,列表详情UV,列表-详情PV,列表电话拨打数,列表电话成功数,列表-详情电话拨打数,列表-详情电话成功数
11. 58本地服务主站流量分发解法 一盘死棋如何破局? 技 8 5 术 公 众 号 a D F a t T n u k l a
12. 信息结构化-发布结构化 5 8技 术 服务标准化 公 众 号 a D + 服务智能定价 F a t + T n u k l a 58陈琳 相册自动分类
13. 信息结构化-服务标准化 SPU-标准化产品 SKU-最小化产品 技 8 5 术 公 众 号 a D F a t T n u k l a 标准化服务: SPU:金杯车 SKU:100元/10公里起、超公里 1/KM、1师傅、100元/床拆装、 30/冰箱 58陈琳 搬家价格=235元
14. 信息结构化-标签化 公 如果 技 8 5 术 不能很好契合用户的关注(召回与展示) 众 号 a D F a t T n u k l a 58陈 琳 更好契合用户关注
15. 信息结构化-标签化 数据源 8技 场景标签 5 备选词 挖掘 术 公 应用 场景 众 号 标签词 融合 备选库领域 业务领域 行业标签 a t a 打标 u F D行业削歧 类目标签 停用词库 标 签 归一 领 域 nT k l a 同义词库 归一规则 58陈琳 基础标签
16. 信息结构化-标签化 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
17. 58本地服务主站流量分发解法 一盘死棋如何破局? 技 8 5 术 公 众 号 a D F a t T n u k l a
18. 知识结构化-场景化标签体系 通用标签:10W+ 行业标签:40W+ 5 8技 术 公 众 号 D a t a u F nT k l a 覆盖类目:200+ 标签筛选 热词推荐 找相似 58陈琳猜你喜欢 智能摘要 。。。
19. 知识结构化-标签关系 5 8技 维度 术 + 公 众 号 a D 种子词 + F a t 短文本相似 T n u + k l a 58陈琳 滚动迭代
20. 知识结构化-用户场景构建 升级前 5 8技 术 公 众 号 升级后 a D F a t T n u k l a 58陈琳
21. 知识结构化-用户场景构建 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
22. 知识结构化-类目标签 合并 + 搜索词类目预测:PMI + 帖子标题的类目词相似度:Tagging=>词频 + 用户行为数据 号 * 用户转化行为前24小时内点击过的帖子所在的类目和个数 * 取出TOP3类目,且同类目下的帖子点击数要大于阈值以减少误点 * 计算频繁项集 公 众 + 用户随机游走计算类目相似度 术 * 获取用户的商品点击、电话序列。 * 若两个不同类目帖子之间点击,分数为1 * 若点击与电话为不同类目,分数为5 * 根据构造出来的类目图关系,RandomWalk产生行为序列,SkipGram计算向量 * 计算类目之间的cos相似度 5 8技 a D F a t T n u k l a 58陈琳
23. 知识结构化-类目标签 拆分 + 通用知识图谱 + 帖子图聚类 * 根据用户行为获取两个帖子之间的点击、电话序列,给与不同权重构造I2I关系图 * 基于标签传播聚类对图进行聚类,得到帖子聚类表,每个帖子对应到一个集合 * 对图进行DeepWalk,训练帖子的向量 * 集合下所有的帖子,计算其平均embedding表征集合 * 计算集合之间的相似度 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
24. 用户意图感知 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
25. 用户意图感知 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
26. 58本地服务主站流量分发解法 一盘死棋如何破局? 技 8 5 术 公 众 号 a D F a t T n u k l a
27. 分层优化-召回优化 “关键字+标签/场景混合索引” + “关键字+用户行为+用户标签/场景混合召 回” 意图分析 用户上下文 画像:年龄、性别、职业等 场景:搬家、家电维修、租车等 标签:拆装服务、车型、品牌 行为:搜索、筛选、浏览、点击、 收藏、评价、微聊、电话 技 8 5 术 意图树 公 众 号 意图识别系统 搬家 空调移机 公司搬家 起重吊装 拆装服务 k l a 布尔召回 a D T n u 家电维修 F a t 行李搬运 空调加氟 ‘query’ OR (‘query’ AND ( 场景 or 标签 or 店铺 or 服务SKU) ) 搜索引擎 关键字:帖子列表 帖子:行为相似帖子列表、 内容相似帖子列表 店铺:帖子列表 标签:帖子列表 场景:帖子列表
28. 分层优化-召回优化 向量召回泛化能力强,提升召回深度 128 128 256 256 256 1K 1K 1K 10K 10K 10K 500M 100M 1B USER ACTION ITEM 公 256 技 8 5 术 号 128 128 众 F a t 1K a D 10K 1B ITEM T n u k l a
29. 用户意图表征-数据准备 借鉴深度学习Transfer Learning思想 引入腾讯AI Lab中文词向量做Pre-training结果 1 2 近期帖子文本内容 文本清洗 众 Pipe Line 技 8 5 术 号 分词,标签化序列 公 文本语料库 a D Redis F a t k l a 标签/热搜词 向量初始化 T n u 腾讯词向量 Skip-gram模型 58陈琳 标签库、 热搜词 相关性TopN计算
30. 用户意图表征-召回添加预训练优化效果 第1,2步优化效果 Ø Ø 人工评测:相似召回率 +239%, 准确率 +300% , 线上验证:标签推荐CTR +4% 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
31. 用户意图表征-数据准备 借鉴深度学习Transfer Learning思想 引入腾讯AI Lab中文词向量做Pre-training结果 1 2 近期帖子文本内容 文本清洗 众 Pipe Line 3 术 公 用户近一段时间行为序列 技 8 5 号 分词,标签化序列 Pipe Line 文本语料库 清洗过滤 a D Redis F a t k l a 标签/热搜词 向量初始化 T n u 腾讯词向量 Skip-gram模型 58陈琳 标签库、 热搜词 相关性TopN计算
32. 用户意图表征-加入行为技巧 Session1 Session2 数据增广,长序列分解 28418 87658 4845 92230 89401 174173 58721 61528 113752 79095 75460 Dropout增强泛化 >24hour Original Session tag1 tag2 Training Seq1 tag1 tag2 Training Seq2 tag1 tag2 5 8技 术 tag3 公 众 tag3 tag1 tag2 tag3 Dropout Seq1 tag1 tag2 tag3 Dropout Seq2 tag1 tag2 tag3 Training Seq3 号 tag4 tag4 tag4 a D F a t T n u k l a 58陈琳
33. 用户意图表征-加入行为技巧 Session1 u1 t1,1 t1,2 t1,3 Session2 u1 t2,1 t2,2 t2,3 Session1 u2 t1,1 t1,2 t1,3 Session1 u3 t1,1 t1,2 Session2 u3 t2,1 众 User1 User2 User3 t1,2 t1,3 t1,4 S0 8技 S1 t1,1 U1,0 t1,5 t1,2 5 t1,3 公 t2,2 术 t1,4 记录用户Session状态信息,初始化状态训练 t1,4 号 t2,3 t2,2 U1,1 t2,3 t2,4 Session state init S2 t2,1 t1,4 用户个性化信息如何记录? t2,2 t2,3 a D F a t T n u U1,2 k l a 58陈琳
34. 用户意图表征-召回添加行为优化效果 第3步优化效果 Ø 标签推荐CTR +15% 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
35. 用户意图多目标表征 共享、通用、可迁移 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
36. 用户意图多目标表征-几点启示 CTR AUC + 相关任务 0.8 + 增量学习 0.75 + 解决稀疏问题 号 0.7 + 泛化特征更有效,其他任务相当于附加了正则项 0.65 + 单任务的训练集指标较低,测试集较高 0.55 公 众 + 加入Word2Vec可有效降低参数量 术 0.6 0.5 + 离线在线样本的分布尽量保持一致 5 8技 D 0 a t a 0.2 u F nT k l a 0.4 Multi 多,迁移快,效果好,省存储和开发资源 支持场景目标 0.6 0.8 Single 58陈琳 1
37. 用户意图表征-召回多目标表征效果 第4步优化效果 Ø 标签推荐PV CTR +1.8% , UV CTR +1.4% 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
38. 分层优化-排序优化-实时意图 + 帖子的标签权重。不重要不具 有区分性的标签的权重相对较小 + 用户对帖子行为距离当前的时 行为收集 实施消费 浏览详情页 搜索筛选 微聊 号 数据清洗 点击标签 打电话 意向读写 5 8技 术 公 众 行为更新 行为存储 过期管理 权重计算 分值衰减 …… Query Full => Query Less a t a u F nT 意向值计算 D 间。时间越近的影响越大,不同 k l a 品类的标签衰减不同 + 行为的类型,包括搜索、筛选、 点击、电话等对不同的行为类型 设置不同的权重 58陈琳
39. 分层优化-排序优化 降维 上下文感知 5 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
40. 分层优化-展示优化 基于服务标签、用户行为等数据,使用智能策略,让 展示的商家更契合用户关注。 5 8技 术 公 众 号 标题 标签 a D F a t 简介 T n u k l a 商家服 务能力 展示 图片 58陈琳 其他 粒度小,接入灵活,聚焦算力
41. 分层优化-展示优化-智能摘要 提高用户体验 服务展示更匹配用户关注 技 8 5 术 公 众 号 a D F a t T n u k l a 用户关注 58陈琳
42. 分层优化-实时意图效果 Ø • 标签推荐 CTR +1.2% Ø • 帖子推荐 大类页CALL/UV 技 8 5 智能摘要 CTR +0.42% 内容标签 分值 标签 分值 钢琴搬运 0.181516 货车 0.350126 搬运 0.200967 众 号 长途搬家 术 Ø • +13% 公 0.176566 打包服务 0.187837 家具拆装 0.213424 货车 0.150187 夜间服务 0.151868 厢货车 0.117934 。。。 。。。 a D ta u F nT k l a 夜间服务 0.301967 长途搬家 0.273566 打包服务 0.247237 家具拆装 0.183424 。。。 。。。 58陈琳
43. 58本地服务主站流量分发解法 一盘死棋如何破局? 技 8 5 术 公 众 号 a D F a t T n u k l a
44. 系统整合优化 + 算子化 + 组件化 + 配置化 + 场景化 + 一体化 + 减少重复数据 + 算法共享 5 + 减少开发成本 8技 术 公 众 号 a D F a t T n u k l a 58陈琳
45. 总结和展望 + 重排序 + 品类交叉推荐 + 拼单推荐 + 周期推荐 + 闭环反哺开环 + 社交关系分发 技 8 + 利益驱动分发 5 术 公 众 号 + 流量分发与生态建设:规则?算法? a D F a t T n u k l a 58陈琳
46. Q&A + nlp技术在推荐中的落地? + 多任务多目标模型如何能获得好的效果? 号 + 多业务多目标融合推荐如何优化衡量? 5 8技 术 公 众 a D F a t T n u k l a 58陈琳