爱奇艺推荐中台探索与实践 张时骏

Razor

2019/10/19 发布于 技术 分类

文字内容
1. 爱奇艺推荐中台探索与实践 张时骏 爱奇艺高级经理
2. 自我介绍
3. 自我介绍 毕业于上海交通大学计算机系,现任爱奇艺高级技术经理一职,爱奇艺推荐中台的总架 构师。在爱奇艺从事推荐引擎架构和开发工作,近几年专注于分布式高并发线上引擎的 架构,搭建了热点信息流、小视频信息流等推荐引擎。目前正在致力于爱奇艺推荐中台 的建设,旨在帮助公司内各业务团队能够以低成本、高效率、高产出的方式获取一套完 整的推荐服务及其周边配套设施,快速实现业务目标。
4. 目录 • 推荐中台背景 • 推荐中台架构 • 推荐中台实践 问题一:推荐形式不同 问题二:推荐实体不同 问题三:推荐需求不同 • 业务对接效果
5. 推荐中台背景 需求排期,堆积如山 业务方重复造轮子
6. 推荐业务 小视频 热点 动漫 看点
7. 推荐实体 横屏视频 漫画 竖屏小视频 图文 直播
8. 推荐形式 个性化推荐 信息流推荐 相关推荐 主题推荐
9. 推荐需求 入场规则 时效性 多样性 AB实验
10. 目录 • 推荐中台背景 • 推荐中台架构 • 推荐中台实践 问题一:推荐形式不同 问题二:推荐实体不同 问题三:推荐需求不同 • 业务对接效果
11. 推荐闭环 用户 引擎 行为数据 算法 实体数仓 推荐池
12. 推荐中台整体架构 爱奇艺 TO C 个性化用户触达系统 爱奇艺APP PPS 泡泡 好多 纳豆 爱奇艺 TO C 短视频推荐触达系统 姜饼 无际 … PC APP VR TV … 多端适配(APP/PC/H5/PAD/VR/TV…) 爱奇艺推荐中台 特殊策略干预 融合控制 多路召回 排序 (粗排,精排、Rerank) 通用推荐池平台 用户兴趣试探 通用特征服务 基础内容理解组件 基础服务平台 审核平台 标注平台 用户数据 分析平台 新内容试探 通用AB TEST 平台 保量系统 基础用户画像 分布式在线机器 学习平台 大数据存储 和服务平台 内容生产系统 爱奇艺号 PGC优质内容 优质卡段(人工,AI)
13. 推荐中台内部架构 线上 引擎 用户兴趣 召回 过滤 粗排 精排 多样性控制 Workflow 配置平台 基本配置 用户画像 特征工程 召回模型 排序模型 静态画像 Meta特征 热门召回 LR 短期画像 统计特征 相关召回 FM 中期画像 向量特征 协同召回 GBDT 长期画像 内容 理解 推荐池 环境特征 DNN 向量召回 模块配置 报表 效果总表 内容标签 分类体系 视频 图文 直播 深度特征 漫画 质量评估 轻小说 … AB实验 报表
14. 推荐中台内部架构:推荐池 推荐池运维服务 推荐池数据服务 近实时Hbase表 snapshot文件 推荐池通用逻辑层 实时更新消息 去重mapping 一站式workflow 配置平台 辅助功能 业务推荐池孵化器 实体关联 通用缓存 通用去重 规则引擎 统一数据拓 扑/字典 通用元数据 转换 数据补偿/ 纠错 干预后台 准入/过滤/ 退场 自动化部署toolkit 业务去重 数据校验 漏斗分析 HA 实时监控 适配数据生产源 长,短,小视频 爱奇艺号数据 智能特征库 用户行为数据 非视频数据 自定义数据源
15. 推荐中台内部架构:内容理解 内容理解 服务 在线服务 业务定制 化组件 产品标签体 系定制 通用内容 理解组件 分类体系 消息推送 智能特征库 产品用户群行 为适配 内容标签 业务线标准适配 内容深度表示 质量评估 内容风险评估 多模态特征融合 内容理解 基础技术 文本理解 图像理解 视频理解 音频理解
16. 推荐中台内部架构:特征工程 特征仓库 特征文件 特征运维 实时特征 消息 特征查询 特征数据 meta特征 附加服务 统计特征 深度特征 离线特征计算平台 任务监控 数据转化 特征归一化 meta特征 计算框架 统计特征 计算框架 外部特征 接入框架 特征ID服务化 数据规范 服务降级 HA 实时特征计算平台 实时/离线规 范统一 流式ETL 处理框架 实时meta 特征框架 实时统计 特征框架 细粒度延迟 监控告警 多机房互备 (HA) 实时特征归 一化 session特征 框架 特征数据源接入平台 业务隔离 特征校验 用户行为实时ETL 数据源解析 正排服务化 特征运维部署平台 一站式workflow配置平台 解析配置
17. 推荐中台内部架构:算法 数据接入 数据格式规约 数据同步流程 画像 业务画像 标准化标签 静态兴趣 计算 短期兴趣 数据清洗 中期兴趣 兴趣计算 长期兴趣 兴趣衰减 标签扩展 兴趣合并 基础画像 全站基础 画像 样本处理流程 召回 标签 数据抽取 配置文件 数据监控 超时监控 覆盖监控 排序 策略 厌倦惩罚 召回配比 质量控制 模型 监控 线性模型 离线评估 树模型 产出校验 多模型融合 冷启试探 • 新用户模版召回 • 兴趣不足时的召回拓展 相关召回 • 实体词&主题词召回 • 分类召回 • 语义Embedding模型 协同召回 • Item协同过滤 • 行为Embedding模型 热门召回 • 全局热门 • 区分用户群的热门 深度学习 模型 多目标模型 融合
18. 推荐中台内部架构:引擎 UI 一站式workflow配置平台 上线部署配置平台 AB实验配置平台 Root服务 人工干预 用户兴趣服务 兴趣获取 兴趣衰减 兴趣试探 负反馈过滤 兴趣冷冻 融合控制 定向运营 召回服务平台 向量召回服务 向量召回 倒排召回服务 标签召回 保量系统 AB分流 多语言 粗排服务 精排服务 单路粗排 多目标精排 多路粗排 多样性控制 智能降级 多样性控制 模型Rerank HA 模型服务 协同召回 附加服务 LR GBDT FM 实时监控 回滚机制 DNN 服务发现 特征服务 离线特征 实时特征 特征填充 特征转换 引擎现场 调用链
19. 目录 • 推荐中台背景 • 推荐中台架构 • 推荐中台实践 问题一:推荐形式不同 问题二:推荐实体不同 问题三:推荐需求不同 • 业务对接效果
20. 问题一:推荐形式不同 个性化推荐 信息流推荐 相关推荐 主题推荐
21. 解决方案一:统一接口 参数 area passport_id device_id context_id session_id theme_id 含义 推荐区域,绑定策略配置 登录ID 设备ID 上下文ID,相关推荐 会话ID,翻页去重 主题ID,主题推荐
22. 解决方案一:统一流程 是否个性化 Y 用户画像 一级召回 一级排序 N 请 求 是否主题模式 Y 是否信息流 推荐历史 N Rerank Y N 二级召回 二级排序 响应
23. 解决方案一:召回仓库 热门召回 标签召回 协同过滤 协同召回 主题召回 地域召回 向量召回 Word2Vec DSSM
24. 解决方案一:模型仓库 Logistic Regression Wide & Deep GBDT Factorization Machines DeepFM
25. 目录 • 推荐中台背景 • 推荐中台架构 • 推荐中台实践 问题一:推荐形式不同 问题二:推荐实体不同 问题三:推荐需求不同 • 业务对接效果
26. 问题二:推荐实体不同 横屏视频 漫画 竖屏小视频 图文 直播
27. 解决方案二:统一实体字段 通用字段定义 业务独有字段定义 原始字段名 映射字段名 id Id name/title name picture_url/cover_url picture_url first_publish_time first_online_time first_publish_time is_valid/is_online is_valid live_status liveroom_live_status
28. 解决方案二:推荐池合并 中台业务 同类推荐池 公共层数据 爱奇艺 小视频 好多 小视频 片段 竖屏视频 公共池 横屏视频 公共池 视频公共 数据 VLOG 剧头条 影讯 奇秀直播 游戏直播 图文公共 池 直播公共 池 图文公共 数据 直播公共 数据
29. 解决方案二:通用特征 通用特征 展示量 点击量 点击率 长点击率 平均观看时长 消费金额 新鲜度 热度 …
30. 解决方案二:自定义特征 业务方提供特征
31. 目录 • 推荐中台背景 • 推荐中台架构 • 推荐中台实践 问题一:推荐形式不同 问题二:推荐实体不同 问题三:推荐需求不同 • 业务对接效果
32. 问题三:需求不同 入场规则 时效性 多样性 AB实验
33. 解决方案三:入场规则脚本 业务方提供入场规则脚本
34. 解决方案三:引擎在线过滤插件 业务方提供LUA过滤脚本
35. 解决方案三:可配置化 时效性配置 多样性配置 配置平台 保量配置 运营配置 AB实验 报表系统
36. 目录 • 推荐中台背景 • 推荐中台架构 • 推荐中台实践 问题一:推荐形式不同 问题二:推荐实体不同 问题三:推荐需求不同 • 业务对接效果
37. 业务对接效果 提升30%以上
38. 未来展望 提升对接效率/自动化 提升推荐效果/算法优化
39. Q&A