京东搜索 尹德位:京东亿级流量海量数据搜索架构

乔向薇

2017/11/14 发布于 技术 分类

作为京东重要的流量入口,搜索是京东电商生态中的核心系统。京东搜索系统经过多代发展,现已支持每日数亿PV请求,为中国几亿用户提供高效精准的搜索服务。经过持续的迭代优化,系统伸缩弹性和通用性进一步完善,在数据增长与成本控制之间找到最佳结合点,如今已成长为可支持百亿数据级的高性能高并发分布式搜索系统。

文字内容
1. 京东亿级尹流德S量位A@海C京C量东20数搜1索7据搜索架构 yindewei@jd.com 2017/10/21
2. • 搜索系统简介 • 搜索架构演进之路 • 搜索S系A统C的C发20展1与7挑战
3. 索引 量 召回 率 精准 率 排序 实时 性 个性 化 多样 性 电商 搜索 普通 门户 搜索 大 高 普通 SACC2017高 多维 度 分流/提权 高 (部分 信息秒 级) 普通 文本 相关性 竞价 排名等 普通 高 (千人 千面) 普通 丰富 (排序/导航) 普通
4. 移动搜索页 — 智能终端入口 SACC2017
5. 京东开普勒系统 — 京X计划 SACC2017
6. PC搜索页 — 重要入口之一 SACC2017
7. 京东搜索系统规模概况 流量 入口 APP/PC/WX/QQ 头条/百度/网易 索引 量 十亿 级 日更 新 用户 数 SACC20亿亿1级级7 日PV 十亿 级
8. • 搜索系统简介 • 搜索架构演进之路 • 搜索S系A统C的C发20展1与7挑战
9. 搜索架构V1 — 2011年 系统结构:简单 数据量级:百万 更新方式:全量 DB Dump Worker Forward Index Invert Index SACC2017Index Worker Search Service
10. 搜索架构V2 — 2013年 系统结构:分库分表+实时索引 数据量级:千万 更新方式:全量+增量 Full Data DB 1 ... DB n Dump Worker Inc Data Real-time message Forward Invert SACC2017Index 1 ... Forward Index n Index Worker Index 1 ... Invert Index n Engine Merge Real-time Index Search Service
11. 搜索架构V3 — 2014年 系统结构:离线hadoop处理 数据量级:亿级 更新方式:全量+增量 Full Data Hadoop DB 1 2017... SACCDB n Aggregation Wide Table Index Build (MapReduce) Forward & Invert Index Inc Data Real-time message Real-time Index Engine Search Service
12. 平行搜索(分布式)引擎 – 2016年 Online Search Service VIP Root Load Balancer P0 Leaf Data Producing Hadoop MapReduce DB1 DB2 DBn Parent SACC2017P1 Leaf Pn Leaf Detail Service Query Process Operation Process Offline Updating Online Updating Forward Index Invert Index Increment Data Center Third-Party Service Cache Cloud Personas Service Modify Message
13. 平行搜索(分布式)引擎 – 负载均衡管理 Root Load Balancer Parent SACC2017Data Detail s0 . . . . . . . . sn Personas Service Business QueryProcess Services Data Operation Process Data Cache-Cloud Indexer
14. 平行搜索(分布式)引擎 – 负载均衡管理 1.轮询 2.负载窗口机制 354...动集哈S希态群AC伸灾C备缩2017
15. 平行搜索(分布式)引擎 — 搜索流程示意 Load Balancer Root 19 3 20 7 8 Parent SACC201716 Data 18 11 13 17 9 Detail Personas Service s0 . . . . . . . . sn 15 14 2 Business Services 12 10 1 Cache-Cloud 4 QueryProcess Data 6 5 Operation Process Data Indexer
16. Request request flow 解析参数 请求Parent 请求Leaf Y Hit page cache Hit attr cache N 调用 User Service Y N 调用 QP 处理 搜索结果 调用Detail 详情封装 SACC2017Y N Y Attr only 召回增量结果 N Hit page Y cache Hit doc cache N 召回全量+ 增量结果 粗排序 Root Parent 在线业务 逻辑处理 Leaf 精排序 合并 分片结果 在线业务 逻辑处理
17. Request trilevel cache 解析参数 请求Parent 请求Leaf Y Hit page cache Hit attr cache N 调用 User Service Y N 调用 QP 处理 搜索结果 调用Detail 详情封装 SACC2017Y N Y Attr only 召回增量结果 N Hit page Y cache Hit doc cache N 召回全量+ 增量结果 粗排序 Root Parent 在线业务 逻辑处理 Leaf 精排序 合并 分片结果 在线业务 逻辑处理
18. Root VIP PC Mobile DNS DNS SRootACC201R7oot Services Engine Cloud
19. Parent Root SPAareCnt C2017 Load Balancer Personas Leaves Cloud
20. Leaf Parent Root Load Balancer Data Full/Inc/Sens Leaves SACC2017Partition 0 Partition k Partition n doc cache doc cache doc cache JIMDB Cloud doc cache doc cache doc cache doc cache doc cache doc cache
21. 索引数据生产 — 全量 Hadoop DB 1 全量数据P0 2017... Aggregation Wide Table Index Build (MapReduce) ... SACCDB n 全量数据Pn
22. 索引数据生产 — 增量 商品系统 价格系统 促销系统 库存系统 评论系统 数据中心 业务处理 数据融合系S统ACC20数1据引7擎 搜索引擎
23. 索引数据生产 — 敏感 价格系统 促销系统 库存系统 评论系统 数据融合系统 数据引擎 SACC2017 搜索引擎
24. • 搜索系统简介 • 搜索架构演进之路 • 搜索S系A统C的C发20展1与7挑战
25. 挑战一:数据量持续增长 SACC2017
26. 挑战二:搜索多维化 1.语音视频多维立体搜索 23..高智能度交个S互性A化CC2017
27. SACC2017 尹德位@京东搜索 yindewei@jd.com