郑华 - 宜信大数据金融云平台实践

邛韦柔

2018/05/13 发布于 技术 分类

郑华 宜信大数据创新中心研发总监 2007年毕业于清华大学电子工程系,获得学士,硕士学位。毕业后加入美国著名视频平台Hulu工作,是Hulu最早的员工之一。离开Hulu之前是Hulu算法和数据平台团队的负责人,带领团队从头搭建并全面负责Hulu的视频推荐系统,广告精准投放平台,用户智能平台,以及大数据处理平台等。2013年加入宜信大数据创新中心任研发总监,目前负责大数据处理平台,大数据实时授信平台,大数据驱动的反欺诈和风险管理引擎等。

文字内容
1. 宜信大数据金融云平台实践 郑华,宜信大数据创新中心研发总监 huazheng@creditease.cn
2. 概述 • 宜信金融云平台 • 知识图谱 • 商通贷 • 展望
3. 宜信金融云平台 致力于打造世界一流的金融云平台,为宜信 自身的各项业务以及宜信生态圈内合作伙伴 的各项业务提供最好的金融云服务
5. 知识图谱概念 • 知识图谱是一种数据表现形式,采用自然知识中 entity-property-link的形式,拥有强大的表现能力 和扩展能力,为knowledge-based reasoning提供基 础。 • 以entity为中心,每个entity拥有独特的属性值, entity之间有多样的关联关系 • 灵活的schema,增加新的知识更加简单; • 新应用可以无缝重用已有数据,加快开发进度
6. 知识图谱的应用 • 实体查询 黑名单查询:直接匹配 & 间接联系 客户查重 • 实体扩展 通过属性查询实体 => 获取实体的其他属性 获取相似实体 • 知识查询 例:XX公司的法人是否有失信记录 例:XX写字楼中有多少家机构入驻 • 个性化问答 由客户信息生成个性化问题 根据客户回答,检测虚假身份等欺诈风险
7. 知识图谱的建立 元数据 定义 数据获 取和转 化 数据间 关系确 立 提高系 统智能 提高系 统性能
8. 知识图谱的元数据定义 m:people.person'>m:people.person'>m:people.person'>m:people.person rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type owl:Class'>owl:Class ; rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label "人"^^xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string ; rdfs:subClassOf'>rdfs:subClassOf m:common.topic'>m:common.topic ; m:people.person'>m:people.person'>m:people.person'>m:people.person.name rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type owl:DatatypeProperty ; rdfs:domain'>rdfs:domain m:people.person'>m:people.person'>m:people.person'>m:people.person ; rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label "姓名"^^xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string ; rdfs:range'>rdfs:range xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string ; m:people.person'>m:people.person'>m:people.person'>m:people.person.work_at rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type owl:ObjectProperty ; rdfs:domain'>rdfs:domain m:people.person'>m:people.person'>m:people.person'>m:people.person ; rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label "工作单位"^^xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string ; rdfs:range'>rdfs:range m:organization.organization'>m:organization.organization . m:organization.organization'>m:organization.organization rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type'>rdf:type owl:Class'>owl:Class ; rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label'>rdfs:label "组织"^^xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string'>xsd:string ; rdfs:subClassOf'>rdfs:subClassOf m:common.topic'>m:common.topic ;
9. 知识图谱的数据转化 {e:borrower_1, rdf:type,'>rdf:type, m:finance.borrower "en:baomrreo"w: e"张r_1三, m",:people.person.name, "张三" "ep:bhoornroe"w:e"r1_318, 0m0:1p3e8o0p0le0."p,erson.phone, "13800138000" "eh:boomrreo_waedrd_r1",:m"北:pe京o市ple朝.p阳ers区on温.h特om莱e_中ad心dr",,e:location_1 "ec:boomrproawnye_r_n1a,mme:"p:e"o宜pl信e.p普er惠so"n,.work_at, e:company_1 "ec:loomcaptaionny_1te, lr"d:f:"t4y0p0e-,6m09:c9o-m80m0o"n.location }e:location_1, m:common.location.full_addr, “北京市朝阳区温特莱中心" e:company_1, rdf:type,'>rdf:type, m:finance.company e:company_1, m:finance.company.name, "宜信普惠" e:company_1, m:finance.company.telephone, "400-6099-800"
10. 知识图谱的架构
11. 知识图谱的写入
12. 知识图谱的检索
13. 知识图谱小结 • 将所有的信息类别以统一的形式组织起来 并建立连接关系,给了我们一个全新的视 角来观察世界,开启数据管理的新模式 • 知识图谱的网状数据和人工智能与机器学 习结合,能顺畅的使用所有能取得的数据, 可以让大数据给互联网金融和征信带来更 多地机会。
14. 大数据给互联网金融带来什么 • 精准获客 • 反欺诈 • 风险评估 • 实时授信 • 交叉销售 • 贷后管理 •…
15. 贷款流程 客户信息 标签/特征 • 申请信息 • 授权信息 • …… 知识图谱 +姨搜 • 扩展信息 • 客户画像 • …… 风控模型 • 反欺诈 • 实时授信 • ……
16. 商通贷 Working Capital At Fingertips • 实时授信 • 全线上 • 低门槛 • 全平台支持 • 开放平台
17. 商通贷 – 流程
18. 三大要素 • 大规模精准获客 • 优秀的风险管理 • 客户的高粘性
19. 商通贷 – 获客 网络 获客 客服与 BD回访 合作 伙伴 运营活 动 进件转化
20. 商通贷 – 网络获客 • 通过爬虫定向抓取平台上所有的店铺 • 根据店铺的创建时间,品类,评级,评价 (Detailed Seller Ratings),上架货物,单价及订单 数等公开信息,过滤出符合进件条件的店铺,并 制定相应的营销策略 • 通过站内信,自动聊天等方式进行第一轮自动营 销,筛选出感兴趣的客户后,采用人工的方式电 话或者线下拜访进行转化
21. 商通贷 – 欺诈风险 • 身份:平台账号,ID5,交叉验证,问答小姨 • 行为:网络活动,经营活动 • 关系:图谱搜索
22. 商通贷 – 欺诈风险
23. 商通贷 – 信用风险 • 还款意愿+还款能力 • 综合客户的基本信息、网店经营数据、个人信用 数据、个人消费数据和互联网信息等,计算客户 的综合信用评分,根据评分决定审批和风险定价 • 根据客户还款能力和实际的资金需求进行实时授 信
24. 商通贷 – 平台数据维度 • 经营 • 持续经营时间 • 经营规模 • 经营稳定性 • 周转速度 • 现金流 • 物流 • 客户 • 客户规模 • 客户来源 (免费,收费,etc) • 客户评价 • 网络人气和口碑 • 行业 • 行业竞争力 • 行业风险 •…
25. 商通贷 – 平台数据获取 • 合作伙伴提供; • 采用OpenAPI的方式获取; • 或者安装“商通贷助手”插件的方式获取数据; • 或者QQ远程截屏征信;
26. 商通贷 – 商通贷助手
27. 商通贷 – 个人信用数据 • 央行征信报告 • 宜信内部贷款记录 • 其他贷款记录 • 信用卡还款记录 •…
28. 商通贷 – 评分模型 • 数据特点 • 少量强特征 + 大量弱特征(碎片化,缺失率高) • 与预测目标呈非线性关系 • 可解释性 vs. 预测效果 • 模型 L1 Logistic Regression 挖掘海量弱特征 Random Forest 处理强特征 模型融合
29. 商通贷 – 授信模型 • 考虑客户的资金需求和还款能力 • 综合行业趋势(外贸出口/进口,内贸,电商),平 台发展(ebay,amazon, wish,移动,微商),经 营品类(服装,3C,母婴,汽配),销售市场(欧美, 发展中),DSR,流量来源,市场能力,销售额, 利润率,增长率,贷款期限,周转天数,季节因 素,运营开支,外部负债等等
30. 商通贷 – 贷后管理 • 根据客户的还款情况以及平台的最新数据,计算 客户的行为评分 • 依据行为评分,采取一定的贷后管理措施,比如 主动提额或者提前催收 • 对于失联客户,找到可能的联系方式,以帮助催 收
31. 商通贷 – 客户粘性 • 极低的坏账率 • 很高的循环贷比例 • 不错的客户口碑
32. 商通贷 – 大数据应用 • 获取数据:内部,第三方,客户授权,网 上公开信息 • 了解客户:客户画像 • 精准获客:网络抓取,自动定制化营销配 合线下转化 • 反欺诈:身份,行为,社交 • 风险评估:大数据信用评分模型,收益覆 盖风险 • 授信模型:客户需求,还款能力 • 贷后管理:行为评分,失联查询 •…
33. 展望 • 构建生态系统,接入更多的数据和流量 一切数据的变现伙伴 • 更多的创新应用 风控,互联网金融