鼎复数据 吴雪军 Fintech在智能投研的应用

揭璇珠

2018/02/22 发布于 技术 分类

鼎复的智能投研平台的基础是底层数据采集和结构化处理。创始人兼CTO吴雪军介绍,鼎复已从公开数据中采集海量非结构化数据并对碎片化的高价值数据持续进行深度挖掘。在数据层之上,进一步尝试构建知识图谱,包括人物图谱、产品图谱等,并借助知识图谱使投研更加智能、高效。

文字内容
1. 鼎复数据 2017.12.16 FinTech 在智能投研的应用
2. 鼎新革故,复往利亨——鼎复是一家Fintech公司 金融产业链 技术支持 资金端 传统 各类金融机构 ● 公募/私募/资管 ● 券商/保险 ● 会计师事务所 ● PE/VC ● 商业银行 ● 投资银行 ●… 网页搜索 数据库 文档/表格处理 报告 交易 鼎复 深度学习 知识图谱 智能建模 … 资产端 关键字: Fin- -tech 鼎复 2
3. 经过2年发展,形成成熟方法论和商业模式 从下至上,依次对应 ● 底层技术体系搭建 ● 各类数据挖掘积累 逻辑 ● 金融通用工具开发 ● 配合场景定制平台 是我们的实现路径与发展顺序。 ——亦是从通用到定制的 过程,以及技术颠覆人工 处理的难度加大过程 技术 2 通用工具 ● 智能搜索 ● PDF解析 ● 数据监控 3 ●… ●常规数据 ✓ 公告 ✓ 研报 ✓ 新闻 ✓ 统计 数据 平台 技术 ●另类数据Spider KG 1 ✓ 消费正文解析 ✓ ✓ 热微点信实时更新 ✓… NLP 机器学习 结构化抽取 ●私有数据 ✓ 审计 3 ✓ 调研
4. 团队方面:已形成资深、活力、靠谱的梯队 ●创始人,70s 郭眈 ➢ 百度七剑客 ➢ 工学博士 ➢ 斯坦福Sloan Fellow 张良华 ➢ 中金、黑石高管 ➢ 金融从业经验27年 ➢ 中国人民银行研究 生部硕士 ●执行层,80s ➢ 来自高盛、中金的专业人士担任金融联席总监 ➢ 来自百度自然语言理解人工智能专家担任技术总监 吴雪军 ➢ 阿里资深总监 ➢ 百度科学家 ➢ 天涯副总裁 ●核心团队,80+90s ➢ 核心研发人员来自BAT、搜狗、小米、微博等主流互联网技术公司 ➢ 自建百人金融标注团队,注重金融专业与标注经验 4
5. 技术架构:已拥有全面的技术实力与积累 结 构 个性化数 化据 抽 取 半结构化 数据 结构化 数据 非结构 化数据 图谱构建算法 格式转换 数据融合 逻辑校验 调度 系统 数据清洗 知识 图谱 语义消歧 数据归一化 spider集群 vps集群 数 Spider Spider Spider VPS 据 采 集 IP IP Cookie 动态代理池 模拟登录 公 开 研究 公司 数 报告 公告 据 源 百科 网页 资讯 结 知识框架(Schema) 机器学习 构 知识框架挖掘 逻辑构建 金 融 知 领域专家 识 框 架 化 知识框架管理平台 图谱存储架构 融合数据库 三元组(SPO ) 图数据库 关系数据库 产品应用 行业数据库 公告宝 贷阅 舆情预警 … 功能优化 增量更新 倒排索引 数值运算 容灾机制 逻辑推理 5 数
6. 如上模式+团队+构架,已得到广泛认可 资本市场认可 客户认可 市场认可 ➢2015年8月, ➢主动管理类规模第 ➢入选 公司创立,红杉 一梯队的公募基金公 2017年 领投2,700万 司 毕马威 ➢2017年3月, ➢全国性大型综合券 中国领 A轮融资,领沨 商 先金融 ➢百亿以上知名私募 科技50 6
7. 1 在数据采集方面 • 目标 ➢获取原始数据并进行初步处理 • 关键技术 ➢爬虫 ➢数据解析 ➢私有数据接入 ●关注指标 ➢准确率、召回率 ➢实时性 ➢稳定性 ➢可维护、可扩展 ●网页库 ➢规模:十亿+ ➢每日更新1,500万 ➢重要数据秒级更新 7
8. 数据采集流程 监 控 平 台 采集状态监控 资源占用监控 任务进度监控 配 置 平 台 采集任务 动态模板 账号信息 资源分配 私有数据配置 公开数据源 公 网页 资讯 有 文档 数 社交 据 数据 多媒体 采 spider集群 vps集群 数 Spider Spider Spider VPS 据 采 集 IP IP Cookie 动态代理池 模拟登录 垃圾 调 识别 度 算 法权威性 分析 负载均衡 高并发 采集 智能 链接去重 更新 集数 据 库 网站库 链接库 网页库 文档库 数据解析 统一数据接入 私有数据 私 文档类型识别 网页类型识别 动态页面渲染 PDF渲染解析 核心正文识别 内容去重 统一接口 私有文档 有 智能融合 私有半结构化 数 自动校验 数据 智能模版解析 半结构化数据提取 智能去重 权重管理 模版库 权限控制 半结构化 多媒体 数据库 数据库 据 私有多媒体 数据 接 私有网站 网页 入 8
9. 在数2 据抽取方面 • 目标 ➢从原始数据抽取结构化数据 • 关键技术 ➢结构化抽取 • 基于模板 • 基于机器学习模型 ➢数据融合 • 重要指标 ➢准确率 ➢召回率 算法分类 介绍 优点 基于模板 当数据匹配模板时 准率高; 进行知识抽取 效果相对可控; 基于机器学习模 通过机器学习算法 型 学习知识各因素关 系 扩展性好; 召回较高; 缺点 扩展性不好; 召回低; 准确率略低; 可控性略低; 9
10. 数据抽取流程 结 数 语义消歧 构 据 数据归一化 关系映射 结构化数据 化 正确性校验 数据融合 鼎复工具平台 众包校验平台 热度、关联数 据 网站实时 数据 格式转换 半结构化数据 自动校对 信息补全 表头识别 数值注解 智能抽取 在线学习 模版管理平台 数据管理平台 主题数据 表格分类 数 据 非结构化数据 智能模版 领域知识库 模型训练 非结构化数据标 注平台 原始数据 类 型 文档分类 人工标注 句法分析 专名识别 半结构化数据标 注平台 识 Schema 定义 分词 语义角色标注 别 10
11. 数据抽取产品举例-公告宝a半结构化数据 11
12. 数据抽取产品举例-公告宝b非结构化数据 12
13. 数据抽取产品举例-特定经营数据抽取 13
14. 数据抽取产品举例-行业新闻非结构化数据抽取 14
15. 数据抽取产品举例-PDfree 15
16. 数据抽取产品举例-PDfree 16
17. 在知3 识图谱方面 • 目标 ➢基于结构化数据构建金融知识图谱 • 关键技术 ➢知识框架(Schema) ➢高性能知识图谱架构 ➢图谱构建算法 ●金融知识图谱特点 ➢准确率高 ➢覆盖广 ➢实时性强 ➢逻辑性强 17
18. 知识图谱构建流程 图谱构建算法 金融知识图谱 应用平台 逻辑运算 格式转换 知识碎片 权限管理 调度 产 人 查询浏览 结 去重排序 系统 ? 逻辑校验 品 数据清洗 图 构 化 语义消歧 数据归一化 谱 数据融合 公 数 司 物 编辑删除 图 谱 接口调用 在线计算 事 件 智能推理 据 知识框架(Schema) 图 图 谱 谱 图谱存储架构 公司公告 机器学习 事件框架 融合数据库 功能优化 原 始 研究报告 知识框架挖掘 逻辑构建 行业框架 三元组( 金 SPO) 倒排索引 增量更新 融 财务框架 图数据库 知 数 新闻资讯 领域专家 识 框 据 知识框架管理 平台 架 通用知识框架 关系数据库 数值运算 容灾机制 逻辑推理 18
19. 知识图谱产品举例-贷阅智能摘要 19
20. 知识图谱产品举例-贷阅智能摘要 20
21. 知识图谱产品举例-公司图谱违约预警系统 21
22. 知识图谱产品举例-公司图谱违约预警系统 22
23. 总结,鼎复在产品端形成的BPC三条业务线 to B 各类“泛投研” 金融机构 ● 公募/私募/资管 ● 券商/保险 ● 会计师事务所 ● PE/VC ● 商业银行 ● 投资银行 ●… to Professionals to C 广泛的金融从业 海量 人员 互联网用户 ● 公告宝 gonggaobao.cn 预计今年底上线 ● PDFree.cn 10月已上线 ● 智能搜索、图 谱等 ✓有影响力的机构认可 ✓验证价值 ✓用户数 相互渗透与转化 ✓影响力 23
24. 非常感谢! 欢迎提问 24