互联网数据爬虫之矛与盾

互联网数据爬虫之矛与盾

1. 互联网数据爬虫之“矛与盾” 张俊九 杭州魔蝎数据科技有限公司
6. 目录 • 互联网数据风控背景 • 互联网数据爬虫微服务框架 • 爬与反爬 • 数据处理框架
7. 网贷平台的几个数据 • 2000家 • 2000亿/月 • 1.2万亿余额 • 500万人次/月
8. 你的个人数据在哪里? 水电煤等公共事业数据 公安等公民信息 超级流量入口 医院、学校、住房等三座大山 所有手机应用提供商:比如说,陌陌,点评,携程,支付宝 金融机构 基础服务提供商:比如说,听云、个推、TalkingData 工具类软件:触宝、360、名片管理 人行征信、各大征信公司(虽然大多是二道贩子) 政府机构、大型国企 线下收集:支付宝扫码、你的车、快递、调查表、万达商城
9. 个人信用之“西瓜分” 信用历史:过往信用账户还款记录及信用账户历史 行为偏好:在购物、缴费、转账、理财等活动中的偏好及稳定性 履约能力:稳定的经济来源和个人资产 身份特质:在使用相关服务过程中留下的足够丰富和可靠的个人基本信息 人脉关系:好友的身份特征以及跟好友互动程度
10. 个人信用之“西瓜分” 信用历史:过往信用账户还款记录及信用账户历史 花呗、借呗、白条;信用卡、贷款、分期;法院失信名单、企业信用、老赖等 行为偏好:在购物、缴费、转账、理财等活动中的偏好及稳定性 淘宝、京东、携程、12306、中航信;水电气缴费;支付宝、银行卡、基金等; 履约能力:稳定的经济来源和个人资产 工资卡、公积金、社保、理财、保险、车险、房产、投资等; 身份特质:在使用相关服务过程中留下的足够丰富和可靠的个人基本信息 个人身份信息、教育背景、工作履历、家庭住址、联系方式等 人脉关系:好友的身份特征以及跟好友互动程度 通讯录、通话记录、QQ好友、朋友圈、微博、脉脉、钉钉等;
11. 互联网数据应用场景示意 业务PC 魔蝎 浏览器 HTTPS 信用卡账单邮箱授权 网银登录授权 运营商服务密码授权 魔蝎SaaS服务平台 魔蝎 SDK 用户基本信息收集 规则引擎 业务APP 魔蝎系统 客户系统 贷后管理 数据处理 持久化数据 数 据 接 收 其他第三方 数据 行业黑名单 征信数据 互联网行为 身份信息 ……
12. 互联网数据爬虫微服务框架 ELB nginx LOAD BALANCE carriergateway resetpwdsvc route-svc carrierworker crawlmanager carrierparser report-svr CARRIER SERVICES tenantmanager COMMON SERVICES DATA INFRA ratelimit authinterop proxy-pool kms tag-service geoip config-svr ocr-svr kafka odps mongoDB oss redis metrics ots rds
13. 爬虫面临的挑战 爬虫及解析策略 账密 用户授权,加密传输,杜绝保存 IP监测 动态IP代理池 异地登陆 人在哪里,爬虫在哪里 安全控件 WinForm模拟登录 流控 轻一点,请不要那么粗暴 行为探测 你永远不知道跟你聊天的是一个人还是一个狗,所以,机器人也可以是人 增强校验 图片验证码?短信?回答问题? 扫码验证 是谁发明了二维码?我恨你! 滑块验证码 好痛!好痛!好痛!那就不让他出现吧!(据说有人破解了。。。) 设备指纹 设备在哪里,爬虫在哪里(不行就增强校验) 向APP迁移 取决于APP API Gateway采取的安全策略…… 脱敏 模糊匹配,看发型就知道是你! 图片 图片验证码都破了,这也不在话下
14. 离线数据处理架构
15. 在线数据处理架构
16. 技术之外 • 守住底线 :合规合法,安全第一,心怀敬畏 • 创业心态 :不忘初心,拥抱变化,死磕到底 • 个人成长 :干一行,爱一行,专一行 • 关于创业 :找风口,靠谱团队,约法三章
17. 谢谢聆听