自动化建模下的高效机器学习应用开发

  • 769 浏览

Howard

2017/12/13 发布于 技术 分类

自动化建模下的高效机器学习应用开发

文字内容
1. 自动化预测建模初探 Automatic Predictive Modeling: A Bayesian Approach 猎聘大数据研究院 单艺
2. • 现任猎聘首席数据官,兼职就业顾问 • 曾任职于美国Altera、Yahoo、奥美 • 经验:数据挖掘、搜索、广告、招聘 • 兴趣:数据挖掘和商业分析 • 毕业于清华大学和美国亚利桑那大学
3. 议题 1 PART ONE 缘起 2 34 PART TWO 超参数优化 PART THREE 自动化建模 PART FOUR 试验和展望
4. PART ONE 缘起
5. 预测建模过程 1 目标定义 5 模型应用 2 数据收集 4 模型优化 3 特征设计 4 算法选择
6. Why Is Modeling So Hard?
7. 做一个数据科学家是什么体验?
8. PART TWO 超参数优化
9. 模型/算法超参数 Neural Networks GBDT Random Forest Logistic Regression SVM LDA Gradient Descent 层数、每层神经元数、dropout比例… 提升次数、树的最大深度、学习率、样本采样 率、特征采样率… 树的数量、树的最大深度、样本采样率、特征 采样率… 正则化权重、正则化方法 惩罚参数、核参数、不敏感参数ε 主题数量、先验分布参数(α、β) 学习率、批次大小、迭代次数…
10. 超参数的影响 Neural Networks with Different Learning Rates on MINST
11. 超参数优化问题 • 目标:找到在验证数据集上效果最好的超参数 • 挑战: • 参数空间巨大 • 效用函数是一个黑盒子 • 训练和评估成本高 • 问题: • 如何聪明地搜索最佳超参数?
12. 手工调参
13. 寻找最佳超参数
14. 贝叶斯优化 1. 假设目标函数符合某个先验分布 为啥总 叫上我? 2. 初始随机试验 3. 根据观测结果得到后验分布 4. 利用后验分布选取下一个试验点 • 通过获取函数(acquisition function)决定新的试验点
15. 效用概率模型:高斯过程回归 A Gaussian process is a collection of random variables, any subset of which is jointly normally distributed. Gaussian process regression: assume form of mean and covariance among data  functional form 我好像不知 道这个事!
16. 高斯过程回归
17. 用GPR优化超参数 Acquisition Functions: • Probability of Improvement • Expected Improvement • Upper Confidence Bound
18. 优化软件包 1. Spearmint 2. Yelp MOE -> SigOpt 3. Hyperopt 4. Scikit-optimize 5. SMAC 6. 其他:近似梯度方法
19. PART THREE 自动化预测建模
20. 预测建模流程 1 目标定义 5 模型应用 2 数据收集 • 超参数优化 • 模型集成 4 模型优化 4 算法选择 3 特征设计 • 特征组合 • 特征选择 • 降维
21. PART FOUR 试验和展望
22. 算法吃人?
23. 人机协作
24. 谢谢聆听