腾讯音乐 李深远:QQ音乐的个性化探索

庄宏浚

2017/11/14 发布于 技术 分类

腾讯音乐QQ音乐业务线用QQ音乐和全民K歌两个核心产品从听,唱,看等维度全方位满足用户的音乐体验。作为海量用户体系下的音乐产品,如何在亿级DAU的活跃体系内保证用户能够听到心仪的音乐,听到新颖的音乐以及唱到熟悉想唱的心仪好歌等方面,都面临很大的挑战。 经过近年来不断的深入挖掘和分析用户数据,持续ABtest 迭代优化,用户数据也在不断提升。 我们分别从QQ音乐和全民K歌这两个一老一新的产品角度,着重介绍过程中面临的挑战,以及如何发现用户痛点,如何借力业内机器学习的先进技术等几个方面的探索之路。

文字内容
1. SACC2017QQ音乐的个性化探索 腾讯音乐 / QQ音乐业务线 / 智能数据中心
2. Overview 01 关于音乐,关于用户 SACC201702 音乐个性化的思考和演进 03 广告个性化的尝试 04 AI时代一些好玩的尝试
3. Overview 01 关于音乐,关于用户 SACC201702 音乐个性化的思考和演进 03 广告个性化的尝试 04 AI时代一些好玩的尝试
4. SACC2017QQ音乐 / 听我想听的歌 注册用户 8亿 DAU 1亿 全民K歌 / 你其实很会唱歌 注册用户 4.6亿 主力军 90后用户 iOS/Android PC Play on all your devices H5 IOS/ANDROID 设备 车载 智能音响 TV
5. “ 音乐这件事儿“ SACC2017
6. 我们的用户 SACC2017
7. 我们的用户听什么? SACC2017
8. 我们的用户听什么? 时间维度 : Aug.2017 – Oct.2017 巅峰音乐 《刚好遇见你》 李玉刚 《演员》 薛之谦 《小苹果》 筷子兄弟 《李白》 李荣浩 《平凡之路》 朴树 《丑八怪》 薛之谦 《告白气球》 周杰伦 《凉凉》 杨宗纬 张碧晨 《Faded》 Alan Walker 《默》 那英 巅峰专辑 《意外》 薛之谦 《不良少年》 徐良 《绅士》 薛之谦 SACC2017《模特》 李荣浩 《三生三世十里桃花》 原声 《我很忙》 周杰伦 《魔杰座》 周杰伦 《万有引力》 汪苏泷 《JJ陆》 林俊杰 《刚好遇见你》 李玉刚 巅峰艺人 周杰伦 薛之谦 陈奕迅 张杰 林俊杰 许嵩 G.E.M. 邓紫棋 BIGBANG 徐良 张学友
9. Overview 01 关于音乐,关于用户 SACC201702 音乐个性化的思考和演进 03 广告个性化的尝试 04 AI时代一些好玩的尝试
10. 推荐的那些事儿 长期 用户口碑,品牌调性 VS 短期 业务KPI,case by case SACC2017人均听歌15%⬆的 大热之选 神曲到底是什么? 见过,听过的那些事儿 好听的歌是什么? 算法军备竞赛 (CF+ Rules) VS DL
11. 推荐的那些事儿 SACC2017
12. 个性化推荐,在路上 2011 – 2012 2013 – 2014 2014 – 2015 SACC2017
13. 个性化推荐,依然在路上
14. QQ音乐 – 个性化引擎 – 全景图 模型训练层 NLP Model CF Model Deep Model 关系网络 用户画像 特征工程 数据统计 …… 实时流水 算法模型 基础数据 流水数据预处理 数据仓库 在线推荐层 负载均衡 L5 Agent ... 初始候选数据召回 业务逻辑 应用层 客户端 CGI 中心化推荐 • 规则引擎 • 热门音乐 • 新音乐 引入个性化推荐 • 基于内容/标签推荐 • CF • 基于用户长期兴趣歌手 • 基于用户长期兴趣流派 优化个性化推荐 • 在线实时架构 • 冷启动优化 • 用户特征工程优化 • 多目标推荐优化 • 内容特征优化(歌单等文本类模型) AI相关探索 • 音乐大数据挖掘 • 深度神经网络 • 图像理解
15. 个性化引擎 – Part 0. 音乐理解 Pandora 专家人工标注 专业公司Gracenote以及学院派专业人员采 用近2000种音乐元数据(流派、情感、主题 标签)对每一首歌曲进行分析并标签化
16. 个性化引擎 – Part 1. 歌单生态系统 歌单知识体系 Ø 基础特征描述: -语种,流派,歌手,年代分布… -冷热程度 -播放流水,收藏流水 Ø 语义特征描述: 图片 文本 歌曲 PGC UGC 歌单产品周期全面支撑 歌单投稿 广场排序 日均机审占日审核量 70%+ 歌单收听数量提升 56%->87% 歌单推荐 音乐馆听歌显著增长 关联歌单 全面覆盖外部展 示歌单
17. 个性化引擎 – Part 2. 用户理解 包月 数字专辑 送花送礼等 …… 多平台联动 • QQ,微信基础画像 • 腾讯视频 • 全民K歌 • 朋友圈/微博音乐分享数据等 海量用户行为数据挖掘 • DAU:1亿+ • 单用户日均操作数据:50亿+ • 每日歌曲播放:十亿级 用户特征 • 用户基础信息:性别、年龄、地域、学历… • 音乐口味偏好:歌手、流派、语言、年代 • 音乐行为偏好:电台、收藏、下载、歌单、 搜索 • 平台行为:新增、留存、回流、活跃… 用户特征挖掘算法 • 听歌及操作流水,时间衰减模型 • 自然语言处理:对文本数据,如评论、歌单 的标题挖掘 • 噪声过滤:SPAM等 • 监督学习:利用LR、GDBT等模型进行用户 喜好预测
18. 个性化引擎 – Part 3. CF Model 浅层协同: 利用用户的听歌行为数据构建user-item矩阵,求取 相似歌曲或相似用户,无须领域知识。 隐因子模型: Latent Factor Model:利用矩阵分解方法,求出用户和歌 曲的隐特征向量。 歌曲1 歌曲2 歌曲3 歌曲4 歌曲 用 户 ?????????????????? ??????, ?????? = ?????? ?????? ∩ ∪ ?????? ?????? • 模型简单,准确度高,且可解析性好 目标函数: 优化均方误差RMSE,使得预测评分与真实评分的均方误差最小 .??????∗,???0??????∗??? 1 ??????3,4 ??????34 − ??????38??????4 − ??????3 − ??????4 ; + ?????? 1 ??????3; + 1 ??????4; 3,4 3 3
19. 个性化引擎 – Part 3. CF Model的挑战 l协同模型(CF Model)的挑战 Ø 仅能发现浅层特征。 • 缺点一:推荐的歌曲风格单一,缺乏新鲜感 • 缺点二:只挖掘浅层的特征,无深层的特征 歌曲 ??????1 ??????2 Ø马太效应明显,Top100万歌曲占据了总收听量 的90%+; Ø基于用户行为召回的数据,多以热门数据为主, 如何跳出热歌圈子,挖掘长尾歌曲 ? Ø亿级用户的协同计算性能问题。 歌曲1 歌曲2 歌曲3 歌曲4 用 户 ?????????????????? ??????, ?????? = ?????? ?????? ∩ ∪ ?????? ?????? sim i1, ??????2 = 0 ? sim i1, ??????4 = 71 sim i2, i4 = 43 1.2 1 0.8 0.6 0.4 0.2 0 top 100 Top歌曲播放量占比 top 1k top 1w top 10w top 20w top 100w
20. 个性化引擎 – Part 3. CF Model的挑战 • 相似度计算公式小优化 - 引入IUF(Inverse User Frequency) By John S.Brees, David Heckerman, Carl Kadie
21. 个性化引擎 – Part 4. NLP Model 文档–歌单 歌单向量 词–歌曲 与CF Model相比,NLP Model的应用场景多种多样, 既可以用于作为推荐数据召 回建模 ,也可以用于特征提 取建模 主动热度降权: 歌单数据中存在大量的小众 歌曲,有利于进行长尾推荐; 并且受到大盘听歌流水的影 响较小,降低了噪音对模型 的训练的影响 NLP Model的主体思想: 将歌单作为文档,通过 word2vec求取每一首歌曲 单词的词向量表示 数据增强: 精选歌单质量好, 但数量少,通过组合歌单来 扩展语料库
22. 个性化引擎 – Part 4. NLP Model Word2Vec ??????N … ??????STN ??????S ??????SUN … ??????V ??????STN ??????SUN ?????????????????? … … Manifold Learning 利用t-SNE对高维的用户特征和歌曲特 征进行降维: ??????S 用户特征 • 将歌单作为文档,通过word2vec求取每一首歌曲的词向量表示, 倾向于选择热门的歌曲做负样本进行训练 (negative sampling)。 越热门的歌曲,离根节点越近。 用户没有点击某一首歌曲,通常有两种原因: 一是不知道有这首歌曲; 二是不喜欢这首歌曲 对于热门歌曲来说,显然第二种的可能性更高,这也是将热 门物品作为负样本的合理性原因 用户特征对应流派
23. 个性化引擎 – Part 1~4的一些阶段效果 l 一些阶段效果 Ø 产品指标的提升 Ø 一些用户好评 • 听歌人数:Android,Iphone平台提升20%+ • 人均听歌时长: Android,Iphone平台提升15%+
24. 个性化引擎 – Part 5. DNN Model Softmax ReLU(16) ReLU(32) ReLU(64) Input 归一化 连续特征 离散特征
25. Overview 01 关于音乐,关于用户 02 音乐个性化的思考和演进 03 广告个性化的尝试 04 AI时代一些好玩的尝试
26. QQ音乐 – 在线广告 “广告,也可以是生活的一部分” MusicBoss精准营销平台 • 产品运营自助配置广告; • 效果追踪等一站式闭环管理; • 定向投放与模型投放相结合; 用户包定向筛选 5000 广告投放 1000 活动模型 100 p冷启动 :使用CF模型,针对特征标签少的用户及活动进行冷启动; p特征拓展:利用word2vec等算法,进行特征维度拓展,并计算人群 lookalike; p活动推荐:排序模块使用Xgboost等模型,进行特征离散化及线上实时 预测; p线上优化:使用FTRL等算法,根据用户的反馈数据实时优化模型参数;
27. QQ音乐 – 个性化在线广告 “广告,也可以是生活的一部分” 我们的在线广告探索: 生长阶段 2015年前 QQ音乐率先推出会 员制,数字专辑等多 种付费模式,推动音 乐行业正版化,内部 业务广告需求增长; 同时逐步开放外部合 作广告。缺乏统筹, 野蛮生长。 产品化阶段 2015-2016年 逐步开始规范各个广 告位的投放内容和形 式。 纯人工运营,后台逐 个需求开发。 搭建广告统一 管理平台 平台化阶段 2016-2017年 搭建了音乐广告管理 平台,对所有广告位 进行统筹管理,整合 广告业务相关功能, 引入推荐算法。 平台化整合各个功能, 完成了推荐算法、数 据分析、投放策略上 的迭代升级。 自动化阶段 2017年 加入了更多自动化功 能,包括新增广告自 动建模,流量自动分 配等。 产品只需配置新广告, 制定投放基本策略, 平台在投放周期内会 进行流量控制。
28. QQ音乐 – 个性化在线广告 “广告,也可以是生活的一部分” 平台化阶段 2016-2017年 APP内部广告 数 字 专 辑 付 费 音 乐 包 外 部 合 作 会 员 推 广 计算模块—核心算法变迁 FM因子分解机 item2vec GBDT+LR XGBOOST 排期模块—运营与模型结合 定向投放 模型投放 定向+模型 频控投放 分析模块—全流程实时化 画像实时分析—Hermes (腾讯) 模型参数实时调整—FTRL 投放效果实时监控—TRC
29. QQ音乐 – 在线广告 “广告,也可以是生活的一部分” 广告模型自动建模和优化: 新上线广告,进行短期随机投放后,可自动建模; 已上线广告,每隔一段时间会根据反馈数据,自动调整模型; 自动化任务流如下: Assemble 特征集成,负责将样本和新特征 进行集成 Transform 特征转换,负责做特征常用转换, 比如特征离散,特征交叉,tf-idf Criteria 特征评估指标计算,包括 entropy-ig, giniindex, entropyigr, symmetry-uncertainty等 Model 模型评估指标计算,包括auc、 logloss、rmse等,以及输出特征 全局重要度、树模型等 自动输出变量探索报告 流量分发自动控制 为了处理人工运营、定向投 放、智能推荐几种不同投放 方式的矛盾,平台可进行不 同投放方式的组合,例如: 1)定向人群投放单一指定 广告。 2)定向人群进行多个广告 的智能排序推荐;非定向人 群按优先级投放。 3)定向人群投放单一指定 广告;非定向人群多个广告 智能排序推荐。 当流量进入多个广告智能推 荐分支时,又会根据模型效 果,进行动态的流量调整。 是 投放时间早的广告 优先投放 否 优先级 是否相同 否 优先级高的广告 优先投放 开始 投放方式 否 是否不同 是否都是 自动推荐 是 关联的活动打分高 的优先投放 是 号码包优先投放 结束
30. Overview 01 关于音乐,关于用户 02 音乐个性化的思考和演进 03 广告个性化的尝试 04 AI时代一些好玩的尝试
31. AI时代,一些好玩的尝试 CNN 第一阶段: 测试集多分类准确率~70% 民 谣 Spectrograms (None ,512,128) 13s Slice 电 子 LSTM 爵 (None , 512) 士 Dense + Dropout (None , 512) R & 将隐藏层可视化(128维) b Dense + Dropout (None , 128) 第二阶段: Softmax(None , 4) 测试集多分类准确率~80% 摇 滚 Rock Rock Electronic Jazz Jazz Funk Funk Electronic By Echonetst
32. AI时代,一些好玩的尝试 增量关联 歌曲 图像 相互关联与生成 歌单 统一的特征空间 距离 聚类 主题:古典、乐器 抽象特征:[0.726,0.032,0.438,……] GAN 实体:钢琴 情绪:中性 存量分析(举例) 封面: CNN NLP 图谱 歌单:《纯音|50首轻缓闲适钢琴曲》 歌曲:《卡农》 相关实体:帕赫贝尔