优酷 李玉 - 视频推荐中用户兴趣建模、识别的挑战和解法

郝乐生

2017/12/18 发布于 技术 分类

优酷每天为上亿用户推荐上亿的视频。一大挑战是机器学习模型如何更好的描述与捕捉用户的兴趣。相比电商、新闻等领域用户对于视频内容的兴趣要更为复杂、感性、微妙、纬度多样,用户的兴趣也会逐渐演进、变化、细分,对于惊喜度(serendipity)与多样性(diversity)的要求也更高。用户的行为数据稀疏、分布偏差大、时域上分布规律也复杂多样。 我们将介绍优酷对于以上各种技术挑战的思考,实际尝试和采用的,如CUR、HIN、GRU等各种方法,包括对于模型如何更好描述与建模用户兴趣,在特征工程、样本采样、目标损失函数抽象、模型融合等方面的经验。

文字内容
1. 视频推荐搜索中的⽤用户兴趣 优酷 搜索、推荐、内容智能负责⼈人 数据智能部总监 李李⽟玉
5. Agenda • 优酷视频个性化搜索推荐简介 • 视频个性化搜索推荐中的⽤用户兴趣表达的挑战 • 当前⼯工业界常⻅见⽅方法的问题探讨 • 我们的尝试的⽅方法
6. 优酷个性化服务简介
7. 个性化服务在优酷
8. Data… Algo 6亿+视频 5亿+⽤用户 • ⼀一多半的视频播放通过个性化搜索推荐技术分发 • 对于CTR、⼈人均播放量量、⼈人均时⻓长、留留存率等均有显著提升 • 帮助⽤用户发现好内容,帮助⾼高质量量内容触达精准受众
9. 视频推荐中⽤用户兴趣表达的挑战
10. 视频推荐的⽤用户兴趣表达的挑战 • 技术挑战: • 剧、综、影、漫:⽤用户选择成本⾼高,⽤用户追的剧、综艺少,推荐成功率低 • ⽤用户⽬目的性强,发现、浏览、逛的⼼心智低 • ⻓长节⽬目可选择空间有限 • 头部节⽬目⽤用户⾏行行为稀疏,⼤大量量⽤用户每⽉月只观看3个以下节⽬目,对⽐比: • 短视频信息流场景:通过数百个观看⾏行行为推荐30个 • 优酷头部节⽬目:通过3、4个观看⾏行行为推荐30个 • 数据噪声多、分布驱热、highly biased,常⽤用推荐算法模型描述能⼒力力不不⾜足
11. 视频推荐的⽤用户兴趣表达的挑战 cont. • 技术挑战: • 视频内容兴趣复杂,感性、微妙、亚⽂文化细分多样,对于符合兴趣⼤大⽅方向的惊喜度(serendipity)与 多样性要求更更⾼高,对⽐比: • 电商:兴趣明确:想买4K电视、⽜牛仔裤、连⾐衣裙;⾼高度结构化,类⽬目体系清晰 • 视频: • 兴趣感性、微妙:喜欢⾹香港武侠⽚片但是讨厌成⻰龙; 喜欢⽇日本动漫,今敏敏等、但讨厌宫崎骏; • 兴趣会进化、发展、细分,如: • 相声:郭德纲 ⼩小岳岳-》⽅方清平;或者-》王玥波评书;或者-》侯宝林林 刘宝瑞 ⻢马三⽴立 传统 • 科幻迷:从浅度:看星战、地⼼心引⼒力力-》中度:星际穿越-》深度:银翼杀⼿手、降临、三体; • 微妙的亚⽂文化:⼆二次元、游戏、直播;⽂文艺⻘青年年;腐、柜;追剧族、韩剧迷、恐怖⽚片迷 • 兴趣体现的是⽤用户的个⼈人认同 • 兴趣多维度正交,如: • 只看”⼤大制作”、美剧质感 • 不不喜欢重复,期待惊喜(serendipity)
12. 识别、表达⽤用户兴趣的重要性 • Retargeting(看了了⼜又看): • 推荐⽤用户有过交互的内容(看了了⼜又看) • 成功率⾼高,⻓长期价值低 • 局部提升⾮非全局提升(抢其他渠道流量量) • 成功率⾼高因此ctr⾼高 • 容易易陷⼊入局部最优 • 热点推荐 • 推荐近期热点 • 容易易陷⼊入局部最优 • 个性化兴趣推荐 • 推荐符合每个⽤用户兴趣的内容 • 成功率低因此ctr偏低 • 更更具⻓长期价值 • 短期收益可能⼩小,但容易易⻓长期收敛 • 推荐命中成功率:retargeting > 热点 > 个性化发现 • 推荐命中(不不命中)价值:个性化发现 > 推荐热点 > retargeting 模型兴趣
 预测不不准确 个性化内容
 推荐较少 兴趣命中少
 正样本不不⾜足
13. 当前⼯工业界常⻅见⽅方法的问题探讨
14. 个性化推荐⼯工业界常⽤用⽅方法 • 流程:召回、排序 • 特征: • 统计特征 • ⽤用户画像:DEMO、⽤用户对于标签的frequency、recency • ⾼高维组合特征 • Item based similarity(i2i)
15. Common Algo Framework(对应的优酷的⽅方法) Rank R FTRL, DNN, XGBoost, FFM
 Ensemble
 Rerank Match M Item Based CF, DNN CF
 Slim CF
 Tag to Item, User2user2Item
 Star2Item
 Popularity, Trending
 Rank Feature Match Data F Feature Item/User/User2Item Statistics
 User Profile: (Demo,Interest profile, search profile, view history)
 Item tags, categories, topics
 item/tag/topic relevance scores D Data ETL
 offline/streaming
16. 常⽤用⽅方法对于表达⽤用户视频兴趣的问题 • Demo(年年龄、性别、地域),设备类型、城市... • 问题:⽤用户的内容兴趣与以上信息相关性不不⼤大 • 问题:三线城市50岁男性可能和⼀一线城市30岁⼥女女性的观看习惯⼀一致 • 基于内容标签的⽤用户画像 • ⼈人⼯工内容标签:恐怖⽚片、动作⽚片、搞笑、⾹香港⽚片、韩国⽚片 • Topic Modeling标签:LDA提取视频标题、描述的主题(内容数据噪声⼤大) • 基于统计的⽅方法(frequency、recency)建⽴立⽤用户标签 • 问题:⼈人⼯工标签主观性⼤大、噪声⼤大 • 问题:⼈人⼯工标签粒度容易易过于宽泛 • 问题:topic modeling标签噪声⼤大、数据稀疏 • 问题:往往基于统计的⽅方法,很难精准描述⽤用户的兴趣 • 问题:容易易受到驱热的影响
17. 常⽤用⽅方法对于表达⽤用户兴趣的问题 cont. • ⾼高维组合特征 • 通过组合以上各种特征,产⽣生更更丰富的信息 • 问题:容易易受到噪声影响 • 问题:计算量量过⼤大 • Item based similarity (i2i) • CF similarity • SVD++/MF • Slim • DNN • 简单⾼高效
18. Problem of I2I • Item based CF是学术和⼯工业界都最有效的⽅方法之⼀一 • Item based⽅方法⽐比User based⽅方法更更有效。 • 主要因为user 维度⾏行行为更更稀疏,噪声更更⼤大。Item的维度积累历史⾏行行为更更多,variance更更⼩小。 • 问题1: 由于基于item维度的全局统计,每个⽤用户观看item的不不同原因信息被平均掉。对于⼀一个视频,有的⽤用户因为热度观看,有的⽤用户因为主题的 类型观看,有的⽤用户因为主演、导演观看。 • 问题2: 不不同⽤用户群体的不不同喜好在全局Item similarity的计算过程中被平滑掉。 • 问题3: 对于⻓长尾item⾏行行为数据过于稀疏 • 问题4: 粒度太细,数据稀疏,扩展能⼒力力弱 • 问题5: 驱热、哈利利波特现象
19. 介绍我们的⼀一些尝试
20. 基础⽤用户画像做法 ⽤用户观看⾏行行为 ⽤用户对于各类标签观看的
 Frequency/Recency 内容标签 ⽤用户观看
 ⾏行行为 ⽤用户 兴趣画像 内容 内容的标签、类⽬目体系
 演员、导演等Metadata 兴趣画像 针对每个标签、类⽬目的兴趣强度 分 问题:基于统计,⽆无法区分驱热、类型、明星等信息
 粒度过于粗
21. User Interest Latent Vector • End2End ⿊黑盒模型由于噪声与概率分布假设的问题并⾮非全 局收敛,需缩⼩小搜索空间 • 拆解为多个更更容易易的⼦子问题 • 机器器学习解⼀一个End2End⼤大问题 < 拆解为若⼲干个更更容易易 的⼩小问题 • 传统End2End⽅方法易易受数据稀疏与噪声影响: • End2End模型:观看历史<->节⽬目推荐,易易受噪声影响 • 拆解为⼦子问题预测模型: Latent Vector • 观看历史<->宽泛兴趣分类Latent Vector<->节⽬目推 荐,对于噪声更更鲁邦 • 宽泛兴趣Latent vector——⼈人⼯工构建类⽬目体系+审核,降噪
22. ⽤用户兴趣的建模的work - CTR • Collaborative Topic Modeling for Recommending Scientific Articles
23. ⽤用户兴趣的建模的work - CTPF • Content-based recommendations with Poisson factorization • A Practical Algorithm for Solving the Incoherence Problem of Topic Models In Industrial Applications
24. ⽤用户兴趣的建模的work - CTPF with popularity, stars tags and queries • 实现性能优化,scalable to internet scale • 基于parameter server架构 的分布式实现 • EM不不是全局收敛。针对每 个topic进⾏行行⼈人⼯工审核,再作 为初始值进⾏行行迭代。 • 扩展到⽂文本+标签+meta+流 ⾏行行度 • 基于兴趣向量量的个性化I2I similarity
25. ⻓长期兴趣与短期兴趣的平衡——Phased GRU RecNet Listwise Loss:
 BPR/TOP1 Loss • 捕捉⽤用户兴趣中的时域规律律: • ⻓长期短期平衡 • 有⼀一些短期兴趣满⾜足后,多样性需求会变强
 过⼀一段时间需求⼜又会周期性的出现 Based on: SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS - ICLR2016
26. ⻓长期兴趣与短期兴趣的平衡——Phased GRU RecNet cont. dhtWthhtWtgWtgAamgcb3iihhhifdeeioieehmveeveufhhnldGeefupeelceefueuesaorrnnanhaorrRrebnennlrateiieltWtgAlnioitiicetlhhttotstiEtgtioocrdsgscgvaeetwdchaaaGwCeauteoeicctetutfRuiitislinaOitaouubnssenravpnttnieteliilrtrermaegiiedMimlmiaagecrrltttnondysgaeenufiwuesawgueessMtnntrcmtltuRpemmi-eprhtttiutstwfestden.Eeedoe..eissrtooernamangchirAattoNiAfAootuaeattunetuhteuesRttunettnnDrgnnhUlhhemeprrthtitfNfieAeRhtmdRRn.uhsanhiuoaasnsdeatNTinnANnnoNnNotatttsttdfdcvdIt.dh.cetdesnrNUN(hNeeOtatotaeGfiniatbbbRnnlmthouoiaNonooRonoiinctnnNnsttsuuduoguSuUotd.ac::htN(attsnnntnmpecppGi)tWibdnddywneoouuuoRop(egeehnnttthICtuudosodsdsUay:vTegtnfshnppaeaar)frHffedoceeunuatuphp(ehphesdttntnCtnredRsrhirehttictoocooctoehehaettffbN=btnu=bnoiaeiruinohpaoaieanotlantrN.ebnrebnlgitebnp,geicottiismf(i.cwrtl(2=blsSsleiaWsioioWnuio0uatsteulotbTymoy.,cbn1cgydc,rlxthhith4xk(edmfhdlh2sdseWotim).itiue0atuaisesray+Ssscis1atfs.+nwtssxetrfihrc4tddrGiaiaatacUtbai)afbiaUainbsrieRuv+ltuleisdtmhuodialosathrUtnooitgtaiiagttUduootnibaogtirioioergrnuusldnishpmeeo1nsetnats1isoeitgRto)petcooecio)revoivracNflrnsv-smes1fraeoestieeirsitbiNor)ergotcegiremvstohttgmmdslhmhshtesreamaheeeeaiureobongilnentGpontoinsecinmthdddtrineiieReieedaanmoxsa.exfrUftlcintutxaelTuttfodeoyehcnutenehdrmixttlecfnepllcsiieheuteetsoloctolemieemnaieanotdraoxiomrilcaernpeeoenniilfttnnslipminheenoxtwaftxrodntieeoenondtxofttnhoanriadfnmxteofcarRticiesntnesfhtotaNahiinhnstfttoateRisheshiNhtsstneoftteeNhtseeahsednartaeeneuhmpeNist.nqibnqedneenosusiypuaeiqilpuhnitenarqutenuunhpdontttuntupeitehoucteo(csunoraweo1tnenitnt(cft,nhf)(c,o1aeo1agef)l,f)t, • GRU: gAambAambwbwwRdhtWtiiehhmivueeiitmhehhGufdeetwtehcGfcwesweicdnehesafulurrehaeeorareteneeraeiteenelambwttreeittlttnontdetishenonodsdghhmhucdntaetwteceeweuRecattethtuRsiahhurchtipsaueutNeebpeenleeraaildiecppedrmagittncpneitanpnpeoutddnhauuddwrguestnrrgrtaaeeterreimteeueprthetdtarhtvwavvweuepede.eelstaoelitniipdhinainothiAtgogooNtpnautdtetateuheatuauheRrgtnntaehUsUeetatesstihttfeeNhtvwcRetwhuhnaahanaistitiiNdenhncidNeigoccioissttttvtdtdectdhtauhrsv.Nviigiagtk(et(vaesvvaiaeahtbtGiiGsntonaaaihvvnanoniooicntttdeReRechiudisuiiisnsos:sndtonooatUUvttnighhmcpevaanvnnfadbbioiiuun))tteavnpnneeeyaynaatnte(io(gdgsibns:vnn:scCnCooostedehdadtgagfnefhfehinbihuhthrorhptntzntoettoyaatnhahthhtintrgthtthn:dodceoedeeoeee=de=tnih=g==bietfˆitecncehcaroavttuznauaenataahl(b(ntig(hnntntltdisntl1e1fi.1w(se.di=e(dliep,is=dp,WtiectWdieuoci.rt2i.urnd2adyoddocr(o0ntnta0xakzzf1bhTzmaobTdz1itdop(t1.xttltttehelitW4ei.rhearp)m4Ss)etd+w)eom)sahteuahm)taharb+ozTzcacatiitaatct.Uixeldattsnbt.threseciti)ddGceUudtvlievGmhta1aho1vltaitaa1a+dRizicvigtaaRt.rntv+vmot+tehamiditUc+iiaaGnoUseioUvtat1ot1orttiRzipnoznaRiiiovo)zgrznsactogtr+tNeavhnm1hUiithhebhnˆamoˆˆthetˆs)hNtelˆitoettˆztnoirteoeget:ligo:tsdst-fallnt:s1hmalfhaheˆbeutˆe)trbleteeotsohpnots:ssohmsfrdeginsiedareesateteaanthGshtxenntftGesteheutiRestnamteinReenehGaUmllqctlreUeoleiyRt:ulxoiamdiyireoUilldseislnehenlsyelteancaieildoxrealsatnendlofrtociadanelfnefwariainnenslnwattoihhaaesnnfwteh.rtReaheaanerRheaNsitTnnenereaNihiNntqninhnaieneNuntdpnarteuuetpmenuderbsnnruodtprian(ycibpnnloo1tiaebayognihlf)l,tyttal((iho(ah23ott2hawtiho())nio)o((t2owa23wn)nt)) wwagAahniihmvedGierlsnfieeaatnwittetthhadshdleeyiecRlcuauetealprhitcrnnhdeeudgeanrritretdcweesasaneitgntattehadtUgetiatedahcnhateitiettistev.r(gaaGtitncviRitioesisvnUhngai)fitnbuvih(goyˆenCtn:ncgh=trfboiauohzzyˆdnetntt:ticateth==n=naˆiottlh.ntp,i(asr2(hW(noˆW0cWthbo1xliz(4mezstxWm)xcp+tito.usx+mG+tUtaepRd+U(mUuUriztzonUtehhgrda(etatritsneteh1ils1maat))besisolhi1asmr)tera)intmle1taui)ramp)nlmdlonyaadentlereen:laegorrnaf: twaenheRnNaNndubnyit hthoawt((43())(34)) wmbheuitlwcehetaehtnnoedtuchfipaendnpaadlrtyieedvtatihhoteeeursahecasitdceidttvieavgntaaittoiesontranttfeauhiˆnnsotdcgf=ttiithvorheetntenac=hunabˆnnhtyid:ti(i.(sWdWcaTtoxrhemxteatpc+atu+civtUteiaUvd(tairrotihtinnotnahˆt1soh:i)ftmthi1lea)rr)GemsReaUtngniasetrea: linear interpolation ((54)) • 默认的假a3n.1d设fin是CaUly等StThO距eMre采IsZeItN样gGa:tTeHrEt GisRgUivhˆeMtnhO=btDyt=:EaLn(r1ht (=Wztx)(thW+trx1Ut+(+rztUthrˆhtht t 1)1)) ((45)) (2) a3Wnwne.dh1etwefiuronesW3Creatk.dhlUe1yeitSsuhtuThstepCheOeddGeUMraaetRSthIecsTZUeetgOuIt-GNaaMbgtlGRaeaIssZUtiTteesIa-dHNtbgreGEaRitvsoNGieTefsndHNRtghEbRUieyivNGn:esMNeRnosuOUzbsirnriDtryoMtmt:E=on=LOu=owrdDhe(mEWli(L(sloWeWdzfotexrhrlrtxsexs+tftoeo+su+rUstipszUoUeuhnsrtrts-hihbisota1tnts)h-1eb1ed)a)isrteeedmcormoecfmothmeenmdneaentxidotanetvsio.ennTsth.ienThitnhepeiunstepos(u3sfti)oot(hfn5e(.t)5h)e 3WTfw.a1hhre.eiluIesnsCtnTteahetdhUtheteewSetchTosoafetfOornakrGdtMtmehiiRsdIeoeZaUtrfshtIeeN-cetbshaaGasaesccisetoTtseiuvne1Hdaas-ElcstRoiiasofoGNtn-nanNNRtefcuiUeatoinnhnfcceMttoeorhiuoOidebtnrhiDesnemheEgˆrtstLhosbiedisieoseuinlcttsheoweemmfdhoi,pirtoleiues.fmteett.hsdhoseteihifooneatnuhaci-tentpbsuupiaaamtuscleitisudelvavaterhrleecemnecttovioatreenom’nmnrsmteltrooehe:fnrengtdthehtaveheteineoeneqvntxsuestna.ieltnTvs ehttihnonetetiihnnseeptsuhnssteeuiosomssnfeibsotsehnoireosno. WnTolaefehttteiweuterssometfosraadkefstrte.ittiathiseInnoenmtdgfhGtsethouhRaensaeneclUfysdtosu-ertaobamhsnlasweelsisyoreectandioctgthaoechResraotedNecnfid1onNte-ohasoirhteutiˆfdehnt-misNence=oroasouetrsbeftrnrieaeoctcmsnnhootphhedorwosreid(nehWesgidiltrpliseeionxmspfngttoruhde+rtoseisoenfseodUgetntu,hsht(tesiaoerp.itetouaita.ohcntcnte-ithissbuvhae,aaetcthisiltnnieeitvep1dewvieu)mte)erthienmtvieictcsemohoocomtfreinostmvtrehh’eo,seeentnlhtneeesde,nvaxatgeohtrtitntehoehtvsneodeesrtiqihssn.nucetaTortirlshhnueseenatzrthosieeneerdtzpshoseseuisfir(.sto4nstnoTs)uhi.ofmhesnyTetobh.heeer nfhaeanatrvwd. eoIfinornlkacattchlityueserttfrhhsoeeedrtmrtaeicnesatgerultciaugealsrase.stesteFa1arote-trowoitfseh-fiNeggthihsveeteanensdkceeobsdysuoii:mfnogsntoaiwfsbthiuhliiselteesyed,t,htrhie.epeor.iuentstphpeuenutttiavnitesipocutnthtosevr, eiitnscetmtwohrhe’osnicflhntehoneergvmtnehnaetlxesitzqaeuerdvae.elsdnWittsoeicnotehutxehnpetneecsudetmsitfhsbiteoshrney. Tfoltwaaohrfth.ethiietIcesernhltmphtastoaetahsbertvheteeaeieocnnflnaofopdgoucrtbtcsomuheeuwnsecerelirearytsseulercldtasesahceiseswenaiaieopftrecontlr1ioiurege-ocrichorneer.atfddsen-FoiNdtnbrohecayrseiettuestnhmmhtceceheorosmeordlrtbofatrmioeenktr=eshgeytpmehooeisreosfne(mrfWsudiyertisecaeneremtbpmf:gxdfirolett,eithorctsoi+yyet.ef:e,tnroth.UtethhfeaitreenhtRhaiferioacNtonenctirpiNntscv1u,fepe.)taomiuWvlnritcteeeewvcnvmmtetaheocoleniristcnfstoihtsvroooe’etenrsxhfrveyepltve,ehnenlnteorhtniygscmeoetalvahroleomrecntoeenhaatrqetlelddsuidroizesasreriwclndidasnoei.rgtutrehhWoinnceztagoteeehdsnrdceeedosoxsitsn(prfs.5auseigt)oitTcmhnrnatahetnbsityehnseotirss ohafdaivdteeitmioowcsnhcaiulcnrhedremadorbneelandyrodlttihenwerg.eclFlaoloyocrearrdtp,hitbneuurasettdeathkbceoy1rotr-hfeoessfpt-laNobnniegldineitcrnyo,gmdthteionmegtiohnarepylwuaotacfyvtRiesvcNepteoNirt.feoiWmsrmtehiseaedlnosnobneoe,txrttemphre.aerliiomztehedne.tresWdaewreeitxzhpeareodcdst .itnhTgishaen lhtwaaotwaTtTtosWnf3daohhatthdfehh.vdahtheere1diteh.eeteibiceweirtlceluhletIicacaosholpionssoisospotaTtoscCrneaenahttftrrabkdntfcdhgrabtteeaheUllrdeettaeuetaaiebelhieteoociSlstrnyyhcetocaenehraTffnefitgaeoeiosefmooeohunmOottpurrtfrdnhhrtGesgtutersMblnmaahtbaeeeawesheaRweennoeltevIyeecnnaeihdxZddfieUdetieesrtrtseeetdolmIutpdlrlre-tltttchrNlaiuiaewrbwhhiisneaeanbecnneGlsciaeeiensrwegoonvaginans.sxedlodtriporToftepfaeehtloaFkklnodo1udtuHayttaietuuwhiuirogr-ytetiiyennEccsRpcoprsserrhersoeageoeeefuulNGetttrttrron-dsidafshheh,tht,klsNsu.y.NaRedteestbtbeebbhtiyhehtiTTpuiusUGGheoyyersesstieeuhtthnhneetnutrRiRshtta,tmmeMcseettsme.hhohiheskUbUorfnsoetoOeeiueToeuedGhsopbummurorlDtlihilel1n1euaoaoRntotofmetEpoe-poy-tynfhginUnfotoatnuLruerooeheooghsgyfwcyifptrturderftl-see-1e(h(uaaNitheeiNesrssrt-pseusiytblfi)h)feotiasumlfseemfitoteteeafeeacelheterhmrf-nfinnecn(hdmeoceetNtineschmdttsycd,mtpre):hooip:.ep,oietrtxaseoaadt.frhoeredttnoeehdtnderhheWimersnti.csuyneddddodyhneeeseotp.gitiiniheinrgpxaothcdtrcioroeieeidutnteafteeiWtoaonaifae.nnedtidlpnocnR-lntwndigdRiiiwiubTfnhntatmascfouNoaiaeetppalNophltaoantryes.nulurNfvhrrefycnlweNsdesecleteeTesa,dt.mfeeifeeaivcp.mlnehveidWpipydmrtetuerrnWfperefeoelesefeeecrleeonueeomctrrnfentiwnpeirtnofneoordptcGaiwecowrrptmrhoscoafleolree’mreoRusaaofilfrsanfmtmcsooorrntohfrtUecGltowvdhhrfdfeheceedevemaeeRnaandetnletxleelrhaobrnhagdeasxnUyvrpdybeefnyeodetyayepeeavheeltotelxeineorlltibiehbarlttrrasretotieortsetncyeeseemmsoyerisqnemcatte.mcmcretvsiusoaaleabr.aaetra.sesaerspnleleornsin,niel.m,nTentctorzsiiotebaidabth.oreus.tddrpetieendeeeh,deonnesd.tir.eaeeiiw.sabiit.otutrdcdnnlteewhdhhWisinlhsod,.pgnetydeeeaeaieheuugsteettddslcnhcldhhsntlldedai,oyucioieeektosdokbeanbeoxmtnsefcldhneedshdenipinlobeltoktitidtibseiewhnrshnwdeneihiteaccohefgnornlrd.eotitetiiaweongeeethdoaeithcdndntodnhendnstaeoeeeitynssdndn ToohffeibtceeominresgoatnfhdethoennenlxyetttwihneortchkoeoisrsdtehisnesaiGotenRcUfoorrrleaesyapecorhn(sd)iitnaegnmdt.oaWdthdehiteaionctnimvaelufliettiepmdlfeoisGrwoRnaUerd, ltlahayeyeeorrtshseacrrasenaubrseeezdaed,rdothese.d Tbhheidtewdeenen
27. ⻓长期兴趣与短期兴趣的平衡——Phased GRU RecNet cont. • ⽤用户session实际情况是有的session⼀一天100个⾏行行为,有的session⼀一个⽉月只有⼀一个⾏行行为 • Phased GRU, 引⼊入time gate k,根据采样间隔控制变量量的更更新(同时增加
 ⼀一定程度的采样间隔): Based on: Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences
28. 基于传染病模型的有限⾏行行为⽤用户兴趣预测 • ⼤大量量⽤用户⾏行行为⾮非常稀疏,每⽉月观看量量不不超过3次 • ⽤用户群体的兴趣演变遵循类似传染病传播的机制 • 预测:
29. 基于Nystrom CUR的exploration • NxN的I2I矩阵有很多元素很稀疏,explore收集数据需要很多流量量,代价很⾼高 • Nystrom CUR: • 可以⽤用c个landmark item来代表整个I2I相似度矩阵 • 通过statistical leverage score选择c个item • 重点explore对于c个item有过观看的⽤用户 n n c
30. 基于HIN图、聚类等⽅方法的兴趣识别 • 算法思想 • 权重设定 • 效果评估 利利⽤用⽤用户与节⽬目的播放记录构建⼆二部图,每个节点的标签按相似度传播给相邻节点,在节点传播的每⼀一步,每个节点按照相邻节点的标签来 更更新⾃自⼰己的标签。与该节点相似度越⼤大,其相邻节点对其标注的影响权值也越⼤大。当绝⼤大多数节点的标签不不再更更新时,整个⽹网络按照标签就 形成了了各⾃自所属的社区。 Item节点的权重为该节⽬目观看⼈人数的倒数 U-I连边的权重为该⽤用户对该节⽬目的观看完成率 User节点的权重为该⽤用户观看节⽬目数量量的倒数 U-I连边的权重加⼊入随机因⼦子μ 将全部⽤用户划分为35830个类簇 Item在类簇中的挂载成功率为100% 仅有单个Item挂载的类簇占99.48%,最多⼀一个类簇内包含32个节⽬目 类簇内包含的⽤用户个数的分布直⽅方图如右所示,其中最⼤大的类簇包含⽤用户45313个 • 典型CASE 序号 1 2 3 4 5 6 节⽬ID 323580 323577 318953 323581 323573 323571 节⽬名称 汽车城之建筑队 汽车城之⽕车特洛伊 和迷你卡车学习 汽车城之汤姆的油漆店 汽车城之超级变形卡车 汽车城之拖车汤姆
31. Hierarchical View Feedback Aggregation • 算法模型能⼒力力有限,End2End模型精准capture个性化特征能⼒力力有限 • 最优解在⾮非常⾼高纬空间中,由于噪声与模型收敛能⼒力力问题,需⼈人⼯工辅助降低搜索空间维度 • 使⽤用交叉特征的统计值,效果好于使⽤用离散交叉裸id特征 • 结合业务理理解,辅助模型更更好capture个性化特征 • 结合统计量量的variance进⾏行行噪声过滤 • 交叉统计:更更好capture不不同⽤用户群体对于不不同视频类型的兴趣,如: • 爱看韩剧的⼈人群对于台湾偶像剧的⼈人均vv; • 爱看⽇日本恐怖⽚片的⼈人群对于美国恐怖⽚片的⼈人均vv; • 20岁⼀一线城市⼥女女性看游戏⼈人均vv User Interest User Age Category Topic Tag Gender Geo User id Tag Category Popularity Video Trending Match Type Relevance Popularity Exclusive Time of day Purchased Day of week Location Context Source
32. 个性化排序在优酷视频搜索 全局全连接 concat 域内信息的二次编码 稀疏全连接
33. 个性化排序在优酷视频搜索-特征域划分及编码 • query user video id域 统计域 ⽤用户观看序列列 标签兴趣 ⽂文本 • 超⾼高维的稀疏编码来表征独⽴立个体 • 利利⽤用神经⽹网络来拟合个体共性 • 视频表达是基础 • 按特征的重要度和关联性分域 • 亿级参数 • 挑战:特征维度⾼高 模型存储空间⼤大,离线训 练计算时间成本⾼高,在线实现资源占⽤用⾼高, 前向⽹网络计算不不能满⾜足RT要求 • 特征分域 • 随机编码 • 挂靠编码 • 抽样技术
34. We Are Hiring ly136216@alibaba-inc.com
35. T hanks