百度 马艳军 - 人工智能驱动的内容生产与分发_部分1

贯婉奕

2017/12/18 发布于 技术 分类

ArchSummit全球架构师峰会是InfoQ中国团队推出的面向高端技术管理者、架构师的技术大会,参会者中超过50%拥有8年以上的工作经验。 ArchSummit秉承“实践第一、案例为主”的原则,展示新技术在行业应用中的最新实践,技术在企业转型中的加速作用,帮助企业技术管理者、CTO、架构师做好技术选型、技术团队组建与管理,并确立技术对于产品和业务的关键作用。

文字内容
1. 人工智能驱动的内容生产与分发 马艳军 博士
3. 马艳军 ጯଶ Ḓᶭӱ‫ۓ‬᮱ԆձᎸ‫ݎ‬ຝ຅૵ Ḙᜌ٠‫ܗ‬ॊ҅ሿࣁࣁጯଶԆᥝ՗Ԫᛔᆐ᧍᥺॒ቘ̵๢࢏ ᘉᦲ̵വគದ๞ጱᎸ‫ݎ‬ૡ֢҅ፘ‫ى‬Ꮈ‫ݎ‬౮ຎଠာଫአԭ ጯଶ൤ᔱ̵‫௳מ‬ၞᒵԾߝӾ̶! Ḙ‫ܗ‬ॊ้݇ӨཾፑᒫӠ໛ຝᦇ‫ښ‬ҁFP7҂̵863ᦇ‫ښ‬ᒵࢵ ٖक़ᶱፓ҅‫ݎ‬ᤒᦞ෈20֟ᓤ҅ኩ᧗ࢵٖक़ದ๞‫ݎ‬กӫ‫ڥ‬ 20֟ᶱ҅ଚग़ེ೅ձACL҅IJCAIᒵࢵᴬ๦শտᦓᶾऒԆ ଅ޾ਭᑤՈ҅ፘ‫ى‬౮ຎ้឴஑2016ଙࢵਹᑀದᬰྍԫᒵ ॹ̶!
4. 提纲 •  内容消费的行业现状 •  人工智能辅助内容生产 •  内容质量控制模型 •  内容分发/推荐系统
5. •  内容消费的行业现状
6. 什么是内容消费? 一种直接或间接以内容产品和内容服务为消费对象的经济活动 ড়Օᇿᒈ 内容传播的媒介相对独立,传播媒介的属性限定了内容的 类型,如视频类内容几乎只能在电视频道上传播,供需调 节难 ᥯ᜋ‫ܔ‬Ӟ 内容生产成本高;图文内容、视频内容的生产者之间有较 大的壁垒,内容的供给以生产者为主,内容产量相对低 ‫ݻܔ‬ၾᩇ 内容从生产者、传播渠道、到用户,全程单向传播,一次 内容消费的完成就意味着一次传播行为的终结
7. 内容消费满足了用户的什么需求? 覆盖每一个用户生活的方方面面 用户需求类型 低 成长 需求特点 刚需 · 少量 需求满足方式的 可替代性 决策 兴趣 刚需 · 适量 · 粘性 消遣&流行 高 高频 · 海量 · 碎片 内容供给 观点型内容 知识型内容 泛娱乐内容
8. 内容消费为什么重要? 1. 内容消费已经发展成为了一个影响所有人日常生活的庞大产业 Top 10ᤈӱአಁᥢཛྷ݊‫ྲݶ‬ीᳩሲ ҁ2017ଙ6์҂ (亿月活用户) 5.2%23.4%21.5%5.6% 33.9%39.2% 6.0% 9.1% 17.5% -1.1% Top 10ᤈӱአಁ௛෸ᳩ݊‫ྲݶ‬ीᳩሲ ҁ2017ଙ6์҂ (亿小时/月) 72.7% 55.1% 8.3%15.8%33.1% -0.3% 9.5% 0.9% 7.3%17.1% 9.16 8.21 6.3 5.97 5.6 5.6 5.49 5.09 4.76 4.5 ‫ܨ‬෸᭗ᦔ ᖓ‫ݳ‬ኪࠟ ࣁᕚᶪԔ ᖓ‫ݳ‬ᩒᦔ ଫአࠟମ 398.2 134.2 130.6 82.4 76.4 27.5 23.7 20.8 8.2 7.9 ᑏۖᐒԻ ᑏۖᥤ᷇ ಋ๢჋౭ ᑏۖᨻᇔ ᰂᣟቘᨰ 数据来源:Top10行业用户规模、用户总时长和同比增长率来源于Quest Mobile的《移动互联网2017年Q2夏季报告》
9. 内容消费为什么重要? 2. 更是国民经济杠杆,关乎社会主流价值观的塑造 2015-2017ٖ਻ኪࠟᤈӱᥢཛྷҁՊ‫ز‬҂ ٖ਻ኪࠟ ᗑᕶኪࠟ ‫ྲܛ‬ 5% 38,000 8% 47,000 10% 56,000 2,023 2015A 3,668 2016A 5,567 2017E Ո࣐‫௳מ‬ၾᩇҁᗦ‫ز‬/ଙ҂ 内容消费每增加100亿元,可带动国民经济增长338亿元 1 3,400 ᗦࢵ 2,400 与美国差距81.4% 与日本差距73.7% 631 ෭๜ Ӿࢵ 数据来源:1)2013年工业和信息化部电信研究院数据;2)人均信息消费:世界银行及恒丰银行研究院商业银行研究中心统计数据
10. 内容消费行业地图 人工+机器,多种消费形态组合 机 器 搜索 关注 秘书化 推荐 排行榜 人 工 聊天 问答 完全知道 社区 BBS 部分知道 门户/垂直APP 完全不知道 对需求的知晓程度
11. 内容消费的主要形态 从搜索到推荐,是内容获取方式的必然演进 聊天/阅读/社区 搜索 不知道 我不知道 推荐 知道 我不知道 推荐 知道 我知道
12. 内容消费的三大变化趋势 媒介融合 · 角色融合 · 消费升级 媒介融合 •  一个媒介上可以获取多种内容,同一内容也可以在多个媒介上分发 •  获取内容的方式大发展,从传统的人找内容,发展到内容找人 角色融合 •  生产门槛降低,人人都是生产者,人人都是消费者,内容生产者猛 增 •  从专业生产(PGC)发展到社会化生产(UGC),内容海量爆发 消费升级 •  从关注到最终的分享可循环,内容散落在消费的各个环节,影响力 扩大 •  消费结构变化,用户需要更多专业垂直、精细、多元化的内容 需要解决的问题 作者深度赋能 优质内容识别 精准个性推荐
13. 百度智能驱动的内容消费生态 始于2016年6月 精准个性化推荐及推送 •  搜索:从关键字,到语音、图片交互 •  个性化推荐:百度特有的超大规模实 时个性化推荐系统,千亿规模参数下 的多目标最优化 •  推送:基于用户兴趣点、地理位置、 天气等综合因素 03-内容分发 定制生产、优质生产、高效生产 •  选题推荐:大数据+知识图谱 •  内容选材:知识图谱+自动配图 •  图片处理:智能裁图 •  文字处理:自动标题推荐+语义纠错 •  视频识别:视频去重+长短关联 •  智能写作:AI智能写作 多维度识别优质内容资源 •  质量先验:基于半监督学习构建对 于篇章质量的全方位的理解框架, 多维度丰富信息 •  质量后验:基于NLP和CNN,识别 用户正负反馈,评价内容质量
14. 搜索+推荐,满足用户内容需求 双引擎 手机百度,“搜索+推荐”双引擎内容分发 极速搜索 一站搜索全网,搜文字、搜图片,快速识别,帮助用户主动获 取所需内容 精准推荐 精选资讯、视频、小说、漫画等优质内容,结合智能个性化推 荐算法,满足用户潜在内容消费需求 Google Feed, 2017年7月上线
15. •  人工智能辅助内容生产
16. 内容生产流程 1 选题推荐 · 内容选材 · 图片处理 · 文字处理 · 视频识别 · 智能写作 选题推荐 •  基于7亿互联网民每天60亿次搜索请求的大 数据积累,挖掘实时热点事件,结合用户画 像和知识图谱技术,智能推荐给相关作者, 邀请作者写作,解决作者选题环节的痛点 •  相比普通作者自选题文章平均用户点击率提 高2.7倍 实时热点,建议选题,稀缺主题,…… 全网搜索大数据 知识图谱
17. 内容生产流程 2 选题推荐 · 内容选材 · 图片处理 · 文字处理 · 视频识别 · 智能写作 内容选材 •  基于知识图谱的内容推荐:通过语义分析技术识别作者写作 主题,结合百度知识图谱、指数、百科、正版图库等产品, 帮助作者发现写作素材 自动配图 •  基于图像识别能力的自动配图功能,根据图像清晰度、美观 度、图文相关性等特征选取优质图片 •  模糊图片识别准确率71%,清晰图片识别准确率96%以上; 自动配图准确率90%
18. 内容生产流程 3 选题推荐 · 内容选材 · 图片处理 · 文字处理 · 视频识别 · 智能写作 智能裁图 •  利用基于深度学习的图像处理技术,自动 识别图片主要内容区域并进行截取 •  准确率97%以上,百家号文章头图的不 合格率降低60% 智能裁图