百度 马艳军 - 人工智能驱动的内容生产与分发_部分2

力雨燕

2017/12/18 发布于 技术 分类

ArchSummit全球架构师峰会是InfoQ中国团队推出的面向高端技术管理者、架构师的技术大会,参会者中超过50%拥有8年以上的工作经验。 ArchSummit秉承“实践第一、案例为主”的原则,展示新技术在行业应用中的最新实践,技术在企业转型中的加速作用,帮助企业技术管理者、CTO、架构师做好技术选型、技术团队组建与管理,并确立技术对于产品和业务的关键作用。

文字内容
1. 内容生产流程 4 选题推荐 · 内容选材 · 图片处理 · 文字处理 · 视频识别 · 智能写作 标题推荐 •  基于语义理解技术,识别文章内容,推荐优质 标题 语义纠错 •  运用机器学习的能力,让机器理解文章中的句 子含义,来找出不符合语义的错别字 •  纠错准确率99%
2. 内容生产流程 5 选题推荐 · 内容选材 · 图片处理 · 文字处理 · 视频识别 · 智能写作 视频识别 •  视频查重:基于图像及语音的比对技术,识别内容近 似的短视频,应用于审核前原创作者保护,线上降低 重复视频推荐;准确率达到97.5% 重复 •  长-短视频关联:将影视截取的短视频匹配到其来源长 视频,利用知识图谱获取关联信息、进行相关推荐; 准确率90% 百看不厌,经典画面,赵又廷与挚爱杨幂在 十里桃花再次相遇 1232次播放 --短视频片段获取长视频结构化信息-影视剧名称:三生三世十里桃花 演员:杨幂,赵又廷,张智尧、迪丽热巴 年份:2017 类型:古装剧
3. 内容生产流程 6 选题推荐 · 内容选材 · 图片处理 · 文字处理 · 视频识别 · 智能写作 智能写作 •  大数据+知识图谱,自动挖掘现实生活中动态热度变化,再通 过算法自动生成文章 百度智能写作示例 2014年美联社就启用机器人进行财经报道,每季度能完成对 4000家公司的财报报道,此前靠记者仅能完成400家 2015年起,机器人用于体育新闻报道,完成梦幻橄榄球赛报道, 还在行文中大展幽默(技术支持为自动化洞察力公司,其开发的 软件Wordsmith在16年共写了15亿篇文章,涉及金融、房地 产、体育等多领域) 2015年9月,推出自动化新闻写作机器人Dreamwriter,发布了 关于消费价格指数的报道 2015年11月启用机器人写稿系统“快笔小新”,供职于体育 部、经济信息部和中国证券报,撰写体育和财经稿件
4. •  内容质量控制模型
5. 内容质量控制模型 构建全方位的篇章质量理解框架,多维度理解内容质量 低质内容示例 篇章质量理解框架 低质内容识别 内容优质度计算 内容低俗 内容令人不适 可读性 时效性 标题党 旧闻新发 原创度 源权威度 恶意广告 基础文法硬伤 内容影响力 题材吸引力 基础数据 作者行为 全网用户行为 作者信息 Feed用户行为 基础技术 网页搜索 机器学习 自然语言理解 数据挖掘
6. 内容质量控制模型 先验质量识别:基于半监督的多目标统一内容分类框架 Shared feature representation CNN Layer Max Pooling Concatenate other task related advanced features Task related Full Connected Hidden Layer Task Related Full Connected Layer With Softmax Output RNN Encoder 全量资源 Unlabeled + Task-related Features + Shared Semantic Features 淫秽色情 …. …. 任务相关标注 Labeled RNN Decoder Task-related Features + Shared Semantic Features 标题党
7. 内容质量控制模型 后验质量识别:基于NLP语义理解的评论正负反馈分析 用户评论 又骗老子流量、 牛头不对马嘴、小编标题狗 mdzz、制帐 新词发现 凝固度 信息熵 词频 CNN模型预测 主体特征词 类别特征词 特征词词典 基于共现统计筛选 小编、编辑、百度 GBDT模型 文章是否低质 密集恐惧症要犯了、 感觉头皮发麻、 不行了要吐了 类别种子词 特征词挖掘 骗流量、瞎 写、胡编乱造 评论语料集
8. •  内容分发/推荐系统
9. 内容分发/推荐系统 基于知识图谱,构建关注点关系图谱 关注关系图谱示例 科技 谷歌发布 VR摄像机 虚拟现实 智能手机 人工智能 三星手机 爆炸 无人驾驶 特斯拉 VR眼镜 无人机 新车 新能源汽车 特斯拉 失控 北京车展 汽车产业 比亚迪 汽车
10. 内容分发/推荐系统 内容理解:关注点抽取 训练数据 Feed日志挖掘 网页挖掘 模 型 训 练 内容特征 文字/图片/视频…向量表示 关注点 关注点向量表示
11. 内容分发/推荐系统 用户理解:用户兴趣挖掘 •  数据来源 •  行为数据:搜索query、Feed阅读、贴吧、全网浏览数 •  画像数据:百度用户画像数据 …. •  基于行为数据的挖掘策略 •  针对搜索Query和Feed阅读内容,基于内容理解技术提取兴趣主 题和关注点 •  根据关注点/主题在内容中的权值、展现数、点击数计算相应的 强度 •  根据点击数和持续周期,区分长期和短期兴趣点 •  基于画像数据的挖掘策略 •  画像兴趣体系到Feed兴趣体系映射 •  基于画像属性的人群划分和推荐触发 用户模型示例
12. 内容分发/推荐系统 推荐策略:多维度的推荐队列召回、排序和融合 推荐价值相关的多目标学习系统(Multi-Task Learning) 收藏 •  模型输入:千亿规模参数 ➢  用户信息:兴趣、属性、偏好,等 ➢  内容信息:吸引力、质量、相关性,等 ➢  匹配信息:用户-内容 •  模型输出:多目标 ➢  内容点击、时长、收藏、评论、分享,等 时长 内容点击 用户信息 内容信息 匹配信息
13. 内容分发/推荐系统 DNN上线,核心兴趣点强相关内容推荐准确度显著提升 DNN上线前 DNN上线后 房价调控 白鹿原 英超 人工智能 … 用户核心兴趣点