当前位置:文化 > 中华文化新闻 > 正文

一点资讯总编辑吴晨光:揭秘内容分发的最新逻辑

2017-08-10 18:31:07    中国青年网  参与评论()人

如上图展示:在用户画像中,生活环境是基础。生活环境又包括两个层次,第一是地理位置。一点资讯已经能定位到商圈和小区,而百度地图、滴滴打车已经能实时定位到你站的地方。衣食住行、水电煤气,包括政府提供的产品服务,都和你的生活环境、地理位置有关系,所以,地理位置越精准越好。

时间场景来说,早上推的东西应该是硬的、偏资讯类的内容,因为过了一夜,大家需要看到昨晚发生了什么。而且,上班族在早晨都比较忙,没有时间看长篇大论。到了晚上则相反,用户有时间而且希望放松,所以需要推送偏软性、偏娱乐的内容,包括一些美文——在安静的夜里,才能读出其中的味道。

第二个层次是手机环境。它同样包含两个含义,一是手机型号,不同型号的手机使用者的阅读习惯是不一样的,比如红米用户和苹果用户。即使是同一个品牌的手机——OPPO A57和OPPO R11,使用者的阅读习惯也是不相同的,这都需要我们通过数据去洞察。另外,我们的手机里激活了哪些软件,使用的频率如何,在不影响用户隐私的情况下,都需要去深刻洞察。

第三个层次是用户信息。如果你是注册用户,你的性别、年龄、身份、学历等,都可以成为我们判断你兴趣的依据。另外,为了把一个用户画像描述得更精准,一点资讯设计了一个开屏问卷——问用户喜欢什么。有超过50%的用户做了选择,于是,我们能够了解到他们的基本兴趣。当然,也有人不愿意填写,甚至不愿意透露自己的地理位置。所以,这就给我们提出了难题——冷启动时,应该给用户提供哪些信息。

冷启动,指用户下载某个App后第一次打开它的过程。正如同恋爱的第一次见面,它的重要性毋庸置疑。 而在冷启动中,重中之重则是用户打开之后呈现的第一屏,大概有5条信息。测试表明,如果在这5条中,用户点击了一条,那么它的次日留存率就会比没有点击的人高一倍。所以,花多大精力去打造这5条内容都不为过。为此,我们做了大量的对比试验——包括尝试推送相关型号手机的资讯,包括推送相关地理位置的资讯,有成功也有失败。在冷启动中,因为用户画像不够清晰,所以基本原则应该是推送重要事件、大概率领域(比如足球,而不是高尔夫球),而不能推送拿些小众内容去赌,否则你很容易失败。

当用户阅读完冷启动首屏内容之后,可能会产生五种情况:

(1)有点击下拉;(2)无点击下拉;(3)无点击上滑;(4)有点击上滑;(5)直接走人。针对这些不同的行为方式,我们应该启动不同的策略。这需要非常细腻的数据观察,要从中总结规律。从此,用户的行为也变得多样化——比如点击、分享、收藏、评论、用户停留时长等等,这都是算法判断推送哪些内容的依据。

这是一个非常复杂的运算过程。比如,有个用户点击了五次“吴晨光”,搜索了一次“邹明”(凤凰网总编辑),如果只给他推一条,应该先推“吴晨光”还是“邹明”?从数量上来说,一定是“吴晨光”更多,但是搜索属于深度行为,他主动去搜索说明对“邹明”很感兴趣,这种情况应该去推谁?

再如,他点击了五次“吴晨光”,点了两次“邹明”。但关于吴晨光的优质内容没有了,只有关于“邹明”的好文章,那是应该推一条很水的关于“吴晨光”的文章,还是推出关于 “邹明”的好文章?

还有,他点了五次“吴晨光”的图文,要不要推一个视频、音频或者问答?或者一个用户很喜欢“吴晨光”,今天突然出了“邹明”的绯闻,是应该把“邹明”的热点推出来,还是,依然根据用户的兴趣继续推“吴晨光”?

所以,用户画像的复杂性,不是简简单单的群体划分问题。它是对人性的深刻洞察,一个行为,比如点击,背后的含义也完全不同,有的是因为真的感兴趣,有的是因为标题党。

再看文章画像。对于编辑而言,文章画像相对简单,因为这是我们的专业。在传统媒体时代,我们就对文章进行画像——比如说消息、通讯、特稿,还包括我一直在尝试的调查报道和解释性报道。

当然,今天的文章画像的复杂性远远高于传统媒体时代。因为这里的文章泛指内容,而不是单纯的文字概念。它包括:

体裁——是文字、图片、视频、音频、直播,还是问答,或者类似微博的短内容?

作者——作者其实代表着背后的自媒体号,包括它的级别、知名度、订阅数等;

标签——这是对于文章描述的领域的认知,比如体育—足球—中超—国安。我们把打标签的权力交给了自媒体作者,他们可以在自己生产的内容下打好标签。同时,我们的审核编辑、频道编辑会修正标签;算法也会对标签做进一步调整。最后综合评判,给文章一个最准确的定位。如果是算法很聪明,做了深度学习,那么还可以分析出更多关于文章的特点,也就是像人一样,去理解文章的中心思想、段落大意。当然,这个很难。特别是对视频、图片的识别更难。

内容质量——它有两个维度,第一是编辑判断,第二是算法判断。编辑的判断前面已经讲过,无非是选题、采访、写作和包装四个维度;而算法判断无非依据数据,还是点击、分享、收藏、用户停留时长等等。

用户画像有了,文章画像也有了。我们现在开始匹配。匹配的依据就是算法模型。我们可以把模型做详细拆解,分为很多模块——比如垃圾过滤模块、热点模块、本地模块等等。算法在每个模块里,进行文章的挑选、排序;不同模块里的文章也在进行竞争、排序。最后择准、择优分发给用户。

我们以热点模块为案例,做具体分析。

热点是一个很好理解的词,就是刚刚发生的、关注度较高的新闻。它有别于其它非时效性的资讯。首先,我们要告诉算法,什么是热点。这里有很多方式——比如,监控百度。百度热搜词可能就是热点。在一点资讯要闻频道,编辑置顶的也是热点。我们还可以人工定义一些文章是热点:比如挂“新华社快讯”字头的就认为是热点。这是第一步。让算法了解热点,这就是机器学习。

第二步,我们要把热点内容做“召回”。这里的召回和问题汽车的召回不一样,是指把相关热点文章聚集在某一个池子里。我们称之为“热点池”。我们会把热点池分若干层次,在3年前,我就在《超越门户》中描述了搜狐网重大突发事件的规则,从三级到特级。来一点资讯做总编辑后,又进行了进一步修订。现在,我们把标准通个案例的方式输入计算机,让算法来判断热点的大小,以决定向什么样的群体进行推送。

[page title= subtitle=]

图说:《超越门户》一书中,有编辑对重大突发事件处理的详细分级标准,现在我们要让机器学习,做更精准的分发。

下面,我们再来看文章分发的全过程。注意此图:

文章分为两个类型——抓取源文章(RSS)和自媒体文章。但不管什么样的文章,都需要经过反垃圾模块的过滤,去除有害政治信息、低俗内容、虚假广告、“标题党”文章等。所以,反垃圾模块里应该有这些功能。如果你问,这些功能是如何实现的,那还是前面提到的答案——输入案例或者关键词,让机器学习,找到特征并举一反三。

垃圾过滤之后,算法或者编辑给文章打了标签、做了分类,文章就聚集在各种池子里。刚才说了,这个过程就叫做召回。按照文章的标签分类以及不同的属性,它们被分配到各个池子里——包括我们刚才所说的热点模块、本地模块,还包括被编辑挑出来的好文章,进入精品池模块。如果有些文章又有本地属性、又是精品,就会同时放在两个池子里。还有一些文章,被打上了体育标签或者财经标签,就放在了体育或者财经的池子里。

最后到了分发过程,主要是针对某一个用户,这么多内容先出谁后出谁。这就是排序。用户下拉首页流看到的内容,就是排好序的。其它频道流也是如此。排序具体的规则取决于算法,也就是说用户画像、文章画像和算法模型之间的关系。刚才,我们已经讨论过了。

关于如何去衡量分发的效果,大概有几个点:

第一是准——推的东西就是用户喜欢的;

第二是快——好内容要第一时间推送;

第三是优——同一领域的文章,一定是先推高品质的。否则,我们的优质内容就没有流量,获得不了利益和影响力。优秀的自媒体人也会因此远离这个平台,进而形成恶性循环。

最后是宽——不让用户陷入信息孤岛。要有准确的兴趣探测,能预判你喜欢什么不喜欢什么。这就是我们讲的,保证用户的更多“知情权”。

5. 趋势:编辑、算法、社交分发三合一

完了微观的运营,我们返回头来看看宏观。刚才我们说了,已经有三个人拥有了内容分发的权力,而最新的趋势是,编辑、算法、社交这三种分发模式,正在融合之中。

大家请看下面三个例子:

A。微信“看一看”功能。

我们知道,微信是最典型的社交工具,而它的“朋友圈”功能,其实是一个社交属性很强的信息流。你的好友在做什么、看什么、关注什么,通过朋友圈一目了然。2016年6月15日,微信的一个小功能—— “朋友圈热文”悄然上线。据微信内部人士透露:在最初的一段时间里,只有大约10%的用户开通了这个功能;即使在9个月后的今天,该功能也并非对全部用户开放。而从这个产品的位置来看,也是“庭院深深深几许”,藏在三级页面之后?。

但开发者为这个产品赋予了一个大气的口号:“发现更广阔的世界”。他们试图通过这个产品,把微信上2400多万个公众号里最优质的内容,以“微信头条”的模式呈现在6.5亿用户面前。

“朋友圈热文”的来源,是所有微信用户转发到朋友圈的超链接内容(主要是文图模式)。微信团队的解释是:“此功能通过对微信用户行为习惯的深入分析,基于用户的选择,会优先推荐(a)用户关注的公众号文章和(b)好友阅读过的原创文章,同时也会(c)精选整个微信平台上的优质文章。”

热文中公众号的权重是优质,具体体现如下:

基本权重指标:认证号(比如新京报的官方微信号)权重高于个人号,原创号的权重高于非原创,用户关注的号及用户朋友关注的号权重更高,但与公众号粉丝数没有直接关系。

从这个逻辑上看,微信团队对原创内容的重视至高无上。在其2400万个公号中,活跃账号约占1/10,而被认证的原创账号已经超过50万个。微信采用各种方式扶植原创——比如说打赏功能只对原创作者开放,此次又是信息流的优先推荐权。所谓的“认证号”也是原创的标识之一。

。粉丝活跃度:包含文章点击率(打开率)、粉丝消息及留言互动频率、留言内容的点赞率、阅读原文的打开率等(注意都是“率”,而不是“量”)。

公众号搜索频率:如果公众号经常出现在用户的搜索结果中,并且被点击关注,也可提高公众号的推荐权重。

关键词匹配度:公众号名称与简介的关键词匹配度;公众号名称及描述的关键词与内容关键词匹配度,匹配度越高则权重越大。

[page title= subtitle=]

而在这个产品的进化过程中,我们还发现:

1.很多文章的左下角,都有标签。主要包括:

(1)已关注:说明你已经订阅产生此文的公号。

(2)好友都在读:说明你的朋友们在阅读此文(但具体点击率到一个怎样的比例才会获得这种推荐,还没有获得具体数据)。

(3)XX人都在读:比如北京人、河北人,说明某一个地域的人都在阅读此文。

(4)XX精英、XX爱好者都在读:说明某一个圈子(如IT人群)都在阅读此文。XX人群,应该来自用户的注册信息。

2.在文章的排列逻辑上,可以参考下图:

 

殷墟博物馆新馆 穿越三千年 探寻商文明

24-04-09 11:18:28殷墟博物馆新,商文明

中国农业博物馆:展示博大精深的农业文明

24-03-26 09:42:23中国农业博物馆,农业文明

文心寻画境 天然得真趣

24-03-19 10:47:40吴兴河,湖州

微短剧为何能集中“收割”大学生?

24-03-14 10:41:50​《我在八零年代当后妈》,短视频

旅拍火 游客乐 文旅融合 古城更美

24-03-11 10:14:16文旅融合,平遥古城

丝绸古道声悠扬 陇原文旅欢歌唱

24-02-28 09:52:10“一带一路”,甘肃文旅

“文字之都”文旅“上新”

24-02-26 10:00:52中国文字博物馆,殷墟

春节大鱼大肉吃腻了?快来跟宋人学做清淡养生粥!

24-02-23 10:02:51《东京梦华录》,食疗养生,宋代

北京的“龙脉”在哪里?

24-02-19 10:13:40北京“龙脉”

新春旅游玩法“上新”

24-02-01 09:57:40文旅,春节旅游

纪录片《智在匠心》 彰显中华非遗之美

24-01-29 09:52:01中华非遗,纪录片《智在匠心》

多彩文化 辉映红山(你所不知道的一级馆)

24-01-23 09:56:15赤峰博物馆,红山良渚文化展”

尺寸藏万象 抚简阅千年

24-01-17 09:49:23甘肃简牍博物馆,简牍

汉籍合璧 文脉赓续

24-01-15 10:04:16中华古籍,数字化利用

数字技术赋予千年壁画无限生机

24-01-08 10:08:14太原北齐壁画博物馆,文物活化利用

專訪方力鈞:探索面孔与陶瓷

23-12-29 15:47:31方力鈞,陶瓷艺术

“无文物”体验展体验如何?

23-12-27 10:09:16北京遇见博物馆,三星堆文化

生肖舞蹈:引领“新国潮” 探索民族风

23-12-20 10:30:45杨丽萍,生肖舞蹈系列艺术片《舞龙》

相关新闻