第五节谁成就了标题党

《津500套房竟引千人暴乱》《中国将成为网络强国:2050年世界无敌》《官方:网约车属高端服务不应每人打得起》《上海冠生园董事长被猴子弄死》……这些“骇人听闻”“断章取义”“夸大事实”“无中生有”“偷换概念”的内容就是我们俗称的“标题党”内容。

一个很骨感的现实是:不需要任何数据挖掘,就知道这类标题党的内容备受欢迎。

三俗的内容是最低级的内容,如果用户没有刻意地脱敏与抵制,受好奇心驱使的用户往往会不由自主地发生点击。这种情况不是智能推荐时代才出现的问题,而是从古至今,从有媒体诞生以来就普遍存在的问题。反而是有了智能推荐,这种现象得到了一定程度的解决。

推荐系统在获取用户的行为数据用于计算时,计算维度不仅只有点击。如浏览时长、浏览结束等粒度更细的浏览数据,分享、点赞、评论等常规互动数据,一切有业务意义的,可以表现用户兴趣的数据,都会以不同权重参与计算。当然,不同业务场景下,会有不同的行为数据表现用户的兴趣爱好,而结果的推荐是这些用户行为综合指标的计算。

在标题党吸引了众多用户点击的情况下,如果内容并未达到用户的预期,用户快速地退出并未有其他的互动数据产生的话,那么这篇文章在推荐系统里的权重其实并不高,并没有多大概率会被推荐系统推荐给其他用户。

首先,表示用户兴趣度的行为不仅只有正向行为,还有负向行为,比较常见的“不感兴趣”“减少此类内容”“减少此类相关内容”或者是“标题党、假新闻”的投诉等在推荐系统中都可能是负向权重的行为。其次,推荐系统中的用户协同引擎,也就是推荐系统在利用用户群体共性行为做推荐时,会优先推荐那些被共性用户通过各种行为表达出的综合权重较高的内容,所以被共性用户发生过负向行为的内容在推荐时已经被系统进行降权至低概率曝光。推荐系统的强交互性通过用户的选择帮助其他用户进行动态的筛选,这些标题党内容很有可能已经被快速地清洗出了某个用户的推荐池。

最后,智能推荐不仅是依赖内容标题进行语义分析,像正文、作者、所属分类、标签等全量文本信息都会参与计算并影响推荐结果。从逻辑上来推断推荐系统没有任何的算法会增多标题党类文章曝光的概率。当然,像短视频类只有一段标题的内容又是另外一回事了。所以,其实推荐系统有自己的一整套内容管理体系。

针对标题党类的内容,无论是PGC内容还是UGC内容,最根本的是要完善现有编辑审核下的内容审核机制(甚至部分内容分发平台无编辑审核),从源头上监管和整治。对于推荐系统,成熟的推荐本身并不仅仅依赖纯粹的语义分析、单一指标的热度特征和点击行为,还有如用户协同引擎等多种推荐算法、数据维度计算参与其中。用户在推荐栏只看到了结果,但不能武断地说,是智能推荐带来了标题党的问题。