那么,内容的审核是在什么环节上做的呢?
一般来说,内容审核分为先验审核和后验审核。先验审核则是内容在前端展示前进行先行验证。后验审核则是在前端发布后,复查是否含违规内容并进行屏蔽、删除处理。先验审核还是后验审核依据平台属性决定,同一个平台内因为存在不同业务场景,所以先验审核及后验审核可能会同时存在。
IM平台内涉及聊天交互、文件上传、文件保存,大多是后验审核。UGC平台的动态、评论一般也为后验审核,比较典型的像新浪微博。我们经常在微博上看到有些图片加载不出来,或是发的微博被删除了。而像微信公众号,内容创作者在提交发布稿件之后,往往需要几分钟的时间才发送成功,这几分钟的时间则是系统进行发布前的先验审核。一般来说,对时效性要求比较强的场景是后验审核,对时效性要求比较弱的场景是先验审核。先验、后验审核规则是相同的,但流程不同。先验审核是内容在上传推荐系统时,多了一道防火墙,违规内容不进入物料数据的采集中。而后验审核则是每几十分钟遍历一遍服务器,并发风险提示给管理员,管理员可进行删除操作并同步给推荐系统。
识别垃圾内容的过程也跟NLP关联度不大,现行效果较好的审核系统大多是规则审核而非NLP的文本处理。其原因是NLP的文本处理本质是用来解决概率问题的,不管是机器翻译还是文本分类,NLP给出的结果往往是以可能性或权重大小呈现的,无论概率多大,都不能100%确定。而文本的审核则是一个确定性的场景,只要出现什么样的内容,那么就是违规的、就是不合理的,而这些内容本质上是可以穷举的,也是随着场景和时间的变化不断增减的过程。这是文字类违规信息的审核。
图片的审核则稍微有点不同。图片无法用规则直接进行过滤,所以只能通过图像识别。通过大量的标注数据进行学习,生成审核的模型,用户上传的图片通过接口的形式上报至模型,模型进行识别给出处理意见。其处理过程与文字的处理是一致的,只不过图片分两种:带字的和不带字的。所以面对图片这种更复杂的审核,一般需要先进行OCR的识别,将图片中的文字信息识别出来并与实时更新的违规字库匹配,先通过文字的形式拦截一次。OCR拦截后,再将图像放至模型中跑出处理结果并将疑似违规图片上报人工进行复审。不过现实中,这种图像审核的难度并不小,因为很多违规信息本身是一直在增减的,而内容发布又具有一定的时效性和热点性,审核人员需要不断地去丰富违规信息库和图像模型。
总而言之,内容平台的垃圾内容、有害内容、假新闻等本身与推荐系统没有任何关系,推荐系统就是平台内容池的搬运工,解决水的质量问题肯定不是去找搬运工而是找水源。抛开朴素意义的垃圾内容审核来讲,现在很多内容平台的现状是其内容来自多个内容源,本身很多内容源的质量较差,也就是不符合平台主流用户的审美、需求与三俗,那么从艾克斯的推荐系统来说,是可以针对内容源、内容渠道批量地将这些内容降权甚至屏蔽,这样可以做到主流受众不影响,还可以满足真正对这些内容有强需求的人,不至于“宁愿错杀一千,也不放过一个”,这也是规则推荐永远做不到的事。每个内容平台都有其主打的用户人群,内容源的内容质量是需要运营人员花时间去分析用户需求而做出选择,如果一个内容源不能持续地提供符合平台用户需求的内容,那为什么不尝试换一个呢?