财之道 - 分享付费文章

《内容创作者如何通过了解基本风控知识避坑?》

知识付费 ·

《内容创作者如何通过了解基本风控知识避坑?》

facert2022年01月18日16:58

大家好,我是facert。加入生财有术两期,学了很多东西,对技术产品也有了新的认知。折腾过一些产品,比如开发了几万用户量的浏览器插件,运营公众号和Twitter。我曾经在某大型内容平台做过几年内容风控工程师,负责社区垃圾内容处理引擎的研发。

今天,我想以我过往的工作经验,跟大家分享一些内容风控的干货,并且我也会列举一些风控的典型案例,或许就有你曾经踩过的坑,希望我给出的一些建议能给大家带来帮助。

如果你觉得对你有帮助,欢迎点个赞让我知道呀~

以下是分享目录:1.内容风控是什么?2.内容从提交到发布的生命周期3.内容风控系统如何判断文章违规4.风控的具体案例5.给内容创作者的建议

—01—

内容风控是什么

互联网飞速发展,各大平台在业务崛起的同时,也面临着各种各样的风险。比如帐号密码或者资产被盗、秒杀活动被羊毛党盯上、内容被爬虫恶意爬取、低俗垃圾内容的泛滥。

所以,基本上大型的互联网平台都会有风控团队去保障平台的业务安全。这次主要讲讲内容风控这块,不同的平台可能叫法不一样,有的叫反作弊,也有的叫反垃圾。内容风控主要处理的风险包括:低俗色情、垃圾广告等对社区有害的内容。

当然不同社交平台的风控团队,其职责会有很大差异。如涉政、涉恐、社区言论氛围等负向内容也可能由风控团队统一处置。

由于这几年大部分的内容平台(知乎/豆瓣/小红书/贴吧)都因为内容管控不力被下架处罚过,所以平台对内容风控也日趋严格。很多内容创作者也吃过这方面的亏,写好的文章经常因为内容违规被平台删除或者限流。

除了一些专门的黑灰产团队,通过创造大量垃圾内容来达到恶意引流的目的,我相信大部分的内容创作者是把内容作为第一位,只是不熟悉平台的规范和审核标准,无意触犯规则而被惩罚。

所以,我希望借助这篇文章科普下风控相关的知识,能够帮助真正做内容的人避坑。

首先声明:本文讲解的风控知识都来自于互联网,属于风控技术人员的基本常识。不涉及任意一家内容平台的风控规则。

—02—

内容从提交到发布的生命周期很多人好奇,写完文章点提交后,内容会经历什么才能最终发布。

我们来看下大致的过程:
1、文章提交后首先到达风控系统,做个粗粒度的检查。没问题后往下放行,之后有更严格的检查,有问题的话会触发风控,人工审核或者直接删除。2、接下来,文章进入业务层,它会被打上各种标签,这些标签对应不同的流量池。3、到了流量池以后等待分发,推荐系统会将它分发到对这篇文章感兴趣的用户。4、用户看到文章后,开始对文章评论、点赞、转发。5、一段时间后,推荐系统发现数据还不错,开始新一轮的流量分发。6、再过一段时间,平台的流量分发完毕,各种数据趋于稳定,文章最终被沉淀到平台。7、搜索引擎开始发挥作用,时不时有用户通过搜索进入文章,带来源源不断的点击量。
上面是一个很简单的流程,实际比这个要复杂很多。

比如风控和审核会在多个阶段介入:

a.正式发布前b.新一轮流量分发前c.被用户举报或者再次编辑后d.平台定期专项整治时

推荐系统会有各种各样的策略影响分发,比如:

a.自定义的优先级b.平台对于视频的偏向性c.一些广告位的插入

搜索引擎只针对开放的平台,封闭的生态起的作用很小。对于封闭的平台,更依赖于平台自带的搜索功能,也是流量作弊的重灾区。

—03—

内容风控系统如何判断文章违规

接下来我们看看风控系统是如何运作的。

风控系统整体上特别复杂,这里给大家看下美团风控系统的架构图:

这里面有个核心功能是「规则平台」,也是大家比较关心的——我的内容到底是因为什么才被判了违规?

一般情况下,平台能收集到的信息维度包括如下几类:

内容维度帐号维度IP维度设备维度

下面展开说说:

1)内容维度

发布的文字、图片、视频内容本身是不是违规,这个其实是最核心的。

对于文字来说,重要的风险维度大致包含以下几类:

检测的方式包括:

关键词匹配正则表达式匹配文本相似度聚类垃圾文本算法

这里面每一类细节都很多,比如关键词直接匹配是最暴力且有效的。但这种规则很容易被绕过。只要中间加个空格,换个繁体字,字母变体,就能轻松绕过。所以文本需要预处理,把这些干扰信息排除掉。

正则表达式匹配也是同样的问题,人工调整的成本过高。

所以现在平台都会运用到机器学习算法去做垃圾文本的识别,这部分的准确率会在95%以上,再结合人工其他的策略去做覆盖,基本上能达到非常高的覆盖率。

除了一些内容违规的场景,还有其他场景也会用到相关策略。

比如一个用户为了达到引流目的,不断发布重复内容。把已发布的文章进行简单的修改后,一稿多投,发布到不同的文章或者不同的提问下。

平台肯定不希望这种重复的内容占用资源,所以会用到文本相似度策略去规避这种行为。文本相似度涉及到的技术概念比较多,这里略过。

总的来说,如果不是大面积修改文章,只是更改部分内容,那么利用文本相似度算法能够快速检测两篇文章是否雷同。论文查重也是同样的技术机制。

在这里再举一个圈友熟悉的例子,视频BY,从一开始的原样BY,到后来需要裁剪,虚化,加背景,加文字才能绕过平台审核,也是因为平台的相似度算法不断迭代的结果。

另外,视频本身是没法直接算相似度的,所以需要通过抽帧截图,比较所有截图的相似度来判断整体视频的相似性。

2)帐号维度

一个帐号后面关联的信息非常多,通过帐号维度,比如注册时间,近期发布的文章,历史违规记录等就能判断帐号的整体质量。

这个维度对于打击黑灰产比较有效,因为它们的帐号很多都是批量注册的,手机号也是虚拟号段,这类帐号成本低,经常会用于批量发布色情广告,批量S赞,S关注。

所以圈友们在冷启动时,如果想在淘宝买这些S赞S粉服务,也需要长个心眼,想想这些帐号的来源是不是真的能给你们带来正向效益。

帐号的安全维度也是需要考量的,黑客通过撞库等各种攻击手段,再结合网上的各种社工库,就会积累大量的帐号密码,这部分再经过暗网等渠道,最终流转到帐号供应商的手里。
所以对于内容创作者来说,尤其应该注意帐号的安全,勤改密码,设置二次验证。不然自己苦心经营的帐号,一旦被盗,心血就会付诸东流。

3)ip维度&设备维度

一个设备可以有多个帐号,一个ip可以有多个设备或帐号。所以如果是一组黑灰产团伙在同一ip下用不同设备或不同账号发布广告的时候,很简单的策略就能命中。

比如下面是比较典型的策略(截图来源网上):

当然大家也不傻,我看很多教知乎好物的教程里面,都会加上一句,不同账号用不同的设备,记得换ip。

是的,这么做确实是提高了检测成本,但是真的没有办法识别吗?其实也未必。

因为你只要跟平台有了交互,那就会有线索。现在很多风控团队会利用大数据+图数据库将不同的行为、帐号、ip、设备关联到一起。很多原本杂乱的行为就会变得清晰,有规律可循。

作为一个内容创作者来说,以一个正常使用者去使用平台,肯定是最安全的。如果确实有些不正常行为的帐号,那尽量和主帐号隔离,防止主账号被误伤。

风险对抗的过程,更是一个成本的博弈。

对于风控系统来说,如果没有办法完全拦截恶意行为的话,那就尽量提高恶意行为的交互成本,比如验证码,短信之类的机制。所以如果频繁触发验证,先看看自己的网络环境是不是安全,以免被风控误伤。

—04—

风控的具体案例

聊聊几个具体的案例吧:
1)爬虫和反爬虫

相信大部分做技术的都写过爬虫,由于国内互联网生态封闭,导致各平台数据想要互通,必须得靠爬虫,特别是内容平台的爬虫流量非常高,而反爬虫本质也是一个成本博弈,所以对于很多高度伪装的爬虫基本上很难拦截。

但这并不意味着爬虫可以肆无忌惮,一些网络安全法律的出台,导致爬虫本身有一定的法律风险。特别是如果还影响被爬平台的利益,那风险就非常大。去年就有人因为爬知识星球的数据被封号。

2)文章回答抱团S赞

这个方面知乎管得比较严,小红书、豆瓣比较宽松,从那些刷S群的报价中就能看出来,知乎报价0.5,其他的可能在0.1左右。

其实S赞这个很难界定,你写了一篇文章发到群里面要个赞,是很普通的做法,也不违规。但如果把它做成产业链,拿它牟利,这部分官方会比较重视。

我记得有些插件专门做这种刷S服务,使用者可能会面临一定的违规风险。
这种行为挺容易被检测出来,S赞的人是大体固定的,一段时间后机器学习就会将这批人分类成一个违规社区,处理只是时间的问题。

—05—

给内容创作者的建议

最后,以个人的角度,给圈友们一些建议:

1)大大方方地暴露品牌

大部分的内容创作者是希望能够在平台实现流量变现,但如果平台没做好这件事,自然会流到其他平台,所以导流其实不可避免。

但平台的一些严苛策略可能会使很多人耍小聪明,加些特殊字符,各种引流话术,企图绕过策略。

这样可能使得本来好好的文章被打上违规标签,一旦被删,就算申诉也很难通过。

其实从平台出发,也不希望流失掉优质创作者,你的内容足够优质,而你的品牌露出确实能更好的证明你的价值,那相信平台也会容忍它存在。

知乎对于引流特别严格,但是也有一些放开的地方,比如用户描述,加网址或者加公众号都没问题。

2)重视新帐号,尽量不要违规

新注册账号肯定是平台最欢迎的,因为它意味着增长,同时这个帐号也可能是未来潜在的创作者,所以在流量分发上肯定是有倾斜。

但是从风控的角度上看,你一个刚注册的三无帐号,更有可能违规,策略也会更严格,所以新帐号不要去做违规操作,好好做内容,收益会更大。

养号不是说每天看几篇文章,点几个赞,最好的养号方式是贡献内容,贡献价值。

3)风控系统会滞后,但可回溯

无论多完善的风控系统,也肯定有漏洞存在,没有一劳永逸的策略。

漏洞从被利用到被发现,完善策略需要一个过程。所以很多付费教程中的一些绕过技巧随着策略的完善就会失效,圈友们也要擦亮眼睛,认真甄别。

可回溯指的是,就算内容发布时没被判定违规,也会因为批量回溯清查的时候,因标准不同而被判违规。

4)内容为王,流量为辅

现在的内容平台都很卷,大家使出浑身解数去争流量,毕竟有了流量才有变现的可能。很多人都想走捷径,想绕过平台管控。但其实最好走的捷径依然是做好内容。结合内容去做合规的运营才能走得长远。

有段时间我痴迷于增长黑客,但后来才发现增长的前提是好产品。

5)相信时间,多尝试

很多人都会抱怨,自己写的文章没有人看,平台就是不给流量,一定是平台的问题。首先平台出问题的可能性是有的,上文我介绍过整个内容的生命周期,这里面随便哪个环节出bug,很可能你的
你能做的是多尝试几次降低偶然性,而不要一下子就放弃。如果尝试多次之后还不行,那很可能内容有问题,平台不认为优质,基本也不会给你流量,就需要考虑换个打法了。

最后感谢生财有术团队的邀请,2022年,祝大家新的一年都能生财有术!!

知识星球

#无标签