《内容创作者如何通过了解基本风控知识避坑?》
知识付费 ·
《内容创作者如何通过了解基本风控知识避坑?》
facert2022年01月18日16:58
大家好,我是facert。加入生财有术两期,学了很多东西,对技术产品也有了新的认知。折腾过一些产品,比如开发了几万用户量的浏览器插件,运营公众号和Twitter。我曾经在某大型内容平台做过几年内容风控工程师,负责社区垃圾内容处理引擎的研发。
今天,我想以我过往的工作经验,跟大家分享一些内容风控的干货,并且我也会列举一些风控的典型案例,或许就有你曾经踩过的坑,希望我给出的一些建议能给大家带来帮助。
如果你觉得对你有帮助,欢迎点个赞让我知道呀~
以下是分享目录:1.内容风控是什么?2.内容从提交到发布的生命周期3.内容风控系统如何判断文章违规4.风控的具体案例5.给内容创作者的建议
—01—
内容风控是什么
互联网飞速发展,各大平台在业务崛起的同时,也面临着各种各样的风险。比如帐号密码或者资产被盗、秒杀活动被羊毛党盯上、内容被爬虫恶意爬取、低俗垃圾内容的泛滥。
所以,基本上大型的互联网平台都会有风控团队去保障平台的业务安全。这次主要讲讲内容风控这块,不同的平台可能叫法不一样,有的叫反作弊,也有的叫反垃圾。内容风控主要处理的风险包括:低俗色情、垃圾广告等对社区有害的内容。
当然不同社交平台的风控团队,其职责会有很大差异。如涉政、涉恐、社区言论氛围等负向内容也可能由风控团队统一处置。
由于这几年大部分的内容平台(知乎/豆瓣/小红书/贴吧)都因为内容管控不力被下架处罚过,所以平台对内容风控也日趋严格。很多内容创作者也吃过这方面的亏,写好的文章经常因为内容违规被平台删除或者限流。
除了一些专门的黑灰产团队,通过创造大量垃圾内容来达到恶意引流的目的,我相信大部分的内容创作者是把内容作为第一位,只是不熟悉平台的规范和审核标准,无意触犯规则而被惩罚。
所以,我希望借助这篇文章科普下风控相关的知识,能够帮助真正做内容的人避坑。
首先声明:本文讲解的风控知识都来自于互联网,属于风控技术人员的基本常识。不涉及任意一家内容平台的风控规则。
—02—
内容从提交到发布的生命周期很多人好奇,写完文章点提交后,内容会经历什么才能最终发布。
我们来看下大致的过程: 1、文章提交后首先到达风控系统,做个粗粒度的检查。没问题后往下放行,之后有更严格的检查,有问题的话会触发风控,人工审核或者直接删除。2、接下来,文章进入业务层,它会被打上各种标签,这些标签对应不同的流量池。3、到了流量池以后等待分发,推荐系统会将它分发到对这篇文章感兴趣的用户。4、用户看到文章后,开始对文章评论、点赞、转发。5、一段时间后,推荐系统发现数据还不错,开始新一轮的流量分发。6、再过一段时间,平台的流量分发完毕,各种数据趋于稳定,文章最终被沉淀到平台。7、搜索引擎开始发挥作用,时不时有用户通过搜索进入文章,带来源源不断的点击量。 上面是一个很简单的流程,实际比这个要复杂很多。
比如风控和审核会在多个阶段介入:
a.正式发布前b.新一轮流量分发前c.被用户举报或者再次编辑后d.平台定期专项整治时
推荐系统会有各种各样的策略影响分发,比如:
a.自定义的优先级b.平台对于视频的偏向性c.一些广告位的插入
搜索引擎只针对开放的平台,封闭的生态起的作用很小。对于封闭的平台,更依赖于平台自带的搜索功能,也是流量作弊的重灾区。
—03—
内容风控系统如何判断文章违规
接下来我们看看风控系统是如何运作的。
风控系统整体上特别复杂,这里给大家看下美团风控系统的架构图:
这里面有个核心功能是「规则平台」,也是大家比较关心的——我的内容到底是因为什么才被判了违规?
一般情况下,平台能收集到的信息维度包括如下几类:
内容维度帐号维度IP维度设备维度
下面展开说说:
1)内容维度
发布的文字、图片、视频内容本身是不是违规,这个其实是最核心的。
对于文字来说,重要的风险维度大致包含以下几类:
检测的方式包括:
关键词匹配正则表达式匹配文本相似度聚类垃圾文本算法
这里面每一类细节都很多,比如关键词直接匹配是最暴力且有效的。但这种规则很容易被绕过。只要中间加个空格,换个繁体字,字母变体,就能轻松绕过。所以文本需要预处理,把这些干扰信息排除掉。
正则表达式匹配也是同样的问题,人工调整的成本过高。
所以现在平台都会运用到机器学习算法去做垃圾文本的识别,这部分的准确率会在95%以上,再结合人工其他的策略去做覆盖,基本上能达到非常高的覆盖率。
除了一些内容违规的场景,还有其他场景也会用到相关策略。
比如一个用户为了达到引流目的,不断发布重复内容。把已发布的文章进行简单的修改后,一稿多投,发布到不同的文章或者不同的提问下。
平台肯定不希望这种重复的内容占用资源,所以会用到文本相似度策略去规避这种行为。文本相似度涉及到的技术概念比较多,这里略过。
总的来说,如果不是大面积修改文章,只是更改部分内容,那么利用文本相似度算法能够快速检测两篇文章是否雷同。论文查重也是同样的技术机制。
在这里再举一个圈友熟悉的例子,视频BY,从一开始的原样BY,到后来需要裁剪,虚化,加背景,加文字才能绕过平台审核,也是因为平台的相似度算法不断迭代的结果。
另外,视频本身是没法直接算相似度的,所以需要通过抽帧截图,比较所有截图的相似度来判断整体视频的相似性。
2)帐号维度
一个帐号后面关联的信息非常多,通过帐号维度,比如注册时间,近期发布的文章,历史违规记录等就能判断帐号的整体质量。
这个维度对于打击黑灰产比较有效,因为它们的帐号很多都是批量注册的,手机号也是虚拟号段,这类帐号成本低,经常会用于批量发布色情广告,批量S赞,S关注。
所以圈友们在冷启动时,如果想在淘宝买这些S赞S粉服务,也需要长个心眼,想想这些帐号的来源是不是真的能给你们带来正向效益。
帐号的安全维度也是需要考量的,黑客通过撞库等各种攻击手段,再结合网上的各种社工库,就会积累大量的帐号密码,这部分再经过暗网等渠道,最终流转到帐号供应商的手里。
所以对于内容创作者来说,尤其应该注意帐号的安全,勤改密码,设置二次验证。不然自己苦心经营的帐号,一旦被盗,心血就会付诸东流。
3)ip维度&设备维度
一个设备可以有多个帐号,一个ip可以有多个设备或帐号。所以如果是一组黑灰产团伙在同一ip下用不同设备或不同账号发布广告的时候,很简单的策略就能命中。
比如下面是比较典型的策略(截图来源网上):
当然大家也不傻,我看很多教知乎好物的教程里面,都会加上一句,不同账号用不同的设备,记得换ip。
是的,这么做确实是提高了检测成本,但是真的没有办法识别吗?其实也未必。
因为你只要跟平台有了交互,那就会有线索。现在很多风控团队会利用大数据+图数据库将不同的行为、帐号、ip、设备关联到一起。很多原本杂乱的行为就会变得清晰,有规律可循。
作为一个内容创作者来说,以一个正常使用者去使用平台,肯定是最安全的。如果确实有些不正常行为的帐号,那尽量和主帐号隔离,防止主账号被误伤。
风险对抗的过程,更是一个成本的博弈。
对于风控系统来说,如果没有办法完全拦截恶意行为的话,那就尽量提高恶意行为的交互成本,比如验证码,短信之类的机制。所以如果频繁触发验证,先看看自己的网络环境是不是安全,以免被风控误伤。
—04—
风控的具体案例
聊聊几个具体的案例吧:
1)爬虫和反爬虫
相信大部分做技术的都写过爬虫,由于国内互联网生态封闭,导致各平台数据想要互通,必须得靠爬虫,特别是内容平台的爬虫流量非常高,而反爬虫本质也是一个成本博弈,所以对于很多高度伪装的爬虫基本上很难拦截。
但这并不意味着爬虫可以肆无忌惮,一些网络安全法律的出台,导致爬虫本身有一定的法律风险。特别是如果还影响被爬平台的利益,那风险就非常大。去年就有人因为爬知识星球的数据被封号。
2)文章回答抱团S赞
这个方面知乎管得比较严,小红书、豆瓣比较宽松,从那些刷S群的报价中就能看出来,知乎报价0.5,其他的可能在0.1左右。
其实S赞这个很难界定,你写了一篇文章发到群里面要个赞,是很普通的做法,也不违规。但如果把它做成产业链,拿它牟利,这部分官方会比较重视。
我记得有些插件专门做这种刷S服务,使用者可能会面临一定的违规风险。 这种行为挺容易被检测出来,S赞的人是大体固定的,一段时间后机器学习就会将这批人分类成一个违规社区,处理只是时间的问题。
—05—
给内容创作者的建议
最后,以个人的角度,给圈友们一些建议:
1)大大方方地暴露品牌
大部分的内容创作者是希望能够在平台实现流量变现,但如果平台没做好这件事,自然会流到其他平台,所以导流其实不可避免。
但平台的一些严苛策略可能会使很多人耍小聪明,加些特殊字符,各种引流话术,企图绕过策略。
这样可能使得本来好好的文章被打上违规标签,一旦被删,就算申诉也很难通过。
其实从平台出发,也不希望流失掉优质创作者,你的内容足够优质,而你的品牌露出确实能更好的证明你的价值,那相信平台也会容忍它存在。
知乎对于引流特别严格,但是也有一些放开的地方,比如用户描述,加网址或者加公众号都没问题。
2)重视新帐号,尽量不要违规
新注册账号肯定是平台最欢迎的,因为它意味着增长,同时这个帐号也可能是未来潜在的创作者,所以在流量分发上肯定是有倾斜。
但是从风控的角度上看,你一个刚注册的三无帐号,更有可能违规,策略也会更严格,所以新帐号不要去做违规操作,好好做内容,收益会更大。
养号不是说每天看几篇文章,点几个赞,最好的养号方式是贡献内容,贡献价值。
3)风控系统会滞后,但可回溯
无论多完善的风控系统,也肯定有漏洞存在,没有一劳永逸的策略。
漏洞从被利用到被发现,完善策略需要一个过程。所以很多付费教程中的一些绕过技巧随着策略的完善就会失效,圈友们也要擦亮眼睛,认真甄别。
可回溯指的是,就算内容发布时没被判定违规,也会因为批量回溯清查的时候,因标准不同而被判违规。
4)内容为王,流量为辅
现在的内容平台都很卷,大家使出浑身解数去争流量,毕竟有了流量才有变现的可能。很多人都想走捷径,想绕过平台管控。但其实最好走的捷径依然是做好内容。结合内容去做合规的运营才能走得长远。
有段时间我痴迷于增长黑客,但后来才发现增长的前提是好产品。
5)相信时间,多尝试
很多人都会抱怨,自己写的文章没有人看,平台就是不给流量,一定是平台的问题。首先平台出问题的可能性是有的,上文我介绍过整个内容的生命周期,这里面随便哪个环节出bug,很可能你的
你能做的是多尝试几次降低偶然性,而不要一下子就放弃。如果尝试多次之后还不行,那很可能内容有问题,平台不认为优质,基本也不会给你流量,就需要考虑换个打法了。
最后感谢生财有术团队的邀请,2022年,祝大家新的一年都能生财有术!!