广告与营销行业的迅速发展,诸如短视频和直播带货、“社交电商”模式崛起、全域流量推广、AIGC(生成式人工智能)技术爆发等,让过去传统单一的搜索广告、推荐广告不足以满足商家和广告主日益增长的营销推广诉求,而变化的背后暗藏着作弊和对抗。为了应对行业的新业务风险、新技术挑战,我们有必要打开思路,探索更适合特定领域的风控解决方案。本文将从广告与营销风控范畴,以及风控立体防御体系2个角度,立体地展示广告与营销领域的风控思路。流量反作弊指的是对营销活动的过程中各个参与方通过流量作弊手段获利的风险防控, 内容风控指的是对营销活动中产生的音频、 视频、 图像、文本等多媒体内容违规情况做风险防控。在互联网行业内,流量就是金钱。在广告与营销推广过程中,各个参与方在流量上都有大量的获利空间和作弊动机。在风控领域,流量反作弊的目标就是检测并识别营销活动中各个参与方的异常行为,坚守营销平台健康的底线,过滤作弊流量,保障正常经营商家、流量提供者和广大互联网普通用户的根本利益和体验。根据流量反作弊中对抗主体对象的不同,流量反作弊可以细分为针对广告主、媒体渠道和用户这三个方面的风控业务领域。- 广告主流量反作弊:在互联网营销平台做商品推广需要付出广告费。广告主层面的获利方式就是以更低的广告成本来获取更高的转化效果,比如通过刷质量分骗模型来恶意竞价,以及恶意超投、刷单炒信、刷单骗补贴等。广告主之间的竞争、营销权益场景机械性薅羊毛爬虫、众包做任务刷单货比三家等行为还会伤害广告主的利益,这也属于广告主流量反作弊的业务风控范畴。
- 媒体渠道流量反作弊:通过自身应用平台为广告主带来流量并获取回报的过程中,媒体渠道(包括头部媒体、流量联盟等)层面往往受到利益驱动,产生制造更多低质量或虚假流量的作弊行为,以欺诈方式获利。因此,媒体渠道流量反作弊的首要目标是准确识别并有效过滤渠道方产生的作弊流量,确保营销活动推广者的合法权益不受侵害。
- 用户流量反作弊:营销平台和商家推出让利活动,用户薅羊毛和充当兼职刷手众包做任务是最常见的获利手段。用户流量反作弊的目标是识别出此类作弊套利行为,保障平台和商家的利益。
内容风控的目标是对营销平台中出现的各种多媒体内容,如音频、视频、图像和文本等,进行有效的风险防控。在互联网营销活动中,内容风险主要来自两个方面:一是能够提供“货”的商家侧,二是作为与商家互动的“人”的用户侧。相比之下,媒体作为流量的“场”,一般不会存在内容风险或违规风险。- 商家内容违规动机:商家入驻营销平台需要合规的营业执照和特定产品的销售许可等证件证明,也即资质问题;在营销过程中,商家为了吸引眼球,通过打色情低俗擦边球、蹭热点、引用敏感事件、夸大虚假文案等方式发布广告引流获客。
- 用户内容违规动机:用户内容违规主要是某些用户在营销参与过程中为了宣泄消极情绪,通过评论、头像、群聊、直播弹幕等方式发布违规内容,如低俗色情、敏感事件等;还有一部分黑产专门去营销平台发布法律红线内容,意图制造出平台内容违法的事实,导致平台被监管约谈甚至关停。
除此以外,还会由于监管部门政策变化或日常监管指令下派导致原来正常推广的内容被重新认定为风险内容,并要求营销平台做风险清理,常见的有突发敏感事件、劣迹艺人违法导致代言内容被要求下架等场景。如图1所示,互联网营销推广活动内容风险主要来源于传统的UGC和PGC、职业化的OGC和人工智能化的AIGC。UGC(User Generated Content,用户生产内容)、PGC(Professionally Generated Content,专业生产内容)是互联网上最常见、规模体量最大的内容生产方式,无论是商家手动制作上传的广告素材、商品图片、推广文案,还是用户对商品的评论、群里交流内容,或者直播间里的直播视频、主播讲解的音频等,都属于这类。特点是开放性强,门槛低,受众广,流量大,能够充分发挥互联网时代的认知盈余。而对于作弊恶意商家而言,其会利用营销平台提供的UGC、PGC内容创作能力制作出各式各样赚取用户眼球的创意、商品文案和图像,这是最常见的内容风险来源。OGC(Occupationally Generated Content,职业生产内容),相对于UGC和PGC,OGC更突出内容生产者的“职业性”,即通过内容生产来获取酬劳。在互联网营销领域,有些中间的代理商承担了这一角色,他们为广告主提供收费服务来帮助广告主制作素材和广告创意等。OGC是运营职业化和代理商兴起之后的产物,是内容风险从单点到规模化的产生来源。AIGC(AI Generated Content,生成式人工智能)是近年随着人工智能技术发展而形成的内容生产方式,通过智能多媒体合成技术生产新的内容。而ChatGPT、StableDiffusion等大模型的出现,更是代表着而生产力的一次巨大飞跃,让内容的生产不再受限于人力成本,不但能够通过和机器批量化生产,还能根据营销用户画像做千人千面的内容生成和展示。不能忽略的是,由于而本身是机器学习模型生成的内容,虽然能够让营销推广内容更加丰富多彩,但是也让生产出来的内容更加不可控,且规模巨大,这无疑给现代内容审核系统提出了更大的挑战。在一定的精准前提约束下,根据业务对风控时效性和召回能力的要求不同,风控系统可分为在线、近线和离线三层,如图2所示。在线风控系统是针对毫秒级响应的同步风控请求而设计的。在线风控链路主要由业务数据库、名单服务、规则表达式引擎、模型服务、设备指纹识别和验证码等场景模块组成。它的主要优点是时效性非常好,但是在风险的全面召回能力方面有所限制。如内容审核场景,执行单机规则表达式判定营销广告主准入资质,可以在非常短的时间内对用户进行风险评估。但由于其快速性,通常只能使用较为简单的规则表达式进行判定。
近线风控系统是针对秒级到分钟级的异步风控请求而设计的。如商家直播间实时直播流的多媒体风险识别,效果介于在线和离线风控系统之间。虽然近线风控系统的时效性不如在线风控系统,但其可以应用更加复杂的算法和模型进行风险识别,因此在召回能力方面要比在线风控系统更强,可以当作在线和离线风控系统的折中选择。常见的近线风控系统架构如图3所示,主要包含消息队列和实时计算引擎两部分。近线风控系统通过消息队列将前端业务请求发送到实时计算引擎,实时计算引擎对请求进行处理和分析,并返回相应的风险判断结果。- 消息队列常用的有的有Kafka、RocketMQ等,能够高效地处理大量数据流,并保证数据的可靠传输。
- 实时计算引擎常用的有Flink、Spark Streaming、Storm等,能够对数据进行实时处理和分析。
离线风控系统是针对小时级到天级别的离线批量风控请求而设计的。如渠道引流按照小时级别或天级别时间窗口过滤异常流量。离线风控系统针对小时级到天级别的批量风控请求能够利用更加全面的上下文数据综合判定异常,因此在风险召回能力方面是最优的,但是时效性相对在线风控系统和近线风控系统略显不足。离线风控系统主要由数据采集和存储与大规模批量计算两大部分构成,如图4所示。数据采集和储存是指实时采集或离线同步服务器中的日志信息,将其写入消息队列主题中,通过消费者接口订阅将数据消费至分布式存储,如HDFS(Hadoop分布式文件系统)、S3(简单存储服务)或OSS(运行支撑系统)等。离线的大规模批量计算是指通过分布式计算引擎(如Hadoop、Spark、MaxCompute等)以批量方式读取分布式存储数据,通过窗口聚合计算、维表Join等、离线批量模型推理等方式得到风控判定结果。本文从相对宏观的角度介绍了互联网广告与营销风控的立体思路,业务整体上划分为流量反作弊和内容风控两大部分,从风控系统的拦截时效性和召回能力视角又可以分为在线、近线和离线互补的三层系统性防御能力,这三层风控系统各有优缺点在实际工业生产应用中,我们通常需要三者相互结合、互相补充来全面提升风控的时效性和召回能力。然而,随着互联网广告与营销业务的发展和风险对抗的不断升级演变,传统的规则引擎方式在应对人工智能时代的新风险上显得越来越力不从心。为了更高效、可持续、规模化、自动化地对抗黑灰产,将机器学习与运维相结合,构建风控MLOps显得尤为重要。如果您对MLOps风控方法感兴趣,想要了解更多人工智能时代背景下的广告营销风控方法,推荐您阅读王东旭老师的新书《广告与营销风控:方法与实践》。作者简介:王东旭,毕业于北京邮电大学,师从国内著名安全组织“幻影旅团”成员luoluo,在2013年通过为多家厂商挖掘、提报安全漏洞成为WooYun社区白帽子。先后在百度垂直搜索部、第四范式先知机器学习平台任职,目前担任阿里巴巴高级技术专家,负责淘宝电商广告流量反作弊和内容风控业务的算法工程方向工作,深耕互联网广告与营销行业一线,对流量反作弊和内容风控背后的利益链条和攻防博弈有丰富的实践经验,带领团队完成了风控引擎的全面升级,打造了百亿流量规模在线、近线、离线互补的互联网电商风控系统。
本文摘编自《广告与营销风控:方法与实践》,经出版方授权发布,转载请保留文章来源。
推荐理由:本书从技术和业务角度全面阐述互联网广告与营销的黑灰产业链,以及应对各种风险的风控思路和解决方案。在业务层面,结合行业发展现状以及当前AIGC技术快速爆发的背景,对广告与营销领域的黑灰产业链进行了深入剖析。在技术层面,基于前置的业务剖析,深入探讨了基于概率统计、近邻算法、图分析和时序分析等异常检测方法,并结合内容风控技术,提供了一套立体的面向互联网广告与营销场景的风控解决方案。