当前位置:首页 > 黑客业务 > 正文内容

对抗垃圾文本:将对抗知识注入语义表征增强模型鲁棒性

访客4年前 (2021-04-15)黑客业务505

人工智能安全是人工智能和信息安全交叉的研究领域,人工智能系统自身的安全性问题一直以来都是工学两界的研究热点,其中,深度学习模型针对对抗样本的固有脆弱性问题尚未得到根本的解决。而在实际场景中,李进锋等阿里安全算法专家经常会遇到大量的恶意用户,通过对抗的手段来规避阿里安全内容风控智能AI系统的检测。

以文本内容风控场景为例,恶意用户可以通过对文本中的违规内容进行变形变异,从而达到绕开模型识别检测的目的。文本对抗门槛低、成本低等特点,导致文本内容风控场景中的对抗博弈异常激烈,这种对抗给智能风控体系带来了巨大挑战。

图1:真实应用场景中的对抗文本(红色字体为变异词)

为了应对这种挑战,以解决对抗场景中风控模型性能衰减的问题,浙江大学与阿里安全图灵实验室提出了基于对抗关系图的文本对抗防御技术(AdvGraph)。

通过长期的攻防对抗,李进锋发现恶意用户进行文本对抗并不是没有章法可循,而这个章法就是知识,如基于人的感知能力和认知能力的形近变异、音近变异。这种对抗变异关系通常是多对多的关系,即一个字可以有多个变体字,同时这个字也可以是多个不同字的变体,并且这种变异关系通常是基于语言学和语音学知识构建的,因此研究者将其称之为对抗知识。

图1:基于对抗关系图的文本对抗防御框架

在本研究中,研究者首次提出了基于图模型来建模对抗知识。研究者首先采用知识+数据驱动的方式,基于语言学和语音学知识来构建对抗关系图,图中的每个节点表示一个字符,如果两个字符音近或者形近,则对应的节点之间形成一条边,表示存在对抗变异关系。

接着,研究者利用图嵌入算法学习每个节点的向量表示来表征对抗关系图中的对抗知识。最后通过融合对抗表征和语义表征实现对抗知识注入,达到增强模型鲁棒性的目的。与与现有的技术相比,阿里安全图灵实验室的优势在于,阿里安全的内容风控系统建模的是对抗关系,这种关系是与场景无关的,因此学到的对抗知识表征是通用的,可以直接复用到各个场景。对抗关系图构建和对抗知识表征可以离线完成,并且只需训练一次即可应用到各个场景;基于对抗关系图,可以解决更复杂的多跳变异问题,如微 (wei) à 威 (wei) à 崴 (wai)。

目前该方法以及发表在ICASSP 2021上。同时,阿里安全团队将防御框架应用到了手机淘宝、旺旺反垃圾场景,取得了不错的应用效果。

不过,研究者改革技术,对抗不断变异的垃圾文本之外,还有令人啼笑皆非的“规则”对抗。

“不到黄河心不死、不撞南墙不回头的对手比较难搞。”李进锋说。

他们曾经遇到一个黑灰产从业者发布引流兼职的垃圾消息,开始时黑灰产明目张胆的发“加微”,很容易就被系统识别拦截了,慢慢地他开始与垃圾信息检测机制对抗,改成发“伽威”,但还是被系统识别拦截了,最后又改成发“伽崴”,可以看到他的整个对抗轨迹是“微”à“威”(音近关系) à“崴”(形近关系),但由于研究者通过对抗关系图建模了这种对抗知识,即便是二跳的变异,也可以轻松搞定。

“故事到这儿还没结束,有一天收到了来自于这哥们儿的投诉工单,说我们‘滥杀无辜’,而且还有截图‘为证’,并且从截图的内容来看,他确实没有发任何违规内容。”李进锋说,当时自己内心是惶恐的,生怕真的拦截错误,所以收到投诉后连忙排查识别链路和处罚记录,看看到底是那个环节出了问题。最后,他却发现这个“用户”之所以又被处罚,还是因为发送垃圾消息“伽莪”,而投诉工单里的截图只是他的障眼法,不得不“佩服”这哥们儿的“勇气”和“机智”。

“也正是因为有了这些毅力坚定的对手,我们再可以不断地打磨我们的防控能力,不断地提升我们的整体防控水位。”李进锋说。

论文作者简介

李进锋,阿里安全算法工程师,浙江大学计算机硕士,主要研究方向为人工智能安全、数据驱动安全、神经网络可解释性,在USENIX Security、NDSS、ICASSP等学术会议上发表多篇论文,目前主要从事内容安全风控相关工作,利用算法技术解决旺旺、手淘交互社区等业务场景中安全和对抗问题。

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:https://therlest.com/106147.html

分享给朋友:

“对抗垃圾文本:将对抗知识注入语义表征增强模型鲁棒性” 的相关文章

什么时候立秋

很快就要到大暑了,之后的节气就是立秋,可能很多人会觉得立秋应该就会进入秋天,天气清爽舒服了,但事实不是这样的,秋天来了还有一个很让人害怕的秋老虎,那大家知道什么时候立秋以及几号立秋吗,接下来大家就随百思特小编一起了解看看~   2020立秋是几月几日 2020年...

猪肉怎么选?颜色有区别吗?今天做饭的时候发现上次买的猪肉颜色跟这

猪肉怎么选?颜色有区别吗?今天做饭的时候发现上次买的猪肉颜色跟这 买猪肉时,根据肉的颜色、外观、气味等可以判断出肉的质量是好还是坏。优质的猪肉,脂肪白而硬,且带有香味。肉的外面往往有一层稍带干燥的膜,肉质紧密,富有弹性,手指压后凹陷处立即复原。 次鲜肉肉色较鲜肉暗,缺乏光泽,脂肪呈灰白色;表面带...

蚯蚓的市场价格 - 2020年蚯蚓收购价格

今年2020年这个价格还算是比较合理,市场价格较为平稳,当地蚯蚓批发价250元/万条,今日浙江海宁地区鲜蚯蚓批发价为17,最高可卖3元/两,每次都-是老家亳州的来回辗转的跑辛苦.货源充足,现在贩子登门收购18-222020元/斤不等。 目前价格多少钱一斤目前价格在8元一斤,是一种营养价值很高的无脊椎...

中铁快运寄件电话 - 中铁快运官方网站

尽快前去领取吧,查询可以来我们,包裹已经到石家庄了,告诉对方所寄何物。广木头箱子费用在及时上百不等。 .网站“中铁快运单号查询系统”留言查询,开始不知道。 中铁快运的,且电话通知无人接听,但是价格也很贵。在哪里寄,中铁快运,电话多少中铁。 打了个电话,K54,徐州中铁快运,你好,木头箱子中铁能提供。...

存储过程oracle(oracle财务系统)

推荐教程:甲骨文教程 本文主要介绍甲骨文中的数据转换。 1.日期转换成字符串(以2016年10月20日为例) 选择to_char(sysdate,& # 39;yyyy-mm-DD hh24:mi:ss & # 39;)strDateTime从dual-获取年-月-日:分:秒-...

宝马3系全下来多少钱 「宝马3系320li落地价」

全国最低价为24点36万,价数字的意思如下:1、一般下来要28下来左右,北京的 裸车是22点5万,字母的意思如下:L是,贵吗.钱2020款宝马。 最不满意的一点,适合追求高配置的消费者了,你会觉得这就是你最正确的选择。王斩2015/07/2023:22:05发表在板凳无事故果断拿下新车落地接近50万...

评论列表

世味雾月
3年前 (2022-07-07)

,当时自己内心是惶恐的,生怕真的拦截错误,所以收到投诉后连忙排查识别链路和处罚记录,看看到底是那个环节出了问题。最后,他却发现这个“用户”之所以又被处罚,还是因为发送垃圾消息“伽莪”,而投诉工单里的截

鹿岛眉妩
3年前 (2022-07-08)

张胆的发“加微”,很容易就被系统识别拦截了,慢慢地他开始与垃圾信息检测机制对抗,改成发“伽威”,但还是被系统识别拦截了,最后又改成发“伽崴”,可以看到他的整个对抗轨迹是“微”à“威”(音近关系) à“崴”(形近关系),但由于研究者通过对抗

绿邪酒奴
3年前 (2022-07-07)

达到绕开模型识别检测的目的。文本对抗门槛低、成本低等特点,导致文本内容风控场景中的对抗博弈异常激烈,这种对抗给智能风控体系带来了巨大挑战。图1:真实应用场景中的对抗文本(红色字体为变异词

可难望笑
3年前 (2022-07-07)

容安全风控相关工作,利用算法技术解决旺旺、手淘交互社区等业务场景中安全和对抗问题。

孤鱼千鲤
3年前 (2022-07-08)

李进锋等阿里安全算法专家经常会遇到大量的恶意用户,通过对抗的手段来规避阿里安全内容风控智能AI系统的检测。以文本内容风控场景为例,恶意用户可以通过对文本中的违规内容进行变形变异,从而达到绕开

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。