一文看尽三种针对AI系统的攻击技术及防御策略

发布时间：2022-01-09 20:34:16 所属栏目：云计算来源：互联网

导读：本文综述了三种针对人工智能系统的攻击技术对抗性输入、数据中毒攻击及模型窃取技术，在每一种攻击的讨论中都加入了具体例子及防御策略，旨在为所有对利用人工智能进行反滥用防御感兴趣的人提供一个概述。对分类器的高层次攻击可以分为以下三种类型：对抗

本文综述了三种针对人工智能系统的攻击技术——对抗性输入、数据中毒攻击及模型窃取技术，在每一种攻击的讨论中都加入了具体例子及防御策略，旨在为所有对利用人工智能进行反滥用防御感兴趣的人提供一个概述。
对分类器的高层次攻击可以分为以下三种类型：

对抗性输入：这是专门设计的输入，旨在确保被误分类，以躲避检测。对抗性输入包含专门用来躲避防病毒程序的恶意文档和试图逃避垃圾邮件过滤器的电子邮件。

数据中毒攻击：这涉及到向分类器输入对抗性训练数据。我们观察到的最常见的攻击类型是模型偏斜，攻击者以这种方式污染训练数据，使得分类器在归类好数据和坏数据的时候向自己的偏好倾斜。我们在实践中观察到的第二种攻击是反馈武器化(feedback weaponization)，它试图滥用反馈机制来操纵系统将好的内容误分类为滥用类(例如，竞争者的内容或者报复性攻击的一部分)。

模型窃取技术：用来通过黑盒探测「窃取」(即复制)模型或恢复训练数据身份。例如，这可以用来窃取股市预测模型和垃圾邮件过滤模型，以便使用它们或者能够针对这些模型进行更有效的优化。

这篇文章依次探讨了每一类攻击，提供了具体的例子，并且讨论了可能的缓解方法。

这篇文章是关于如何使用人工智能构建鲁棒的反滥用保护系统系列文章中的第四篇，也是最后一篇。第一篇文章解释了为何 AI 是构建鲁棒的保护系统的关键，这种保护用来满足用户期望和日益提升的复杂攻击。在介绍完构建和启动一个基于 AI 的防御系统的自然过程之后，第二篇博文涵盖了与训练分类器相关的挑战。第三篇文章探讨了在生产中使用分类器来阻止攻击的主要困难。

这一系列文章是根据我在 RSA 2018 上的演讲写出来的。

声明：这篇文章旨在为所有对利用人工智能进行反滥用防御感兴趣的人提供一个概述，它是那些正在跳跃观望的人的潜在蓝图。因此，这篇文章侧重于提供一个清晰的高层次总结，有意不深入技术细节。也就是说，如果你是一名专家，我相信你会发现你以前没有听说过的想法、技术和参考资料，希望你会受到启发，并进一步探索它们。

对抗性输入

对手不断用新的输入/有效载荷来探测分类器，试图逃避探测。这种有效载荷被称为对抗性输入，因为它们被明确设计成绕过分类器。

这是一个对抗输入的具体例子：几年前，一个聪明的垃圾邮件发送者意识到，如果同一个 multipart 附件在一封电子邮件中出现多次，Gmail 将只显示上图屏幕截图中可见的最后一个附件。他将这一知识武器化，增加了不可见的第一个 multipart，其中包含许多著名的域，试图逃避检测。此攻击是称为关键字填充的攻击类别的一个变体。

一般来说，分类器迟早会面临两种对抗性输入：变异输入，这是为避开分类器而专门设计的已知攻击的变体;零日输入，这是在有效载荷之前从未见过的。让我们依次探究每一种对抗性输入。

变异输入

在过去的几年里，我们看到地下服务爆炸式增长，这种服务旨在帮助网络犯罪分子制造不可探测的有效载荷，在秘密世界中最有名的是 FUD(完全不可探测的) 有效载荷。这些服务从允许针对所有防病毒软件测试有效负载的测试服务，到旨在以使恶意文档不可检测的方式混淆恶意文档的自动打包程序。上面的截图展示了两个这样的服务。

专门从事有效载荷制造的地下服务的重新出现凸显了这样一个事实:

攻击者主动优化攻击，以确保最小化分类器检测率。

因此，必须开发检测系统，使攻击者难以进行有效负载优化。下面是三个关键的设计策略来帮助实现这一点。

1. 限制信息泄露

这里的目标是确保攻击者在探查你的系统时获得尽可能少的收获。保持反馈最小化并尽可能延迟反馈是很重要的，例如避免返回详细的错误代码或置信度值。

2. 限制探测

此策略的目标是通过限制攻击者针对你的系统测试有效负载的频率来降低攻击者的速度。通过限制攻击者对你的系统执行测试的频率可以有效降低他们设计有害有效负载的速度。

这一策略主要是通过对稀缺资源(如 IP 和帐户)实施速率限制来实现的。这种速率限制的典型例子是要求用户解决验证码，验证他是否发布的太频繁，如上所示。

这种主动限制活动率的负面影响是，它会鼓励不良行为者创建假账户，并使用受损的用户计算机来分散他们的 IP 池。业内广泛使用限速是非常活跃的黑市论坛兴起的一个主要驱动因素，在这些论坛中，账户和 IP 地址被常规出售，如上面的截图所示。

3. 集成学习

最后但同样重要的是，结合各种检测机制，使攻击者更难绕过整个系统。使用集成学习将基于声誉的检测方法、人工智能分类器、检测规则和异常检测等不同类型的检测方法结合起来，提高了系统的鲁棒性，因为不良行为者不得不同时制作避免所有这些机制的有效载荷。

例如，如上面的截图所示，为了确保 Gmail 分类器对垃圾邮件制造者的鲁棒性，我们将多个分类器和辅助系统结合在一起。这样的系统包括声誉系统、大型线性分类器、深度学习分类器和其他一些秘密技术。

（编辑：衢州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2022年的服务器虚拟化	2022年的云计算虚拟化
如何在 2022 年增强 K	为什么边缘计算越来越