哑评学AI--AI投毒

2026-03-17 06:55阅读：

http://blog.sina.cn/dpool/blog/u/1014082595

AI投毒
“AI投毒”并不是指物理上的下毒，而是一个比喻，指通过对人工智能模型的训练数据、算法或交互过程进行恶意攻击，导致模型的行为、输出结果出现偏差、错误或安全隐患的行为。你可以把它想象成污染人工智能的“食物”或“水源”，让它“吃坏肚子”，从而“学坏”或“变笨”。根据攻击发生的阶段和目的，AI投毒主要可以分为以下几种类型：
1. 数据投毒
这是最常见的一种方式，发生在AI模型的训练阶段。AI模型是通过大量数据“学习”出来的。攻击者通过向训练数据集中注入恶意、错误或带有偏见的数据，来“毒害”模型。原理：就像教一个孩子认字，如果你故意给他看错误的拼音和解释，他长大后就会一直用错。攻击者在海量数据中混入精心设计的“坏样本”，让模型学习到错误的关联。目的：创建后门：让模型在遇到某个特定触发条件时，就会执行攻击者的指令，而在平时表现正常，很难被发现。降低准确率：让模型的整体判断能力下降，比如让自动驾驶汽车识别不出停止标志。注入偏见：让模型在涉及性别、种族等问题上产生歧视性结果。
2. 模型投毒
这种攻击更加直接，发生在模型的训练或分发阶段。原理：攻击者直接修改模型的参数、权重或结构。现在很多企业会使用开源的预训练模型进行二次开发，如果下载的源头被污染，或者训练过程被入侵，模型本身就“带毒”。目的：植入恶意逻辑，比如让一个图像识别模型，在看到普通图片时正常工作，但看到一张带有特殊水印的图片时，就将其识别为攻击者指定的内容。
3. 对抗性攻击
这种攻击发生在模型的使用（推理）阶段。原理：攻击者对输入数据进行肉眼难以察觉的微小修改，诱使模型做出错误判断。目的：欺骗模型。例如：在一张“停止”路牌上贴上几个小黑点，自动驾驶AI就会将其识别为“限速”标志。修改一张熊猫图片的某些像素，

新浪博客

哑评学AI--AI投毒

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼