AI投毒
“AI投毒”并不是指物理上的下毒,而是一个比喻,指通过对人工智能模型的训练数据、算法或交互过程进行恶意攻击,导致模型的行为、输出结果出现偏差、错误或安全隐患的行为。你可以把它想象成污染人工智能的“食物”或“水源”,让它“吃坏肚子”,从而“学坏”或“变笨”。根据攻击发生的阶段和目的,AI投毒主要可以分为以下几种类型:
1. 数据投毒
这是最常见的一种方式,发生在AI模型的训练阶段。AI模型是通过大量数据“学习”出来的。攻击者通过向训练数据集中注入恶意、错误或带有偏见的数据,来“毒害”模型。原理:就像教一个孩子认字,如果你故意给他看错误的拼音和解释,他长大后就会一直用错。攻击者在海量数据中混入精心设计的“坏样本”,让模型学习到错误的关联。目的:创建后门:让模型在遇到某个特定触发条件时,就会执行攻击者的指令,而在平时表现正常,很难被发现。降低准确率:让模型的整体判断能力下降,比如让自动驾驶汽车识别不出停止标志。注入偏见:让模型在涉及性别、种族等问题上产生歧视性结果。
2. 模型投毒
这种攻击更加直接,发生在模型的训练或分发阶段。原理:攻击者直接修改模型的参数、权重或结构。现在很多企业会使用开源的预训练模型进行二次开发,如果下载的源头被污染,或者训练过程被入侵,模型本身就“带毒”。目的:植入恶意逻辑,比如让一个图像识别模型,在看到普通图片时正常工作,但看到一张带有特殊水印的图片时,就将其识别为攻击者指定的内容。
3. 对抗性攻击
这种攻击发生在模型的使用(推理)阶段。原理:攻击者对输入数据进行肉眼难以察觉的微小修改,诱使模型做出错误判断。目的:欺骗模型。例如:在一张“停止”路牌上贴上几个小黑点,自动驾驶AI就会将其识别为“限速”标志。修改一张熊猫图片的某些像素,
“AI投毒”并不是指物理上的下毒,而是一个比喻,指通过对人工智能模型的训练数据、算法或交互过程进行恶意攻击,导致模型的行为、输出结果出现偏差、错误或安全隐患的行为。你可以把它想象成污染人工智能的“食物”或“水源”,让它“吃坏肚子”,从而“学坏”或“变笨”。根据攻击发生的阶段和目的,AI投毒主要可以分为以下几种类型:
1. 数据投毒
这是最常见的一种方式,发生在AI模型的训练阶段。AI模型是通过大量数据“学习”出来的。攻击者通过向训练数据集中注入恶意、错误或带有偏见的数据,来“毒害”模型。原理:就像教一个孩子认字,如果你故意给他看错误的拼音和解释,他长大后就会一直用错。攻击者在海量数据中混入精心设计的“坏样本”,让模型学习到错误的关联。目的:创建后门:让模型在遇到某个特定触发条件时,就会执行攻击者的指令,而在平时表现正常,很难被发现。降低准确率:让模型的整体判断能力下降,比如让自动驾驶汽车识别不出停止标志。注入偏见:让模型在涉及性别、种族等问题上产生歧视性结果。
2. 模型投毒
这种攻击更加直接,发生在模型的训练或分发阶段。原理:攻击者直接修改模型的参数、权重或结构。现在很多企业会使用开源的预训练模型进行二次开发,如果下载的源头被污染,或者训练过程被入侵,模型本身就“带毒”。目的:植入恶意逻辑,比如让一个图像识别模型,在看到普通图片时正常工作,但看到一张带有特殊水印的图片时,就将其识别为攻击者指定的内容。
3. 对抗性攻击
这种攻击发生在模型的使用(推理)阶段。原理:攻击者对输入数据进行肉眼难以察觉的微小修改,诱使模型做出错误判断。目的:欺骗模型。例如:在一张“停止”路牌上贴上几个小黑点,自动驾驶AI就会将其识别为“限速”标志。修改一张熊猫图片的某些像素,
