可保持分类器精度的防御词替换攻击的训练方法

杨兴国, 张华,高浩然, 王华伟

sciencepaper_online

Cited 0|Views0

No score

Abstract

文本分类是自然语言处理的一项基本任务，但最先进的NLP模型也会被人类无法感知的转化所愚弄，其中同义词替换是一种最为常用的攻击模型的手段。已有的防御方法主要通过对抗性训练和基于区间边界传播的方式增强模型防御对抗样本的能力，这会降低原始分类器的精度。本文提出了一种防御词替换攻击的模型防御方法DWR，将同义词替换之后的文本加入到模型的训练之中，用相似度损失保证模型编码原始文本和同义词替换文本之间的相似性。实验表明，DWR方法训练得到的模型相比基线模型能够更有效的抵御词替换文本攻击，而且能够增加原始模型的分类精度。

AI Read Science

Must-Reading Tree

Example

Generate MRT to find the research sequence of this paper

Chat Paper

Summary is being generated by the instructions you defined