超越二元擦除:用于公平性与鲁棒性的软加权遗忘edit
AAAI 2026 论文,研究用于公平性与鲁棒性修正的软加权机器遗忘。
超越二元擦除:用于公平性与鲁棒性的软加权遗忘 是 乔鑫宝、Ningning Ding、Yushi Cheng 和张萌的 AAAI 2026 会议论文。它把机器遗忘重新表述为连续修正问题,而不是只能执行二元擦除。
概述edit
论文研究隐私驱动遗忘与修正驱动遗忘之间的差异。在“被遗忘权”场景中,二元删除很自然:一个样本要么保留,要么移除。但在公平性和鲁棒性修正中,目标往往是降低有害影响,同时保留仍然有用的信号。
论文把硬删除带来的失败模式称为 over-unlearning:直接删除可能改善目标公平性或鲁棒性指标,却损害效用、把偏差推向相反方向,或把边界样本当作极端有害样本处理。
方法edit
方法用连续样本权重替代二元删除权重。它首先估计每个样本对目标指标与效用的影响,然后求解一个凸二次规划得到定制化权重向量。所得权重被用于影响函数式遗忘或相关校正方法,使有害样本能够被下调权重,而不是被统一视为可完全删除。

三阶段流程为:
- 估计每个样本对公平性或鲁棒性目标以及效用的影响;
- 求解连续权重,使目标指标改善,同时约束效用损失;
- 应用加权模型校正,而不是删除固定 top-k 样本集合。
关键公式edit
设 表示样本对公平性或鲁棒性目标的影响, 表示其对效用的影响。软删除权重可通过正则化修正问题得到:
并满足:
随后模型修正采用影响函数更新:
这些约束把该方法与硬 top-k 删除区分开:目标指标必须改善,但不能用不必要的效用退化来换取改善。
结果edit
实验覆盖表格、图像和文本数据集,包括 Adult、Bank、Jigsaw、CelebA 以及 CIFAR 鲁棒性评估。论文报告软加权方法比硬加权方案更稳定地改善公平性或鲁棒性指标,同时降低效用损失。
诊断实验也支持方法动机:leave-one-out 和影响式分析显示,对目标指标有害的样本并不总是对效用有害。因此,“删除或保留”的二元规则对修正驱动遗忘而言过于粗糙。

定位edit
该工作属于 机器遗忘、公平性与鲁棒性、影响函数 和 可信 AI。它补充了 无 Hessian 在线认证遗忘:问题从隐私删除转向细粒度模型修正。