数据中心 MLedit
关注数据质量、选择、估值、修正和治理的研究专题。
数据中心 ML 是本 wiki 对 data-centric machine learning 的简称。它指的是把数据变化本身作为一阶干预对象的研究,而不仅仅通过修改模型结构来提升性能。相关操作包括选择、剪枝、加权、删除、合成和跨方评估。
引言edit
本页把主要干预来自数据操作的项目放在一起。有些操作发生在训练之后,例如删除和重加权;有些发生在训练前或训练中,例如剪枝、合成数据筛选和跨孤岛评估。该专题连接了乔鑫宝早期机器遗忘工作与当前 AI 与网络方向。
在本 wiki 中的作用edit
本页解释为什么 数据选择、样本选择偏差、合成数据、机器遗忘 和 协作评估 属于同一研究图谱。它们都在追问:当数据过程发生变化时,模型行为如何变化,哪些数据重要,哪些数据会伤害可靠性,以及哪些数据可以在现实成本约束下被忽略。
论文edit
| 论文 | 会议/状态 |
|---|---|
| 无 Hessian 在线认证遗忘 | ICLR 2025,2025年4月24日至28日,新加坡。 |
| DynFrs:随机森林机器遗忘高效框架 | ICLR 2025,2025年4月24日至28日,新加坡。 |
| 超越二元擦除:用于公平性与鲁棒性的软加权遗忘 | AAAI 2026,2026年1月20日至27日,新加坡。 |
| 样本选择偏差何以促成模型坍缩 | ICML 2026,2026年7月6日至11日,首尔。 |
与乔鑫宝工作的关系edit
在乔鑫宝的论文记录中,数据中心 ML 以多种形式出现。机器遗忘中,数据操作是训练后的删除或重加权;模型坍缩工作中,数据操作是递归训练前对真实或合成样本的选择。共同主题是让学习系统在真实成本约束下识别“哪些数据重要”。