数据中心 MLedit

关注数据质量、选择、估值、修正和治理的研究专题。

数据中心 ML 是本 wiki 对 data-centric machine learning 的简称。它指的是把数据变化本身作为一阶干预对象的研究，而不仅仅通过修改模型结构来提升性能。相关操作包括选择、剪枝、加权、删除、合成和跨方评估。

引言edit

本页把主要干预来自数据操作的项目放在一起。有些操作发生在训练之后，例如删除和重加权；有些发生在训练前或训练中，例如剪枝、合成数据筛选和跨孤岛评估。该专题连接了乔鑫宝早期机器遗忘工作与当前 AI 与网络方向。

本页解释为什么数据选择、样本选择偏差、合成数据、机器遗忘和协作评估属于同一研究图谱。它们都在追问：当数据过程发生变化时，模型行为如何变化，哪些数据重要，哪些数据会伤害可靠性，以及哪些数据可以在现实成本约束下被忽略。

在乔鑫宝的论文记录中，数据中心 ML 以多种形式出现。机器遗忘中，数据操作是训练后的删除或重加权；模型坍缩工作中，数据操作是递归训练前对真实或合成样本的选择，其中低资源验证场景暴露了本地过滤器可能把稀有有效模式误认为低质量样本的问题。共同主题是让学习系统在真实成本约束下识别“哪些数据重要”。