递归合成数据训练edit
解释模型反复使用早期模型生成数据进行训练的过程。
递归合成数据训练 是指某一代模型生成的数据进入后一代模型训练集的过程。它可能是有意设计的,例如自训练或合成数据自举;也可能是偶然发生的,例如生成内容进入未来训练语料。1
在本 wiki 中的作用edit
本页解释 模型坍缩 背后的过程。它与一般合成数据不同:一次性的合成增强可能有益,但重复复用会放大分布误差。本 wiki 用该页区分机制和结果:递归训练是循环,坍缩是可能的退化结果之一。
与乔鑫宝工作的关系edit
样本选择偏差何以促成模型坍缩 研究局部样本选择偏差下的递归训练。该设置与 AI 与网络 尤其相关,因为数据过程是分布式的:不同参与方看到不同数据、选择不同样本,并且只共享有限信号。递归合成数据训练因此成为跨孤岛可靠性问题,而不仅是生成模型问题。
参见edit
Footnotesedit
-
2024 年 Nature 论文 “AI models collapse when trained on recursively generated data” 使递归生成数据导致模型坍缩的表述广为人知。 ↩