English

递归合成数据训练edit

解释模型反复使用早期模型生成数据进行训练的过程。

递归合成数据训练 是指某一代模型生成的数据进入后一代模型训练集的过程。它可能是有意设计的,例如自训练或合成数据自举;也可能是偶然发生的,例如生成内容进入未来训练语料。1

在本 wiki 中的作用edit

本页解释 模型坍缩 背后的过程。它与一般合成数据不同:一次性的合成增强可能有益,但重复复用会放大分布误差。本 wiki 用该页区分机制和结果:递归训练是循环,坍缩是可能的退化结果之一。

与乔鑫宝工作的关系edit

样本选择偏差何以促成模型坍缩 研究局部样本选择偏差下的递归训练。该设置与 AI 与网络 尤其相关,因为数据过程是分布式的:不同参与方看到不同数据、选择不同样本,并且只共享有限信号。递归合成数据训练因此成为跨孤岛可靠性问题,而不仅是生成模型问题。

参见edit

Footnotesedit

  1. 2024 年 Nature 论文 “AI models collapse when trained on recursively generated data” 使递归生成数据导致模型坍缩的表述广为人知。