模型坍缩edit
解释递归模型训练中退化性分布漂移的概念页。
模型坍缩 是模型在递归使用生成或有偏数据训练时,逐渐丢失原始数据分布信息的退化过程。坍缩可以表现为模式丢失、多样性下降、类别比例扭曲或样本质量随代际恶化。1
在本 wiki 中的作用edit
本页为更广泛的 合成数据 专题提供失效概念。合成数据并非天然有害;失效取决于生成数据如何被选择、混合和复用。模型坍缩是负面终点,因此激励更谨慎的数据治理和协作验证。
与乔鑫宝工作的关系edit
乔鑫宝的 ICML 2026 论文研究样本选择偏差在何种条件下促成模型坍缩。该工作连接 Wasserstein 几何,因为分布距离可以提供漂移信号;也连接 数据孤岛,因为没有单一参与方掌握完整分布。在传记中,模型坍缩属于更广泛的可靠性议题:即使模型结构不变,数据过程也可能悄然退化模型。
参见edit
Footnotesedit
-
Shumailov 等人在递归生成数据背景下定义了模型坍缩,并在语言模型、变分自编码器和高斯混合模型中报告了该现象。 ↩