合成数据edit

关于合成数据、递归训练、选择偏差和模型坍缩的研究专题。

合成数据 是本 wiki 对乔鑫宝关于生成数据、递归训练和模型坍缩研究的简短专题名。完整研究簇还包括递归合成数据训练、数据选择、样本选择偏差、模型坍缩、数据孤岛和 Wasserstein 几何。¹

引言edit

该专题把合成数据同时视为资源和风险。生成样本可以降低真实数据访问成本、支持隐私友好的工作流，但若被选择后反复用于后续训练，也可能使训练分布逐代变窄。本页记录的核心张力正是偏置本地选择与协作验证之间的关系。

主页只需要用“合成数据”提示研究方向；本页则展开长技术背景。合成样本可能提高覆盖面，也可能在递归使用中放大偏差、抹去模式或扭曲目标分布。因此，本 wiki 同时把合成数据当作可用资产和潜在失效模式。

论文	会议/状态
样本选择偏差何以促成模型坍缩	ICML 2026，2026年7月6日至11日，首尔。

样本选择偏差何以促成模型坍缩研究局部选择偏差如何在数据孤岛下触发递归合成数据训练的坍缩，并使用协作 Wasserstein 风格信号诊断该问题。这把合成数据可靠性连接到 AI 与网络：关键困难不仅是生成质量，也包括各方对目标分布证据的分布式访问。

Shumailov 等人的 “AI models collapse when trained on recursively generated data”（Nature 2024）是递归模型坍缩问题的常见参考。 ↩