Nature封面:AI训练AI,越训越离谱

阿里云创新中心> 创业资讯> Nature封面:AI训练AI,越训越离谱

Nature封面:AI训练AI,越训越离谱

Micheli 2024-07-26 00:00:00 471
最近在《自然》杂志上发表的一项研究引发了对使用其他人工智能模型生成的数据来训练人工智能系统可能存在风险的担忧。
最近在《自然》杂志上发表的一项研究引发了对使用其他人工智能模型生成的数据来训练人工智能系统可能存在风险的担忧。该研究强调了模型崩溃和产生荒谬输出的危险,强调了在人工智能训练过程中高质量、经过滤的数据的关键性需求。它确定了可能影响人工智能模型的三个主要错误来源:统计逼近、函数表达和函数逼近错误。值得注意的是,研究表明,即使使用原始数据,这些问题也可能导致方差丧失和模型崩溃。作者建议确保可以访问原始数据源,并在递归模型中实施数据过滤以防止这些问题。他们还呼吁增加人工智能社区内的合作,以跟踪人工智能模型中的信息来源。这项研究具有重要意义,因为它挑战了当前人工智能训练的做法,并强调了数据质量和来源透明性的重要性。- 使用AI生成的数据训练大型模型可能导致模型崩溃。 - 模型崩溃是指模型在生成的数据上过度训练,导致模型退化和产生无法挽回的胡言乱语。 - 大型语言模型可能会忽略训练数据集的某些部分,只对部分数据进行训练。 - 模型崩溃分为早期和后期阶段,早期模型在少数数据上表现下降,后期模型完全崩溃。 - 模型崩溃的原因包括统计近似误差、函数表达误差和函数逼近误差。 - 使用其他模型生成的数据进行连续微调时,模型崩溃的现象仍然会发生。 - AI生成的互联网内容可能对模型本身造成毁灭性的影响,导致模型忽略不常见元素和少数群体或观点的代表性减少。 - 访问原始数据源并仔细过滤数据有助于保持模型的准确性。 - 创建大型语言模型的AI社区可以协调合作,追踪输入到模型中的信息来源。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。