LongWriter:从长上下文LLMs中释放10000多个单词的生成能力

阿里云创新中心> 创业资讯> LongWriter:从长上下文LLMs中释放10000多个单词的生成能力
0

LongWriter:从长上下文LLMs中释放10000多个单词的生成能力

阎荟 2024-08-14 00:00:00 252
这篇论文《LongWriter: 从长上下文LLMs释放10,000+字的生成》在自然语言处理领域取得了重大进展。它解决了大型语言模型(LLMs)的一个常见限制,即尽管这些模型能够处理大量输入数据,但在生成长篇内容方面存在困难。
这篇论文《LongWriter: 从长上下文LLMs释放10,000+字的生成》在自然语言处理领域取得了重大进展。它解决了大型语言模型(LLMs)的一个常见限制,即尽管这些模型能够处理大量输入数据,但在生成长篇内容方面存在困难。作者们引入了一种名为AgentWrite的新型基于代理的管道,将生成超长文本的任务分解为可管理的子任务。这一创新使标准LLMs能够产生超过20,000字的连贯输出。论文还介绍了LongWriter-6k,这是一个专门设计用于训练模型生成扩展输出的新数据集,以及LongBench-Write,一个用于评估模型在超长文本生成上性能的基准。研究表明,凭借正确的数据,现有的LLMs具有生成比以往更长内容的潜力。这一突破可能对内容创作和AI在各种应用中的能力产生广泛影响。对于那些对语言模型的发展和扩展以及AI生成长篇内容感兴趣的人来说,本文的发现尤为重要。- 当前的长上下文大型语言模型(LLMs)可以处理多达100,000个标记的输入,但很难生成超过2,000个字的输出。 - 模型的有效生成长度受到在监督微调(SFT)期间所见样本的固有限制。 - 输出限制是由现有SFT数据集中长输出示例的稀缺性引起的。 - 引入了AgentWrite,一个基于代理的流水线,将超长生成任务分解为子任务,使得现有的LLMs能够生成超过20,000个字的连贯输出。 - 利用AgentWrite,构建了LongWriter-6k数据集,其中包含6,000个SFT数据,输出长度从2k到32k个字不等。 - 通过将这个数据集纳入模型训练,成功将现有模型的输出长度扩展到超过10,000个字,同时保持输出质量。 - 还开发了LongBench-Write,一个用于评估超长生成能力的综合基准。 - 我们的9B参数模型通过DPO进一步改进,在这个基准上实现了最先进的性能,甚至超过了更大的专有模型。 - 现有的长上下文LLM已经具备了更大输出窗口的潜力,只需要在模型对齐期间使用具有扩展输出的数据来解锁这种能力。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问