GitHub-jshuadvd/LongRoPE:LongRoPE的实现:将LLM上下文窗口扩展到200万代币纸之外

阿里云创新中心> 创业资讯> GitHub-jshuadvd/LongRoPE:LongRoPE的实现:将LLM上下文窗口扩展到200万代币纸之外
0
0

GitHub-jshuadvd/LongRoPE:LongRoPE的实现:将LLM上下文窗口扩展到200万代币纸之外

Micheli 2024-06-16 00:00:00 289
LongRoPE的GitHub存储库提出了一种方法,可以将大型语言模型(LLMs)的上下文窗口扩展到超过200万个标记。这一技术通过使用渐进式扩展策略和位置嵌入调整,能够在不需要对长文本进行大量微调的情况下,实现对上下文的大幅扩展。LongRoPE能够在保持原始上下文大小性能的同时,处理极长的文档,这对于需要处理长文本的任务,如深入文本分析、摘要和少样本学习等,具有重大意义。尽管这个存储库还在开发中,但相关的论文可能会吸引那些希望扩展LLMs能力边界的自然语言处理领域的研究人员和实践者的关注。
LongRoPE的GitHub存储库提出了一种方法,可以将大型语言模型(LLMs)的上下文窗口扩展到超过200万个标记。这一技术通过使用渐进式扩展策略和位置嵌入调整,能够在不需要对长文本进行大量微调的情况下,实现对上下文的大幅扩展。LongRoPE能够在保持原始上下文大小性能的同时,处理极长的文档,这对于需要处理长文本的任务,如深入文本分析、摘要和少样本学习等,具有重大意义。尽管这个存储库还在开发中,但相关的论文可能会吸引那些希望扩展LLMs能力边界的自然语言处理领域的研究人员和实践者的关注。-LongRoPE是一种将大型语言模型(LLM)的上下文窗口扩展到200万个令牌以上的方法。 -它通过识别和利用位置嵌入中的非均匀性来最小化插值过程中的信息损失。 -LongRoPE支持8倍上下文扩展,无需微调。 -它使用256k微调的渐进扩展策略来达到2048k的上下文。 -LongRoPE调整较短上下文的嵌入,以恢复原始窗口大小内的性能。 -它在需要长上下文的任务中保持较低的困惑度并达到较高的准确率。 -LongRoPE可用于上下文学习、长文档摘要和少试学习。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问