GitHub-jshuadvd/LongRoPE：LongRoPE的实现：将LLM上下文窗口扩展到200万代币纸之外

Micheli 2024-06-16 00:00:00 367

LongRoPE的GitHub存储库提出了一种方法，可以将大型语言模型（LLMs）的上下文窗口扩展到超过200万个标记。这一技术通过使用渐进式扩展策略和位置嵌入调整，能够在不需要对长文本进行大量微调的情况下，实现对上下文的大幅扩展。LongRoPE能够在保持原始上下文大小性能的同时，处理极长的文档，这对于需要处理长文本的任务，如深入文本分析、摘要和少样本学习等，具有重大意义。尽管这个存储库还在开发中，但相关的论文可能会吸引那些希望扩展LLMs能力边界的自然语言处理领域的研究人员和实践者的关注。-LongRoPE是一种将大型语言模型（LLM）的上下文窗口扩展到200万个令牌以上的方法。 -它通过识别和利用位置嵌入中的非均匀性来最小化插值过程中的信息损失。 -LongRoPE支持8倍上下文扩展，无需微调。 -它使用256k微调的渐进扩展策略来达到2048k的上下文。 -LongRoPE调整较短上下文的嵌入，以恢复原始窗口大小内的性能。 -它在需要长上下文的任务中保持较低的困惑度并达到较高的准确率。 -LongRoPE可用于上下文学习、长文档摘要和少试学习。

奇绩创坛

>>>了解更多创新创业资讯

登录后可评论

上一篇：YC毕业生RetailReady为一款希望能够帮助品牌节省数十亿美元的人工智能仓库应用筹集了330万美元资金

下一篇：ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

上一篇：YC毕业生RetailReady为一款希望能够帮助品牌节省数十亿美元的人工智能仓库应用筹集了330万美元资金下一篇：ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了