We introduce Nemotron-UltraLong-8B, a series of ultra-long context language models designed to process extensive sequences of text (up to 1M, 2M, and 4M tokens) while maintaining competitive performance on standard benchmarks. Built on the Llama-3.1, Ultr

We introduce Nemotron-UltraLong-8B, a series of ultra-long context language models designed to process extensive sequences of text (up to 1M, 2M, and 4M tokens) while maintaining competitive performance on standard benchmarks. Built on the Llama-3.1, Ultr

齐思GPT 2025-04-18 00:00:00 45

Nemotron-UltraLong-8B模型是自然语言处理领域的一项重要进步，特别是在处理超长文本序列方面。这些模型基于Llama-3.1架构，能够处理长达400万个标记的文本序列。它们通过结合持续的预训练和指令调整的系统化训练方法，提高了理解长文本和遵循指令的能力，同时保持了整体性能。这对于分析大量文档或数据集的任务非常重要。这些模型在处理长文本任务方面表现出色，在标准基准测试中也保持了竞争力，对研究人员和从业者来说是非常有价值的工具。作者提供的指南包括使用说明和评估结果，便于用户在工作中应用这些模型。- Nemotron-UltraLong-8B是一系列超长上下文语言模型，能够处理长达1M、2M和4M个标记的文本序列。 - 该模型基于Llama-3.1构建，通过有效的持续预训练和指令调整的训练方法，提高了对长上下文的理解和指令遵循能力。 - 使用transformers >= 4.43.0版本可以进行对话推理，可以通过Transformers pipeline抽象或Auto类结合generate()函数实现。 - 模型在长上下文任务上表现出色，并在标准基准测试上保持竞争力。 - 该模型的最大上下文窗口为4M个标记。

登录后可评论

上一篇：保罗·高蒂尔（@paulgauthier）

下一篇：o3 + GPT-4.1在Aider Polyglot上取得了83%的新高分，超过了它们各自单独运行时的表现，并且比o3单独运行时要便宜得多。

上一篇：保罗·高蒂尔（@paulgauthier）下一篇：o3 + GPT-4.1在Aider Polyglot上取得了83%的新高分，超过了它们各自单独运行时的表现，并且比o3单独运行时要便宜得多。